U 1 , U 2 , ..,U k bağımsız standart olsun normal değerler. Dağıtım rastgele değişken K = U 1 2 +U 2 2 + .. + U k 2, ki-kare dağılımı olarak adlandırılır. k serbestlik dereceleri (K~χ 2 (k) yazıyorlar). Bu, pozitif çarpıklığa ve aşağıdaki özelliklere sahip tek modlu bir dağılımdır: mod M=k-2 beklenen değer m=k dağılımı D=2k (Şek.). Yeterli olduğunda büyük önem parametre k dağılım χ 2 (k) parametrelerle yaklaşık olarak normal bir dağılıma sahiptir

Problemleri çözerken matematiksel istatistik kritik noktalar χ 2 (k) bağlı olarak kullanılır verilen olasılıkα ve serbestlik derecesi sayısı k(Ek 2). Kritik nokta Χ 2 kr = Χ 2 (k; α), bölgenin sınırıdır ve sağında dağılım yoğunluk eğrisi altındaki alanın %100-α'sı bulunur. Test sırasında rastgele değişken K~χ 2 (k) değerinin χ 2 (k) noktasının sağına düşme olasılığı α P(K≥χ 2 kp)≤ α) değerini geçmez. Örneğin, bir rastgele değişken K~χ 2 (20) için olasılığı α=0.05 olarak belirledik. tabloya göre kritik noktalar dağılımı "ki-kare" (tablolar) χ 2 kp = χ 2 (20;0.05)=31.4 buluyoruz. Yani bu rastgele değişkenin olasılığı K 31.4'ten büyük, 0.05'ten küçük bir değer alın (Şek.).

Pirinç. Serbestlik derecesi sayısının çeşitli değerleri için dağılım yoğunluğunun grafiği χ 2 (k) k

Kritik noktalar χ 2 (k) aşağıdaki hesaplayıcılarda kullanılır:

Çoklu bağlantı kontrolü (çoklu bağlantı hakkında).

Ki-kare hipotez testi sadece “bir ilişki var mı?” sorusuna cevap verecektir. İlişkinin yönünü doğrulamak için daha fazla araştırmaya ihtiyaç vardır. Ayrıca Ki-kare testi düşük frekanslı verilerle çalışırken belirli bir hata veriyor.

Bu nedenle, iletişim yönünü kontrol etmek için seçilir korelasyon analiziözellikle, Pearson korelasyon katsayısını kullanarak hipotezi test etmek ve t-testini kullanarak güvenilirlik için daha fazla test yapmak.

Anlamlılık düzeyindeki herhangi bir değer için α Χ 2, MS Excel işlevi kullanılarak bulunabilir: = XI2OBR (α; serbestlik derecesi)

n-1	.995	.990	.975	.950	.900	.750	.500	.250	.100	.050	.025	.010	.005
1	0.00004	0.00016	0.00098	0.00393	0.01579	0.10153	0.45494	1.32330	2.70554	3.84146	5.02389	6.63490	7.87944
2	0.01003	0.02010	0.05064	0.10259	0.21072	0.57536	1.38629	2.77259	4.60517	5.99146	7.37776	9.21034	10.59663
3	0.07172	0.11483	0.21580	0.35185	0.58437	1.21253	2.36597	4.10834	6.25139	7.81473	9.34840	11.34487	12.83816
4	0.20699	0.29711	0.48442	0.71072	1.06362	1.92256	3.35669	5.38527	7.77944	9.48773	11.14329	13.27670	14.86026
5	0.41174	0.55430	0.83121	1.14548	1.61031	2.67460	4.35146	6.62568	9.23636	11.07050	12.83250	15.08627	16.74960
6	0.67573	0.87209	1.23734	1.63538	2.20413	3.45460	5.34812	7.84080	10.64464	12.59159	14.44938	16.81189	18.54758
7	0.98926	1.23904	1.68987	2.16735	2.83311	4.25485	6.34581	9.03715	12.01704	14.06714	16.01276	18.47531	20.27774
8	1.34441	1.64650	2.17973	2.73264	3.48954	5.07064	7.34412	10.21885	13.36157	15.50731	17.53455	20.09024	21.95495
9	1.73493	2.08790	2.70039	3.32511	4.16816	5.89883	8.34283	11.38875	14.68366	16.91898	19.02277	21.66599	23.58935
10	2.15586	2.55821	3.24697	3.94030	4.86518	6.73720	9.34182	12.54886	15.98718	18.30704	20.48318	23.20925	25.18818
11	2.60322	3.05348	3.81575	4.57481	5.57778	7.58414	10.34100	13.70069	17.27501	19.67514	21.92005	24.72497	26.75685
12	3.07382	3.57057	4.40379	5.22603	6.30380	8.43842	11.34032	14.84540	18.54935	21.02607	23.33666	26.21697	28.29952
13	3.56503	4.10692	5.00875	5.89186	7.04150	9.29907	12.33976	15.98391	19.81193	22.36203	24.73560	27.68825	29.81947
14	4.07467	4.66043	5.62873	6.57063	7.78953	10.16531	13.33927	17.11693	21.06414	23.68479	26.11895	29.14124	31.31935
15	4.60092	5.22935	6.26214	7.26094	8.54676	11.03654	14.33886	18.24509	22.30713	24.99579	27.48839	30.57791	32.80132
16	5.14221	5.81221	6.90766	7.96165	9.31224	11.91222	15.33850	19.36886	23.54183	26.29623	28.84535	31.99993	34.26719
17	5.69722	6.40776	7.56419	8.67176	10.08519	12.79193	16.33818	20.48868	24.76904	27.58711	30.19101	33.40866	35.71847
18	6.26480	7.01491	8.23075	9.39046	10.86494	13.67529	17.33790	21.60489	25.98942	28.86930	31.52638	34.80531	37.15645
19	6.84397	7.63273	8.90652	10.11701	11.65091	14.56200	18.33765	22.71781	27.20357	30.14353	32.85233	36.19087	38.58226
20	7.43384	8.26040	9.59078	10.85081	12.44261	15.45177	19.33743	23.82769	28.41198	31.41043	34.16961	37.56623	39.99685
21	8.03365	8.89720	10.28290	11.59131	13.23960	16.34438	20.33723	24.93478	29.61509	32.67057	35.47888	38.93217	41.40106
22	8.64272	9.54249	10.98232	12.33801	14.04149	17.23962	21.33704	26.03927	30.81328	33.92444	36.78071	40.28936	42.79565
23	9.26042	10.19572	11.68855	13.09051	14.84796	18.13730	22.33688	27.14134	32.00690	35.17246	38.07563	41.63840	44.18128
24	9.88623	10.85636	12.40115	13.84843	15.65868	19.03725	23.33673	28.24115	33.19624	36.41503	39.36408	42.97982	45.55851
25	10.51965	11.52398	13.11972	14.61141	16.47341	19.93934	24.33659	29.33885	34.38159	37.65248	40.64647	44.31410	46.92789
26	11.16024	12.19815	13.84390	15.37916	17.29188	20.84343	25.33646	30.43457	35.56317	38.88514	41.92317	45.64168	48.28988
27	11.80759	12.87850	14.57338	16.15140	18.11390	21.74940	26.33634	31.52841	36.74122	40.11327	43.19451	46.96294	49.64492
28	12.46134	13.56471	15.30786	16.92788	18.93924	22.65716	27.33623	32.62049	37.91592	41.33714	44.46079	48.27824	50.99338
29	13.12115	14.25645	16.04707	17.70837	19.76774	23.56659	28.33613	33.71091	39.08747	42.55697	45.72229	49.58788	52.33562
30	13.78672	14.95346	16.79077	18.49266	20.59923	24.47761	29.33603	34.79974	40.25602	43.77297	46.97924	50.89218	53.67196

Serbestlik derecesi sayısı k	Önem düzeyi a
Serbestlik derecesi sayısı k	0,01	0,025	0.05	0,95	0,975	0.99
1	6.6	5.0	3.8	0.0039	0.00098	0.00016
2	9.2	7.4	6.0	0.103	0.051	0.020
3	11.3	9.4	7.8	0.352	0.216	0.115
4	13.3	11.1	9.5	0.711	0.484	0.297
5	15.1	12.8	11.1	1.15	0.831	0.554
6	16.8	14.4	12.6	1.64	1.24	0.872
7	18.5	16.0	14.1	2.17	1.69	1.24
8	20.1	17.5	15.5	2.73	2.18	1.65
9	21.7	19.0	16.9	3.33	2.70	2.09
10	23.2	20.5	18.3	3.94	3.25	2.56
11	24.7	21.9	19.7	4.57	3.82	3.05
12	26.2	23.3	21 .0	5.23	4.40	3.57
13	27.7	24.7	22.4	5.89	5.01	4.11
14	29.1	26.1	23.7	6.57	5.63	4.66
15	30.6	27.5	25.0	7.26	6.26	5.23
16	32.0	28.8	26.3	7.96	6.91	5.81
17	33.4	30.2	27.6	8.67	7.56	6.41
18	34.8	31.5	28.9	9.39	8.23	7.01
19	36.2	32.9	30.1	10.1	8.91	7.63
20	37.6	34.2	31.4	10.9	9.59	8.26
21	38.9	35.5	32.7	11.6	10.3	8.90
22	40.3	36.8	33.9	12.3	11.0	9.54
23	41.6	38.1	35.2	13.1	11.7	10.2
24	43.0	39.4	36.4	13.8	12.4	10.9
25	44.3	40.6	37.7	14.6	13.1	11.5
26	45.6	41.9	38.9	15.4	13.8	12.2
27	47.0	43.2	40.1	16.2	14.6	12.9
28	48.3	44.5	41.3	16.9	15.3	13.6
29	49.6	45.7	42.6	17.7	16.0	14.3
30	50.9	47.0	43.8	18.5	16.8	15.0

Ki-kare dağılımı

Kullanarak normal dağılımşu anda istatistiksel veri işlemede sıklıkla kullanılan üç dağılım tanımlanmıştır. Bunlar Pearson ("ki - kare"), Student ve Fisher dağılımlarıdır.

Dağıtıma ("ki - kare") odaklanacağız. Bu dağılım ilk olarak 1876'da astronom F. Helmert tarafından incelenmiştir. Gauss hata teorisi ile bağlantılı olarak, n adet bağımsız standart normal dağılımlı rastgele değişkenin karelerinin toplamını inceledi. Daha sonra, Karl Pearson bu dağılım fonksiyonunu "ki-kare" olarak adlandırdı. Ve şimdi dağıtım onun adını taşıyor.

Normal dağılımla yakın ilişkisi nedeniyle h2 dağılımı, olasılık teorisi ve matematiksel istatistikte önemli bir rol oynar. h2 dağılımı ve h2 dağılımı ile tanımlanan diğer birçok dağılım (örneğin, Student dağılımı), normal dağılımlı gözlemlerden çeşitli fonksiyonların örnek dağılımlarını tanımlar ve güven aralıkları ve istatistiksel testler oluşturmak için kullanılır.

Pearson dağılımı (ki - kare) - X1, X2,…, Xn'nin normal bağımsız rastgele değişkenler olduğu ve her birinin matematiksel beklentisinin sıfıra eşit olduğu ve standart sapmanın bir olduğu bir rastgele değişkenin dağılımı.

kareler toplamı

yasaya göre dağıtılır ("ki - kare").

Bu durumda, terim sayısı, yani. n, ki-kare dağılımının "serbestlik derecesi sayısı" olarak adlandırılır. Serbestlik derecesi sayısı arttıkça dağılım yavaş yavaş normale yaklaşır.

Bu dağılımın yoğunluğu

Bu nedenle, h2'nin dağılımı bir parametre n'ye bağlıdır - serbestlik derecesi sayısı.

h2 dağıtım fonksiyonu şu şekildedir:

h2?0 ise. (2.7.)

Şekil 1, farklı serbestlik dereceleri için olasılık yoğunluğunun ve χ2 dağılım fonksiyonunun bir grafiğini göstermektedir.

Şekil 1 Farklı sayıda serbestlik derecesi için h2 (ki - kare) dağılımındaki olasılık yoğunluğunun q (x) bağımlılığı.

"Ki-kare" dağılımının anları:

Ki-kare dağılımı, varyansı tahmin etmede (bir güven aralığı kullanarak), uyuşma, homojenlik, bağımsızlık hipotezlerini test etmede, öncelikle sınırlı sayıda değer alan nitel (kategorize edilmiş) değişkenler için ve diğer birçok görevde kullanılır. istatistiksel analiz veri.

İstatistiksel veri analizi problemlerinde "ki-kare"

İstatistiksel veri analizi yöntemleri, insan faaliyetinin hemen hemen tüm alanlarında kullanılmaktadır. Bir grup (nesneler veya özneler) hakkında içsel heterojenliğe sahip herhangi bir yargıyı elde etmek ve doğrulamak gerektiğinde kullanılırlar.

Modern gelişim aşaması istatistiksel yöntemlerİngiliz K. Pearson'ın "Biometrika" dergisini kurduğu 1900'den itibaren sayılabilir. 20. yüzyılın ilk üçte biri parametrik istatistiklerin işareti altında geçti. Pearson ailesi eğrileri tarafından tanımlanan dağılımların parametrik ailelerinden elde edilen verilerin analizine dayalı yöntemler incelenmiştir. En popüler olanı normal dağılımdı. Hipotezleri test etmek için Pearson, Student ve Fisher kriterleri kullanıldı. Maksimum olabilirlik yöntemi, varyans analizi önerildi ve deneyi planlamak için ana fikirler formüle edildi.

Ki-kare dağılımı, test için istatistikte en yaygın kullanılanlardan biridir. istatistiksel hipotezler. En güçlü uyum iyiliği testlerinden biri olan "ki-kare" dağılımına dayalı olarak Pearson'ın "ki-kare" testi oluşturulmuştur.

Uyum iyiliği testi, bilinmeyen dağılımın önerilen yasası hakkındaki hipotezi test etmek için bir kriterdir.

p2 ("ki-kare") testi, farklı dağılımların hipotezini test etmek için kullanılır. Bu onun liyakatidir.

Kriterin hesaplama formülü şuna eşittir:

burada m ve m" sırasıyla ampirik ve teorik frekanslardır.

düşünülen dağıtım;

n, serbestlik derecesi sayısıdır.

Doğrulama için ampirik (gözlemlenen) ve teorik (normal dağılım varsayımı altında hesaplanan) frekansları karşılaştırmamız gerekir.

Ampirik frekanslar, hesaplanan veya beklenen frekanslarla tamamen örtüşüyorsa, S (E - T) = 0 ve ch2 kriteri de sıfıra eşit olacaktır. S (E - T) sıfıra eşit değilse, bu hesaplanan frekanslar ile serinin ampirik frekansları arasında bir uyumsuzluk olduğunu gösterecektir. Bu gibi durumlarda teorik olarak sıfırdan sonsuza kadar değişebilen p2 kriterinin önemini değerlendirmek gerekir. Bu, ch2f'nin fiilen elde edilen değeri ile kritik değeri (ch2st) (a) ve serbestlik derecesi sayısı (n) karşılaştırılarak yapılır.

Rastgele değişken h2'nin olası değerlerinin dağılımı sürekli ve asimetriktir. Serbestlik derecesine (n) bağlıdır ve gözlem sayısı arttıkça normal dağılıma yaklaşır. Bu nedenle, değerlendirmeye p2 kriterinin uygulanması ayrık dağılımlarözellikle küçük örnekler için değerini etkileyen bazı hatalarla ilişkilidir. Daha doğru tahminler elde etmek için, dağıtılan örnek varyasyon serisi, en az 50 seçeneğe sahip olmalıdır. Doğru Uygulama p2 kriteri ayrıca uç sınıflardaki varyantların frekanslarının 5'ten az olmamasını gerektirir; 5'ten az varsa, toplam miktarları 5'e eşit veya daha büyük olacak şekilde komşu sınıfların frekansları ile birleştirilirler. Frekansların birleşimine göre, sınıf sayısı (N) da azalır. Serbestlik derecesi sayısı, değişkenlik özgürlüğü üzerindeki kısıtlamaların sayısı dikkate alınarak ikincil sınıf sayısına göre belirlenir.

p2 kriterinin belirlenmesinin doğruluğu büyük ölçüde teorik frekansların (T) hesaplanmasının doğruluğuna bağlı olduğundan, ampirik ve hesaplanmış frekanslar arasındaki farkı elde etmek için yuvarlatılmamış teorik frekanslar kullanılmalıdır.

Örnek olarak, beşeri bilimlerde istatistiksel yöntemlerin uygulanmasına adanmış bir web sitesinde yayınlanan bir çalışmayı ele alalım.

Ki-kare testi, normal dağılmış olsun ya da olmasın, frekans dağılımlarının karşılaştırılmasını sağlar.

Sıklık, bir olayın meydana gelme sayısını ifade eder. Genellikle, bir olayın meydana gelme sıklığı, değişkenler isim ölçeğinde ölçüldüğünde ve sıklık dışındaki diğer özelliklerin seçilmesi imkansız veya sorunlu olduğunda ele alınır. Başka bir deyişle, değişken niteliksel özelliklere sahip olduğunda. Ayrıca, birçok araştırmacı test puanlarını seviyelere (yüksek, orta, düşük) çevirme ve bu seviyelerdeki insan sayısını bulmak için puan dağılım tabloları oluşturma eğilimindedir. Düzeylerden birinde (kategorilerden birinde) insan sayısının gerçekten daha fazla (daha az) olduğunu kanıtlamak için Ki-kare katsayısı da kullanılır.

En basit örneğe bir göz atalım.

Genç ergenler arasında bir benlik saygısı testi yapıldı. Test puanları üç seviyeye çevrildi: yüksek, orta, düşük. Frekanslar şu şekilde dağıtıldı:

Yüksek (H) 27 kişi.

Orta (C) 12 kişi

Düşük (H) 11 kişi.

Benlik saygısı yüksek olan çocukların büyük çoğunluğunun, ancak bunun istatistiksel olarak kanıtlanması gerektiği açıktır. Bunu yapmak için Ki-kare testini kullanıyoruz.

Görevimiz, elde edilen ampirik verilerin teorik olarak eşit derecede olası olanlardan farklı olup olmadığını kontrol etmektir. Bunu yapmak için teorik frekansları bulmak gerekir. Bizim durumumuzda teorik frekanslar, tüm frekansların toplanması ve kategori sayısına bölünmesiyle bulunan eş olasılıklı frekanslardır.

Bizim durumumuzda:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6

Ki-kare testinin hesaplanması için formül:

h2 \u003d? (E - T)? / T

Bir tablo oluşturuyoruz:

ampirik (Ah)	Teorik (T)

Son sütunun toplamını bulun:

Şimdi kritik değerler tablosuna göre kriterin kritik değerini bulmanız gerekiyor (Ekteki Tablo 1). Bunu yapmak için serbestlik derecesi (n) sayısına ihtiyacımız var.

n = (R - 1) * (C - 1)

burada R tablodaki satır sayısıdır, C sütun sayısıdır.

Bizim durumumuzda, yalnızca bir sütun (orijinal ampirik frekanslar anlamına gelir) ve üç satır (kategoriler) vardır, bu nedenle formül değişir - sütunları hariç tutarız.

n = (R - 1) = 3-1 = 2

Hata olasılığı p?0.05 ve n = 2 için kritik değer h2 = 5.99'dur.

Elde edilen ampirik değer kritik değerden büyüktür - frekans farkları önemlidir (n2= 9.64; p≤0.05).

Gördüğünüz gibi kriterin hesaplanması çok basit ve fazla zaman almıyor. Ki-kare testinin pratik değeri çok büyüktür. Bu yöntem, anketlere verilen yanıtların analizinde en değerli olanıdır.

Daha karmaşık bir örnek alalım.

Örneğin, bir psikolog, öğretmenlerin kızlardan çok erkeklere karşı daha önyargılı olduğunun doğru olup olmadığını bilmek ister. Şunlar. kızları övmek daha olasıdır. Bunu yapmak için psikolog, öğretmenler tarafından yazılan öğrencilerin özelliklerini üç kelimenin oluşum sıklığı için analiz etti: "aktif", "çalışkan", "disiplinli", kelimelerin eş anlamlıları da sayıldı. Sözcüklerin ortaya çıkma sıklığına ilişkin veriler tabloya girildi:

Elde edilen verileri işlemek için ki-kare testi kullanıyoruz.

Bunu yapmak için, ampirik frekansların bir dağılım tablosu oluşturuyoruz, yani. gözlemlediğimiz frekanslar:

Teorik olarak, frekansların eşit olarak dağıtılmasını bekliyoruz, yani. sıklık kız ve erkek çocuklar arasında orantılı olarak dağıtılacaktır. Teorik frekansların bir tablosunu oluşturalım. Bunu yapmak için, satır toplamını sütun toplamı ile çarpın ve elde edilen sayıyı toplam toplam(lar)a bölün.

Hesaplamalar için ortaya çıkan tablo şöyle görünecektir:

h2 \u003d? (E - T)? / T

n = (R - 1), burada R tablodaki satır sayısıdır.

Bizim durumumuzda ki-kare = 4.21; n = 2.

Kriterin kritik değerleri tablosuna göre şunları buluyoruz: n = 2 ve 0,05 hata seviyesi ile kritik değer h2 = 5,99.

Ortaya çıkan değer kritik değerden küçüktür, bu da sıfır hipotezinin kabul edildiği anlamına gelir.

Sonuç: Öğretmenler çocuğun özelliklerini yazarken cinsiyetine önem vermemektedir.

Başvuru

Kritik dağıtım noktaları p2

\(\chi^2\) testi ("ki-kare", ayrıca "Pearson'ın uyum iyiliği testi") istatistikte son derece geniş bir uygulamaya sahiptir. AT Genel görünüm gözlemlenen bir rastgele değişkenin belirli bir teorik dağılım yasasına uyması hakkındaki sıfır hipotezini test etmek için kullanıldığını söyleyebiliriz (daha fazla ayrıntı için, örneğin, bakınız). Özel ifade test edilebilir hipotez durumdan duruma değişir.

Bu yazıda, immünolojiden (varsayımsal) bir örnek kullanarak \(\chi^2\) testinin nasıl çalıştığını anlatacağım. Vücuda uygun antikorlar verildiğinde bir mikrobiyal hastalığın gelişimini baskılamanın etkinliğini belirlemek için bir deney yaptığımızı hayal edin. 57 ve 54 hayvan olmak üzere iki gruba ayırdığımız deneye toplamda 111 fare katıldı. Birinci grup farelere patojenik bakteriler enjekte edildi, ardından bu bakterilere karşı antikor içeren kan serumu verildi. İkinci gruptaki hayvanlar kontrol olarak görev yaptı - sadece bakteri enjeksiyonları aldılar. Bir süre kuluçkadan sonra 38 farenin öldüğü ve 73'ünün hayatta kaldığı ortaya çıktı. Ölenlerin 13'ü birinci gruba, 25'i ikinci gruba (kontrol) aitti. bu deneyde test edildi sıfır hipotezi aşağıdaki gibi formüle edilebilir: serumun antikorlarla eklenmesinin farelerin hayatta kalması üzerinde hiçbir etkisi yoktur. Başka bir deyişle, farelerin hayatta kalmasında gözlemlenen farklılıkların (birinci grupta %77.2 ve ikinci grupta %53.7) tamamen rastgele olduğunu ve antikorların hareketi ile ilişkili olmadığını iddia ediyoruz.

Deneyde elde edilen veriler bir tablo şeklinde sunulabilir:

			Toplam
Bakteri + serum
sadece bakteri
Toplam

Bunun gibi tablolara olasılık tabloları denir. Bu örnekte, tablonun boyutu 2x2'dir: iki kritere göre incelenen ("Ölü" ve "Hayatta kalan") iki nesne sınıfı ("Bakteri + serum" ve "Yalnızca Bakteri") vardır. BT en basit durum beklenmedik durum tabloları: elbette hem incelenen sınıfların sayısı hem de özelliklerin sayısı daha fazla olabilir.

Yukarıda formüle edilen boş hipotezi test etmek için, antikorların farelerin hayatta kalması üzerinde gerçekten herhangi bir etkisi olmasaydı durumun ne olacağını bilmemiz gerekir. Başka bir deyişle, hesaplamanız gerekir. beklenen frekanslar beklenmedik durum tablosunun ilgili hücreleri için. Nasıl yapılır? Deneyde toplam 38 fare öldü, bu da farelerin %34,2'si. toplam sayısı ilgili hayvanlar. Antikorların eklenmesi farelerin hayatta kalmasını etkilemiyorsa, her iki deney grubunda da aynı ölüm yüzdesi, yani %34.2 gözlemlenmelidir. 57 ve 54'ün %34.2'sinin ne kadar olduğunu hesaplayarak 19.5 ve 18.5 elde ederiz. Bunlar deney gruplarımızda beklenen ölüm oranlarıdır. Beklenen hayatta kalma oranları benzer şekilde hesaplanır: toplamda 73 fare veya toplam sayısının %65.8'i hayatta kaldığından, beklenen hayatta kalma oranları 37.5 ve 35.5'tir. Şimdi beklenen frekanslarla yeni bir beklenmedik durum tablosu yapalım:

	ölü	hayatta kalanlar	Toplam
Bakteri + serum
sadece bakteri
Toplam

Gördüğünüz gibi, beklenen frekanslar gözlemlenenlerden oldukça farklıdır, yani. antikorların uygulanması, patojenle enfekte olmuş farelerin hayatta kalması üzerinde bir etkiye sahip gibi görünmektedir. Bu izlenimi Pearson'ın uygunluk testi \(\chi^2\) kullanarak ölçebiliriz:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]

Burada \(f_o\) ve \(f_e\) sırasıyla gözlenen ve beklenen frekanslardır. Toplama, tablonun tüm hücreleri üzerinde gerçekleştirilir. Bu nedenle, incelenen örnek için,

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18.5 + (29 – 35,5)^2/35.5 = \]

\(\chi^2\) boş hipotezi reddedecek kadar büyük mü? Bu soruyu cevaplamak için kriterin karşılık gelen kritik değerini bulmak gerekir. \(\chi^2\) için serbestlik derecesi sayısı \(df = (R - 1)(C - 1)\ olarak hesaplanır), burada \(R\) ve \(C\) sayıdır tablo eşleniğindeki satır ve sütun sayısı. Bizim durumumuzda \(df = (2 -1)(2 - 1) = 1\). Serbestlik derecesi sayısını bildiğimize göre, artık standart R-fonksiyonu qchisq() kullanarak kritik değeri \(\chi^2\) kolayca bulabiliriz:

Böylece, bir serbestlik derecesi için, \(\chi^2\) kriterinin değeri, vakaların sadece %5'inde 3.841'i aşmaktadır. Elde ettiğimiz 6.79 değeri, bu kritik değeri önemli ölçüde aşıyor ve bu da bize antikorların verilmesi ile enfekte olmuş farelerin hayatta kalması arasında bir ilişki olmadığı şeklindeki sıfır hipotezini reddetme hakkı veriyor. Bu hipotezi reddederek, %5'ten daha düşük bir olasılıkla yanılma riskimiz var.

\(\chi^2\) kriteri için yukarıdaki formülün, 2x2 boyutundaki beklenmedik durum tablolarıyla çalışırken biraz fazla tahmin edilen değerler verdiğine dikkat edilmelidir. Bunun nedeni, \(\chi^2\) kriterinin kendisinin dağılımının sürekli olması ve ikili özelliklerin ("öldü" / "hayatta kaldı") frekanslarının tanım gereği ayrık olmasıdır. Bu bağlamda, kriteri hesaplarken, sözde olanı tanıtmak gelenekseldir. süreklilik düzeltmesi, veya Yates değişikliği :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearson "Yates ile Ki-kare testi" süreklilik düzeltme verileri : fareler X-kare = 5.7923 , df = 1 , p-değeri = 0.0161

Gördüğünüz gibi, R süreklilik için Yates düzeltmesini otomatik olarak uygular ( Yates'in süreklilik düzeltmesi ile Pearson'ın Ki-kare testi). Program tarafından hesaplanan \(\chi^2\) değeri 5.79213'tür. %1'in biraz üzerinde bir olasılıkla (p-değeri = 0.0161 ) yanlış olma riski altında antikor etkisinin olmadığı sıfır hipotezini reddedebiliriz.

Ki-kare dağılımı, istatistiksel hipotezleri test etmek için istatistikte en yaygın kullanılanlardan biridir. En güçlü uyum iyiliği testlerinden biri olan "ki-kare" dağılımına dayalı olarak Pearson'ın "ki-kare" testi oluşturulmuştur.

Uyum iyiliği testi, bilinmeyen dağılımın önerilen yasası hakkındaki hipotezi test etmek için bir kriterdir.

χ2 ("ki-kare") testi, farklı dağılımların hipotezini test etmek için kullanılır. Bu onun liyakatidir.

Kriterin hesaplama formülü şuna eşittir:

burada m ve m' sırasıyla ampirik ve teorik frekanslardır

düşünülen dağıtım;

n, serbestlik derecesi sayısıdır.

Doğrulama için ampirik (gözlemlenen) ve teorik (normal dağılım varsayımı altında hesaplanan) frekansları karşılaştırmamız gerekir.

Ampirik frekanslar hesaplanan veya beklenen frekanslarla tamamen örtüşüyorsa, S (E - T) = 0 ve χ2 kriteri de sıfıra eşit olacaktır. S (E - T) sıfıra eşit değilse, bu hesaplanan frekanslar ile serinin ampirik frekansları arasında bir uyumsuzluk olduğunu gösterecektir. Bu gibi durumlarda teorik olarak sıfırdan sonsuza kadar değişebilen χ2 kriterinin önemini değerlendirmek gerekir. Bu, gerçekte elde edilen χ2ph değeri ile kritik değeri (χ2st) karşılaştırılarak yapılır.Boş hipotez, yani ampirik ve teorik veya beklenen frekanslar arasındaki farklılığın rastgele olduğu varsayımı, χ2ph'den büyük veya eşitse reddedilir. kabul edilen anlamlılık düzeyi (a) ve serbestlik derecesi sayısı (n) için χ2'ye kadar.

Rastgele değişken χ2'nin olası değerlerinin dağılımı sürekli ve asimetriktir. Serbestlik derecesine (n) bağlıdır ve gözlem sayısı arttıkça normal dağılıma yaklaşır. Bu nedenle, kesikli dağılımların tahmininde χ2 kriterinin uygulanması, özellikle küçük örnekler için değerini etkileyen bazı hatalarla ilişkilidir. Daha doğru tahminler elde etmek için varyasyon serisinde dağıtılan numunenin en az 50 seçeneği olmalıdır. χ2 kriterinin doğru uygulanması ayrıca uç sınıflardaki varyantların frekanslarının 5'ten az olmamasını gerektirir; 5'ten az varsa, toplam miktarları 5'e eşit veya daha büyük olacak şekilde komşu sınıfların frekansları ile birleştirilirler. Frekansların birleşimine göre, sınıf sayısı (N) da azalır. Serbestlik derecesi sayısı, değişkenlik özgürlüğü üzerindeki kısıtlamaların sayısı dikkate alınarak ikincil sınıf sayısına göre belirlenir.

Kriter χ2'yi belirlemenin doğruluğu büyük ölçüde teorik frekansların (T) hesaplanmasının doğruluğuna bağlı olduğundan, ampirik ve hesaplanmış frekanslar arasındaki farkı elde etmek için yuvarlatılmamış teorik frekanslar kullanılmalıdır.

Örnek olarak, beşeri bilimlerde istatistiksel yöntemlerin uygulanmasına adanmış bir web sitesinde yayınlanan bir çalışmayı ele alalım.

Ki-kare testi, normal dağılmış olsun ya da olmasın, frekans dağılımlarının karşılaştırılmasını sağlar.

En basit örneğe bir göz atalım.

Genç ergenler arasında bir benlik saygısı testi yapıldı. Test puanları üç seviyeye çevrildi: yüksek, orta, düşük. Frekanslar şu şekilde dağıtıldı:

Yüksek (H) 27 kişi.

Orta (C) 12 kişi

Düşük (H) 11 kişi.

Benlik saygısı yüksek olan çocukların büyük çoğunluğunun, ancak bunun istatistiksel olarak kanıtlanması gerektiği açıktır. Bunu yapmak için Ki-kare testini kullanıyoruz.

Bizim durumumuzda:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6

Ki-kare testinin hesaplanması için formül:

χ2 = ∑(E - T)І / T

Bir tablo oluşturuyoruz:

Son sütunun toplamını bulun:

Şimdi kritik değerler tablosuna göre kriterin kritik değerini bulmanız gerekiyor (Ekteki Tablo 1). Bunu yapmak için serbestlik derecesi (n) sayısına ihtiyacımız var.

n = (R - 1) * (C - 1)

burada R tablodaki satır sayısıdır, C sütun sayısıdır.

Bizim durumumuzda, yalnızca bir sütun (orijinal ampirik frekanslar anlamına gelir) ve üç satır (kategoriler) vardır, bu nedenle formül değişir - sütunları hariç tutarız.

n = (R - 1) = 3-1 = 2

Hata olasılığı p≤0,05 ve n = 2 için kritik değer χ2 = 5,99.

Elde edilen ampirik değer kritik değerden büyüktür - frekans farkları önemlidir (χ2= 9.64; p≤0.05).

Daha karmaşık bir örnek alalım.

Elde edilen verileri işlemek için ki-kare testi kullanıyoruz.

Bunu yapmak için, ampirik frekansların bir dağılım tablosu oluşturuyoruz, yani. gözlemlediğimiz frekanslar:

Hesaplamalar için ortaya çıkan tablo şöyle görünecektir:

χ2 = ∑(E - T)І / T

n = (R - 1), burada R tablodaki satır sayısıdır.

Bizim durumumuzda ki-kare = 4.21; n = 2.

Kriterin kritik değerleri tablosuna göre şunları buluyoruz: n = 2 ve 0,05 hata seviyesinde, kritik değer χ2 = 5,99.

Ortaya çıkan değer kritik değerden küçüktür, bu da sıfır hipotezinin kabul edildiği anlamına gelir.

Sonuç: Öğretmenler çocuğun özelliklerini yazarken cinsiyetine önem vermemektedir.

Çözüm.

K. Pearson, matematiksel istatistiklerin (çok sayıda temel kavram) gelişimine önemli bir katkı yaptı. Pearson'ın temel felsefi konumu şu şekilde formüle edilmiştir: bilim kavramları yapay yapılardır, duyusal deneyimi tanımlama ve düzenleme araçlarıdır; onları bilimsel önerilere bağlamanın kuralları, bilim felsefesi olan bilimin grameri tarafından belirlenir. Heterojen kavramları ve fenomenleri birbirine bağlamak, evrensel bir disipline izin verir - Pearson'a göre aynı zamanda öznel olmasına rağmen, uygulamalı istatistikler.

K. Pearson'ın birçok yapısı, antropolojik malzemeler kullanılarak doğrudan ilişkilidir veya geliştirilmiştir. Bilimin her alanında kullanılan çok sayıda sayısal sınıflandırma ve istatistiksel ölçütler geliştirdi.

Edebiyat.

1. A. N. Bogolyubov, Matematik. Mekanik. Biyografik rehber. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A.N., Yushkevich A.P. (ed.). 19. yüzyılın matematiği. - M.: Bilim. - T.I.

3. 3. Borovkov A.A. Matematik istatistikleri. Moskova: Nauka, 1994.

4. 8. Feller V. Olasılık teorisine giriş ve uygulamaları. - M.: Mir, T.2, 1984.

5. 9. Harman G., Modern faktöriyel analiz. - M.: İstatistikler, 1972.

Dağıtım. Pearson dağılımı Olasılık yoğunluğu ... Wikipedia

ki-kare dağılımı- "ki kare" dağıtımı - Konular bilgi güvenliği EN ki kare dağıtımı ... Teknik Çevirmenin El Kitabı

ki-kare dağılımı- Yoğunluğu formülle verilen, 0'dan değerlere sahip sürekli bir rastgele değişkenin olasılık dağılımı, burada 0 parametresi =1,2,...; gama fonksiyonudur. Örnekler. 1) Bağımsız normalleştirilmiş normal rasgele karelerin toplamı ... ... Sosyolojik İstatistik Sözlüğü

Ki-KARE DAĞILIMI (chi2)- Rastgele değişken chi2'nin dağılımı.Eğer ortalama (ve varyans q2 olan) bir normal dağılımdan 1 büyüklüğündeki rastgele örnekler alınırsa, o zaman chi2 = (X1 u)2/q2, burada X örneklenen değerdir. Örneklem büyüklüğü keyfi olarak artarsa N'ye kadar, sonra chi2 = … …

Olasılık yoğunluğu ... Vikipedi

- (Snedecor dağılımı) Olasılık yoğunluğu ... Wikipedia

Fisher dağılımı Olasılık yoğunluğu Dağılım fonksiyonu ile sayı parametreleri ... Wikipedia

Olasılık teorisi ve matematiksel istatistiğin temel kavramlarından biridir. saat modern yaklaşım matematiksel olarak incelenen rastgele fenomen modeli, karşılık gelen olasılık alanı (W, S, P) alınır, burada W, temel ... Matematiksel Ansiklopedi

Gama dağılımı Olasılık yoğunluğu Dağılım fonksiyonu Parametreler ... Wikipedia

F DAĞILIMI- Bir rasgele değişken F'nin teorik olasılık dağılımı. N boyutundaki rasgele örnekler normal bir popülasyondan bağımsız olarak seçilirse, bunların her biri bir serbestlik derecesi = N olan bir ki-kare dağılımı üretir. Böyle ikisinin oranı ... . .. Sözlük psikolojide

Kitabın

Problemlerde Olasılık Teorisi ve Matematiksel İstatistik. 360'tan fazla görev ve alıştırma, Borzykh D.A. Önerilen kılavuz görevleri içerir farklı seviyeler zorluklar. Bununla birlikte, ana vurgu orta karmaşıklıktaki görevlere verilir. Bu kasıtlı olarak öğrencileri teşvik etmek için yapılır…

Ki kare dağılım örneği. Pearson (ki - kare), Student ve Fisher dağılımları. Ters chi2 dağılım fonksiyonu

Ki-kare dağılımı

İstatistiksel veri analizi problemlerinde "ki-kare"

Kitabın

İlgili Makaleler