Ki kare dağılım örneği. Pearson (ki - kare), Student ve Fisher dağılımları. Ters chi2 dağılım fonksiyonu
U 1 , U 2 , ..,U k bağımsız standart olsun normal değerler. Dağıtım rastgele değişken K = U 1 2 +U 2 2 + .. + U k 2, ki-kare dağılımı olarak adlandırılır. k serbestlik dereceleri (K~χ 2 (k) yazıyorlar). Bu, pozitif çarpıklığa ve aşağıdaki özelliklere sahip tek modlu bir dağılımdır: mod M=k-2 beklenen değer m=k dağılımı D=2k (Şek.). Yeterli olduğunda büyük önem parametre k dağılım χ 2 (k) parametrelerle yaklaşık olarak normal bir dağılıma sahiptir
Problemleri çözerken matematiksel istatistik kritik noktalar χ 2 (k) bağlı olarak kullanılır verilen olasılıkα ve serbestlik derecesi sayısı k(Ek 2). Kritik nokta Χ 2 kr = Χ 2 (k; α), bölgenin sınırıdır ve sağında dağılım yoğunluk eğrisi altındaki alanın %100-α'sı bulunur. Test sırasında rastgele değişken K~χ 2 (k) değerinin χ 2 (k) noktasının sağına düşme olasılığı α P(K≥χ 2 kp)≤ α) değerini geçmez. Örneğin, bir rastgele değişken K~χ 2 (20) için olasılığı α=0.05 olarak belirledik. tabloya göre kritik noktalar dağılımı "ki-kare" (tablolar) χ 2 kp = χ 2 (20;0.05)=31.4 buluyoruz. Yani bu rastgele değişkenin olasılığı K 31.4'ten büyük, 0.05'ten küçük bir değer alın (Şek.).
Pirinç. Serbestlik derecesi sayısının çeşitli değerleri için dağılım yoğunluğunun grafiği χ 2 (k) k
Kritik noktalar χ 2 (k) aşağıdaki hesaplayıcılarda kullanılır:
- Çoklu bağlantı kontrolü (çoklu bağlantı hakkında).
Bu nedenle, iletişim yönünü kontrol etmek için seçilir korelasyon analiziözellikle, Pearson korelasyon katsayısını kullanarak hipotezi test etmek ve t-testini kullanarak güvenilirlik için daha fazla test yapmak.
Anlamlılık düzeyindeki herhangi bir değer için α Χ 2, MS Excel işlevi kullanılarak bulunabilir: = XI2OBR (α; serbestlik derecesi)
n-1 | .995 | .990 | .975 | .950 | .900 | .750 | .500 | .250 | .100 | .050 | .025 | .010 | .005 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.00004 | 0.00016 | 0.00098 | 0.00393 | 0.01579 | 0.10153 | 0.45494 | 1.32330 | 2.70554 | 3.84146 | 5.02389 | 6.63490 | 7.87944 |
2 | 0.01003 | 0.02010 | 0.05064 | 0.10259 | 0.21072 | 0.57536 | 1.38629 | 2.77259 | 4.60517 | 5.99146 | 7.37776 | 9.21034 | 10.59663 |
3 | 0.07172 | 0.11483 | 0.21580 | 0.35185 | 0.58437 | 1.21253 | 2.36597 | 4.10834 | 6.25139 | 7.81473 | 9.34840 | 11.34487 | 12.83816 |
4 | 0.20699 | 0.29711 | 0.48442 | 0.71072 | 1.06362 | 1.92256 | 3.35669 | 5.38527 | 7.77944 | 9.48773 | 11.14329 | 13.27670 | 14.86026 |
5 | 0.41174 | 0.55430 | 0.83121 | 1.14548 | 1.61031 | 2.67460 | 4.35146 | 6.62568 | 9.23636 | 11.07050 | 12.83250 | 15.08627 | 16.74960 |
6 | 0.67573 | 0.87209 | 1.23734 | 1.63538 | 2.20413 | 3.45460 | 5.34812 | 7.84080 | 10.64464 | 12.59159 | 14.44938 | 16.81189 | 18.54758 |
7 | 0.98926 | 1.23904 | 1.68987 | 2.16735 | 2.83311 | 4.25485 | 6.34581 | 9.03715 | 12.01704 | 14.06714 | 16.01276 | 18.47531 | 20.27774 |
8 | 1.34441 | 1.64650 | 2.17973 | 2.73264 | 3.48954 | 5.07064 | 7.34412 | 10.21885 | 13.36157 | 15.50731 | 17.53455 | 20.09024 | 21.95495 |
9 | 1.73493 | 2.08790 | 2.70039 | 3.32511 | 4.16816 | 5.89883 | 8.34283 | 11.38875 | 14.68366 | 16.91898 | 19.02277 | 21.66599 | 23.58935 |
10 | 2.15586 | 2.55821 | 3.24697 | 3.94030 | 4.86518 | 6.73720 | 9.34182 | 12.54886 | 15.98718 | 18.30704 | 20.48318 | 23.20925 | 25.18818 |
11 | 2.60322 | 3.05348 | 3.81575 | 4.57481 | 5.57778 | 7.58414 | 10.34100 | 13.70069 | 17.27501 | 19.67514 | 21.92005 | 24.72497 | 26.75685 |
12 | 3.07382 | 3.57057 | 4.40379 | 5.22603 | 6.30380 | 8.43842 | 11.34032 | 14.84540 | 18.54935 | 21.02607 | 23.33666 | 26.21697 | 28.29952 |
13 | 3.56503 | 4.10692 | 5.00875 | 5.89186 | 7.04150 | 9.29907 | 12.33976 | 15.98391 | 19.81193 | 22.36203 | 24.73560 | 27.68825 | 29.81947 |
14 | 4.07467 | 4.66043 | 5.62873 | 6.57063 | 7.78953 | 10.16531 | 13.33927 | 17.11693 | 21.06414 | 23.68479 | 26.11895 | 29.14124 | 31.31935 |
15 | 4.60092 | 5.22935 | 6.26214 | 7.26094 | 8.54676 | 11.03654 | 14.33886 | 18.24509 | 22.30713 | 24.99579 | 27.48839 | 30.57791 | 32.80132 |
16 | 5.14221 | 5.81221 | 6.90766 | 7.96165 | 9.31224 | 11.91222 | 15.33850 | 19.36886 | 23.54183 | 26.29623 | 28.84535 | 31.99993 | 34.26719 |
17 | 5.69722 | 6.40776 | 7.56419 | 8.67176 | 10.08519 | 12.79193 | 16.33818 | 20.48868 | 24.76904 | 27.58711 | 30.19101 | 33.40866 | 35.71847 |
18 | 6.26480 | 7.01491 | 8.23075 | 9.39046 | 10.86494 | 13.67529 | 17.33790 | 21.60489 | 25.98942 | 28.86930 | 31.52638 | 34.80531 | 37.15645 |
19 | 6.84397 | 7.63273 | 8.90652 | 10.11701 | 11.65091 | 14.56200 | 18.33765 | 22.71781 | 27.20357 | 30.14353 | 32.85233 | 36.19087 | 38.58226 |
20 | 7.43384 | 8.26040 | 9.59078 | 10.85081 | 12.44261 | 15.45177 | 19.33743 | 23.82769 | 28.41198 | 31.41043 | 34.16961 | 37.56623 | 39.99685 |
21 | 8.03365 | 8.89720 | 10.28290 | 11.59131 | 13.23960 | 16.34438 | 20.33723 | 24.93478 | 29.61509 | 32.67057 | 35.47888 | 38.93217 | 41.40106 |
22 | 8.64272 | 9.54249 | 10.98232 | 12.33801 | 14.04149 | 17.23962 | 21.33704 | 26.03927 | 30.81328 | 33.92444 | 36.78071 | 40.28936 | 42.79565 |
23 | 9.26042 | 10.19572 | 11.68855 | 13.09051 | 14.84796 | 18.13730 | 22.33688 | 27.14134 | 32.00690 | 35.17246 | 38.07563 | 41.63840 | 44.18128 |
24 | 9.88623 | 10.85636 | 12.40115 | 13.84843 | 15.65868 | 19.03725 | 23.33673 | 28.24115 | 33.19624 | 36.41503 | 39.36408 | 42.97982 | 45.55851 |
25 | 10.51965 | 11.52398 | 13.11972 | 14.61141 | 16.47341 | 19.93934 | 24.33659 | 29.33885 | 34.38159 | 37.65248 | 40.64647 | 44.31410 | 46.92789 |
26 | 11.16024 | 12.19815 | 13.84390 | 15.37916 | 17.29188 | 20.84343 | 25.33646 | 30.43457 | 35.56317 | 38.88514 | 41.92317 | 45.64168 | 48.28988 |
27 | 11.80759 | 12.87850 | 14.57338 | 16.15140 | 18.11390 | 21.74940 | 26.33634 | 31.52841 | 36.74122 | 40.11327 | 43.19451 | 46.96294 | 49.64492 |
28 | 12.46134 | 13.56471 | 15.30786 | 16.92788 | 18.93924 | 22.65716 | 27.33623 | 32.62049 | 37.91592 | 41.33714 | 44.46079 | 48.27824 | 50.99338 |
29 | 13.12115 | 14.25645 | 16.04707 | 17.70837 | 19.76774 | 23.56659 | 28.33613 | 33.71091 | 39.08747 | 42.55697 | 45.72229 | 49.58788 | 52.33562 |
30 | 13.78672 | 14.95346 | 16.79077 | 18.49266 | 20.59923 | 24.47761 | 29.33603 | 34.79974 | 40.25602 | 43.77297 | 46.97924 | 50.89218 | 53.67196 |
Serbestlik derecesi sayısı k | Önem düzeyi a | |||||
0,01 | 0,025 | 0.05 | 0,95 | 0,975 | 0.99 | |
1 | 6.6 | 5.0 | 3.8 | 0.0039 | 0.00098 | 0.00016 |
2 | 9.2 | 7.4 | 6.0 | 0.103 | 0.051 | 0.020 |
3 | 11.3 | 9.4 | 7.8 | 0.352 | 0.216 | 0.115 |
4 | 13.3 | 11.1 | 9.5 | 0.711 | 0.484 | 0.297 |
5 | 15.1 | 12.8 | 11.1 | 1.15 | 0.831 | 0.554 |
6 | 16.8 | 14.4 | 12.6 | 1.64 | 1.24 | 0.872 |
7 | 18.5 | 16.0 | 14.1 | 2.17 | 1.69 | 1.24 |
8 | 20.1 | 17.5 | 15.5 | 2.73 | 2.18 | 1.65 |
9 | 21.7 | 19.0 | 16.9 | 3.33 | 2.70 | 2.09 |
10 | 23.2 | 20.5 | 18.3 | 3.94 | 3.25 | 2.56 |
11 | 24.7 | 21.9 | 19.7 | 4.57 | 3.82 | 3.05 |
12 | 26.2 | 23.3 | 21 .0 | 5.23 | 4.40 | 3.57 |
13 | 27.7 | 24.7 | 22.4 | 5.89 | 5.01 | 4.11 |
14 | 29.1 | 26.1 | 23.7 | 6.57 | 5.63 | 4.66 |
15 | 30.6 | 27.5 | 25.0 | 7.26 | 6.26 | 5.23 |
16 | 32.0 | 28.8 | 26.3 | 7.96 | 6.91 | 5.81 |
17 | 33.4 | 30.2 | 27.6 | 8.67 | 7.56 | 6.41 |
18 | 34.8 | 31.5 | 28.9 | 9.39 | 8.23 | 7.01 |
19 | 36.2 | 32.9 | 30.1 | 10.1 | 8.91 | 7.63 |
20 | 37.6 | 34.2 | 31.4 | 10.9 | 9.59 | 8.26 |
21 | 38.9 | 35.5 | 32.7 | 11.6 | 10.3 | 8.90 |
22 | 40.3 | 36.8 | 33.9 | 12.3 | 11.0 | 9.54 |
23 | 41.6 | 38.1 | 35.2 | 13.1 | 11.7 | 10.2 |
24 | 43.0 | 39.4 | 36.4 | 13.8 | 12.4 | 10.9 |
25 | 44.3 | 40.6 | 37.7 | 14.6 | 13.1 | 11.5 |
26 | 45.6 | 41.9 | 38.9 | 15.4 | 13.8 | 12.2 |
27 | 47.0 | 43.2 | 40.1 | 16.2 | 14.6 | 12.9 |
28 | 48.3 | 44.5 | 41.3 | 16.9 | 15.3 | 13.6 |
29 | 49.6 | 45.7 | 42.6 | 17.7 | 16.0 | 14.3 |
30 | 50.9 | 47.0 | 43.8 | 18.5 | 16.8 | 15.0 |
Ki-kare dağılımı
Kullanarak normal dağılımşu anda istatistiksel veri işlemede sıklıkla kullanılan üç dağılım tanımlanmıştır. Bunlar Pearson ("ki - kare"), Student ve Fisher dağılımlarıdır.
Dağıtıma ("ki - kare") odaklanacağız. Bu dağılım ilk olarak 1876'da astronom F. Helmert tarafından incelenmiştir. Gauss hata teorisi ile bağlantılı olarak, n adet bağımsız standart normal dağılımlı rastgele değişkenin karelerinin toplamını inceledi. Daha sonra, Karl Pearson bu dağılım fonksiyonunu "ki-kare" olarak adlandırdı. Ve şimdi dağıtım onun adını taşıyor.
Normal dağılımla yakın ilişkisi nedeniyle h2 dağılımı, olasılık teorisi ve matematiksel istatistikte önemli bir rol oynar. h2 dağılımı ve h2 dağılımı ile tanımlanan diğer birçok dağılım (örneğin, Student dağılımı), normal dağılımlı gözlemlerden çeşitli fonksiyonların örnek dağılımlarını tanımlar ve güven aralıkları ve istatistiksel testler oluşturmak için kullanılır.
Pearson dağılımı (ki - kare) - X1, X2,…, Xn'nin normal bağımsız rastgele değişkenler olduğu ve her birinin matematiksel beklentisinin sıfıra eşit olduğu ve standart sapmanın bir olduğu bir rastgele değişkenin dağılımı.
kareler toplamı
yasaya göre dağıtılır ("ki - kare").
Bu durumda, terim sayısı, yani. n, ki-kare dağılımının "serbestlik derecesi sayısı" olarak adlandırılır. Serbestlik derecesi sayısı arttıkça dağılım yavaş yavaş normale yaklaşır.
Bu dağılımın yoğunluğu
Bu nedenle, h2'nin dağılımı bir parametre n'ye bağlıdır - serbestlik derecesi sayısı.
h2 dağıtım fonksiyonu şu şekildedir:
h2?0 ise. (2.7.)
Şekil 1, farklı serbestlik dereceleri için olasılık yoğunluğunun ve χ2 dağılım fonksiyonunun bir grafiğini göstermektedir.
Şekil 1 Farklı sayıda serbestlik derecesi için h2 (ki - kare) dağılımındaki olasılık yoğunluğunun q (x) bağımlılığı.
"Ki-kare" dağılımının anları:
Ki-kare dağılımı, varyansı tahmin etmede (bir güven aralığı kullanarak), uyuşma, homojenlik, bağımsızlık hipotezlerini test etmede, öncelikle sınırlı sayıda değer alan nitel (kategorize edilmiş) değişkenler için ve diğer birçok görevde kullanılır. istatistiksel analiz veri.
İstatistiksel veri analizi problemlerinde "ki-kare"
İstatistiksel veri analizi yöntemleri, insan faaliyetinin hemen hemen tüm alanlarında kullanılmaktadır. Bir grup (nesneler veya özneler) hakkında içsel heterojenliğe sahip herhangi bir yargıyı elde etmek ve doğrulamak gerektiğinde kullanılırlar.
Modern gelişim aşaması istatistiksel yöntemlerİngiliz K. Pearson'ın "Biometrika" dergisini kurduğu 1900'den itibaren sayılabilir. 20. yüzyılın ilk üçte biri parametrik istatistiklerin işareti altında geçti. Pearson ailesi eğrileri tarafından tanımlanan dağılımların parametrik ailelerinden elde edilen verilerin analizine dayalı yöntemler incelenmiştir. En popüler olanı normal dağılımdı. Hipotezleri test etmek için Pearson, Student ve Fisher kriterleri kullanıldı. Maksimum olabilirlik yöntemi, varyans analizi önerildi ve deneyi planlamak için ana fikirler formüle edildi.
Ki-kare dağılımı, test için istatistikte en yaygın kullanılanlardan biridir. istatistiksel hipotezler. En güçlü uyum iyiliği testlerinden biri olan "ki-kare" dağılımına dayalı olarak Pearson'ın "ki-kare" testi oluşturulmuştur.
Uyum iyiliği testi, bilinmeyen dağılımın önerilen yasası hakkındaki hipotezi test etmek için bir kriterdir.
p2 ("ki-kare") testi, farklı dağılımların hipotezini test etmek için kullanılır. Bu onun liyakatidir.
Kriterin hesaplama formülü şuna eşittir:
burada m ve m" sırasıyla ampirik ve teorik frekanslardır.
düşünülen dağıtım;
n, serbestlik derecesi sayısıdır.
Doğrulama için ampirik (gözlemlenen) ve teorik (normal dağılım varsayımı altında hesaplanan) frekansları karşılaştırmamız gerekir.
Ampirik frekanslar, hesaplanan veya beklenen frekanslarla tamamen örtüşüyorsa, S (E - T) = 0 ve ch2 kriteri de sıfıra eşit olacaktır. S (E - T) sıfıra eşit değilse, bu hesaplanan frekanslar ile serinin ampirik frekansları arasında bir uyumsuzluk olduğunu gösterecektir. Bu gibi durumlarda teorik olarak sıfırdan sonsuza kadar değişebilen p2 kriterinin önemini değerlendirmek gerekir. Bu, ch2f'nin fiilen elde edilen değeri ile kritik değeri (ch2st) (a) ve serbestlik derecesi sayısı (n) karşılaştırılarak yapılır.
Rastgele değişken h2'nin olası değerlerinin dağılımı sürekli ve asimetriktir. Serbestlik derecesine (n) bağlıdır ve gözlem sayısı arttıkça normal dağılıma yaklaşır. Bu nedenle, değerlendirmeye p2 kriterinin uygulanması ayrık dağılımlarözellikle küçük örnekler için değerini etkileyen bazı hatalarla ilişkilidir. Daha doğru tahminler elde etmek için, dağıtılan örnek varyasyon serisi, en az 50 seçeneğe sahip olmalıdır. Doğru Uygulama p2 kriteri ayrıca uç sınıflardaki varyantların frekanslarının 5'ten az olmamasını gerektirir; 5'ten az varsa, toplam miktarları 5'e eşit veya daha büyük olacak şekilde komşu sınıfların frekansları ile birleştirilirler. Frekansların birleşimine göre, sınıf sayısı (N) da azalır. Serbestlik derecesi sayısı, değişkenlik özgürlüğü üzerindeki kısıtlamaların sayısı dikkate alınarak ikincil sınıf sayısına göre belirlenir.
p2 kriterinin belirlenmesinin doğruluğu büyük ölçüde teorik frekansların (T) hesaplanmasının doğruluğuna bağlı olduğundan, ampirik ve hesaplanmış frekanslar arasındaki farkı elde etmek için yuvarlatılmamış teorik frekanslar kullanılmalıdır.
Örnek olarak, beşeri bilimlerde istatistiksel yöntemlerin uygulanmasına adanmış bir web sitesinde yayınlanan bir çalışmayı ele alalım.
Ki-kare testi, normal dağılmış olsun ya da olmasın, frekans dağılımlarının karşılaştırılmasını sağlar.
Sıklık, bir olayın meydana gelme sayısını ifade eder. Genellikle, bir olayın meydana gelme sıklığı, değişkenler isim ölçeğinde ölçüldüğünde ve sıklık dışındaki diğer özelliklerin seçilmesi imkansız veya sorunlu olduğunda ele alınır. Başka bir deyişle, değişken niteliksel özelliklere sahip olduğunda. Ayrıca, birçok araştırmacı test puanlarını seviyelere (yüksek, orta, düşük) çevirme ve bu seviyelerdeki insan sayısını bulmak için puan dağılım tabloları oluşturma eğilimindedir. Düzeylerden birinde (kategorilerden birinde) insan sayısının gerçekten daha fazla (daha az) olduğunu kanıtlamak için Ki-kare katsayısı da kullanılır.
En basit örneğe bir göz atalım.
Genç ergenler arasında bir benlik saygısı testi yapıldı. Test puanları üç seviyeye çevrildi: yüksek, orta, düşük. Frekanslar şu şekilde dağıtıldı:
Yüksek (H) 27 kişi.
Orta (C) 12 kişi
Düşük (H) 11 kişi.
Benlik saygısı yüksek olan çocukların büyük çoğunluğunun, ancak bunun istatistiksel olarak kanıtlanması gerektiği açıktır. Bunu yapmak için Ki-kare testini kullanıyoruz.
Görevimiz, elde edilen ampirik verilerin teorik olarak eşit derecede olası olanlardan farklı olup olmadığını kontrol etmektir. Bunu yapmak için teorik frekansları bulmak gerekir. Bizim durumumuzda teorik frekanslar, tüm frekansların toplanması ve kategori sayısına bölünmesiyle bulunan eş olasılıklı frekanslardır.
Bizim durumumuzda:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6
Ki-kare testinin hesaplanması için formül:
h2 \u003d? (E - T)? / T
Bir tablo oluşturuyoruz:
ampirik (Ah) |
Teorik (T) |
||
Son sütunun toplamını bulun:
Şimdi kritik değerler tablosuna göre kriterin kritik değerini bulmanız gerekiyor (Ekteki Tablo 1). Bunu yapmak için serbestlik derecesi (n) sayısına ihtiyacımız var.
n = (R - 1) * (C - 1)
burada R tablodaki satır sayısıdır, C sütun sayısıdır.
Bizim durumumuzda, yalnızca bir sütun (orijinal ampirik frekanslar anlamına gelir) ve üç satır (kategoriler) vardır, bu nedenle formül değişir - sütunları hariç tutarız.
n = (R - 1) = 3-1 = 2
Hata olasılığı p?0.05 ve n = 2 için kritik değer h2 = 5.99'dur.
Elde edilen ampirik değer kritik değerden büyüktür - frekans farkları önemlidir (n2= 9.64; p≤0.05).
Gördüğünüz gibi kriterin hesaplanması çok basit ve fazla zaman almıyor. Ki-kare testinin pratik değeri çok büyüktür. Bu yöntem, anketlere verilen yanıtların analizinde en değerli olanıdır.
Daha karmaşık bir örnek alalım.
Örneğin, bir psikolog, öğretmenlerin kızlardan çok erkeklere karşı daha önyargılı olduğunun doğru olup olmadığını bilmek ister. Şunlar. kızları övmek daha olasıdır. Bunu yapmak için psikolog, öğretmenler tarafından yazılan öğrencilerin özelliklerini üç kelimenin oluşum sıklığı için analiz etti: "aktif", "çalışkan", "disiplinli", kelimelerin eş anlamlıları da sayıldı. Sözcüklerin ortaya çıkma sıklığına ilişkin veriler tabloya girildi:
Elde edilen verileri işlemek için ki-kare testi kullanıyoruz.
Bunu yapmak için, ampirik frekansların bir dağılım tablosu oluşturuyoruz, yani. gözlemlediğimiz frekanslar:
Teorik olarak, frekansların eşit olarak dağıtılmasını bekliyoruz, yani. sıklık kız ve erkek çocuklar arasında orantılı olarak dağıtılacaktır. Teorik frekansların bir tablosunu oluşturalım. Bunu yapmak için, satır toplamını sütun toplamı ile çarpın ve elde edilen sayıyı toplam toplam(lar)a bölün.
Hesaplamalar için ortaya çıkan tablo şöyle görünecektir:
h2 \u003d? (E - T)? / T
n = (R - 1), burada R tablodaki satır sayısıdır.
Bizim durumumuzda ki-kare = 4.21; n = 2.
Kriterin kritik değerleri tablosuna göre şunları buluyoruz: n = 2 ve 0,05 hata seviyesi ile kritik değer h2 = 5,99.
Ortaya çıkan değer kritik değerden küçüktür, bu da sıfır hipotezinin kabul edildiği anlamına gelir.
Sonuç: Öğretmenler çocuğun özelliklerini yazarken cinsiyetine önem vermemektedir.
Başvuru
Kritik dağıtım noktaları p2
\(\chi^2\) testi ("ki-kare", ayrıca "Pearson'ın uyum iyiliği testi") istatistikte son derece geniş bir uygulamaya sahiptir. AT Genel görünüm gözlemlenen bir rastgele değişkenin belirli bir teorik dağılım yasasına uyması hakkındaki sıfır hipotezini test etmek için kullanıldığını söyleyebiliriz (daha fazla ayrıntı için, örneğin, bakınız). Özel ifade test edilebilir hipotez durumdan duruma değişir.
Bu yazıda, immünolojiden (varsayımsal) bir örnek kullanarak \(\chi^2\) testinin nasıl çalıştığını anlatacağım. Vücuda uygun antikorlar verildiğinde bir mikrobiyal hastalığın gelişimini baskılamanın etkinliğini belirlemek için bir deney yaptığımızı hayal edin. 57 ve 54 hayvan olmak üzere iki gruba ayırdığımız deneye toplamda 111 fare katıldı. Birinci grup farelere patojenik bakteriler enjekte edildi, ardından bu bakterilere karşı antikor içeren kan serumu verildi. İkinci gruptaki hayvanlar kontrol olarak görev yaptı - sadece bakteri enjeksiyonları aldılar. Bir süre kuluçkadan sonra 38 farenin öldüğü ve 73'ünün hayatta kaldığı ortaya çıktı. Ölenlerin 13'ü birinci gruba, 25'i ikinci gruba (kontrol) aitti. bu deneyde test edildi sıfır hipotezi aşağıdaki gibi formüle edilebilir: serumun antikorlarla eklenmesinin farelerin hayatta kalması üzerinde hiçbir etkisi yoktur. Başka bir deyişle, farelerin hayatta kalmasında gözlemlenen farklılıkların (birinci grupta %77.2 ve ikinci grupta %53.7) tamamen rastgele olduğunu ve antikorların hareketi ile ilişkili olmadığını iddia ediyoruz.
Deneyde elde edilen veriler bir tablo şeklinde sunulabilir:
Toplam |
|||
Bakteri + serum |
|||
sadece bakteri |
|||
Toplam |
Bunun gibi tablolara olasılık tabloları denir. Bu örnekte, tablonun boyutu 2x2'dir: iki kritere göre incelenen ("Ölü" ve "Hayatta kalan") iki nesne sınıfı ("Bakteri + serum" ve "Yalnızca Bakteri") vardır. BT en basit durum beklenmedik durum tabloları: elbette hem incelenen sınıfların sayısı hem de özelliklerin sayısı daha fazla olabilir.
Yukarıda formüle edilen boş hipotezi test etmek için, antikorların farelerin hayatta kalması üzerinde gerçekten herhangi bir etkisi olmasaydı durumun ne olacağını bilmemiz gerekir. Başka bir deyişle, hesaplamanız gerekir. beklenen frekanslar beklenmedik durum tablosunun ilgili hücreleri için. Nasıl yapılır? Deneyde toplam 38 fare öldü, bu da farelerin %34,2'si. toplam sayısı ilgili hayvanlar. Antikorların eklenmesi farelerin hayatta kalmasını etkilemiyorsa, her iki deney grubunda da aynı ölüm yüzdesi, yani %34.2 gözlemlenmelidir. 57 ve 54'ün %34.2'sinin ne kadar olduğunu hesaplayarak 19.5 ve 18.5 elde ederiz. Bunlar deney gruplarımızda beklenen ölüm oranlarıdır. Beklenen hayatta kalma oranları benzer şekilde hesaplanır: toplamda 73 fare veya toplam sayısının %65.8'i hayatta kaldığından, beklenen hayatta kalma oranları 37.5 ve 35.5'tir. Şimdi beklenen frekanslarla yeni bir beklenmedik durum tablosu yapalım:
ölü |
hayatta kalanlar |
Toplam |
|
Bakteri + serum |
|||
sadece bakteri |
|||
Toplam |
Gördüğünüz gibi, beklenen frekanslar gözlemlenenlerden oldukça farklıdır, yani. antikorların uygulanması, patojenle enfekte olmuş farelerin hayatta kalması üzerinde bir etkiye sahip gibi görünmektedir. Bu izlenimi Pearson'ın uygunluk testi \(\chi^2\) kullanarak ölçebiliriz:
\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]
Burada \(f_o\) ve \(f_e\) sırasıyla gözlenen ve beklenen frekanslardır. Toplama, tablonun tüm hücreleri üzerinde gerçekleştirilir. Bu nedenle, incelenen örnek için,
\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18.5 + (29 – 35,5)^2/35.5 = \]
\(\chi^2\) boş hipotezi reddedecek kadar büyük mü? Bu soruyu cevaplamak için kriterin karşılık gelen kritik değerini bulmak gerekir. \(\chi^2\) için serbestlik derecesi sayısı \(df = (R - 1)(C - 1)\ olarak hesaplanır), burada \(R\) ve \(C\) sayıdır tablo eşleniğindeki satır ve sütun sayısı. Bizim durumumuzda \(df = (2 -1)(2 - 1) = 1\). Serbestlik derecesi sayısını bildiğimize göre, artık standart R-fonksiyonu qchisq() kullanarak kritik değeri \(\chi^2\) kolayca bulabiliriz:
Böylece, bir serbestlik derecesi için, \(\chi^2\) kriterinin değeri, vakaların sadece %5'inde 3.841'i aşmaktadır. Elde ettiğimiz 6.79 değeri, bu kritik değeri önemli ölçüde aşıyor ve bu da bize antikorların verilmesi ile enfekte olmuş farelerin hayatta kalması arasında bir ilişki olmadığı şeklindeki sıfır hipotezini reddetme hakkı veriyor. Bu hipotezi reddederek, %5'ten daha düşük bir olasılıkla yanılma riskimiz var.
\(\chi^2\) kriteri için yukarıdaki formülün, 2x2 boyutundaki beklenmedik durum tablolarıyla çalışırken biraz fazla tahmin edilen değerler verdiğine dikkat edilmelidir. Bunun nedeni, \(\chi^2\) kriterinin kendisinin dağılımının sürekli olması ve ikili özelliklerin ("öldü" / "hayatta kaldı") frekanslarının tanım gereği ayrık olmasıdır. Bu bağlamda, kriteri hesaplarken, sözde olanı tanıtmak gelenekseldir. süreklilik düzeltmesi, veya Yates değişikliği :
\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]
Pearson "Yates ile Ki-kare testi" süreklilik düzeltme verileri : fareler X-kare = 5.7923 , df = 1 , p-değeri = 0.0161
Gördüğünüz gibi, R süreklilik için Yates düzeltmesini otomatik olarak uygular ( Yates'in süreklilik düzeltmesi ile Pearson'ın Ki-kare testi). Program tarafından hesaplanan \(\chi^2\) değeri 5.79213'tür. %1'in biraz üzerinde bir olasılıkla (p-değeri = 0.0161 ) yanlış olma riski altında antikor etkisinin olmadığı sıfır hipotezini reddedebiliriz.
Ki-kare dağılımı, istatistiksel hipotezleri test etmek için istatistikte en yaygın kullanılanlardan biridir. En güçlü uyum iyiliği testlerinden biri olan "ki-kare" dağılımına dayalı olarak Pearson'ın "ki-kare" testi oluşturulmuştur.
Uyum iyiliği testi, bilinmeyen dağılımın önerilen yasası hakkındaki hipotezi test etmek için bir kriterdir.
χ2 ("ki-kare") testi, farklı dağılımların hipotezini test etmek için kullanılır. Bu onun liyakatidir.
Kriterin hesaplama formülü şuna eşittir:
burada m ve m' sırasıyla ampirik ve teorik frekanslardır
düşünülen dağıtım;
n, serbestlik derecesi sayısıdır.
Doğrulama için ampirik (gözlemlenen) ve teorik (normal dağılım varsayımı altında hesaplanan) frekansları karşılaştırmamız gerekir.
Ampirik frekanslar hesaplanan veya beklenen frekanslarla tamamen örtüşüyorsa, S (E - T) = 0 ve χ2 kriteri de sıfıra eşit olacaktır. S (E - T) sıfıra eşit değilse, bu hesaplanan frekanslar ile serinin ampirik frekansları arasında bir uyumsuzluk olduğunu gösterecektir. Bu gibi durumlarda teorik olarak sıfırdan sonsuza kadar değişebilen χ2 kriterinin önemini değerlendirmek gerekir. Bu, gerçekte elde edilen χ2ph değeri ile kritik değeri (χ2st) karşılaştırılarak yapılır.Boş hipotez, yani ampirik ve teorik veya beklenen frekanslar arasındaki farklılığın rastgele olduğu varsayımı, χ2ph'den büyük veya eşitse reddedilir. kabul edilen anlamlılık düzeyi (a) ve serbestlik derecesi sayısı (n) için χ2'ye kadar.
Rastgele değişken χ2'nin olası değerlerinin dağılımı sürekli ve asimetriktir. Serbestlik derecesine (n) bağlıdır ve gözlem sayısı arttıkça normal dağılıma yaklaşır. Bu nedenle, kesikli dağılımların tahmininde χ2 kriterinin uygulanması, özellikle küçük örnekler için değerini etkileyen bazı hatalarla ilişkilidir. Daha doğru tahminler elde etmek için varyasyon serisinde dağıtılan numunenin en az 50 seçeneği olmalıdır. χ2 kriterinin doğru uygulanması ayrıca uç sınıflardaki varyantların frekanslarının 5'ten az olmamasını gerektirir; 5'ten az varsa, toplam miktarları 5'e eşit veya daha büyük olacak şekilde komşu sınıfların frekansları ile birleştirilirler. Frekansların birleşimine göre, sınıf sayısı (N) da azalır. Serbestlik derecesi sayısı, değişkenlik özgürlüğü üzerindeki kısıtlamaların sayısı dikkate alınarak ikincil sınıf sayısına göre belirlenir.
Kriter χ2'yi belirlemenin doğruluğu büyük ölçüde teorik frekansların (T) hesaplanmasının doğruluğuna bağlı olduğundan, ampirik ve hesaplanmış frekanslar arasındaki farkı elde etmek için yuvarlatılmamış teorik frekanslar kullanılmalıdır.
Örnek olarak, beşeri bilimlerde istatistiksel yöntemlerin uygulanmasına adanmış bir web sitesinde yayınlanan bir çalışmayı ele alalım.
Ki-kare testi, normal dağılmış olsun ya da olmasın, frekans dağılımlarının karşılaştırılmasını sağlar.
Sıklık, bir olayın meydana gelme sayısını ifade eder. Genellikle, bir olayın meydana gelme sıklığı, değişkenler isim ölçeğinde ölçüldüğünde ve sıklık dışındaki diğer özelliklerin seçilmesi imkansız veya sorunlu olduğunda ele alınır. Başka bir deyişle, değişken niteliksel özelliklere sahip olduğunda. Ayrıca, birçok araştırmacı test puanlarını seviyelere (yüksek, orta, düşük) çevirme ve bu seviyelerdeki insan sayısını bulmak için puan dağılım tabloları oluşturma eğilimindedir. Düzeylerden birinde (kategorilerden birinde) insan sayısının gerçekten daha fazla (daha az) olduğunu kanıtlamak için Ki-kare katsayısı da kullanılır.
En basit örneğe bir göz atalım.
Genç ergenler arasında bir benlik saygısı testi yapıldı. Test puanları üç seviyeye çevrildi: yüksek, orta, düşük. Frekanslar şu şekilde dağıtıldı:
Yüksek (H) 27 kişi.
Orta (C) 12 kişi
Düşük (H) 11 kişi.
Benlik saygısı yüksek olan çocukların büyük çoğunluğunun, ancak bunun istatistiksel olarak kanıtlanması gerektiği açıktır. Bunu yapmak için Ki-kare testini kullanıyoruz.
Görevimiz, elde edilen ampirik verilerin teorik olarak eşit derecede olası olanlardan farklı olup olmadığını kontrol etmektir. Bunu yapmak için teorik frekansları bulmak gerekir. Bizim durumumuzda teorik frekanslar, tüm frekansların toplanması ve kategori sayısına bölünmesiyle bulunan eş olasılıklı frekanslardır.
Bizim durumumuzda:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6
Ki-kare testinin hesaplanması için formül:
χ2 = ∑(E - T)І / T
Bir tablo oluşturuyoruz:
Son sütunun toplamını bulun:
Şimdi kritik değerler tablosuna göre kriterin kritik değerini bulmanız gerekiyor (Ekteki Tablo 1). Bunu yapmak için serbestlik derecesi (n) sayısına ihtiyacımız var.
n = (R - 1) * (C - 1)
burada R tablodaki satır sayısıdır, C sütun sayısıdır.
Bizim durumumuzda, yalnızca bir sütun (orijinal ampirik frekanslar anlamına gelir) ve üç satır (kategoriler) vardır, bu nedenle formül değişir - sütunları hariç tutarız.
n = (R - 1) = 3-1 = 2
Hata olasılığı p≤0,05 ve n = 2 için kritik değer χ2 = 5,99.
Elde edilen ampirik değer kritik değerden büyüktür - frekans farkları önemlidir (χ2= 9.64; p≤0.05).
Gördüğünüz gibi kriterin hesaplanması çok basit ve fazla zaman almıyor. Ki-kare testinin pratik değeri çok büyüktür. Bu yöntem, anketlere verilen yanıtların analizinde en değerli olanıdır.
Daha karmaşık bir örnek alalım.
Örneğin, bir psikolog, öğretmenlerin kızlardan çok erkeklere karşı daha önyargılı olduğunun doğru olup olmadığını bilmek ister. Şunlar. kızları övmek daha olasıdır. Bunu yapmak için psikolog, öğretmenler tarafından yazılan öğrencilerin özelliklerini üç kelimenin oluşum sıklığı için analiz etti: "aktif", "çalışkan", "disiplinli", kelimelerin eş anlamlıları da sayıldı. Sözcüklerin ortaya çıkma sıklığına ilişkin veriler tabloya girildi:
Elde edilen verileri işlemek için ki-kare testi kullanıyoruz.
Bunu yapmak için, ampirik frekansların bir dağılım tablosu oluşturuyoruz, yani. gözlemlediğimiz frekanslar:
Teorik olarak, frekansların eşit olarak dağıtılmasını bekliyoruz, yani. sıklık kız ve erkek çocuklar arasında orantılı olarak dağıtılacaktır. Teorik frekansların bir tablosunu oluşturalım. Bunu yapmak için, satır toplamını sütun toplamı ile çarpın ve elde edilen sayıyı toplam toplam(lar)a bölün.
Hesaplamalar için ortaya çıkan tablo şöyle görünecektir:
χ2 = ∑(E - T)І / T
n = (R - 1), burada R tablodaki satır sayısıdır.
Bizim durumumuzda ki-kare = 4.21; n = 2.
Kriterin kritik değerleri tablosuna göre şunları buluyoruz: n = 2 ve 0,05 hata seviyesinde, kritik değer χ2 = 5,99.
Ortaya çıkan değer kritik değerden küçüktür, bu da sıfır hipotezinin kabul edildiği anlamına gelir.
Sonuç: Öğretmenler çocuğun özelliklerini yazarken cinsiyetine önem vermemektedir.
Çözüm.
K. Pearson, matematiksel istatistiklerin (çok sayıda temel kavram) gelişimine önemli bir katkı yaptı. Pearson'ın temel felsefi konumu şu şekilde formüle edilmiştir: bilim kavramları yapay yapılardır, duyusal deneyimi tanımlama ve düzenleme araçlarıdır; onları bilimsel önerilere bağlamanın kuralları, bilim felsefesi olan bilimin grameri tarafından belirlenir. Heterojen kavramları ve fenomenleri birbirine bağlamak, evrensel bir disipline izin verir - Pearson'a göre aynı zamanda öznel olmasına rağmen, uygulamalı istatistikler.
K. Pearson'ın birçok yapısı, antropolojik malzemeler kullanılarak doğrudan ilişkilidir veya geliştirilmiştir. Bilimin her alanında kullanılan çok sayıda sayısal sınıflandırma ve istatistiksel ölçütler geliştirdi.
Edebiyat.
1. A. N. Bogolyubov, Matematik. Mekanik. Biyografik rehber. - Kiev: Naukova Dumka, 1983.
2. Kolmogorov A.N., Yushkevich A.P. (ed.). 19. yüzyılın matematiği. - M.: Bilim. - T.I.
3. 3. Borovkov A.A. Matematik istatistikleri. Moskova: Nauka, 1994.
4. 8. Feller V. Olasılık teorisine giriş ve uygulamaları. - M.: Mir, T.2, 1984.
5. 9. Harman G., Modern faktöriyel analiz. - M.: İstatistikler, 1972.
Dağıtım. Pearson dağılımı Olasılık yoğunluğu ... Wikipedia
ki-kare dağılımı- "ki kare" dağıtımı - Konular bilgi güvenliği EN ki kare dağıtımı ... Teknik Çevirmenin El Kitabı
ki-kare dağılımı- Yoğunluğu formülle verilen, 0'dan değerlere sahip sürekli bir rastgele değişkenin olasılık dağılımı, burada 0 parametresi =1,2,...; gama fonksiyonudur. Örnekler. 1) Bağımsız normalleştirilmiş normal rasgele karelerin toplamı ... ... Sosyolojik İstatistik Sözlüğü
Ki-KARE DAĞILIMI (chi2)- Rastgele değişken chi2'nin dağılımı.Eğer ortalama (ve varyans q2 olan) bir normal dağılımdan 1 büyüklüğündeki rastgele örnekler alınırsa, o zaman chi2 = (X1 u)2/q2, burada X örneklenen değerdir. Örneklem büyüklüğü keyfi olarak artarsa N'ye kadar, sonra chi2 = … …
Olasılık yoğunluğu ... Vikipedi
- (Snedecor dağılımı) Olasılık yoğunluğu ... Wikipedia
Fisher dağılımı Olasılık yoğunluğu Dağılım fonksiyonu ile sayı parametreleri ... Wikipedia
Olasılık teorisi ve matematiksel istatistiğin temel kavramlarından biridir. saat modern yaklaşım matematiksel olarak incelenen rastgele fenomen modeli, karşılık gelen olasılık alanı (W, S, P) alınır, burada W, temel ... Matematiksel Ansiklopedi
Gama dağılımı Olasılık yoğunluğu Dağılım fonksiyonu Parametreler ... Wikipedia
F DAĞILIMI- Bir rasgele değişken F'nin teorik olasılık dağılımı. N boyutundaki rasgele örnekler normal bir popülasyondan bağımsız olarak seçilirse, bunların her biri bir serbestlik derecesi = N olan bir ki-kare dağılımı üretir. Böyle ikisinin oranı ... . .. Sözlük psikolojide
Kitabın
- Problemlerde Olasılık Teorisi ve Matematiksel İstatistik. 360'tan fazla görev ve alıştırma, Borzykh D.A. Önerilen kılavuz görevleri içerir farklı seviyeler zorluklar. Bununla birlikte, ana vurgu orta karmaşıklıktaki görevlere verilir. Bu kasıtlı olarak öğrencileri teşvik etmek için yapılır…