Shembull i shpërndarjes në katror Chi. Shpërndarjet e Pearson (chi - katror), Student dhe Fisher. Funksioni i shpërndarjes inverse chi2
Le të jenë U 1, U 2, ..,U k standard i pavarur vlerat normale. Shpërndarja ndryshore e rastësishme K = U 1 2 +U 2 2 + .. + U k 2 quhet shpërndarje chi-katrore me k shkallë lirie (shkruhen K~χ 2 (k)). Kjo është një shpërndarje unimodale me anshmëri pozitive dhe karakteristikat e mëposhtme: modaliteti M=k-2 vlera e pritur m=k dispersion D=2k (Fig.). Kur mjafton rëndësi të madhe parametri k shpërndarja χ 2 (k) ka një shpërndarje afërsisht normale me parametra
Gjatë zgjidhjes së problemeve statistika matematikore pikat kritike χ 2 (k) përdoren në varësi të dhënë probabilitetα dhe numrin e shkallëve të lirisë k(Shtojca 2). Pika kritike Χ 2 kr = Χ 2 (k; α) është kufiri i rajonit, në të djathtë të të cilit shtrihet 100-α% e sipërfaqes nën lakoren e densitetit të shpërndarjes. Probabiliteti që vlera e ndryshores së rastësishme K~χ 2 (k) gjatë testimit të bjerë në të djathtë të pikës χ 2 (k) nuk e kalon α P(K≥χ 2 kp)≤ α). Për shembull, për një ndryshore të rastësishme K~χ 2 (20) vendosim probabilitetin α=0.05. Sipas tabelës pikat kritike shpërndarja "chi-square" (tabelat) gjejmë χ 2 kp = χ 2 (20;0.05)=31.4. Pra probabiliteti i kësaj ndryshoreje të rastësishme K merrni një vlerë më të madhe se 31.4, më pak se 0.05 (Fig.).
Oriz. Grafiku i densitetit të shpërndarjes χ 2 (k) për vlera të ndryshme të numrit të shkallëve të lirisë k
Pikat kritike χ 2 (k) përdoren në kalkulatorët e mëposhtëm:
- Kontrollimi i multikolinearitetit (rreth multikolinearitetit).
Prandaj, për të kontrolluar drejtimin e komunikimit është zgjedhur analiza e korrelacionit, në veçanti, testimi i hipotezës duke përdorur koeficientin e korrelacionit Pearson me testim të mëtejshëm për besueshmërinë duke përdorur testin t.
Për çdo vlerë të nivelit të rëndësisë α Χ 2 mund të gjendet duke përdorur funksionin MS Excel: = XI2OBR (α; shkallë lirie)
n-1 | .995 | .990 | .975 | .950 | .900 | .750 | .500 | .250 | .100 | .050 | .025 | .010 | .005 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.00004 | 0.00016 | 0.00098 | 0.00393 | 0.01579 | 0.10153 | 0.45494 | 1.32330 | 2.70554 | 3.84146 | 5.02389 | 6.63490 | 7.87944 |
2 | 0.01003 | 0.02010 | 0.05064 | 0.10259 | 0.21072 | 0.57536 | 1.38629 | 2.77259 | 4.60517 | 5.99146 | 7.37776 | 9.21034 | 10.59663 |
3 | 0.07172 | 0.11483 | 0.21580 | 0.35185 | 0.58437 | 1.21253 | 2.36597 | 4.10834 | 6.25139 | 7.81473 | 9.34840 | 11.34487 | 12.83816 |
4 | 0.20699 | 0.29711 | 0.48442 | 0.71072 | 1.06362 | 1.92256 | 3.35669 | 5.38527 | 7.77944 | 9.48773 | 11.14329 | 13.27670 | 14.86026 |
5 | 0.41174 | 0.55430 | 0.83121 | 1.14548 | 1.61031 | 2.67460 | 4.35146 | 6.62568 | 9.23636 | 11.07050 | 12.83250 | 15.08627 | 16.74960 |
6 | 0.67573 | 0.87209 | 1.23734 | 1.63538 | 2.20413 | 3.45460 | 5.34812 | 7.84080 | 10.64464 | 12.59159 | 14.44938 | 16.81189 | 18.54758 |
7 | 0.98926 | 1.23904 | 1.68987 | 2.16735 | 2.83311 | 4.25485 | 6.34581 | 9.03715 | 12.01704 | 14.06714 | 16.01276 | 18.47531 | 20.27774 |
8 | 1.34441 | 1.64650 | 2.17973 | 2.73264 | 3.48954 | 5.07064 | 7.34412 | 10.21885 | 13.36157 | 15.50731 | 17.53455 | 20.09024 | 21.95495 |
9 | 1.73493 | 2.08790 | 2.70039 | 3.32511 | 4.16816 | 5.89883 | 8.34283 | 11.38875 | 14.68366 | 16.91898 | 19.02277 | 21.66599 | 23.58935 |
10 | 2.15586 | 2.55821 | 3.24697 | 3.94030 | 4.86518 | 6.73720 | 9.34182 | 12.54886 | 15.98718 | 18.30704 | 20.48318 | 23.20925 | 25.18818 |
11 | 2.60322 | 3.05348 | 3.81575 | 4.57481 | 5.57778 | 7.58414 | 10.34100 | 13.70069 | 17.27501 | 19.67514 | 21.92005 | 24.72497 | 26.75685 |
12 | 3.07382 | 3.57057 | 4.40379 | 5.22603 | 6.30380 | 8.43842 | 11.34032 | 14.84540 | 18.54935 | 21.02607 | 23.33666 | 26.21697 | 28.29952 |
13 | 3.56503 | 4.10692 | 5.00875 | 5.89186 | 7.04150 | 9.29907 | 12.33976 | 15.98391 | 19.81193 | 22.36203 | 24.73560 | 27.68825 | 29.81947 |
14 | 4.07467 | 4.66043 | 5.62873 | 6.57063 | 7.78953 | 10.16531 | 13.33927 | 17.11693 | 21.06414 | 23.68479 | 26.11895 | 29.14124 | 31.31935 |
15 | 4.60092 | 5.22935 | 6.26214 | 7.26094 | 8.54676 | 11.03654 | 14.33886 | 18.24509 | 22.30713 | 24.99579 | 27.48839 | 30.57791 | 32.80132 |
16 | 5.14221 | 5.81221 | 6.90766 | 7.96165 | 9.31224 | 11.91222 | 15.33850 | 19.36886 | 23.54183 | 26.29623 | 28.84535 | 31.99993 | 34.26719 |
17 | 5.69722 | 6.40776 | 7.56419 | 8.67176 | 10.08519 | 12.79193 | 16.33818 | 20.48868 | 24.76904 | 27.58711 | 30.19101 | 33.40866 | 35.71847 |
18 | 6.26480 | 7.01491 | 8.23075 | 9.39046 | 10.86494 | 13.67529 | 17.33790 | 21.60489 | 25.98942 | 28.86930 | 31.52638 | 34.80531 | 37.15645 |
19 | 6.84397 | 7.63273 | 8.90652 | 10.11701 | 11.65091 | 14.56200 | 18.33765 | 22.71781 | 27.20357 | 30.14353 | 32.85233 | 36.19087 | 38.58226 |
20 | 7.43384 | 8.26040 | 9.59078 | 10.85081 | 12.44261 | 15.45177 | 19.33743 | 23.82769 | 28.41198 | 31.41043 | 34.16961 | 37.56623 | 39.99685 |
21 | 8.03365 | 8.89720 | 10.28290 | 11.59131 | 13.23960 | 16.34438 | 20.33723 | 24.93478 | 29.61509 | 32.67057 | 35.47888 | 38.93217 | 41.40106 |
22 | 8.64272 | 9.54249 | 10.98232 | 12.33801 | 14.04149 | 17.23962 | 21.33704 | 26.03927 | 30.81328 | 33.92444 | 36.78071 | 40.28936 | 42.79565 |
23 | 9.26042 | 10.19572 | 11.68855 | 13.09051 | 14.84796 | 18.13730 | 22.33688 | 27.14134 | 32.00690 | 35.17246 | 38.07563 | 41.63840 | 44.18128 |
24 | 9.88623 | 10.85636 | 12.40115 | 13.84843 | 15.65868 | 19.03725 | 23.33673 | 28.24115 | 33.19624 | 36.41503 | 39.36408 | 42.97982 | 45.55851 |
25 | 10.51965 | 11.52398 | 13.11972 | 14.61141 | 16.47341 | 19.93934 | 24.33659 | 29.33885 | 34.38159 | 37.65248 | 40.64647 | 44.31410 | 46.92789 |
26 | 11.16024 | 12.19815 | 13.84390 | 15.37916 | 17.29188 | 20.84343 | 25.33646 | 30.43457 | 35.56317 | 38.88514 | 41.92317 | 45.64168 | 48.28988 |
27 | 11.80759 | 12.87850 | 14.57338 | 16.15140 | 18.11390 | 21.74940 | 26.33634 | 31.52841 | 36.74122 | 40.11327 | 43.19451 | 46.96294 | 49.64492 |
28 | 12.46134 | 13.56471 | 15.30786 | 16.92788 | 18.93924 | 22.65716 | 27.33623 | 32.62049 | 37.91592 | 41.33714 | 44.46079 | 48.27824 | 50.99338 |
29 | 13.12115 | 14.25645 | 16.04707 | 17.70837 | 19.76774 | 23.56659 | 28.33613 | 33.71091 | 39.08747 | 42.55697 | 45.72229 | 49.58788 | 52.33562 |
30 | 13.78672 | 14.95346 | 16.79077 | 18.49266 | 20.59923 | 24.47761 | 29.33603 | 34.79974 | 40.25602 | 43.77297 | 46.97924 | 50.89218 | 53.67196 |
Numri i shkallëve të lirisë k | Niveli i rëndësisë a | |||||
0,01 | 0,025 | 0.05 | 0,95 | 0,975 | 0.99 | |
1 | 6.6 | 5.0 | 3.8 | 0.0039 | 0.00098 | 0.00016 |
2 | 9.2 | 7.4 | 6.0 | 0.103 | 0.051 | 0.020 |
3 | 11.3 | 9.4 | 7.8 | 0.352 | 0.216 | 0.115 |
4 | 13.3 | 11.1 | 9.5 | 0.711 | 0.484 | 0.297 |
5 | 15.1 | 12.8 | 11.1 | 1.15 | 0.831 | 0.554 |
6 | 16.8 | 14.4 | 12.6 | 1.64 | 1.24 | 0.872 |
7 | 18.5 | 16.0 | 14.1 | 2.17 | 1.69 | 1.24 |
8 | 20.1 | 17.5 | 15.5 | 2.73 | 2.18 | 1.65 |
9 | 21.7 | 19.0 | 16.9 | 3.33 | 2.70 | 2.09 |
10 | 23.2 | 20.5 | 18.3 | 3.94 | 3.25 | 2.56 |
11 | 24.7 | 21.9 | 19.7 | 4.57 | 3.82 | 3.05 |
12 | 26.2 | 23.3 | 21 .0 | 5.23 | 4.40 | 3.57 |
13 | 27.7 | 24.7 | 22.4 | 5.89 | 5.01 | 4.11 |
14 | 29.1 | 26.1 | 23.7 | 6.57 | 5.63 | 4.66 |
15 | 30.6 | 27.5 | 25.0 | 7.26 | 6.26 | 5.23 |
16 | 32.0 | 28.8 | 26.3 | 7.96 | 6.91 | 5.81 |
17 | 33.4 | 30.2 | 27.6 | 8.67 | 7.56 | 6.41 |
18 | 34.8 | 31.5 | 28.9 | 9.39 | 8.23 | 7.01 |
19 | 36.2 | 32.9 | 30.1 | 10.1 | 8.91 | 7.63 |
20 | 37.6 | 34.2 | 31.4 | 10.9 | 9.59 | 8.26 |
21 | 38.9 | 35.5 | 32.7 | 11.6 | 10.3 | 8.90 |
22 | 40.3 | 36.8 | 33.9 | 12.3 | 11.0 | 9.54 |
23 | 41.6 | 38.1 | 35.2 | 13.1 | 11.7 | 10.2 |
24 | 43.0 | 39.4 | 36.4 | 13.8 | 12.4 | 10.9 |
25 | 44.3 | 40.6 | 37.7 | 14.6 | 13.1 | 11.5 |
26 | 45.6 | 41.9 | 38.9 | 15.4 | 13.8 | 12.2 |
27 | 47.0 | 43.2 | 40.1 | 16.2 | 14.6 | 12.9 |
28 | 48.3 | 44.5 | 41.3 | 16.9 | 15.3 | 13.6 |
29 | 49.6 | 45.7 | 42.6 | 17.7 | 16.0 | 14.3 |
30 | 50.9 | 47.0 | 43.8 | 18.5 | 16.8 | 15.0 |
Shpërndarja në katror Chi
Duke përdorur shpërndarje normale janë përcaktuar tre shpërndarje, të cilat tani përdoren shpesh në përpunimin e të dhënave statistikore. Këto janë shpërndarjet e Pearson ("chi - katror"), Student dhe Fisher.
Ne do të fokusohemi në shpërndarjen ("chi - katror"). Kjo shpërndarje u studiua për herë të parë nga astronomi F. Helmert në 1876. Në lidhje me teorinë Gaussian të gabimeve, ai studioi shumat e katrorëve të n variablave të rastësishëm standarde të pavarura të shpërndara normalisht. Më vonë, Karl Pearson e quajti këtë funksion të shpërndarjes "chi-square". Dhe tani shpërndarja mban emrin e tij.
Për shkak të lidhjes së ngushtë me shpërndarjen normale, shpërndarja h2 luan një rol të rëndësishëm në teorinë e probabilitetit dhe statistikat matematikore. Shpërndarja h2, dhe shumë shpërndarje të tjera që përcaktohen nga shpërndarja h2 (për shembull, shpërndarja e Studentit), përshkruajnë shpërndarjet e mostrave të funksioneve të ndryshme nga vëzhgimet e shpërndara normalisht dhe përdoren për të ndërtuar intervale besimi dhe teste statistikore.
Shpërndarja Pearson (chi - katror) - shpërndarja e një ndryshoreje të rastësishme ku X1, X2,…, Xn janë variabla normale të rastësishme të pavarura, dhe pritshmëria matematikore e secilës prej tyre është e barabartë me zero, dhe devijimi standard është një.
Shuma e katrorëve
shpërndahet sipas ligjit ("chi - katror").
Në këtë rast, numri i termave, d.m.th. n, quhet "numri i shkallëve të lirisë" i shpërndarjes chi-katrore. Ndërsa numri i shkallëve të lirisë rritet, shpërndarja ngadalë i afrohet normales.
Dendësia e kësaj shpërndarjeje
![](https://i2.wp.com/studbooks.net/imag_/43/230953/image003.png)
Pra, shpërndarja e h2 varet nga një parametër n - numri i shkallëve të lirisë.
Funksioni i shpërndarjes h2 ka formën:
nëse h2?0. (2.7.)
Figura 1 tregon një grafik të densitetit të probabilitetit dhe funksionit të shpërndarjes χ2 për shkallë të ndryshme lirie.
Figura 1 Varësia e densitetit të probabilitetit q (x) në shpërndarjen e h2 (chi - në katror) për një numër të ndryshëm të shkallëve të lirisë.
![](https://i1.wp.com/studbooks.net/imag_/43/230953/image004.png)
Momentet e shpërndarjes "chi-square":
Shpërndarja chi-squared përdoret në vlerësimin e variancës (duke përdorur një interval besimi), në testimin e hipotezave të marrëveshjes, homogjenitetit, pavarësisë, kryesisht për variabla cilësorë (të kategorizuar) që marrin një numër të kufizuar vlerash dhe në shumë detyra të tjera. Analiza statistikore të dhëna.
"Chi-square" në problemet e analizës së të dhënave statistikore
Metodat statistikore të analizës së të dhënave përdoren pothuajse në të gjitha fushat e veprimtarisë njerëzore. Ato përdoren sa herë që është e nevojshme për të marrë dhe vërtetuar çdo gjykim për një grup (objekte ose subjekte) me njëfarë heterogjeniteti të brendshëm.
Faza moderne e zhvillimit metodat statistikore mund të numërohet nga viti 1900, kur anglezi K. Pearson themeloi revistën "Biometrika". E treta e parë e shekullit të 20-të kaloi nën shenjën e statistikave parametrike. Janë studiuar metodat e bazuara në analizën e të dhënave nga familjet parametrike të shpërndarjeve të përshkruara nga kurbat e familjes Pearson. Më e njohura ishte shpërndarja normale. Për të testuar hipotezat u përdorën kriteret Pearson, Student dhe Fisher. U propozua metoda e gjasave maksimale, analiza e variancës dhe u formuluan idetë kryesore për planifikimin e eksperimentit.
Shpërndarja chi-squared është një nga më të përdorurat në statistika për testim hipoteza statistikore. Në bazë të shpërndarjes "chi-square", është ndërtuar një nga testet më të fuqishme të mirësisë së përshtatjes, testi "chi-square" i Pearson.
Testi i përshtatshmërisë është një kriter për testimin e hipotezës për ligjin e propozuar të shpërndarjes së panjohur.
Testi p2 ("chi-square") përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Kjo është meritë e tij.
Formula e llogaritjes së kriterit është e barabartë me
![](https://i0.wp.com/studbooks.net/imag_/43/230953/image005.png)
ku m dhe m" janë respektivisht frekuenca empirike dhe teorike
shpërndarja në shqyrtim;
n është numri i shkallëve të lirisë.
Për verifikim, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).
Nëse frekuencat empirike përputhen plotësisht me frekuencat e llogaritura ose të pritura, S (E - T) = 0 dhe kriteri ch2 gjithashtu do të jetë i barabartë me zero. Nëse S (E - T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit p2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar realisht të n2f me vlerën e saj kritike (n2st). Hipoteza zero, d.m.th., supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse n2f është më i madh ose i barabartë me n2st për nivelin e pranuar të lirisë (n) të shkallës së lirisë (n) të pranuar).
Shpërndarja e vlerave të mundshme të ndryshores së rastësishme h2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj, zbatimi i kriterit p2 në vlerësim shpërndarje diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht për mostrat e vogla. Për të marrë vlerësime më të sakta, kampioni u shpërnda në seri variacionesh, duhet të ketë të paktën 50 opsione. Aplikimi i saktë kriteri p2 gjithashtu kërkon që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që sasia totale e tyre të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave zvogëlohet edhe numri i klasave (N). Numri i shkallëve të lirisë caktohet sipas numrit dytësor të klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.
Meqenëse saktësia e përcaktimit të kriterit p2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.
Si shembull, merrni një studim të publikuar në një faqe interneti kushtuar aplikimit të metodave statistikore në shkencat humane.
Testi Chi-square lejon krahasimin e shpërndarjeve të frekuencave, pavarësisht nëse ato shpërndahen normalisht apo jo.
Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e ndodhjes së një ngjarjeje trajtohet kur variablat maten në shkallën e emrave dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u zgjedhur. Me fjalë të tjera, kur ndryshorja ka karakteristika cilësore. Gjithashtu, shumë studiues priren të përkthejnë rezultatet e testit në nivele (të larta, të mesme, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të gjetur numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më shumë (më pak), përdoret edhe koeficienti Chi-square.
Le të hedhim një vështrim në shembullin më të thjeshtë.
Një test i vetëvlerësimit u krye tek adoleshentët më të rinj. Rezultatet e testit u përkthyen në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:
E lartë (H) 27 pers.
Mesatare (C) 12 persona
E ulët (H) 11 persona.
Është e qartë se shumica e fëmijëve me vetëbesim të lartë, megjithatë, kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.
Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, është e nevojshme të gjenden frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca ekuiprobabile që gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.
Në rastin tonë:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6
Formula për llogaritjen e testit chi-square është:
h2 \u003d? (E - T)? / T
Ne ndërtojmë një tabelë:
Empirike (Uh) |
Teorike (T) |
||
Gjeni shumën e kolonës së fundit:
Tani ju duhet të gjeni vlerën kritike të kriterit sipas tabelës së vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).
n = (R - 1) * (C - 1)
ku R është numri i rreshtave në tabelë, C është numri i kolonave.
Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.
n = (R - 1) = 3-1 = 2
Për probabilitetin e gabimit p?0.05 dhe n = 2, vlera kritike është h2 = 5.99.
Vlera empirike e përftuar është më e madhe se vlera kritike - diferencat e frekuencës janë domethënëse (n2= 9.64; p≤0.05).
Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme në analizën e përgjigjeve të pyetësorëve.
Le të marrim një shembull më kompleks.
Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. Ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e nxënësve të shkruara nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar", u numëruan edhe sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve janë futur në tabelë:
Për të përpunuar të dhënat e marra, ne përdorim testin chi-square.
Për ta bërë këtë, ne ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. frekuencat që vëzhgojmë:
Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).
Tabela që rezulton për llogaritjet do të duket si kjo:
h2 \u003d? (E - T)? / T
n = (R - 1), ku R është numri i rreshtave në tabelë.
Në rastin tonë, chi-katror = 4,21; n = 2.
Sipas tabelës së vlerave kritike të kriterit, gjejmë: me n = 2 dhe një nivel gabimi 0,05, vlerën kritike h2 = 5,99.
Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.
Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristikat e tij.
Aplikacion
Pikat kritike të shpërndarjes p2
Testi \(\chi^2\) ("chi-square", gjithashtu "Pearson's goodness-of-test") ka një aplikim jashtëzakonisht të gjerë në statistika. NË pamje e përgjithshme mund të themi se përdoret për të testuar hipotezën zero në lidhje me bindjen e një ndryshoreje të rastësishme të vëzhguar ndaj një ligji të caktuar teorik të shpërndarjes (për më shumë detaje, shih, për shembull,). Formulimi specifik hipoteza e testueshme do të ndryshojë nga rasti në rast.
Në këtë postim, unë do të përshkruaj se si funksionon testi \(\chi^2\) duke përdorur një shembull (hipotetik) nga imunologjia. Imagjinoni që ne kemi kryer një eksperiment për të përcaktuar efektivitetin e shtypjes së zhvillimit të një sëmundjeje mikrobike kur antitrupat e duhur futen në trup. Gjithsej, 111 minj u përfshinë në eksperiment, të cilët i ndamë në dy grupe, duke përfshirë përkatësisht 57 dhe 54 kafshë. Grupit të parë të minjve iu injektuan baktere patogjene, pasuar nga futja e serumit të gjakut që përmban antitrupa kundër këtyre baktereve. Kafshët nga grupi i dytë shërbyen si kontrolle - ata morën vetëm injeksione bakteriale. Pas një kohe inkubacioni, doli se 38 minj ngordhën dhe 73 mbijetuan. Nga të vdekurit, 13 i përkisnin grupit të parë, dhe 25 i përkisnin grupit të dytë (kontrolli). testuar në këtë eksperiment asnje hipoteze mund të formulohet si më poshtë: futja e serumit me antitrupa nuk ka efekt në mbijetesën e minjve. Me fjalë të tjera, ne argumentojmë se ndryshimet e vërejtura në mbijetesën e minjve (77.2% në grupin e parë kundrejt 53.7% në grupin e dytë) janë krejtësisht të rastësishme dhe nuk shoqërohen me veprimin e antitrupave.
Të dhënat e marra në eksperiment mund të paraqiten në formën e një tabele:
Total |
|||
Bakteret + serum |
|||
Vetëm bakteret |
|||
Total |
Tabelat si kjo quhen tabela kontingjente. Në këtë shembull, tabela ka një dimension 2x2: ekzistojnë dy klasa objektesh ("Bakteret + serum" dhe "Vetëm bakteret"), të cilat shqyrtohen sipas dy kritereve ("Të vdekur" dhe "Të mbijetuar"). Kjo rasti më i thjeshtë Tabelat e kontigjencës: sigurisht, si numri i klasave në studim ashtu edhe numri i veçorive mund të jenë më të mëdha.
Për të testuar hipotezën zero të formuluar më sipër, duhet të dimë se si do të ishte situata nëse antitrupat nuk do të kishin ndonjë efekt në mbijetesën e minjve. Me fjalë të tjera, ju duhet të llogaritni frekuencat e pritura për qelizat përkatëse të tabelës së kontigjencës. Si ta bëjmë atë? Në eksperiment, gjithsej 38 minj ngordhën, që është 34.2% e numri total kafshët e përfshira. Nëse futja e antitrupave nuk ndikon në mbijetesën e minjve, duhet të vërehet e njëjta përqindje e vdekshmërisë në të dy grupet eksperimentale, përkatësisht 34.2%. Duke llogaritur se sa është 34.2% e 57 dhe 54, marrim 19.5 dhe 18.5. Këto janë normat e pritshme të vdekshmërisë në grupet tona eksperimentale. Normat e pritshme të mbijetesës llogariten në mënyrë të ngjashme: meqenëse 73 minj mbijetuan në total, ose 65.8% e numrit të tyre të përgjithshëm, normat e pritshme të mbijetesës janë 37.5 dhe 35.5. Le të bëjmë një tabelë të re të emergjencës, tani me frekuencat e pritura:
i vdekur |
Të mbijetuarit |
Total |
|
Bakteret + serum |
|||
Vetëm bakteret |
|||
Total |
Siç mund ta shihni, frekuencat e pritura janë mjaft të ndryshme nga ato të vëzhguara, d.m.th. administrimi i antitrupave duket se ka një efekt në mbijetesën e minjve të infektuar me patogjenin. Ne mund ta përcaktojmë sasinë e kësaj përshtypjeje duke përdorur testin e mirësisë së përshtatjes së Pearson \(\chi^2\):
\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]
ku \(f_o\) dhe \(f_e\) janë respektivisht frekuencat e vëzhguara dhe të pritura. Përmbledhja kryhet në të gjitha qelizat e tabelës. Pra, për shembullin në shqyrtim, kemi
\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]
A është \(\chi^2\) mjaft i madh për të hedhur poshtë hipotezën zero? Për t'iu përgjigjur kësaj pyetjeje, është e nevojshme të gjendet vlera kritike përkatëse e kriterit. Numri i shkallëve të lirisë për \(\chi^2\) llogaritet si \(df = (R - 1)(C - 1)\), ku \(R\) dhe \(C\) janë numri i rreshtave dhe kolonave në tabelën e kontigjencës. Në rastin tonë \(df = (2 -1) (2 - 1) = 1\). Duke ditur numrin e shkallëve të lirisë, tani mund të zbulojmë lehtësisht vlerën kritike \(\chi^2\) duke përdorur funksionin standard R qchisq():
Kështu, për një shkallë lirie, vlera e kriterit \(\chi^2\) kalon 3,841 vetëm në 5% të rasteve. Vlera që kemi marrë, 6.79, e tejkalon ndjeshëm këtë vlerë kritike, gjë që na jep të drejtën të hedhim poshtë hipotezën zero se nuk ka lidhje midis administrimit të antitrupave dhe mbijetesës së minjve të infektuar. Duke hedhur poshtë këtë hipotezë, rrezikojmë të gabojmë me një probabilitet më të vogël se 5%.
Duhet të theksohet se formula e mësipërme për kriterin \(\chi^2\) jep vlera disi të mbivlerësuara kur punoni me tabela të paparashikuara të madhësisë 2x2. Arsyeja është se vetë shpërndarja e kriterit \(\chi^2\) është e vazhdueshme, ndërsa frekuencat e veçorive binare ("vdiq" / "mbijetuar") janë diskrete sipas definicionit. Në këtë drejtim, gjatë llogaritjes së kriterit, është zakon të prezantohet i ashtuquajturi. korrigjimi i vazhdimësisë, ose Amendamenti i Yates :
\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]
Pearson "Testi Chi-squared me Yates" të dhënat e korrigjimit të vazhdimësisë: minjtë X-katror = 5,7923 , df = 1 , p-vlera = 0,0161
Siç mund ta shihni, R automatikisht aplikon korrigjimin e Yates për vazhdimësi ( Testi Chi-squared i Pearson me korrigjimin e vazhdimësisë së Yates). Vlera \(\chi^2\) e llogaritur nga programi ishte 5.79213. Ne mund të hedhim poshtë hipotezën zero të mungesës së efektit të antitrupave me rrezikun e gabimit me një probabilitet prej pak më shumë se 1% (p-value = 0.0161).
Shpërndarja chi-square është një nga më të përdorurat në statistika për testimin e hipotezave statistikore. Në bazë të shpërndarjes "chi-square", u ndërtua një nga testet më të fuqishme të mirësisë së përshtatjes, testi "chi-square" i Pearson.
Testi i përshtatshmërisë është një kriter për testimin e hipotezës për ligjin e propozuar të shpërndarjes së panjohur.
Testi χ2 ("chi-square") përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Kjo është meritë e tij.
Formula e llogaritjes së kriterit është e barabartë me
ku m dhe m' janë respektivisht frekuencat empirike dhe teorike
shpërndarja në shqyrtim;
n është numri i shkallëve të lirisë.
Për verifikim, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).
Nëse frekuencat empirike përkojnë plotësisht me frekuencat e llogaritura ose të pritura, S (E - T) = 0 dhe kriteri χ2 do të jetë gjithashtu i barabartë me zero. Nëse S (E - T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit χ2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar në të vërtetë të χ2ph me vlerën e saj kritike (χ2st). Hipoteza zero, d.m.th., supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse χ2ph është më i madh ose i barabartë me χ2st për shkallën e pranuar të lirisë (një nivel) të numrit të shenjës.
Shpërndarja e vlerave të mundshme të ndryshores së rastësishme χ2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj, zbatimi i kriterit χ2 në vlerësimin e shpërndarjeve diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht për mostrat e vogla. Për të marrë vlerësime më të sakta, kampioni i shpërndarë në seritë e variacioneve duhet të ketë të paktën 50 opsione. Zbatimi i drejtë i kriterit χ2 kërkon gjithashtu që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që sasia totale e tyre të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave zvogëlohet edhe numri i klasave (N). Numri i shkallëve të lirisë caktohet sipas numrit dytësor të klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.
Meqenëse saktësia e përcaktimit të kriterit χ2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.
Si shembull, merrni një studim të publikuar në një faqe interneti kushtuar aplikimit të metodave statistikore në shkencat humane.
Testi Chi-square lejon krahasimin e shpërndarjeve të frekuencave, pavarësisht nëse ato shpërndahen normalisht apo jo.
Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e ndodhjes së një ngjarjeje trajtohet kur variablat maten në shkallën e emrave dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u zgjedhur. Me fjalë të tjera, kur ndryshorja ka karakteristika cilësore. Gjithashtu, shumë studiues priren të përkthejnë rezultatet e testit në nivele (të larta, të mesme, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të gjetur numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më shumë (më pak), përdoret edhe koeficienti Chi-square.
Le të hedhim një vështrim në shembullin më të thjeshtë.
Një test i vetëvlerësimit u krye tek adoleshentët më të rinj. Rezultatet e testit u përkthyen në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:
E lartë (H) 27 pers.
Mesatare (C) 12 persona
E ulët (H) 11 persona.
Është e qartë se shumica e fëmijëve me vetëbesim të lartë, megjithatë, kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.
Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, është e nevojshme të gjenden frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca ekuiprobabile që gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.
Në rastin tonë:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6
Formula për llogaritjen e testit chi-square është:
χ2 = ∑(E - T)І / T
Ne ndërtojmë një tabelë:
Gjeni shumën e kolonës së fundit:
Tani ju duhet të gjeni vlerën kritike të kriterit sipas tabelës së vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).
n = (R - 1) * (C - 1)
ku R është numri i rreshtave në tabelë, C është numri i kolonave.
Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.
n = (R - 1) = 3-1 = 2
Për probabilitetin e gabimit p≤0.05 dhe n = 2, vlera kritike χ2 = 5.99.
Vlera empirike e përftuar është më e madhe se vlera kritike - diferencat e frekuencës janë domethënëse (χ2= 9,64; p≤0,05).
Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme në analizën e përgjigjeve të pyetësorëve.
Le të marrim një shembull më kompleks.
Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. Ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e nxënësve të shkruara nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar", u numëruan edhe sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve janë futur në tabelë:
Për të përpunuar të dhënat e marra, ne përdorim testin chi-square.
Për ta bërë këtë, ne ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. frekuencat që vëzhgojmë:
Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).
Tabela që rezulton për llogaritjet do të duket si kjo:
χ2 = ∑(E - T)І / T
n = (R - 1), ku R është numri i rreshtave në tabelë.
Në rastin tonë, chi-katror = 4,21; n = 2.
Sipas tabelës së vlerave kritike të kriterit, gjejmë: në n = 2 dhe një nivel gabimi prej 0,05, vlera kritike χ2 = 5,99.
Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.
Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristikat e tij.
konkluzioni.
K. Pearson dha një kontribut të rëndësishëm në zhvillimin e statistikave matematikore (një numër i madh konceptesh themelore). Pozicioni kryesor filozofik i Pearson është formuluar si më poshtë: konceptet e shkencës janë ndërtime artificiale, mjete për të përshkruar dhe renditur përvojën shqisore; rregullat për lidhjen e tyre në propozime shkencore janë veçuar nga gramatika e shkencës, e cila është filozofia e shkencës. Lidhja e koncepteve dhe fenomeneve heterogjene lejon një disiplinë universale - statistika të aplikuara, megjithëse sipas Pearson ajo është gjithashtu subjektive.
Shumë ndërtime të K. Pearson lidhen drejtpërdrejt ose zhvillohen duke përdorur materiale antropologjike. Ai zhvilloi metoda të shumta klasifikimi numerik dhe kritere statistikore të përdorura në të gjitha fushat e shkencës.
Letërsia.
1. A. N. Bogolyubov, Matematikë. Mekanika. Udhëzues biografik. - Kiev: Naukova Dumka, 1983.
2. Kolmogorov A. N., Yushkevich A. P. (red.). Matematika e shekullit XIX. - M.: Shkencë. - T.I.
3. 3. Borovkov A.A. Statistikat e matematikës. Moskë: Nauka, 1994.
4. 8. Feller V. Hyrje në teorinë e probabilitetit dhe zbatimet e saj. - M.: Mir, T.2, 1984.
5. 9. Harman G., Analiza faktoriale moderne. - M.: Statistikat, 1972.
Shpërndarja. Shpërndarja Pearson Dendësia e probabilitetit ... Wikipedia
shpërndarja chi-square- shpërndarja "chi Square" - Temat siguria e informacionit EN chi Square shpërndarja ... Manuali i Përkthyesit Teknik
shpërndarje chi-katrore- Shpërndarja e probabilitetit të një ndryshoreje të rastësishme të vazhdueshme me vlera nga 0 në, dendësia e së cilës jepet nga formula, ku 0 me parametrin =1,2,...; është funksioni gama. Shembuj. 1) Shuma e katrorëve të rastësishme normale të pavarura të normalizuara ... ... Fjalori i Statistikave Sociologjike
SHPËRNDARJA E KATRIT KI (chi2)- Shpërndarja e ndryshores së rastësishme chi2., nëse mostrat e rastësishme të madhësisë 1 merren nga një shpërndarje normale me mesatare (dhe variancë q2, atëherë chi2 = (X1 u)2/q2, ku X është vlera e zgjedhur. Nëse madhësia e kampionit rritet në mënyrë arbitrare deri në N, atëherë chi2 =… …
Dendësia e probabilitetit ... Wikipedia
- (Shpërndarja Snedecor) Dendësia e probabilitetit ... Wikipedia
Shpërndarja Fisher Dendësia e probabilitetit Funksioni i shpërndarjes Parametrat e numrit me ... Wikipedia
Një nga konceptet bazë të teorisë së probabilitetit dhe statistikave matematikore. Në qasje moderne si një matematikë modeli i dukurisë së rastësishme në studim, merret hapësira përkatëse e probabilitetit (W, S, P), ku W është bashkësia e elementeve ... Enciklopedia Matematikore
Shpërndarja e gamës Dendësia e probabilitetit Funksioni i shpërndarjes Parametrat ... Wikipedia
F SHPËRNDARJE- Shpërndarja teorike e probabilitetit të një ndryshoreje të rastësishme F. Nëse mostrat e rastësishme të madhësisë N zgjidhen në mënyrë të pavarur nga një popullatë normale, secila prej tyre gjeneron një shpërndarje chi-katrore me një shkallë lirie = N. Raporti i dy të tilla ... ... Fjalor në psikologji
librat
- Teoria e probabilitetit dhe statistikat matematikore në problema. Më shumë se 360 detyra dhe ushtrime, Borzykh D.A. Manuali i propozuar përmban detyra nivele të ndryshme vështirësitë. Megjithatë, theksi kryesor vihet në detyrat me kompleksitet mesatar. Kjo është bërë qëllimisht për të inkurajuar studentët të…