Le të jenë U 1, U 2, ..,U k standard i pavarur vlerat normale. Shpërndarja ndryshore e rastësishme K = U 1 2 +U 2 2 + .. + U k 2 quhet shpërndarje chi-katrore me k shkallë lirie (shkruhen K~χ 2 (k)). Kjo është një shpërndarje unimodale me anshmëri pozitive dhe karakteristikat e mëposhtme: modaliteti M=k-2 vlera e pritur m=k dispersion D=2k (Fig.). Kur mjafton rëndësi të madhe parametri k shpërndarja χ 2 (k) ka një shpërndarje afërsisht normale me parametra

Gjatë zgjidhjes së problemeve statistika matematikore pikat kritike χ 2 (k) përdoren në varësi të dhënë probabilitetα dhe numrin e shkallëve të lirisë k(Shtojca 2). Pika kritike Χ 2 kr = Χ 2 (k; α) është kufiri i rajonit, në të djathtë të të cilit shtrihet 100-α% e sipërfaqes nën lakoren e densitetit të shpërndarjes. Probabiliteti që vlera e ndryshores së rastësishme K~χ 2 (k) gjatë testimit të bjerë në të djathtë të pikës χ 2 (k) nuk e kalon α P(K≥χ 2 kp)≤ α). Për shembull, për një ndryshore të rastësishme K~χ 2 (20) vendosim probabilitetin α=0.05. Sipas tabelës pikat kritike shpërndarja "chi-square" (tabelat) gjejmë χ 2 kp = χ 2 (20;0.05)=31.4. Pra probabiliteti i kësaj ndryshoreje të rastësishme K merrni një vlerë më të madhe se 31.4, më pak se 0.05 (Fig.).

Oriz. Grafiku i densitetit të shpërndarjes χ 2 (k) për vlera të ndryshme të numrit të shkallëve të lirisë k

Pikat kritike χ 2 (k) përdoren në kalkulatorët e mëposhtëm:

  1. Kontrollimi i multikolinearitetit (rreth multikolinearitetit).
Testimi i hipotezës Chi-squared do t'i përgjigjet vetëm pyetjes "a ka një marrëdhënie?" Kërkohen kërkime të mëtejshme për të verifikuar drejtimin e marrëdhënies. Për më tepër, testi Chi-square jep një gabim të caktuar kur punoni me të dhëna me frekuencë të ulët.

Prandaj, për të kontrolluar drejtimin e komunikimit është zgjedhur analiza e korrelacionit, në veçanti, testimi i hipotezës duke përdorur koeficientin e korrelacionit Pearson me testim të mëtejshëm për besueshmërinë duke përdorur testin t.

Për çdo vlerë të nivelit të rëndësisë α Χ 2 mund të gjendet duke përdorur funksionin MS Excel: = XI2OBR (α; shkallë lirie)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Numri i shkallëve të lirisë k Niveli i rëndësisë a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Shpërndarja në katror Chi

Duke përdorur shpërndarje normale janë përcaktuar tre shpërndarje, të cilat tani përdoren shpesh në përpunimin e të dhënave statistikore. Këto janë shpërndarjet e Pearson ("chi - katror"), Student dhe Fisher.

Ne do të fokusohemi në shpërndarjen ("chi - katror"). Kjo shpërndarje u studiua për herë të parë nga astronomi F. Helmert në 1876. Në lidhje me teorinë Gaussian të gabimeve, ai studioi shumat e katrorëve të n variablave të rastësishëm standarde të pavarura të shpërndara normalisht. Më vonë, Karl Pearson e quajti këtë funksion të shpërndarjes "chi-square". Dhe tani shpërndarja mban emrin e tij.

Për shkak të lidhjes së ngushtë me shpërndarjen normale, shpërndarja h2 luan një rol të rëndësishëm në teorinë e probabilitetit dhe statistikat matematikore. Shpërndarja h2, dhe shumë shpërndarje të tjera që përcaktohen nga shpërndarja h2 (për shembull, shpërndarja e Studentit), përshkruajnë shpërndarjet e mostrave të funksioneve të ndryshme nga vëzhgimet e shpërndara normalisht dhe përdoren për të ndërtuar intervale besimi dhe teste statistikore.

Shpërndarja Pearson (chi - katror) - shpërndarja e një ndryshoreje të rastësishme ku X1, X2,…, Xn janë variabla normale të rastësishme të pavarura, dhe pritshmëria matematikore e secilës prej tyre është e barabartë me zero, dhe devijimi standard është një.

Shuma e katrorëve

shpërndahet sipas ligjit ("chi - katror").

Në këtë rast, numri i termave, d.m.th. n, quhet "numri i shkallëve të lirisë" i shpërndarjes chi-katrore. Ndërsa numri i shkallëve të lirisë rritet, shpërndarja ngadalë i afrohet normales.

Dendësia e kësaj shpërndarjeje


Pra, shpërndarja e h2 varet nga një parametër n - numri i shkallëve të lirisë.

Funksioni i shpërndarjes h2 ka formën:

nëse h2?0. (2.7.)

Figura 1 tregon një grafik të densitetit të probabilitetit dhe funksionit të shpërndarjes χ2 për shkallë të ndryshme lirie.

Figura 1 Varësia e densitetit të probabilitetit q (x) në shpërndarjen e h2 (chi - në katror) për një numër të ndryshëm të shkallëve të lirisë.

Momentet e shpërndarjes "chi-square":

Shpërndarja chi-squared përdoret në vlerësimin e variancës (duke përdorur një interval besimi), në testimin e hipotezave të marrëveshjes, homogjenitetit, pavarësisë, kryesisht për variabla cilësorë (të kategorizuar) që marrin një numër të kufizuar vlerash dhe në shumë detyra të tjera. Analiza statistikore të dhëna.

"Chi-square" në problemet e analizës së të dhënave statistikore

Metodat statistikore të analizës së të dhënave përdoren pothuajse në të gjitha fushat e veprimtarisë njerëzore. Ato përdoren sa herë që është e nevojshme për të marrë dhe vërtetuar çdo gjykim për një grup (objekte ose subjekte) me njëfarë heterogjeniteti të brendshëm.

Faza moderne e zhvillimit metodat statistikore mund të numërohet nga viti 1900, kur anglezi K. Pearson themeloi revistën "Biometrika". E treta e parë e shekullit të 20-të kaloi nën shenjën e statistikave parametrike. Janë studiuar metodat e bazuara në analizën e të dhënave nga familjet parametrike të shpërndarjeve të përshkruara nga kurbat e familjes Pearson. Më e njohura ishte shpërndarja normale. Për të testuar hipotezat u përdorën kriteret Pearson, Student dhe Fisher. U propozua metoda e gjasave maksimale, analiza e variancës dhe u formuluan idetë kryesore për planifikimin e eksperimentit.

Shpërndarja chi-squared është një nga më të përdorurat në statistika për testim hipoteza statistikore. Në bazë të shpërndarjes "chi-square", është ndërtuar një nga testet më të fuqishme të mirësisë së përshtatjes, testi "chi-square" i Pearson.

Testi i përshtatshmërisë është një kriter për testimin e hipotezës për ligjin e propozuar të shpërndarjes së panjohur.

Testi p2 ("chi-square") përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Kjo është meritë e tij.

Formula e llogaritjes së kriterit është e barabartë me

ku m dhe m" janë respektivisht frekuenca empirike dhe teorike

shpërndarja në shqyrtim;

n është numri i shkallëve të lirisë.

Për verifikim, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).

Nëse frekuencat empirike përputhen plotësisht me frekuencat e llogaritura ose të pritura, S (E - T) = 0 dhe kriteri ch2 gjithashtu do të jetë i barabartë me zero. Nëse S (E - T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit p2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar realisht të n2f me vlerën e saj kritike (n2st). Hipoteza zero, d.m.th., supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse n2f është më i madh ose i barabartë me n2st për nivelin e pranuar të lirisë (n) të shkallës së lirisë (n) të pranuar).

Shpërndarja e vlerave të mundshme të ndryshores së rastësishme h2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj, zbatimi i kriterit p2 në vlerësim shpërndarje diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht për mostrat e vogla. Për të marrë vlerësime më të sakta, kampioni u shpërnda në seri variacionesh, duhet të ketë të paktën 50 opsione. Aplikimi i saktë kriteri p2 gjithashtu kërkon që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që sasia totale e tyre të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave zvogëlohet edhe numri i klasave (N). Numri i shkallëve të lirisë caktohet sipas numrit dytësor të klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.

Meqenëse saktësia e përcaktimit të kriterit p2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.

Si shembull, merrni një studim të publikuar në një faqe interneti kushtuar aplikimit të metodave statistikore në shkencat humane.

Testi Chi-square lejon krahasimin e shpërndarjeve të frekuencave, pavarësisht nëse ato shpërndahen normalisht apo jo.

Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e ndodhjes së një ngjarjeje trajtohet kur variablat maten në shkallën e emrave dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u zgjedhur. Me fjalë të tjera, kur ndryshorja ka karakteristika cilësore. Gjithashtu, shumë studiues priren të përkthejnë rezultatet e testit në nivele (të larta, të mesme, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të gjetur numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më shumë (më pak), përdoret edhe koeficienti Chi-square.

Le të hedhim një vështrim në shembullin më të thjeshtë.

Një test i vetëvlerësimit u krye tek adoleshentët më të rinj. Rezultatet e testit u përkthyen në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:

E lartë (H) 27 pers.

Mesatare (C) 12 persona

E ulët (H) 11 persona.

Është e qartë se shumica e fëmijëve me vetëbesim të lartë, megjithatë, kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.

Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, është e nevojshme të gjenden frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca ekuiprobabile që gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.

Në rastin tonë:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6

Formula për llogaritjen e testit chi-square është:

h2 \u003d? (E - T)? / T

Ne ndërtojmë një tabelë:

Empirike (Uh)

Teorike (T)

Gjeni shumën e kolonës së fundit:

Tani ju duhet të gjeni vlerën kritike të kriterit sipas tabelës së vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).

n = (R - 1) * (C - 1)

ku R është numri i rreshtave në tabelë, C është numri i kolonave.

Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.

n = (R - 1) = 3-1 = 2

Për probabilitetin e gabimit p?0.05 dhe n = 2, vlera kritike është h2 = 5.99.

Vlera empirike e përftuar është më e madhe se vlera kritike - diferencat e frekuencës janë domethënëse (n2= 9.64; p≤0.05).

Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme në analizën e përgjigjeve të pyetësorëve.

Le të marrim një shembull më kompleks.

Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. Ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e nxënësve të shkruara nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar", u numëruan edhe sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve janë futur në tabelë:

Për të përpunuar të dhënat e marra, ne përdorim testin chi-square.

Për ta bërë këtë, ne ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. frekuencat që vëzhgojmë:

Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).

Tabela që rezulton për llogaritjet do të duket si kjo:

h2 \u003d? (E - T)? / T

n = (R - 1), ku R është numri i rreshtave në tabelë.

Në rastin tonë, chi-katror = 4,21; n = 2.

Sipas tabelës së vlerave kritike të kriterit, gjejmë: me n = 2 dhe një nivel gabimi 0,05, vlerën kritike h2 = 5,99.

Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.

Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristikat e tij.

Aplikacion

Pikat kritike të shpërndarjes p2

Testi \(\chi^2\) ("chi-square", gjithashtu "Pearson's goodness-of-test") ka një aplikim jashtëzakonisht të gjerë në statistika. NË pamje e përgjithshme mund të themi se përdoret për të testuar hipotezën zero në lidhje me bindjen e një ndryshoreje të rastësishme të vëzhguar ndaj një ligji të caktuar teorik të shpërndarjes (për më shumë detaje, shih, për shembull,). Formulimi specifik hipoteza e testueshme do të ndryshojë nga rasti në rast.

Në këtë postim, unë do të përshkruaj se si funksionon testi \(\chi^2\) duke përdorur një shembull (hipotetik) nga imunologjia. Imagjinoni që ne kemi kryer një eksperiment për të përcaktuar efektivitetin e shtypjes së zhvillimit të një sëmundjeje mikrobike kur antitrupat e duhur futen në trup. Gjithsej, 111 minj u përfshinë në eksperiment, të cilët i ndamë në dy grupe, duke përfshirë përkatësisht 57 dhe 54 kafshë. Grupit të parë të minjve iu injektuan baktere patogjene, pasuar nga futja e serumit të gjakut që përmban antitrupa kundër këtyre baktereve. Kafshët nga grupi i dytë shërbyen si kontrolle - ata morën vetëm injeksione bakteriale. Pas një kohe inkubacioni, doli se 38 minj ngordhën dhe 73 mbijetuan. Nga të vdekurit, 13 i përkisnin grupit të parë, dhe 25 i përkisnin grupit të dytë (kontrolli). testuar në këtë eksperiment asnje hipoteze mund të formulohet si më poshtë: futja e serumit me antitrupa nuk ka efekt në mbijetesën e minjve. Me fjalë të tjera, ne argumentojmë se ndryshimet e vërejtura në mbijetesën e minjve (77.2% në grupin e parë kundrejt 53.7% në grupin e dytë) janë krejtësisht të rastësishme dhe nuk shoqërohen me veprimin e antitrupave.

Të dhënat e marra në eksperiment mund të paraqiten në formën e një tabele:

Total

Bakteret + serum

Vetëm bakteret

Total

Tabelat si kjo quhen tabela kontingjente. Në këtë shembull, tabela ka një dimension 2x2: ekzistojnë dy klasa objektesh ("Bakteret + serum" dhe "Vetëm bakteret"), të cilat shqyrtohen sipas dy kritereve ("Të vdekur" dhe "Të mbijetuar"). Kjo rasti më i thjeshtë Tabelat e kontigjencës: sigurisht, si numri i klasave në studim ashtu edhe numri i veçorive mund të jenë më të mëdha.

Për të testuar hipotezën zero të formuluar më sipër, duhet të dimë se si do të ishte situata nëse antitrupat nuk do të kishin ndonjë efekt në mbijetesën e minjve. Me fjalë të tjera, ju duhet të llogaritni frekuencat e pritura për qelizat përkatëse të tabelës së kontigjencës. Si ta bëjmë atë? Në eksperiment, gjithsej 38 minj ngordhën, që është 34.2% e numri total kafshët e përfshira. Nëse futja e antitrupave nuk ndikon në mbijetesën e minjve, duhet të vërehet e njëjta përqindje e vdekshmërisë në të dy grupet eksperimentale, përkatësisht 34.2%. Duke llogaritur se sa është 34.2% e 57 dhe 54, marrim 19.5 dhe 18.5. Këto janë normat e pritshme të vdekshmërisë në grupet tona eksperimentale. Normat e pritshme të mbijetesës llogariten në mënyrë të ngjashme: meqenëse 73 minj mbijetuan në total, ose 65.8% e numrit të tyre të përgjithshëm, normat e pritshme të mbijetesës janë 37.5 dhe 35.5. Le të bëjmë një tabelë të re të emergjencës, tani me frekuencat e pritura:

i vdekur

Të mbijetuarit

Total

Bakteret + serum

Vetëm bakteret

Total

Siç mund ta shihni, frekuencat e pritura janë mjaft të ndryshme nga ato të vëzhguara, d.m.th. administrimi i antitrupave duket se ka një efekt në mbijetesën e minjve të infektuar me patogjenin. Ne mund ta përcaktojmë sasinë e kësaj përshtypjeje duke përdorur testin e mirësisë së përshtatjes së Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


ku \(f_o\) dhe \(f_e\) janë respektivisht frekuencat e vëzhguara dhe të pritura. Përmbledhja kryhet në të gjitha qelizat e tabelës. Pra, për shembullin në shqyrtim, kemi

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

A është \(\chi^2\) mjaft i madh për të hedhur poshtë hipotezën zero? Për t'iu përgjigjur kësaj pyetjeje, është e nevojshme të gjendet vlera kritike përkatëse e kriterit. Numri i shkallëve të lirisë për \(\chi^2\) llogaritet si \(df = (R - 1)(C - 1)\), ku \(R\) dhe \(C\) janë numri i rreshtave dhe kolonave në tabelën e kontigjencës. Në rastin tonë \(df = (2 -1) (2 - 1) = 1\). Duke ditur numrin e shkallëve të lirisë, tani mund të zbulojmë lehtësisht vlerën kritike \(\chi^2\) duke përdorur funksionin standard R qchisq():


Kështu, për një shkallë lirie, vlera e kriterit \(\chi^2\) kalon 3,841 vetëm në 5% të rasteve. Vlera që kemi marrë, 6.79, e tejkalon ndjeshëm këtë vlerë kritike, gjë që na jep të drejtën të hedhim poshtë hipotezën zero se nuk ka lidhje midis administrimit të antitrupave dhe mbijetesës së minjve të infektuar. Duke hedhur poshtë këtë hipotezë, rrezikojmë të gabojmë me një probabilitet më të vogël se 5%.

Duhet të theksohet se formula e mësipërme për kriterin \(\chi^2\) jep vlera disi të mbivlerësuara kur punoni me tabela të paparashikuara të madhësisë 2x2. Arsyeja është se vetë shpërndarja e kriterit \(\chi^2\) është e vazhdueshme, ndërsa frekuencat e veçorive binare ("vdiq" / "mbijetuar") janë diskrete sipas definicionit. Në këtë drejtim, gjatë llogaritjes së kriterit, është zakon të prezantohet i ashtuquajturi. korrigjimi i vazhdimësisë, ose Amendamenti i Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

Pearson "Testi Chi-squared me Yates" të dhënat e korrigjimit të vazhdimësisë: minjtë X-katror = 5,7923 , df = 1 , p-vlera = 0,0161


Siç mund ta shihni, R automatikisht aplikon korrigjimin e Yates për vazhdimësi ( Testi Chi-squared i Pearson me korrigjimin e vazhdimësisë së Yates). Vlera \(\chi^2\) e llogaritur nga programi ishte 5.79213. Ne mund të hedhim poshtë hipotezën zero të mungesës së efektit të antitrupave me rrezikun e gabimit me një probabilitet prej pak më shumë se 1% (p-value = 0.0161).

Shpërndarja chi-square është një nga më të përdorurat në statistika për testimin e hipotezave statistikore. Në bazë të shpërndarjes "chi-square", u ndërtua një nga testet më të fuqishme të mirësisë së përshtatjes, testi "chi-square" i Pearson.

Testi i përshtatshmërisë është një kriter për testimin e hipotezës për ligjin e propozuar të shpërndarjes së panjohur.

Testi χ2 ("chi-square") përdoret për të testuar hipotezën e shpërndarjeve të ndryshme. Kjo është meritë e tij.

Formula e llogaritjes së kriterit është e barabartë me

ku m dhe m' janë respektivisht frekuencat empirike dhe teorike

shpërndarja në shqyrtim;

n është numri i shkallëve të lirisë.

Për verifikim, duhet të krahasojmë frekuencat empirike (të vëzhguara) dhe teorike (të llogaritura nën supozimin e një shpërndarje normale).

Nëse frekuencat empirike përkojnë plotësisht me frekuencat e llogaritura ose të pritura, S (E - T) = 0 dhe kriteri χ2 do të jetë gjithashtu i barabartë me zero. Nëse S (E - T) nuk është e barabartë me zero, kjo do të tregojë një mospërputhje midis frekuencave të llogaritura dhe frekuencave empirike të serisë. Në raste të tilla, është e nevojshme të vlerësohet rëndësia e kriterit χ2, i cili teorikisht mund të ndryshojë nga zero në pafundësi. Kjo bëhet duke krahasuar vlerën e përftuar në të vërtetë të χ2ph me vlerën e saj kritike (χ2st). Hipoteza zero, d.m.th., supozimi se mospërputhja midis frekuencave empirike dhe teorike ose të pritshme është e rastësishme, hidhet poshtë nëse χ2ph është më i madh ose i barabartë me χ2st për shkallën e pranuar të lirisë (një nivel) të numrit të shenjës.

Shpërndarja e vlerave të mundshme të ndryshores së rastësishme χ2 është e vazhdueshme dhe asimetrike. Varet nga numri i shkallëve të lirisë (n) dhe i afrohet një shpërndarjeje normale ndërsa numri i vëzhgimeve rritet. Prandaj, zbatimi i kriterit χ2 në vlerësimin e shpërndarjeve diskrete shoqërohet me disa gabime që ndikojnë në vlerën e tij, veçanërisht për mostrat e vogla. Për të marrë vlerësime më të sakta, kampioni i shpërndarë në seritë e variacioneve duhet të ketë të paktën 50 opsione. Zbatimi i drejtë i kriterit χ2 kërkon gjithashtu që frekuencat e varianteve në klasat ekstreme të mos jenë më të vogla se 5; nëse janë më pak se 5 të tilla, atëherë ato kombinohen me frekuencat e klasave fqinje në mënyrë që sasia totale e tyre të jetë më e madhe ose e barabartë me 5. Sipas kombinimit të frekuencave zvogëlohet edhe numri i klasave (N). Numri i shkallëve të lirisë caktohet sipas numrit dytësor të klasave, duke marrë parasysh numrin e kufizimeve në lirinë e ndryshimit.



Meqenëse saktësia e përcaktimit të kriterit χ2 varet në masë të madhe nga saktësia e llogaritjes së frekuencave teorike (T), frekuencat teorike të pa rrumbullakosura duhet të përdoren për të marrë diferencën midis frekuencave empirike dhe të llogaritura.

Si shembull, merrni një studim të publikuar në një faqe interneti kushtuar aplikimit të metodave statistikore në shkencat humane.

Testi Chi-square lejon krahasimin e shpërndarjeve të frekuencave, pavarësisht nëse ato shpërndahen normalisht apo jo.

Frekuenca i referohet numrit të ndodhive të një ngjarjeje. Zakonisht, shpeshtësia e ndodhjes së një ngjarjeje trajtohet kur variablat maten në shkallën e emrave dhe karakteristikat e tjera të tyre, përveç shpeshtësisë, janë të pamundura ose problematike për t'u zgjedhur. Me fjalë të tjera, kur ndryshorja ka karakteristika cilësore. Gjithashtu, shumë studiues priren të përkthejnë rezultatet e testit në nivele (të larta, të mesme, të ulëta) dhe të ndërtojnë tabela të shpërndarjeve të rezultateve për të gjetur numrin e njerëzve në këto nivele. Për të vërtetuar se në një nga nivelet (në një nga kategoritë) numri i njerëzve është vërtet më shumë (më pak), përdoret edhe koeficienti Chi-square.

Le të hedhim një vështrim në shembullin më të thjeshtë.

Një test i vetëvlerësimit u krye tek adoleshentët më të rinj. Rezultatet e testit u përkthyen në tre nivele: të larta, të mesme, të ulëta. Frekuencat u shpërndanë si më poshtë:

E lartë (H) 27 pers.

Mesatare (C) 12 persona

E ulët (H) 11 persona.

Është e qartë se shumica e fëmijëve me vetëbesim të lartë, megjithatë, kjo duhet të vërtetohet statistikisht. Për ta bërë këtë, ne përdorim testin Chi-square.

Detyra jonë është të kontrollojmë nëse të dhënat e marra empirike ndryshojnë nga ato teorikisht po aq të mundshme. Për ta bërë këtë, është e nevojshme të gjenden frekuencat teorike. Në rastin tonë, frekuencat teorike janë frekuenca ekuiprobabile që gjenden duke mbledhur të gjitha frekuencat dhe pjesëtuar me numrin e kategorive.

Në rastin tonë:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16.6

Formula për llogaritjen e testit chi-square është:

χ2 = ∑(E - T)І / T

Ne ndërtojmë një tabelë:

Gjeni shumën e kolonës së fundit:

Tani ju duhet të gjeni vlerën kritike të kriterit sipas tabelës së vlerave kritike (Tabela 1 në Shtojcën). Për ta bërë këtë, na duhet numri i shkallëve të lirisë (n).

n = (R - 1) * (C - 1)

ku R është numri i rreshtave në tabelë, C është numri i kolonave.

Në rastin tonë, ekziston vetëm një kolonë (që nënkupton frekuencat origjinale empirike) dhe tre rreshta (kategori), kështu që formula ndryshon - ne i përjashtojmë kolonat.

n = (R - 1) = 3-1 = 2

Për probabilitetin e gabimit p≤0.05 dhe n = 2, vlera kritike χ2 = 5.99.

Vlera empirike e përftuar është më e madhe se vlera kritike - diferencat e frekuencës janë domethënëse (χ2= 9,64; p≤0,05).

Siç mund ta shihni, llogaritja e kriterit është shumë e thjeshtë dhe nuk kërkon shumë kohë. Vlera praktike e testit chi-square është e madhe. Kjo metodë është më e vlefshme në analizën e përgjigjeve të pyetësorëve.


Le të marrim një shembull më kompleks.

Për shembull, një psikolog dëshiron të dijë nëse është e vërtetë që mësuesit janë më të njëanshëm ndaj djemve sesa ndaj vajzave. Ato. më shumë gjasa për të lavdëruar vajzat. Për ta bërë këtë, psikologu analizoi karakteristikat e nxënësve të shkruara nga mësuesit për shpeshtësinë e shfaqjes së tre fjalëve: "aktiv", "i zellshëm", "i disiplinuar", u numëruan edhe sinonimet e fjalëve. Të dhënat për shpeshtësinë e shfaqjes së fjalëve janë futur në tabelë:

Për të përpunuar të dhënat e marra, ne përdorim testin chi-square.

Për ta bërë këtë, ne ndërtojmë një tabelë të shpërndarjes së frekuencave empirike, d.m.th. frekuencat që vëzhgojmë:

Teorikisht presim që frekuencat të shpërndahen në mënyrë të barabartë, d.m.th. frekuenca do të shpërndahet proporcionalisht ndërmjet djemve dhe vajzave. Le të ndërtojmë një tabelë të frekuencave teorike. Për ta bërë këtë, shumëzoni shumën e rreshtit me shumën e kolonës dhe ndani numrin që rezulton me shumën totale (s).

Tabela që rezulton për llogaritjet do të duket si kjo:

χ2 = ∑(E - T)І / T

n = (R - 1), ku R është numri i rreshtave në tabelë.

Në rastin tonë, chi-katror = 4,21; n = 2.

Sipas tabelës së vlerave kritike të kriterit, gjejmë: në n = 2 dhe një nivel gabimi prej 0,05, vlera kritike χ2 = 5,99.

Vlera që rezulton është më e vogël se vlera kritike, që do të thotë se hipoteza zero pranohet.

Përfundim: mësuesit nuk i kushtojnë rëndësi gjinisë së fëmijës kur shkruajnë karakteristikat e tij.


konkluzioni.

K. Pearson dha një kontribut të rëndësishëm në zhvillimin e statistikave matematikore (një numër i madh konceptesh themelore). Pozicioni kryesor filozofik i Pearson është formuluar si më poshtë: konceptet e shkencës janë ndërtime artificiale, mjete për të përshkruar dhe renditur përvojën shqisore; rregullat për lidhjen e tyre në propozime shkencore janë veçuar nga gramatika e shkencës, e cila është filozofia e shkencës. Lidhja e koncepteve dhe fenomeneve heterogjene lejon një disiplinë universale - statistika të aplikuara, megjithëse sipas Pearson ajo është gjithashtu subjektive.

Shumë ndërtime të K. Pearson lidhen drejtpërdrejt ose zhvillohen duke përdorur materiale antropologjike. Ai zhvilloi metoda të shumta klasifikimi numerik dhe kritere statistikore të përdorura në të gjitha fushat e shkencës.


Letërsia.

1. A. N. Bogolyubov, Matematikë. Mekanika. Udhëzues biografik. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Yushkevich A. P. (red.). Matematika e shekullit XIX. - M.: Shkencë. - T.I.

3. 3. Borovkov A.A. Statistikat e matematikës. Moskë: Nauka, 1994.

4. 8. Feller V. Hyrje në teorinë e probabilitetit dhe zbatimet e saj. - M.: Mir, T.2, 1984.

5. 9. Harman G., Analiza faktoriale moderne. - M.: Statistikat, 1972.

Shpërndarja. Shpërndarja Pearson Dendësia e probabilitetit ... Wikipedia

shpërndarja chi-square- shpërndarja "chi Square" - Temat siguria e informacionit EN chi Square shpërndarja ... Manuali i Përkthyesit Teknik

shpërndarje chi-katrore- Shpërndarja e probabilitetit të një ndryshoreje të rastësishme të vazhdueshme me vlera nga 0 në, dendësia e së cilës jepet nga formula, ku 0 me parametrin =1,2,...; është funksioni gama. Shembuj. 1) Shuma e katrorëve të rastësishme normale të pavarura të normalizuara ... ... Fjalori i Statistikave Sociologjike

SHPËRNDARJA E KATRIT KI (chi2)- Shpërndarja e ndryshores së rastësishme chi2., nëse mostrat e rastësishme të madhësisë 1 merren nga një shpërndarje normale me mesatare (dhe variancë q2, atëherë chi2 = (X1 u)2/q2, ku X është vlera e zgjedhur. Nëse madhësia e kampionit rritet në mënyrë arbitrare deri në N, atëherë chi2 =… …

Dendësia e probabilitetit ... Wikipedia

- (Shpërndarja Snedecor) Dendësia e probabilitetit ... Wikipedia

Shpërndarja Fisher Dendësia e probabilitetit Funksioni i shpërndarjes Parametrat e numrit me ... Wikipedia

Një nga konceptet bazë të teorisë së probabilitetit dhe statistikave matematikore. Në qasje moderne si një matematikë modeli i dukurisë së rastësishme në studim, merret hapësira përkatëse e probabilitetit (W, S, P), ku W është bashkësia e elementeve ... Enciklopedia Matematikore

Shpërndarja e gamës Dendësia e probabilitetit Funksioni i shpërndarjes Parametrat ... Wikipedia

F SHPËRNDARJE- Shpërndarja teorike e probabilitetit të një ndryshoreje të rastësishme F. Nëse mostrat e rastësishme të madhësisë N zgjidhen në mënyrë të pavarur nga një popullatë normale, secila prej tyre gjeneron një shpërndarje chi-katrore me një shkallë lirie = N. Raporti i dy të tilla ... ... Fjalor në psikologji

librat

  • Teoria e probabilitetit dhe statistikat matematikore në problema. Më shumë se 360 ​​detyra dhe ushtrime, Borzykh D.A. Manuali i propozuar përmban detyra nivele të ndryshme vështirësitë. Megjithatë, theksi kryesor vihet në detyrat me kompleksitet mesatar. Kjo është bërë qëllimisht për të inkurajuar studentët të…