Fie U 1 , U 2 , ..,U k standard independent valori normale. Distributie variabilă aleatorie K = U 1 2 +U 2 2 + .. + U k 2 se numește distribuție chi-pătrat cu k grade de libertate (se scriu K~χ 2 (k)). Aceasta este o distribuție unimodală cu asimetrie pozitivă și cu următoarele caracteristici: mod M=k-2 valorea estimata m=k dispersie D=2k (Fig.). Când suficient mare importanță parametru k distribuția χ 2 (k) are o distribuție aproximativ normală cu parametri

La rezolvarea problemelor statistici matematice punctele critice χ 2 (k) sunt utilizate în funcţie de probabilitate datăα și numărul de grade de libertate k(Anexa 2). Punctul critic Χ 2 kr = Χ 2 (k; α) este limita regiunii, în dreapta căreia se află 100-α% din suprafața sub curba densității distribuției. Probabilitatea ca valoarea variabilei aleatoare K~χ 2 (k) în timpul testării să cadă în dreapta punctului χ 2 (k) nu depășește α P(K≥χ 2 kp)≤ α). De exemplu, pentru o variabilă aleatoare K~χ 2 (20) setăm probabilitatea α=0,05. Conform tabelului puncte critice distribuția „chi-pătrat” (tabele) găsim χ 2 kp = χ 2 (20;0,05)=31,4. Deci probabilitatea acestei variabile aleatoare K ia o valoare mai mare de 31,4, mai mică de 0,05 (Fig.).

Orez. Graficul densității distribuției χ 2 (k) pentru diferite valori ale numărului de grade de libertate k

Punctele critice χ 2 (k) sunt utilizate în următoarele calculatoare:

  1. Verificarea multicoliniarității (despre multicoliniaritate).
Testarea ipotezei chi-pătrat va răspunde doar la întrebarea „există o relație?” Sunt necesare cercetări suplimentare pentru a verifica direcția relației. Mai mult, testul Chi-pătrat dă o anumită eroare atunci când se lucrează cu date de joasă frecvență.

Prin urmare, pentru a verifica direcția de comunicare este selectată analiza corelației, în special, testarea ipotezei folosind coeficientul de corelație Pearson cu testarea ulterioară a fiabilității folosind testul t.

Pentru orice valoare a nivelului de semnificație α Χ 2 poate fi găsită folosind funcția MS Excel: = XI2OBR (α; grade de libertate)

n-1 .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
Numărul de grade de libertate k Nivel de semnificație a
0,01 0,025 0.05 0,95 0,975 0.99
1 6.6 5.0 3.8 0.0039 0.00098 0.00016
2 9.2 7.4 6.0 0.103 0.051 0.020
3 11.3 9.4 7.8 0.352 0.216 0.115
4 13.3 11.1 9.5 0.711 0.484 0.297
5 15.1 12.8 11.1 1.15 0.831 0.554
6 16.8 14.4 12.6 1.64 1.24 0.872
7 18.5 16.0 14.1 2.17 1.69 1.24
8 20.1 17.5 15.5 2.73 2.18 1.65
9 21.7 19.0 16.9 3.33 2.70 2.09
10 23.2 20.5 18.3 3.94 3.25 2.56
11 24.7 21.9 19.7 4.57 3.82 3.05
12 26.2 23.3 21 .0 5.23 4.40 3.57
13 27.7 24.7 22.4 5.89 5.01 4.11
14 29.1 26.1 23.7 6.57 5.63 4.66
15 30.6 27.5 25.0 7.26 6.26 5.23
16 32.0 28.8 26.3 7.96 6.91 5.81
17 33.4 30.2 27.6 8.67 7.56 6.41
18 34.8 31.5 28.9 9.39 8.23 7.01
19 36.2 32.9 30.1 10.1 8.91 7.63
20 37.6 34.2 31.4 10.9 9.59 8.26
21 38.9 35.5 32.7 11.6 10.3 8.90
22 40.3 36.8 33.9 12.3 11.0 9.54
23 41.6 38.1 35.2 13.1 11.7 10.2
24 43.0 39.4 36.4 13.8 12.4 10.9
25 44.3 40.6 37.7 14.6 13.1 11.5
26 45.6 41.9 38.9 15.4 13.8 12.2
27 47.0 43.2 40.1 16.2 14.6 12.9
28 48.3 44.5 41.3 16.9 15.3 13.6
29 49.6 45.7 42.6 17.7 16.0 14.3
30 50.9 47.0 43.8 18.5 16.8 15.0

Distribuția chi-pătrat

Prin utilizarea distributie normala sunt definite trei distribuții, care sunt acum adesea folosite în prelucrarea datelor statistice. Acestea sunt distribuțiile lui Pearson ("chi - pătrat"), Student și Fisher.

Ne vom concentra pe distribuție ("chi - pătrat"). Această distribuție a fost studiată pentru prima dată de astronomul F. Helmert în 1876. În legătură cu teoria gaussiană a erorilor, el a studiat sumele pătratelor a n variabile aleatoare standard independente distribuite normal. Mai târziu, Karl Pearson a numit această funcție de distribuție „chi-pătrat”. Și acum distribuția îi poartă numele.

Datorită legăturii sale strânse cu distribuția normală, distribuția h2 joacă un rol important în teoria probabilităților și statistica matematică. Distribuția h2 și multe alte distribuții care sunt definite de distribuția h2 (de exemplu, distribuția lui Student), descriu distribuțiile eșantionului de diferite funcții din observații distribuite normal și sunt utilizate pentru a construi intervale de încredere și teste statistice.

Distribuția Pearson (chi - pătrat) - distribuția unei variabile aleatoare în care X1, X2,..., Xn sunt variabile aleatoare independente normale, iar așteptarea matematică a fiecăreia dintre ele este egală cu zero, iar abaterea standard este una.

Suma patratelor

distribuite conform legii („chi – pătrat”).

În acest caz, numărul de termeni, adică n, se numește „numărul de grade de libertate” al distribuției chi-pătrat. Pe măsură ce numărul de grade de libertate crește, distribuția se apropie încet de normal.

Densitatea acestei distribuții


Deci, distribuția lui h2 depinde de un parametru n - numărul de grade de libertate.

Funcția de distribuție h2 are forma:

dacă h2?0. (2.7.)

Figura 1 prezintă o diagramă a densității de probabilitate și a funcției de distribuție χ2 pentru diferite grade de libertate.

Figura 1 Dependența densității de probabilitate q (x) în distribuția lui h2 (chi pătrat) pentru un număr diferit de grade de libertate.

Momente ale distribuției „chi-pătrat”:

Distribuția chi-pătrat este utilizată în estimarea varianței (folosind un interval de încredere), în testarea ipotezelor de acord, omogenitate, independență, în primul rând pentru variabile calitative (categorizate) care preiau un număr finit de valori și în multe alte sarcini. analize statistice date.

„Chi-pătrat” în probleme de analiză a datelor statistice

Metodele statistice de analiză a datelor sunt utilizate în aproape toate domeniile activității umane. Ele sunt folosite ori de câte ori este necesar pentru a obține și fundamenta orice judecăți despre un grup (obiecte sau subiecți) cu o oarecare eterogenitate internă.

Stadiul modern de dezvoltare metode statistice se poate număra din 1900, când englezul K. Pearson a fondat revista „Biometrika”. Prima treime a secolului XX trecută sub semnul statisticii parametrice. Au fost studiate metode bazate pe analiza datelor din familii parametrice de distribuții descrise prin curbele familiei Pearson. Cea mai populară a fost distribuția normală. Pentru testarea ipotezelor au fost utilizate criteriile Pearson, Student și Fisher. Au fost propuse metoda de maxim probabilitate, analiza varianței și au fost formulate ideile principale de planificare a experimentului.

Distribuția chi-pătrat este una dintre cele mai utilizate în statistici pentru testare ipotezele statistice. Pe baza distribuției „chi-pătrat”, se construiește unul dintre cele mai puternice teste de bunătate de potrivire, testul „chi-pătrat” al lui Pearson.

Testul de bunătate a potrivirii este un criteriu de testare a ipotezei despre legea propusă a distribuției necunoscute.

Testul p2 ("chi-pătrat") este utilizat pentru a testa ipoteza diferitelor distribuții. Acesta este meritul lui.

Formula de calcul a criteriului este egală cu

unde m și m" sunt frecvențe empirice și, respectiv, teoretice

distribuția luată în considerare;

n este numărul de grade de libertate.

Pentru verificare, trebuie să comparăm frecvențele empirice (observate) și teoretice (calculate în ipoteza unei distribuții normale).

Dacă frecvențele empirice coincid complet cu frecvențele calculate sau așteptate, S (E - T) = 0 și criteriul ch2 va fi, de asemenea, egal cu zero. Dacă S (E - T) nu este egal cu zero, aceasta va indica o discrepanță între frecvențele calculate și frecvențele empirice ale seriei. În astfel de cazuri, este necesar să se evalueze semnificația criteriului p2, care teoretic poate varia de la zero la infinit. Acest lucru se realizează prin compararea valorii obținute efectiv a lui ch2f cu valoarea sa critică (ch2st) (a) și numărul de grade de libertate (n).

Distribuția valorilor probabile ale variabilei aleatoare h2 este continuă și asimetrică. Depinde de numărul de grade de libertate (n) și se apropie de o distribuție normală pe măsură ce crește numărul de observații. Prin urmare, aplicarea criteriului p2 la evaluare distribuții discrete este asociat cu unele erori care îi afectează valoarea, în special pentru eșantioanele mici. Pentru a obține estimări mai precise, eșantionul a distribuit în serie de variații, trebuie să aibă cel puțin 50 de opțiuni. Aplicarea corectă criteriul p2 mai cere ca frecvențele variantelor din clasele extreme să nu fie mai mici de 5; dacă sunt mai puțin de 5, atunci acestea se combină cu frecvențele claselor învecinate, astfel încât suma lor totală să fie mai mare sau egală cu 5. În funcție de combinația de frecvențe, scade și numărul de clase (N). Numărul de grade de libertate se stabilește în funcție de numărul secundar de clase, ținând cont de numărul de restricții privind libertatea de variație.

Deoarece acuratețea determinării criteriului p2 depinde în mare măsură de acuratețea calculării frecvențelor teoretice (T), frecvențele teoretice nerotunjite ar trebui utilizate pentru a obține diferența dintre frecvențele empirice și cele calculate.

Ca exemplu, luați un studiu publicat pe un site web dedicat aplicării metodelor statistice în științe umaniste.

Testul Chi-pătrat permite compararea distribuțiilor de frecvență, indiferent dacă acestea sunt distribuite normal sau nu.

Frecvența se referă la numărul de apariții ale unui eveniment. De obicei, frecvența de apariție a unui eveniment este tratată atunci când variabilele sunt măsurate în scara numelor și celelalte caracteristici ale acestora, cu excepția frecvenței, sunt imposibil sau problematic de selectat. Cu alte cuvinte, atunci când variabila are caracteristici calitative. De asemenea, mulți cercetători tind să traducă scorurile testelor în niveluri (înalt, mediu, scăzut) și să construiască tabele de distribuție a scorurilor pentru a afla numărul de persoane la aceste niveluri. Pentru a demonstra că într-unul dintre niveluri (într-una dintre categorii) numărul de persoane este într-adevăr mai mare (mai puțin), se folosește și coeficientul Chi pătrat.

Să aruncăm o privire la cel mai simplu exemplu.

Un test de stima de sine a fost efectuat în rândul adolescenților mai tineri. Scorurile testelor au fost traduse în trei niveluri: mare, mediu, scăzut. Frecvențele au fost distribuite după cum urmează:

Înalt (H) 27 pers.

Mediu (C) 12 persoane

Scăzut (H) 11 pers.

Este evident că majoritatea copiilor cu stima de sine ridicată, totuși, acest lucru trebuie dovedit statistic. Pentru a face acest lucru, folosim testul Chi-pătrat.

Sarcina noastră este să verificăm dacă datele empirice obţinute diferă de cele la fel de probabile teoretic. Pentru a face acest lucru, este necesar să găsiți frecvențele teoretice. În cazul nostru, frecvențele teoretice sunt frecvențe echiprobabile care se găsesc adunând toate frecvențele și împărțind la numărul de categorii.

În cazul nostru:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6

Formula de calcul a testului chi-pătrat este:

h2 \u003d? (E - T)? / T

Construim un tabel:

Empiric (Uh)

Teoretic (T)

Aflați suma ultimei coloane:

Acum trebuie să găsiți valoarea critică a criteriului conform tabelului cu valori critice (Tabelul 1 din Anexă). Pentru a face acest lucru, avem nevoie de numărul de grade de libertate (n).

n = (R - 1) * (C - 1)

unde R este numărul de rânduri din tabel, C este numărul de coloane.

În cazul nostru, există doar o coloană (adică frecvențele empirice originale) și trei rânduri (categorii), așa că formula se schimbă - excludem coloanele.

n = (R - 1) = 3-1 = 2

Pentru probabilitatea de eroare p?0,05 și n = 2, valoarea critică este h2 = 5,99.

Valoarea empirică obținută este mai mare decât valoarea critică - diferențele de frecvență sunt semnificative (n2= 9,64; p≤0,05).

După cum puteți vedea, calculul criteriului este foarte simplu și nu necesită mult timp. Valoarea practică a testului chi-pătrat este enormă. Această metodă este cea mai valoroasă în analiza răspunsurilor la chestionare.

Să luăm un exemplu mai complex.

De exemplu, un psiholog vrea să știe dacă este adevărat că profesorii sunt mai părtinitori față de băieți decât față de fete. Acestea. mai probabil să laude fetele. Pentru aceasta, psihologul a analizat caracteristicile elevilor scrise de profesori pentru frecvența de apariție a trei cuvinte: „activ”, „sârguincios”, „disciplinat”, au fost numărate și sinonimele cuvintelor. Datele privind frecvența de apariție a cuvintelor au fost introduse în tabel:

Pentru a procesa datele obținute, folosim testul chi-pătrat.

Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:

Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).

Tabelul rezultat pentru calcule va arăta astfel:

h2 \u003d? (E - T)? / T

n = (R - 1), unde R este numărul de rânduri din tabel.

În cazul nostru, chi-pătrat = 4,21; n = 2.

Conform tabelului de valori critice ale criteriului, găsim: cu n = 2 și un nivel de eroare de 0,05, valoarea critică h2 = 5,99.

Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.

Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.

Aplicație

Puncte critice de distribuție p2

Testul \(\chi^2\) („chi-pătrat”, de asemenea „testul de bunătate a potrivirii lui Pearson”) are o aplicație extrem de largă în statistică. LA vedere generala putem spune că este folosit pentru a testa ipoteza nulă despre supunerea unei variabile aleatoare observate față de o anumită lege teoretică de distribuție (pentru mai multe detalii, vezi, de exemplu,). Formulare specifică ipoteza testabilă va varia de la caz la caz.

În această postare, voi descrie cum funcționează testul \(\chi^2\) folosind un exemplu (ipotetic) din imunologie. Imaginați-vă că am efectuat un experiment pentru a determina eficiența suprimării dezvoltării unei boli microbiene atunci când anticorpii corespunzători sunt introduși în organism. În total, 111 șoareci au fost implicați în experiment, pe care i-am împărțit în două grupuri, inclusiv 57 și, respectiv, 54 de animale. Primul grup de șoareci a fost injectat cu bacterii patogene, urmat de introducerea serului sanguin care conține anticorpi împotriva acestor bacterii. Animalele din al doilea grup au servit drept martori - au primit doar injecții bacteriene. După un timp de incubație, s-a dovedit că 38 de șoareci au murit și 73 au supraviețuit. Dintre morți, 13 aparțineau primului grup, iar 25 aparțineau celui de-al doilea (control). testat în acest experiment ipoteza nulă poate fi formulat astfel: introducerea de ser cu anticorpi nu are efect asupra supravieţuirii şoarecilor. Cu alte cuvinte, susținem că diferențele observate în supraviețuirea șoarecilor (77,2% în primul grup față de 53,7% în al doilea grup) sunt complet aleatorii și nu sunt asociate cu acțiunea anticorpilor.

Datele obținute în experiment pot fi prezentate sub forma unui tabel:

Total

Bacterii + ser

Doar bacterii

Total

Tabelele ca acesta se numesc tabele de contingență. În acest exemplu, tabelul are o dimensiune de 2x2: există două clase de obiecte („Bacterii + ser” și „Numai bacterii”), care sunt examinate în funcție de două criterii („Mort” și „Supraviețuit”). aceasta cel mai simplu caz tabele de contingență: desigur, atât numărul de clase studiate, cât și numărul de caracteristici pot fi mai mari.

Pentru a testa ipoteza nulă formulată mai sus, trebuie să știm care ar fi situația dacă anticorpii nu ar avea cu adevărat niciun efect asupra supraviețuirii șoarecilor. Cu alte cuvinte, trebuie să calculezi frecvențele așteptate pentru celulele corespunzătoare din tabelul de contingență. Cum să o facă? În experiment, un total de 38 de șoareci au murit, ceea ce reprezintă 34,2% din numărul total animalele implicate. Dacă introducerea de anticorpi nu afectează supraviețuirea șoarecilor, același procent de mortalitate ar trebui să fie observat la ambele loturi experimentale și anume 34,2%. Calculând cât este 34,2% din 57 și 54, obținem 19,5 și 18,5. Acestea sunt ratele de mortalitate așteptate în grupurile noastre experimentale. Ratele de supraviețuire așteptate sunt calculate într-un mod similar: deoarece 73 de șoareci au supraviețuit în total, sau 65,8% din numărul lor total, ratele de supraviețuire așteptate sunt 37,5 și 35,5. Să facem un nou tabel de contingență, acum cu frecvențele așteptate:

mort

Supraviețuitori

Total

Bacterii + ser

Doar bacterii

Total

După cum puteți vedea, frecvențele așteptate sunt destul de diferite de cele observate, adică. administrarea de anticorpi pare să aibă un efect asupra supraviețuirii șoarecilor infectați cu agentul patogen. Putem cuantifica această impresie folosind testul de bunăstare a potrivirii lui Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


unde \(f_o\) și \(f_e\) sunt frecvențele observate și respectiv așteptate. Însumarea se efectuează pe toate celulele tabelului. Deci, pentru exemplul luat în considerare, avem

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Este \(\chi^2\) suficient de mare pentru a respinge ipoteza nulă? Pentru a răspunde la această întrebare, este necesar să găsim valoarea critică corespunzătoare a criteriului. Numărul de grade de libertate pentru \(\chi^2\) este calculat ca \(df = (R - 1)(C - 1)\), unde \(R\) și \(C\) sunt numărul de rânduri și coloane în conjugarea tabelului. În cazul nostru \(df = (2 -1)(2 - 1) = 1\). Cunoscând numărul de grade de libertate, acum putem afla cu ușurință valoarea critică \(\chi^2\) folosind funcția R standard qchisq() :


Astfel, pentru un grad de libertate, valoarea criteriului \(\chi^2\) depășește 3,841 doar în 5% din cazuri. Valoarea pe care am obținut-o, 6,79, depășește semnificativ această valoare critică, ceea ce ne dă dreptul de a respinge ipoteza nulă că nu există nicio relație între administrarea de anticorpi și supraviețuirea șoarecilor infectați. Respingând această ipoteză, riscăm să greșim cu o probabilitate mai mică de 5%.

Trebuie remarcat faptul că formula de mai sus pentru criteriul \(\chi^2\) oferă valori oarecum supraestimate atunci când se lucrează cu tabele de contingență de dimensiunea 2x2. Motivul este că distribuția criteriului \(\chi^2\) în sine este continuă, în timp ce frecvențele caracteristicilor binare („a murit” / „a supraviețuit”) sunt discrete prin definiție. În acest sens, la calcularea criteriului, se obișnuiește să se introducă așa-numitul. corectarea continuitatii, sau amendamentul Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Pearson „Testul chi-pătrat cu Yates” date de corecție a continuității: șoareci X-pătrat = 5,7923, df = 1, valoare p = 0,0161


După cum puteți vedea, R aplică automat corecția Yates pentru continuitate ( Testul Chi-pătrat al lui Pearson cu corecția de continuitate a lui Yates). Valoarea \(\chi^2\) calculată de program a fost 5,79213. Putem respinge ipoteza nulă a lipsei efectului de anticorpi cu riscul de a greși cu o probabilitate de puțin peste 1% (valoarea p = 0,0161).

Distribuția chi-pătrat este una dintre cele mai utilizate în statistică pentru testarea ipotezelor statistice. Pe baza distribuției „chi-pătrat”, a fost construit unul dintre cele mai puternice teste de bunătate de potrivire, testul „chi-pătrat” al lui Pearson.

Testul de bunătate a potrivirii este un criteriu de testare a ipotezei despre legea propusă a distribuției necunoscute.

Testul χ2 ("chi-pătrat") este utilizat pentru a testa ipoteza diferitelor distribuții. Acesta este meritul lui.

Formula de calcul a criteriului este egală cu

unde m și m' sunt frecvențele empirice și, respectiv, teoretice

distribuția luată în considerare;

n este numărul de grade de libertate.

Pentru verificare, trebuie să comparăm frecvențele empirice (observate) și teoretice (calculate în ipoteza unei distribuții normale).

Dacă frecvențele empirice coincid complet cu frecvențele calculate sau așteptate, S (E - T) = 0 și criteriul χ2 va fi, de asemenea, egal cu zero. Dacă S (E - T) nu este egal cu zero, aceasta va indica o discrepanță între frecvențele calculate și frecvențele empirice ale seriei. În astfel de cazuri, este necesar să se evalueze semnificația criteriului χ2, care teoretic poate varia de la zero la infinit. Acest lucru se realizează prin compararea valorii efectiv obținute a lui χ2ph cu valoarea sa critică (χ2st).Ipoteza nulă, adică ipoteza că discrepanța dintre frecvențele empirice și teoretice sau așteptate este aleatorie, este infirmată dacă χ2ph este mai mare sau egal. la χ2st pentru nivelul de semnificație acceptat (a) și numărul de grade de libertate (n).

Distribuția valorilor probabile ale variabilei aleatoare χ2 este continuă și asimetrică. Depinde de numărul de grade de libertate (n) și se apropie de o distribuție normală pe măsură ce crește numărul de observații. Prin urmare, aplicarea criteriului χ2 la estimarea distribuțiilor discrete este asociată cu unele erori care îi afectează valoarea, în special pentru eșantioane mici. Pentru a obține estimări mai precise, eșantionul distribuit în seria de variații ar trebui să aibă cel puțin 50 de opțiuni. Aplicarea corectă a criteriului χ2 necesită, de asemenea, ca frecvențele variantelor din clasele extreme să nu fie mai mici de 5; dacă sunt mai puțin de 5, atunci acestea se combină cu frecvențele claselor învecinate, astfel încât suma lor totală să fie mai mare sau egală cu 5. În funcție de combinația de frecvențe, scade și numărul de clase (N). Numărul de grade de libertate se stabilește în funcție de numărul secundar de clase, ținând cont de numărul de restricții privind libertatea de variație.



Deoarece acuratețea determinării criteriului χ2 depinde în mare măsură de acuratețea calculării frecvențelor teoretice (T), frecvențele teoretice nerotunjite ar trebui utilizate pentru a obține diferența dintre frecvențele empirice și cele calculate.

Ca exemplu, luați un studiu publicat pe un site web dedicat aplicării metodelor statistice în științe umaniste.

Testul Chi-pătrat permite compararea distribuțiilor de frecvență, indiferent dacă acestea sunt distribuite normal sau nu.

Frecvența se referă la numărul de apariții ale unui eveniment. De obicei, frecvența de apariție a unui eveniment este tratată atunci când variabilele sunt măsurate în scara numelor și celelalte caracteristici ale acestora, cu excepția frecvenței, sunt imposibil sau problematic de selectat. Cu alte cuvinte, atunci când variabila are caracteristici calitative. De asemenea, mulți cercetători tind să traducă scorurile testelor în niveluri (înalt, mediu, scăzut) și să construiască tabele de distribuție a scorurilor pentru a afla numărul de persoane la aceste niveluri. Pentru a demonstra că într-unul dintre niveluri (într-una dintre categorii) numărul de persoane este într-adevăr mai mare (mai puțin), se folosește și coeficientul Chi pătrat.

Să aruncăm o privire la cel mai simplu exemplu.

Un test de stima de sine a fost efectuat în rândul adolescenților mai tineri. Scorurile testelor au fost traduse în trei niveluri: mare, mediu, scăzut. Frecvențele au fost distribuite după cum urmează:

Înalt (H) 27 pers.

Mediu (C) 12 persoane

Scăzut (H) 11 pers.

Este evident că majoritatea copiilor cu stima de sine ridicată, totuși, acest lucru trebuie dovedit statistic. Pentru a face acest lucru, folosim testul Chi-pătrat.

Sarcina noastră este să verificăm dacă datele empirice obţinute diferă de cele la fel de probabile teoretic. Pentru a face acest lucru, este necesar să găsiți frecvențele teoretice. În cazul nostru, frecvențele teoretice sunt frecvențe echiprobabile care se găsesc adunând toate frecvențele și împărțind la numărul de categorii.

În cazul nostru:

(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6

Formula de calcul a testului chi-pătrat este:

χ2 = ∑(E - T)І / T

Construim un tabel:

Aflați suma ultimei coloane:

Acum trebuie să găsiți valoarea critică a criteriului conform tabelului cu valori critice (Tabelul 1 din Anexă). Pentru a face acest lucru, avem nevoie de numărul de grade de libertate (n).

n = (R - 1) * (C - 1)

unde R este numărul de rânduri din tabel, C este numărul de coloane.

În cazul nostru, există o singură coloană (adică frecvențele empirice originale) și trei rânduri (categorii), așa că formula se schimbă - excludem coloanele.

n = (R - 1) = 3-1 = 2

Pentru probabilitatea de eroare p≤0,05 și n = 2, valoarea critică χ2 = 5,99.

Valoarea empirică obținută este mai mare decât valoarea critică - diferențele de frecvență sunt semnificative (χ2= 9,64; p≤0,05).

După cum puteți vedea, calculul criteriului este foarte simplu și nu necesită mult timp. Valoarea practică a testului chi-pătrat este enormă. Această metodă este cea mai valoroasă în analiza răspunsurilor la chestionare.


Să luăm un exemplu mai complex.

De exemplu, un psiholog vrea să știe dacă este adevărat că profesorii sunt mai părtinitori față de băieți decât față de fete. Acestea. mai probabil să laude fetele. Pentru aceasta, psihologul a analizat caracteristicile elevilor scrise de profesori pentru frecvența de apariție a trei cuvinte: „activ”, „sârguincios”, „disciplinat”, au fost numărate și sinonimele cuvintelor. Datele privind frecvența de apariție a cuvintelor au fost introduse în tabel:

Pentru a procesa datele obținute, folosim testul chi-pătrat.

Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:

Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).

Tabelul rezultat pentru calcule va arăta astfel:

χ2 = ∑(E - T)І / T

n = (R - 1), unde R este numărul de rânduri din tabel.

În cazul nostru, chi-pătrat = 4,21; n = 2.

Conform tabelului de valori critice ale criteriului, găsim: la n = 2 și un nivel de eroare de 0,05, valoarea critică χ2 = 5,99.

Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.

Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.


Concluzie.

K. Pearson a adus o contribuție semnificativă la dezvoltarea statisticii matematice (un număr mare de concepte fundamentale). Poziția filosofică principală a lui Pearson este formulată astfel: conceptele științei sunt construcții artificiale, mijloace de descriere și ordonare a experienței senzoriale; regulile pentru legarea lor în propuneri științifice sunt evidențiate de gramatica științei, care este filosofia științei. Conectarea conceptelor și fenomenelor eterogene permite o disciplină universală - statistica aplicată, deși după Pearson este și subiectivă.

Multe construcții ale lui K. Pearson sunt direct legate sau dezvoltate folosind materiale antropologice. A dezvoltat numeroase metode de clasificare numerică și criterii statistice utilizate în toate domeniile științei.


Literatură.

1. A. N. Bogolyubov, Matematică. Mecanica. Ghid biografic. - Kiev: Naukova Dumka, 1983.

2. Kolmogorov A. N., Iuşkevici A. P. (ed.). Matematica secolului al XIX-lea. - M.: Știință. - T.I.

3. 3. Borovkov A.A. Statistici matematice. Moscova: Nauka, 1994.

4. 8. Feller V. Introducere în teoria probabilității și aplicațiile acesteia. - M.: Mir, T.2, 1984.

5. 9. Harman G., Analiza factorială modernă. - M.: Statistică, 1972.

Distributie. Distribuția Pearson Densitatea probabilității ... Wikipedia

distribuția chi-pătrat- distribuție "chi pătrat" ​​- Subiecte securitatea informațiilor EN chi pătrat distribuție ... Manualul Traducătorului Tehnic

distribuția chi-pătrat- Distribuția probabilității unei variabile aleatoare continue cu valori de la 0 la, a cărei densitate este dată de formula, unde 0 cu parametrul =1,2,...; este funcția gamma. Exemple. 1) Suma pătratelor aleatoarelor normale normalizate independente ... ... Dicţionar de statistică sociologică

DISTRIBUȚIE CHI-SQUARE (chi2)- Distribuția variabilei aleatoare chi2.dacă eșantioane aleatoare de dimensiunea 1 sunt luate dintr-o distribuție normală cu medie (și varianță q2, atunci chi2 = (X1 u)2/q2, unde X este valoarea eșantionată. Dacă dimensiunea eșantionului crește arbitrar până la N, apoi chi2 = … …

Densitatea probabilității... Wikipedia

- (distribuția Snedecor) Densitatea probabilității ... Wikipedia

Distribuția Fisher Densitatea probabilității Funcția de distribuție Număr parametri cu ... Wikipedia

Unul dintre conceptele de bază ale teoriei probabilităților și statisticii matematice. La abordare modernă ca un matematic modelul fenomenului aleator studiat, se ia spațiul de probabilitate corespunzător (W, S, P), unde W este mulțimea elementare... Enciclopedie matematică

Distribuție gamma Densitate de probabilitate Funcție de distribuție Parametri ... Wikipedia

F DISTRIBUȚIE- Distribuția teoretică de probabilitate a unei variabile aleatoare F. Dacă eșantioane aleatoare de mărimea N sunt selectate independent dintr-o populație normală, fiecare dintre ele generează o distribuție chi-pătrat cu un grad de libertate = N. Raportul a două astfel ... . .. Dicţionarîn psihologie

Cărți

  • Teoria probabilității și statistică matematică în probleme. Peste 360 ​​de sarcini și exerciții, Borzykh D.A. Manualul propus conține sarcini diferite niveluri dificultăți. Cu toate acestea, accentul principal este pus pe sarcini de complexitate medie. Acest lucru este făcut în mod intenționat pentru a încuraja elevii să...