Exemplu de distribuție chi pătrat. Distribuțiile lui Pearson (chi - pătrat), Student și Fisher. Funcția de distribuție inversă a chi2
Fie U 1 , U 2 , ..,U k standard independent valori normale. Distributie variabilă aleatorie K = U 1 2 +U 2 2 + .. + U k 2 se numește distribuție chi-pătrat cu k grade de libertate (se scriu K~χ 2 (k)). Aceasta este o distribuție unimodală cu asimetrie pozitivă și cu următoarele caracteristici: mod M=k-2 valorea estimata m=k dispersie D=2k (Fig.). Când suficient mare importanță parametru k distribuția χ 2 (k) are o distribuție aproximativ normală cu parametri
La rezolvarea problemelor statistici matematice punctele critice χ 2 (k) sunt utilizate în funcţie de probabilitate datăα și numărul de grade de libertate k(Anexa 2). Punctul critic Χ 2 kr = Χ 2 (k; α) este limita regiunii, în dreapta căreia se află 100-α% din suprafața sub curba densității distribuției. Probabilitatea ca valoarea variabilei aleatoare K~χ 2 (k) în timpul testării să cadă în dreapta punctului χ 2 (k) nu depășește α P(K≥χ 2 kp)≤ α). De exemplu, pentru o variabilă aleatoare K~χ 2 (20) setăm probabilitatea α=0,05. Conform tabelului puncte critice distribuția „chi-pătrat” (tabele) găsim χ 2 kp = χ 2 (20;0,05)=31,4. Deci probabilitatea acestei variabile aleatoare K ia o valoare mai mare de 31,4, mai mică de 0,05 (Fig.).
Orez. Graficul densității distribuției χ 2 (k) pentru diferite valori ale numărului de grade de libertate k
Punctele critice χ 2 (k) sunt utilizate în următoarele calculatoare:
- Verificarea multicoliniarității (despre multicoliniaritate).
Prin urmare, pentru a verifica direcția de comunicare este selectată analiza corelației, în special, testarea ipotezei folosind coeficientul de corelație Pearson cu testarea ulterioară a fiabilității folosind testul t.
Pentru orice valoare a nivelului de semnificație α Χ 2 poate fi găsită folosind funcția MS Excel: = XI2OBR (α; grade de libertate)
n-1 | .995 | .990 | .975 | .950 | .900 | .750 | .500 | .250 | .100 | .050 | .025 | .010 | .005 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.00004 | 0.00016 | 0.00098 | 0.00393 | 0.01579 | 0.10153 | 0.45494 | 1.32330 | 2.70554 | 3.84146 | 5.02389 | 6.63490 | 7.87944 |
2 | 0.01003 | 0.02010 | 0.05064 | 0.10259 | 0.21072 | 0.57536 | 1.38629 | 2.77259 | 4.60517 | 5.99146 | 7.37776 | 9.21034 | 10.59663 |
3 | 0.07172 | 0.11483 | 0.21580 | 0.35185 | 0.58437 | 1.21253 | 2.36597 | 4.10834 | 6.25139 | 7.81473 | 9.34840 | 11.34487 | 12.83816 |
4 | 0.20699 | 0.29711 | 0.48442 | 0.71072 | 1.06362 | 1.92256 | 3.35669 | 5.38527 | 7.77944 | 9.48773 | 11.14329 | 13.27670 | 14.86026 |
5 | 0.41174 | 0.55430 | 0.83121 | 1.14548 | 1.61031 | 2.67460 | 4.35146 | 6.62568 | 9.23636 | 11.07050 | 12.83250 | 15.08627 | 16.74960 |
6 | 0.67573 | 0.87209 | 1.23734 | 1.63538 | 2.20413 | 3.45460 | 5.34812 | 7.84080 | 10.64464 | 12.59159 | 14.44938 | 16.81189 | 18.54758 |
7 | 0.98926 | 1.23904 | 1.68987 | 2.16735 | 2.83311 | 4.25485 | 6.34581 | 9.03715 | 12.01704 | 14.06714 | 16.01276 | 18.47531 | 20.27774 |
8 | 1.34441 | 1.64650 | 2.17973 | 2.73264 | 3.48954 | 5.07064 | 7.34412 | 10.21885 | 13.36157 | 15.50731 | 17.53455 | 20.09024 | 21.95495 |
9 | 1.73493 | 2.08790 | 2.70039 | 3.32511 | 4.16816 | 5.89883 | 8.34283 | 11.38875 | 14.68366 | 16.91898 | 19.02277 | 21.66599 | 23.58935 |
10 | 2.15586 | 2.55821 | 3.24697 | 3.94030 | 4.86518 | 6.73720 | 9.34182 | 12.54886 | 15.98718 | 18.30704 | 20.48318 | 23.20925 | 25.18818 |
11 | 2.60322 | 3.05348 | 3.81575 | 4.57481 | 5.57778 | 7.58414 | 10.34100 | 13.70069 | 17.27501 | 19.67514 | 21.92005 | 24.72497 | 26.75685 |
12 | 3.07382 | 3.57057 | 4.40379 | 5.22603 | 6.30380 | 8.43842 | 11.34032 | 14.84540 | 18.54935 | 21.02607 | 23.33666 | 26.21697 | 28.29952 |
13 | 3.56503 | 4.10692 | 5.00875 | 5.89186 | 7.04150 | 9.29907 | 12.33976 | 15.98391 | 19.81193 | 22.36203 | 24.73560 | 27.68825 | 29.81947 |
14 | 4.07467 | 4.66043 | 5.62873 | 6.57063 | 7.78953 | 10.16531 | 13.33927 | 17.11693 | 21.06414 | 23.68479 | 26.11895 | 29.14124 | 31.31935 |
15 | 4.60092 | 5.22935 | 6.26214 | 7.26094 | 8.54676 | 11.03654 | 14.33886 | 18.24509 | 22.30713 | 24.99579 | 27.48839 | 30.57791 | 32.80132 |
16 | 5.14221 | 5.81221 | 6.90766 | 7.96165 | 9.31224 | 11.91222 | 15.33850 | 19.36886 | 23.54183 | 26.29623 | 28.84535 | 31.99993 | 34.26719 |
17 | 5.69722 | 6.40776 | 7.56419 | 8.67176 | 10.08519 | 12.79193 | 16.33818 | 20.48868 | 24.76904 | 27.58711 | 30.19101 | 33.40866 | 35.71847 |
18 | 6.26480 | 7.01491 | 8.23075 | 9.39046 | 10.86494 | 13.67529 | 17.33790 | 21.60489 | 25.98942 | 28.86930 | 31.52638 | 34.80531 | 37.15645 |
19 | 6.84397 | 7.63273 | 8.90652 | 10.11701 | 11.65091 | 14.56200 | 18.33765 | 22.71781 | 27.20357 | 30.14353 | 32.85233 | 36.19087 | 38.58226 |
20 | 7.43384 | 8.26040 | 9.59078 | 10.85081 | 12.44261 | 15.45177 | 19.33743 | 23.82769 | 28.41198 | 31.41043 | 34.16961 | 37.56623 | 39.99685 |
21 | 8.03365 | 8.89720 | 10.28290 | 11.59131 | 13.23960 | 16.34438 | 20.33723 | 24.93478 | 29.61509 | 32.67057 | 35.47888 | 38.93217 | 41.40106 |
22 | 8.64272 | 9.54249 | 10.98232 | 12.33801 | 14.04149 | 17.23962 | 21.33704 | 26.03927 | 30.81328 | 33.92444 | 36.78071 | 40.28936 | 42.79565 |
23 | 9.26042 | 10.19572 | 11.68855 | 13.09051 | 14.84796 | 18.13730 | 22.33688 | 27.14134 | 32.00690 | 35.17246 | 38.07563 | 41.63840 | 44.18128 |
24 | 9.88623 | 10.85636 | 12.40115 | 13.84843 | 15.65868 | 19.03725 | 23.33673 | 28.24115 | 33.19624 | 36.41503 | 39.36408 | 42.97982 | 45.55851 |
25 | 10.51965 | 11.52398 | 13.11972 | 14.61141 | 16.47341 | 19.93934 | 24.33659 | 29.33885 | 34.38159 | 37.65248 | 40.64647 | 44.31410 | 46.92789 |
26 | 11.16024 | 12.19815 | 13.84390 | 15.37916 | 17.29188 | 20.84343 | 25.33646 | 30.43457 | 35.56317 | 38.88514 | 41.92317 | 45.64168 | 48.28988 |
27 | 11.80759 | 12.87850 | 14.57338 | 16.15140 | 18.11390 | 21.74940 | 26.33634 | 31.52841 | 36.74122 | 40.11327 | 43.19451 | 46.96294 | 49.64492 |
28 | 12.46134 | 13.56471 | 15.30786 | 16.92788 | 18.93924 | 22.65716 | 27.33623 | 32.62049 | 37.91592 | 41.33714 | 44.46079 | 48.27824 | 50.99338 |
29 | 13.12115 | 14.25645 | 16.04707 | 17.70837 | 19.76774 | 23.56659 | 28.33613 | 33.71091 | 39.08747 | 42.55697 | 45.72229 | 49.58788 | 52.33562 |
30 | 13.78672 | 14.95346 | 16.79077 | 18.49266 | 20.59923 | 24.47761 | 29.33603 | 34.79974 | 40.25602 | 43.77297 | 46.97924 | 50.89218 | 53.67196 |
Numărul de grade de libertate k | Nivel de semnificație a | |||||
0,01 | 0,025 | 0.05 | 0,95 | 0,975 | 0.99 | |
1 | 6.6 | 5.0 | 3.8 | 0.0039 | 0.00098 | 0.00016 |
2 | 9.2 | 7.4 | 6.0 | 0.103 | 0.051 | 0.020 |
3 | 11.3 | 9.4 | 7.8 | 0.352 | 0.216 | 0.115 |
4 | 13.3 | 11.1 | 9.5 | 0.711 | 0.484 | 0.297 |
5 | 15.1 | 12.8 | 11.1 | 1.15 | 0.831 | 0.554 |
6 | 16.8 | 14.4 | 12.6 | 1.64 | 1.24 | 0.872 |
7 | 18.5 | 16.0 | 14.1 | 2.17 | 1.69 | 1.24 |
8 | 20.1 | 17.5 | 15.5 | 2.73 | 2.18 | 1.65 |
9 | 21.7 | 19.0 | 16.9 | 3.33 | 2.70 | 2.09 |
10 | 23.2 | 20.5 | 18.3 | 3.94 | 3.25 | 2.56 |
11 | 24.7 | 21.9 | 19.7 | 4.57 | 3.82 | 3.05 |
12 | 26.2 | 23.3 | 21 .0 | 5.23 | 4.40 | 3.57 |
13 | 27.7 | 24.7 | 22.4 | 5.89 | 5.01 | 4.11 |
14 | 29.1 | 26.1 | 23.7 | 6.57 | 5.63 | 4.66 |
15 | 30.6 | 27.5 | 25.0 | 7.26 | 6.26 | 5.23 |
16 | 32.0 | 28.8 | 26.3 | 7.96 | 6.91 | 5.81 |
17 | 33.4 | 30.2 | 27.6 | 8.67 | 7.56 | 6.41 |
18 | 34.8 | 31.5 | 28.9 | 9.39 | 8.23 | 7.01 |
19 | 36.2 | 32.9 | 30.1 | 10.1 | 8.91 | 7.63 |
20 | 37.6 | 34.2 | 31.4 | 10.9 | 9.59 | 8.26 |
21 | 38.9 | 35.5 | 32.7 | 11.6 | 10.3 | 8.90 |
22 | 40.3 | 36.8 | 33.9 | 12.3 | 11.0 | 9.54 |
23 | 41.6 | 38.1 | 35.2 | 13.1 | 11.7 | 10.2 |
24 | 43.0 | 39.4 | 36.4 | 13.8 | 12.4 | 10.9 |
25 | 44.3 | 40.6 | 37.7 | 14.6 | 13.1 | 11.5 |
26 | 45.6 | 41.9 | 38.9 | 15.4 | 13.8 | 12.2 |
27 | 47.0 | 43.2 | 40.1 | 16.2 | 14.6 | 12.9 |
28 | 48.3 | 44.5 | 41.3 | 16.9 | 15.3 | 13.6 |
29 | 49.6 | 45.7 | 42.6 | 17.7 | 16.0 | 14.3 |
30 | 50.9 | 47.0 | 43.8 | 18.5 | 16.8 | 15.0 |
Distribuția chi-pătrat
Prin utilizarea distributie normala sunt definite trei distribuții, care sunt acum adesea folosite în prelucrarea datelor statistice. Acestea sunt distribuțiile lui Pearson ("chi - pătrat"), Student și Fisher.
Ne vom concentra pe distribuție ("chi - pătrat"). Această distribuție a fost studiată pentru prima dată de astronomul F. Helmert în 1876. În legătură cu teoria gaussiană a erorilor, el a studiat sumele pătratelor a n variabile aleatoare standard independente distribuite normal. Mai târziu, Karl Pearson a numit această funcție de distribuție „chi-pătrat”. Și acum distribuția îi poartă numele.
Datorită legăturii sale strânse cu distribuția normală, distribuția h2 joacă un rol important în teoria probabilităților și statistica matematică. Distribuția h2 și multe alte distribuții care sunt definite de distribuția h2 (de exemplu, distribuția lui Student), descriu distribuțiile eșantionului de diferite funcții din observații distribuite normal și sunt utilizate pentru a construi intervale de încredere și teste statistice.
Distribuția Pearson (chi - pătrat) - distribuția unei variabile aleatoare în care X1, X2,..., Xn sunt variabile aleatoare independente normale, iar așteptarea matematică a fiecăreia dintre ele este egală cu zero, iar abaterea standard este una.
Suma patratelor
distribuite conform legii („chi – pătrat”).
În acest caz, numărul de termeni, adică n, se numește „numărul de grade de libertate” al distribuției chi-pătrat. Pe măsură ce numărul de grade de libertate crește, distribuția se apropie încet de normal.
Densitatea acestei distribuții
![](https://i2.wp.com/studbooks.net/imag_/43/230953/image003.png)
Deci, distribuția lui h2 depinde de un parametru n - numărul de grade de libertate.
Funcția de distribuție h2 are forma:
dacă h2?0. (2.7.)
Figura 1 prezintă o diagramă a densității de probabilitate și a funcției de distribuție χ2 pentru diferite grade de libertate.
Figura 1 Dependența densității de probabilitate q (x) în distribuția lui h2 (chi pătrat) pentru un număr diferit de grade de libertate.
![](https://i1.wp.com/studbooks.net/imag_/43/230953/image004.png)
Momente ale distribuției „chi-pătrat”:
Distribuția chi-pătrat este utilizată în estimarea varianței (folosind un interval de încredere), în testarea ipotezelor de acord, omogenitate, independență, în primul rând pentru variabile calitative (categorizate) care preiau un număr finit de valori și în multe alte sarcini. analize statistice date.
„Chi-pătrat” în probleme de analiză a datelor statistice
Metodele statistice de analiză a datelor sunt utilizate în aproape toate domeniile activității umane. Ele sunt folosite ori de câte ori este necesar pentru a obține și fundamenta orice judecăți despre un grup (obiecte sau subiecți) cu o oarecare eterogenitate internă.
Stadiul modern de dezvoltare metode statistice se poate număra din 1900, când englezul K. Pearson a fondat revista „Biometrika”. Prima treime a secolului XX trecută sub semnul statisticii parametrice. Au fost studiate metode bazate pe analiza datelor din familii parametrice de distribuții descrise prin curbele familiei Pearson. Cea mai populară a fost distribuția normală. Pentru testarea ipotezelor au fost utilizate criteriile Pearson, Student și Fisher. Au fost propuse metoda de maxim probabilitate, analiza varianței și au fost formulate ideile principale de planificare a experimentului.
Distribuția chi-pătrat este una dintre cele mai utilizate în statistici pentru testare ipotezele statistice. Pe baza distribuției „chi-pătrat”, se construiește unul dintre cele mai puternice teste de bunătate de potrivire, testul „chi-pătrat” al lui Pearson.
Testul de bunătate a potrivirii este un criteriu de testare a ipotezei despre legea propusă a distribuției necunoscute.
Testul p2 ("chi-pătrat") este utilizat pentru a testa ipoteza diferitelor distribuții. Acesta este meritul lui.
Formula de calcul a criteriului este egală cu
![](https://i0.wp.com/studbooks.net/imag_/43/230953/image005.png)
unde m și m" sunt frecvențe empirice și, respectiv, teoretice
distribuția luată în considerare;
n este numărul de grade de libertate.
Pentru verificare, trebuie să comparăm frecvențele empirice (observate) și teoretice (calculate în ipoteza unei distribuții normale).
Dacă frecvențele empirice coincid complet cu frecvențele calculate sau așteptate, S (E - T) = 0 și criteriul ch2 va fi, de asemenea, egal cu zero. Dacă S (E - T) nu este egal cu zero, aceasta va indica o discrepanță între frecvențele calculate și frecvențele empirice ale seriei. În astfel de cazuri, este necesar să se evalueze semnificația criteriului p2, care teoretic poate varia de la zero la infinit. Acest lucru se realizează prin compararea valorii obținute efectiv a lui ch2f cu valoarea sa critică (ch2st) (a) și numărul de grade de libertate (n).
Distribuția valorilor probabile ale variabilei aleatoare h2 este continuă și asimetrică. Depinde de numărul de grade de libertate (n) și se apropie de o distribuție normală pe măsură ce crește numărul de observații. Prin urmare, aplicarea criteriului p2 la evaluare distribuții discrete este asociat cu unele erori care îi afectează valoarea, în special pentru eșantioanele mici. Pentru a obține estimări mai precise, eșantionul a distribuit în serie de variații, trebuie să aibă cel puțin 50 de opțiuni. Aplicarea corectă criteriul p2 mai cere ca frecvențele variantelor din clasele extreme să nu fie mai mici de 5; dacă sunt mai puțin de 5, atunci acestea se combină cu frecvențele claselor învecinate, astfel încât suma lor totală să fie mai mare sau egală cu 5. În funcție de combinația de frecvențe, scade și numărul de clase (N). Numărul de grade de libertate se stabilește în funcție de numărul secundar de clase, ținând cont de numărul de restricții privind libertatea de variație.
Deoarece acuratețea determinării criteriului p2 depinde în mare măsură de acuratețea calculării frecvențelor teoretice (T), frecvențele teoretice nerotunjite ar trebui utilizate pentru a obține diferența dintre frecvențele empirice și cele calculate.
Ca exemplu, luați un studiu publicat pe un site web dedicat aplicării metodelor statistice în științe umaniste.
Testul Chi-pătrat permite compararea distribuțiilor de frecvență, indiferent dacă acestea sunt distribuite normal sau nu.
Frecvența se referă la numărul de apariții ale unui eveniment. De obicei, frecvența de apariție a unui eveniment este tratată atunci când variabilele sunt măsurate în scara numelor și celelalte caracteristici ale acestora, cu excepția frecvenței, sunt imposibil sau problematic de selectat. Cu alte cuvinte, atunci când variabila are caracteristici calitative. De asemenea, mulți cercetători tind să traducă scorurile testelor în niveluri (înalt, mediu, scăzut) și să construiască tabele de distribuție a scorurilor pentru a afla numărul de persoane la aceste niveluri. Pentru a demonstra că într-unul dintre niveluri (într-una dintre categorii) numărul de persoane este într-adevăr mai mare (mai puțin), se folosește și coeficientul Chi pătrat.
Să aruncăm o privire la cel mai simplu exemplu.
Un test de stima de sine a fost efectuat în rândul adolescenților mai tineri. Scorurile testelor au fost traduse în trei niveluri: mare, mediu, scăzut. Frecvențele au fost distribuite după cum urmează:
Înalt (H) 27 pers.
Mediu (C) 12 persoane
Scăzut (H) 11 pers.
Este evident că majoritatea copiilor cu stima de sine ridicată, totuși, acest lucru trebuie dovedit statistic. Pentru a face acest lucru, folosim testul Chi-pătrat.
Sarcina noastră este să verificăm dacă datele empirice obţinute diferă de cele la fel de probabile teoretic. Pentru a face acest lucru, este necesar să găsiți frecvențele teoretice. În cazul nostru, frecvențele teoretice sunt frecvențe echiprobabile care se găsesc adunând toate frecvențele și împărțind la numărul de categorii.
În cazul nostru:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6
Formula de calcul a testului chi-pătrat este:
h2 \u003d? (E - T)? / T
Construim un tabel:
Empiric (Uh) |
Teoretic (T) |
||
Aflați suma ultimei coloane:
Acum trebuie să găsiți valoarea critică a criteriului conform tabelului cu valori critice (Tabelul 1 din Anexă). Pentru a face acest lucru, avem nevoie de numărul de grade de libertate (n).
n = (R - 1) * (C - 1)
unde R este numărul de rânduri din tabel, C este numărul de coloane.
În cazul nostru, există doar o coloană (adică frecvențele empirice originale) și trei rânduri (categorii), așa că formula se schimbă - excludem coloanele.
n = (R - 1) = 3-1 = 2
Pentru probabilitatea de eroare p?0,05 și n = 2, valoarea critică este h2 = 5,99.
Valoarea empirică obținută este mai mare decât valoarea critică - diferențele de frecvență sunt semnificative (n2= 9,64; p≤0,05).
După cum puteți vedea, calculul criteriului este foarte simplu și nu necesită mult timp. Valoarea practică a testului chi-pătrat este enormă. Această metodă este cea mai valoroasă în analiza răspunsurilor la chestionare.
Să luăm un exemplu mai complex.
De exemplu, un psiholog vrea să știe dacă este adevărat că profesorii sunt mai părtinitori față de băieți decât față de fete. Acestea. mai probabil să laude fetele. Pentru aceasta, psihologul a analizat caracteristicile elevilor scrise de profesori pentru frecvența de apariție a trei cuvinte: „activ”, „sârguincios”, „disciplinat”, au fost numărate și sinonimele cuvintelor. Datele privind frecvența de apariție a cuvintelor au fost introduse în tabel:
Pentru a procesa datele obținute, folosim testul chi-pătrat.
Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:
Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).
Tabelul rezultat pentru calcule va arăta astfel:
h2 \u003d? (E - T)? / T
n = (R - 1), unde R este numărul de rânduri din tabel.
În cazul nostru, chi-pătrat = 4,21; n = 2.
Conform tabelului de valori critice ale criteriului, găsim: cu n = 2 și un nivel de eroare de 0,05, valoarea critică h2 = 5,99.
Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.
Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.
Aplicație
Puncte critice de distribuție p2
Testul \(\chi^2\) („chi-pătrat”, de asemenea „testul de bunătate a potrivirii lui Pearson”) are o aplicație extrem de largă în statistică. LA vedere generala putem spune că este folosit pentru a testa ipoteza nulă despre supunerea unei variabile aleatoare observate față de o anumită lege teoretică de distribuție (pentru mai multe detalii, vezi, de exemplu,). Formulare specifică ipoteza testabilă va varia de la caz la caz.
În această postare, voi descrie cum funcționează testul \(\chi^2\) folosind un exemplu (ipotetic) din imunologie. Imaginați-vă că am efectuat un experiment pentru a determina eficiența suprimării dezvoltării unei boli microbiene atunci când anticorpii corespunzători sunt introduși în organism. În total, 111 șoareci au fost implicați în experiment, pe care i-am împărțit în două grupuri, inclusiv 57 și, respectiv, 54 de animale. Primul grup de șoareci a fost injectat cu bacterii patogene, urmat de introducerea serului sanguin care conține anticorpi împotriva acestor bacterii. Animalele din al doilea grup au servit drept martori - au primit doar injecții bacteriene. După un timp de incubație, s-a dovedit că 38 de șoareci au murit și 73 au supraviețuit. Dintre morți, 13 aparțineau primului grup, iar 25 aparțineau celui de-al doilea (control). testat în acest experiment ipoteza nulă poate fi formulat astfel: introducerea de ser cu anticorpi nu are efect asupra supravieţuirii şoarecilor. Cu alte cuvinte, susținem că diferențele observate în supraviețuirea șoarecilor (77,2% în primul grup față de 53,7% în al doilea grup) sunt complet aleatorii și nu sunt asociate cu acțiunea anticorpilor.
Datele obținute în experiment pot fi prezentate sub forma unui tabel:
Total |
|||
Bacterii + ser |
|||
Doar bacterii |
|||
Total |
Tabelele ca acesta se numesc tabele de contingență. În acest exemplu, tabelul are o dimensiune de 2x2: există două clase de obiecte („Bacterii + ser” și „Numai bacterii”), care sunt examinate în funcție de două criterii („Mort” și „Supraviețuit”). aceasta cel mai simplu caz tabele de contingență: desigur, atât numărul de clase studiate, cât și numărul de caracteristici pot fi mai mari.
Pentru a testa ipoteza nulă formulată mai sus, trebuie să știm care ar fi situația dacă anticorpii nu ar avea cu adevărat niciun efect asupra supraviețuirii șoarecilor. Cu alte cuvinte, trebuie să calculezi frecvențele așteptate pentru celulele corespunzătoare din tabelul de contingență. Cum să o facă? În experiment, un total de 38 de șoareci au murit, ceea ce reprezintă 34,2% din numărul total animalele implicate. Dacă introducerea de anticorpi nu afectează supraviețuirea șoarecilor, același procent de mortalitate ar trebui să fie observat la ambele loturi experimentale și anume 34,2%. Calculând cât este 34,2% din 57 și 54, obținem 19,5 și 18,5. Acestea sunt ratele de mortalitate așteptate în grupurile noastre experimentale. Ratele de supraviețuire așteptate sunt calculate într-un mod similar: deoarece 73 de șoareci au supraviețuit în total, sau 65,8% din numărul lor total, ratele de supraviețuire așteptate sunt 37,5 și 35,5. Să facem un nou tabel de contingență, acum cu frecvențele așteptate:
mort |
Supraviețuitori |
Total |
|
Bacterii + ser |
|||
Doar bacterii |
|||
Total |
După cum puteți vedea, frecvențele așteptate sunt destul de diferite de cele observate, adică. administrarea de anticorpi pare să aibă un efect asupra supraviețuirii șoarecilor infectați cu agentul patogen. Putem cuantifica această impresie folosind testul de bunăstare a potrivirii lui Pearson \(\chi^2\):
\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]
unde \(f_o\) și \(f_e\) sunt frecvențele observate și respectiv așteptate. Însumarea se efectuează pe toate celulele tabelului. Deci, pentru exemplul luat în considerare, avem
\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]
Este \(\chi^2\) suficient de mare pentru a respinge ipoteza nulă? Pentru a răspunde la această întrebare, este necesar să găsim valoarea critică corespunzătoare a criteriului. Numărul de grade de libertate pentru \(\chi^2\) este calculat ca \(df = (R - 1)(C - 1)\), unde \(R\) și \(C\) sunt numărul de rânduri și coloane în conjugarea tabelului. În cazul nostru \(df = (2 -1)(2 - 1) = 1\). Cunoscând numărul de grade de libertate, acum putem afla cu ușurință valoarea critică \(\chi^2\) folosind funcția R standard qchisq() :
Astfel, pentru un grad de libertate, valoarea criteriului \(\chi^2\) depășește 3,841 doar în 5% din cazuri. Valoarea pe care am obținut-o, 6,79, depășește semnificativ această valoare critică, ceea ce ne dă dreptul de a respinge ipoteza nulă că nu există nicio relație între administrarea de anticorpi și supraviețuirea șoarecilor infectați. Respingând această ipoteză, riscăm să greșim cu o probabilitate mai mică de 5%.
Trebuie remarcat faptul că formula de mai sus pentru criteriul \(\chi^2\) oferă valori oarecum supraestimate atunci când se lucrează cu tabele de contingență de dimensiunea 2x2. Motivul este că distribuția criteriului \(\chi^2\) în sine este continuă, în timp ce frecvențele caracteristicilor binare („a murit” / „a supraviețuit”) sunt discrete prin definiție. În acest sens, la calcularea criteriului, se obișnuiește să se introducă așa-numitul. corectarea continuitatii, sau amendamentul Yates :
\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]
Pearson „Testul chi-pătrat cu Yates” date de corecție a continuității: șoareci X-pătrat = 5,7923, df = 1, valoare p = 0,0161
După cum puteți vedea, R aplică automat corecția Yates pentru continuitate ( Testul Chi-pătrat al lui Pearson cu corecția de continuitate a lui Yates). Valoarea \(\chi^2\) calculată de program a fost 5,79213. Putem respinge ipoteza nulă a lipsei efectului de anticorpi cu riscul de a greși cu o probabilitate de puțin peste 1% (valoarea p = 0,0161).
Distribuția chi-pătrat este una dintre cele mai utilizate în statistică pentru testarea ipotezelor statistice. Pe baza distribuției „chi-pătrat”, a fost construit unul dintre cele mai puternice teste de bunătate de potrivire, testul „chi-pătrat” al lui Pearson.
Testul de bunătate a potrivirii este un criteriu de testare a ipotezei despre legea propusă a distribuției necunoscute.
Testul χ2 ("chi-pătrat") este utilizat pentru a testa ipoteza diferitelor distribuții. Acesta este meritul lui.
Formula de calcul a criteriului este egală cu
unde m și m' sunt frecvențele empirice și, respectiv, teoretice
distribuția luată în considerare;
n este numărul de grade de libertate.
Pentru verificare, trebuie să comparăm frecvențele empirice (observate) și teoretice (calculate în ipoteza unei distribuții normale).
Dacă frecvențele empirice coincid complet cu frecvențele calculate sau așteptate, S (E - T) = 0 și criteriul χ2 va fi, de asemenea, egal cu zero. Dacă S (E - T) nu este egal cu zero, aceasta va indica o discrepanță între frecvențele calculate și frecvențele empirice ale seriei. În astfel de cazuri, este necesar să se evalueze semnificația criteriului χ2, care teoretic poate varia de la zero la infinit. Acest lucru se realizează prin compararea valorii efectiv obținute a lui χ2ph cu valoarea sa critică (χ2st).Ipoteza nulă, adică ipoteza că discrepanța dintre frecvențele empirice și teoretice sau așteptate este aleatorie, este infirmată dacă χ2ph este mai mare sau egal. la χ2st pentru nivelul de semnificație acceptat (a) și numărul de grade de libertate (n).
Distribuția valorilor probabile ale variabilei aleatoare χ2 este continuă și asimetrică. Depinde de numărul de grade de libertate (n) și se apropie de o distribuție normală pe măsură ce crește numărul de observații. Prin urmare, aplicarea criteriului χ2 la estimarea distribuțiilor discrete este asociată cu unele erori care îi afectează valoarea, în special pentru eșantioane mici. Pentru a obține estimări mai precise, eșantionul distribuit în seria de variații ar trebui să aibă cel puțin 50 de opțiuni. Aplicarea corectă a criteriului χ2 necesită, de asemenea, ca frecvențele variantelor din clasele extreme să nu fie mai mici de 5; dacă sunt mai puțin de 5, atunci acestea se combină cu frecvențele claselor învecinate, astfel încât suma lor totală să fie mai mare sau egală cu 5. În funcție de combinația de frecvențe, scade și numărul de clase (N). Numărul de grade de libertate se stabilește în funcție de numărul secundar de clase, ținând cont de numărul de restricții privind libertatea de variație.
Deoarece acuratețea determinării criteriului χ2 depinde în mare măsură de acuratețea calculării frecvențelor teoretice (T), frecvențele teoretice nerotunjite ar trebui utilizate pentru a obține diferența dintre frecvențele empirice și cele calculate.
Ca exemplu, luați un studiu publicat pe un site web dedicat aplicării metodelor statistice în științe umaniste.
Testul Chi-pătrat permite compararea distribuțiilor de frecvență, indiferent dacă acestea sunt distribuite normal sau nu.
Frecvența se referă la numărul de apariții ale unui eveniment. De obicei, frecvența de apariție a unui eveniment este tratată atunci când variabilele sunt măsurate în scara numelor și celelalte caracteristici ale acestora, cu excepția frecvenței, sunt imposibil sau problematic de selectat. Cu alte cuvinte, atunci când variabila are caracteristici calitative. De asemenea, mulți cercetători tind să traducă scorurile testelor în niveluri (înalt, mediu, scăzut) și să construiască tabele de distribuție a scorurilor pentru a afla numărul de persoane la aceste niveluri. Pentru a demonstra că într-unul dintre niveluri (într-una dintre categorii) numărul de persoane este într-adevăr mai mare (mai puțin), se folosește și coeficientul Chi pătrat.
Să aruncăm o privire la cel mai simplu exemplu.
Un test de stima de sine a fost efectuat în rândul adolescenților mai tineri. Scorurile testelor au fost traduse în trei niveluri: mare, mediu, scăzut. Frecvențele au fost distribuite după cum urmează:
Înalt (H) 27 pers.
Mediu (C) 12 persoane
Scăzut (H) 11 pers.
Este evident că majoritatea copiilor cu stima de sine ridicată, totuși, acest lucru trebuie dovedit statistic. Pentru a face acest lucru, folosim testul Chi-pătrat.
Sarcina noastră este să verificăm dacă datele empirice obţinute diferă de cele la fel de probabile teoretic. Pentru a face acest lucru, este necesar să găsiți frecvențele teoretice. În cazul nostru, frecvențele teoretice sunt frecvențe echiprobabile care se găsesc adunând toate frecvențele și împărțind la numărul de categorii.
În cazul nostru:
(B + C + H) / 3 \u003d (27 + 12 + 11) / 3 \u003d 16,6
Formula de calcul a testului chi-pătrat este:
χ2 = ∑(E - T)І / T
Construim un tabel:
Aflați suma ultimei coloane:
Acum trebuie să găsiți valoarea critică a criteriului conform tabelului cu valori critice (Tabelul 1 din Anexă). Pentru a face acest lucru, avem nevoie de numărul de grade de libertate (n).
n = (R - 1) * (C - 1)
unde R este numărul de rânduri din tabel, C este numărul de coloane.
În cazul nostru, există o singură coloană (adică frecvențele empirice originale) și trei rânduri (categorii), așa că formula se schimbă - excludem coloanele.
n = (R - 1) = 3-1 = 2
Pentru probabilitatea de eroare p≤0,05 și n = 2, valoarea critică χ2 = 5,99.
Valoarea empirică obținută este mai mare decât valoarea critică - diferențele de frecvență sunt semnificative (χ2= 9,64; p≤0,05).
După cum puteți vedea, calculul criteriului este foarte simplu și nu necesită mult timp. Valoarea practică a testului chi-pătrat este enormă. Această metodă este cea mai valoroasă în analiza răspunsurilor la chestionare.
Să luăm un exemplu mai complex.
De exemplu, un psiholog vrea să știe dacă este adevărat că profesorii sunt mai părtinitori față de băieți decât față de fete. Acestea. mai probabil să laude fetele. Pentru aceasta, psihologul a analizat caracteristicile elevilor scrise de profesori pentru frecvența de apariție a trei cuvinte: „activ”, „sârguincios”, „disciplinat”, au fost numărate și sinonimele cuvintelor. Datele privind frecvența de apariție a cuvintelor au fost introduse în tabel:
Pentru a procesa datele obținute, folosim testul chi-pătrat.
Pentru a face acest lucru, construim un tabel de distribuție a frecvențelor empirice, adică frecvențele pe care le observăm:
Teoretic, ne așteptăm ca frecvențele să fie distribuite în mod egal, adică frecvența va fi distribuită proporțional între băieți și fete. Să construim un tabel de frecvențe teoretice. Pentru a face acest lucru, înmulțiți suma rândurilor cu suma coloanei și împărțiți numărul rezultat la suma totală (e).
Tabelul rezultat pentru calcule va arăta astfel:
χ2 = ∑(E - T)І / T
n = (R - 1), unde R este numărul de rânduri din tabel.
În cazul nostru, chi-pătrat = 4,21; n = 2.
Conform tabelului de valori critice ale criteriului, găsim: la n = 2 și un nivel de eroare de 0,05, valoarea critică χ2 = 5,99.
Valoarea rezultată este mai mică decât valoarea critică, ceea ce înseamnă că ipoteza nulă este acceptată.
Concluzie: profesorii nu acordă importanță genului copilului atunci când scriu caracteristicile acestuia.
Concluzie.
K. Pearson a adus o contribuție semnificativă la dezvoltarea statisticii matematice (un număr mare de concepte fundamentale). Poziția filosofică principală a lui Pearson este formulată astfel: conceptele științei sunt construcții artificiale, mijloace de descriere și ordonare a experienței senzoriale; regulile pentru legarea lor în propuneri științifice sunt evidențiate de gramatica științei, care este filosofia științei. Conectarea conceptelor și fenomenelor eterogene permite o disciplină universală - statistica aplicată, deși după Pearson este și subiectivă.
Multe construcții ale lui K. Pearson sunt direct legate sau dezvoltate folosind materiale antropologice. A dezvoltat numeroase metode de clasificare numerică și criterii statistice utilizate în toate domeniile științei.
Literatură.
1. A. N. Bogolyubov, Matematică. Mecanica. Ghid biografic. - Kiev: Naukova Dumka, 1983.
2. Kolmogorov A. N., Iuşkevici A. P. (ed.). Matematica secolului al XIX-lea. - M.: Știință. - T.I.
3. 3. Borovkov A.A. Statistici matematice. Moscova: Nauka, 1994.
4. 8. Feller V. Introducere în teoria probabilității și aplicațiile acesteia. - M.: Mir, T.2, 1984.
5. 9. Harman G., Analiza factorială modernă. - M.: Statistică, 1972.
Distributie. Distribuția Pearson Densitatea probabilității ... Wikipedia
distribuția chi-pătrat- distribuție "chi pătrat" - Subiecte securitatea informațiilor EN chi pătrat distribuție ... Manualul Traducătorului Tehnic
distribuția chi-pătrat- Distribuția probabilității unei variabile aleatoare continue cu valori de la 0 la, a cărei densitate este dată de formula, unde 0 cu parametrul =1,2,...; este funcția gamma. Exemple. 1) Suma pătratelor aleatoarelor normale normalizate independente ... ... Dicţionar de statistică sociologică
DISTRIBUȚIE CHI-SQUARE (chi2)- Distribuția variabilei aleatoare chi2.dacă eșantioane aleatoare de dimensiunea 1 sunt luate dintr-o distribuție normală cu medie (și varianță q2, atunci chi2 = (X1 u)2/q2, unde X este valoarea eșantionată. Dacă dimensiunea eșantionului crește arbitrar până la N, apoi chi2 = … …
Densitatea probabilității... Wikipedia
- (distribuția Snedecor) Densitatea probabilității ... Wikipedia
Distribuția Fisher Densitatea probabilității Funcția de distribuție Număr parametri cu ... Wikipedia
Unul dintre conceptele de bază ale teoriei probabilităților și statisticii matematice. La abordare modernă ca un matematic modelul fenomenului aleator studiat, se ia spațiul de probabilitate corespunzător (W, S, P), unde W este mulțimea elementare... Enciclopedie matematică
Distribuție gamma Densitate de probabilitate Funcție de distribuție Parametri ... Wikipedia
F DISTRIBUȚIE- Distribuția teoretică de probabilitate a unei variabile aleatoare F. Dacă eșantioane aleatoare de mărimea N sunt selectate independent dintr-o populație normală, fiecare dintre ele generează o distribuție chi-pătrat cu un grad de libertate = N. Raportul a două astfel ... . .. Dicţionarîn psihologie
Cărți
- Teoria probabilității și statistică matematică în probleme. Peste 360 de sarcini și exerciții, Borzykh D.A. Manualul propus conține sarcini diferite niveluri dificultăți. Cu toate acestea, accentul principal este pus pe sarcini de complexitate medie. Acest lucru este făcut în mod intenționat pentru a încuraja elevii să...