Formularea ipotezelor sistematizează ipotezele cercetătorului și le prezintă într-o manieră clară, concisă. Decizia pe care trebuie să o ia cercetătorul se referă la adevărul sau falsitatea ipotezei statistice. Există două tipuri de ipoteze: științifice și statistice. Științific O ipoteză este o soluție propusă pentru o problemă (enunată ca teoremă). Statistic o ipoteză este pur și simplu o afirmație despre un parametru necunoscut al populației generale (proprietatea unei variabile aleatoare sau a unui eveniment), care este formulată pentru a testa fiabilitatea relației și care poate fi verificată în raport cu statisticile eșantionului cunoscute (rezultatele cercetării, datele empirice disponibile). ).

Ipoteze statistice subdivizat în zero și alternativ, direcțional și nedirecțional. Ipoteza nulă (H 0) aceasta este o ipoteză despre absența diferențelor, absența influenței unui factor, absența unui efect etc.. Acesta este ceea ce se presupune a fi infirmat dacă ne confruntăm cu sarcina de a demonstra semnificația diferențelor. Ipoteza alternativă (H 1) este o ipoteză despre semnificaţia diferenţelor. Acesta este ceea ce se presupune a fi demonstrat, motiv pentru care uneori este numită ipoteză experimentală sau de lucru.

se procedura de prelucrare a datelor cantitative obtinute, care consta in calcularea unor caracteristici statistice si estimări care permit testarea ipotezei nule, se numeste analiza statistica.

Ipotezele nule și alternative pot fi direcționale sau nedirecționale. Ipoteza se numește regizat dacă conține o indicație a direcției diferențelor. Astfel de ipoteze ar trebui formulate, de exemplu, în cazul în care într-unul dintre grupuri valorile individuale ale subiecților pentru orice caracteristică sunt mai mari, iar în celălalt mai mici, sau este necesar să se dovedească că într-unul dintre grupuri sub influența oricăror influențe experimentale modificări mai pronunțate decât în ​​celălalt grup. Ipoteza se numește nedirectional, dacă formularea acesteia presupune doar definirea diferențelor sau a nediferențelor (fără a indica direcția diferențelor). De exemplu, dacă este necesar să se dovedească, în două grupuri diferite formele de distribuţie a trăsăturii diferă.

Exemple de formulare de ipoteze.

Se numește metoda care este folosită pentru a decide asupra validității unei ipoteze statistice testarea ipotezelor. Principiul de bază al testării ipotezelor este că este prezentată ipoteza nulă. H 0, pentru a încerca să o infirme și, prin urmare, să confirme ipoteza alternativă H1.

La testarea oricărei ipoteze statistice, decizia cercetătorului nu este niciodată luată cu certitudine, întrucât există întotdeauna riscul de a lua o decizie greșită.

De obicei eșantioanele utilizate sunt mici, iar în aceste cazuri probabilitatea de eroare poate fi semnificativă. Există un așa-zis nivelul de încredere (nivel de semnificație) diferențe. Aceasta este probabilitatea ca diferențele să fie considerate semnificative, dar de fapt sunt aleatorii. Adică este probabilitatea abaterii ipoteza nulă, în timp ce este adevărat.

Când diferențele sunt declarate a fi semnificative la nivelul de semnificație de 5% sau la p£0,05, ceea ce se înțelege este că probabilitatea ca acestea să nu fie semnificative este de 0,05 (nivelul cel mai scăzut). semnificație statistică). Dacă o diferență este considerată semnificativă la nivelul de semnificație de 1% sau la p£0,01, atunci înseamnă că probabilitatea ca aceasta să nu fie semnificativă este de 0,01 (un nivel suficient de semnificație statistică). Dacă diferențele sunt declarate a fi semnificative la nivelul de semnificație de 0,1% sau la p£0,001, atunci înseamnă că probabilitatea ca acestea să nu fie încă semnificative este de 0,001 ( cel mai inalt nivel semnificaţie statistică).

Regula respingerii H 0 și acceptării H 1:

Dacă valoarea empirică a criteriului este egală sau depășește valoarea critică corespunzătoare p £ 0,05, atunci H 0 respins, dar încă neacceptat definitiv H 1.

Dacă valoarea empirică a criteriului este egală sau depășește valoarea critică corespunzătoare p £ 0,01, atunci H 0 respins acceptat H 1.

Pentru a vizualiza regula de decizie, puteți folosi așa-numita „axa de semnificație”.

Dacă nivelul de încredere nu este depășit, atunci se poate considera probabil ca diferența dezvăluită să reflecte într-adevăr starea de fapt a populației. Pentru fiecare metodă statistică, acest nivel poate fi găsit în tabelele de distribuție a valorilor critice ale criteriilor corespunzătoare.

T - Criteriul elevului

Aceasta este o metodă parametrică utilizată pentru a testa ipotezele despre validitatea diferenței de medie la analiza datelor cantitative în populații cu o distribuție normală și cu aceeași varianță. Este bine aplicabil în cazul comparării valorilor medii aleatorii ale trăsăturii măsurate în grupurile de control și experimentale,în diferite grupe de sex și vârstă, grupuri cu alte caracteristici diferite.

O condiție prealabilă pentru aplicabilitatea metodelor parametrice, inclusiv testul t Student, pentru a demonstra ipotezele statistice este subordonarea distribuţie empirică a caracteristicii studiate la legea distribuţiei normale.

Metoda studentului este diferită pentru eșantioanele independente și dependente.

Independent eșantioanele sunt obținute prin studierea a două grupuri diferite de subiecți (de exemplu, grupul de control și grupul experimental). La dependent eșantioanele includ, de exemplu, rezultatele aceluiași grup de subiecți înainte și după expunerea la variabila independentă.

Ipoteza testată H 0 este că diferența dintre mediile celor două eșantioane este egală cu zero ( = 0), cu alte cuvinte, aceasta este ipoteza despre egalitatea mediilor (). Ipoteza alternativă H 1 este că această diferență este diferită de zero ( ¹ 0) sau există o diferență în mediile eșantionului ().

Când mostre independente pentru a analiza diferența dintre medii, se utilizează formula: pentru n 1 , n 2 > 30

si formula pentru n 1, n 2< 30, где

Media aritmetică a primului eșantion;

Media aritmetică a celui de-al doilea eșantion;

s 1 - abaterea standard pentru prima probă;

s 2 - abaterea standard pentru a doua probă;

n 1 și n 2 sunt numărul de elemente din primul și al doilea eșantion.

Pentru a afla valoarea critică a lui t, determinăm numărul de grade de libertate:

n \u003d n 1 - 1 + n 2 - 1 \u003d (n 1 + n 2) - 2 \u003d n - 2.

Dacă |t emp | > t cr, atunci renunțăm la ipoteza nulă și acceptăm alternativa, adică considerăm de încredere diferența de medii. Dacă |t emp |< t кр, то разница средних недостоверна.

Când mostre dependente următoarea formulă este utilizată pentru a determina fiabilitatea diferenței de medie: , Unde

d– diferența dintre rezultatele din fiecare pereche (х i – y i);

å d este suma acestor diferențe parțiale;

å d2 este suma diferențelor parțiale pătrate;

n este numărul de perechi de date.

Numărul de grade de libertate în cazul eșantioanelor dependente pentru determinarea criteriului t va fi egal cu n = n - 1.

Există și alte criterii statistice pentru testarea ipotezelor, atât parametrice, cât și neparametrice. De exemplu, un criteriu matematico-statistic care permite judecarea asemănărilor și diferențelor în dispersiile variabilelor aleatoare se numește criteriu Fisher.

Analiza corelației

În forma sa cea mai generală, sensul „corelației” se referă la o relație reciprocă. Deși, vorbind de corelație, sunt folosiți și termenii „corelație” și „dependență de corelare”, care sunt adesea folosiți ca sinonime.

Sub corelație să înțeleagă schimbările coordonate a două sau mai multe caracteristici, de ex. variabilitatea unei trăsături este într-o anumită corespondență cu variabilitatea alteia.

Dependența de corelație sunt modificările pe care valorile unei caracteristici le fac asupra probabilității de apariție a diferitelor valori ale altei caracteristici.

Astfel, schimbările coordonate ale trăsăturilor și corelația dintre ele care reflectă acest lucru pot indica nu dependența acestor trăsături între ele, ci dependența ambelor trăsături de o a treia trăsătură sau combinație de trăsături care nu au fost luate în considerare în studiu.

Să ne familiarizăm cu terminologia folosită în testarea ipotezelor.

Dar - ipoteza nulă (ipoteza scepticului) este o ipoteză despre nicio diferențăîntre probele comparate. Scepticul consideră că diferențele dintre estimările eșantionului obținute din rezultatele cercetării sunt aleatorii.

· Н 1 – o ipoteză alternativă (ipoteza optimistului) este o ipoteză despre prezența diferențelor între eșantioanele comparate. Optimistul consideră că diferențele dintre estimările eșantionului se datorează unor motive obiective și corespund diferențelor populatiilor

Testarea ipotezelor statistice este fezabilă numai atunci când elementele eșantioanelor comparate pot fi utilizate pentru a compune unele valoare(criteriu), a cărui lege de distribuție este cunoscută în cazul validității H 0 . Apoi, pentru această cantitate, se poate specifica interval de încredere, in care probabilitate dată R d își atinge valoarea. Acest interval se numește zona critica. Dacă valoarea criteriului se încadrează în regiunea critică, atunci ipoteza H 0 este acceptată. În caz contrar, se acceptă ipoteza H 1.

În cercetarea medicală, se utilizează P d = 0,95 sau P d = 0,99. Aceste valori corespund niveluri de semnificație a = 0,05 sau a = 0,01.

La testarea ipotezelor statistice nivelul de semnificație(a) este probabilitatea de a respinge ipoteza nulă atunci când aceasta este adevărată.

Rețineți că, în esență, procedura de testare a ipotezelor menite să găsească diferențe mai degrabă decât să confirme absenţa lor. Când valoarea criteriului depășește zona critică, putem spune „sceptici” cu inima curată - ei bine, ce mai doriți?! Dacă nu ar exista diferențe, atunci cu o probabilitate de 95% (sau 99%) valoarea calculată ar fi în limitele specificate. Deci nu!...

Ei bine, dacă valoarea criteriului se încadrează în regiunea critică, atunci nu există niciun motiv să credem că ipoteza H 0 este adevărată. Acest lucru indică cel mai probabil una dintre cele două cauze posibile.



a) Dimensiunile eșantionului nu sunt suficient de mari pentru a detecta diferențele. Este probabil ca experimentarea continuă să aducă succes.

b) Există diferențe. Dar sunt atât de mici încât nu au nicio importanță practică. În acest caz, continuarea experimentelor nu are sens.

Să trecem la considerarea unora dintre ipotezele statistice folosite în cercetarea medicală.

§ 3.6. Testarea ipotezelor despre egalitatea varianțelor,
F - criteriul Fisher

În unele studii clinice, un efect pozitiv este evidențiat nu atât de magnitudinea parametru studiat, cât stabilizare, reducându-și fluctuațiile. În acest caz, se pune întrebarea de a compara două variații generale pe baza rezultatelor unui sondaj prin sondaj. Această sarcină poate fi rezolvată folosind criteriul lui Fisher.

Formularea problemei

legea normală distributie. Dimensiunile eșantionului n 1 și n 2 și variațiile de eșantion sunt, respectiv, egali. Trebuie comparat variaţii generale.

Ipoteze testate:

H 0– dispersii generale sunt la fel;

H 1 - variaţii generale diferit.

Se arată dacă probele sunt prelevate din populații cu legea normală distribuție, atunci dacă ipoteza H 0 este adevărată, raportul dintre variațiile eșantionului se supune distribuției Fisher. Prin urmare, ca criteriu de verificare a validității lui H 0, valoarea F, calculat prin formula

unde sunt variațiile eșantionului.

Acest raport se supune distribuției Fisher cu numărul de grade de libertate al numărătorului n 1 = n 1 -1, iar numărul de grade de libertate al numitorului n 2 = n 2-1. Limitele regiunii critice sunt găsite folosind tabelele de distribuție Fisher sau folosind funcția de calculator FDISP.

Pentru exemplul prezentat în tabel. 3.4, obținem: n 1 \u003d n 2 \u003d 20 - 1 \u003d 19; F = 2,16/4,05 = 0,53. La a = 0,05, limitele regiunii critice sunt egale, respectiv: F stânga = 0,40, F dreapta = 2,53.

Valoarea criteriului a căzut în regiunea critică, deci se acceptă ipoteza H 0: varianțele generale ale eșantioanelor sunt la fel.

§ 3.7. Testarea ipotezelor privind egalitatea mijloacelor,
t-testul elevului

Problema de comparatie mediu două populații generale apare atunci când este magnitudinea trăsătura studiată. De exemplu, atunci când se compară durata tratamentului cu două metode diferite sau numărul de complicații care apar la utilizarea lor. În acest caz, poate fi folosit testul t al lui Student.

Formularea problemei.

Două probe (X 1 ) și (X 2 ) sunt obținute din populații cu legea normală distribuţie şi varianțe egale. Dimensiunile eșantionului n 1 și n 2 , eșantion înseamnă sunt egali și variațiile de eșantion- , respectiv. Trebuie comparat medii generale.

Ipoteze testate:

H 0– medii generale sunt la fel;

H 1 - medii generale diferit.

Se arată că în cazul validităţii ipotezei H 0, valoarea t, calculat prin formula

, (3.10)

distribuite conform legii Student cu numărul de grade de libertate n= n 1 + n 2 - 2.

Aici unde n 1 = n 1 - 1 - numărul de grade de libertate pentru prima probă; n 2 = n 2 – 1 este numărul de grade de libertate pentru al doilea eșantion.

Limitele regiunii critice sunt găsite din tabele t-distributie sau cu ajutorul functiei de calculator STUDRASP. Distribuția lui Student este simetrică față de zero, astfel încât limitele stânga și dreapta ale regiunii critice sunt aceleași în valoare absolută și opuse în semn: - t gr și t gr.

Pentru exemplul prezentat în tabel. 3.4, obținem: n 1 \u003d n 2 \u003d 20 - 1 \u003d 19; t= –2,51, n= 38. La a = 0,05 tgr = 2,02.

Valoarea criteriului depășește granița din stânga a regiunii critice, deci acceptăm ipoteza H 1: medii generale diferit. În același timp, media populației generale prima mostră Mai puțin.

VERIFICAREA STATISTICĂ A STATISTICELOR

Conceptul de ipoteză statistică.

Tipuri de ipoteze. Erori de primul și al doilea fel

Ipoteză- aceasta este o presupunere despre unele proprietăți ale fenomenelor studiate. Sub ipoteza statisticaînțelege orice afirmație despre populația generală care poate fi verificată statistic, adică pe baza rezultatelor observațiilor dintr-un eșantion aleatoriu. Sunt luate în considerare două tipuri de ipoteze statistice: ipoteze despre legile distribuţiei populaţia generală şi ipoteze despre parametri distribuții cunoscute.

Astfel, ipoteza că timpul petrecut pentru asamblarea unui ansamblu de mașini într-un grup de ateliere de mașini care produc produse cu același nume și au aproximativ aceleași condiții tehnice și economice de producție este distribuit conform legii normale este o ipoteză despre legea distributie. Iar ipoteza că productivitatea lucrătorilor din două echipe care desfășoară aceeași muncă în aceleași condiții nu diferă (în timp ce productivitatea lucrătorilor din fiecare echipă are o lege de distribuție normală) este o ipoteză despre parametrii de distribuție.

Ipoteza care trebuie testată se numește nul, sau de bază,și notat H 0 . Se opune ipoteza nulă concurând sau alternativă ipoteza, care este H unu . De regulă, ipoteza concurentă H 1 este o negaţie logică a ipotezei principale H 0.

Un exemplu de ipoteză nulă ar fi că mediile a două populații distribuite normal sunt egale, atunci ipoteza concurentă ar putea consta în presupunerea că mediile nu sunt egale. Simbolic este scris astfel:

H 0: M(X) = M(Y); H 1: M(X) M(Y) .

Dacă ipoteza nulă (propusă) este respinsă, atunci există o ipoteză concurentă.

Există ipoteze simple și complexe. Dacă o ipoteză conține o singură ipoteză, atunci este - simplu ipoteză. Complex o ipoteză constă dintr-un număr finit sau infinit de ipoteze simple.

De exemplu, ipoteza H 0: p = p 0 (probabilitate necunoscută p egală cu probabilitatea ipotetică p 0 ) este simplă, iar ipoteza H 0: p < p 0 - complex, este format din nenumărate ipoteze simple ale formei H 0: p = p i, Unde p i- orice număr mai mic decât p 0 .

Ipoteza statistică propusă poate fi corectă sau incorectă, deci este necesar verifica pe baza rezultatelor observațiilor într-un eșantion aleatoriu; se efectuează verificarea statistic metode, deci se numește statistic.

La testarea unei ipoteze statistice, se folosește o variabilă aleatoare special compusă, numită criteriu statistic(sau statistici). Concluzia acceptată despre corectitudinea (sau incorectitudinea) ipotezei se bazează pe studiul distribuției acestei variabile aleatoare în funcție de datele eșantionului. Prin urmare, testarea statistică a ipotezelor este de natură probabilistă: există întotdeauna riscul de a greși atunci când se acceptă (respinge) o ipoteză. În acest caz, sunt posibile erori de două feluri.

Eroare de tip I este că ipoteza nulă va fi respinsă chiar dacă este de fapt adevărată.

Eroare de tip II este că ipoteza nulă va fi acceptată, deși cea concurentă este de fapt adevărată.

În cele mai multe cazuri, consecințele acestor erori sunt inegale. Ce este mai bun sau mai rău depinde de formularea specifică a problemei și de conținutul ipotezei nule. Luați în considerare exemple. Să presupunem că la întreprindere calitatea produselor este judecată după rezultatele controlului selectiv. Dacă fracțiunea eșantion de căsătorie nu depășește o valoare prestabilită p 0 , atunci lotul este acceptat. Cu alte cuvinte, se propune ipoteza nulă: H 0: p p 0 . Dacă se comite o eroare de tip I la testarea acestei ipoteze, vom respinge produsul bun. Dacă se comite o eroare de al doilea fel, atunci refuzul va fi trimis consumatorului. Evident, consecințele unei erori de tip II pot fi mult mai grave.

Un alt exemplu poate fi dat din domeniul jurisprudenței. Vom considera munca judecătorilor drept acțiuni de verificare a prezumției de nevinovăție a inculpatului. Ipoteza principală care trebuie testată este ipoteza H 0 : inculpatul este nevinovat. Apoi ipoteza alternativă H 1 este ipoteza: învinuitul este vinovat de o infracţiune. Este evident că instanţa poate săvârşi erori de primul sau de al doilea fel în condamnarea inculpatului. Dacă se comite o greșeală de primul fel, atunci aceasta înseamnă că instanța a pedepsit nevinovatul: inculpatul a fost condamnat atunci când de fapt nu a săvârșit o infracțiune. Dacă judecătorii au făcut o greșeală de al doilea fel, atunci aceasta înseamnă că instanța a pronunțat un verdict de nevinovat, când de fapt acuzatul este vinovat de o infracțiune. Evident, consecințele unei erori de primul fel pentru acuzat vor fi mult mai grave, în timp ce pentru societate consecințele unei erori de al doilea fel sunt cele mai periculoase.

Probabilitate comite greşeală primul fel numit nivelul de semnificație criterii si noteaza .

În cele mai multe cazuri, nivelul de semnificație al criteriului este considerat egal cu 0,01 sau 0,05. Dacă, de exemplu, nivelul de semnificație este luat egal cu 0,01, atunci aceasta înseamnă că într-un caz la o sută există riscul de a face o eroare de tip I (adică, respingerea ipotezei nule corecte).

Probabilitate comite eroare de tip II denota . Probabilitate
se numește neefectuarea unei erori de tip II, adică respingerea ipotezei nule atunci când aceasta este falsă puterea criteriului.

Criteriu statistic.

Zone critice

O ipoteză statistică este testată folosind o variabilă aleatoare special selectată, a cărei distribuție exactă sau aproximativă este cunoscută (o notăm La). Această variabilă aleatoare este numită criteriu statistic(sau pur și simplu criteriu).

Există mai multe criterii statistice utilizate în practică: U- și Z-criterii (aceste variabile aleatoare au o distributie normala); F-criteriul ( valoare aleatorie distribuite conform legii Fisher-Snedekor); t-criteriul (conform legii Student); -criteriul (după legea „chi-pătratului”) etc.

Setul tuturor valorilor posibile ale criteriului poate fi împărțit în două subseturi care nu se suprapun: una dintre ele conține valorile criteriului în baza căruia este acceptată ipoteza nulă, iar cealaltă - sub care este respinsă.

Se numește setul de valori de test sub care se respinge ipoteza nulă zona critica. Vom desemna regiunea critică prin W.

Se numește setul de valori de criteriu sub care se acceptă ipoteza nulă zona de acceptare a ipotezelor(sau intervalul de valori acceptabile ale criteriului). Ne vom referi la această zonă ca .

Pentru a testa validitatea ipotezei nule, conform datelor eșantionului, calculăm valoarea criteriului observat. O vom nota La obs.

Principiul de bază al testării ipotezelor statistice poate fi formulat astfel: dacă valoarea observată a criteriului a căzut în regiunea critică (adică
), atunci ipoteza nulă este respinsă; dacă valoarea observată a criteriului a intrat în zona acceptării ipotezei (adică
), atunci nu există niciun motiv pentru a respinge ipoteza nulă.

Ce principii ar trebui urmate la construirea unei regiuni critice W ?

Să presupunem că ipoteza H 0 este de fapt adevărat. Apoi lovind criteriul
în regiunea critică, în virtutea principiului de bază al testării ipotezelor statistice, presupune respingerea ipotezei corecte. H 0 , ceea ce înseamnă să faceți o eroare de tip I. Prin urmare, probabilitatea de a lovi
spre regiune W dacă ipoteza este adevărată H 0 ar trebui să fie egal cu nivelul de semnificație al criteriului, adică

.

Rețineți că probabilitatea de a face o eroare de tip I este aleasă pentru a fi suficient de mică (de regulă,
). Apoi lovind criteriul
spre zona critică W dacă ipoteza este adevărată H 0 poate fi considerat un eveniment aproape imposibil. Dacă, conform datelor de eșantionare, evenimentul
cu toate acestea a avut loc, atunci poate fi considerat incompatibil cu ipoteza H 0 (care ca urmare este respins), dar compatibil cu ipoteza H 1 (ceea ce în cele din urmă este acceptat).

Să presupunem acum că ipoteza este adevărată H 1 . Apoi lovind criteriul
în zona de acceptare a ipotezei conduce la adoptarea unei ipoteze incorecte H 0 ceea ce înseamnă comiterea unei erori de tip II. De aceea
.

De la evenimente
și
sunt reciproc opuse, atunci probabilitatea de a atinge criteriul
spre zona critică W va fi egală cu puterea criteriului dacă ipoteza H 1 adevărat, adică

.

Evident, regiunea critică ar trebui aleasă astfel încât, la un anumit nivel de semnificație, puterea criteriului
a fost maxim. Maximizarea puterii testului va oferi o probabilitate minimă de a face o eroare de tip II.

Trebuie menționat că, oricât de mică ar fi valoarea nivelului de semnificație, criteriul care se încadrează în regiunea critică este doar un eveniment puțin probabil, dar nu absolut imposibil. Prin urmare, este posibil ca, cu o ipoteză nulă adevărată, valoarea criteriului calculată din datele eșantionului să fie încă în regiunea critică. Respingând ipoteza în acest caz H 0 , facem o eroare de tip I cu probabilitate . Cu cât este mai mic, cu atât este mai puțin probabil să facă o eroare de tip I. Cu toate acestea, cu o scădere, regiunea critică scade, ceea ce înseamnă că devine mai puțin posibil ca valoarea observată să cadă în ea. La obs, chiar când ipoteza H 0 este greșit. La ipoteza =0 H 0 vor fi întotdeauna acceptate indiferent de rezultatele probei. Prin urmare, o scădere presupune o creștere a probabilității de a accepta o ipoteză nulă incorectă, adică de a face o eroare de tip II. În acest sens, concurează erori de primul și de al doilea fel.

Deoarece este imposibil să se excludă erori de primul și de al doilea fel, este necesar cel puțin să ne străduim în fiecare caz specific să minimizăm pierderile din aceste erori. Desigur, este de dorit să se reducă ambele erori simultan, dar, deoarece acestea sunt în competiție, o scădere a probabilității de a face una dintre ele duce la o creștere a probabilității de a face cealaltă. Singura cale simultan scădea riscul de eroare constă în mărirea dimensiunii eșantionului.

În funcţie de tipul de ipoteză concurentă H 1 se construiesc regiuni critice unilaterale (pe partea dreaptă și pe partea stângă) și cu două fețe. Puncte care separă regiunea critică
din zona de acceptare a ipotezei , numit puncte critice si denota k Creta. Pentru găsirea regiunii critice trebuie să cunoașteți punctele critice.

mana dreapta regiunea critică poate fi descrisă prin inegalitate
La>k Creta. pr, unde se presupune că punctul critic corect k Creta. pr >0. O astfel de regiune este formată din puncte situate pe partea dreaptă a punctului critic k Creta. pr, adică conține un set de valori pozitive și suficient de mari ale criteriului LA. Pentru găsire k Creta. pr stabiliți mai întâi nivelul de semnificație al criteriului . Apoi, punctul critic potrivit k Creta. pr se regaseste din starea . De ce exact această cerință definește o regiune critică pentru dreptaci? Deoarece probabilitatea unui eveniment (LA>k Creta. etc ) este mic, atunci, din cauza principiului imposibilității practice a evenimentelor improbabile, acest eveniment nu ar trebui să apară dacă ipoteza nulă este adevărată într-un singur test. Dacă, totuși, a venit, adică valoarea observată a criteriului calculată din datele probelor
s-a dovedit a fi mai mult k Creta. pr, acest lucru poate fi explicat prin faptul că ipoteza nulă nu este în concordanță cu datele observaționale și, prin urmare, ar trebui respinsă. Astfel cerința
determină astfel de valori ale criteriului în baza căruia ipoteza nulă este respinsă și ele constituie regiunea critică din dreapta.

Dacă
a intrat în intervalul de valori acceptabile ale criteriului , acesta este
< k Creta. pr, atunci ipoteza principală nu este respinsă, deoarece este compatibilă cu datele observaționale. Rețineți că probabilitatea de a atinge criteriul
în intervalul de valori acceptabile dacă ipoteza nulă este adevărată, este egală cu (1-) și apropiată de 1.

Trebuie amintit că hit-ul criteriilor valorează
în intervalul de valori acceptabile nu este o dovadă riguroasă a validității ipotezei nule. Indică doar că nu există o discrepanță semnificativă între ipoteza propusă și rezultatele eșantionului. Prin urmare, în astfel de cazuri, spunem că datele observaționale sunt în concordanță cu ipoteza nulă și nu există niciun motiv pentru a o respinge.

Alte regiuni critice sunt construite în mod similar.

Asa de, lpe partea stângă regiunea critică este descrisă de inegalitate
La<k Creta. l, unde k crit.l<0. Такая область состоит из точек, находящихся по левую сторону от левой критической точки k crit.l, adică este un set de valori modulo negative, dar suficient de mari ale criteriului. punct critic k crit.l se gaseste din conditie
(La<k Creta. l)
, adică probabilitatea ca criteriul să ia o valoare mai mică decât k crit.l, este egal cu nivelul de semnificație acceptat dacă ipoteza nulă este adevărată.

bilateral zona critica
este descrisă de următoarele inegalități: ( La< k crit.l sau La>k Creta. pr), unde se presupune că k crit.l<0 и k Creta. pr >0. O astfel de zonă este un set de valori modulo suficient de mari ale criteriului. Punctele critice se găsesc din cerința: suma probabilităților ca criteriul să ia o valoare mai mică decât k Creta. eu sau mai multe k Creta. pr, ar trebui să fie egal cu nivelul de semnificație acceptat dacă ipoteza nulă este adevărată, adică

(LA< k Creta. l )+
(LA>k Creta. etc )= .

Dacă repartizarea criteriului La simetric fata de origine, atunci punctele critice vor fi situate simetric fata de zero, deci k Creta. l = - k Creta. etc. Atunci regiunea critică cu două fețe devine simetrică și poate fi descrisă prin următoarea inegalitate: > k Creta. dw, unde k Creta. dw = k Creta. pr Punct critic k Creta. dw poate fi găsit din stare

P(K< -k Creta. dv )=P(K>k Creta. dv )= .

Observație 1. Pentru fiecare criteriu La puncte critice la un anumit nivel de semnificație
poate fi găsit din stare
doar numeric. Rezultatele calculelor numerice k crit sunt date în tabelele corespunzătoare (vezi, de exemplu, anexele 4 - 6 din dosarul „Anexe”).

Observația 2. Principiul testării unei ipoteze statistice descris mai sus nu dovedește încă adevărul sau neadevărul acesteia. Acceptarea ipotezei H 0 comparat cu ipoteză alternativă H 1 nu înseamnă că suntem siguri de corectitudinea absolută a ipotezei H 0 - doar o ipoteză H 0 este de acord cu datele observaționale pe care le avem, adică este o afirmație destul de plauzibilă care nu contrazice experiența. Este posibil ca odată cu creșterea dimensiunii eșantionului n ipoteză H 0 vor fi respinse.

5. Principalele probleme ale statisticii aplicate - descrierea datelor, estimarea si testarea ipotezelor

Concepte cheie utilizate în testarea ipotezelor

Ipoteza statistică - orice presupunere privind distribuția necunoscută a variabilelor (elementelor) aleatoare. Iată formulările mai multor ipoteze statistice:

1. Rezultatele observaţiilor au distributie normala cu zero așteptări matematice.
2. Rezultatele observațiilor au funcție de distribuție N(0,1).
3. Rezultatele observațiilor au o distribuție normală.
4. Rezultatele observațiilor din două eșantioane independente au aceeași distribuție normală.
5. Rezultatele observațiilor din două eșantioane independente au aceeași distribuție.

Există ipoteze nule și alternative. Ipoteza nulă este ipoteza care trebuie testată. O ipoteză alternativă este orice ipoteză validă, alta decât ipoteza nulă. Ipoteza nulă este H 0 , alternativa - H 1(de la Hypothesis - „hypothesis” (engleză)).

Alegerea uneia sau alteia ipoteze nule sau alternative este determinată de sarcinile aplicate cu care se confruntă managerul, economistul, inginerul, cercetătorul. Luați în considerare exemple.

Exemplul 11. Fie ipoteza nulă ipoteza 2 din lista de mai sus, iar ipoteza alternativă ipoteza 1. Aceasta înseamnă că situația reală este descrisă de un model probabilistic, conform căruia rezultatele observațiilor sunt considerate ca realizări ale variabilelor aleatoare independente distribuite identic. cu o funcție de distribuție N(0,σ), unde parametrul σ este necunoscut statisticianului. În acest model, ipoteza nulă se scrie după cum urmează:

H 0: σ = 1,

si o alternativa ca aceasta:

H 1: σ ≠ 1.

Exemplul 12. Fie ipoteza nulă încă ipoteza 2 din lista de mai sus, iar ipoteza alternativă să fie ipoteza 3 din aceeași listă. Apoi, într-un model probabilistic al unei situații manageriale, economice sau de producție, se presupune că rezultatele observațiilor formează un eșantion dintr-o distribuție normală. N(m, σ) pentru unele valori mși σ. Ipotezele sunt scrise astfel:

H 0: m= 0, σ = 1

(ambele parametrii iau valori fixe);

H 1: m≠ 0 și/sau σ ≠ 1

(adică fie m≠ 0, sau σ ≠ 1, sau ambele m≠ 0 și σ ≠ 1).

Exemplul 13 Lăsa H 0 este ipoteza 1 din lista de mai sus și H 1 - ipoteza 3 din aceeași listă. Atunci modelul probabilistic este același ca în exemplul 12,

H 0: m= 0, σ este arbitrară;

H 1: m≠ 0, σ este arbitrară.

Exemplul 14 Lăsa H 0 este ipoteza 2 din lista de mai sus, iar conform H 1 rezultatele observaționale au o funcție de distribuție F(X), nu se potrivește cu funcția de distribuție normală standard F(x). Apoi

H 0: F(x) = F(x) pentru toți X(scris ca F(x) ≡ F(x));

H 1: F(x 0) ≠ F (x 0) la unii x 0(adică nu este adevărat că F(x) ≡ F(x)).

Notă. Aici ≡ este semnul coincidenței identice a funcțiilor (adică, coincidența pentru toate valorile posibile ale argumentului X).

Exemplul 15 Lăsa H 0 este ipoteza 3 din lista de mai sus, iar conform H 1 rezultatele observaționale au o funcție de distribuție F(X), nefiind normal. Apoi

Pentru unii m, σ;

H 1: pentru orice m, σ există x 0 = x 0(m, σ) astfel încât .

Exemplul 16 Lăsa H 0 - ipoteza 4 din lista de mai sus, conform modelului probabilistic se prelevează două eșantioane din populații cu funcții de distribuție F(X) și G(X), care sunt normale cu parametrii m 1, σ 1 și m 2 , respectiv σ 2 și H 1 - negație H 0 . Apoi

H 0: m 1 = m 2 , σ 1 = σ 2 , și m 1 și σ 1 sunt arbitrare;

H 1: m 1 ≠ m 2 și/sau σ 1 ≠ σ 2 .

Exemplul 17. Fie, în condițiile exemplului 16, se știe în plus că σ 1 = σ 2 . Apoi

H 0: m 1 = m 2, σ > 0 și m 1 și σ sunt arbitrare;

H 1: m 1 ≠ m 2, σ > 0.

Exemplul 18. Lăsa H 0 - ipoteza 5 din lista de mai sus, conform modelului probabilistic se prelevează două eșantioane din populații cu funcții de distribuție F(X) și G(X) respectiv, și H 1 - negație H 0 . Apoi

H 0: F(X) G(X) , Unde F(X)

H 1: F(X) și G(X) sunt funcții de distribuție arbitrare și

F(X) G(X) cu cineva X.

Exemplul 19. Fie, în condițiile Exemplului 17, se presupune în plus că distribuția funcționează F(X) și G(X) diferă doar în tură, adică G(X) = F(X- A) la unii A. Apoi

H 0: F(X) G(X) ,

Unde F(X) este o funcție de distribuție arbitrară;

H 1: G(X) = F(X- a), a ≠ 0,

Unde F(X) este o funcție de distribuție arbitrară.

Exemplul 20. Fie că, în condițiile Exemplului 14, se știe în plus că conform modelului probabilistic al situației F(X) este o funcție de distribuție normală cu varianță unitară, adică are forma N(m, unu). Apoi

H 0: m = 0 (acestea. F(x) = F(x)

pentru toți X); (scris ca F(x) ≡ F(x));

H 1: m 0

(adică nu este adevărat că F(x) ≡ F(x)).

Exemplul 21.În reglementarea statistică a proceselor tehnologice, economice, manageriale sau de altă natură, luați în considerare un eșantion extras dintr-o populație cu o distribuție normală și varianță cunoscută și ipoteze

H 0: m = m 0 ,

H 1: m= m 1 ,

unde valoarea parametrului m = m 0 corespunde cursului stabilit al procesului, iar trecerea la m= m 1 indică o defecțiune.

Exemplul 22. Cu controlul statistic de acceptare, numărul de unități de produs defecte din eșantion respectă o distribuție hipergeometrică, parametrul necunoscut este p = D/ N este nivelul defectului, unde N- volumul lotului de produse, Dnumărul total articole defecte într-un lot. Folosite în documentația de reglementare, tehnică și comercială (standarde, contracte de aprovizionare etc.), planurile de control au adesea ca scop testarea unei ipoteze.

H 0: p < AQL

H 1: p > LQ,

Unde AQL - nivelul de acceptare al defectuosității, LQ este nivelul defectivității defectelor (evident, AQL < LQ).

Exemplul 23. Ca indicatori ai stabilității unui proces tehnologic, economic, managerial sau de altă natură, sunt utilizate o serie de caracteristici ale distribuțiilor indicatorilor controlați, în special coeficientul de variație v = σ/ M(X). Trebuie testat ipoteza nulă

H 0: v < v 0

sub ipoteza alternativa

H 1: v > v 0 ,

Unde v 0 este o valoare de limită predeterminată.

Exemplul 24. Fie modelul probabilistic a două eșantioane același ca în exemplul 18, să notăm așteptările matematice ale rezultatelor observațiilor din primul și al doilea eșantion M(X) și M(La) respectiv. În unele situații, ipoteza nulă este testată

H 0: M(X) = M(Y)

împotriva ipotezei alternative

H 1: M(X) ≠ M(Y).

Exemplul 25. S-a notat mai sus mare importanțăîn statistici matematice funcţii de distribuţie care sunt simetrice faţă de 0. La verificarea simetriei

H 0: F(- X) = 1 – F(X) pentru toți X, in caz contrar F arbitrar;

H 1: F(- X 0 ) ≠ 1 – F(X 0 ) la unii X 0 , in caz contrar F arbitrar.

În metodele probabilistic-statistice de luare a deciziilor se folosesc și multe alte formulări de probleme pentru testarea ipotezelor statistice. Unele dintre ele sunt discutate mai jos.

Sarcina specifică de a testa o ipoteză statistică este complet descrisă dacă sunt date ipotezele nule și alternative. Alegerea unei metode de testare a unei ipoteze statistice, proprietățile și caracteristicile metodelor sunt determinate atât de ipoteza nulă, cât și de ipoteza alternativă. Pentru a testa aceeași ipoteză nulă sub diferite ipoteze alternative, în general, ar trebui utilizate metode diferite. Deci, în exemplele 14 și 20, ipoteza nulă este aceeași, în timp ce cele alternative sunt diferite. Prin urmare, în condițiile exemplului 14, ar trebui utilizate metode bazate pe criterii de potrivire cu o familie parametrică (tip Kolmogorov sau tip omega-pătrat), iar în condițiile exemplului 20, metode bazate pe testul Student sau testul Cramer-Welch. Daca in conditiile exemplului 14 se foloseste criteriul Studentului, atunci acesta nu va rezolva sarcinile stabilite. Dacă, în condițiile Exemplului 20, folosim un criteriu de bunătate de tip Kolmogorov, atunci, dimpotrivă, va rezolva sarcinile stabilite, deși, poate, mai rău decât criteriul Studentului special adaptat pentru acest caz.

La prelucrarea datelor reale, alegerea corectă a ipotezelor este de mare importanță. H 0 și H unu . Ipotezele făcute, cum ar fi normalitatea distribuției, trebuie să fie atent justificate, în special, metode statistice. Rețineți că, în marea majoritate a setărilor aplicate specifice, distribuția rezultatelor observației este diferită de cea normală.

Adeseori apare o situație când forma ipotezei nule decurge din formularea problemei aplicate, dar forma ipotezei alternative nu este clară. În astfel de cazuri, ar trebui luată în considerare o ipoteză alternativă. vedere generalași folosiți metode care rezolvă problema pentru tot posibilul H unu . În special, atunci când se testează ipoteza 2 (din lista de mai sus) ca nulă, ar trebui să se utilizeze ca ipoteză alternativă H 1 din exemplul 14, și nu din exemplul 20, dacă nu există justificări speciale pentru normalitatea distribuției rezultatelor observațiilor în cadrul ipotezei alternative.

Anterior

Pe baza celor colectate studii statistice datele după prelucrarea lor se trag concluzii despre fenomenele studiate. Aceste concluzii se fac prin prezentarea și testarea ipotezelor statistice.

Ipoteza statistica se numește orice afirmație despre forma sau proprietățile distribuției variabilelor aleatoare observate în experiment. Ipotezele statistice sunt testate prin metode statistice.

Ipoteza care trebuie testată se numește principal (zero)și notat H 0 . Pe lângă zero, există și ipoteza alternativă (concurentă) H 1, negând principalul . Astfel, în urma testului, una și numai una dintre ipoteze va fi acceptată , iar al doilea va fi respins.

Tipuri de erori. Ipoteza propusă este testată pe baza unui studiu al unui eșantion obținut din populația generală. Datorită caracterului aleatoriu al probei, testul nu trage întotdeauna concluzia corectă. În acest caz, pot apărea următoarele situații:
1. Ipoteza principală este adevărată și este acceptată.
2. Ipoteza principală este adevărată, dar este respinsă.
3. Ipoteza principală nu este adevărată și este respinsă.
4. Ipoteza principală nu este adevărată, dar este acceptată.
În cazul 2, se vorbește despre eroare de primul fel, în acest din urmă caz ​​este eroare de al doilea fel.
Astfel, pentru unele mostre se ia decizia corectă, iar pentru altele, cea greșită. Decizia se ia în funcție de valoarea unei funcții de eșantionare, numită caracteristică statistică , criteriu statistic sau pur și simplu statistici. Setul de valori ale acestei statistici poate fi împărțit în două subseturi care nu se suprapun:

  • H 0 este acceptat (nu respins), apelat zona de acceptare a ipotezelor (zona permisă);
  • subset de valori statistice pentru care ipoteza H 0 este respins (respins) și ipoteza este acceptată H 1 este numit zona critica.

Concluzii:

  1. criteriu se numește variabilă aleatoare K , care vă permite să acceptați sau să respingeți ipoteza nulă H0 .
  2. La testarea ipotezelor se pot face erori de 2 feluri.
    Eroare de tip I este de a respinge ipoteza H 0 dacă este adevărat („săriți ținta”). Probabilitatea de a face o eroare de tip I se notează cu α și se numește nivelul de semnificație. Cel mai adesea în practică se presupune că α = 0,05 sau α = 0,01.
    Eroare de tip II este că ipoteza H0 este acceptată dacă este falsă („fals pozitiv”). Probabilitatea acestui tip de eroare se notează cu β.

Clasificarea ipotezei

Ipoteza principală H 0 despre valoarea parametrului necunoscut q al distribuției arată de obicei astfel:
H 0: q \u003d q 0.
Ipoteze concurente H 1 poate arata asa:
H 1: q < q 0 , H 1:q> q 0 sau H 1: qq 0 .
În consecință, se dovedește partea stângă, partea dreaptă sau bilateral zonele critice. Puncte limită ale regiunilor critice ( puncte critice) se determină din tabelele de distribuție ale statisticilor relevante.

Când se testează o ipoteză, este rezonabil să se reducă probabilitatea de a lua decizii greșite. Probabilitatea de eroare de tip I permisă de obicei notate Ași a sunat nivelul de semnificație. Valoarea sa este de obicei mică ( 0,1, 0,05, 0,01, 0,001 ...). Dar o scădere a probabilității unei erori de tip 1 duce la o creștere a probabilității unei erori de tip 2 ( b), adică dorinta de a accepta numai ipoteze adevarate determina o crestere a numarului de ipoteze corecte respinse. Prin urmare, alegerea nivelului de semnificație este determinată de importanța problemei puse și de gravitatea consecințelor unei decizii incorecte.
Testarea unei ipoteze statistice constă în următorii pași:
1) definirea ipotezelor H 0 și H 1 ;
2) selectarea statisticilor și atribuirea nivelului de semnificație;
3) definiție puncte critice K crși zona critică;
4) calculul valorii statisticilor din eșantion K ex;
5) compararea valorii statisticilor cu regiunea critică ( K crși K ex);
6) luarea deciziilor: dacă valoarea statisticii nu este inclusă în regiunea critică, atunci ipoteza este acceptată H 0 și respingeți ipoteza H 1, iar dacă intră în regiunea critică, atunci ipoteza este respinsă H 0 și ipoteza este acceptată H unu . În același timp, rezultatele testării ipotezei statistice trebuie interpretate după cum urmează: dacă ipoteza este acceptată H 1 , atunci o putem considera dovedită, iar dacă acceptăm ipoteza H 0 , apoi s-a recunoscut că nu contrazice rezultatele observațiilor.Cu toate acestea, această proprietate, împreună cu H 0 poate avea alte ipoteze.

Clasificarea testului de ipoteză

Să luăm în considerare în continuare câteva ipoteze statistice diferite și mecanisme de testare a acestora.
eu) Ipoteza mediei generale a distribuției normale cu variație necunoscută. Presupunem că populația generală are o distribuție normală, media și varianța acesteia sunt necunoscute, dar există motive să credem că media generală este egală cu a . La un nivel de semnificație al α, este necesar să se testeze ipoteza H 0: x=a. Ca alternativă, poate fi folosită una dintre cele trei ipoteze discutate mai sus. În acest caz, statistica este o variabilă aleatoare , care are o distribuție Student cu n– 1 grad de libertate. Se determină valoarea experimentală (observată) corespunzătoare t ex t cr H 1: x >a se găsește prin nivelul de semnificație α și numărul de grade de libertate n– 1. Dacă t ex < t cr H 1: x ≠a valoarea critică se găsește de la nivelul de semnificație α / 2 și același număr de grade de libertate. Ipoteza nulă este acceptată dacă | t ex | II) Ipoteza egalității a două medii ale populațiilor generale distribuite arbitrar (eșantioane mari independente). La un nivel de semnificație al α, este necesar să se testeze ipoteza H 0:x≠y. Dacă volumul ambelor probe este mare, atunci putem presupune că mediile eșantionului au o distribuție normală, iar variațiile lor sunt cunoscute. În acest caz, o variabilă aleatoare poate fi folosită ca statistică
,
având o distribuție normală și M(Z) = 0, D(Z) = 1. Se determină valoarea experimentală corespunzătoare z ex. Din tabelul funcției Laplace se găsește valoarea critică z cr. Sub ipoteza alternativă H 1: x >y se găsește din condiție F(z cr) = 0,5 – A. În cazul în care un z ex< z кр , atunci ipoteza nulă este acceptată, în caz contrar se respinge. Sub ipoteza alternativă H 1: x ≠ y valoarea critică se găsește din condiție F(z cr) = 0,5×(1 – A). Ipoteza nulă este acceptată dacă | z ex |< z кр .

III) Ipoteza egalității a două medii ale populațiilor generale distribuite normal, ale căror varianțe sunt necunoscute și aceleași (eșantioane mici independente). La un nivel de semnificație al α, este necesar să se testeze ipoteza principală H 0: x=y . Ca statistică, folosim o variabilă aleatorie
,
care are o distribuție Student cu ( n x + n– 2) grade de libertate. Se determină valoarea experimentală corespunzătoare t ex. Din tabelul punctelor critice ale distribuției Studentului se găsește valoarea critică t cr. Totul este rezolvat similar cu ipoteza (I).

IV) Ipoteza egalității a două varianțe ale populațiilor normal distribuite. În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: D(X) = D(Y). Statistica este o variabilă aleatorie, care are distribuția Fisher-Snedecor cu f 1 = n b– 1 și f 2 = n m- 1 grad de libertate (S 2 b - varianță mare, volumul probei sale n b). Se determină valoarea experimentală (observată) corespunzătoare F ex. valoare critica F cr sub ipoteza alternativa H 1: D(X) > D(Y) se regăsește din tabelul punctelor critice ale distribuției Fisher-Snedecor după nivelul de semnificație Ași numărul de grade de libertate f 1 și f 2. Ipoteza nulă este acceptată dacă F ex < F cr.

Instruire. Pentru calcul, trebuie să specificați dimensiunea datelor sursă.

V) Ipoteza egalității mai multor varianțe ale populațiilor normal distribuite pe eșantioane de aceeași dimensiune. În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: D(X 1) = D(X 2) = …= D(Xl). Statistica este o variabilă aleatorie , care are distribuția Cochran cu grade de libertate f = n– 1 și l (n- dimensiunea fiecărei probe, l este numărul de mostre). Această ipoteză este testată în același mod ca și cea anterioară. Se folosește tabelul punctelor critice ale distribuției Cochran.

vi) Ipoteza despre semnificația corelației.În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: r= 0. (Dacă coeficientul de corelație este egal cu zero, atunci mărimile corespunzătoare nu sunt legate între ele). În acest caz, statistica este o variabilă aleatorie
,
avand o distributie Student cu f = n– 2 grade de libertate. Verificarea acestei ipoteze se realizează în mod similar cu verificarea ipotezei (I).

Instruire. Specificați cantitatea de date sursă.

VII) Ipoteza despre valoarea probabilității de apariție a unui eveniment. Număr suficient de mare de n procese independente în care evenimentul DAR s-a întâmplat m o singura data. Există motive să credem că probabilitatea ca acest eveniment să apară într-un singur proces este egală cu p 0. Necesar la nivel de semnificație A testaţi ipoteza că probabilitatea unui eveniment DAR egală cu probabilitatea ipotetică p 0. (Deoarece probabilitatea este estimată prin frecvența relativă, ipoteza testată poate fi formulată în alt mod: frecvența relativă observată și probabilitatea ipotetică diferă semnificativ sau nu).
Numărul de încercări este destul de mare, deci frecvența relativă a evenimentului DAR distribuite conform legii normale. Dacă ipoteza nulă este adevărată, atunci valoarea ei așteptată este p 0, și varianța . În conformitate cu aceasta, ca statistică, alegem o variabilă aleatorie
,
care este distribuit aproximativ conform legii normale cu așteptare matematică zero și varianță unitară. Această ipoteză este testată exact în același mod ca și în cazul (I).

Instruire. Pentru calcul, trebuie să completați datele inițiale.