7.3.1. Coeficienți de corelare și determinare. Poate fi cuantificat apropierea comunicăriiîntre factori şi orientare(direct sau invers) prin calcularea:

1) dacă este necesar să se determine o relație liniară între doi factori, - coeficient de pereche corelații: în 7.3.2 și 7.3.3, operațiile de calcul al coeficientului de corelație liniar pereche Bravais-Pearson ( r) și coeficientul de corelație a rangului perechi al lui Spearman ( r);

2) dacă dorim să determinăm relația dintre doi factori, dar această relație este clar neliniară, atunci relație de corelație ;

3) dacă dorim să determinăm relația dintre un factor și un set de alți factori - atunci (sau, în mod echivalent, „coeficient de corelație multiplu”);

4) dacă dorim să identificăm izolat relația dintre un factor doar cu un altul specific, care face parte dintr-un grup de factori care îl afectează pe primul, pentru care trebuie să considerăm neschimbată influența tuturor celorlalți factori, atunci coeficient de corelație privat (parțial). .

Orice coeficient de corelație (r, r) nu poate depăși 1 în valoare absolută, adică –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Semnul de la coeficientul de corelare determină direcția conexiunii: semnul „+” (sau absența unui semn) înseamnă că conexiunea Drept (pozitiv), semnul „–” - că conexiunea verso (negativ). Semnul nu are nimic de-a face cu strânsoarea conexiunii.

Coeficientul de corelație caracterizează relația statistică. Dar adesea este necesar să se determine un alt tip de dependență, și anume: care este contribuția unui anumit factor la formarea unui alt factor înrudit. Acest tip de dependență, cu un anumit grad de convenționalitate, se caracterizează prin coeficient de determinare (D ) determinată de formula D = r 2 ´100% (unde r este coeficientul de corelație Bravais-Pearson, vezi 7.3.2). Dacă măsurătorile au fost luate în scară de ordine (scala de rang), apoi cu o oarecare pierdere a fiabilității, în loc de valoarea lui r, valoarea lui r (coeficientul de corelație al lui Spearman, vezi 7.3.3) poate fi înlocuită în formulă.

De exemplu, dacă am obținut ca caracteristică a dependenței factorului B de factorul A coeficientul de corelație r = 0,8 sau r = –0,8, atunci D = 0,8 2 ´100% = 64%, adică aproximativ 2 ½ 3. Prin urmare, contribuția factorului A și modificările sale la formarea factorului B este de aproximativ 2 ½ 3 din contribuția totală a tuturor factorilor în general.

7.3.2. Coeficientul de corelație Bravais-Pearson. Procedura de calcul al coeficientului de corelație Bravais-Pearson ( r ) poate fi utilizat numai în acele cazuri în care conexiunea este considerată pe baza unor eșantioane care au o distribuție normală a frecvenței ( distributie normala ) și obținute prin măsurători în scale de intervale sau rapoarte. Formula de calcul pentru acest coeficient de corelare este:



å ( X eu – )( y i-)

r = .

n×sx×sy

Ce arată coeficientul de corelație? În primul rând, semnul de la coeficientul de corelație arată direcția relației și anume: semnul „–” indică faptul că relația verso, sau negativ(există o tendință: pe măsură ce valorile unui factor scad, valorile corespunzătoare ale celuilalt factor cresc, iar pe măsură ce cresc, ele scad), iar absența unui semn sau a semnului „+” indică Drept, sau pozitiv conexiuni (există o tendință: cu o creștere a valorilor unui factor, valorile celuilalt cresc, iar cu o scădere, acestea scad). În al doilea rând, valoarea absolută (independentă de semn) a coeficientului de corelație indică etanșeitatea (rezistența) conexiunii. Se obișnuiește să se presupună (mai degrabă convențional): pentru valorile lui r< 0,3 корреляция foarte slab, de multe ori pur și simplu nu este luat în considerare, pentru 0,3 £ r< 5 корреляция slab, pentru 0,5 £ r< 0,7) - in medie, la 0,7 £ r £ 0,9) - puternicși, în final, pentru r > 0,9 - foarte puternic.În cazul nostru (r » 0,83), relația este inversă (negativă) și puternică.

Amintiți-vă că valorile coeficientului de corelație pot fi în intervalul de la -1 la +1. Dacă valoarea lui r depășește aceste limite, indică faptul că în calcule s-a făcut o greșeală . În cazul în care un r= 1, asta înseamnă că legătura nu este statistică, ci funcțională - ceea ce practic nu se întâmplă în sport, biologie, medicină. Deși cu un număr mic de măsurători, este posibilă o selecție aleatorie a valorilor care oferă o imagine a unei relații funcționale, dar un astfel de caz este cu atât mai puțin probabil, cu cât volumul probelor comparate (n) este mai mare, adică numărul de perechi de măsurători comparate.

Tabelul de calcul (Tabelul 7.1) este construit după formula.

Tabelul 7.1.

Tabel de calcul pentru calculul Bravais-Pearson

x i y eu (X i-) (X i –) 2 (y i-) (y i –) 2 (X eu – )( y i-)
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i \u003d 137 \u003d 13.00 åy i =56,1 =5,1 å( X i - ) 2 \u003d \u003d 1,78 å( y i – ) 2 = = 1,015 å( X eu – )( y i – )= = –1,24

Pentru că s x = ï ï = ï ï» 0,42, a

s y= ï ï» 0,32, r" –1,24ï (11´0,42´0,32) » –1,24ï 1,48 » –0,83 .

Cu alte cuvinte, trebuie să știți foarte ferm că coeficientul de corelație nu poti depășește 1,0 în valoare absolută. Acest lucru face adesea posibilă evitarea erorilor grosolane sau, mai degrabă, găsirea și corectarea erorilor făcute în calcule.

7.3.3. Coeficientul de corelație Spearman. După cum sa menționat deja, este posibil să se aplice coeficientul de corelație Bravais-Pearson (r) numai în acele cazuri în care factorii analizați sunt aproape de normal în ceea ce privește distribuția frecvenței și valorile variantei sunt obținute prin măsurători neapărat pe scara rapoartelor sau pe scara intervalelor, ceea ce se întâmplă dacă acestea sunt exprimate unități fizice. În alte cazuri, se găsește coeficientul de corelație Spearman ( r). Cu toate acestea, acest raport poate sa se aplică și în cazurile în care este permis (și dezirabil ! ) aplică coeficientul de corelație Bravais-Pearson. Dar trebuie avut în vedere că procedura de determinare a coeficientului Bravais-Pearson are mai multă putere („rezolvare abilitate"), de aceea r mai informativ decât r. Chiar și cu un mare n deviere r poate fi de ordinul a ±10%.

Tabelul 7.2 Formula de calcul pentru coeficient

x i y i R x R y |d R | d R 2 Coeficientul de corelație Spearman

13,2 4,75 8,5 3,0 5,5 30,25 r= 1 – . Vos

13,5 4,70 11,0 2,0 9,0 81,00 folosim exemplul nostru

12,7 5,10 4,5 6,5 2,0 4,00 pentru calcul r, dar hai să construim

12,5 5,40 3,0 9,0 6,0 36,00 alt tabel (Tabelul 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Înlocuiți valorile:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Vedem: r s-a dovedit a fi un pic

12,4 5,60 2,0 11,0 9,0 81,00 mai mult decât r, dar asta este diferit

12,3 5,50 1,0 10,0 9,0 81,00 nu foarte mare. La urma urmei, la

12,7 5,20 4,5 8,0 3,5 12,25 atât de mic n valorile rși r

åd R 2 = 423 sunt foarte aproximative, nu foarte fiabile, valoarea lor reală poate fluctua foarte mult, deci diferența rși rîn 0,1 este nesemnificativă. De obiceirconsiderat ca un analogr , dar mai puțin precis. Semnele la rși r arată direcția conexiunii.

7.3.4. Aplicarea și validarea coeficienților de corelație. Determinarea gradului de corelare între factori este necesară pentru a controla dezvoltarea factorului de care avem nevoie: pentru aceasta trebuie să influențăm alți factori care îl afectează semnificativ și trebuie să cunoaștem măsura eficacității acestora. Este necesar să cunoaștem relația factorilor pentru a dezvolta sau selecta teste gata făcute: conținutul informațional al unui test este determinat de corelarea rezultatelor acestuia cu manifestările unei trăsături sau proprietăți care ne interesează. Fără cunoașterea corelațiilor, orice formă de selecție este imposibilă.

S-a remarcat mai sus că în sport și în practica generală pedagogică, medicală și chiar economică și sociologică, este de mare interes să se stabilească dacă contribuţie , care un factor contribuie la formarea altuia. Acest lucru se datorează faptului că, pe lângă factorul considerat-cauze pe ţintă(care ne interesează) act factor, fiecare dând una sau alta contribuție la acesta și altele.

Se crede că măsura contribuției fiecărui factor-cauză poate fi coeficient de determinare D i = r 2 ´100%. Deci, de exemplu, dacă r = 0,6, i.e. relația dintre factorii A și B este medie, atunci D = 0,6 2 ´100% = 36%. Știind, așadar, că contribuția factorului A la formarea factorului B este de aproximativ 1 ½ 3, este posibil, de exemplu, să se dedice aproximativ 1 ½ 3 timpi de antrenament. Dacă coeficientul de corelație r \u003d 0,4, atunci D \u003d r 2 100% \u003d 16%, sau aproximativ 1 ½ 6 - două s din nou mai puțin și, după această logică, doar 1 ½ 6 părți din timpul de antrenament.

Valorile lui D i pentru diverși factori semnificativi oferă o idee aproximativă a relației cantitative a influențelor lor asupra factorului țintă care ne interesează, de dragul îmbunătățirii pe care, de fapt, lucrăm la alți factori ( de exemplu, un săritor în lungime lucrează la creșterea vitezei sprintului său, astfel încât acesta este factorul care aduce cea mai semnificativă contribuție la formarea rezultatului în sărituri).

Amintiți-vă că definind Dîn loc de r a pune r, deși, desigur, acuratețea determinării este mai mică.

Bazat selectiv(calculat din datele eșantionului) al coeficientului de corelație, este imposibil de concluzionat că există o legătură între factorii considerați în general. Pentru a trage o astfel de concluzie cu diferite grade de validitate, utilizați standardul criteriile de semnificație a corelației. Aplicarea lor presupune o relaţie liniară între factorii şi distributie normala frecvențele în fiecare dintre ele (adică nu o reprezentare selectivă, ci generală).

Puteți, de exemplu, să aplicați testele t ale Studentului. Rasa lui

formula pare: tp= –2 , unde k este coeficientul de corelație al eșantionului studiat, a n- volumul probelor comparate. Valoarea calculată rezultată a criteriului t (t p) este comparată cu valoarea tabelului la nivelul de semnificație pe care l-am ales și cu numărul de grade de libertate n = n - 2. Pentru a scăpa de munca de calcul, puteți utiliza o masă specială valorile critice ale coeficienților de corelație ale eșantionului(vezi mai sus), corespunzând prezenței unei relații semnificative între factori (ținând cont n și A).

Tabelul 7.3.

Valorile limită ale fiabilității coeficientului de corelație al eșantionului

Numărul de grade de libertate în determinarea coeficienților de corelație este luat egal cu 2 (adică n= 2) Indicat în tabel. Valorile 7.3 au o limită inferioară a intervalului de încredere Adevărat coeficientul de corelație este 0, adică cu astfel de valori nu se poate argumenta că corelația are loc deloc. Dacă valoarea coeficientului de corelație al eșantionului este mai mare decât cea indicată în tabel, se poate considera la nivelul corespunzător de semnificație că adevăratul coeficient de corelație nu este egal cu zero.

Dar răspunsul la întrebarea dacă există o legătură reală între factorii luați în considerare lasă loc pentru o altă întrebare: în ce interval valoare adevarata coeficient de corelație, așa cum poate fi de fapt, cu un infinit de mare n? Acest interval pentru orice valoare anume rși n factorii comparați pot fi calculați, dar este mai convenabil să folosiți un sistem de grafice ( nomograma), unde fiecare pereche de curbe construită pentru unele specificate mai sus n, corespunde limitelor intervalului.

Orez. 7.4. Limitele de încredere ale coeficientului de corelație al eșantionului (a = 0,05). Fiecare curbă corespunde celei de deasupra ei. n.

Referindu-ne la nomograma din Fig. 7.4, este posibil să se determine intervalul de valori ale coeficientului de corelație adevărat pentru valorile calculate ale coeficientului de corelație al eșantionului la a = 0,05.

7.3.5. relații de corelație. Dacă corelarea perechii neliniară, este imposibil de calculat coeficientul de corelație, determinați relații de corelație . Cerință obligatorie: caracteristicile trebuie măsurate pe o scară de raport sau pe o scară de interval. Puteți calcula dependența de corelare a factorului X din factor Yși dependența de corelare a factorului Y din factor X- sunt diferite. Cu un volum mic n considerate eșantioane reprezentând factori, pentru a calcula relațiile de corelație, puteți utiliza formulele:

raportul de corelare h x ½ y= ;

raportul de corelație h y ½ x= .

Iată și sunt mediile aritmetice ale eșantioanelor X și Y și - intraclasă medii aritmetice. Adică media aritmetică a acelor valori din eșantionul factorului X, cu care conjugă valori egale în eșantionul factorului Y (de exemplu, dacă factorul X are valori 4, 6 și 5, cu care sunt asociate 3 opțiuni cu aceeași valoare de 9 în eșantionul factorului Y, atunci = (4+6+) 5) ½ 3 = 5). În consecință, - media aritmetică a acelor valori din eșantionul factorului Y, care sunt asociate cu aceleași valori din eșantionul factorului X. Să dăm un exemplu și să calculăm:

X: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Tabelul 7.4

Tabel de calcul

x i y eu X y x i – x (x i – x) 2 x i - X y (x iX y) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Prin urmare h y ½ x= » 0,63.

7.3.6. Coeficienți de corelație parțială și multiplă. Pentru a evalua relația dintre 2 factori, prin calcularea coeficienților de corelație, presupunem implicit că niciun alt factor nu are vreun efect asupra acestei relații. În realitate, nu este cazul. Deci, relația dintre greutate și înălțime este foarte semnificativ afectată de aportul de calorii, cantitatea de activitate fizică sistematică, ereditate etc. Când este necesar la evaluarea relației dintre 2 factori luați în considerare impactul semnificativ alți factori și, în același timp, cum să se izoleze de ei, considerându-le neschimbate, calculati privat (in caz contrar - parțial ) coeficienți de corelare.

Exemplu: trebuie să evaluați dependențele perechi între 3 factori esențiali X, Y și Z. Notați r XY (Z) coeficient de corelație privat (parțial) între factorii X și Y (în acest caz, valoarea factorului Z este considerată neschimbată), r ZX (Y) - coeficient de corelație parțială între factorii Z și X (cu valoarea constantă a factorului Y), r YZ (X) - coeficient de corelație parțială între factorii Y și Z (cu valoarea constantă a factorului X). Folosind coeficienții de corelație perechi simple calculați (conform Bravais-Pearson). r X y, r XZ și r YZ, m

Puteți calcula coeficienți de corelație privat (parțial) folosind formulele:

rXY- r XZ' r YZ r XZ- r X Y' r ZY r ZY –r ZX ´ r YZ

r XY (Z) =; r XZ (Y) =; r ZY (X) =

Ö(1– r 2XZ)(1– r 2 YZ) Ö(1– r 2XY)(1– r 2 ZY) Ö(1– r 2ZX)(1– r 2YX)

Și coeficienții de corelație parțială pot lua valori de la -1 la +1. Prin pătrarea lor, obținem coeficientii corespunzători coeficienții de determinare numit si măsuri private de certitudine(înmulțind cu 100, exprimăm în %%). Coeficienții de corelație parțială diferă mai mult sau mai puțin de coeficienții de pereche simpli (compleți), care depinde de puterea influenței factorului al 3-lea asupra lor (ca neschimbat). Se testează ipoteza nulă (H 0), adică ipoteza că nu există nicio legătură (dependență) între factorii X și Y (cu numărul total de caracteristici k) prin calcularea testului t după formula: t P = r XY (Z) ´ ( n-k) 1 ½ 2 ´ (1– r 2XY(Z)) –1 ½ 2 .

În cazul în care un t R< t a n , ipoteza este acceptată (presupunem că nu există dependență), dacă tt a n - ipoteza este infirmată, adică se crede că dependența are loc cu adevărat. t un n este luat din tabel t-Criteriul elevului, și k- numărul de factori luați în considerare (în exemplul nostru 3), numărul de grade de libertate n= n - 3. Alți coeficienți de corelație parțială sunt verificați în mod similar (în formulă în loc de r XY (Z) sunt substituite în mod corespunzător r XZ (Y) sau r ZY(X)).

Tabelul 7.5

Datele inițiale

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Pentru a evalua dependența factorului X de acțiunea combinată a mai multor factori (aici, factorii Y și Z), calculați valorile coeficienților de corelație perechi simpli și, folosindu-le, calculați coeficient de corelație multiplă r X (YZ):

Ö r 2XY+ r 2XZ - 2 r X Y' r XZ' r YZ

r X (YZ) = .

Ö 1 - r 2 YZ

7.2.7. coeficientul de asociere. Este adesea necesar să se cuantifice relația dintre calitate semne, adică astfel de semne care nu pot fi reprezentate (caracterizate) cantitativ, care nemăsurată. De exemplu, sarcina este de a afla dacă există o relație între specializarea sportivă a celor implicați și proprietăți personale precum introversia (accentul personalității asupra fenomenelor din propria lume subiectivă) și extraversie (accentul personalității asupra lumii obiecte externe). Simbolurile sunt prezentate în tabel. 7.6.

Tabelul 7.6.

X (ani) Y (ori) Z (ori) X (ani) Y (ori) Z (ori)
Caracteristica 1 Caracteristica 2 introversiune Extraversie
Jocuri sportive A b
Gimnastică Cu d

Evident, numerele pe care le avem la dispoziție aici pot fi doar frecvențe de distribuție. În acest caz, calculați coeficientul de asociere (alt nume " coeficient de contingență "). Considera cel mai simplu caz: relația dintre două perechi de caracteristici, în timp ce se numește coeficientul de contingență calculat tetrachoric (Vezi tabelul).

Tabelul 7.7.

a = 20 b = 15 A + b = 35
c =15 d=5 c + d = 20
A + c = 35 b + d = 20 n = 55

Facem calcule după formula:

ad-bc 100-225-123

Calculul coeficienților de asociere (coeficienții de conjugare) cu un număr mai mare de caracteristici este asociat cu calcule folosind o matrice similară de ordinul corespunzător.

Când studiezi corelațiiîncercați să stabiliți dacă există vreo relație între doi indicatori din același eșantion (de exemplu, între înălțimea și greutatea copiilor sau între nivelul IQși performanța școlară) sau între două eșantioane diferite (de exemplu, la compararea perechilor de gemeni), și dacă această relație există, dacă o creștere a unui indicator este însoțită de o creștere (corelație pozitivă) sau o scădere (corelație negativă) a alte.

Cu alte cuvinte, analiza corelației ajută la stabilirea dacă este posibil să se prezică valorile posibile ale unui indicator, cunoscând valoarea altuia.

Până acum, când analizăm rezultatele experienței noastre în studierea efectelor marijuanei, am ignorat în mod deliberat un astfel de indicator precum timpul de reacție. Între timp, ar fi interesant de verificat dacă există o relație între eficiența reacțiilor și viteza lor. Acest lucru ar permite, de exemplu, să argumentăm că cu cât o persoană este mai lentă, cu atât acțiunile sale vor fi mai precise și mai eficiente și invers.

În acest scop, se pot folosi două metode diferite: metoda parametrică de calcul al coeficientului Bravais-Pearson (r)și calcularea coeficientului de corelație al rândurilor Spearman (r s ), care se aplică datelor ordinale, adică este neparametric. Cu toate acestea, să înțelegem mai întâi ce este un coeficient de corelație.

Coeficient de corelație

Coeficientul de corelație este o valoare care poate varia de la -1 la 1. În cazul unei corelații pozitive complete, acest coeficient este plus 1, iar cu un negativ complet - minus 1. Pe grafic, aceasta corespunde unei linii drepte care trece prin punctele de intersecție a valorilor fiecărei perechi de date:

Variabil

Dacă aceste puncte nu se aliniază într-o linie dreaptă, ci formează un „nor”, ​​valoarea absolută a coeficientului de corelație devine mai mică de unu și se apropie de zero pe măsură ce norul se rotunjește:

Dacă coeficientul de corelație este 0, ambele variabile sunt complet independente una de cealaltă.

În științe umaniste, o corelație este considerată puternică dacă coeficientul ei este mai mare de 0,60; dacă depășește 0,90, atunci corelația este considerată foarte puternică. Cu toate acestea, pentru a putea trage concluzii despre relațiile dintre variabile, dimensiunea eșantionului este de mare importanță: cu cât eșantionul este mai mare, cu atât valoarea coeficientului de corelație obținut este mai fiabilă. Există tabele cu valori critice ale coeficienților de corelație Bravais-Pearson și Spearman pentru un număr diferit de grade de libertate (este egal cu numărul de perechi minus 2, adică n-2). Numai în cazul în care coeficienții de corelație sunt mai mari decât aceste valori critice pot fi considerați de încredere. Deci, pentru ca coeficientul de corelație de 0,70 să fie fiabil, cel puțin 8 perechi de date ar trebui luate în analiză ( = P - 2 = 6) la calcul r(Tabelul B.4) și 7 perechi de date (= n - 2 = 5) la calcul r s (Tabelul 5 din Anexa B. 5).

Coeficientul Bravais-Pearson

Pentru a calcula acest coeficient, se folosește următoarea formulă (y diferiți autori poate arata diferit):

unde  X Y este suma produselor datelor din fiecare pereche;

n - numărul de perechi;

- medie pentru date variabile X;

Medie pentru date variabile Y;

S X - X;

s Y - abaterea standard pentru distribuție y.

Acum putem folosi acest coeficient pentru a determina dacă există o relație între timpul de reacție al subiecților și eficacitatea acțiunilor lor. Luați, de exemplu, nivelul de fundal al grupului de control.

n= 15  15,8  13,4 = 3175,8;

(n 1)S X S y = 14  3,07  2,29 = 98,42;

r =

O valoare negativă a coeficientului de corelare poate însemna că cu cât timpul de reacție este mai lung, cu atât eficiența este mai mică. Cu toate acestea, valoarea sa este prea mică pentru a putea vorbi despre o relație semnificativă între aceste două variabile.

nXY=………

(n- 1) S X S Y = ……

Ce concluzie se poate trage din aceste rezultate? Dacă credeți că există o relație între variabile, atunci ce este - directă sau inversă? Este de încredere [cf. fila. 4 (în Anexa B. 5) cu valori critice r]?

Coeficientul de corelare a rangului Spearmanr s

Acest coeficient este mai ușor de calculat, dar rezultatele sunt mai puțin precise decât utilizarea r. Acest lucru se datorează faptului că la calcularea coeficientului Spearman se folosește ordinea datelor, și nu caracteristicile cantitative și intervalele dintre clase ale acestora.

Ideea este că atunci când se utilizează coeficientul de corelație de rang Spearman(r s ) ei verifică doar dacă clasarea datelor pentru un eșantion va fi aceeași ca într-o serie de alte date pentru acest eșantion asociate cu primul (de exemplu, dacă elevii vor fi „clasați” în mod egal atunci când promovează atât psihologie, cât și matematică, sau chiar și cu doi profesori de psihologie diferiți?). Dacă coeficientul este aproape de + 1, atunci aceasta înseamnă că ambele serii practic coincid, iar dacă acest coeficient este aproape de - 1, putem vorbi despre o relație inversă completă.

Coeficient r s calculate după formula

Unde d- diferența dintre rândurile valorilor caracteristicilor conjugate (indiferent de semnul acesteia) și n- numărul de perechi.

De obicei, acest test non-parametric este folosit în cazurile în care trebuie să trageți niște concluzii nu atât de mult intervaleîntre date, cât despre ele grade,și, de asemenea, atunci când curbele de distribuție sunt prea asimetrice și nu permit utilizarea unor criterii parametrice precum coeficientul r(în aceste cazuri, poate fi necesară convertirea datelor cantitative în date ordinale).

Deoarece acesta este cazul distribuției valorilor de eficiență și timp de reacție în grupul experimental după expunere, puteți repeta calculele pe care le-ați făcut deja pentru acest grup, doar că acum nu pentru coeficient r, iar pentru indicator r s . Acest lucru vă va permite să vedeți cât de diferiți sunt acești doi indicatori*.

* Trebuie amintit că

1) pentru numărul de lovituri, rangul 1 corespunde celui mai mare și al 15-lea celui mai scăzut performanță, în timp ce pentru timpul de reacție, rangul 1 corespunde celui mai scurt timp, iar al 15-lea celui mai lung;

2) datele ex aequo primesc un rang mediu.

Astfel, ca și în cazul coeficientului r, a primit un rezultat pozitiv, deși nesigur. Care dintre cele două rezultate este mai plauzibil: r=-0,48 sau r s = +0,24? O astfel de întrebare poate apărea numai dacă rezultatele sunt de încredere.

Aș dori să subliniez încă o dată că esența acestor doi coeficienți este oarecum diferită. Coeficient negativ r indică faptul că eficiența este cel mai adesea cu atât mai mare, cu atât timpul de reacție este mai rapid, în timp ce la calcularea coeficientului r s a fost necesar să se verifice dacă subiecții mai rapidi reacționează întotdeauna mai precis, iar cei mai lenți mai puțin precis.

Întrucât în ​​lotul experimental, după expunere, s-a obţinut un coeficient r s , egal cu 0,24, o astfel de tendință nu este, evident, urmărită aici. Încercați să înțelegeți singur datele pentru grupul de control după expunere, știind că  d 2 = 122,5:

; este de incredere?

Care este concluzia ta?…………………………………………………………………………………………………………

…………………………………………………………………………………………………………………….

Deci, am luat în considerare diverse metode statistice parametrice și neparametrice utilizate în psihologie. Recenzia noastră a fost foarte superficială, iar sarcina sa principală a fost de a face cititorul să înțeleagă că statisticile nu sunt atât de înfricoșătoare pe cât par și necesită în mare parte bun simț. Vă reamintim că datele de „experiență” cu care ne-am ocupat aici sunt fictive și nu pot servi drept bază pentru nicio concluzie. Cu toate acestea, un astfel de experiment ar merita făcut. Deoarece pentru acest experiment a fost aleasă o tehnică pur clasică, aceeași analiză statistică ar putea fi utilizată în multe experimente diferite. În orice caz, ni se pare că am conturat câteva direcții principale care pot fi utile celor care nu știu de unde să înceapă analiza statistică a rezultatelor.

Există trei ramuri principale ale statisticii: statistica descriptivă, statistica inductivă și analiza corelației.

Analiza de regresie vă permite să evaluați modul în care o variabilă depinde de alta și care este răspândirea valorilor variabilei dependente în jurul liniei drepte care definește relația. Aceste estimări și intervalele de încredere corespunzătoare fac posibilă prezicerea valorii variabilei dependente și determinarea acurateței acestei predicții.

Rezultatele analizei de regresie pot fi prezentate doar într-o formă digitală sau grafică destul de complexă. Cu toate acestea, de multe ori suntem interesați nu de a prezice valoarea unei variabile din valoarea alteia, ci pur și simplu de a caracteriza strângerea (tăria) relației dintre ele, în timp ce este exprimată ca un singur număr.

Această caracteristică se numește coeficient de corelație, este de obicei notat cu litera r. Coeficientul de corelație poate fi

poate lua valori de la -1 la +1. Semnul coeficientului de corelație arată direcția conexiunii (directă sau inversă), iar valoarea absolută arată apropierea conexiunii. Un coeficient egal cu -1 determină aceeași legătură rigidă ca egală cu 1. În absența unei conexiuni, coeficientul de corelație este zero.

Pe fig. 8.10 prezintă exemple de dependențe și valorile corespunzătoare ale r. Vom lua în considerare doi coeficienți de corelație.

Coeficientul de corelație Pearson este destinat să descrie relația liniară a trăsăturilor cantitative; ca regresia
analiza ionică, necesită o distribuție normală. Când oamenii vorbesc doar despre „coeficient de corelație”, aproape întotdeauna se referă la coeficientul de corelație al lui Pearson și exact asta vom face.

Coeficientul de corelare a rangului lui Spearman poate fi utilizat atunci când relația este neliniară - și nu numai pentru caracteristicile cantitative, ci și pentru caracteristicile ordinale. Aceasta este o metodă neparametrică și nu necesită niciun tip special de distribuție.

Despre caracteristicile cantitative, calitative și ordinale am vorbit deja în Cap. 5. Semnele cantitative sunt date numerice obișnuite, cum ar fi înălțimea, greutatea, temperatura. Valori trăsătură cantitativă vă puteți compara între ele și puteți spune care dintre ele este mai mare, cu cât și de câte ori. De exemplu, dacă un marțian cântărește 15 g și celălalt 10, atunci primul este mai greu decât al doilea și o dată și jumătate și 5 g. de câte ori. În medicină, semnele ordinale sunt destul de comune. De exemplu, rezultatele unui test Papanicolau vaginal sunt evaluate pe următoarea scară: 1) normal, 2) displazie ușoară, 3) displazie moderată, 4) displazie severă, 5) cancer in situ. Atât semnele cantitative, cât și cele ordinale pot fi aranjate în ordine - pe aceasta proprietate comună bazat pe un grup mare de criterii non-parametrice, care includ coeficientul de corelare a rangului Spearman. Ne vom familiariza cu alte criterii neparametrice în Cap. zece.

Coeficientul de corelație Pearson

Și totuși, de ce nu poate fi folosită analiza de regresie pentru a descrie strângerea relației? Abaterea standard reziduală ar putea fi utilizată ca măsură a strângerii relației. Cu toate acestea, dacă schimbați variabilele dependente și independente, atunci abaterea standard reziduală, ca și alți indicatori ai analizei de regresie, va fi diferită.

Să ne uităm la fig. 8.11. Pe baza unui eșantion de 10 marțieni cunoscuți de noi, s-au construit două linii de regresie. Într-un caz, ponderea este variabila dependentă, în al doilea este variabila independentă. Liniile de regresie sunt semnificativ diferite



20

Dacă schimbați x și y, ecuația de regresie va fi diferită, dar coeficientul de corelație va rămâne același.

speranţă. Se pare că relația dintre înălțimea și greutatea este una, iar greutatea cu înălțimea este alta. Asimetria analizei de regresie este ceea ce o împiedică să fie utilizată direct pentru a caracteriza puterea unei relații. Coeficientul de corelație, deși ideea sa provine din analiza de regresie, este lipsit de acest neajuns. Vă prezentăm formula.

rY(X - X)(Y - Y)

&((- X) S(y - Y)2"

unde X și Y sunt valorile medii ale variabilelor X și Y. Expresia pentru r este „simetrică” - schimbând X și Y, obținem aceeași valoare. Coeficientul de corelație ia valori de la -1 la +1. Cu cât relația este mai strânsă, cu atât valoarea absolută a coeficientului de corelație este mai mare. Semnul indică direcția conexiunii. Pentru r > 0, se vorbește de o corelație directă (cu cât o variabilă crește, și cealaltă crește), pentru r Să luăm exemplul cu 10 marțieni, pe care l-am considerat deja din punctul de vedere al analizei regresiei. Să calculăm coeficientul de corelație. Datele inițiale și rezultatele intermediare ale calculelor sunt date în tabel. 8.3. Dimensiunea eșantionului n = 10, înălțime medie

X = £ X/n = 369/10 = 36,9 și greutatea Y = £ Y/n = 103,8/10 = 10,38.

Găsim Shch-X)(Y-Y) = 99,9, Shch-X)2 = 224,8, £(Y - Y)2 = 51,9.

Să înlocuim valorile obținute în formula pentru coeficientul de corelație:

224,8 x 51,9 inchi

Valoarea lui r este apropiată de 1, ceea ce indică o relație strânsă între înălțime și greutate. Pentru a vă face o idee mai bună despre ce coeficient de corelație ar trebui considerat mare și care ar trebui considerat nesemnificativ, aruncați o privire la

Tabelul 8.3. Calculul coeficientului de corelare
X Y X-X Y-Y (X-X)(Y-Y) (X-X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


cei de pe masă. 8.4 - prezintă coeficienții de corelație pentru exemplele pe care le-am analizat mai devreme.

Relația dintre regresie și corelație

Am folosit inițial toate exemplele de coeficienți de corelație (Tabelul 8.4) pentru a construi linii de regresie. Într-adevăr, există o relație strânsă între coeficientul de corelație și parametrii analizei de regresie, pe care o vom demonstra acum. Diferite modalități de prezentare a coeficientului de corelație, pe care le vom obține în acest caz, ne vor permite să înțelegem mai bine semnificația acestui indicator.

Amintiți-vă că ecuația de regresie este construită în așa fel încât să minimizeze suma abaterilor pătrate de la dreapta de regresie.


Notăm această sumă minimă de pătrate cu S (această valoare se numește suma reziduală a pătratelor). Suma abaterilor pătrate ale valorilor variabilei dependente Y față de media sa Y se va nota cu S^. Apoi:

Valoarea lui r2 se numește coeficient de determinare - este pur și simplu pătratul coeficientului de corelație. Coeficientul de determinare arată puterea conexiunii, dar nu direcția acesteia.

Din formula de mai sus se poate observa că, dacă valorile variabilei dependente se află pe regresia directă, atunci S = 0, și astfel r = +1 sau r = -1, adică există o relație liniară între variabila dependenta si independenta. Orice valoare a variabilei independente poate prezice cu precizie valoarea variabilei dependente. Dimpotrivă, dacă variabilele nu sunt deloc legate, atunci Soci = SofSisi Atunci r = 0.

De asemenea, se poate observa că coeficientul de determinare este egal cu acea pondere a varianței totale S^, care este cauzată sau, după cum se spune, explicată prin regresie liniară.

Suma reziduală a pătratelor S este legată de varianța reziduală s2y\x prin relația Socj = (n - 2) s^, iar suma totală a pătratelor S^ de varianța s2 prin relația S^ = (n - 1). )s2 . În acest caz

r2 = 1 _ n _ 2 sy\x n _1 sy

Această formulă face posibilă aprecierea dependenței coeficientului de corelație de ponderea variației reziduale în varianța totală

six/s2y Cu cât această proporție este mai mică, cu atât este mai mare (în valoare absolută) coeficientul de corelație și invers.

Am văzut că coeficientul de corelație reflectă strânsoarea relației liniare a variabilelor. Cu toate acestea, dacă vorbim despre prezicerea valorii unei variabile din valoarea alteia,
pe coeficientul de corelație nu trebuie să se bazeze prea mult. De exemplu, datele din fig. 8,7 corespunde unui coeficient de corelație foarte mare (r = 0,92), dar lățimea regiunii de încredere arată că incertitudinea de predicție este destul de semnificativă. Prin urmare, chiar și cu un coeficient de corelație mare, asigurați-vă că calculați intervalul de încredere.


Și în final, dăm raportul dintre coeficientul de corelație și coeficientul pantei regresiei directe b:

unde b este panta dreptei de regresie, sx și sY sunt abaterile standard ale variabilelor.

Dacă nu luăm în considerare cazul sx = 0, atunci coeficientul de corelație este egal cu zero dacă și numai dacă b = 0. Vom folosi acum acest fapt pentru a estima semnificația statistică a corelației.

Semnificația statistică a corelației

Deoarece b = 0 implică r = 0, ipoteza lipsei de corelație este echivalentă cu ipoteza pantei zero a regresiei directe. Prin urmare, pentru a evalua semnificația statistică a corelației, putem folosi formula deja cunoscută pentru a evalua semnificația statistică a diferenței dintre b și zero:

Aici numărul de grade de libertate este v = n - 2. Cu toate acestea, dacă coeficientul de corelație a fost deja calculat, este mai convenabil să folosiți formula:

Numărul de grade de libertate aici este, de asemenea, v = n - 2.

Cu diferența exterioară a celor două formule pentru t, ele sunt identice. Într-adevăr, din ce


r 2 _ 1 - n_ 2 Sy]x_

Înlocuirea valorii lui sy^x în formula pentru eroarea standard

Grăsimea animală și cancerul de sân

În experimentele pe animale de laborator, s-a demonstrat că un conținut ridicat de grăsimi animale în alimentație crește riscul de cancer de sân. Se observă această dependență la oameni? K. Carroll a colectat date despre consumul de grăsimi animale și mortalitatea prin cancer de sân în 39 de țări. Rezultatul este prezentat în fig. 8.12A. S-a constatat că coeficientul de corelație dintre consumul de grăsimi animale și mortalitatea prin cancer de sân este de 0,90. Să estimăm semnificația statistică a corelației.

0,90 1 - 0,902 39 - 2

Valoarea critică a lui t pentru numărul de grade de libertate v = 39 - 2 = 37 este 3,574, care este mai mică decât cea obținută de noi. Astfel, la un nivel de semnificație de 0,001, se poate susține că există o corelație între aportul de grăsimi animale și mortalitatea prin cancer de sân.

Acum să verificăm dacă mortalitatea este asociată cu consumul de grăsimi vegetale? Datele corespunzătoare sunt prezentate în fig. 8.12B. Coeficientul de corelație este 0,15. Apoi

1 - 0,152 39 - 2

Chiar și la un nivel de semnificație de 0,10, valoarea calculată a lui t este mai mică decât valoarea critică. Corelația nu este semnificativă statistic.

Coeficient de corelație este o valoare care poate varia de la +1 la -1. În cazul unei corelații pozitive complete, acest coeficient este egal cu plus 1 (se spune că odată cu creșterea valorii unei variabile, valoarea unei alte variabile crește), iar cu o corelație negativă completă - minus 1 (indicați feedback-ul) , adică atunci când valorile unei variabile cresc, valorile celeilalte scad).

Ex 1:

Graficul dependenței de timiditate și depresie. După cum puteți vedea, punctele (subiecții) nu sunt situate aleatoriu, ci se aliniază în jurul unei linii și, privind această linie, putem spune că cu cât timiditatea este mai mare la o persoană, cu atât mai depresive, adică aceste fenomene. sunt interconectate.

Ex 2: Grafic pentru timiditate și sociabilitate. Vedem că pe măsură ce timiditatea crește, sociabilitatea scade. Coeficientul lor de corelare este -0,43. Astfel, un coeficient de corelație mai mare de la 0 la 1 indică o relație direct proporțională (cu cât mai mult ... cu atât mai mult ...), iar un coeficient de la -1 la 0 indică o relație invers proporțională (cu cât mai mult ... cu atât mai puțin . ..)

Dacă coeficientul de corelație este 0, ambele variabile sunt complet independente una de cealaltă.

corelație- aceasta este o relație în care impactul factorilor individuali apare doar ca tendință (în medie) cu observarea în masă a datelor reale. Exemple de dependență de corelație pot fi dependența dintre mărimea activelor băncii și valoarea profitului băncii, creșterea productivității muncii și vechimea în muncă a angajaților.

Se folosesc două sisteme de clasificare a corelațiilor în funcție de puterea lor: general și particular.

Clasificarea generală a corelațiilor: 1) puternică, sau apropiată cu un coeficient de corelație de r> 0,70; 2) medie la 0,500,70, și nu doar o corelație nivel inalt semnificaţie.

Următorul tabel listează denumirile coeficienților de corelație pentru diferite tipuri de scale.

Scară dihotomică (1/0) Scala de rang (ordinal).
Scară dihotomică (1/0) Coeficientul de asociere al lui Pearson, coeficientul de conjugare cu patru celule al lui Pearson. Corelație biserială
Scala de rang (ordinal). Corelația rang-biseriala. Coeficientul de corelare a rangului lui Spearman sau Kendall.
Interval și scară absolută Corelație biserială Valorile scalei intervalului sunt convertite în ranguri și se folosește coeficientul de rang Coeficientul de corelație Pearson (coeficientul de corelație liniară)

La r=0 nu există o corelație liniară. În acest caz, mediile de grup ale variabilelor coincid cu mediile lor generale, iar liniile de regresie sunt paralele cu axele de coordonate.

Egalitatea r=0 vorbește doar despre absența unei dependențe de corelație liniară (variabile necorelate), dar nu în general despre absența unei corelații, și cu atât mai mult, a unei dependențe statistice.

Uneori concluzia că nu există o corelație este mai importantă decât prezența unei corelații puternice. O corelație zero a două variabile poate indica că nu există nicio influență a unei variabile asupra celeilalte, cu condiția să avem încredere în rezultatele măsurătorilor.

În SPSS: 11.3.2 Coeficienți de corelație

Până acum am aflat doar faptul însuși al existenței unei relații statistice între două trăsături. În continuare, vom încerca să aflăm ce concluzii se pot trage despre puterea sau slăbiciunea acestei dependențe, precum și despre forma și direcția ei. Criterii cuantificare dependențele dintre variabile se numesc coeficienți de corelație sau măsuri de conectivitate. Două variabile sunt corelate pozitiv dacă există o relație directă, unidirecțională între ele. Într-o relație unidirecțională, valorile mici ale unei variabile corespund unor valori mici ale celeilalte variabile, valorile mari corespund celor mari. Două variabile sunt corelate negativ dacă există o relație inversă între ele. Cu o relație multidirecțională, valorile mici ale unei variabile corespund unor valori mari ale celeilalte variabile și invers. Valorile coeficienților de corelație sunt întotdeauna în intervalul de la -1 la +1.

Coeficientul lui Spearman este folosit ca coeficient de corelație între variabilele aparținând scării ordinale, iar coeficientul de corelație al lui Pearson (momentul produselor) este utilizat pentru variabilele aparținând scării intervalului. În acest caz, trebuie menționat că fiecare variabilă dihotomică, adică o variabilă aparținând scării nominale și având două categorii, poate fi considerată ordinală.

În primul rând, vom verifica dacă există o corelație între variabilele sex și psihic din fișierul studium.sav. În acest sens, luăm în considerare faptul că variabila dihotomică sex poate fi considerată o variabilă ordinală. Urmează următoarele instrucțiuni:

Selectați din meniul de comandă Analizați (Analiză) Statistici descriptive (Statistici descriptive) Tabele încrucișate... (Tabelele de urgență)

· Mutați variabila sex într-o listă de rânduri și variabila psihic într-o listă de coloane.

· Faceți clic pe butonul Statistici.... În caseta de dialog Crosstabs: Statistics, bifați caseta Corelations. Confirmați alegerea cu butonul Continuare.

· În dialogul Tabele încrucișate, opriți afișarea tabelelor bifând caseta de selectare Suprimare tabele. Faceți clic pe butonul OK.

Se vor calcula coeficienții de corelație Spearman și Pearson, iar semnificația lor va fi testată:

/ Teorie. Coeficient de corelație

Coeficient de corelație- statistica descriptivă bidimensională, o măsură cantitativă a relației (variabilitatea comună) a două variabile.

Până în prezent, un număr mare de diverși coeficienți corelații. Cu toate acestea, cele mai importante măsuri de comunicare sunt Pearson, Spearman și Kendall . Lor trasatura comuna este asta ele reflectă relația dintre două trăsături , măsurată la scară cantitativă - rang sau metrică .

In general vorbind, orice cercetare empirică concentrat pe studiul relațiilor dintre două sau mai multe variabile .

Dacă o modificare a unei variabile cu o unitate duce întotdeauna la o modificare a celeilalte variabile cu aceeași valoare, funcția este liniar (graficul său este o linie dreaptă); orice altă legătură neliniară . Dacă o creștere a unei variabile este asociată cu o creștere a alteia, atunci conexiune - pozitiv ( Drept ) ; dacă o creștere a unei variabile este asociată cu o scădere a alteia, apoi conexiunea - negativ ( verso ) . Dacă direcția de schimbare a unei variabile nu se schimbă odată cu creșterea (scăderea) unei alte variabile, atunci o astfel de funcție este monoton ; în caz contrar funcția este numită nemonotonică .

Conexiunile funcționale sunt idealizări. Particularitatea lor constă în faptul că o valoare a unei variabile corespunde unei valori strict definite a altei variabile. De exemplu, aceasta este relația dintre două variabile fizice - greutatea și lungimea corpului (liniar pozitiv). Cu toate acestea, chiar și în experimentele fizice, relația empirică va diferi de relația funcțională din motive nesocotite sau necunoscute: fluctuații în compoziția materialului, erori de măsurare etc.

Când studiază relația dintre caracteristici, cercetătorul pierde inevitabil multe motive posibile pentru variabilitatea acestor caracteristici. Rezultatul este că chiar și relația funcțională dintre variabile care există în realitate apare empiric ca probabilistică (stochastică): aceeași valoare a unei variabile corespunde distribuției diferitelor valori ale altei variabile (și invers).

Cel mai simplu exemplu este raportul dintre înălțimea și greutatea oamenilor. Rezultatele empirice ale studiului acestor două semne vor arăta, desigur, relația lor pozitivă. Dar este ușor de ghicit că va diferi de un ideal strict, liniar, pozitiv functie matematica, chiar si cu toate trucurile cercetatorului de a tine cont de armonia sau plenitudinea subiectelor. Este puțin probabil ca pe această bază să i se pară nimănui să nege existența unei relații funcționale stricte între lungimea și greutatea corpului.

Asa de, interconectarea funcţională a fenomenelor poate fi relevată empiric doar ca o legătură probabilistică a trăsăturilor corespunzătoare.

O reprezentare vizuală a naturii relației probabilistice este dată de o diagramă de împrăștiere - un grafic ale cărui axe corespund valorilor a două variabile, iar fiecare subiect este un punct. La fel de caracteristica numerica conexiunea probabilistică, se folosesc coeficienți de corelație.

Puteți introduce trei gradări ale valorilor de corelație în funcție de puterea conexiunii:

r< 0,3 - слабая связь (менее 10% от общей доли дисперсии);

0,3 < r < 0,7 - умеренная связь (от 10 до 50% от общей доли дисперсии);

r > 0,7 - relație puternică (50% sau mai mult din varianța totală).

Corelație parțială

Se întâmplă adesea ca două variabile să se coreleze între ele doar datorită faptului că ambele se schimbă sub influența unei a treia variabile. Adică, de fapt, nu există nicio legătură între proprietățile corespunzătoare acestor două variabile, dar se manifestă în relație statistică, sau corelații, sub influență cauza comuna a treia variabilă).

Astfel, dacă corelația dintre două variabile scade, cu o a treia variabilă aleatoare fixă, atunci aceasta înseamnă că interdependența lor apare în parte prin influența acestei a treia variabile. Dacă corelația parțială este zero sau foarte mică, atunci putem concluziona că interdependența lor se datorează în întregime propriei influențe și nu are nicio legătură cu a treia variabilă.

De asemenea, dacă corelația parțială este mai mare decât corelația inițială dintre două variabile, atunci se poate concluziona că alte variabile au slăbit relația, sau au „ascuns” corelația.

În plus, trebuie amintit că corelația nu este cauzalitate . Bazat pe acest lucru, nu avem dreptul să vorbim categoric despre prezenţă cauzalitate: o variabilă complet diferită de cele luate în considerare în analiză poate fi sursa acestei corelaţii. Atât în ​​corelațiile obișnuite, cât și în cele parțiale, ipoteza cauzalității trebuie să aibă întotdeauna propriile sale temeiuri non-statistice.

Coeficientul de corelație Pearson

r- Pearson folosit pentru a studia relația dintre două variabile metrice , măsurată pe aceeași probă . Există multe situații în care este oportun să-l folosești. Afectează inteligența performanța la licență? Salariul unui angajat este legat de bunăvoința lui față de colegi? Afectează starea de spirit a unui elev succesul rezolvării unei probleme complexe de aritmetică? Pentru a răspunde la astfel de întrebări, cercetătorul trebuie să măsoare doi indicatori de interes pentru fiecare membru al eșantionului.

Valoarea coeficientului de corelație nu este afectată de unitățile în care sunt prezentate caracteristicile. Prin urmare, orice transformări liniare caracteristicile (înmulțirea cu o constantă, adăugarea unei constante) nu modifică valoarea coeficientului de corelație. O excepție este înmulțirea unuia dintre semne cu o constantă negativă: coeficientul de corelație își schimbă semnul în sens invers.

corelația Pearson este o măsură a relației liniare dintre două variabile . Vă permite să determinați , cât de proporţională este variabilitatea celor două variabile . Dacă variabilele sunt proporționale între ele, atunci grafic relația dintre ele poate fi reprezentată ca o dreaptă cu o pantă pozitivă (proporție directă) sau negativă (proporție inversă).

În practică, relația dintre două variabile, dacă există, este probabilistică și arată grafic ca un nor de împrăștiere elipsoidal. Acest elipsoid, totuși, poate fi reprezentat (aproximat) ca o linie dreaptă sau o linie de regresie. linie de regresie este o linie dreaptă cu cele mai mici pătrate: suma distanțelor pătrate (calculate de-a lungul axei y) de la fiecare punct al diagramei de dispersie la linie dreaptă este minimă.

De o importanță deosebită pentru evaluarea acurateței predicției este varianța estimărilor variabilei dependente. În esență, varianța estimărilor variabilei dependente Y este acea parte a varianței sale totale care se datorează influenței variabilei independente X. Cu alte cuvinte, raportul dintre varianța estimărilor variabilei dependente și varianța sa adevărată este egal cu pătratul coeficientului de corelație.

Pătratul coeficientului de corelație al variabilelor dependente și independente reprezintă proporția varianței variabilei dependente datorită influenței variabilei independente și se numește coeficient de determinare . Coeficientul de determinare, prin urmare, arată în ce măsură variabilitatea unei variabile este datorată (determinată) de influența altei variabile.

Coeficientul de determinare are un avantaj important față de coeficientul de corelație. Corelația nu este funcție liniară relația dintre două variabile. Prin urmare, media aritmetică a coeficienților de corelație pentru mai multe eșantioane nu coincide cu corelația calculată imediat pentru toți subiecții din aceste eșantioane (adică, coeficientul de corelație nu este aditiv). Dimpotrivă, coeficientul de determinare reflectă relația liniar și, prin urmare, este aditiv: poate fi mediat pe mai multe probe.

Informațiile suplimentare despre rezistența conexiunii sunt date de valoarea coeficientului de corelație pătrat - coeficientul de determinare: aceasta este partea varianței unei variabile care poate fi explicată prin influența unei alte variabile. Spre deosebire de coeficientul de corelare, coeficientul de determinare crește liniar odată cu creșterea rezistenței conexiunii.

Coeficienții de corelație Spearman și τ-Kendall (corelații de rang). Dacă ambele variabile între care se studiază relația sunt prezentate pe o scară ordinală, sau una dintre ele este pe o scară ordinală și cealaltă este pe o scară metrică, atunci se aplică coeficienți de corelație de rang: Spearman sau τ - Kendella . Și acela , iar celălalt coeficient necesită ierarhizarea prealabilă a ambelor variabile pentru aplicarea sa .

Coeficientul de corelare a rangului lui Spearman - aceasta este o metodă neparametrică , care este folosit în scopul studiului statistic al relaţiei dintre fenomene . În acest caz, se determină gradul real de paralelism între cele două serii cantitative ale trăsăturilor studiate și se estimează strângerea relației stabilite folosind un coeficient exprimat cantitativ.

Dacă membrii unui grup au fost clasați mai întâi după variabila x și apoi după variabila y, atunci corelația dintre variabilele x și y poate fi obținută prin simpla calculare a coeficientului Pearson pentru cele două serii de rang. Presupunând că nu există legături în rânduri (adică nu există ranguri repetate) pentru oricare dintre variabile, formula pentru Pearson poate fi simplificată foarte mult din punct de vedere computațional și transformată în formula cunoscută ca Spearman .

Puterea coeficientului de corelare a rangului Spearman este oarecum inferioară puterii coeficientului de corelație parametrică.

Este recomandabil să se folosească coeficientul de corelație de rang în prezența unui număr mic de observații . Aceasta metoda poate fi folosit pentru mai mult decât doar date cuantificate , dar şi în cazuri , când valorile înregistrate sunt determinate de caracteristici descriptive de intensitate variabilă .

Coeficientul de corelare a rangului lui Spearman cu un număr mare de ranguri identice pentru una sau ambele variabile comparate dă valori grosiere. În mod ideal, ambele serii corelate ar trebui să fie două secvențe de valori nepotrivite

O alternativă la corelația Spearman pentru ranguri este corelația τ-kendall . Corelația propusă de M. Kendall se bazează pe ideea că direcția conexiunii poate fi judecată prin compararea subiecților în perechi: dacă o pereche de subiecți are o schimbare în x care coincide în direcție cu o schimbare în y, atunci aceasta indică o relație pozitivă, dacă nu se potrivește - ceva despre o relație negativă.

Coeficienții de corelație au fost special proiectați pentru a determina numeric puterea și direcția unei relații între două proprietăți măsurate pe scale numerice.(metrică sau rang).

După cum sa menționat deja, Valorile de corelație +1 (relație strictă directă sau direct proporțională) și -1 (relație strictă inversă sau invers proporțională) corespund puterii maxime a relației, corelația egală cu zero corespunde absenței relației.

Informații suplimentare despre puterea conexiunii sunt furnizate de valoarea coeficientului de determinare: este partea de varianță a unei variabile care poate fi explicată prin influența altei variabile.

Tema 12 Analiza corelației

Dependență și corelație funcțională. Chiar și Hipocrate în secolul VI. î.Hr e. a atras atenția asupra existenței unei legături între fizicul și temperamentul oamenilor, între structura corpului și predispoziția la anumite boli. Anumite tipuri de astfel de conexiuni au fost identificate și la animal și floră. Deci, există o relație între fizic și productivitate la animalele de fermă; se cunoaşte relaţia dintre calitatea seminţelor şi randamentul culturilor etc. În ceea ce privește astfel de dependențe în ecologie, există dependențe între conținutul de metale grele din sol și stratul de zăpadă de concentrația lor în aerul atmosferic etc. Prin urmare, este firesc să ne străduim să folosim această regularitate în interesul omului, pentru a-i conferi o expresie cantitativă mai mult sau mai puțin precisă.

După cum știți, pentru a descrie relațiile dintre variabile, folosim concept matematic funcții f, care atribuie fiecărei valori specifice a variabilei independente X o anumită valoare a variabilei dependente y, adică . Acest tip de relație lipsită de ambiguitate între variabile Xși y numit funcţional. Cu toate acestea, astfel de relații nu se găsesc întotdeauna în obiectele naturale. Prin urmare, relația dintre caracteristicile biologice și, de asemenea, ecologice nu este de natură funcțională, ci statistică, atunci când în masa indivizilor omogene o anumită valoare a unui atribut considerat drept argument corespunde nu aceleiași valori numerice, ci unei întregi game de valori numerice distribuite într-o serie variațională valori ale unei alte caracteristici considerate ca variabilă sau funcție dependentă. Acest tip de relație între variabile se numește corelație sau corelație..

Relațiile funcționale sunt ușor de detectat și măsurat pe obiecte individuale și de grup, dar acest lucru nu se poate face cu corelații, care pot fi studiate doar pe obiecte de grup folosind metode. statistici matematice. Relația de corelație dintre caracteristici poate fi liniară și neliniară, pozitivă și negativă. Sarcina analizei corelației se reduce la stabilirea direcției și formei unei relații între diferitele caracteristici, la măsurarea etanșeității acesteia și, în final, la verificarea fiabilității indicatorilor de corelație eșantionului.

Dependenta intre variabile Xși Y poate fi exprimat analitic (folosind formule și ecuații) și grafic (ca loc al punctelor dintr-un sistem de coordonate dreptunghiular). Graficul de corelație este construit în funcție de ecuația funcției sau , care se numește regresie. Iată şi sunt mijloacele aritmetice găsite cu condiţia ca X sau Y va lua unele valori X sau y. Aceste medii se numesc condiţional.

11.1. Indicatori parametrici de comunicare

Coeficient de corelație. Conjugarea între variabile Xși y poate fi stabilit prin compararea valorilor numerice ale unuia dintre ele cu valorile corespunzătoare ale celuilalt. Dacă o creștere a unei variabile crește pe alta, acest lucru indică conexiune pozitivăîntre aceste valori și invers, atunci când o creștere a unei variabile este însoțită de o scădere a valorii alteia, aceasta indică conexiune negativă.

Pentru a caracteriza relația, direcția acesteia și gradul de conjugare a variabilelor se folosesc următorii indicatori:

    dependență liniară - coeficient de corelație;

    neliniar - raportul de corelare.

Următoarea formulă este utilizată pentru a determina coeficientul de corelație empirică:

. (1)

Aici s Xși s y sunt abateri standard.

Coeficientul de corelație poate fi calculat fără a se recurge la calculul abaterilor standard, ceea ce simplifică munca de calcul, folosind următoarea formulă similară:

. (2)

Coeficientul de corelație este un număr adimensional care variază de la –1 la +1. Cu variație independentă a semnelor, când legătura dintre ele este complet absentă, . Cu cât contingența dintre caracteristici este mai puternică, cu atât valoarea coeficientului de corelație este mai mare. În consecință, la acest indicator se caracterizează nu numai prezența, ci și gradul de conjugare între semne. Cu o relație pozitivă sau directă, când valorile mari ale unui atribut corespund valorilor mari ale celuilalt, coeficientul de corelație are semn pozitiv și variază de la 0 la +1, cu o relație negativă sau de feedback, când valorile mari al unui atribut corespund unor valori mai mici ale celuilalt, coeficientul de corelație este însoțit de un semn negativ și variază de la 0 la –1.

Coeficientul de corelație și-a găsit aplicație largă în practică, dar nu este un indicator universal al corelațiilor, deoarece este capabil să caracterizeze doar relații liniare, adică. exprimată printr-o ecuație de regresie liniară (vezi subiectul 12). Dacă este disponibil, nu dependență liniarăîntre diferite semne se folosesc alți indicatori ai conexiunii, discutați mai jos.

Calculul coeficientului de corelare. Acest calcul se face în moduri diferite și în moduri diferite în funcție de numărul de observații (mărimea eșantionului). Să luăm în considerare separat specificul calculării coeficientului de corelație în prezența eșantioanelor mici și a eșantioanelor mari.

Mostre mici. În prezența eșantioanelor mici, coeficientul de corelație este calculat direct din valorile caracteristicilor conjugate, fără gruparea preliminară a datelor eșantionului în serii de variații. Pentru aceasta se folosesc formulele de mai sus (1) și (2). Mai convenabil, mai ales în prezența numerelor cu mai multe cifre și fracționale, care exprimă abaterile variantei X iși y i din medii și , servesc următoarele formule de lucru:

Unde ;

;

Aici X iși y i– variante pereche de trăsături conjugate Xși y; și sunt mijloace aritmetice; - diferența dintre variantele pereche de trăsături conjugate Xși y; nnumărul total observații pereche sau dimensiunea eșantionului.

Coeficientul de corelație empirică, ca orice alt indicator al eșantionului, servește ca o estimare a acestuia parametru general ρ și cum valoarea aleatoare este însoțită de o eroare:

Raportul dintre coeficientul de corelație al eșantionului și eroarea acestuia servește drept criteriu pentru testarea ipotezei nule - ipoteza că în populatia acest parametru este egal cu zero, adică . Ipoteza nulă este respinsă la nivelul de semnificație acceptat. α , dacă

Valori puncte critice t Sf pentru diferite niveluri de semnificație α și numere de grade de libertate sunt date în Tabelul 1 din Anexă.

S-a constatat că atunci când se prelucrează mostre mici (mai ales când n< 30 ) calculul coeficientului de corelație prin formulele (1) - (3) oferă estimări oarecum subestimate ale parametrului general ρ , adică trebuie făcută următoarea modificare:

Transformarea Z Fisher. Aplicarea corectă coeficientul de corelație presupune o distribuție normală a unui set bidimensional de valori conjugate ale variabilelor aleatoare Xși y. Din statisticile matematice se știe că dacă există o corelație semnificativă între variabile, i.e. când R X y > 0,5 distribuția eșantionului a coeficientului de corelație pt Mai mult eșantioanele mici prelevate dintr-o populație distribuită normal se abate semnificativ de la curba normală.

Având în vedere această împrejurare, R. Fisher a găsit o modalitate mai precisă de a estima parametrul general prin valoarea coeficientului de corelație al eșantionului. Această metodă este de a înlocui R X y valoarea transformată a lui z, care este legată de coeficientul de corelație empirică, după cum urmează:

Distribuția valorii z este aproape neschimbată ca formă, deoarece nu depinde foarte mult de mărimea eșantionului și de valoarea coeficientului de corelație în populația generală și se apropie de o distribuție normală.

Criteriul pentru fiabilitatea indicatorului z este următorul raport:

Ipoteza nulă este respinsă la nivelul de semnificație acceptat α și numărul de grade de libertate. Valorile punctelor critice t Sf sunt prezentate în Tabelul 1 din Cereri.

Aplicație z-transformă permite mai multă încredere în aprecierea semnificației statistice a coeficientului de corelație al eșantionului, precum și a diferenței dintre coeficienții empirici atunci când este necesar.

Dimensiunea minimă a eșantionului pentru o estimare precisă a coeficientului de corelație. Este posibil să se calculeze dimensiunea eșantionului pentru o anumită valoare a coeficientului de corelație, ceea ce ar fi suficient pentru a infirma ipoteza nulă (dacă corelația dintre caracteristici Yși X există cu adevărat). Pentru aceasta, se folosește următoarea formulă:

Unde n este dimensiunea dorită a eșantionului; t este valoarea specificată în funcție de nivelul de semnificație acceptat (mai bine pentru α = 1%); z este coeficientul de corelație empiric convertit.

Mostre mari. În prezența a numeroase date inițiale, acestea trebuie grupate în serii variaționale și, având construit o rețea de corelație, diferența dintre celulele (celulele) acesteia este frecvența totală a seriei conjugate. Rețeaua de corelație este formată din intersecția rândurilor și coloanelor, al căror număr este egal cu numărul de grupuri sau clase de serii corelate. Clasele sunt situate în rândul de sus și în prima coloană (stânga) a tabelului de corelare, iar frecvențele comune, notate cu simbolul f X y, – în celulele grilei de corelare, care este partea principală a tabelului de corelare.

Clasele plasate în rândul de sus al tabelului sunt de obicei aranjate de la stânga la dreapta în ordine crescătoare, iar în prima coloană a tabelului - de sus în jos în ordine descrescătoare. Cu o astfel de aranjare a claselor de serii variaționale, frecvențele lor comune (în prezența unei relații pozitive între semne Yși X) vor fi distribuite peste celulele grilei sub forma unei elipse în diagonală de la colțul din stânga jos până la colțul din dreapta sus al grilei sau (dacă există o relație negativă între caracteristici) în direcția de la colțul din stânga sus către colțul din dreapta jos al grilei. Dacă frecvenţele f X y sunt distribuite peste celulele grilei de corelare mai mult sau mai puțin uniform, fără a forma o elipsă, aceasta va indica absența unei corelații între semne.

Alocarea frecvenței f X y prin celulele rețelei de corelație dă numai ideea generala despre prezența sau absența unei relații între trăsături. Judecă etanșeitatea sau mai puțin exact numai după semnificație și semn coeficient de corelație. Când se calculează coeficientul de corelație dintr-o grupare preliminară a datelor eșantionului în serii de variații de interval, nu ar trebui să se ia intervale de clasă prea largi. Gruparea brută are un efect mult mai puternic asupra valorii coeficientului de corelație decât este cazul la calcularea mediilor și a indicatorilor de variație.

Amintiți-vă că valoarea intervalului de clasă este determinată de formulă

Unde X max , X min- variantele maxime si minime ale populatiei; La este numărul de clase în care trebuie împărțită variația caracteristicii. Experiența a arătat că în domeniul analizei corelației, valoarea La poate fi pus în dependență de dimensiunea eșantionului aproximativ după cum urmează (Tabelul 1).

tabelul 1

Marime de mostra

Valoarea K

50 ≥ n > 30

100 ≥ n > 50

200 ≥ n > 100

300 ≥ n > 200

Ca și alte caracteristici statistice calculate cu o grupare preliminară a datelor inițiale în serii de variație, coeficientul de corelație este determinat în diferite moduri, dând rezultate complet identice.

Mod de lucru. Coeficientul de corelație poate fi calculat folosind formulele de bază (1) sau (2), corectându-le pentru repetabilitatea variantei în populația de dimeri. În același timp, simplificând simbolismul, abaterile variantelor de la mediile lor vor fi notate cu A, adică și . Apoi formula (2), ținând cont de frecvența abaterilor, va lua următoarea expresie:

Fiabilitatea acestui indicator este evaluată cu ajutorul testului Student, care reprezintă raportul dintre coeficientul de corelație al eșantionului și eroarea acestuia, determinat de formula

Prin urmare, și dacă această valoare depășește valoare standard Testul Student t st pentru gradul de libertate și nivelul de semnificație α (vezi Tabelul 2 din Anexă), apoi ipoteza nulă respinge.

Metoda mediilor condiționate. La calcularea coeficientului de corelație a abaterii, varianta („clasele”) poate fi găsită nu numai din mediile aritmetice și , ci și din mediile condiționate A x și A y . Cu această metodă, numărătorul formulei (2) este modificat și formula ia următoarea formă:

Unde f X y sunt frecvențele claselor uneia și celeilalte serii de distribuție; și , adică abateri ale claselor de la mediile condiționale, legate de mărimea intervalelor de clasă λ ; n este numărul total de observații pereche sau dimensiunea eșantionului; și sunt momente condiționate de ordinul întâi, unde f X– frecvențe de serie X, A f y– frecvențe de serie Y; s Xși s y sunt abaterile standard ale seriei Xși Y, calculat prin formula .

Metoda mediilor condiționate are un avantaj față de metoda produselor, deoarece vă permite să evitați operațiunile cu numere fracționale și să dați același semn (pozitiv) abaterilor A Xși A y, care simplifică tehnica muncii de calcul, mai ales în prezența numerelor cu mai multe cifre.

Estimarea diferenței dintre coeficienții de corelație. La compararea coeficienților de corelație a două eșantioane independente, ipoteza nulă se reduce la ipoteza că în populația generală diferența dintre acești indicatori este zero. Cu alte cuvinte, ar trebui să pornim de la presupunerea că diferența observată între coeficienții de corelație empiric comparați a apărut întâmplător.

Pentru a testa ipoteza nulă, se folosește testul t al lui Student, i.e. raportul de diferență între coeficienții de corelație empiric R 1 și R 2 la eroarea sa statistică, determinată de formula:

Unde s R1și s R2 sunt erorile coeficienților de corelație comparați.

Ipoteza nulă este infirmată cu condiția ca pentru nivelul de semnificație acceptat α și numărul de grade de libertate.

Se știe că o evaluare mai precisă a fiabilității coeficientului de corelație se obține prin translație R X yîn număr z. Evaluarea diferenței dintre coeficienții de corelație al eșantionului nu face excepție. R 1 și R 2 , mai ales în acele cazuri când acestea din urmă sunt calculate pe eșantioane de dimensiuni relativ mici ( n< 100 ) și în valoarea lor absolută depășesc semnificativ 0,50.

Diferența este estimată folosind testul t al lui Student, care este construit în raport cu această diferență la eroarea sa, calculată prin formula

Ipoteza nulă este respinsă dacă pentru și nivelul de semnificație acceptat α.

relație de corelație. Pentru a măsura relațiile neliniare dintre variabile Xși y utilizați un indicator numit relație de corelație, care descrie relația bidirecțională. Construirea unei relații de corelație presupune o comparație a două tipuri de variație: variabilitatea observațiilor individuale în raport cu mediile parțiale și variația mijloacelor parțiale în sine față de media generală. Cu cât partea primei componente este mai mică în raport cu a doua, cu atât apropierea conexiunii va fi mai mare. În limită, când nu se va observa nicio variație a valorilor individuale ale atributului în apropierea mediilor parțiale, etanșeitatea conexiunii va fi extrem de mare. În mod similar, în absența variabilității mijloacelor parțiale, strângerea relației va fi minimă. Deoarece acest raport de variație poate fi luat în considerare pentru fiecare dintre cele două caracteristici, se obțin doi indicatori ai strângerii relației - h yxși h X y. Raportul de corelare este o valoare relativă și poate lua valori de la 0 la 1. În acest caz, coeficienții raportului de corelare nu sunt de obicei egali între ei, adică. . Egalitatea dintre acești indicatori este fezabilă doar cu o relație strict liniară între caracteristici. Raportul de corelare este un indicator universal: vă permite să caracterizați orice formă de corelație - atât liniară, cât și neliniară.

Coeficienți de corelare h yxși h X y determinate prin metodele discutate mai sus, i.e. metoda produselor și metoda mediilor condiționate.

Mod de lucru. Coeficienți de corelare h yxși h X y determinată de următoarele formule:

unde și sunt variațiile de grup,

și și sunt variațiile comune.

Aici, și sunt mijloacele aritmetice comune și și sunt mijloacele aritmetice de grup; f yi– frecvențe de serie Y, A f xi– frecvențe de serie X; k– numărul de clase; n este numărul de caracteristici variabile.

Formulele de lucru pentru calcularea coeficienților raportului de corelație sunt următoarele:

Metoda mediilor condiționate. Determinarea coeficienților relației de corelație după formulele (15), abaterile variantei de clasă X i iar y i poate fi luat nu numai din mediile aritmetice și , ci și din mediile condiționate А x și A y . În astfel de cazuri, abaterile de grup și totale sunt calculate folosind formulele și , și, de asemenea, și , unde și .

În formă extinsă, formulele (15) arată după cum urmează:

;

. (17)

În aceste formule, și sunt abateri ale claselor de la mediile condiționale, reduse cu valoarea intervalelor de clasă; valorile A yși A X sunt exprimate în numere naturale: 0, 1, 2, 3, 4, .... Restul simbolurilor sunt explicate mai sus.

Comparând metoda produselor cu metoda mediilor condiționate, nu se poate să nu observăm avantajul primei metode, mai ales în acele cazuri în care trebuie să se ocupe de numere cu mai multe cifre. Ca și alți indicatori de eșantion, raportul de corelație este o estimare a parametrului său general și, ca valoare aleatorie, este însoțit de o eroare determinată de formula

Fiabilitatea estimării relației de corelație poate fi verificată prin testul t Student. Ipoteza H 0 pleacă de la ipoteza că parametrul general este egal cu zero, adică. trebuie îndeplinită următoarea condiție:

pentru numărul de grade de libertate și nivelul de semnificație α.

Coeficient de determinare. Pentru a interpreta valorile luate de indicatorii de apropiere a corelației, utilizați coeficienții de determinare, care arată ce proporție a variației unei caracteristici depinde de variația altei caracteristici. În prezența unei relații liniare, coeficientul de determinare este pătratul coeficientului de corelație R2 xy , iar în cazul unei relații neliniare între caracteristici yși X este pătratul raportului de corelație h2 yx . Coeficienții de determinare dau motive pentru a construi următoarea scară aproximativă, care face posibilă aprecierea gradului de apropiere a relației dintre semne: când relația este considerată medie; indică o conexiune slabă și numai atunci când este posibil să se judece o conexiune puternică, când aproximativ 50% din variația trăsăturii Y depinde de variația trăsăturii X.

Evaluarea formularelor de comunicare. Cu o relație strict liniară între variabile yși X egalitatea este realizată. În astfel de cazuri, coeficienții raportului de corelație coincid cu valoarea coeficientului de corelație. În acest caz, coeficienții de determinare vor coincide și în valoarea lor, adică. . Prin urmare, prin diferența dintre aceste valori, se poate aprecia forma dependenței de corelație dintre variabile yși X:

Evident, cu o relație liniară între variabile yși X exponentul γ va fi egal cu zero; dacă relaţia dintre variabile yși X neliniar, γ > 0.

Indicatorul γ este o estimare a parametrului general și, ca valoare aleatorie, trebuie verificat. În acest caz, pornim de la ipoteza că relația dintre cantități yși X liniară (ipoteza nulă). Criteriul F al lui Fisher vă permite să testați această ipoteză:

Unde A- numărul de grupuri, sau clase ale seriei de variații; N este dimensiunea eșantionului. Ipoteza nulă este respinsă dacă pentru (aflați orizontal în Tabelul 2 din Anexă), (aflați în prima coloană a aceluiași tabel) și nivelul de semnificație acceptat α.

Determinarea semnificației unei corelații

Clasificări ale coeficienților de corelație

Coeficienții de corelație sunt caracterizați prin putere și semnificație.

Clasificarea coeficienților de corelație după rezistență.

Clasificarea coeficienților de corelație după semnificație.

Aceste 2 clasificări nu trebuie confundate, deoarece definesc caracteristici diferite. O corelație puternică se poate dovedi a fi aleatorie și, prin urmare, nesigură. Acest lucru este valabil mai ales pentru eșantioane de dimensiuni mici. Și într-un eșantion mare, chiar și o corelație slabă poate fi foarte semnificativă.

După calcularea coeficientului de corelație, este necesar să se prezinte ipoteze statistice:

H 0: Indicele de corelație nu este semnificativ diferit de zero (este aleatoriu).

H 1: indicatorul de corelare este semnificativ diferit de zero (este non-aleatoriu).

Testarea ipotezelor se realizează prin compararea coeficienților empilici obținuți cu valorile critice tabulate. Dacă valoarea empirică atinge valoarea critică sau o depăşeşte, atunci se respinge ipoteza nulă: r emp ≥ r cr Ho, Þ H 1 . În astfel de cazuri, se concluzionează că a fost găsită o diferență semnificativă.

Dacă valoarea empirică nu depășește valoarea critică, atunci ipoteza nulă nu este respinsă: r emp< r кр Þ Н 0 . В таких случаях делают вывод, что достоверность различий не установлена.

/ Statistică / Corelație

Calculul matricei coeficienților de pereche

corelații

Pentru a calcula matricea coeficienților de corelație perechi, apelați meniul Matrice de corelație modul Bazelestatistici de date.

Orez. 1 Panoul principal al modulului de statistici

Vom lua în considerare principalele etape ale analizei corelației în sistemul STATISTICA folosind datele exemplu (vezi Fig. 2). Datele inițiale sunt rezultatele observațiilor privind activitățile a 23 de întreprinderi dintr-una dintre industrii.

Fig.2 Date inițiale

Coloanele tabelului conțin următorii indicatori:

RENTABEL - profitabilitate,%;

SHARE SLAVES - gravitație specifică lucrători în PPP, unități;

FUNDOOTD - randamentul activelor, unitatilor;

FOND DE CAPITAL - valoarea medie anuală a activelor fixe de producție, milioane de ruble;

NEPRRASH - cheltuieli de non-producție, mii de ruble. Este necesar să se investigheze dependența profitabilității față de ceilalți

alti indicatori.

Să presupunem că semnele considerate în populația generală sunt supuse legea normală distribuțiile, iar datele observaționale sunt un eșantion din populație.

Să calculăm coeficienții de corelație perechi între toate variabilele. După selectarea unui rând Matrice de corelație pe ecran va apărea o casetă de dialog. Corelații Pearson. Numele se datorează faptului că pentru prima dată acest coeficient a fost Pearson, Edgeworth și Weldon.

Să alegem variabile pentru analiză. Există două butoane în caseta de dialog pentru aceasta: Pătrat matrice(o singură listă) și Dreptunghiular matrice(două liste).


Orez. 3 Caseta de dialog Analiza corelației

Primul buton este conceput pentru a calcula matricea obișnuită. formă simetrică cu coeficienți de corelație perechi ai tuturor combinațiilor de variabile. Dacă toți indicatorii sunt utilizați în analiză, atunci în caseta de dialog de selecție a variabilelor, puteți face clic pe butonul Alegeți pe toate. (Dacă variabilele nu sunt consecutive, pot fi selectate printr-un clic de mouse cu tasta apăsată simultan ctrl)


Dacă apăsați butonul Detalii caseta de dialog, nume lungi vor fi afișate pentru fiecare variabilă. Făcând clic din nou pe acest buton (va prelua numele Scurt), primim nume scurte.

Buton informație deschide o fereastră pentru variabila selectată, unde puteți vizualiza caracteristicile acesteia: nume lung, format de afișare, listă sortată de valori, statistici descriptive (număr de valori, medie, abatere standard).

După selectarea variabilelor, apăsați OK sau butonul Korrelaţie căsuță de dialog Corelații Pearson. Matricea de corelație calculată va apărea pe ecran.

Coeficienții de corelație semnificativi sunt evidențiați cu roșu pe ecran.

În exemplul nostru, indicatorul de profitabilitate s-a dovedit a fi cel mai legat de indicatori productivitatea capitalului(conexiune directă) și costurile productiei(feedback care sugerează că V scade pe măsură ce X crește). Dar cât de strâns sunt legate semnele? O relație strânsă este considerată atunci când valorile coeficientului modulo sunt mai mari de 0,7 și slabe - mai mici de 0,3. Astfel, în construcția ulterioară a ecuației de regresie, ar trebui să ne limităm la indicatorii „Rentabilitatea produsului” și „Costurile de non-producție” ca fiind cei mai informativi.

Cu toate acestea, în exemplul nostru, există un fenomen multicolor, când există o relație între variabilele independente în sine (coeficient de corelație pereche modulo mai mare de 0,8).

Opțiunea matrice dreptunghiulară (două liste de variabile) deschide o casetă de dialog pentru selectarea a două liste de variabile. Așezați așa cum se arată


Ca rezultat, obținem o matrice de corelație dreptunghiulară care conține doar coeficienți de corelație cu variabila dependentă.


Dacă opțiunea este setată Corr. Matrice (marcaj semnificativ), apoi după apăsarea butonului Corelație se va construi o matrice cu coeficienţi evidenţiaţi la nivel de semnificaţie R.


Dacă opțiunea este selectată Tabel detaliat cu rezultate, apoi prin apăsarea butonului Corelații, obținem un tabel care conține nu numai coeficienți de corelație, ci și medii, abateri standard, coeficienți ai ecuației de regresie, un termen liber în ecuația de regresie și alte statistici


Când variabilele au o variație relativă mică (deviația standard înseamnă mai puțin de 0,0000000000001), este necesară o estimare mai mare. Poate fi setat bifând caseta de validare Calcule cu precizie ridicată din caseta de dialog Pearson Corelations.

Modul de operare cu date lipsă este determinat de opțiunea Ștergere linie cu linie a PD. Dacă este selectat, STATISTICS va ignora toate observațiile care au lacune. În caz contrar, acestea sunt îndepărtate în perechi.

Caseta de selectare Afișare nume lungi de variabile va avea ca rezultat un tabel cu nume lungi de variabile.

Reprezentarea grafică a dependențelor de corelație

Caseta de dialog Pearson Corelation conține o serie de butoane pentru obținere imagine grafică dependențe de corelație.

Opțiunea 2M scatter plot construiește o secvență de scatter plot pentru fiecare variabilă selectată. Fereastra de selectare a acestora este identică cu Figura 6. În stânga, ar trebui să indicați variabilele dependente, în dreapta, independente - RENTABLE. Făcând clic pe OK, vom obține un grafic care va arăta linia de regresie depășită și limitele de încredere ale prognozei.

Coeficientul de corelație liniară oferă cea mai obiectivă estimare a etanșeității conexiunii, dacă locația punctelor în sistemul de coordonate seamănă cu o linie dreaptă sau cu o elipsă alungită, dar dacă punctele sunt situate sub forma unei curbe, atunci coeficientul de corelație oferă o subestimare.

Pe baza graficului, putem confirma încă o dată relația dintre rentabilitate și rentabilitatea activelor, deoarece datele observaționale sunt aranjate sub forma unei elipse înclinate. Trebuie spus că conexiunea este considerată cu cât mai apropiată, cu atât punctele sunt mai aproape de axa principală a elipsei.

În exemplul nostru, o modificare a ratei de rentabilitate a activelor pe unitate va duce la o modificare a profitabilității cu 5,7376%.

Să ne uităm la impactul costurilor de non-producție asupra valorii profitabilității. Pentru a face acest lucru, vom construi un grafic similar

Datele analizate sunt mai puțin ca o elipsă, iar coeficientul de corelație este oarecum mai mic. Valoarea găsită a coeficientului de regresie arată că, odată cu o creștere a costurilor de neproducție cu 1 mie de ruble, profitabilitatea scade cu 0,7017%.

Trebuie remarcat faptul că construcția regresiei multiple (discutată în capitolele următoare), când ecuația conține ambele caracteristici în același timp, conduce la alte valori ale coeficienților de regresie, ceea ce se explică prin interacțiunea variabilelor explicative cu reciproc.

Când utilizați butonul Numit, punctele de pe diagrama de dispersie își vor dobândi numerele sau numele corespunzătoare, dacă sunt predefinite.

Următoarea opțiune cu indicație de diagramă Matrix prezintă o matrice de diagrame de dispersie pentru variabilele selectate.

Fiecare element grafic al acestei matrice conține câmpuri de corelație formate din variabilele corespunzătoare cu

linia de regresie trasată pe ele.

Atunci când se analizează matricea graficelor de dispersie, trebuie acordată atenție acelor grafice ale căror drepte de regresie au o pantă semnificativă față de axa X, ceea ce sugerează existența unei interdependențe între semnele corespunzătoare.

Opțiunea de împrăștiere 3D construiește un câmp de corelare 3D pentru variabilele selectate. Dacă se folosește butonul Numit, punctele de pe graficul de dispersie vor fi etichetate cu numerele sau numele observațiilor corespunzătoare, dacă acestea le au.

Opțiunea grafică Suprafață trasează un grafic de dispersie de 3M pentru triplul de variabile selectat împreună cu o suprafață de ordinul doi adaptată.

Categoria de optiuni. diagramele de dispersie, la rândul lor, construiesc o cascadă de câmpuri de corelare pentru indicatorii selectați.

După apăsarea butonului corespunzător, programul va cere utilizatorului să creeze două seturi dintre ele dintre cele selectate anterior folosind butonul Variabile. Apoi va apărea unul nou pe ecran.

o fereastră de interogare pentru specificarea unei variabile de grupare pe baza căreia vor fi clasificate toate cazurile disponibile.

Rezultatul este construirea câmpurilor de corelație în contextul grupurilor de observații pentru fiecare pereche de variabile alocate unor liste diferite.

3.4. Calculul coeficienților parțiali și multiplielemente de corelare

Pentru a calcula coeficienții privati ​​și multipli cor. relația apelează modulul Regresie multiplă folosind butonul de selectare a modulului. Pe ecran va apărea următoarea casetă de dialog:

Apăsând un buton Variabile, selectați variabile pentru analiză: în partea stângă dependentă - rentabilitatea, iar în dreapta sunt independente - productivitatea capitaluluiși cheltuieli nefabricate. Variabilele rămase nu vor participa la analiza ulterioară - pe baza analizei de corelație, ele sunt recunoscute ca neinformative pentru modelul de regresie.

În câmp Fișier de intrare ca date de intrare se oferă datele inițiale obișnuite, care este un tabel cu variabile și observații sau o matrice de corelație. Matricea de corelație poate fi pre-creată în modulul de regresie multiplă în sine sau calculată folosind opțiunea Statistică de bază rapidă.

Când lucrați cu fișierul de date sursă, puteți seta modul de lucru cu goluri:

    Ștergere rând cu linie. Când este selectată această opțiune, în analiză sunt utilizate numai cazurile care nu au valori lipsă în toate variabilele selectate.

    Înlocuirea mediei. Valorile lipsă din fiecare variabilă sunt înlocuite cu media calculată din observațiile complete disponibile.

    Eliminarea în perechi a datelor lipsă. Dacă este selectată această opțiune, atunci când se calculează corelațiile pe perechi, observațiile care au valori lipsă în perechile corespunzătoare de variabile sunt eliminate.

În câmp Tipul regresiei utilizatorul poate alege regresia neliniară standard sau fixă. În mod implicit, este selectată analiza standard de regresie multiplă, care calculează matricea de corelație standard a tuturor variabilelor selectate.

Modul Regresia neliniară fixă vă permite să efectuați diverse transformări ale variabilelor independente. Opțiune Efectuați o analiză implicit, folosește setările corespunzătoare definiției unei linii de regresie standard care include o interceptare. Dacă această opțiune este deselectată, făcând clic pe butonul OK al rampei de lansare se va deschide caseta de dialog Definiție model, în care puteți selecta atât tipul de analiză de regresie (de exemplu, treptat, creastă etc.), cât și alte opțiuni.

Bifând caseta de selectare a liniei de opțiuni Afișați un descriptiv, corr. matriciși făcând clic pe OK, obținem o casetă de dialog cu caracteristicile statistice ale datelor.

În acesta, puteți vizualiza statistici descriptive detaliate (inclusiv numărul de observații pe baza cărora a fost calculat coeficientul de corelație pentru fiecare pereche de variabile). Faceți clic pe OK pentru a continua analiza și a deschide caseta de dialog Model Definers.

Dacă indicatorii analizați au o varianță relativă extrem de mică, calculată ca varianță totală împărțită la medie, atunci ar trebui să bifați caseta de lângă opțiune Calcule de înaltă precizie pentru a obține valori mai precise ale elementelor matricei de corelație.

Prin setarea tuturor parametrilor necesari în caseta de dialog Regresie multiplă, apăsați OK și obțineți rezultatele calculelor necesare.

Conform exemplului nostru, coeficientul de corelație multiplă sa dovedit a fi 0,61357990 și, în consecință, coeficientul de determinare - 0,37648029. Astfel, doar 37,6% din dispersia indicatorului „profitabilitate” se explică prin modificarea indicatorilor „productivității capitalului” și „costurii neproducție”. O astfel de valoare scăzută indică un număr insuficient de factori introduși în model. Să încercăm să schimbăm numărul de variabile independente prin adăugarea variabilei „Active fixe” în listă (introducerea indicatorului „ponderea lucrătorilor în PPP” în model duce la multicolenialitate, ceea ce este inacceptabil). Coeficientul de determinare a crescut ușor, dar nu suficient pentru a îmbunătăți semnificativ rezultatele - valoarea sa a fost de aproximativ 41%. Evident, dacha noastră necesită cercetări suplimentare pentru a identifica factorii care afectează profitabilitatea.

Semnificația coeficientului de corelație multiplă este calculată conform tabelului Fisher cu criterii F. Ipoteza semnificației sale este respinsă dacă valoarea probabilității abaterii depășește un anumit nivel (cel mai adesea se ia a = 0,1, 0,05; 0,01 0,001). În exemplul nostru p=0,008882< 0.05, что свидетельствует о значимости коэффициента.

Tabelul de rezultate conține următoarele coloane:

    Coeficientul beta (in)- coeficient de regresie standardizat pentru variabila corespunzătoare;

    Corelație parțială- coeficienți de corelație parțială între variabila corespunzătoare și cea dependentă, fixându-se totodată influența restului inclus în model.

Coeficientul de corelație parțială dintre profitabilitate și productivitatea capitalului din exemplul nostru este 0,459899. Aceasta înseamnă că, după introducerea în model a indicatorului de rasă neproductivă-ev, impactul productivității capitalului asupra profitabilității este oarecum redus - de la 0,49 (valoarea coeficientului de corelație al perechii) la 0,46. Un coeficient similar pentru indicatorul cheltuielilor neproduse a scăzut și el - de la 0,46 (valoarea coeficientului de corelație pereche) la 0,42 (valoarea este luată de modulo), caracterizează modificarea relației cu variabila dependentă după introducerea în indicatorul productivității capitalului în model.

    O corelație semi-parțială este corelația dintre variabila dependentă neajustată și variabila nedependentă corespunzătoare, ținând cont de influența celorlalte incluse în model.

    Toleranță (definită ca 1 minus pătratul corelației multiple dintre variabila relevantă și toate variabilele independente din ecuația de regresie).

    Coeficientul de determinare este pătratul coeficientului de corelație multiplă dintre variabila independentă corespunzătoare și toate celelalte variabile incluse în ecuația de regresie.

    1-valori - valoarea calculată a testului t al lui Student pentru testarea ipotezei despre semnificația coeficientului de corelație parțială cu numărul specificat (în paranteze) de grade de libertate.

    nivel p! - probabilitatea respingerii ipotezei despre semnificația coeficientului de corelație parțială.

În cazul nostru, valoarea obținută a lui p pentru primul coeficient (0,031277) este mai mică decât cel selectat =0,05. Valoarea celui de-al doilea coeficient o depășește ușor (0,050676), ceea ce indică nesemnificația sa la acest nivel. Dar este semnificativ, de exemplu, când =0,1 (în zece cazuri din o sută, ipoteza va fi totuși greșită).

Unde x y , x , y sunt valorile medii ale probelor; σ(x), σ(y) - abateri standard.
In afara de asta, Coeficientul de corelație al perechii liniare al lui Pearson poate fi determinată prin coeficientul de regresie b: , unde σ(x)=S(x), σ(y)=S(y) sunt abateri standard, b este coeficientul în fața lui x în ecuația de regresie y=a+ bx .

Alte variante de formula:
sau

K xy - moment de corelație (coeficient de covarianță)

Pentru a găsi coeficientul de corelație liniar Pearson, este necesar să găsim mediile eșantionului x și y și abaterile standard ale acestora σ x = S(x), σ y = S(y):

Coeficientul de corelație liniară indică prezența unei conexiuni și ia valori de la -1 la +1 (vezi scara Chaddock). De exemplu, la analiza etanșeității unei corelații liniare între două variabile, s-a obținut un coeficient de corelație liniară de pereche egal cu –1. Aceasta înseamnă că există o relație liniară inversă exactă între variabile.

Puteți calcula valoarea coeficientului de corelație folosind mediile eșantionului date sau direct.

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy "> Calculați-vă valoarea

Sensul geometric al coeficientului de corelație: r xy arată cât de mult diferă panta celor două drepte de regresie: y(x) și x(y), cât de mult diferă rezultatele minimizării abaterilor în x și în y. Cu cât unghiul dintre linii este mai mare, cu atât r xy este mai mare.
Semnul coeficientului de corelație coincide cu semnul coeficientului de regresie și determină panta dreptei de regresie, adică. direcția generală a dependenței (creștere sau scădere). Valoarea absolută a coeficientului de corelație este determinată de gradul de apropiere a punctelor de dreapta de regresie.

Proprietățile coeficientului de corelație

  1. |r xy | ≤ 1;
  2. dacă X și Y sunt independenți, atunci r xy =0, contrariul nu este întotdeauna adevărat;
  3. dacă |r xy |=1, atunci Y=aX+b, |r xy (X,aX+b)|=1, unde a și b sunt constante și ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, unde a 1 , a 2 , b 1 , b 2 sunt constante.

Prin urmare, pentru verificări ale direcției de legătură se selectează un test de ipoteză utilizând coeficientul de corelație Pearson cu un alt test de fiabilitate folosind testul t(vezi exemplul de mai jos).

Sarcini tipice (vezi și regresia neliniară)

Sarcini tipice
Dependenţa productivităţii muncii y de nivelul de mecanizare a muncii x (%) este studiată conform datelor a 14 întreprinderi industriale. Datele statistice sunt date în tabel.
Necesar:
1) Găsiți estimări pentru parametrii regresiei liniare y pe x. Construiți un grafic de dispersie și trasați linia de regresie pe graficul de dispersie.
2) La nivelul de semnificație α=0,05, testați ipoteza acordului dintre regresia liniară și rezultatele observaționale.
3) Cu fiabilitatea γ=0,95 găsiți intervalele de încredere pentru parametrii de regresie liniară.

Următoarele sunt, de asemenea, utilizate cu acest calculator:
Ecuație de regresie multiplă

Exemplu. Pe baza datelor prezentate în Anexa 1 și corespunzătoare opțiunii dvs. (Tabelul 2), aveți nevoie de:

  1. Calculați coeficientul de corelare a perechii liniare și construiți ecuația de regresie a perechii liniare a unei caracteristici de la alta. Unul dintre semnele corespunzătoare opțiunii dvs. va juca rolul factorial (x), celălalt - efectiv (y). Stabiliți relații cauză-efect între semne pe baza analizei economice. Explicați semnificația parametrilor ecuației.
  2. Determinați coeficientul teoretic de determinare și varianța reziduală (neexplicată prin ecuația de regresie). Faceți o concluzie.
  3. Evaluați semnificația statistică a ecuației de regresie în ansamblu la nivelul de 5 procente utilizând testul F Fisher. Faceți o concluzie.
  4. Efectuați o prognoză a valorii așteptate a atributului-rezultat y cu valoarea prezisă a factorului-atribut x, care este 105% din nivelul mediu x. Evaluați acuratețea prognozei calculând eroarea de prognoză și intervalul său de încredere cu o probabilitate de 0,95.
Soluţie. Ecuația este y = ax + b
Medii



Dispersia


deviație standard



Relația dintre trăsătura Y factor X este puternică și directă (determinată de scala Chaddock).
Ecuația de regresie

Coeficient de regresie: k = a = 4,01
Coeficient de determinare
R2 = 0,992 = 0,97, adică. în 97% din cazuri, modificările în x duc la o schimbare în y. Cu alte cuvinte, acuratețea selecției ecuației de regresie este mare. Dispersie reziduala: 3%.
Xyx2y2X yy(x)(y i -y ) 2(y-y(x)) 2(x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Notă: valorile y(x) se găsesc din ecuația de regresie rezultată:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

Semnificația coeficientului de corelație

Propunem ipoteze:
H 0: r xy = 0, nu există o relație liniară între variabile;
H 1: r xy ≠ 0, există o relație liniară între variabile;
Pentru a testa ipoteza nulă la nivelul de semnificație α că coeficientul general de corelație al normalului bidimensional variabilă aleatorie cu o ipoteză concurentă H 1 ≠ 0, este necesar să se calculeze valoarea observată a criteriului (valoarea erorii aleatoare):

Conform tabelului Student, găsim t tab (n-m-1; α / 2) = (10; 0,025) = 2,228
Deoarece Tobs > t tab, respingem ipoteza că coeficientul de corelație este egal cu 0. Cu alte cuvinte, coeficientul de corelație este semnificativ statistic.
Estimarea intervalului pentru coeficientul de corelație (interval de încredere)


r - Δr ≤ r ≤ r + Δr
Δ r = ±t tabel m r = ±2,228 0,0529 = 0,118
0,986 - 0,118 ≤ r ≤ 0,986 + 0,118
Interval de încredere pentru coeficientul de corelație: 0,868 ≤ r ≤ 1

Analiza acurateței determinării estimărilor coeficienților de regresie





Sa = 0,2152

Intervale de încredere pentru variabila dependentă

Să calculăm limitele intervalului în care 95% din valorile posibile ale lui Y vor fi concentrate pentru nelimitat numere mari observații și X = 7
(122.4;132.11)
Testarea ipotezelor despre coeficienți ecuație liniară regresie

1) t-statistică




Se confirmă semnificația statistică a coeficientului de regresie
Interval de încredere pentru coeficienții ecuației de regresie
Să determinăm intervalele de încredere ale coeficienților de regresie, care, cu o fiabilitate de 95%, vor fi după cum urmează:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)