7.3.1. Koeficijenti korelacije i determinacije. Može se kvantificirati bliskost komunikacije između faktora i orijentacija(direktno ili obrnuto) izračunavanjem:

1) ako je potrebno utvrditi linearni odnos između dva faktora, - koeficijent para korelacije: u 7.3.2 i 7.3.3, operacije izračunavanja uparenog linearnog Bravais–Pearson koeficijenta korelacije ( r) i Spearmanov koeficijent korelacije parnog ranga ( r);

2) ako želimo da odredimo odnos između dva faktora, ali je taj odnos očigledno nelinearan, onda korelacioni odnos ;

3) ako želimo da utvrdimo odnos između jednog faktora i nekog skupa drugih faktora - onda (ili, ekvivalentno, "višestruki koeficijent korelacije");

4) ako želimo da identifikujemo izolovano odnos samo jednog faktora sa određenim drugim, koji je deo grupe faktora koji utiču na prvi, za koji moramo da smatramo uticaj svih ostalih faktora nepromenjenim, onda privatni (parcijalni) koeficijent korelacije .

Bilo koji koeficijent korelacije (r, r) ne može biti veći od 1 u apsolutnoj vrijednosti, tj. –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Znak na koeficijentu korelacije određuje smjer veze: znak “+” (ili odsustvo znaka) znači da je veza ravno (pozitivno), znak “–” - da je veza obrnuto (negativan). Znak nema nikakve veze sa čvrstoćom veze.

Koeficijent korelacije karakteriše statistički odnos. Ali često je potrebno odrediti drugu vrstu zavisnosti, odnosno: koliki je doprinos određenog faktora formiranju drugog srodnog faktora. Ovu vrstu zavisnosti, sa određenim stepenom konvencionalnosti, karakteriše koeficijent determinacije (D ) određena formulom D = r 2 ´100% (gdje je r Bravais-Pearsonov koeficijent korelacije, vidjeti 7.3.2). Ako su merenja urađena ljestvica poretka (skala ranga), onda se uz određenu štetu po pouzdanost, umjesto vrijednosti r, vrijednost r (Spearmanov koeficijent korelacije, vidi 7.3.3) može zamijeniti u formulu.

Na primjer, ako smo kao karakteristiku zavisnosti faktora B od faktora A dobili koeficijent korelacije r = 0,8 ili r = –0,8, onda je D = 0,8 2 ´100% = 64%, odnosno oko 2 ½ 3. Dakle, doprinos faktora A i njegovih promjena nastanku faktora B iznosi približno 2 ½ 3 od ukupnog doprinosa svih faktora uopšte.

7.3.2. Bravais-Pearson koeficijent korelacije. Postupak za izračunavanje Bravais–Pearsonovog koeficijenta korelacije ( r ) može se primijeniti samo u onim slučajevima kada se odnos razmatra na osnovu uzoraka koje imaju normalna distribucija frekvencije ( normalna distribucija ) i dobijeni mjerenjima u skalama intervala ili omjera. Formula za izračunavanje ovog koeficijenta korelacije je:



å ( x i – )( y i-)

r = .

n×sx×sy

Šta pokazuje koeficijent korelacije? Prvo, znak na koeficijentu korelacije pokazuje smjer odnosa, odnosno: znak “–” označava da je odnos obrnuto, ili negativan(postoji trend: kako se vrijednosti jednog faktora smanjuju, odgovarajuće vrijednosti drugog faktora se povećavaju, a kako se povećavaju, smanjuju se), a izostanak znaka ili znaka "+" ukazuje ravno, ili pozitivno veze (postoji trend: s povećanjem vrijednosti jednog faktora, vrijednosti drugog se povećavaju, a sa smanjenjem se smanjuju). Drugo, apsolutna (znak nezavisna) vrijednost koeficijenta korelacije ukazuje na nepropusnost (snagu) veze. Uobičajeno je pretpostaviti (prilično konvencionalno): za vrijednosti r< 0,3 корреляция vrlo slaba, često se jednostavno ne uzima u obzir, za 0,3 £ r< 5 корреляция slab, za 0,5 £ r< 0,7) - prosjek, po 0,7 £ r 0,9 £) - jaka i, konačno, za r > 0,9 - vrlo jak. U našem slučaju (r » 0,83) veza je inverzna (negativna) i jaka.

Podsjetimo da vrijednosti koeficijenta korelacije mogu biti u rasponu od -1 do +1. Ako vrijednost r prelazi ove granice, to ukazuje na to u proračunima napravljena je greška . Ako a r= 1, to znači da veza nije statistička, već funkcionalna - što se praktično ne dešava u sportu, biologiji, medicini. Iako je uz mali broj mjerenja moguć slučajni odabir vrijednosti koji daje sliku funkcionalnog odnosa, ali je takav slučaj manje vjerojatan što je veći volumen uspoređenih uzoraka (n), tj. broj parova upoređenih mjerenja.

Tablica proračuna (Tabela 7.1) je izgrađena prema formuli.

Tabela 7.1.

Tablica za proračun Bravais-Pearson

x i y i (x i-) (x i – ) 2 (y i-) (y i – ) 2 (x i – )( y i-)
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i \u003d 137 = 13.00 åy i =56,1 =5,1 å( x i - ) 2 = = 1,78 å( y i – ) 2 = = 1,015 å( x i – )( y i – )= = –1,24

Zbog s x = ï ï = ï ï» 0,42, a

s y= ï ï» 0,32, r" –1,24ï (11´0,42´0,32) » –1,24ï 1,48 » –0,83 .

Drugim riječima, morate vrlo čvrsto znati da je koeficijent korelacije ne mogu premašuju 1,0 u apsolutnoj vrijednosti. Ovo često omogućava izbjegavanje velikih grešaka, odnosno pronalaženje i ispravljanje grešaka napravljenih u proračunima.

7.3.3. Spearmanov koeficijent korelacije. Kao što je već spomenuto, Bravais-Pearsonov koeficijent korelacije (r) moguće je primijeniti samo u onim slučajevima kada su analizirani faktori bliski normalnim u smislu distribucije frekvencije, a vrijednosti varijante se dobijaju mjerenjima nužno na skali omjera ili na skali intervala, što se dešava ako su izraženi fizičke jedinice. U drugim slučajevima se nalazi Spearmanov koeficijent korelacije ( r). Međutim, ovaj omjer mogu primjenjivati ​​iu slučajevima kada je to dozvoljeno (i poželjno ! ) primijeniti Bravais-Pearson koeficijent korelacije. Ali treba imati na umu da postupak za određivanje Bravais-Pearsonovog koeficijenta postoji više moći („rešavanje sposobnost"), zbog toga r informativniji od r. Čak i sa velikim n odstupanje r može biti reda veličine ±10%.

Tabela 7.2 Formula za izračunavanje koeficijenta

x i y i R x R y |d R | d R 2 Spearmanov koeficijent korelacije

13,2 4,75 8,5 3,0 5,5 30,25 r= 1 – . Vos

13,5 4,70 11,0 2,0 9,0 81,00 koristimo naš primjer

12,7 5,10 4,5 6,5 2,0 4,00 za obračun r, ali hajde da gradimo

12,5 5,40 3,0 9,0 6,0 36,00 ostala tabela (tabela 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Zamijeni vrijednosti:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Vidimo: r ispalo je malo

12,4 5,60 2,0 11,0 9,0 81,00 više od r, ali ovo je drugačije

12,3 5,50 1,0 10,0 9,0 81,00 nije jako velika. Uostalom, at

12,7 5,20 4,5 8,0 3,5 12,25 tako mali n vrijednosti r i r

åd R 2 = 423 su vrlo približne, nisu baš pouzdane, njihova stvarna vrijednost može znatno varirati, tako da razlika r i r u 0.1 je beznačajan. Običnorsmatra se analognimr , ali manje tačna. Signs at r i r pokazuje smjer veze.

7.3.4. Primjena i validacija koeficijenata korelacije. Utvrđivanje stepena korelacije između faktora neophodno je da bismo kontrolisali razvoj faktora koji nam je potreban: za to moramo uticati na druge faktore koji značajno utiču na njega i znati mjeru njihove djelotvornosti. Neophodno je znati o odnosu faktora kako bi se razvili ili odabrali gotovi testovi: informativni sadržaj testa određen je korelacijom njegovih rezultata s manifestacijama osobine ili svojstva od interesa za nas. Bez poznavanja korelacija, bilo koji oblik selekcije je nemoguć.

Gore je napomenuto da je u sportskoj i općenito pedagoškoj, medicinskoj, pa i ekonomskoj i sociološkoj praksi od velikog interesa utvrditi da li je doprinos , što je jedan faktor doprinosi formiranju drugog. To je zbog činjenice da pored razmatranih faktora-uzroka na cilj(za nas od interesa) faktorski čin, svaki dajući jedan ili drugi doprinos tome, i drugi.

Vjeruje se da mjera doprinosa svakog faktora-uzroka može biti koeficijent odlučnosti D i = r 2 ´100%. Tako, na primjer, ako je r = 0,6, tj. odnos između faktora A i B je prosječan, tada je D = 0,6 2 ´100% = 36%. Znajući, dakle, da je doprinos faktora A formiranju faktora B otprilike 1 ½ 3, moguće je, na primjer, posvetiti otprilike 1 ½ 3 treninga. Ako je koeficijent korelacije r = 0,4, onda je D = r 2 100% = 16%, ili otprilike 1 ½ 6 - dva s ponovo manje, a po ovoj logici samo 1 ½ 6 dio vremena za obuku.

Vrijednosti D i za različite značajne faktore daju približnu predstavu o kvantitativnom odnosu njihovih utjecaja na ciljni faktor koji nas zanima, radi poboljšanja kojeg, zapravo, radimo na drugim faktorima ( na primjer, skakač u dalj radi na povećanju brzine svog sprinta, pa je to faktor koji daje najznačajniji doprinos formiranju rezultata u skokovima).

Podsjetimo to definiranjem D umjesto r staviti r, iako je, naravno, tačnost određivanja niža.

Na osnovu selektivno(izračunato iz uzoraka podataka) koeficijenta korelacije, nemoguće je zaključiti da postoji veza između razmatranih faktora uopšte. Da biste izveli takav zaključak s različitim stupnjevima valjanosti, koristite standard kriterijumi značajnosti korelacije. Njihova primjena pretpostavlja linearnu vezu između faktora i normalna distribucija frekvencije u svakom od njih (što znači ne selektivnu, već njihovu opštu reprezentaciju).

Možete, na primjer, primijeniti Studentove t-testove. Njegova rasa

ravnomjerna formula: tp= –2 , gdje je k koeficijent korelacije proučavanog uzorka, a n- volumen upoređenih uzoraka. Rezultirajuća izračunata vrijednost t-kriterijuma (t p) upoređuje se sa tabelarnom vrijednošću na nivou značajnosti koji smo odabrali i broju stupnjeva slobode n = n - 2. Da biste se riješili proračunskog rada, možete koristiti poseban sto kritične vrijednosti koeficijenata korelacije uzorka(vidi gore), što odgovara prisutnosti značajnog odnosa između faktora (uzimajući u obzir n i a).

Tabela 7.3.

Granične vrijednosti pouzdanosti koeficijenta korelacije uzorka

Broj stepeni slobode pri određivanju koeficijenata korelacije uzima se jednakim 2 (tj. n= 2) Navedeno u tabeli. Vrijednosti 7.3 imaju donju granicu intervala povjerenja tačno koeficijent korelacije je 0, odnosno s takvim vrijednostima ne može se tvrditi da korelacija uopće postoji. Ako je vrijednost koeficijenta korelacije uzorka veća od prikazane u tabeli, može se smatrati na odgovarajućem nivou značajnosti da pravi koeficijent korelacije nije jednak nuli.

Ali odgovor na pitanje da li postoji stvarna veza između faktora koji se razmatraju ostavlja prostor za još jedno pitanje: u kom intervalu se istinska vrijednost koeficijent korelacije, kakav zapravo može biti, sa beskonačno velikim n? Ovaj interval za bilo koju određenu vrijednost r i n upoređeni faktori se mogu izračunati, ali je zgodnije koristiti sistem grafova ( nomogram), gdje je svaki par krivulja konstruiran za neke navedene iznad njih n, odgovara granicama intervala.

Rice. 7.4. Granice pouzdanosti koeficijenta korelacije uzorka (a = 0,05). Svaka kriva odgovara onoj iznad nje. n.

Pozivajući se na nomogram na sl. 7.4, moguće je odrediti interval vrijednosti pravog koeficijenta korelacije za izračunate vrijednosti koeficijenta korelacije uzorka na a = 0,05.

7.3.5. korelacioni odnosi. Ako je par korelacija nelinearne, nemoguće je izračunati koeficijent korelacije, odrediti korelacioni odnosi . Obavezni zahtjev: karakteristike se moraju mjeriti na skali omjera ili na skali intervala. Možete izračunati korelaciju ovisnosti faktora X od faktora Y i korelacione zavisnosti faktora Y od faktora X- oni su različiti. Sa malom zapreminom n uzeti u obzir uzorke koji predstavljaju faktore, da biste izračunali korelacijske odnose, možete koristiti formule:

odnos korelacije h x ½ y= ;

odnos korelacije h y ½ x= .

Ovdje su i aritmetičke sredine uzoraka X i Y, i - unutar klase aritmetički proseci. Odnosno, aritmetička sredina tih vrijednosti u uzorku faktora X, s kojim konjugirati jednake vrijednosti u uzorku faktora Y (na primjer, ako faktor X ima vrijednosti 4, 6 i 5, s kojima su u uzorku faktora Y povezane 3 opcije sa istom vrijednošću 9, tada je = (4+6+ 5) ½ 3 = 5). Prema tome, - aritmetička sredina onih vrijednosti u uzorku faktora Y, koje su povezane sa istim vrijednostima u uzorku faktora X. Dajemo primjer i izračunajmo:

X: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Tabela 7.4

Tablica proračuna

x i y i x y x i – x (x i – x) 2 x i - x y (x ix y) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Stoga h y ½ x= » 0,63.

7.3.6. Parcijalni i višestruki koeficijenti korelacije. Da bismo procijenili odnos između 2 faktora, izračunavanjem koeficijenata korelacije, podrazumevano pretpostavljamo da nijedan drugi faktor nema nikakav uticaj na ovaj odnos. U stvarnosti, to nije slučaj. Dakle, na odnos težine i visine veoma značajno utiču unos kalorija, količina sistematske fizičke aktivnosti, nasledstvo itd. Kada je to neophodno kada se proceni odnos između 2 faktora uzeti u obzir značajan uticaj druge faktore i istovremeno kako da se izoluju od njih, smatrajući ih nepromenjenim, izračunaj privatni (inače - djelomično ) koeficijenti korelacije.

Primjer: trebate procijeniti uparene zavisnosti između 3 bitna faktora X, Y i Z. Označite r XY (Z) privatni (djelimični) koeficijent korelacije između faktora X i Y (u ovom slučaju vrijednost faktora Z se smatra nepromijenjenom), r ZX (Y) - parcijalni koeficijent korelacije između faktora Z i X (sa konstantnom vrijednošću faktora Y), r YZ (X) - parcijalni koeficijent korelacije između faktora Y i Z (sa konstantnom vrijednošću faktora X). Koristeći izračunate jednostavne uparene (prema Bravais-Pearson) koeficijent korelacije r xy, r XZ and r YZ, m

Možete izračunati privatne (djelimične) koeficijente korelacije koristeći formule:

rXY- r XZ´ r YZ r XZ- r XY' r ZY r ZY –r ZX ´ r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (X) =

Ö(1– r 2XZ)(1– r 2 YZ) Ö(1– r 2XY)(1– r 2 ZY) Ö(1– r 2ZX)(1– r 2YX)

A parcijalni koeficijenti korelacije mogu imati vrijednosti od -1 do +1. Kvadrirajući ih, dobijamo odgovarajuće količnike koeficijenti determinacije takođe pozvan privatne mjere sigurnosti(množenjem sa 100 izražavamo u %%). Parcijalni koeficijenti korelacije se manje ili više razlikuju od koeficijenata prostih (punih) para, što ovisi o jačini utjecaja 3. faktora na njih (kao da je nepromijenjen). Testira se nulta hipoteza (H 0), odnosno hipoteza da ne postoji veza (zavisnost) između faktora X i Y (sa ukupnim brojem karakteristika k) izračunavanjem t-testa prema formuli: t P = r XY (Z) ´ ( n–k) 1 ½ 2 ´ (1– r 2XY(Z)) –1 ½ 2 .

Ako a t R< t a n , hipoteza je prihvaćena (pretpostavljamo da nema zavisnosti), ako t P ³ t a n - hipoteza je opovrgnuta, odnosno vjeruje se da se ovisnost zaista događa. t a n se uzima iz tabele t-Učenički kriterijum, i k- broj faktora koji se uzimaju u obzir (u našem primjeru 3), broj stupnjeva slobode n= n - 3. Ostali parcijalni koeficijenti korelacije se provjeravaju na sličan način (u formulu umjesto u r XY (Z) su supstituirani u skladu s tim r XZ (Y) ili r ZY(X)).

Tabela 7.5

Početni podaci

Ö (1 – 0,71 2) (1 – 0,71 2) Ö (1 – 0,5) (1 – 0,5)

Da biste procijenili ovisnost faktora X o kombiniranom djelovanju nekoliko faktora (ovdje faktori Y i Z), izračunajte vrijednosti jednostavnih parnih koeficijenata korelacije i pomoću njih izračunajte koeficijent višestruke korelacije r X (YZ) :

Ö r 2XY+ r 2XZ - 2 r XY' r XZ´ r YZ

r X (YZ) = .

Ö 1 - r 2 YZ

7.2.7. koeficijent asocijacije.Često je potrebno kvantificirati odnos između kvaliteta znakovi, tj. takvi znakovi koji se ne mogu kvantitativno prikazati (okarakterizirati), koji nemerljivo. Na primjer, zadatak je otkriti postoji li veza između sportske specijalizacije uključenih i takvih ličnih svojstava kao što su introverzija (fokus ličnosti na fenomene vlastitog subjektivnog svijeta) i ekstraverzija (fokus ličnosti na svijet spoljni objekti). Simboli su prikazani u tabeli. 7.6.

Tabela 7.6.

X (godine) Y (puta) Z (puta) X (godine) Y (puta) Z (puta)
Funkcija 1 Funkcija 2 introverzija Ekstraverzija
Sportske igre a b
gimnastika With d

Očigledno, brojevi kojima ovdje raspolažemo mogu biti samo frekvencije distribucije. U ovom slučaju izračunajte koeficijent asocijacije (drugi naziv " koeficijent kontingencije "). Razmislite najjednostavniji slučaj: odnos između dva para karakteristika, dok se izračunati koeficijent kontingencije poziva tetrahoric (vidi tabelu).

Tabela 7.7.

a = 20 b = 15 a + b = 35
c =15 d=5 c + d = 20
a + c = 35 b + d = 20 n = 55

Računamo prema formuli:

ad-bc 100-225-123

Proračun koeficijenata asocijacije (koeficijenata konjugacije) sa većim brojem karakteristika je povezan sa proračunima pomoću slične matrice odgovarajućeg reda.

Prilikom studiranja korelacije pokušajte utvrditi postoji li veza između dva indikatora u istom uzorku (na primjer, između visine i težine djece ili između nivoa IQ i školski uspjeh) ili između dva različita uzorka (na primjer, kada se porede parovi blizanaca), i ako taj odnos postoji, da li je povećanje jednog pokazatelja praćeno povećanjem (pozitivna korelacija) ili smanjenjem (negativna korelacija) ostalo.

Drugim riječima, korelacijska analiza pomaže da se utvrdi da li je moguće predvidjeti moguće vrijednosti jednog indikatora, znajući vrijednost drugog.

Do sada, kada smo analizirali rezultate našeg iskustva u proučavanju efekata marihuane, namjerno smo zanemarivali takav pokazatelj kao što je vrijeme reakcije. U međuvremenu, bilo bi zanimljivo provjeriti postoji li veza između efikasnosti reakcija i njihove brzine. To bi, na primjer, omogućilo da se tvrdi da što je osoba sporija, to će njene akcije biti tačnije i djelotvornije i obrnuto.

U tu svrhu mogu se koristiti dvije različite metode: parametarska metoda za izračunavanje Bravais-Pearsonovog koeficijenta (r) i izračunavanje koeficijenta korelacije Spearmanovih rangova (r s ), koji se odnosi na redne podatke, tj. nije parametarski. Međutim, hajde da prvo shvatimo šta je koeficijent korelacije.

Koeficijent korelacije

Koeficijent korelacije je vrijednost koja može varirati od -1 do 1. U slučaju potpune pozitivne korelacije, ovaj koeficijent je plus 1, a sa potpunom negativnom - minus 1. Na grafikonu to odgovara pravolinijskom prolasku kroz tačke preseka vrednosti svakog para podataka:

Varijabilna

Ako se ove tačke ne postavljaju u pravu liniju, već formiraju „oblak“, apsolutna vrijednost koeficijenta korelacije postaje manja od jedan i približava se nuli kako se oblak zaokružuje:

Ako je koeficijent korelacije 0, obje varijable su potpuno nezavisne jedna od druge.

U humanističkim naukama korelacija se smatra jakom ako je njen koeficijent veći od 0,60; ako prelazi 0,90, tada se korelacija smatra veoma jakom. Međutim, da bi se mogli izvući zaključci o odnosima između varijabli, veličina uzorka je od velike važnosti: što je uzorak veći, to je pouzdanija vrijednost dobijenog koeficijenta korelacije. Postoje tablice s kritičnim vrijednostima koeficijenata korelacije Bravais-Pearson i Spearman za različit broj stupnjeva slobode (jednako je broju parova minus 2, tj. n-2). Samo ako su koeficijenti korelacije veći od ovih kritičnih vrijednosti mogu se smatrati pouzdanim. Dakle, da bi koeficijent korelacije od 0,70 bio pouzdan, u analizu treba uzeti najmanje 8 parova podataka ( = P - 2 = 6) prilikom obračuna r(Tabela B.4) i 7 parova podataka (= n - 2 = 5) prilikom izračunavanja r s (Tabela 5 u Dodatku B. 5).

Bravais–Pearsonov koeficijent

Za izračunavanje ovog koeficijenta koristi se sljedeća formula (y različitih autora može izgledati drugačije):

gdje je  XY je zbir proizvoda podataka iz svakog para;

n - broj parova;

- prosjek za varijabilne podatke X;

Prosjek za varijabilne podatke Y;

S X - x;

s Y - standardna devijacija za distribuciju y.

Sada možemo koristiti ovaj koeficijent da odredimo postoji li veza između vremena reakcije ispitanika i efikasnosti njihovih akcija. Uzmimo, na primjer, nivo pozadine kontrolne grupe.

n= 15  15,8  13,4 = 3175,8;

(n 1)S x S y = 14  3,07  2,29 = 98,42;

r =

Negativna vrijednost koeficijenta korelacije može značiti da što je duže vrijeme reakcije, to je niža efikasnost. Međutim, njegova vrijednost je premala da bi se moglo govoriti o značajnoj vezi između ove dvije varijable.

nXY=………

(n- 1)S X S Y = ……

Kakav zaključak se može izvući iz ovih rezultata? Ako mislite da postoji veza između varijabli, šta je to - direktna ili obrnuta? Da li je pouzdan [usp. tab. 4 (u Dodatku B. 5) sa kritičnim vrijednostima r]?

Koeficijent korelacije Spearmanovog rangar s

Ovaj koeficijent je lakše izračunati, ali rezultati su manje tačni od korištenja r. To je zbog činjenice da se pri izračunavanju Spearmanovog koeficijenta koristi redoslijed podataka, a ne njihove kvantitativne karakteristike i intervali između klasa.

Poenta je da kada se koristi koeficijent korelacije ranga Spearman(r s ) oni samo provjeravaju da li će rangiranje podataka za neki uzorak biti isto kao u nizu drugih podataka za ovaj uzorak upareno s prvim (na primjer, da li će učenici biti jednako „rangirani“ kada polože i psihologiju i matematiku, ili čak i sa dva različita profesora psihologije?). Ako je koeficijent blizu + 1, to znači da se oba niza praktički poklapaju, a ako je ovaj koeficijent blizu - 1, možemo govoriti o potpunom inverznom odnosu.

Koeficijent r s izračunato prema formuli

gdje d- razlika između rangova vrijednosti konjugiranih karakteristika (bez obzira na njegov znak), i n- broj parova.

Obično se ovaj neparametarski test koristi u slučajevima kada trebate izvući neke zaključke ne toliko o tome intervalima između podataka, koliko o njima činovi, kao i kada su krive distribucije previše asimetrične i ne dozvoljavaju korištenje parametarskih kriterija kao što je koeficijent r(u tim slučajevima može biti potrebno konvertovati kvantitativne podatke u redne podatke).

Budući da je to slučaj sa distribucijom vrijednosti efikasnosti i vremena reakcije u eksperimentalnoj grupi nakon izlaganja, možete ponoviti proračune koje ste već uradili za ovu grupu, samo sada ne za koeficijent r, i za indikator r s . Ovo će vam omogućiti da vidite koliko su ova dva indikatora različita*.

* Treba to zapamtiti

1) po broju pogodaka, 1. rang odgovara najvećoj, a 15. najnižoj izvedbi, dok za vrijeme reakcije 1. rang odgovara najkraćem vremenu, a 15. najdužem;

2) ex aequo podacima se daje prosječan rang.

Dakle, kao iu slučaju koeficijenta r, dobio pozitivan, iako nepouzdan rezultat. Koji od ova dva rezultata je vjerojatniji: r=-0,48 ili r s = +0,24? Takvo pitanje može se postaviti samo ako su rezultati pouzdani.

Još jednom želim da naglasim da je suština ova dva koeficijenta nešto drugačija. Negativan koeficijent r ukazuje da je efikasnost najčešće što je veća, što je brže vreme reakcije, dok pri izračunavanju koeficijenta r s bilo je potrebno provjeriti da li brži subjekti uvijek tačnije, a sporiji manje tačnije.

Budući da je u eksperimentalnoj grupi nakon izlaganja dobijen koeficijent r s , jednak 0,24, takav trend se očigledno ovdje ne prati. Pokušajte da sami shvatite smisao podataka za kontrolnu grupu nakon izlaganja, znajući da  d 2 = 122,5:

; je li pouzdan?

Koji je vaš zaključak?……………………………………………………………………………………………………………

…………………………………………………………………………………………………………………….

Dakle, razmotrili smo različite parametarske i neparametarske statističke metode koje se koriste u psihologiji. Naš pregled je bio vrlo površan, a glavni zadatak mu je bio da čitatelju natjera da shvati da statistika nije toliko strašna kao što se čini i da zahtijeva uglavnom zdrav razum. Podsjećamo da su podaci o "iskustvu" kojima smo se ovdje bavili fiktivni i ne mogu poslužiti kao osnova za bilo kakve zaključke. Međutim, takav eksperiment bi bio vrijedan izvođenja. Budući da je za ovaj eksperiment odabrana čisto klasična tehnika, ista statistička analiza mogla bi se koristiti u mnogim različitim eksperimentima. U svakom slučaju, čini nam se da smo zacrtali neke glavne pravce koji bi mogli biti korisni onima koji ne znaju odakle početi statističku analizu rezultata.

Postoje tri glavne grane statistike: deskriptivna statistika, induktivna statistika i analiza korelacije.

Regresiona analiza vam omogućava da procijenite kako jedna varijabla ovisi o drugoj i koliki je raspon vrijednosti zavisne varijable oko prave linije koja definira odnos. Ove procjene i odgovarajući intervali povjerenja omogućavaju predviđanje vrijednosti zavisne varijable i određivanje tačnosti ovog predviđanja.

Rezultati regresione analize mogu se prikazati samo u prilično složenom digitalnom ili grafičkom obliku. Međutim, često nas ne zanima predviđanje vrijednosti jedne varijable iz vrijednosti druge, već jednostavno karakteriziranje čvrstoće (snage) odnosa između njih, dok je izraženo kao jedan broj.

Ova karakteristika se naziva koeficijent korelacije, obično se označava slovom r. Koeficijent korelacije može biti

može uzeti vrijednosti od -1 do +1. Predznak koeficijenta korelacije pokazuje smjer veze (direktan ili inverzan), a apsolutna vrijednost pokazuje blizinu veze. Koeficijent jednak -1 određuje istu krutu vezu kao jednak 1. U odsustvu veze, koeficijent korelacije je nula.

Na sl. 8.10 prikazuje primjere zavisnosti i njihove odgovarajuće vrijednosti r. Razmotrićemo dva koeficijenta korelacije.

Pearsonov koeficijent korelacije je namijenjen da opiše linearni odnos kvantitativnih osobina; poput regresije
ionsku analizu, zahtijeva normalnu distribuciju. Kada ljudi samo govore o "koeficijentu korelacije", oni gotovo uvijek misle na Pearsonov koeficijent korelacije, a to je upravo ono što ćemo učiniti.

Spearmanov koeficijent korelacije ranga može se koristiti kada je odnos nelinearan - i to ne samo za kvantitativne, već i za redne karakteristike. Ovo je neparametarska metoda i ne zahtijeva nikakvu posebnu vrstu distribucije.

O kvantitativnim, kvalitativnim i rednim karakteristikama već smo govorili u pogl. 5. Kvantitativni znaci su obični numerički podaci, kao što su visina, težina, temperatura. Vrijednosti kvantitativno svojstvo možete međusobno upoređivati ​​i reći koji je od njih veći, za koliko i za koliko puta. Na primjer, ako je jedan Marsovac težak 15 g, a drugi 10, onda je prvi teži od drugog i jedan i po puta i 5 g. koliko puta. U medicini su redni znakovi prilično česti. Na primjer, rezultati vaginalnog Papa testa se procjenjuju na sljedećoj skali: 1) normalan, 2) blaga displazija, 3) umjerena displazija, 4) teška displazija, 5) rak in situ. I kvantitativni i redni znakovi mogu se poredati po ovome zajedničko vlasništvo na osnovu velike grupe neparametarskih kriterijuma, koji uključuju Spearmanov koeficijent korelacije ranga. Sa ostalim neparametarskim kriterijumima ćemo se upoznati u pogl. deset.

Pearsonov koeficijent korelacije

Pa ipak, zašto se regresiona analiza ne može koristiti za opisivanje čvrstoće odnosa? Preostala standardna devijacija se može koristiti kao mjera bliskosti veze. Međutim, ako zamijenite zavisne i nezavisne varijable, tada će rezidualna standardna devijacija, kao i drugi indikatori regresione analize, biti drugačija.

Pogledajmo sl. 8.11. Na osnovu uzorka od 10 nama poznatih Marsovaca, konstruisane su dve regresijske linije. U jednom slučaju, težina je zavisna varijabla, u drugom je nezavisna varijabla. Regresijske linije se značajno razlikuju



20

Ako zamijenite x i y, jednadžba regresije će biti drugačija, ali koeficijent korelacije će ostati isti.

nada. Ispada da je odnos visine i težine jedan, a težine i visine drugi. Asimetrija regresione analize je ono što sprečava da se ona direktno koristi za karakterizaciju snage veze. Koeficijent korelacije, iako njegova ideja proizilazi iz regresijske analize, nema ovog nedostatka. Predstavljamo formulu.

rY(X - X)(Y - Y)

&((- X) S(y - Y)2"

gdje su X i Y prosječne vrijednosti varijabli X i Y. Izraz za r je "simetričan" - zamjenom X i Y dobijamo istu vrijednost. Koeficijent korelacije uzima vrijednosti od -1 do +1. Što je odnos bliži, veća je apsolutna vrijednost koeficijenta korelacije. Znak pokazuje smjer veze. Za r > 0 govore o direktnoj korelaciji (kako se jedna varijabla povećava, povećava se i druga), za r Uzmimo primjer sa 10 Marsovaca, koje smo već razmatrali sa stanovišta regresione analize. Izračunajmo koeficijent korelacije. Početni podaci i međurezultati proračuna dati su u tabeli. 8.3. Veličina uzorka n = 10, prosječna visina

X = £ X/n = 369/10 = 36,9 i težina Y = £ Y/n = 103,8/10 = 10,38.

Nalazimo Shch-X)(Y-Y) = 99,9, Shch-X)2 = 224,8, £(Y - Y)2 = 51,9.

Zamijenimo dobivene vrijednosti u formulu za koeficijent korelacije:

224,8 x 51,9"

Vrijednost r je blizu 1, što ukazuje na blisku vezu između visine i težine. Da biste dobili bolju predstavu o tome koji koeficijent korelacije treba smatrati velikim, a koji beznačajnim, pogledajte

Tabela 8.3. Proračun koeficijenta korelacije
X Y X-X Y-Y (X-X) (Y-Y) (X-X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


one na stolu. 8.4 - prikazuje koeficijente korelacije za primjere koje smo ranije analizirali.

Veza između regresije i korelacije

U početku smo koristili sve primjere koeficijenata korelacije (Tablica 8.4) za izgradnju regresijskih linija. Zaista, postoji bliska veza između koeficijenta korelacije i parametara regresione analize, što ćemo sada pokazati. Različiti načini predstavljanja koeficijenta korelacije, koje ćemo dobiti u ovom slučaju, omogućiće nam da bolje razumijemo značenje ovog indikatora.

Podsjetimo da je jednadžba regresije konstruirana na način da se minimizira zbir kvadrata odstupanja od regresijske linije.


Označavamo ovaj minimalni zbir kvadrata sa S (ova vrijednost se naziva rezidualni zbir kvadrata). Zbir kvadrata odstupanja vrijednosti zavisne varijable Y od srednje vrijednosti Y označit će se sa S^. onda:

Vrijednost r2 naziva se koeficijent determinacije - to je jednostavno kvadrat koeficijenta korelacije. Koeficijent determinacije pokazuje snagu veze, ali ne i njen smjer.

Iz gornje formule može se vidjeti da ako vrijednosti zavisne varijable leže na direktnoj regresiji, onda je S = 0, a time i r = +1 ili r = -1, odnosno postoji linearna veza između zavisna i nezavisna varijabla. Bilo koja vrijednost nezavisne varijable može precizno predvidjeti vrijednost zavisne varijable. Naprotiv, ako varijable uopšte nisu povezane, onda je Soci = SofSisi Tada je r = 0.

Takođe se može vidjeti da je koeficijent determinacije jednak onom udjelu ukupne varijanse S^, koji je uzrokovan ili, kako kažu, objašnjen linearnom regresijom.

Preostali zbir kvadrata S povezan je sa zaostalom varijansom s2y\x relacijom Socj = (n - 2) s^, a ukupni zbir kvadrata S^ sa varijansom s2 relacijom S^ = (n - 1 )s2 . U ovom slučaju

r2 = 1 _ n _ 2 sy\x n _1 sy

Ova formula omogućava da se proceni zavisnost koeficijenta korelacije od udela preostale varijanse u ukupnoj varijansi

šest/s2y Što je ovaj udio manji, to je veći (u apsolutnoj vrijednosti) koeficijent korelacije, i obrnuto.

Vidjeli smo da koeficijent korelacije odražava čvrstoću linearnog odnosa varijabli. Međutim, ako mi pričamo o predviđanju vrijednosti jedne varijable iz vrijednosti druge,
na koeficijent korelacije ne treba se previše oslanjati. Na primjer, podaci na sl. 8.7 odgovara vrlo visokom koeficijentu korelacije (r = 0.92), ali širina područja povjerenja pokazuje da je nesigurnost predviđanja prilično značajna. Stoga, čak i sa velikim koeficijentom korelacije, obavezno izračunajte raspon pouzdanosti.


I na kraju, dajemo omjer koeficijenta korelacije i koeficijenta nagiba direktne regresije b:

gdje je b nagib linije regresije, sx i sY su standardne devijacije varijabli.

Ako ne uzmemo u obzir slučaj sx = 0, tada je koeficijent korelacije jednak nuli ako i samo ako je b = 0. Sada ćemo ovu činjenicu koristiti za procjenu statističke značajnosti korelacije.

Statistički značaj korelacije

Pošto b = 0 implicira r = 0, hipoteza o nepostojanju korelacije je ekvivalentna hipotezi o nultom nagibu direktne regresije. Stoga, da bismo procijenili statističku značajnost korelacije, možemo koristiti formulu koja nam je već poznata za procjenu statističke značajnosti razlike između b i nule:

Ovdje je broj stupnjeva slobode v = n - 2. Međutim, ako je koeficijent korelacije već izračunat, pogodnije je koristiti formulu:

Broj stepeni slobode je takođe v = n - 2.

Uz vanjsku različitost dvije formule za t, one su identične. Zaista, od čega


r 2 _ 1 - n_ 2 Sy]x_

Zamjena vrijednosti sy^x u formulu za standardnu ​​grešku

Životinjska mast i rak dojke

U eksperimentima na laboratorijskim životinjama pokazalo se da visok sadržaj životinjskih masti u ishrani povećava rizik od raka dojke. Da li se ova zavisnost primećuje kod ljudi? K. Carroll je prikupio podatke o potrošnji životinjskih masti i smrtnosti od raka dojke u 39 zemalja. Rezultat je prikazan na sl. 8.12A. Utvrđeno je da je koeficijent korelacije između potrošnje životinjskih masti i mortaliteta od raka dojke 0,90. Procijenimo statističku značajnost korelacije.

0,90 1 - 0,902 39 - 2

Kritična vrijednost t za broj stupnjeva slobode v = 39 - 2 = 37 je 3,574, što je manje od naše dobivene. Dakle, na nivou značajnosti od 0,001, može se tvrditi da postoji korelacija između unosa životinjskih masti i mortaliteta od raka dojke.

Sada provjerimo da li je smrtnost povezana s konzumiranjem biljnih masti? Odgovarajući podaci su prikazani na sl. 8.12B. Koeficijent korelacije je 0,15. Onda

1 - 0,152 39 - 2

Čak i na nivou značajnosti od 0,10, izračunata vrijednost t je manja od kritične vrijednosti. Korelacija nije statistički značajna.

Koeficijent korelacije je vrijednost koja može varirati od +1 do -1. U slučaju potpune pozitivne korelacije, ovaj koeficijent je jednak plus 1 (kažu da se povećanjem vrijednosti jedne varijable povećava vrijednost druge varijable), a kod potpune negativne korelacije - minus 1 (označava povratnu informaciju , tj. S povećanjem vrijednosti jedne varijable, vrijednosti druge se smanjuju).

Primjer 1:

Grafikon zavisnosti stidljivosti i depresije. Kao što vidite, tačke (subjekti) nisu raspoređene nasumično, već se poređaju oko jedne linije i, gledajući ovu liniju, možemo reći da što je stidljivost veća kod osobe, to su te pojave depresivnije, tj. su međusobno povezani.

Primjer 2: Grafikon stidljivosti i društvenosti. Vidimo da kako stidljivost raste, društvenost se smanjuje. Njihov koeficijent korelacije je -0,43. Dakle, koeficijent korelacije veći od 0 do 1 ukazuje na direktno proporcionalnu vezu (što više ... više ...), a koeficijent od -1 do 0 označava obrnuto proporcionalnu vezu (što više ... to manje . ..)

Ako je koeficijent korelacije 0, obje varijable su potpuno nezavisne jedna od druge.

korelacija- ovo je odnos u kojem se uticaj pojedinih faktora pojavljuje samo kao trend (u prosjeku) uz masovno posmatranje stvarnih podataka. Primeri korelacione zavisnosti mogu biti zavisnost između veličine aktive banke i visine dobiti banke, rasta produktivnosti rada i radnog staža.

Koriste se dva sistema klasifikacije korelacija prema njihovoj snazi: opšti i partikularni.

Opšta klasifikacija korelacija: 1) jaka ili bliska sa koeficijentom korelacije r> 0,70; 2) srednja na 0,500,70, a ne samo korelacija visoki nivo značaj.

U sljedećoj tabeli navedeni su nazivi koeficijenata korelacije za različite vrste skala.

Dihotomna skala (1/0) Rang (redna) skala
Dihotomna skala (1/0) Pearsonov koeficijent asocijacije, Pearsonov koeficijent konjugacije četiri ćelije. Biserijska korelacija
Rang (redna) skala Rang-biserijska korelacija. Spearmanov ili Kendallov koeficijent korelacije ranga.
Interval i apsolutna skala Biserijska korelacija Vrijednosti skale intervala se pretvaraju u rangove i koristi se koeficijent ranga Pearson koeficijent korelacije (linearni koeficijent korelacije)

At r=0 nema linearne korelacije. U ovom slučaju, srednje vrijednosti grupe varijabli poklapaju se sa njihovim općim srednjim vrijednostima, a linije regresije su paralelne sa koordinatnim osa.

Jednakost r=0 govori samo o odsustvu linearne korelacione zavisnosti (nekorelisane varijable), ali ne uopšte o odsustvu korelacije, a još više, statističke zavisnosti.

Ponekad je zaključak da nema korelacije važniji od prisustva jake korelacije. Nulta korelacija dve varijable može ukazivati ​​na to da nema uticaja jedne varijable na drugu, pod uslovom da verujemo rezultatima merenja.

U SPSS-u: 11.3.2 Koeficijenti korelacije

Do sada smo saznali samo samu činjenicu postojanja statističke veze između dvije karakteristike. Zatim ćemo pokušati saznati koji se zaključci mogu izvući o snazi ​​ili slabosti ove zavisnosti, kao io njenom obliku i smjeru. Kriterijumi kvantifikacija zavisnosti između varijabli nazivaju se koeficijenti korelacije ili mjere povezanosti. Dvije varijable su u pozitivnoj korelaciji ako između njih postoji direktna, jednosmjerna veza. U jednosmjernom odnosu, male vrijednosti jedne varijable odgovaraju malim vrijednostima druge varijable, velike vrijednosti odgovaraju velikim. Dvije varijable su u negativnoj korelaciji ako između njih postoji inverzna veza. Kod višesmjernog odnosa, male vrijednosti jedne varijable odgovaraju velikim vrijednostima druge varijable i obrnuto. Vrijednosti koeficijenata korelacije su uvijek u rasponu od -1 do +1.

Spearmanov koeficijent se koristi kao koeficijent korelacije između varijabli koje pripadaju ordinalnoj skali, a Pirsonov koeficijent korelacije (moment proizvoda) se koristi za varijable koje pripadaju intervalnoj skali. U ovom slučaju treba napomenuti da se svaka dihotomna varijabla, odnosno varijabla koja pripada nominalnoj skali i ima dvije kategorije, može smatrati ordinalnom.

Prvo ćemo provjeriti postoji li korelacija između varijabli spola i psihe iz datoteke studium.sav. Pri tome vodimo računa da se dihotomna varijabla spol može smatrati ordinalnom varijablom. Uradite sljedeće:

Izaberite iz komandnog menija Analiza (Analiza) Deskriptivna statistika (Deskriptivna statistika) Unakrsne tabele... (Tabele nepredviđenih situacija)

· Premjestite varijablu spol na listu redova, a varijablu psihu na listu kolona.

· Kliknite na dugme Statistika.... U dijalogu Crosstabs: Statistics, označite polje Korelacije. Potvrdite svoj izbor dugmetom Nastavi.

· U dijalogu Crosstabs, zaustavite prikazivanje tabela tako što ćete potvrditi izbor u polju za potvrdu Supress tables. Kliknite na dugme OK.

Izračunat će se Spearman i Pearson koeficijenti korelacije, a njihova značajnost će se testirati:

/ Theory. Koeficijent korelacije

Koeficijent korelacije- dvodimenzionalna deskriptivna statistika, kvantitativna mjera odnosa (zajednička varijabilnost) dvije varijable.

Do danas je veliki broj razni koeficijenti korelacije. Međutim, najvažnije komunikacijske mjere su Pearson, Spearman i Kendall . Njih zajednička karakteristika je li to oni odražavaju odnos dvije karakteristike , mjereno na kvantitativnoj skali - rang ili metrika .

Općenito govoreći, bilo koji empirijsko istraživanje fokusiran na proučavanje odnosa između dvije ili više varijabli .

Ako promjena jedne varijable za jednu jedinicu uvijek rezultira promjenom druge varijable za isti iznos, funkcija je linearno (njegov grafik je prava linija); bilo koju drugu vezu nelinearni . Ako je povećanje jedne varijable povezano s povećanjem druge, onda veza - pozitivno ( ravno ) ; ako je povećanje jedne varijable povezano sa smanjenjem druge, zatim vezu - negativan ( obrnuto ) . Ako se smjer promjene jedne varijable ne mijenja sa povećanjem (smanjenjem) druge varijable, tada je takva funkcija monotono ; inače se poziva funkcija nemonotoničan .

Funkcionalne veze su idealizacije. Njihova posebnost leži u činjenici da jedna vrijednost jedne varijable odgovara strogo definiranoj vrijednosti druge varijable. Na primjer, takav je odnos dvije fizičke varijable - težine i dužine tijela (linearno pozitivno). Međutim, čak i u fizičkim eksperimentima, empirijski odnos će se razlikovati od funkcionalnog odnosa zbog nerazjašnjenih ili nepoznatih razloga: fluktuacije u sastavu materijala, greške mjerenja itd.

Prilikom proučavanja odnosa osobina, istraživač neminovno gubi mnoge moguće razloge za varijabilnost ovih karakteristika. Rezultat je da se čak i funkcionalni odnos između varijabli koji postoji u stvarnosti empirijski pojavljuje kao probabilistički (stohastički): ista vrijednost jedne varijable odgovara raspodjeli različitih vrijednosti druge varijable (i obrnuto).

Najjednostavniji primjer je omjer visine i težine ljudi. Empirijski rezultati proučavanja ova dva znaka će, naravno, pokazati njihov pozitivan odnos. Ali lako je pretpostaviti da će se razlikovati od strogog, linearnog, pozitivnog - idealnog matematička funkcija, čak i uz sve trikove istraživača da vodi računa o harmoniji ili punoći subjekata. Malo je vjerovatno da bi na osnovu toga ikome palo na pamet da negira postojanje striktne funkcionalne veze između dužine i težine tijela.

dakle, funkcionalna međupovezanost pojava može se empirijski otkriti samo kao vjerovatnoća povezanost odgovarajućih karakteristika.

Vizuelni prikaz prirode vjerovatnoćeg odnosa je dat dijagramom raspršivanja - grafikom čije osi odgovaraju vrijednostima dvije varijable, a svaki subjekt je tačka. Koeficijenti korelacije se koriste kao numerička karakteristika vjerovatnoće veze.

Možete unijeti tri gradacije vrijednosti korelacije prema jačini veze:

r< 0,3 - слабая связь (менее 10% от общей доли дисперсии);

0,3 < r < 0,7 - умеренная связь (от 10 до 50% от общей доли дисперсии);

r > 0,7 - jaka veza (50% ili više od ukupne varijanse).

Parcijalna korelacija

Često se dešava da dvije varijable koreliraju jedna s drugom samo zbog činjenice da se obje mijenjaju pod utjecajem neke treće varijable. Odnosno, zapravo ne postoji veza između odgovarajućih svojstava ove dvije varijable, ali se ona manifestira u statistički odnos, ili korelacije, pod uticajem zajednički uzrok treća varijabla).

Dakle, ako se korelacija između dvije varijable smanjuje, uz fiksnu treću slučajnu varijablu, onda to znači da njihova međuzavisnost dijelom nastaje i kroz utjecaj ove treće varijable. Ako je parcijalna korelacija nula ili vrlo mala, onda možemo zaključiti da je njihova međuzavisnost u potpunosti posljedica njihovog vlastitog utjecaja i ni na koji način nije povezana s trećom varijablom.

Također, ako je parcijalna korelacija veća od početne korelacije između dvije varijable, onda se može zaključiti da su druge varijable oslabile odnos, odnosno "sakrile" korelaciju.

Osim toga, to se mora imati na umu korelacija nije uzročna veza . Na osnovu ovoga, nemamo pravo da kategorički govorimo o prisustvu uzročnost: izvor ove korelacije može biti neka varijabla potpuno drugačija od onih koje se razmatraju u analizi. I u običnim i u parcijalnim korelacijama, pretpostavka uzročnosti uvijek mora imati svoje nestatističke osnove.

Pearsonov koeficijent korelacije

r- Pearson koristi se za proučavanje odnosa dvije metričke varijable , mjereno na istom uzorku . Postoje mnoge situacije u kojima ga je prikladno koristiti. Utječe li inteligencija na uspjeh na dodiplomskim studijama? Da li je plata zaposlenog povezana sa njegovom dobrom voljom prema kolegama? Da li raspoloženje učenika utiče na uspješnost rješavanja složenog aritmetičkog zadatka? Da bi odgovorio na takva pitanja, istraživač mora izmjeriti dva indikatora od interesa za svakog člana uzorka.

Na vrijednost koeficijenta korelacije ne utiču jedinice u kojima su prikazane karakteristike. Stoga, bilo koji linearne transformacije karakteristike (množenje konstantom, dodavanje konstante) ne mijenjaju vrijednost koeficijenta korelacije. Izuzetak je množenje jednog od predznaka negativnom konstantom: koeficijent korelacije mijenja svoj predznak u suprotan.

Pirsonova korelacija je mjera linearne veze između dvije varijable . Omogućava vam da odredite , koliko je proporcionalna varijabilnost dvije varijable . Ako su varijable proporcionalne jedna drugoj, onda se grafički odnos između njih može predstaviti kao prava linija sa pozitivnim (direktna proporcija) ili negativnim (obrnuta proporcija) nagibom.

U praksi, odnos između dvije varijable, ako ih ima, je probabilistički i grafički izgleda kao elipsoidni raspršeni oblak. Ovaj elipsoid se, međutim, može predstaviti (aproksimirati) kao prava linija ili regresijska linija. regresijska linija je ravna linija najmanjih kvadrata: zbroj kvadrata udaljenosti (izračunatih duž y-ose) od svake tačke dijagrama raspršenja do prave linije je minimalan.

Od posebne važnosti za procjenu tačnosti predviđanja je varijansa procjena zavisne varijable. U suštini, varijansa procjena zavisne varijable Y je onaj dio njene ukupne varijanse koji je posljedica utjecaja nezavisne varijable X. Drugim riječima, odnos varijanse procjena zavisne varijable i njene prave varijanse jednak je kvadratu koeficijenta korelacije.

Kvadrat koeficijenta korelacije zavisne i nezavisne varijable predstavlja proporciju varijanse zavisne varijable zbog uticaja nezavisne varijable, a naziva se koeficijent determinacije . Koeficijent determinacije, dakle, pokazuje u kojoj mjeri je varijabilnost jedne varijable uzrokovana (određena) utjecajem druge varijable.

Koeficijent determinacije ima važnu prednost u odnosu na koeficijent korelacije. Korelacija nije linearna funkcija odnos između dvije varijable. Stoga se aritmetička sredina koeficijenata korelacije za nekoliko uzoraka ne poklapa sa korelacijom izračunatom odmah za sve ispitanike iz ovih uzoraka (tj. koeficijent korelacije nije aditivni). Naprotiv, koeficijent determinacije linearno reflektuje odnos i stoga je aditivan: može se izmjeriti u prosjeku na nekoliko uzoraka.

Dodatne informacije o jačini veze daje vrijednost koeficijenta korelacije na kvadrat - koeficijenta determinacije: ovo je dio varijanse jedne varijable koji se može objasniti utjecajem druge varijable. Za razliku od koeficijenta korelacije, koeficijent determinacije raste linearno sa povećanjem snage veze.

Spearman i τ-Kendall koeficijenti korelacije (rang korelacije). Ako su obje varijable između kojih se odnos proučava prikazane na ordinalnoj skali, ili je jedna od njih na ordinalnoj skali, a druga na metričkoj skali, tada se primjenjuju koeficijenti rang korelacije: Spearman ili τ - Kendella . I taj , a drugi koeficijent zahtijeva prethodno rangiranje obje varijable za svoju primjenu .

Spearmanov koeficijent korelacije ranga - ovo je neparametarska metoda , koji se koristi u svrhu statističkog proučavanja odnosa među pojavama . U ovom slučaju se utvrđuje stvarni stepen paralelizma između dve kvantitativne serije proučavanih karakteristika i daje se procena čvrstoće uspostavljene veze pomoću kvantitativno izraženog koeficijenta.

Ako su članovi grupe prvo rangirani po x varijabli, a zatim po y varijabli, tada se korelacija između varijabli x i y može dobiti jednostavnim izračunavanjem Pearsonovog koeficijenta za dvije rangove serije. Pod pretpostavkom da nema veza u rangovima (tj. nema ponovljenih rangova) za bilo koju varijablu, formula za Pearson može se uvelike pojednostaviti proračunski i pretvoriti u formulu poznatu kao Spearman .

Snaga koeficijenta korelacije Spearmanovog ranga je nešto inferiorna u odnosu na snagu parametarskog koeficijenta korelacije.

Preporučljivo je koristiti koeficijent korelacije ranga u prisustvu malog broja zapažanja . Ova metoda može se koristiti za više od samo kvantificiranih podataka , ali i u slučajevima , kada su snimljene vrijednosti određene opisnim karakteristikama različitog intenziteta .

Spearmanov koeficijent korelacije ranga sa velikim brojem identičnih rangova za jednu ili obje upoređene varijable daje grube vrijednosti. U idealnom slučaju, obje korelirane serije trebale bi biti dva niza neusklađenih vrijednosti

Alternativa Spearmanovoj korelaciji za činove je korelacija τ-kendall . Korelacija koju je predložio M. Kendall zasniva se na ideji da se smjer odnosa može ocijeniti poređenjem subjekata u parovima: ako par subjekata ima promjenu x koja se poklapa u smjeru s promjenom u y, onda je ovo označava pozitivan odnos, ako se ne poklapa - nešto o negativnom odnosu.

Koeficijenti korelacije su posebno dizajnirani da numerički odrede snagu i smjer odnosa između dva svojstva mjerena na numeričkim skalama.(metrika ili rang).

Kao što je već spomenuto, Vrijednosti korelacije +1 (stroga direktna ili direktno proporcionalna veza) i -1 (stroga inverzna ili obrnuto proporcionalna veza) odgovaraju maksimalnoj snazi ​​veze, korelacija jednaka nuli odgovara odsustvu veze.

Dodatne informacije o snazi ​​veze daje vrijednost koeficijenta determinacije: to je dio varijanse jedne varijable koji se može objasniti utjecajem druge varijable.

Tema 12 Korelaciona analiza

Funkcionalna zavisnost i korelacija. Čak i Hipokrat u VI veku. BC e. skrenuo je pažnju na postojanje veze između tjelesne građe i temperamenta ljudi, između strukture tijela i predispozicije za određene bolesti. Određeni tipovi takve veze također su identificirani kod životinja i flora. Dakle, postoji veza između tjelesne građe i produktivnosti kod domaćih životinja; poznat je odnos između kvaliteta sjemena i prinosa, itd. Što se tiče ovakvih zavisnosti u ekologiji, postoje zavisnosti između sadržaja teških metala u zemljištu i snežnom pokrivaču od njihove koncentracije u atmosferski vazduh itd. Stoga je prirodno nastojati da se ova pravilnost iskoristi u interesu čovjeka, da joj damo više ili manje precizan kvantitativni izraz.

Kao što znate, za opisivanje odnosa između varijabli koristimo se matematički koncept funkcije f, koji dodjeljuje svakoj specifičnoj vrijednosti nezavisne varijable x određenu vrijednost zavisne varijable y, tj. . Ova vrsta nedvosmislenog odnosa između varijabli x i y pozvao funkcionalan. Međutim, takvi odnosi se ne nalaze uvijek u prirodnim objektima. Dakle, odnos između bioloških i ekoloških karakteristika nije funkcionalne, već statističke prirode, kada u masi homogenih jedinki određena vrijednost jednog atributa koji se smatra argumentom ne odgovara istoj brojčanoj vrijednosti, već čitavom nizu numeričke vrijednosti raspoređene u varijantnoj seriji vrijednosti druge karakteristike koja se smatra zavisnom varijablom ili funkcijom. Ova vrsta odnosa između varijabli naziva se korelacija ili korelacija..

Funkcionalne odnose je lako otkriti i izmjeriti na pojedinačnim i grupnim objektima, ali to se ne može učiniti s korelacijama, koje se mogu proučavati samo na grupnim objektima korištenjem metoda matematičke statistike. Korelacijski odnos između karakteristika može biti linearan i nelinearan, pozitivan i negativan. Zadatak korelacione analize svodi se na utvrđivanje pravca i oblika veze između različitih karakteristika, merenje njene čvrstoće i, konačno, na proveru pouzdanosti pokazatelja korelacije uzorka.

Zavisnost između varijabli X i Y može se izraziti analitički (pomoću formula i jednačina) i grafički (kao lokus tačaka u pravougaonom koordinatnom sistemu). Korelacijski graf se gradi prema jednadžbi funkcije ili , koja se zove regresija. Ovdje su i aritmetičke sredine pronađene pod uslovom da X ili Y poprimiće neke vrijednosti x ili y. Ovi prosjeci se nazivaju uslovno.

11.1. Parametarski indikatori komunikacije

Koeficijent korelacije. Konjugacija između varijabli x i y može se utvrditi poređenjem numeričkih vrijednosti jednog od njih s odgovarajućim vrijednostima drugog. Ako povećanje jedne varijable povećava drugu, to ukazuje pozitivna veza između ovih vrijednosti i obrnuto, kada je povećanje jedne varijable praćeno smanjenjem vrijednosti druge, to ukazuje negativnu vezu.

Za karakterizaciju veze, njenog smjera i stepena konjugacije varijabli koriste se sljedeći indikatori:

    linearna zavisnost - koeficijent korelacije;

    nelinearni - odnos korelacije.

Za određivanje empirijskog koeficijenta korelacije koristi se sljedeća formula:

. (1)

Evo s x i s y su standardne devijacije.

Koeficijent korelacije može se izračunati bez pribjegavanja proračunu standardnih devijacija, što pojednostavljuje rad na proračunu, koristeći sljedeću sličnu formulu:

. (2)

Koeficijent korelacije je bezdimenzionalni broj u rasponu od –1 do +1. Uz neovisnu varijaciju znakova, kada je veza između njih potpuno odsutna, . Što je jača kontingencija između karakteristika, to je veća vrijednost koeficijenta korelacije. Shodno tome, ovaj indikator karakterizira ne samo prisutnost, već i stupanj konjugacije između znakova. Kod pozitivnog ili direktnog odnosa, kada velike vrijednosti jednog atributa odgovaraju velikim vrijednostima drugog, koeficijent korelacije ima pozitivan predznak i kreće se od 0 do +1, s negativnim ili povratnim odnosom, kada velike vrijednosti jednog atributa odgovaraju manjim vrijednostima drugog, koeficijent korelacije je praćen negativnim predznakom i kreće se od 0 do –1.

Koeficijent korelacije našao je široku primjenu u praksi, ali nije univerzalni pokazatelj korelacija, jer može karakterizirati samo linearne odnose, tj. izraženo jednačinom linearne regresije (vidi temu 12). Ako je dostupno, ne linearna zavisnost između različitih znakova, koriste se drugi indikatori veze, o kojima se govori u nastavku.

Proračun koeficijenta korelacije. Ovaj proračun se vrši na različite načine i na različite načine u zavisnosti od broja posmatranja (veličine uzorka). Razmotrimo posebno specifičnosti izračunavanja koeficijenta korelacije u prisustvu malih i velikih uzoraka.

Mali uzorci. U prisustvu malih uzoraka, koeficijent korelacije se izračunava direktno iz vrijednosti konjugiranih karakteristika, bez prethodnog grupisanja podataka uzorka u varijantne serije. Za to se koriste gornje formule (1) i (2). Pogodnije, posebno u prisustvu višecifrenih i razlomaka, koji izražavaju odstupanja varijante X i i y i iz prosjeka i , služe sljedeće radne formule:

gdje ;

;

Evo x i i y i– uparene varijante konjugiranih karakteristika x i y; i su aritmetičke sredine; - razlika između uparenih varijanti konjugiranih karakteristika x i y; nukupan broj uparene opservacije ili veličina uzorka.

Empirijski koeficijent korelacije, kao i svaki drugi indikator uzorka, služi kao njegova procjena opšti parametar ρ i kako je slučajna vrijednost praćena greškom:

Odnos koeficijenta korelacije uzorka i njegove greške služi kao kriterijum za testiranje nulte hipoteze - pretpostavke da je u stanovništva ovaj parametar je jednak nuli, tj. . Nul hipoteza se odbacuje na prihvaćenom nivou značajnosti. α , ako

Vrijednosti kritične tačke t st za različite nivoe značaja α i brojevi stepena slobode dati su u tabeli 1 Dodatka.

Utvrđeno je da prilikom obrade malih uzoraka (posebno kada n< 30 ) izračunavanje koeficijenta korelacije po formulama (1) - (3) daje donekle potcijenjene procjene općeg parametra ρ , tj. potrebno je izvršiti sljedeće izmjene:

Fisher z-transformacija. Ispravna primjena koeficijent korelacije pretpostavlja normalnu distribuciju dvodimenzionalnog skupa konjugiranih vrijednosti slučajnih varijabli x i y. Iz matematičke statistike je poznato da ukoliko postoji značajna korelacija između varijabli, tj. kada R xy > 0,5 uzorak distribucije koeficijenta korelacije za više mali uzorci uzeti iz normalno raspoređene populacije značajno odstupaju od normalne krive.

S obzirom na ovu okolnost, R. Fisher pronašao precizniji način za procjenu opšteg parametra po vrijednosti koeficijenta korelacije uzorka. Ova metoda je zamjena R xy transformirana vrijednost z, koja je povezana sa empirijskim koeficijentom korelacije, kako slijedi:

Raspodjela z vrijednosti je gotovo nepromijenjena po obliku, jer ne ovisi mnogo o veličini uzorka i vrijednosti koeficijenta korelacije u općoj populaciji, te se približava normalnoj raspodjeli.

Kriterijum za pouzdanost indikatora z je sljedeći omjer:

Nul hipoteza se odbacuje na prihvaćenom nivou značajnosti α i broj stepeni slobode. Vrijednosti kritične tačke t st date su u tabeli 1. Prijava.

Aplikacija z-transformacije omogućava više samopouzdanja u proceni statističke značajnosti koeficijenta korelacije uzorka, kao i razlike između empirijskih koeficijenata kada je to potrebno.

Minimalna veličina uzorka za tačnu procjenu koeficijenta korelacije. Moguće je izračunati veličinu uzorka za datu vrijednost koeficijenta korelacije, što bi bilo dovoljno da se pobije nulta hipoteza (ako je korelacija između karakteristika Y i X zaista postoji). Za to se koristi sljedeća formula:

gdje n je željena veličina uzorka; t je vrijednost specificirana prema prihvaćenom nivou značajnosti (bolje za α = 1%); z je konvertovani empirijski koeficijent korelacije.

Veliki uzorci. U prisustvu brojnih početnih podataka, oni se moraju grupirati u varijacione serije i, nakon što je izgrađena korelaciona rešetka, razlika u njenim ćelijama (ćelijama) je ukupne frekvencije konjugovanih serija. Korelaciona rešetka se formira presekom redova i kolona, ​​čiji je broj jednak broju grupa ili klasa koreliranih serija. Klase se nalaze u gornjem redu i u prvoj (lijevoj) koloni korelacijske tablice, a zajedničke frekvencije su označene simbolom f xy, – u ćelijama korelacione mreže, koja je glavni deo korelacione tabele.

Klase koje se nalaze u gornjem redu tabele obično su raspoređene s lijeva na desno uzlaznim redoslijedom, au prvoj koloni tabele - odozgo prema dolje u opadajućem redoslijedu. Sa takvim rasporedom klasa varijacionih nizova, njihove zajedničke frekvencije (u prisustvu pozitivnog odnosa između znakova Y i X) će se rasporediti po ćelijama mreže u obliku elipse dijagonalno od donjeg lijevog ugla do gornjeg desnog kuta mreže ili (ako postoji negativan odnos između karakteristika) u smjeru od gornjeg lijevog ugla prema donjem desnom uglu mreže. Ako su frekvencije f xy su raspoređeni po ćelijama korelacijske mreže manje-više ravnomjerno, bez formiranja elipse, to će ukazivati ​​na nepostojanje korelacije između znakova.

Raspodjela frekvencije f xy po ćelijama korelacione rešetke daje samo opšta ideja o prisutnosti ili odsustvu veze između karakteristika. Procijenite čvrstoću ili manje precizno samo po značenju i znaku koeficijent korelacije. Prilikom izračunavanja koeficijenta korelacije iz preliminarnog grupisanja podataka uzorka u nizove intervalnih varijacija, ne treba uzimati preširoke intervale klasa. Grubo grupisanje ima mnogo jači uticaj na vrijednost koeficijenta korelacije nego što je to slučaj kod izračunavanja prosjeka i indikatora varijacije.

Podsjetimo da je vrijednost intervala klasa određena formulom

gdje x max , x min- maksimalne i minimalne varijante populacije; To je broj klasa u koje treba podijeliti varijaciju karakteristika. Iskustvo je pokazalo da je u oblasti korelacione analize vrednost To može se staviti u zavisnost od veličine uzorka otprilike na sledeći način (tabela 1).

Tabela 1

Veličina uzorka

K vrijednost

50 ≥ n > 30

100 ≥ n > 50

200 ≥ n > 100

300 ≥ n > 200

Kao i druge statističke karakteristike izračunate preliminarnim grupisanjem početnih podataka u varijacione serije, koeficijent korelacije se određuje na različite načine, dajući potpuno identične rezultate.

Način rada. Koeficijent korelacije može se izračunati koristeći osnovne formule (1) ili (2), korigujući ih za ponovljivost varijante u populaciji dimera. Istovremeno, pojednostavljujući simboliku, odstupanja varijanti od njihovih proseka označićemo sa a, tj. i . Tada će formula (2), uzimajući u obzir učestalost odstupanja, uzeti sljedeći izraz:

Pouzdanost ovog indikatora se procjenjuje korištenjem Studentovog testa, koji predstavlja odnos koeficijenta korelacije uzorka i njegove greške, određen formulom

Dakle, i ako ova vrijednost prelazi standardna vrijednost Studentov test t st za stepen slobode i nivo značajnosti α (vidi tabelu 2 u dodatku), zatim Nulta hipoteza odbiti.

Metoda uslovnih prosjeka. Prilikom izračunavanja koeficijenta korelacije devijacije, varijanta („klase“) se može naći ne samo iz aritmetičkih sredina i , već i iz uvjetnih srednjih vrijednosti A x i A y . Ovom metodom brojnik formule (2) se mijenja i formula poprima sljedeći oblik:

gdje f xy su frekvencije klasa jedne i druge serije raspodjele; i , tj. odstupanja klasa od uslovnih prosjeka, vezanih za veličinu intervala časova λ ; n je ukupan broj uparenih opservacija ili veličina uzorka; i su uslovni momenti prvog reda, gdje f x– serijske frekvencije X, a f y– serijske frekvencije Y; s x i s y su standardne devijacije serije X i Y, izračunato po formuli .

Metoda uvjetnih prosjeka ima prednost u odnosu na metodu proizvoda, jer vam omogućava da izbjegnete operacije s razlomcima i date isti (pozitivan) predznak odstupanjima a x i a y, što pojednostavljuje tehniku ​​računskog rada, posebno u prisustvu višecifrenih brojeva.

Procjena razlike između koeficijenata korelacije. Kada se porede koeficijent korelacije dva nezavisna uzorka, nulta hipoteza se svodi na pretpostavku da je u opštoj populaciji razlika između ovih pokazatelja nula. Drugim riječima, treba poći od pretpostavke da je razlika uočena između upoređenih empirijskih koeficijenata korelacije nastala slučajno.

Za testiranje nulte hipoteze koristi se Studentov t-test, tj. omjer razlike između empirijskih koeficijenata korelacije R 1 i R 2 na njegovu statističku grešku, utvrđenu formulom:

gdje s R1 i s R2 su greške upoređenih koeficijenata korelacije.

Nul hipoteza se pobija pod uslovom da je za prihvaćeni nivo značaja α i broj stepeni slobode.

Poznato je da se prevođenjem dobija tačnija procjena pouzdanosti koeficijenta korelacije R xy u broju z. Procjena razlike između koeficijenata korelacije uzorka nije izuzetak. R 1 i R 2 , posebno u onim slučajevima kada su potonji izračunati na uzorcima relativno male veličine ( n< 100 ) i po svojoj apsolutnoj vrijednosti značajno prelaze 0,50.

Razlika se procjenjuje korištenjem Studentovog t-testa, koji se gradi u odnosu na ovu razliku na njegovu grešku, izračunatu po formuli

Nul hipoteza se odbacuje ako je za i prihvaćen nivo značajnosti α.

korelacioni odnos. Za mjerenje nelinearnih odnosa između varijabli x i y koristite indikator tzv korelacioni odnos, koji opisuje odnos dvosmjerno. Konstrukcija korelacione relacije uključuje poređenje dve vrste varijacija: varijabilnost pojedinačnih zapažanja u odnosu na parcijalne proseke i varijaciju samih parcijalnih proseka u poređenju sa ukupnim prosekom. Što je manji dio prve komponente u odnosu na drugu, to će biti veća bliskost veze. U granici, kada se neće uočiti varijacije pojedinačnih vrijednosti atributa u blizini parcijalnih prosjeka, čvrstoća veze će biti izuzetno velika. Slično, u nedostatku varijabilnosti u parcijalnim srednjim vrijednostima, čvrstoća odnosa će biti minimalna. Pošto se ovaj odnos varijacije može uzeti u obzir za svaki od dva znaka, dobijaju se dva indikatora bliskosti veze - h yx i h xy. Omjer korelacije je relativna vrijednost i može imati vrijednosti od 0 do 1. U ovom slučaju koeficijenti korelacijskog omjera obično nisu međusobno jednaki, tj. . Jednakost između ovih indikatora je izvodljiva samo sa striktno linearnim odnosom između karakteristika. Omjer korelacije je univerzalni pokazatelj: omogućava vam da okarakterizirate bilo koji oblik korelacije - i linearne i nelinearne.

Koeficijenti korelacije h yx i h xy utvrđeno gore navedenim metodama, tj. metoda proizvoda i metoda uslovnih prosjeka.

Način rada. Koeficijenti korelacije h yx i h xy određuje se prema sljedećim formulama:

gdje i su grupne varijanse,

i i su uobičajene varijanse.

Ovdje i su zajedničke aritmetičke sredine, i i su grupne aritmetičke sredine; f yi– serijske frekvencije Y, a f xi– serijske frekvencije X; k– broj časova; n je broj varijabilnih karakteristika.

Radne formule za izračunavanje koeficijenata korelacionog omjera su sljedeće:

Metoda uslovnih prosjeka. Određivanje koeficijenata korelacionog odnosa prema formulama (15), odstupanja klasne varijante x i i y i može se uzeti ne samo iz aritmetičke sredine i , već i iz uslovnih sredina A x i A y . U takvim slučajevima, grupa i ukupna odstupanja se izračunavaju pomoću formula i , i također, i , gdje i .

U proširenom obliku, formule (15) izgledaju ovako:

;

. (17)

U ovim formulama i su odstupanja klasa od uslovnih prosjeka, umanjena za vrijednost intervala klasa; vrijednosti a y i a x su izraženi prirodnim brojevima: 0, 1, 2, 3, 4, .... Ostali simboli su objašnjeni iznad.

Upoređujući metodu proizvoda sa metodom uslovnih prosjeka, ne može se ne uočiti prednost prve metode, posebno u onim slučajevima kada se radi o višecifrenim brojevima. Kao i drugi indikatori uzorka, korelacijski omjer je procjena njegovog općeg parametra i, kao slučajna vrijednost, prati ga greška određena formulom

Pouzdanost procjene korelacijske veze može se provjeriti Studentovim t-testom. H 0 -hipoteza polazi od pretpostavke da je opšti parametar jednak nuli, tj. mora biti ispunjen sljedeći uslov:

za broj stepena slobode i nivo značajnosti α.

Koeficijent determinacije. Za tumačenje vrijednosti koje uzimaju indikatori bliskosti korelacije, koristite koeficijenti determinacije, koji pokazuju koliki udio varijacije jedne karakteristike zavisi od varijacije druge karakteristike. U prisustvu linearne veze, koeficijent determinacije je kvadrat koeficijenta korelacije R2 xy , a u slučaju nelinearne veze između karakteristika y i x je kvadrat korelacionog omjera h2 yx . Koeficijenti determinacije daju osnovu da se izgradi sljedeća približna skala, koja omogućava procjenu bliskosti odnosa između znakova: kada se odnos smatra prosječnim; ukazuje na slabu povezanost, a samo kada je moguće suditi o jakoj povezanosti, kada je oko 50% varijacije osobine Y zavisi od varijacije osobina X.

Evaluacija komunikacijskog obrasca. Sa striktno linearnim odnosom između varijabli y i x postignuta je ravnopravnost. U takvim slučajevima koeficijenti korelacionog odnosa poklapaju se sa vrednošću koeficijenta korelacije. U ovom slučaju, koeficijenti determinacije će se takođe poklapati u svojoj vrijednosti, tj. . Stoga se po razlici ovih vrijednosti može suditi o obliku korelacione zavisnosti između varijabli y i x:

Očigledno, sa linearnim odnosom između varijabli y i x eksponent γ će biti jednak nuli; ako je odnos između varijabli y i x nelinearni, γ > 0.

Indikator γ je procjena opšteg parametra i, kao slučajna vrijednost, treba ga provjeriti. U ovom slučaju polazimo od pretpostavke da je odnos između veličina y i x linearna (nulta hipoteza). Fisherov F-kriterijum vam omogućava da testirate ovu hipotezu:

gdje a- broj grupa, odnosno odeljenja varijantne serije; N je veličina uzorka. Nul hipoteza se odbacuje ako je za (naći horizontalno u Tabeli 2 Dodatka), (pronaći u prvoj koloni iste tabele) i prihvaćen nivo značajnosti α.

Određivanje značaja korelacije

Klasifikacije koeficijenata korelacije

Koeficijente korelacije karakteriše snaga i značaj.

Klasifikacija koeficijenata korelacije prema jačini.

Klasifikacija koeficijenata korelacije prema značajnosti.

Ove 2 klasifikacije ne treba brkati, jer definišu različite karakteristike. Snažna korelacija može se pokazati slučajnom i stoga nepouzdanom. Ovo posebno vrijedi za male uzorke. A u velikom uzorku, čak i slaba korelacija može biti veoma značajna.

Nakon izračunavanja koeficijenta korelacije, potrebno je postaviti statističke hipoteze:

H 0: Indeks korelacije se ne razlikuje značajno od nule (slučajan je).

H 1: indikator korelacije se značajno razlikuje od nule (nije slučajan).

Testiranje hipoteze vrši se poređenjem dobijenih empirijskih koeficijenata sa tabelarno prikazanim kritičnim vrednostima. Ako empirijska vrijednost dostigne kritičnu vrijednost ili je premaši, tada se nulta hipoteza odbacuje: r emp ≥ r cr Ho, Þ H 1 . U takvim slučajevima se zaključuje da je utvrđena značajna razlika.

Ako empirijska vrijednost ne prelazi kritičnu vrijednost, tada se nulta hipoteza ne odbacuje: r emp< r кр Þ Н 0 . В таких случаях делают вывод, что достоверность различий не установлена.

/ Statistika / Korelacija

Izračunavanje matrice koeficijenata para

korelacije

Da biste izračunali matricu uparenih koeficijenata korelacije, pozovite meni Korelacione matrice modul Osnovestatistika podataka.

Rice. 1 Glavna ploča modula statistike

Razmotrićemo glavne faze korelacione analize u sistemu STATISTICA koristeći podatke primera (vidi sliku 2). Početni podaci su rezultati posmatranja aktivnosti 23 preduzeća u jednoj od delatnosti.

Sl.2 Početni podaci

Kolone tabele sadrže sledeće indikatore:

RENTABEL - profitabilnost,%;

DIJELI SLOVE - specifična gravitacija radnici u JPP, jedinice;

FUNDOOTD - povrat na sredstva, jedinice;

FOND KAPITALA - prosječna godišnja vrijednost osnovnih proizvodnih sredstava, miliona rubalja;

NEPRRASH - neproizvodni troškovi, hiljada rubalja. Potrebno je istražiti zavisnost profitabilnosti od drugih

drugi indikatori.

Pretpostavimo da se karakteristike koje se razmatraju u opštoj populaciji pridržavaju zakona normalne distribucije, a podaci opservacije predstavljaju uzorak iz populacije.

Izračunajmo koeficijente parne korelacije između svih varijabli. Nakon odabira reda Korelacione matrice dijaloški okvir će se pojaviti na ekranu. Pirsonove korelacije. Naziv je dobio zbog činjenice da je po prvi put ovaj koeficijent bio Pearson, Edgeworth i Weldon.

Odaberimo varijable za analizu. Za ovo postoje dva dugmeta u dijaloškom okviru: Square matrica(jedna lista) i Pravougaona matrica(dvije liste).


Rice. 3 Dijaloški okvir za analizu korelacije

Prvo dugme je dizajnirano za izračunavanje uobičajene matrice. simetrični oblik sa uparenim koeficijentima korelacije svih kombinacija varijabli. Ako se u analizi koriste svi indikatori, tada u dijaloškom okviru za odabir varijable možete kliknuti na dugme Izaberi sve. (Ako varijable nisu uzastopne, mogu se odabrati klikom miša sa istovremeno pritisnutim tasterom ctrl)


Ako pritisnete dugme Detalji dijalog, duga imena će biti prikazana za svaku varijablu. Ponovnim klikom na ovo dugme (poprimiće ime Ukratko), dobijamo kratka imena.

Dugme Informacije otvara prozor za odabranu varijablu u kojem možete vidjeti njene karakteristike: dug naziv, format prikaza, sortiranu listu vrijednosti, deskriptivnu statistiku (broj vrijednosti, srednja vrijednost, standardna devijacija).

Nakon odabira varijabli, pritisnite OK ili tipku Korrelation dijaloški okvir Korelacije Pearson. Izračunata matrica korelacije će se pojaviti na ekranu.

Značajni koeficijenti korelacije su na ekranu istaknuti crvenom bojom.

Pokazalo se da je u našem primjeru pokazatelj profitabilnosti najviše povezan s pokazateljima produktivnost kapitala(direktna veza) i troškovi proizvodnje(povratne informacije sugeriraju da se V smanjuje kako X raste). Ali koliko su ti znakovi blisko povezani? Bliska veza se smatra kada su vrijednosti modulo koeficijenta veće od 0,7 i slabe - manje od 0,3. Dakle, u daljoj konstrukciji regresione jednačine treba se ograničiti na indikatore „Povrat proizvoda“ i „Neproizvodni troškovi“ kao najinformativnije.

Međutim, u našem primjeru postoji jedan fenomen višebojni, kada postoji veza između samih nezavisnih varijabli (koeficijent korelacije para po modulu veći od 0,8).

Opcija pravokutna matrica (dvije liste varijabli) otvara dijaloški okvir za odabir dvije liste varijabli. Postavite kao što je prikazano


Kao rezultat, dobijamo pravougaonu matricu korelacije koja sadrži samo koeficijente korelacije sa zavisnom varijablom.


Ako je opcija postavljena Corr. Matrica (istaknuti značajno), zatim nakon pritiska na dugme Korelacija biće izgrađena matrica sa koeficijentima istaknutim na nivou značajnosti R.


Ako je opcija odabrana Detaljna tabela rezultata, a zatim pritiskom na dugme Korelacije, dobijamo tabelu koja sadrži ne samo koeficijente korelacije, već i proseke, standardne devijacije, koeficijente regresijske jednačine, slobodni član u jednačini regresije i druge statistike


Kada varijable imaju malu relativnu varijaciju (standardna devijacija znači manje od 0,0000000000001), potrebna je viša procjena. Može se postaviti tako što ćete potvrditi izbor u polju za potvrdu Izračuni sa visokom preciznošću u dijalogu Pearsonove korelacije.

Način rada sa nedostajućim podacima određen je opcijom Brisanje red po red PD. Ako je odabrano, STATISTIKA će zanemariti sva zapažanja koja imaju praznine. Inače se uklanjaju u paru.

Polje za potvrdu Prikaži duga imena varijabli rezultiraće tablicom s dugim imenima varijabli.

Grafički prikaz korelacionih zavisnosti

Dijaloški okvir Pearson Correlation sadrži niz dugmadi za dobijanje grafička slika korelacione zavisnosti.

Opcija 2M dijagrama raspršenja gradi niz dijagrama raspršenja za svaku odabranu varijablu. Prozor za njihov izbor je identičan kao na slici 6. Na lijevoj strani treba navesti zavisne varijable, na desnoj strani nezavisnu - IZNAJMLJIVANJE. Klikom na OK dobićemo grafikon koji će prikazati prestignutu liniju regresije i granice pouzdanosti prognoze.

Koeficijent linearne korelacije daje najobjektivniju procjenu čvrstoće veze, ako lokacija tačaka u koordinatnom sistemu liči na pravu liniju ili izduženu elipsu, ali ako se tačke nalaze u obliku krive, tada koeficijent korelacije daje potcenjivanje.

Na osnovu grafikona još jednom možemo potvrditi vezu između profitabilnosti i prinosa na sredstva, jer su podaci posmatranja raspoređeni u obliku kose elipse. Mora se reći da se veza smatra bližom, što su tačke bliže glavnoj osi elipse.

U našem primjeru, promjena stope prinosa na sredstva po jedinici dovešće do promjene profitabilnosti za 5,7376%.

Pogledajmo uticaj neproizvodnih troškova na vrijednost profitabilnosti. Da bismo to učinili, napravit ćemo sličan graf

Analizirani podaci su manje poput elipse, a koeficijent korelacije je nešto niži. Pronađena vrijednost koeficijenta regresije pokazuje da se s povećanjem neproizvodnih troškova za 1 hiljadu rubalja, profitabilnost smanjuje za 0,7017%.

Treba napomenuti da konstrukcija višestruke regresije (o kojoj se govori u narednim poglavljima), kada jednadžba sadrži obje karakteristike u isto vrijeme, dovodi do drugih vrijednosti koeficijenata regresije, što se objašnjava interakcijom varijabli koje objašnjavaju jedan drugog.

Kada koristite dugme Imenovano, tačke na dijagramu raspršenja će dobiti odgovarajuće brojeve ili imena ako su unapred definisane.

Sljedeća opcija sa indikacijom dijagrama Matrix iscrtava matricu dijagrama raspršenosti za odabrane varijable.

Svaki grafički element ove matrice sadrži korelaciona polja formirana od odgovarajućih varijabli sa

regresijska linija nacrtana na njima.

Prilikom analize matrice dijagrama raspršenja treba obratiti pažnju na one grafove čije linije regresije imaju značajan nagib prema X osi, što ukazuje na postojanje međuzavisnosti između odgovarajućih predznaka.

Opcija 3D raspršivanja gradi 3D korelacijsko polje za odabrane varijable. Ako se koristi dugme Imenovano, tačke na dijagramu raspršenja će biti označene brojevima ili nazivima odgovarajućih zapažanja, ako ih imaju.

Grafička opcija Surface iscrtava 3M dijagram raspršenja za odabranu trojku varijabli zajedno sa ugrađenom površinom drugog reda.

Kategorija opcija. dijagrami rasipanja, zauzvrat, grade kaskadu korelacionih polja za odabrane indikatore.

Nakon pritiska na odgovarajuće dugme, program će tražiti od korisnika da kreira dva skupa od prethodno odabranih pomoću dugmeta Varijable. Zatim će se na ekranu pojaviti novi.

prozor upita za određivanje varijable grupisanja na osnovu koje će se klasifikovati svi dostupni slučajevi.

Rezultat je konstrukcija korelacijskih polja u kontekstu grupa zapažanja za svaki par varijabli dodijeljenih različitim listama

3.4. Izračunavanje parcijalnih i višestrukih koeficijenatakorelacioni elementi

Za izračunavanje privatnih i višestrukih koeficijenata kor. relacija poziva modul Višestruka regresija pomoću dugmeta za biranje modula. Na ekranu će se pojaviti sljedeći dijaloški okvir:

Pritiskanje dugmeta Varijable, odaberite varijable za analizu: lijevo ovisno - profitabilnost, a desno su nezavisni - produktivnost kapitala i neproizvodni troškovi. Preostale varijable neće učestvovati u daljoj analizi – na osnovu korelacione analize prepoznaju se kao neinformativne za regresijski model.

Na terenu Ulazni fajl kao ulazni podaci nude se uobičajeni početni podaci, a to je tabela sa varijablama i zapažanjima ili korelacioni matrica. Matrica korelacije može se unaprijed kreirati u samom modulu višestruke regresije ili izračunati korištenjem opcije Quick Basic Statistics.

Prilikom rada s izvornom datotekom podataka, možete postaviti način rada s prazninama:

    Brisanje red po red. Kada je ova opcija odabrana, u analizi se koriste samo slučajevi koji nemaju vrijednosti koje nedostaju u svim odabranim varijablama.

    Zamjena prosjeka. Vrijednosti koje nedostaju u svakoj varijabli zamjenjuju se prosjekom izračunatim iz dostupnih kompletnih zapažanja.

    Parno uklanjanje podataka koji nedostaju. Ako je ova opcija odabrana, tada se prilikom izračunavanja parnih korelacija uklanjaju zapažanja koja imaju nedostajuće vrijednosti u odgovarajućim parovima varijabli.

Na terenu Tip regresije korisnik može izabrati standardnu ​​ili fiksnu nelinearnu regresiju. Podrazumevano je odabrana standardna analiza višestruke regresije koja izračunava standardnu ​​matricu korelacije svih odabranih varijabli.

Mode Fiksna nelinearna regresija omogućava vam da izvršite različite transformacije nezavisnih varijabli. Opcija Uradite analizu po defaultu, koristi postavke koje odgovaraju definiciji standardne regresijske linije koja uključuje presretanje. Ako je ova opcija poništena, klikom na dugme OK na lansirnoj ploči otvorit će se dijaloški okvir Definicija modela, u kojem možete odabrati i tip regresione analize (na primjer, postupno, greben, itd.) i druge opcije.

Označavanjem polja za potvrdu u liniji opcija Prikaži opisni opis, ispr. matrice i klikom na OK dobijamo dijaloški okvir sa statističkim karakteristikama podataka.

U njemu možete pogledati detaljnu deskriptivnu statistiku (uključujući broj opservacija na osnovu kojih je izračunat koeficijent korelacije za svaki par varijabli). Kliknite OK da nastavite analizu i otvorite okvir za dijalog Model Definers.

Ako analizirani indikatori imaju izuzetno malu relativnu varijansu, izračunatu kao ukupna varijansa podijeljena sa srednjom vrijednosti, tada trebate označiti kvadratić pored opcije Visoko precizni proračuni za dobijanje preciznijih vrednosti elemenata korelacione matrice.

Postavljanjem svih potrebnih parametara u dijalog box-u Višestruka regresija, pritisnite OK i dobijte rezultate traženih proračuna.

Prema našem primjeru, koeficijent višestruke korelacije je 0,61357990 i, shodno tome, koeficijent determinacije - 0,37648029. Tako se samo 37,6% disperzije pokazatelja "rentabilnosti" objašnjava promjenom indikatora "kapitalne produktivnosti" i "neproizvodnih troškova". Ovako niska vrijednost ukazuje na nedovoljan broj faktora koji su uvedeni u model. Pokušajmo promijeniti broj nezavisnih varijabli dodavanjem varijable "Osnovna sredstva" na listu (uvođenje indikatora "udio radnika u JPP" u model dovodi do multikolenijalnosti, što je neprihvatljivo). Koeficijent determinacije je blago porastao, ali nedovoljno da bi se rezultati značajno poboljšali – njegova vrijednost je bila oko 41%. Očigledno, naša dacha zahtijeva dodatna istraživanja kako bi se identificirali faktori koji utječu na profitabilnost.

Značajnost koeficijenta višestruke korelacije izračunava se prema tablici Fisher F-kriterija. Hipoteza o njegovoj značajnosti se odbacuje ako vrijednost vjerovatnoće odstupanja premašuje dati nivo (najčešće se uzima a = 0,1, 0,05; 0,01 0,001). U našem primjeru p=0,008882< 0.05, что свидетельствует о значимости коэффициента.

Tabela rezultata sadrži sljedeće kolone:

    Beta koeficijent (in)- standardizovani koeficijent regresije za odgovarajuću varijablu;

    Parcijalna korelacija- parcijalni koeficijenti korelacije između odgovarajuće varijable i zavisne, uz fiksiranje uticaja ostatka uključenog u model.

Parcijalni koeficijent korelacije između profitabilnosti i kapitalne produktivnosti u našem primjeru je 0,459899. To znači da se nakon unošenja u model indikatora neproduktivne rase-ev uticaj kapitalne produktivnosti na profitabilnost donekle smanjuje - sa 0,49 (vrijednost koeficijenta korelacije para) na 0,46. Sličan koeficijent za pokazatelj neproizvedenih rashoda je takođe smanjen - sa 0,46 (vrijednost koeficijenta korelacije para) na 0,42 (vrijednost se uzima po modulu), karakteriše promjenu odnosa sa zavisnom varijablom nakon unosa indikator kapitalne produktivnosti u model.

    Polu-parcijalna korelacija je korelacija između neprilagođene zavisne varijable i odgovarajuće nezavisne varijable, uzimajući u obzir uticaj ostalih uključenih u model.

    Tolerancija (definirana kao 1 minus kvadrat višestruke korelacije između relevantne varijable i svih nezavisnih varijabli u jednadžbi regresije).

    Koeficijent determinacije je kvadrat koeficijenta višestruke korelacije između odgovarajuće nezavisne varijable i svih ostalih varijabli uključenih u jednadžbu regresije.

    1-vrijednosti - izračunata vrijednost Studentovog t-testa za testiranje hipoteze o značajnosti parcijalnog koeficijenta korelacije sa navedenim (u zagradama) brojem stupnjeva slobode.

    p-nivo! - vjerovatnoća odbacivanja hipoteze o značajnosti parcijalnog koeficijenta korelacije.

U našem slučaju dobijena vrijednost p za prvi koeficijent (0,031277) je manja od odabrane =0,05. Vrijednost drugog koeficijenta neznatno ga premašuje (0,050676), što ukazuje na njegovu beznačajnost na ovom nivou. Ali značajno je, na primjer, kada je =0,1 (u deset slučajeva od sto, hipoteza će i dalje biti pogrešna).

Gdje su x y , x , y srednje vrijednosti uzoraka; σ(x), σ(y) - standardne devijacije.
osim toga, Pearsonov linearni koeficijent korelacije para može se odrediti kroz koeficijent regresije b: , gdje su σ(x)=S(x), σ(y)=S(y) standardne devijacije, b je koeficijent ispred x u regresijskoj jednadžbi y=a+ bx .

Druge opcije formule:
ili

K xy - korelacijski moment (koeficijent kovarijacije)

Za pronalaženje linearnog Pearsonovog koeficijenta korelacije potrebno je pronaći srednje vrijednosti uzorka x i y i njihove standardne devijacije σ x = S(x), σ y = S(y):

Koeficijent linearne korelacije ukazuje na prisutnost veze i uzima vrijednosti od -1 do +1 (pogledajte Chaddock skalu). Na primjer, kada se analizira čvrstoća linearne korelacije između dvije varijable, dobijen je parni koeficijent linearne korelacije jednak –1. To znači da postoji tačna inverzna linearna veza između varijabli.

Možete izračunati vrijednost koeficijenta korelacije koristeći date srednje vrijednosti uzorka ili direktno.

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy "> Izračunajte svoju vrijednost

Geometrijsko značenje koeficijenta korelacije: r xy pokazuje koliko se razlikuje nagib dvije linije regresije: y(x) i x(y), koliko se razlikuju rezultati minimiziranja odstupanja u x i u y. Što je veći ugao između linija, veći je r xy .
Predznak koeficijenta korelacije poklapa se sa predznakom koeficijenta regresije i određuje nagib linije regresije, tj. opći smjer ovisnosti (povećanje ili smanjenje). Apsolutna vrijednost koeficijenta korelacije određena je stepenom blizine tačaka regresijskoj liniji.

Svojstva koeficijenta korelacije

  1. |r xy | ≤ 1;
  2. ako su X i Y nezavisni, onda je r xy =0, suprotno nije uvijek tačno;
  3. ako je |r xy |=1, onda Y=aX+b, |r xy (X,aX+b)|=1, gdje su a i b konstantni i ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, gdje su a 1 , a 2 , b 1 , b 2 konstante.

Stoga, za provjere smjera veze test hipoteze se odabire korištenjem Pearsonovog koeficijenta korelacije uz korištenje daljnjeg testa za pouzdanost t-test(vidi primjer u nastavku).

Tipični zadaci (vidi i nelinearnu regresiju)

Tipični zadaci
Zavisnost produktivnosti rada y od stepena mehanizacije rada x (%) proučavana je prema podacima 14 industrijskih preduzeća. Statistički podaci dati su u tabeli.
Obavezno:
1) Pronađite procjene za parametre linearne regresije y na x. Napravite dijagram raspršenja i nacrtajte liniju regresije na dijagramu raspršenja.
2) Na nivou značajnosti α=0,05 testirati hipotezu o saglasnosti između linearne regresije i rezultata opservacije.
3) Sa pouzdanošću γ=0,95 pronaći intervale povjerenja za parametre linearne regresije.

Sa ovim kalkulatorom se također koriste sljedeće:
Jednačina višestruke regresije

Primjer. Na osnovu podataka datih u Dodatku 1 i koji odgovaraju vašoj opciji (Tabela 2), potrebno vam je:

  1. Izračunajte koeficijent linearne parne korelacije i konstruirajte jednadžbu linearne parne regresije jedne karakteristike od druge. Jedan od znakova koji odgovara vašoj opciji će igrati ulogu faktorijala (x), a drugi - efektivnog (y). Uspostaviti uzročno-posledične veze između znakova na osnovu ekonomske analize. Objasnite značenje parametara jednačine.
  2. Odredite teorijski koeficijent determinacije i zaostalu (neobjašnjenu jednadžbom regresije) varijansu. Napravite zaključak.
  3. Procijenite statističku značajnost regresione jednačine kao cjeline na nivou od 5 posto koristeći Fišerov F-test. Napravite zaključak.
  4. Izvršite prognozu očekivane vrijednosti atributa-rezultata y sa predviđenom vrijednošću faktora-atributa x, koja iznosi 105% prosječnog nivoa x. Procijenite tačnost prognoze tako što ćete izračunati grešku prognoze i njen interval povjerenja s vjerovatnoćom od 0,95.
Rješenje. Jednačina je y = ax + b
Prosjeci



Disperzija


standardna devijacija



Veza između faktora Y osobine X je jaka i direktna (određena Chaddock skalom).
Regresijska jednačina

Koeficijent regresije: k = a = 4,01
Koeficijent determinacije
R 2 = 0,99 2 = 0,97, tj. u 97% slučajeva promjene x dovode do promjene y. Drugim riječima, tačnost odabira jednačine regresije je visoka. Ostatak disperzije: 3%.
xyx2y2x yy(x)(y i -y ) 2(y-y(x)) 2(x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Napomena: y(x) vrijednosti se nalaze iz rezultirajuće regresione jednadžbe:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

Značaj koeficijenta korelacije

Izneli smo hipoteze:
H 0: r xy = 0, ne postoji linearna veza između varijabli;
H 1: r xy ≠ 0, postoji linearna veza između varijabli;
Da bi se testirala nulta hipoteza na nivou značajnosti α da je opšti koeficijent korelacije normalne dvodimenzionalne slučajna varijabla uz konkurentnu hipotezu H 1 ≠ 0, potrebno je izračunati uočenu vrijednost kriterija (vrijednost slučajne greške):

Prema Studentovoj tabeli nalazimo t tab (n-m-1; α / 2) = (10; 0,025) = 2,228
Pošto je Tobs > t tab, odbacujemo hipotezu da je koeficijent korelacije jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan.
Procjena intervala za koeficijent korelacije (interval povjerenja)


r - Δr ≤ r ≤ r + Δr
Δ r = ±t tabela m r = ±2,228 0,0529 = 0,118
0,986 - 0,118 ≤ r ≤ 0,986 + 0,118
Interval pouzdanosti za koeficijent korelacije: 0,868 ≤ r ≤ 1

Analiza tačnosti određivanja procjena regresijskih koeficijenata





Sa =0,2152

Intervali povjerenja za zavisnu varijablu

Izračunajmo granice intervala u kojima će 95% mogućih vrijednosti Y biti koncentrisano neograničeno veliki brojevi zapažanja i X = 7
(122.4;132.11)
Testiranje hipoteza o koeficijentima linearna jednačina regresija

1) t-statistika




Potvrđena je statistička značajnost koeficijenta regresije
Interval povjerenja za koeficijente regresione jednadžbe
Odredimo intervale povjerenja koeficijenata regresije, koji će sa pouzdanošću od 95% biti sljedeći:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)