Koeficijenti korelacije

Do sada smo saznali samo samu činjenicu postojanja statističke veze između dvije karakteristike. Zatim ćemo pokušati saznati koji se zaključci mogu izvući o snazi ​​ili slabosti ove zavisnosti, kao io njenom obliku i smjeru. Kriterijumi za kvantificiranje odnosa između varijabli nazivaju se koeficijenti korelacije ili mjere povezanosti. Dvije varijable su u pozitivnoj korelaciji ako između njih postoji direktna, jednosmjerna veza. U jednosmjernom odnosu, male vrijednosti jedne varijable odgovaraju malim vrijednostima druge varijable, velike vrijednosti odgovaraju velikim. Dvije varijable su u negativnoj korelaciji ako između njih postoji inverzna veza. Kod višesmjernog odnosa, male vrijednosti jedne varijable odgovaraju velikim vrijednostima druge varijable i obrnuto. Vrijednosti koeficijenata korelacije su uvijek u rasponu od -1 do +1.

Kao koeficijent korelacije između varijabli koje pripadaju redni primijenjena skala Spearmanov koeficijent, i za varijable koje pripadaju interval skala - Pearsonov koeficijent korelacije(trenutak radova). Treba napomenuti da se svaka dihotomna varijabla, odnosno varijabla koja pripada nominalnoj skali i ima dvije kategorije, može smatrati kao redni.

Prvo ćemo provjeriti postoji li korelacija između varijabli spola i psihe iz datoteke studium.sav. U ovom slučaju, dihotomna varijabla sex može se smatrati ordinalnim. Uradite sljedeće:

    Izaberite iz komandnog menija Analiza (Analiza) Deskriptivna statistika (Deskriptivna statistika) Unakrsne tabele... (Tabele kontingentnosti)

    Premjesti varijablu sex na listu stringova i varijablu Psihe- na listu kolona.

    Kliknite na dugme Statistika... (Statistika). U dijalogu Crosstabs: Statistics, označite polje Korelacije. Potvrdite svoj izbor dugmetom Nastavi.

    U dijalogu unakrsne tabele Zaustavite prikazivanje tabela tako što ćete potvrditi izbor u polju za potvrdu Suzbiti tabele. Kliknite na dugme OK.

Izračunat će se Spearman i Pearson koeficijenti korelacije, a njihova značajnost će se testirati:

Simetrične mjere

vrijednost Asympt. Std. Greška(a) (Asimptotska standardna greška) Pribl. T (b) (približno T) Pribl. Sig. (približan značaj)
Interval po intervalu (Interval - interval) Pearsonov R
(R Pearson)
,441 ,081 5,006 .000 (s)
Ordinal po rednom (Ordinal - Ordinal) Spearmanova korelacija (Spearmanova korelacija) ,439 ,083 4,987 .000 (s)
N važećih slučajeva 106

Budući da ovdje nema intervalno skaliranih varijabli, razmotrit ćemo Spearmanov koeficijent korelacije. Ona iznosi 0,439 i najznačajnija je (str<0,001).

Sljedeća tabela se koristi za verbalno opisivanje vrijednosti koeficijenta korelacije:

Na osnovu gornje tabele mogu se izvesti sljedeći zaključci: Postoji slaba korelacija između varijabli spol i psiha (zaključak o jačini zavisnosti), varijable koreliraju pozitivno (zaključak o smjeru zavisnosti).

U varijabli psihe, manje vrijednosti odgovaraju negativnom mentalnom stanju, a veće vrijednosti odgovaraju pozitivnom. U varijabli spola, zauzvrat, vrijednost "1" odgovara ženskom rodu, a "2" - muškom.

Shodno tome, jednosmjerni odnos se može tumačiti na sljedeći način: studentice negativno procjenjuju svoje psihičko stanje od kolega ili, najvjerovatnije, češće pristaju na takvu ocjenu prilikom sprovođenja ankete. imajte na umu da korelacija između dvije osobine nije nužno ista kao i njihova funkcionalna ili uzročna veza, pogledajte odjeljak 15.3 za više o tome.

Sada provjerimo korelaciju između alter i semestarskih varijabli. Primijenimo gore opisanu metodu. Dobićemo sledeće koeficijente:

Simetrične mjere

Asympt. Std. greška(a)

Interval po interval

Ordinal by Ordinal

Spearmanova korelacija

N važećih slučajeva

a. Ne pretpostavljajući nultu hipotezu (Nulta hipoteza nije prihvaćena).

e. Korištenje asimptotske standardne greške uz pretpostavku nulte hipoteze.

With. Zasnovano na normalnoj aproksimaciji.

Budući da su alter i semestar metričke varijable, razmotrićemo Pearsonov koeficijent (moment proizvoda). To je 0,807. Postoji jaka korelacija između alter i semestarskih varijabli. Varijable su u pozitivnoj korelaciji. Shodno tome, stariji studenti uče na višim kursevima, što, zapravo, nije neočekivan zaključak.

Provjerimo varijable sozial (procjena društvenog položaja) i psiha na korelaciju. Dobićemo sledeće koeficijente:

Simetrične mjere

Asympt. Std. greška(a)

Interval po interval

Ordinal by Ordinal

Spearmanova korelacija

N važećih slučajeva

a. Ne pretpostavljajući nultu hipotezu (Nulta hipoteza nije prihvaćena).

b. Korištenje asimptotske standardne greške uz pretpostavku nulte hipoteze.

With. Zasnovano na normalnoj aproksimaciji.

U ovom slučaju ćemo uzeti u obzir Spearmanov koeficijent korelacije; iznosi -0,703. Postoji umjerena do jaka korelacija između socijalne i psihe (granična vrijednost 0,7). Varijable su u negativnoj korelaciji, odnosno što je veća vrijednost prve varijable, to je niža vrijednost druge i obrnuto. Budući da male vrijednosti varijable sozial karakteriziraju pozitivno stanje (1 = vrlo dobro, 2 = dobro), a velike vrijednosti psihe karakteriziraju negativno stanje (1 = ekstremno nestabilno, 2 = nestabilno), stoga se javljaju psihološke poteškoće uglavnom zbog društvenih problema.

Koeficijent korelacije je stepen povezanosti između dvije varijable. Njegov proračun daje ideju da li postoji veza između dva skupa podataka. Za razliku od regresije, korelacija ne dozvoljava predviđanje vrijednosti. Međutim, izračunavanje koeficijenta je važan korak u preliminarnoj statističkoj analizi. Na primjer, utvrdili smo da je koeficijent korelacije između nivoa direktnih stranih investicija i rasta BDP-a visok. To nam daje ideju da je za osiguranje prosperiteta potrebno stvoriti povoljnu klimu posebno za strane poduzetnike. Na prvi pogled ne tako očigledan zaključak!

Korelacija i uzročnost

Možda ne postoji niti jedna oblast statistike koja bi bila tako čvrsto utemeljena u našim životima. Koeficijent korelacije se koristi u svim oblastima javnog znanja. Njegova glavna opasnost leži u činjenici da se često nagađa o njegovim visokim vrijednostima kako bi se ljudi uvjerili i natjerali da povjeruju u neke zaključke. Međutim, u stvari, jaka korelacija uopće ne ukazuje na uzročnu vezu između količina.

Koeficijent korelacije: Pirsonova i Spirmanova formula

Postoji nekoliko glavnih indikatora koji karakterišu odnos između dvije varijable. Istorijski gledano, prvi je Pirsonov linearni koeficijent korelacije. Polaže se u školi. Razvili su ga K. Pearson i J. Yule na osnovu rada Fr. Galton. Ovaj koeficijent vam omogućava da vidite odnos između racionalnih brojeva koji se racionalno mijenjaju. Uvijek je veći od -1 i manji od 1. Negativan broj ukazuje na obrnuto proporcionalnu vezu. Ako je koeficijent jednak nuli, onda nema veze između varijabli. Jednako pozitivnom broju - postoji direktno proporcionalna veza između proučavanih veličina. Spearmanov koeficijent korelacije ranga omogućava pojednostavljenje proračuna konstruiranjem hijerarhije varijabilnih vrijednosti.

Odnosi između varijabli

Korelacija pomaže da se odgovori na dva pitanja. Prvo, da li je odnos između varijabli pozitivan ili negativan. Drugo, koliko je jaka ovisnost. Korelaciona analiza je moćan alat za dobijanje ovih važnih informacija. Lako je uočiti da prihodi i rashodi domaćinstava rastu i padaju proporcionalno. Takav odnos se smatra pozitivnim. Naprotiv, kada cijena proizvoda raste, potražnja za njim opada. Takav odnos se naziva negativnim. Vrijednosti koeficijenta korelacije su između -1 i 1. Nula znači da ne postoji veza između proučavanih vrijednosti. Što je indikator bliži ekstremnim vrijednostima, to je jača veza (negativna ili pozitivna). O odsustvu zavisnosti svjedoči koeficijent od -0,1 do 0,1. Mora se shvatiti da takva vrijednost samo ukazuje na odsustvo linearnog odnosa.

Karakteristike aplikacije

Upotreba oba indikatora podliježe određenim pretpostavkama. Prvo, prisustvo jake veze ne određuje činjenicu da jedna vrijednost određuje drugu. Možda postoji treća veličina koja definira svaku od njih. Drugo, visok Pearsonov koeficijent korelacije ne ukazuje na uzročnu vezu između proučavanih varijabli. Treće, pokazuje isključivo linearan odnos. Korelacija se može koristiti za procjenu značajnih kvantitativnih podataka (npr. barometarski pritisak, temperatura zraka) umjesto kategorija kao što su spol ili omiljena boja.

Višestruki koeficijent korelacije

Pearson i Spearman su istraživali odnos između dvije varijable. Ali šta učiniti ako ih ima tri ili čak više. Ovdje dolazi do izražaja koeficijent višestruke korelacije. Na primjer, na bruto nacionalni proizvod utiču ne samo direktne strane investicije, već i monetarna i fiskalna politika države, kao i nivo izvoza. Stopa rasta i obim BDP-a rezultat su interakcije brojnih faktora. Međutim, treba shvatiti da je model višestruke korelacije zasnovan na brojnim pojednostavljenjima i pretpostavkama. Prvo, multikolinearnost između veličina je isključena. Drugo, pretpostavlja se da je odnos između zavisne varijable i varijabli koje utiču na nju linearan.

Oblasti upotrebe korelacione i regresione analize

Ova metoda pronalaženja odnosa između veličina se široko koristi u statistici. Najčešće se pribjegava u tri glavna slučaja:

  1. Za testiranje uzročno-posledičnih veza između vrijednosti dvije varijable. Kao rezultat toga, istraživač se nada da će pronaći linearnu vezu i izvesti formulu koja opisuje ove odnose između veličina. Njihove mjerne jedinice mogu biti različite.
  2. Za provjeru odnosa između vrijednosti. U ovom slučaju, niko ne određuje koja je varijabla zavisna. Može se ispostaviti da vrijednost obje veličine određuje neki drugi faktor.
  3. Da izvedemo jednačinu. U ovom slučaju, možete jednostavno zamijeniti brojeve u njega i saznati vrijednosti nepoznate varijable.

Muškarac u potrazi za uzročno-posledičnom vezom

Svijest je tako uređena da svakako moramo objasniti događaje koji se dešavaju okolo. Čovjek uvijek traži vezu između slike svijeta u kojem živi i informacija koje prima. Često mozak stvara red iz haosa. On lako može uočiti uzročno-posledične veze tamo gdje ih nema. Naučnici moraju posebno naučiti da prevladaju ovaj trend. Sposobnost evaluacije odnosa između podataka objektivno je neophodna u akademskoj karijeri.

Medijska pristrasnost

Razmotrite kako prisustvo korelacije može biti pogrešno protumačeno. Grupa britanskih studenata lošeg ponašanja upitana je da li njihovi roditelji puše. Zatim je test objavljen u novinama. Rezultat je pokazao snažnu korelaciju između pušenja roditelja i delinkvencije njihove djece. Profesor koji je vodio ovu studiju čak je predložio da se o tome stavi upozorenje na kutijama cigareta. Međutim, postoji niz problema s ovim zaključkom. Prvo, korelacija ne pokazuje koja je od veličina nezavisna. Stoga je sasvim moguće pretpostaviti da je pogubna navika roditelja uzrokovana neposlušnošću djece. Drugo, nemoguće je sa sigurnošću reći da oba problema nisu nastala zbog nekog trećeg faktora. Na primjer, porodice sa niskim primanjima. Treba napomenuti i emocionalni aspekt početnih zaključaka profesora koji je vodio istraživanje. Bio je vatreni protivnik pušenja. Stoga ne čudi što je na ovaj način tumačio rezultate svog istraživanja.

zaključci

Pogrešno tumačenje korelacije kao uzročne veze između dvije varijable može dovesti do neugodnih grešaka u istraživanju. Problem je što leži u samoj srži ljudske svijesti. Mnogi marketinški trikovi temelje se na ovoj osobini. Razumijevanje razlike između uzročnosti i korelacije omogućava vam da racionalno analizirate informacije kako u svakodnevnom životu tako iu vašoj profesionalnoj karijeri.

Koeficijent korelacije je vrijednost koja može varirati od +1 do -1. U slučaju potpune pozitivne korelacije, ovaj koeficijent je jednak plus 1 (kažu da se povećanjem vrijednosti jedne varijable povećava vrijednost druge varijable), a kod potpune negativne korelacije - minus 1 (označava povratnu informaciju , tj. S povećanjem vrijednosti jedne varijable, vrijednosti druge se smanjuju).

Primjer 1:

Grafikon zavisnosti stidljivosti i depresije. Kao što vidite, tačke (subjekti) nisu raspoređene nasumično, već se poređaju oko jedne linije i, gledajući ovu liniju, možemo reći da što je stidljivost veća kod osobe, to su te pojave depresivnije, tj. su međusobno povezani.

Primjer 2: Grafikon stidljivosti i društvenosti. Vidimo da kako stidljivost raste, društvenost se smanjuje. Njihov koeficijent korelacije je -0,43. Dakle, koeficijent korelacije veći od 0 do 1 ukazuje na direktno proporcionalnu vezu (što više ... više ...), a koeficijent od -1 do 0 označava obrnuto proporcionalnu vezu (što više ... to manje . ..)

Ako je koeficijent korelacije 0, obje varijable su potpuno nezavisne jedna od druge.

korelacija- ovo je odnos u kojem se uticaj pojedinih faktora pojavljuje samo kao trend (u prosjeku) uz masovno posmatranje stvarnih podataka. Primeri korelacione zavisnosti mogu biti zavisnost između veličine aktive banke i visine dobiti banke, rasta produktivnosti rada i radnog staža.

Koriste se dva sistema klasifikacije korelacija prema njihovoj snazi: opšti i partikularni.

Opšta klasifikacija korelacija: 1) jaka ili bliska sa koeficijentom korelacije r> 0,70 2) srednja na 0,500,70, a ne samo korelacija visokog nivoa značajnosti.

U sljedećoj tabeli navedeni su nazivi koeficijenata korelacije za različite vrste skala.

Dihotomna skala (1/0) Rang (redna) skala
Dihotomna skala (1/0) Pearsonov koeficijent asocijacije, Pearsonov koeficijent konjugacije četiri ćelije. Biserijska korelacija
Rang (redna) skala Rang-biserijska korelacija. Spearmanov ili Kendallov koeficijent korelacije ranga.
Interval i apsolutna skala Biserijska korelacija Vrijednosti skale intervala se pretvaraju u rangove i koristi se koeficijent ranga Pearson koeficijent korelacije (linearni koeficijent korelacije)

At r=0 nema linearne korelacije. U ovom slučaju, srednje vrijednosti grupe varijabli poklapaju se sa njihovim općim srednjim vrijednostima, a linije regresije su paralelne sa koordinatnim osa.

Jednakost r=0 govori samo o odsustvu linearne korelacione zavisnosti (nekorelisane varijable), ali ne uopšte o odsustvu korelacije, a još više, statističke zavisnosti.

Ponekad je zaključak da nema korelacije važniji od prisustva jake korelacije. Nulta korelacija dve varijable može ukazivati ​​na to da nema uticaja jedne varijable na drugu, pod uslovom da verujemo rezultatima merenja.

U SPSS-u: 11.3.2 Koeficijenti korelacije

Do sada smo saznali samo samu činjenicu postojanja statističke veze između dvije karakteristike. Zatim ćemo pokušati saznati koji se zaključci mogu izvući o snazi ​​ili slabosti ove zavisnosti, kao io njenom obliku i smjeru. Kriterijumi za kvantificiranje odnosa između varijabli nazivaju se koeficijenti korelacije ili mjere povezanosti. Dvije varijable su u pozitivnoj korelaciji ako između njih postoji direktna, jednosmjerna veza. U jednosmjernom odnosu, male vrijednosti jedne varijable odgovaraju malim vrijednostima druge varijable, velike vrijednosti odgovaraju velikim. Dvije varijable su u negativnoj korelaciji ako između njih postoji inverzna veza. Kod višesmjernog odnosa, male vrijednosti jedne varijable odgovaraju velikim vrijednostima druge varijable i obrnuto. Vrijednosti koeficijenata korelacije su uvijek u rasponu od -1 do +1.

Spearmanov koeficijent se koristi kao koeficijent korelacije između varijabli koje pripadaju ordinalnoj skali, a Pirsonov koeficijent korelacije (moment proizvoda) se koristi za varijable koje pripadaju intervalnoj skali. U ovom slučaju treba napomenuti da se svaka dihotomna varijabla, odnosno varijabla koja pripada nominalnoj skali i ima dvije kategorije, može smatrati ordinalnom.

Prvo ćemo provjeriti postoji li korelacija između varijabli spola i psihe iz datoteke studium.sav. Pri tome vodimo računa da se dihotomna varijabla spol može smatrati ordinalnom varijablom. Uradite sljedeće:

Izaberite iz komandnog menija Analiza (Analiza) Deskriptivna statistika (Deskriptivna statistika) Unakrsne tabele... (Tabele nepredviđenih situacija)

· Premjestite varijablu spol na listu redova, a varijablu psihu na listu kolona.

· Kliknite na dugme Statistika.... U dijalogu Crosstabs: Statistics, označite polje Korelacije. Potvrdite svoj izbor dugmetom Nastavi.

· U dijalogu Crosstabs, zaustavite prikazivanje tabela tako što ćete potvrditi izbor u polju za potvrdu Supress tables. Kliknite na dugme OK.

Izračunat će se Spearman i Pearson koeficijenti korelacije, a njihova značajnost će se testirati:

/ SPSS 10

Zadatak broj 10 Korelaciona analiza

Koncept korelacije

Korelacija ili koeficijent korelacije je statistički pokazatelj vjerovatnoća odnose između dvije varijable mjerene na kvantitativnim skalama. Za razliku od funkcionalne veze, kojoj odgovara svaka vrijednost jedne varijable strogo definisano vrijednost druge varijable, verovatnoća veza karakterizira činjenica da svakoj vrijednosti jedne varijable odgovara skup vrijednosti Druga varijabla, primjer vjerovatnoće veze je odnos između visine i težine ljudi. Jasno je da ljudi različite težine mogu imati istu visinu i obrnuto.

Korelacija je vrijednost između -1 i +1 i označava se slovom r. Štoviše, ako je vrijednost bliža 1, to znači prisutnost jake veze, a ako je bliža 0, onda slabe. Vrijednost korelacije manja od 0,2 smatra se slabom korelacijom, veća od 0,5 - visokom. Ako je koeficijent korelacije negativan, to znači da postoji inverzna veza: što je veća vrijednost jedne varijable, to je niža vrijednost druge.

Ovisno o prihvaćenim vrijednostima koeficijenta r, mogu se razlikovati različite vrste korelacije:

Jaka pozitivna korelacija određena je vrijednošću r=1. Izraz "strogo" znači da je vrijednost jedne varijable jedinstveno određena vrijednostima druge varijable, a termin " pozitivno" - da kako se povećava vrijednost jedne varijable, povećava se i vrijednost druge varijable.

Stroga korelacija je matematička apstrakcija i gotovo se nikada ne pojavljuje u stvarnim istraživanjima.

pozitivna korelacija odgovara vrijednostima 0

Nedostatak korelacije je određena vrijednošću r=0. Koeficijent korelacije nula ukazuje da vrijednosti varijabli nisu ni na koji način povezane jedna s drugom.

Nedostatak korelacije H o : 0 r xy =0 formulisan kao odraz null hipoteze u korelacionoj analizi.

negativna korelacija: -1

Jaka negativna korelacija određena vrijednošću r= -1. Ona je, kao i stroga pozitivna korelacija, apstrakcija i ne nalazi izraz u praktičnim istraživanjima.

Tabela 1

Vrste korelacije i njihove definicije

Način izračunavanja koeficijenta korelacije ovisi o vrsti skale na kojoj se mjere vrijednosti varijable.

Koeficijent korelacije rPearson je glavni i može se koristiti za varijable sa nominalnim i djelimično uređenim intervalnim skalama, distribucija vrijednosti preko kojih odgovara normalnoj (korelacija momenata proizvoda). Pearsonov koeficijent korelacije daje prilično precizne rezultate iu slučajevima abnormalnih distribucija.

Za distribucije koje nisu normalne, poželjno je koristiti koeficijente korelacije ranga Spearman i Kendall. Oni su rangirani jer program unaprijed rangira korelirane varijable.

SPSS program izračunava r-Spearmanovu korelaciju na sljedeći način: prvo se varijable pretvaraju u rangove, a zatim se na rangove primjenjuje Pirsonova formula.

Korelacija koju je predložio M. Kendall zasniva se na ideji da se smjer veze može procijeniti poređenjem subjekata u parovima. Ako se za par subjekata promjena u X poklapa u smjeru s promjenom u Y poklapa, onda to ukazuje na pozitivan odnos. Ako se ne poklapa, onda o negativnom odnosu. Ovaj koeficijent koriste uglavnom psiholozi koji rade sa malim uzorcima. Pošto sociolozi rade sa velikim nizovima podataka, teško je sortirati parove, identifikovati razliku u relativnim frekvencijama i inverzije svih parova subjekata u uzorku. Najčešći je koeficijent. Pearson.

Budući da je koeficijent korelacije rPearson glavni i da se može koristiti (sa određenom greškom u zavisnosti od vrste skale i nivoa abnormalnosti u distribuciji) za sve varijable mjerene na kvantitativnim skalama, razmotrićemo primjere njegove upotrebe i uporediti rezultati dobijeni sa rezultatima merenja korišćenjem drugih koeficijenata korelacije.

Formula za izračunavanje koeficijenta r- Pearson:

r xy = ∑ (Xi-Xav)∙(Yi-Yav) / (N-1)∙σ x ∙σ y ∙

Gdje je: Xi, Yi- vrijednosti dvije varijable;

Xav, Yav - prosječne vrijednosti dvije varijable;

σ x , σ y su standardne devijacije,

N je broj zapažanja.

Parne korelacije

Na primjer, željeli bismo saznati kako odgovori između različitih tipova tradicionalnih vrijednosti koreliraju u idejama učenika o idealnom mjestu rada (varijable: a9.1, a9.3, a9.5, a9.7) , a zatim o omjeru liberalnih vrijednosti (a9 .2, a9.4, a9.6, a9.8). Ove varijable se mjere na skali od 5 članova.

Koristimo proceduru: "Analiza",  "Korelacije",  "Upareno". Podrazumevano, koeficijent Pearson je postavljen u dijaloškom okviru. Koristimo koeficijent Pearson

Testirane varijable se prenose u prozor za izbor: a9.1, a9.3, a9.5, a9.7

Pritiskom na OK dobijamo proračun:

Korelacije

a9.1.t. Koliko je važno imati dovoljno vremena za porodicu i lični život?

Pirsonova korelacija

vrijednost (dvostrano)

a9.3.t. Koliko je važno ne plašiti se gubitka posla?

Pirsonova korelacija

vrijednost (dvostrano)

a9.5.t. Koliko je važno imati takvog šefa koji će se konsultovati sa vama prilikom donošenja ove ili one odluke?

Pirsonova korelacija

vrijednost (dvostrano)

a9.7.t. Koliko je važno raditi u dobro uigranom timu, osjećati se kao njegov dio?

Pirsonova korelacija

vrijednost (dvostrano)

** Korelacija je značajna na nivou od 0,01 (dvostrano).

Tabela kvantitativnih vrijednosti konstruirane korelacijske matrice

Parcijalne korelacije:

Prvo, napravimo parnu korelaciju između ove dvije varijable:

Korelacije

c8. Osjećajte se blisko sa onima koji žive u vašoj blizini, susjedima

Pirsonova korelacija

vrijednost (dvostrano)

c12. Osjećati se bliskim njihovoj porodici

Pirsonova korelacija

vrijednost (dvostrano)

**. Korelacija je značajna na nivou od 0,01 (dvostrano).

Zatim koristimo proceduru za konstruisanje parcijalne korelacije: "Analiza",  "Korelacije",  "Parcijalna".

Pretpostavimo da će vrijednost „Važno je samostalno odrediti i promijeniti redoslijed svog rada“ u odnosu na naznačene varijable biti odlučujući faktor, pod čijim će utjecajem prethodno identificirani odnos nestati ili će se pokazati da je od malog značaja. .

Korelacije

Izuzete varijable

c8. Osjećajte se blisko sa onima koji žive u vašoj blizini, susjedima

c12. Osjećati se bliskim njihovoj porodici

c16. Osjećajte se blisko sa ljudima koji imaju isto bogatstvo kao i vi

c8. Osjećajte se blisko sa onima koji žive u vašoj blizini, susjedima

Korelacija

Značaj (dvostrano)

c12. Osjećati se bliskim njihovoj porodici

Korelacija

Značaj (dvostrano)

Kao što se vidi iz tabele, pod uticajem kontrolne varijable odnos je blago opao: sa 0,120 na 0,102. ostaje dovoljno visoka i omogućava da se opovrgne Nulta hipoteza.

Koeficijent korelacije

Najtačniji način za određivanje čvrstoće i prirode korelacije je pronalaženje koeficijenta korelacije. Koeficijent korelacije je broj određen formulom:


gdje je r xy koeficijent korelacije;

x i -vrijednosti prve karakteristike;

i -vrijednosti druge karakteristike;

Aritmetička sredina vrijednosti prve karakteristike

Aritmetička sredina vrijednosti druge karakteristike

Da bismo koristili formulu (32), konstruisali smo tabelu koja će obezbediti neophodan redosled u pripremi brojeva za pronalaženje brojnika i nazivnika koeficijenta korelacije.

Kao što se može vidjeti iz formule (32), slijed radnji je sljedeći: nalazimo aritmetičku sredinu oba znaka x i y, nalazimo razliku između vrijednosti znaka i njegovog prosjeka (h i - ) i y i - ), tada nalazimo njihov proizvod (h i - ) ( y i - ) – zbir potonjeg daje brojnik koeficijenta korelacije. Da bi se našao njegov nazivnik, potrebno je kvadrirati razlike (x i -) i (y i -), pronaći njihove sume i izvući kvadratni korijen iz njihovog proizvoda.

Tako na primjer 31, pronalaženje koeficijenta korelacije u skladu sa formulom (32) može se predstaviti na sljedeći način (tabela 50).

Rezultirajući broj koeficijenta korelacije omogućava utvrđivanje prisutnosti, bliskosti i prirode odnosa.

1. Ako je koeficijent korelacije nula, nema veze između karakteristika.

2. Ako je koeficijent korelacije jednak jedan, odnos između karakteristika je toliki da se pretvara u funkcionalan.

3. Apsolutna vrijednost koeficijenta korelacije ne prelazi interval od nule do jedan:

Ovo omogućava fokusiranje na čvrstoću veze: što je koeficijent bliži nuli, to je veza slabija, a što je bliže jedinici, to je veza bliža.

4. Znak koeficijenta korelacije "plus" znači direktnu korelaciju, znak "minus" znači suprotno.

Table 50

x i i (h i - ) (y i - ) (x i - )(y i - ) (h i - )2 (y i - )2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Dakle, koeficijent korelacije izračunat u primjeru 31 je r xy = +0,9. nam omogućava da izvučemo sljedeće zaključke: postoji korelacija između veličine mišićne snage desne i lijeve ruke kod proučavanih školaraca (koeficijent r xy = + 0,9 nije nula), odnos je vrlo blizak (koeficijent r xy = + 0,9 je blizu jedinice), korelacija je direktna (koeficijent r xy = +0,9 je pozitivan), tj. sa povećanjem mišićne snage jedne ruke, povećava se snaga druge ruke.

Prilikom izračunavanja koeficijenta korelacije i korištenja njegovih svojstava treba uzeti u obzir da zaključci daju ispravne rezultate kada su karakteristike normalno raspoređene i kada se razmatra odnos između velikog broja vrijednosti oba svojstva.

U razmatranom primjeru 31 analizirano je samo 7 vrijednosti obje karakteristike, što, naravno, nije dovoljno za ovakva istraživanja. Ovdje još jednom podsjećamo da su primjeri, općenito u ovoj knjizi, a posebno u ovom poglavlju, prirode metoda ilustriranja, a ne detaljnog prikaza bilo kakvih naučnih eksperimenata. Kao rezultat toga, uzima se u obzir mali broj vrijednosti karakteristika, mjerenja se zaokružuju - sve se to radi kako se ideja metode ne bi zamaglila glomaznim proračunima.

Posebnu pažnju treba obratiti na suštinu odnosa koji se razmatra. Koeficijent korelacije ne može dovesti do ispravnih rezultata studije ako se analiza odnosa između obilježja vrši formalno. Vratimo se na primjer 31. Oba razmatrana znaka su bile vrijednosti mišićne snage desne i lijeve ruke. Zamislimo da pod osobinom x i u primjeru 31 (14.0; 14.2; 14.9... ...18.1) podrazumijevamo dužinu nasumično ulovljene ribe u centimetrima, a pod osobinom y i (12.1 ; 13.8; 14.2 ... ... 17.4) - težina instrumenata u laboratoriji u kilogramima. Nakon što smo formalno koristili aparat za izračunavanje za pronalaženje koeficijenta korelacije i u ovom slučaju dobili r xy =+0>9, trebali smo zaključiti da postoji bliska veza direktne prirode između dužine ribe i težine ribe. instrumente. Očigledna je apsurdnost takvog zaključka.

Da bi se izbjegao formalni pristup korištenju koeficijenta korelacije, treba koristiti bilo koju drugu metodu - matematičku, logičku, eksperimentalnu, teorijsku - da se utvrdi mogućnost korelacije između znakova, odnosno da se otkrije organsko jedinstvo znakova. Tek tada se može početi koristiti korelacionom analizom i utvrditi veličinu i prirodu odnosa.

U matematičkoj statistici postoji i koncept višestruka korelacija- Odnosi između tri ili više karakteristika. U tim slučajevima se koristi višestruki koeficijent korelacije, koji se sastoji od gore opisanih koeficijenata parne korelacije.

Na primjer, koeficijent korelacije tri znaka - x í , y í , z í - je:

gdje je R xyz -višestruki koeficijent korelacije koji izražava kako karakteristika x i zavisi od karakteristika y i i z i ;

r xy -koeficijent korelacije između karakteristika x i i y i ;

r xz - koeficijent korelacije između karakteristika Xi i Zi;

r yz - koeficijent korelacije između karakteristika y i , z i

Analiza korelacije je:

Korelaciona analiza

Korelacija- statistički odnos dvije ili više slučajnih varijabli (ili varijabli koje se kao takve mogu smatrati sa nekim prihvatljivim stepenom tačnosti). Istovremeno, promjene u jednoj ili više ovih veličina dovode do sistematske promjene druge ili drugih veličina. Koeficijent korelacije služi kao matematička mjera korelacije dvije slučajne varijable.

Korelacija može biti pozitivna i negativna (moguće je i da ne postoji statistička veza - na primjer, za nezavisne slučajne varijable). negativna korelacija - korelacija, u kojoj je povećanje jedne varijable povezano sa smanjenjem druge varijable, dok je koeficijent korelacije negativan. pozitivna korelacija - korelacija u kojoj je povećanje jedne varijable povezano sa povećanjem druge varijable, dok je koeficijent korelacije pozitivan.

autokorelacija - statistički odnos između slučajne varijable iz jednog reda, ali uzeti sa pomakom, na primjer, za slučajni proces - s pomakom u vremenu.

Metoda obrade statističkih podataka, koja se sastoji u proučavanju koeficijenata (korelacija) između varijabli, naziva se korelacione analize.

Koeficijent korelacije

Koeficijent korelacije ili koeficijent korelacije para u teoriji vjerovatnoće i statistici, ovo je indikator prirode promjene dvije slučajne varijable. Koeficijent korelacije je označen latiničnim slovom R i može imati vrijednosti između -1 i +1. Ako je vrijednost modula bliža 1, to znači prisutnost jake veze (s koeficijentom korelacije jednakim jedan, govore o funkcionalnoj vezi), a ako je bliža 0, onda slaba.

Pearsonov koeficijent korelacije

Za metričke veličine koristi se Pearsonov koeficijent korelacije, čiju je tačnu formulu uveo Francis Galton:

Neka X,Y- dvije slučajne varijable definirane na istom prostoru vjerovatnoće. Tada je njihov koeficijent korelacije dan formulom:

,

gdje je cov kovarijansa, a D varijansa, ili ekvivalentno,

,

gdje simbol označava matematičko očekivanje.

Da biste grafički prikazali takav odnos, možete koristiti pravougaoni koordinatni sistem sa osama koje odgovaraju obe varijable. Svaki par vrijednosti označen je određenim simbolom. Takav dijagram se naziva "scatterplot".

Metoda izračunavanja koeficijenta korelacije zavisi od vrste skale na koju se varijable odnose. Dakle, za mjerenje varijabli intervalnim i kvantitativnim skalama potrebno je koristiti Pirsonov koeficijent korelacije (korelacija momenata proizvoda). Ako barem jedna od dvije varijable ima ordinalnu skalu ili nije normalno raspoređena, mora se koristiti Spearmanova korelacija ranga ili Kendalov τ (tau). U slučaju kada je jedna od dvije varijable dihotomna, koristi se točkasta dvoserija korelacija, a ako su obje varijable dihotomne koristi se korelacija sa četiri polja. Izračunavanje koeficijenta korelacije između dvije ne-dihotomne varijable ima smisla samo ako je odnos između njih linearan (jednosmjeran).

Kendellov koeficijent korelacije

Koristi se za mjerenje međusobnog poremećaja.

Spearmanov koeficijent korelacije

Svojstva koeficijenta korelacije

  • Nejednakost Cauchy - Bunyakovsky:
ako uzmemo kovarijansu kao skalarni proizvod dvije slučajne varijable, tada će norma slučajne varijable biti jednaka , a posljedica nejednakosti Cauchy-Bunyakovsky bit će: . , gdje . Štaviše, u ovom slučaju znakovi i k podudaranje: .

Korelaciona analiza

Korelaciona analiza- način obrade statističkih podataka koji se sastoji u proučavanju koeficijenata ( korelacije) između varijabli. U ovom slučaju, koeficijenti korelacije između jednog para ili više parova karakteristika se upoređuju kako bi se uspostavili statistički odnosi između njih.

Target korelacione analize - dati neke informacije o jednoj varijabli uz pomoć druge varijable. U slučajevima kada je moguće postići cilj, kažemo da su varijable korelirati. U najopštijem obliku, prihvatanje hipoteze o postojanju korelacije znači da će se promena vrednosti varijable A desiti istovremeno sa proporcionalnom promenom vrednosti B: ako se obe varijable povećaju, onda korelacija je pozitivna ako se jedna varijabla povećava, a druga smanjuje, korelacija je negativna.

Korelacija odražava samo linearnu zavisnost veličina, ali ne odražava njihovu funkcionalnu povezanost. Na primjer, ako izračunamo koeficijent korelacije između vrijednosti A = sin(x) i B = cos(x), tada će biti blizu nule, tj. nema zavisnosti između veličina. U međuvremenu, veličine A i B su očigledno funkcionalno povezane u skladu sa zakonom sin 2(x) + cos 2(x) = 1.

Ograničenja korelacione analize



Grafičke distribucije parova (x,y) sa odgovarajućim koeficijentima korelacije x i y za svaki od njih. Imajte na umu da koeficijent korelacije odražava linearni odnos (gornji red), ali ne opisuje krivu odnosa (srednji red) i uopće nije prikladan za opisivanje složenih, nelinearnih odnosa (donji red).
  1. Primjena je moguća ako postoji dovoljan broj slučajeva za proučavanje: za određenu vrstu koeficijenta korelacije on se kreće od 25 do 100 parova opservacija.
  2. Drugo ograničenje proizlazi iz hipoteze korelacione analize, koja uključuje linearna zavisnost varijabli. U mnogim slučajevima, kada se pouzdano zna da odnos postoji, analiza korelacije možda neće dati rezultate jednostavno zato što je odnos nelinearan (izražen, na primjer, kao parabola).
  3. Sama po sebi činjenica korelacije ne daje osnova da se tvrdi koja od varijabli prethodi ili uzrokuje promjene, ili da su varijable općenito uzročno povezane jedna s drugom, na primjer, zbog djelovanja trećeg faktora.

Područje primjene

Ova metoda obrade statističkih podataka veoma je popularna u ekonomiji i društvenim naukama (posebno u psihologiji i sociologiji), iako je obim primene koeficijenata korelacije širok: kontrola kvaliteta industrijskih proizvoda, metalurgija, poljoprivredna hemija, hidrobiologija, biometrija, i drugi.

Popularnost metode je posljedica dvije tačke: koeficijente korelacije je relativno lako izračunati, njihova primjena ne zahtijeva posebnu matematičku obuku. U kombinaciji sa lakoćom interpretacije, lakoća primjene koeficijenta dovela je do njegove široke upotrebe u oblasti statističke analize podataka.

lažna korelacija

Često primamljiva jednostavnost korelacione studije podstiče istraživača da izvuče lažne intuitivne zaključke o postojanju uzročne veze između parova osobina, dok koeficijenti korelacije uspostavljaju samo statističke odnose.

U savremenoj kvantitativnoj metodologiji društvenih nauka, zapravo, došlo je do napuštanja pokušaja da se empirijskim metodama uspostave uzročne veze između posmatranih varijabli. Stoga, kada istraživači u društvenim naukama govore o uspostavljanju odnosa između varijabli koje proučavaju, implicira se ili opšta teorijska pretpostavka ili statistička zavisnost.

vidi takođe

  • Funkcija autokorelacije
  • Funkcija unakrsne korelacije
  • kovarijansa
  • Koeficijent determinacije
  • Regresiona analiza

Wikimedia Foundation. 2010.

Gdje su x y , x , y srednje vrijednosti uzoraka; σ(x), σ(y) - standardne devijacije.
osim toga, Pearsonov linearni koeficijent korelacije para može se odrediti kroz koeficijent regresije b: , gdje su σ(x)=S(x), σ(y)=S(y) standardne devijacije, b je koeficijent ispred x u regresijskoj jednadžbi y=a+ bx .

Druge opcije formule:
ili

K xy - korelacijski moment (koeficijent kovarijacije)

Za pronalaženje linearnog Pearsonovog koeficijenta korelacije potrebno je pronaći srednje vrijednosti uzorka x i y i njihove standardne devijacije σ x = S(x), σ y = S(y):

Koeficijent linearne korelacije ukazuje na prisutnost veze i uzima vrijednosti od -1 do +1 (pogledajte Chaddock skalu). Na primjer, kada se analizira čvrstoća linearne korelacije između dvije varijable, dobijen je parni koeficijent linearne korelacije jednak –1. To znači da postoji tačna inverzna linearna veza između varijabli.

Možete izračunati vrijednost koeficijenta korelacije koristeći date srednje vrijednosti uzorka ili direktno.

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy "> Izračunajte svoju vrijednost

Geometrijsko značenje koeficijenta korelacije: r xy pokazuje koliko se razlikuje nagib dvije linije regresije: y(x) i x(y), koliko se razlikuju rezultati minimiziranja odstupanja u x i u y. Što je veći ugao između linija, veći je r xy .
Predznak koeficijenta korelacije poklapa se sa predznakom koeficijenta regresije i određuje nagib linije regresije, tj. opći smjer ovisnosti (povećanje ili smanjenje). Apsolutna vrijednost koeficijenta korelacije određena je stepenom blizine tačaka regresijskoj liniji.

Svojstva koeficijenta korelacije

  1. |r xy | ≤ 1;
  2. ako su X i Y nezavisni, onda je r xy =0, suprotno nije uvijek tačno;
  3. ako je |r xy |=1, onda Y=aX+b, |r xy (X,aX+b)|=1, gdje su a i b konstantni i ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, gdje su a 1 , a 2 , b 1 , b 2 konstante.

Stoga, za provjere smjera veze test hipoteze se odabire korištenjem Pearsonovog koeficijenta korelacije uz korištenje daljnjeg testa za pouzdanost t-test(vidi primjer u nastavku).

Tipični zadaci (vidi i nelinearnu regresiju)

Tipični zadaci
Zavisnost produktivnosti rada y od stepena mehanizacije rada x (%) proučavana je prema podacima 14 industrijskih preduzeća. Statistički podaci dati su u tabeli.
Obavezno:
1) Pronađite procjene za parametre linearne regresije y na x. Napravite dijagram raspršenja i nacrtajte liniju regresije na dijagramu raspršenja.
2) Na nivou značajnosti α=0,05 testirati hipotezu o saglasnosti između linearne regresije i rezultata opservacije.
3) Sa pouzdanošću γ=0,95 pronaći intervale povjerenja za parametre linearne regresije.

Sa ovim kalkulatorom se također koriste sljedeće:
Jednačina višestruke regresije

Primjer. Na osnovu podataka datih u Dodatku 1 i koji odgovaraju vašoj opciji (Tabela 2), potrebno vam je:

  1. Izračunajte koeficijent linearne parne korelacije i konstruirajte jednadžbu linearne parne regresije jedne karakteristike od druge. Jedan od znakova koji odgovara vašoj opciji će igrati ulogu faktorijala (x), a drugi - efektivnog (y). Uspostaviti uzročno-posledične veze između znakova na osnovu ekonomske analize. Objasnite značenje parametara jednačine.
  2. Odredite teorijski koeficijent determinacije i zaostalu (neobjašnjenu jednadžbom regresije) varijansu. Napravite zaključak.
  3. Procjena statistički značaj jednadžbe regresije u cjelini na nivou od pet posto koristeći Fišerov F-test. Napravite zaključak.
  4. Izvršite prognozu očekivane vrijednosti atributa-rezultata y sa predviđenom vrijednošću faktora-atributa x, koja iznosi 105% prosječnog nivoa x. Procijenite tačnost prognoze tako što ćete izračunati grešku prognoze i njen interval povjerenja s vjerovatnoćom od 0,95.
Rješenje. Jednačina je y = ax + b
Prosjeci



Disperzija


standardna devijacija



Veza između faktora Y osobine X je jaka i direktna (određena Chaddock skalom).
Regresijska jednačina

Koeficijent regresije: k = a = 4,01
Koeficijent determinacije
R 2 = 0,99 2 = 0,97, tj. u 97% slučajeva promjene x dovode do promjene y. Drugim riječima, tačnost odabira jednačine regresije je visoka. Ostatak disperzije: 3%.
xyx2y2x yy(x)(y i -y ) 2(y-y(x)) 2(x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Napomena: y(x) vrijednosti se nalaze iz rezultirajuće regresione jednadžbe:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

Značaj koeficijenta korelacije

Izneli smo hipoteze:
H 0: r xy = 0, ne postoji linearna veza između varijabli;
H 1: r xy ≠ 0, postoji linearna veza između varijabli;
Da bi se testirala nulta hipoteza na nivou značajnosti α da je opšti koeficijent korelacije normalne dvodimenzionalne slučajne varijable jednak nuli sa konkurentskom hipotezom H 1 ≠ 0, potrebno je izračunati posmatranu vrednost kriterijuma ( vrijednost slučajne greške):

Prema Studentovoj tabeli nalazimo t tab (n-m-1; α / 2) = (10; 0,025) = 2,228
Pošto je Tobs > t tab, odbacujemo hipotezu da je koeficijent korelacije jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan.
Procjena intervala za koeficijent korelacije (interval povjerenja)


r - Δr ≤ r ≤ r + Δr
Δ r = ±t tabela m r = ±2,228 0,0529 = 0,118
0,986 - 0,118 ≤ r ≤ 0,986 + 0,118
Interval pouzdanosti za koeficijent korelacije: 0,868 ≤ r ≤ 1

Analiza tačnosti određivanja procjena regresijskih koeficijenata





Sa =0,2152

Intervali povjerenja za zavisnu varijablu

Izračunajmo granice intervala u kojima će 95% mogućih vrijednosti Y biti koncentrisano neograničeno veliki brojevi zapažanja i X = 7
(122.4;132.11)
Testiranje hipoteza o koeficijentima linearna jednačina regresija

1) t-statistika




Potvrđena je statistička značajnost koeficijenta regresije
Interval povjerenja za koeficijente regresione jednadžbe
Odredimo intervale povjerenja koeficijenata regresije, koji će sa pouzdanošću od 95% biti sljedeći:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)

Svrha korelacione analize je identificirati procjenu jačine veze između slučajnih varijabli (obilježja) koja karakterizira neki stvarni proces.
Problemi korelacione analize:
a) Mjerenje stepena povezanosti (zategnutosti, jačine, ozbiljnosti, intenziteta) dva ili više fenomena.
b) Odabir faktora koji imaju najznačajniji uticaj na rezultirajući atribut, na osnovu mjerenja stepena povezanosti između pojava. Značajni faktori u ovom aspektu se dalje koriste u regresionoj analizi.
c) Otkrivanje nepoznatih uzročno-posledičnih veza.

Oblici ispoljavanja međusobnih odnosa su veoma raznovrsni. Kao njihove najčešće vrste, funkcionalni (potpuni) i korelacija (nepotpuna) veza.
korelacija manifestuje se u prosjeku, za masovna promatranja, kada date vrijednosti zavisne varijable odgovaraju određenom broju vjerovatnoća vrijednosti nezavisne varijable. Veza se naziva korelacija, ako svaka vrijednost atributa faktora odgovara dobro definiranoj neslučajnoj vrijednosti efektivna karakteristika.
Korelaciono polje služi kao vizuelni prikaz korelacione tabele. Radi se o grafu gdje su vrijednosti X iscrtane na osi apscise, vrijednosti Y iscrtane duž ordinatne ose, a kombinacije X i Y prikazane su tačkama. Prisustvo veze se može suditi po lokaciji tačke.
Indikatori nepropusnosti omogućavaju karakterizaciju zavisnosti varijacije rezultujuće osobine o varijaciji faktora osobine.
Bolji pokazatelj stepena zategnutosti korelacija je koeficijent linearne korelacije. Prilikom izračunavanja ovog pokazatelja uzimaju se u obzir ne samo odstupanja pojedinačnih vrijednosti atributa od prosjeka, već i veličina ovih odstupanja.

Ključna pitanja ove teme su jednadžbe regresionog odnosa između rezultujuće karakteristike i eksplanatorne varijable, metoda najmanjih kvadrata za procjenu parametara regresijskog modela, analiza kvaliteta rezultirajuće regresijske jednačine, izgradnja intervala povjerenja za predviđanje vrijednosti rezultirajuće karakteristike pomoću jednadžbe regresije.

Primjer 2


Sistem normalnih jednačina.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za naše podatke sistem jednačina ima oblik
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iz prve jednačine koju izražavamo a i zamijeni u drugu jednačinu:
Dobijamo b = -3,46, a = 1379,33
Jednačina regresije:
y = -3,46 x + 1379,33

2. Proračun parametara regresione jednadžbe.
Uzorak znači.



Uzorci varijacija:


standardna devijacija


1.1. Koeficijent korelacije
kovarijansa.

Izračunavamo indikator bliskosti komunikacije. Takav pokazatelj je selektivni linearni koeficijent korelacije, koji se izračunava po formuli:

Koeficijent linearne korelacije uzima vrijednosti od –1 do +1.
Veze između karakteristika mogu biti slabe ili jake (bliske). Njihovi kriterijumi se vrednuju na Chaddock skali:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, odnos između karakteristike Y i faktora X je visok i inverzan.
Osim toga, koeficijent linearne korelacije parova može se odrediti u smislu koeficijenta regresije b:

1.2. Regresijska jednačina(procjena jednadžbe regresije).

Jednačina linearne regresije je y = -3,46 x + 1379,33

Koeficijent b = -3,46 pokazuje prosječnu promjenu efektivnog indikatora (u jedinicama y) sa povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. AT ovaj primjer sa povećanjem od 1 jedinice, y se smanjuje u prosjeku za -3,46.
Koeficijent a = 1379,33 formalno pokazuje predviđeni nivo y, ali samo ako je x=0 blizu vrijednosti uzorka.
Ali ako je x=0 daleko od vrijednosti uzorka x, onda doslovno tumačenje može dovesti do pogrešnih rezultata, pa čak i ako linija regresije precizno opisuje vrijednosti promatranog uzorka, nema garancije da će i to biti slučaj kada se ekstrapolira ulijevo ili udesno.
Zamjenom odgovarajućih vrijednosti x u jednadžbu regresije, moguće je odrediti usklađene (predviđene) vrijednosti efektivnog indikatora y(x) za svako opažanje.
Odnos između y i x određuje predznak koeficijenta regresije b (ako je > 0 - direktna veza, inače - inverzna). U našem primjeru odnos je obrnut.
1.3. koeficijent elastičnosti.
Nepoželjno je koristiti koeficijente regresije (u primjeru b) za direktnu procjenu uticaja faktora na efektivni atribut ako postoji razlika u mjernim jedinicama efektivnog indikatora y i faktorskog atributa x.
Za ove svrhe izračunavaju se koeficijenti elastičnosti i beta koeficijenti.
Prosječni koeficijent elastičnosti E pokazuje za koliko posto će se rezultat u prosjeku promijeniti u agregatu at od njegove prosječne vrijednosti prilikom promjene faktora x 1% njegove prosječne vrijednosti.
Koeficijent elastičnosti se nalazi po formuli:


Koeficijent elastičnosti je manji od 1. Dakle, ako se X promijeni za 1%, Y će se promijeniti za manje od 1%. Drugim riječima, utjecaj X na Y nije značajan.
Beta koeficijent pokazuje za koji dio vrijednosti njegove standardne devijacije će se u prosjeku promijeniti vrijednost efektivnog atributa kada se atribut faktora promijeni za vrijednost njegove standardne devijacije s vrijednošću preostalih nezavisnih varijabli fiksiranih na konstantnom nivou:

One. povećanje x za vrijednost standardne devijacije S x će dovesti do smanjenja prosječne vrijednosti Y za 0,74 standardne devijacije S y .
1.4. Greška aproksimacije.
Procijenimo kvalitetu jednadžbe regresije koristeći apsolutnu grešku aproksimacije. Prosječna greška aproksimacije je prosječno odstupanje izračunatih vrijednosti od stvarnih:


Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.
Analiza disperzije.
Zadatak analize varijanse je da analizira varijansu zavisne varijable:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
gdje
∑(y i - y cp) 2 - ukupan zbir kvadrata odstupanja;
∑(y(x) - y cp) 2 - zbir odstupanja na kvadrat zbog regresije („objašnjeno“ ili „faktorsko“);
∑(y - y(x)) 2 - rezidualni zbir kvadrata odstupanja.
Teorijski odnos korelacije za linearni odnos jednak je koeficijentu korelacije r xy .
Za bilo koji oblik zavisnosti, nepropusnost veze se određuje pomoću koeficijent višestruke korelacije:

Ovaj koeficijent je univerzalan, jer odražava čvrstoću veze i tačnost modela, a može se koristiti i za bilo koji oblik povezivanja varijabli. Prilikom konstruisanja jednofaktorskog modela korelacije koristi se koeficijent višestruke korelacije jednak koeficijentu korelacija parova r xy .
1.6. Koeficijent determinacije.
Kvadrat (višestrukog) koeficijenta korelacije naziva se koeficijent determinacije, koji pokazuje proporciju varijacije rezultantnog atributa objašnjene varijacijom faktorskog atributa.
Najčešće, dajući tumačenje koeficijenta determinacije, on se izražava u postocima.
R 2 = -0,74 2 = 0,5413
one. u 54,13% slučajeva promjene x dovode do promjene y. Drugim riječima, tačnost odabira jednačine regresije je prosječna. Preostalih 45,87% promjene Y nastaje zbog faktora koji nisu uzeti u obzir u modelu.

Bibliografija

  1. Ekonometrija: Udžbenik / Ed. I.I. Eliseeva. - M.: Finansije i statistika, 2001, str. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Početni kurs. Tutorial. - 2. izd., Rev. – M.: Delo, 1998, str. 17..42.
  3. Radionica o ekonometriji: Proc. dodatak / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i drugi; Ed. I.I. Eliseeva. - M.: Finansije i statistika, 2001, str. 5..48.