Uzorci u kojima posmatranje ne obuhvata veliki broj jedinice (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Granična greška malog uzorka određena je formulom:

Prosječna greška malog uzorka:

gdje je varijansa malog uzorka:

gdje je srednja vrijednost karakteristike u uzorku;

Broj stepeni slobode

Koeficijent pouzdanosti malog uzorka, koji ne zavisi samo od date verovatnoće poverenja, već i od broja jedinica uzorka.

Vjerovatnoća da je opći prosjek u određenim granicama određena je formulom

gdje je vrijednost Studentove funkcije.

Da bi se izračunao koeficijent pouzdanosti, vrijednost funkcije određena je formulom:

Zatim se, prema Studentovoj tabeli raspodjele (vidi Dodatak 4), u zavisnosti od vrijednosti funkcije i broja stupnjeva, određuje vrijednost.

Funkcija se također koristi za određivanje vjerojatnosti da stvarno normalizirano odstupanje neće premašiti vrijednost tablice.


Tema 7. Statistička studija odnosa: Koncept statističke povezanosti. Vrste i oblici statističke povezanosti. Zadaci statistička studija odnos pojava. Osobine veza društveno-ekonomskih pojava. Osnovne metode statističkog proučavanja odnosa.

korelacija - odnos koji se ne pojavljuje u svakom pojedinačnom slučaju, već u masi slučajeva u prosječnim vrijednostima u obliku trenda.

Statistička studija ima za cilj da dobije model zavisnosti za njegovu praktičnu upotrebu. Rješenje ovog problema provodi se sljedećim redoslijedom.

1. Logička analiza suštine proučavanog fenomena i uzročno-posledičnih veza. Kao rezultat, postavljen je indikator učinka (y), faktori njegove promjene, karakterizirani indikatorima (x (, x 2, x 3,..., X"). Odnos dva znaka (kod i X) pozvao korelacija parova. Uticaj više faktora na efektivnu osobinu naziva se višestruka korelacija.

U opštem pravcu komunikacija može biti ravno i obrnuto. Sa direktnim vezama sa povećanjem osobine x znak se takođe povećava y, sa obrnutom - sa povećanjem znaka X sign at smanjuje se.

2. Prikupljanje primarnih informacija i njihova provjera homogenosti i normalne distribucije. Za procjenu homogenosti populacije koristi se koeficijent varijacije prema faktorskim karakteristikama

Skup se smatra homogenim ako koeficijent varijacije ne prelazi 33%. Provjera normalnosti distribucije proučavanog faktorski znaci (x ( , x 2 , x 3 ,..., X") izvedeno po pravilu tri sigma. Rezultate testa za normalnu distribuciju treba prikazati u obliku tabele.

Prilikom kontrole kvaliteta robe u ekonomskim istraživanjima, eksperiment se može izvesti na osnovu malog uzorka.

Ispod mali uzorak se podrazumijeva kao nekontinuirano statističko istraživanje, u kojem se populacija uzorka formira od relativno malog broja jedinica opšte populacije. Volumen malog uzorka obično ne prelazi 30 jedinica i može doseći do 4-5 jedinica.

U trgovini, minimalna veličina uzorka se koristi kada veliki uzorak ili nije moguć ili nije praktičan (na primjer, ako studija uključuje oštećenje ili uništavanje uzoraka koji se ispituju).

Vrijednost greške malog uzorka određena je formulama koje se razlikuju od formula za posmatranje uzorka s relativno velikom veličinom uzorka (n>100). Srednja greška malog uzorka u(mu)m.v. izračunato po formuli:

um.v \u003d korijen (Gsquare (m.v.) . / n),

gdje je Gsquare(m.v.) varijansa malog uzorka. *ovo je sigma*

Prema formuli (broj je tamo) imamo:

G0kvadrat=Gkvadrat *n/ (n-1).

Ali pošto je kod malog uzorka n / (n-1) značajan, izračunavanje varijanse malog uzorka se vrši uzimajući u obzir takozvani broj stepeni slobode. Broj stupnjeva slobode podrazumijeva se kao broj opcija koje mogu uzeti proizvoljne vrijednosti bez promjene prosječne vrijednosti. Prilikom određivanja varijanse Gsquare, broj stupnjeva slobode je n-1:

Gsquare (m.v.) \u003d zbroj (xi-x (sa valovitom linijom)) / (n-1).

Granična greška malog uzorka Dm.v. (znak trokuta) određena je formulom:

U ovom slučaju, vrijednost koeficijenta pouzdanosti t zavisi ne samo od date vjerovatnoće povjerenja, već i od broja jedinica uzorka n. Za pojedinačne vrijednosti t i n, vjerovatnoća pouzdanosti malog uzorka određena je posebnim Studentovim tablicama, u kojima su date distribucije standardiziranih odstupanja:

t= (x(sa talasastom linijom) –x(sa linijom)) / Gm.v.

Učeničke tabele su date u udžbenicima na matematičke statistike. Evo nekih vrijednosti iz ovih tabela koje karakteriziraju vjerovatnoću da marginalna greška malog uzorka neće premašiti t puta prosječnu grešku:

St=P[(x(sa valovitom linijom) –x(sa linijom)

Kako se veličina uzorka povećava, Studentova distribucija se približava normalnoj distribuciji, a na 20 se već malo razlikuje od normalne distribucije.

Prilikom provođenja istraživanja malih uzoraka, važno je imati na umu da što je manji uzorak, to je veća razlika između Studentove distribucije i normalna distribucija. Kod minimalne veličine uzorka (n=4) ova razlika je vrlo značajna, što ukazuje na smanjenje tačnosti rezultata malog uzorka.

Uz pomoć malog uzorka u trgovini rješava se niz praktičnih problema, prije svega utvrđivanje granice u kojoj se nalazi opći prosjek osobine koja se proučava.

Budući da se kod malog uzorka kao pouzdana vjerovatnoća praktično uzima vrijednost 0,95 ili 0,99, onda za određivanje granične greške uzorkovanja Dm.v. Koriste se sljedeća očitanja Studentove raspodjele.

Statistika malog uzorka

Općenito je prihvaćeno da je početak S. m. ili, kako se to često naziva, „mala n“ statistika, ustanovljena je u prvoj deceniji 20. veka objavljivanjem dela W. Gosseta, u koji je postavio t-distribuciju, koju je postulirao „student“ , koji je kasnije stekao svetsku slavu. U to vrijeme, Gosset je radio kao statističar za Guinnessove pivare. Jedna od njegovih dužnosti bila je analiziranje uzastopnih serija bačvi svježe skuvanog stouta. Iz razloga koje nikada nije objasnio, Gosset je eksperimentirao s idejom da uvelike smanji broj uzoraka uzetih iz vrlo velikog broja bačvi u skladištima pivare kako bi nasumično kontrolirao kvalitetu portera. To ga je navelo da postulira t-distribuciju. Pošto je povelja Guinnessovih pivara zabranila svojim zaposlenicima da objavljuju rezultate studije, Gosset je objavio rezultate svog eksperimenta upoređujući kontrolu kvaliteta uzorkovanja koristeći t-distribuciju malog uzorka i tradicionalnu z-distribuciju (normalnu distribuciju) anonimno, pod pseudonim "Student" (Student - odakle potiče naziv t-Studentova distribucija).

t-distribucija. Teorija t-distribucije, kao i teorija z-distribucije, koristi se za testiranje Nulta hipoteza da su dva uzorka jednostavno nasumični uzorci iz iste populacije i stoga su izračunate statistike (npr. srednja vrijednost i standardna devijacija) nepristrasne procjene parametara populacije. Međutim, za razliku od teorije normalne distribucije, teorija t-distribucije za male uzorke ne zahtijeva apriorno znanje ili tačne procjene matematičko očekivanje i varijanse opšte populacije. Štaviše, iako testiranje razlike između srednjih vrednosti dva velika uzorka za statističku značajnost zahteva fundamentalnu pretpostavku o normalnoj distribuciji karakteristika populacije, teorija t-distribucije ne zahteva pretpostavke o parametrima.

Dobro je poznato da su normalno raspoređene karakteristike opisane jednom jedinom krivom - Gaussovom krivom, koja zadovoljava sljedeću jednačinu:

Sa t-distribucijom, cijela porodica krivulja predstavljena je sljedećom formulom:

Zbog toga jednačina za t uključuje gama funkciju, što u matematici znači da kako se n mijenja, druga kriva će zadovoljiti datu jednačinu.

Stepeni slobode

U jednadžbi za t, n označava broj stupnjeva slobode (df) povezanih s procjenom varijanse populacije (S2), što je drugi momenat bilo koje funkcije koja generiše momente, kao što je jednačina za t-distribuciju. U S., broj stupnjeva slobode pokazuje koliko je karakteristika ostalo slobodnih nakon djelomične upotrebe u određenoj vrsti analize. U t-distribuciji, jedno od odstupanja od srednje vrijednosti uzorka je uvijek fiksno, jer zbir svih takvih odstupanja mora biti jednak nuli. Ovo utiče na zbir kvadrata pri izračunavanju varijanse uzorka kao nepristrasne procjene parametra S2 i dovodi do činjenice da je df jednak broju mjerenja minus jedan za svaki uzorak. Dakle, u formulama i postupcima za izračunavanje t-statistike za testiranje nulte hipoteze df = n - 2.

F-prostorna podjela. Nul hipoteza testirana t-testom je da su dva uzorka nasumično izvučena iz iste populacije, ili da su nasumično izvučena iz dvije različite populacije sa istom varijansom. Šta ako trebate analizirati više grupe? Odgovor na ovo pitanje tražio se dvadeset godina nakon što je Gosset otkrio t-distribuciju. Dvojica najistaknutijih statističara 20. veka bila su direktno uključena u njegovu proizvodnju. Jedan - najveći engleski statističar R. A. Fisher, koji je predložio prvu teoriju. formulacije čiji je razvoj doveo do F-distribucije; njegov rad o teoriji malih uzoraka, razvijajući Gossetove ideje, objavljen je sredinom 20-ih (Fisher, 1925). Drugi je George Snedecor, jedan od prvih američkih statističara, koji je razvio način za upoređivanje dva nezavisna uzorka bilo koje veličine izračunavanjem omjera dvije procjene varijanse. On je ovaj omjer nazvao F-razmjerom, po Fischeru. Rezultati istraživanja. Snedekor je doveo do činjenice da je F-distribucija počela da se specificira kao distribucija omjera dvije statistike c2, svaka sa svojim stupnjevima slobode:

Iz ovoga je proizašao Fisherov klasični rad o analizi varijanse, statističkoj tehnici koja je eksplicitno orijentirana na analizu malih uzoraka.

Distribucija uzorkovanja F (gdje je n = df) predstavljena je sljedećom jednadžbom:

Kao iu slučaju t-distribucije, gama funkcija ukazuje da postoji porodica distribucija koje zadovoljavaju jednačinu za F. Međutim, u ovom slučaju analiza uključuje dvije veličine df: broj stupnjeva slobode za brojnik i za nazivnik F-razmjera.

Tabele za procjenu t- i F-statistike. Prilikom testiranja nulte hipoteze korištenjem C. zasnovanog na teoriji velikih uzoraka, obično je potrebna samo jedna referentna tablica - tablica normalnih odstupanja (z), koja vam omogućava da odredite površinu ispod normalne krivulje između bilo koje dvije vrijednosti od z na x-osi. Međutim, tabele za t- i F-distribuciju su nužno predstavljene u skupu tabela, budući da su ove tabele zasnovane na višestrukim distribucijama koje su rezultat variranja broja stepeni slobode. Iako su t- i F-distribucije distribucije gustine vjerovatnoće, poput normalne raspodjele za velike uzorke, one se razlikuju od ove druge u pogledu četiri momenta koja se koriste za njihovo opisivanje. T-distribucija je, na primjer, simetrična (obratite pažnju na t2 u svojoj jednadžbi) za sve df, ali progresivno postaje sve vršnija kako se veličina uzorka smanjuje. Vrhunske krive (sa većim od normalnog kurtozisa) imaju tendenciju da budu manje asimptotične (tj. bliže x-osi na krajevima distribucije) nego krive s normalnim ekscesom, kao što je Gaussova kriva. Ova razlika dovodi do primjetnih neslaganja između tačaka na x-osi koje odgovaraju vrijednostima t i z. Sa df = 5 i bilateralnim nivoom a jednakim 0,05, t = 2,57, dok je odgovarajući z = 1,96. Dakle, t = 2,57 ukazuje na statističku značajnost na nivou od 5%. Međutim, u slučaju normalne krive, z = 2,57 (tačnije 2,58) bi već ukazivalo na nivo statističke značajnosti od 1%. Slična poređenja se mogu napraviti sa F-distribucijom, jer je t jednako F kada je broj uzoraka dva.

Šta čini "mali" uzorak?

Svojevremeno se postavljalo pitanje koliki uzorak treba da bude da bi se smatrao malim. Jednostavno ne postoji definitivan odgovor na ovo pitanje. Međutim, uobičajeno je da se df = 30 smatra uslovnom granicom između malog i velikog uzorka.Osnova za ovu donekle proizvoljnu odluku je rezultat poređenja t-distribucije sa normalnom distribucijom. Kao što je gore navedeno, neslaganje između vrijednosti t i z ima tendenciju povećanja sa smanjenjem i smanjenja s povećanjem df. U stvari, t počinje da se približava z blizu mnogo prije graničnog slučaja kada je t = z za df = ∞. Jednostavan vizualni pregled tabelarnih vrijednosti t omogućava vam da vidite da ova aproksimacija postaje prilično brza, počevši od df = 30 i više. Komparativne vrijednosti t (pri df = 30) i z su, respektivno: 2,04 i 1,96 za p = 0,05; 2,75 i 2,58 za p = 0,01; 3,65 i 3,29 za p = 0,001.

Ostale statistike za "male" uzorke

Iako su statistički testovi kao što su t i F posebno dizajnirani za primjenu na male uzorke, oni su jednako primjenjivi i na velike uzorke. Međutim, postoje mnogi drugi. statističke metode, namijenjen za analizu malih uzoraka i često se koristi u tu svrhu. Oni misle na tzv. neparametarske metode ili metode bez distribucije. U osnovi, S. koji se pojavljuje u ovim metodama je namijenjen za primjenu na mjerenja dobivena korištenjem skala koje ne zadovoljavaju definiciju omjera ili intervalnih skala. Najčešće su to ordinalne (rang) ili nazivne mjere. Neparametrijski S. ne zahtijevaju pretpostavke o parametrima distribucije, posebno u odnosu na procjene varijanse, jer ordinalne i nominalne skale isključuju sam koncept varijanse. Iz tog razloga se neparametarske metode koriste i za mjerenja dobivena intervalnim i omjernim skalama kada se analiziraju mali uzorci i postoji mogućnost da se naruše osnovne pretpostavke potrebne za primjenu parametarskih metoda. Među takvim C., koji se razumno može primijeniti na male uzorke, su: Fišerov test egzaktne vjerovatnoće, Friedmanova dvofaktorska neparametarska (rang) analiza varijanse, Kendallov koeficijent korelacije ranga t, Kendallov koeficijent podudarnosti (W), Kruskalov H-kriterijum - Wallace za neparametrijsku (rang) jednosmjernu analizu varijanse, Mann-Whitney U-test, test medijane, test znakova, Spearmanov koeficijent korelacije ranga r i Wilcoxonov t-test.

Osoba može prepoznati svoje sposobnosti samo ako ih pokuša primijeniti. (Seneca)

Bootstrap, mali uzorci, primjena u analizi podataka

Glavna ideja

Bootstrap metodu je predložio B. Efron kao razvoj metode jackknifea 1979. godine.

Hajde da opišemo glavnu ideju bootstrapa.

Svrha analize podataka je da se dobiju najtačniji selektivno procjenjuje i širi rezultate cijeloj populaciji.

Tehnički izraz za numeričke podatke izvučene iz uzorka je statistika uzorka.

Glavna deskriptivna statistika je selektivno srednja vrijednost, medijan, standardna devijacija, itd.

Rezultirajuća statistika, kao što je srednja vrijednost uzorka, medijan, korelacija će se razlikovati od uzorka do uzorka.

Istraživač treba znati veličinu ovih odstupanja ovisno o populaciji. Na osnovu toga se izračunava granica greške.

Početna slika svih mogućih vrijednosti statistike uzorka u obliku distribucije vjerovatnoće naziva se distribucija uzorka.

Ključ je veličina uzorci. Šta ako je veličina uzorka mala? Jedan razuman pristup je da nasumično izdvajanje podataka iz postojećeg uzorka.

Ideja bootstrapa je da se rezultati izračunavanja uzorka koriste kao "lažna populacija" kako bi se odredila distribucija uzorka statistike. U stvari, analizira veliki broj "fantomskih" uzoraka, koji se nazivaju bootstrap uzorci.

Obično se nekoliko hiljada uzoraka generira nasumično, iz ovog skupa možemo pronaći bootstrap distribuciju statistike koja nas zanima.

Dakle, recimo da imamo uzorak, u prvom koraku nasumično biramo jedan od elemenata uzorka, vraćamo ovaj element uzorku, ponovo nasumično odabiremo element i tako dalje.

Ponovimo opisanu proceduru slučajnog odabira n puta.

U bootstrapu, slučajni odabir je napravljen sa povratak, odabrani elementi originalnog uzorka vraća u uzorak, a zatim se može ponovo odabrati.

Formalno, na svakom koraku biramo element originalnog uzorka sa vjerovatnoćom 1/n.

Ukupno imamo n elemenata početnog uzorka, vjerovatnoća dobijanja uzorka sa brojevima (N 1 ... Nn ), gdje Ni varira od 0 do n, opisana je polinomskom raspodjelom.

Generiše se nekoliko hiljada takvih uzoraka, što je sasvim izvodljivo za moderne računare.

Za svaki uzorak se konstruiše procjena količine od interesa, a zatim se procjene prosječuju.

Pošto postoji mnogo uzoraka, možemo konstruisati empirijska funkcija distribucija procjena, zatim izračunati kvantile, izračunati interval povjerenja.

Jasno je da je bootstrap metoda modifikacija Monte Carlo metode.

Ako su uzorci generirani nema povratka elemenata, onda se dobija dobro poznata metoda noža.

Pitanje: zašto to činiti i kada je razumno koristiti metodu u stvarnoj analizi podataka?

U bootstrapu ne primamo nove informacije, ali mudro koristimo dostupne podatke, na osnovu zadatka.

Na primjer, bootstrap se može koristiti za mala uzorke, za procjene medijane, korelacije, konstrukciju intervala povjerenja iu drugim situacijama.

Efronov originalni rad razmatra procjene parne korelacije za veličinu uzorka od n = 15.

B = generira se 1000 bootstrap uzoraka (bootstrap replikacija).

Na osnovu dobijenih koeficijenata ro 1 ... ro B konstruiše se opšta procjena koeficijenta korelacije i procjena standardne devijacije.

Standardna greška koeficijenta korelacije uzorka izračunata upotrebom normalne aproksimacije je:

gdje je koeficijent korelacije 0,776, početna veličina uzorka je n = 15.

Bootstrap procjena standardne greške je 0,127, vidi Efron, Gall Gong, 1982.

Teorijska pozadina

Neka bude ciljni parametar studije, na primjer, prosječni prihod u odabranom društvu.

Za proizvoljni uzorak veličine, dobijamo skup podataka. Neka je odgovarajuća statistika uzorka

Za većinu uzoraka statistike sa veliki vrijednost (>30) distribucija uzorkovanja je normalna kriva sa centrom i standardnom devijacijom, gdje pozitivni parametar ovisi o populaciji i vrsti statistike

Ovaj klasični rezultat poznat je kao središnja granična teorema.

Često postoje značajne tehničke poteškoće u procjeni potrebnog standardnog odstupanja od podataka.

Na primjer, ako medijana ili korelacija uzorka.

Bootstrap metoda zaobilazi ove poteškoće.

Ideja je jednostavna: označite proizvoljnom vrijednošću koja predstavlja istu statistiku izračunatu iz uzorka za pokretanje dobivenog iz originalnog uzorka

Šta se može reći o distribuciji uzorkovanja ako je “originalni” uzorak fiksan?

U granici, distribucija uzorkovanja je također zvonasta sa parametrima i

Dakle, bootstrap distribucija dobro aproksimira distribuciju uzorkovanja

Imajte na umu da kada prelazimo s jednog uzorka na drugi, mijenja se samo izraz, jer se iz njega izračunava

Ovo je u suštini bootstrap verzija centralne granične teoreme.

Također je pronađeno da ako granična distribucija uzorkovanja statističke funkcije ne uključuje nepoznate populacije, bootstrap distribucija daje bolju aproksimaciju distribuciji uzorkovanja od središnje granične teoreme.

Konkretno, kada statistička funkcija ima oblik gdje označava pravu, ili uzorkovanu procjenu standardne greške, distribucija marginalnog uzorka je obično standardno normalna.

Ovaj efekat se naziva korekcija drugog reda pomoću pokretanja.

Neka tj. prosjek stanovništva itd. srednja vrijednost uzorka; je standardna devijacija populacije, je standardna devijacija uzorka izračunata iz originalnih podataka i izračunata je iz uzorka za pokretanje.

Tada će distribucija uzorka vrijednosti gdje , biti aproksimirana bootstrap distribucijom , gdje je prosjek za početni uzorak, .

Slično, distribucija uzorkovanja će biti aproksimirana bootstrap distribucijom, gdje je .

Prve rezultate o korekciji drugog reda objavili su Babu i Singh 1981-83.

Bootstrap aplikacije

Aproksimacija standardne greške procjene uzorka

Pretpostavimo da je parametar poznat za populaciju

Neka je procjena zasnovana na slučajnom uzorku veličine, tj. je funkcija od Budući da uzorak varira u skupu svih mogućih uzoraka, za procjenu standardne greške koristi se sljedeći pristup:

Izračunajte koristeći istu formulu kao i za, ali ovaj put na osnovu različitih uzoraka veličine bootstrapa. Grubo govoreći, može se prihvatiti samo ako nije jako velika. U ovom slučaju, može se svesti na n ln n. Tada se može odrediti polazeći, zapravo, od suštine bootstrap metode: populaciju (uzorak) zamjenjuje empirijska populacija (uzorak).

Bayesova korekcija korištenjem bootstrap metode

Srednja vrijednost distribucije uzorka često zavisi od obično kao i za velike, tj. Bayesove aproksimacije:

gdje je bootstrap kopija . Tada će prilagođena vrijednost biti -

Vrijedi napomenuti da je prethodna metoda ponovnog uzorkovanja, nazvana metoda jackknifea, popularnija.

Intervali pouzdanosti

Intervali pouzdanosti (CI) za dati parametar su rasponi zasnovani na uzorku.

Ovaj raspon ima svojstvo da mu pripada vrijednost s vrlo velikom (unaprijed postavljenom) vjerovatnoćom. Ovo se zove nivo značajnosti. Naravno, ova vjerovatnoća se mora primijeniti na bilo koji uzorak mogućih, jer svaki uzorak doprinosi određivanju intervala pouzdanosti. Dva najčešće korišćena nivoa značajnosti su 95% i 99%. Ovdje ćemo se ograničiti na vrijednost od 95%.

Tradicionalno, CI zavise od uzorka distribucije vrijednosti preciznije u granici . Postoje dvije glavne vrste intervala povjerenja koji se mogu izgraditi pomoću bootstrapa.

Percentilna metoda

Ova metoda je već spomenuta u uvodu, vrlo je popularna zbog svoje jednostavnosti i prirodnosti. Pretpostavimo da imamo 1000 bootstrap kopija, označimo ih sa Tada će vrijednosti iz raspona pasti u interval pouzdanosti. Vraćajući se na teorijsku opravdanost metode, vrijedi napomenuti da zahtijeva simetriju distribucije uzorkovanja okolo. Razlog za to je što je distribucija uzorkovanja aproksimirana u metoda koja koristi distribuciju za pokretanje treba aproksimirati vrijednošću koja je suprotnog predznaka.

Metoda centriranog bootstrap-a

Pretpostavimo da je distribucija uzorkovanja aproksimirana bootstrap distribucijom, to jest, kako je prvobitno zamišljeno u bootstrapping-u. Označimo 100. percentil (u bootstrap ponavljanjima) kao Tada će pretpostavka da se vrijednost nalazi u rasponu od do biti tačna sa vjerovatnoćom od 95%. Isti izraz se može lako pretvoriti u sličan za raspon od do Ovaj interval se naziva centrirani interval povjerenja za bootstrap percentile (na nivou značajnosti od 95%).

bootstrap-t kriterij

Kao što je već napomenuto, bootstrap koristi funkciju forme u kojoj postoji uzorak procjene standardne greške

Ovo daje dodatnu preciznost.

Kao osnovni primjer, uzmimo standardnu ​​t-statistiku (otuda naziv metode): to je poseban slučaj, kada (srednja vrijednost populacije), (srednja vrijednost uzorka) i - standardna devijacija uzorka. Bootstrap analog takve funkcije je gdje se izračunava na isti način kao i samo na bootstrap uzorku.

Označimo 100. bootstrap percentil sa i pretpostavimo da vrijednost leži u intervalu

Koristeći jednakost može se prepisati prethodni iskaz, tj. leži u intervalu

Ovaj jaz se naziva interval t-pouzdanja za početak na nivou od 95%.

Koristi se u literaturi kako bi se postigla veća tačnost od prethodnog pristupa.

Primjer stvarnih podataka

Kao prvi primjer, uzmite podatke iz Hollander i Wolfe 1999, str.63, koji se odnose na uticaj svjetlosti na brzinu izleganja pilića.

Standardni okvirni dijagram ne pretpostavlja nikakvu normalnost podataka o populaciji. Izvršili smo početnu analizu medijane i srednje vrijednosti.

Odvojeno, vrijedi napomenuti nedostatak simetrije na t-histogramu za pokretanje, koji se razlikuje od standardne granične krivulje. Intervali pouzdanosti od 95% za medijanu i srednju vrijednost (izračunati korištenjem metode bootstrap percentila) otprilike pokrivaju raspon

Ovaj raspon predstavlja ukupnu razliku (povećanje) rezultata izleganja pilića u zavisnosti od pozadinskog osvetljenja.

Kao drugi primjer, razmotrite podatke iz Devorea 2003, str. 553, koji su razmatrali korelaciju između biohemijske potražnje za kisikom (BOD) i rezultata hidrostatičke težine (HW) profesionalnih fudbalera.

2D podaci se sastoje od parova, a parovi se mogu slobodno birati tokom ponovnog uzorkovanja. Na primjer, prvo uzmi pa, itd.

Na slici, dijagram kutija sa brkovima pokazuje nedostatak normalnosti za glavne populacije. Histogrami korelacije izračunati iz 2D početnih podataka su asimetrični (pomaknuti ulijevo).

Iz tog razloga, u ovom slučaju je prikladnija metoda centralnog bootstrap percentila.

Kao rezultat analize, pokazalo se da su mjerenja korelirana za najmanje 78% populacije.

Podaci na primjer 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Podaci na primjer 2:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

U literaturi se često predlažu različite šeme za pokretanje, koje bi mogle dati pouzdane rezultate u različitim statističkim situacijama.

Ono što je gore diskutovano su samo najosnovniji elementi, a zapravo postoji mnogo drugih opcija kola. Na primjer, koju metodu je bolje koristiti u slučaju dvostepenog uzorkovanja ili stratificiranog uzorkovanja?

U ovom slučaju nije teško izmisliti prirodnu shemu. Bootstrapping u slučaju podataka s regresijskim modelima općenito privlači veliku pažnju. Postoje dvije glavne metode: u prvom, kovarijanse i varijable odgovora se ponovo uzorkuju zajedno (parno bootstrapping), u drugom, bootstrapping se izvodi na rezidualima (rezidualno bootstrapping).

Metoda parova ostaje ispravna (u smislu rezultata na ) čak i ako varijanse greške u modelima nisu jednake. Druga metoda je u ovom slučaju neispravna. Ovaj nedostatak je nadoknađen činjenicom da takva shema daje dodatnu tačnost u procjeni standardne greške.

Mnogo je teže primijeniti bootstrapping na podatke vremenske serije.

Analiza vremenskih serija, međutim, jedno je od ključnih područja u ekonometriji. Ovdje se mogu identificirati dvije glavne poteškoće: prvo, podaci vremenske serije imaju svojstvo sekvencijalne zavisnosti. Odnosno, zavisi od itd.

Drugo, statistička populacija se vremenom mijenja, odnosno pojavljuje se nestacionarnost.

Za to su razvijene metode koje prenose ovisnost u izvornim podacima na bootstrap uzorke, posebno na blok dijagram.

Umjesto bootstrap selekcije, odmah se gradi blok podatke koji zadržavaju zavisnosti od originalnog uzorka.

U području primjene bootstrappinga na dijelove ekonometrije, trenutno se provodi dosta istraživanja, općenito se metoda aktivno razvija.

Metoda malog uzorka

Glavna prednost metode malog uzorka je mogućnost procjene dinamike procesa tokom vremena uz smanjenje vremena za proračunske procedure.

Nasumično odaberite trenutne uzorke određenim periodima vremenski obim od 5 do 20 jedinica. Period uzorkovanja se utvrđuje empirijski i zavisi od stabilnosti procesa, utvrđene analizom apriornih informacija.

Za svaki trenutni uzorak određuju se glavne statističke karakteristike. Trenutni uzorci i njihove glavne statističke karakteristike prikazani su u Dodatku B.

Postavlja se i testira hipoteza o homogenosti varijanse uzorka pomoću jednog od mogućih kriterija (Fisherov kriterij).

Testiranje hipoteze o homogenosti karakteristika uzorka.

Da bi se proverila značajnost razlike aritmetičkih sredina u 2 serije merenja, uvodi se mera G. Proračuni su dati u Dodatku B

Pravilo odluke je formulirano na sljedeći način:

gdje je tr vrijednost kvantila normalizirane distribucije za datu vjerovatnoću pouzdanosti R, ? = 0,095, n = 10, tr = 2,78.

Kada je nejednakost ispunjena, potvrđuje se hipoteza da razlika između srednjih vrijednosti uzorka nije značajna.

Budući da je nejednakost zadovoljena u svim slučajevima, potvrđuje se hipoteza da razlika između srednjih vrijednosti uzorka nije značajna.

Da bi se testirala hipoteza o homogenosti varijansi uzorka, uvodi se mjera F0 kao omjer nepristrasnih procjena varijansi rezultata 2 serije mjerenja. Štaviše, veća od 2 procjene se uzima kao brojnik, a ako je Sx1>Sx2, tada

Rezultati proračuna su dati u Dodatku B.

Tada se postavljaju vrijednosti vjerovatnoće pouzdanosti P i određuju se vrijednosti F(K1; K2; ?/2) na K1 = n1 - 1 i K2 = n2 - 1.

Kod P=0,025 i K1=10-1=4 i K2=10-1=4 F(9;9;0,025/2)=4,1.

Pravilo odlučivanja: ako je F(K1; K2; ?/2)>F0, hipoteza o homogenosti varijansi u dva uzorka je prihvaćena.

Pošto je uslov F(K1; K2; ?/2) > F0 zadovoljen u svim slučajevima, prihvata se hipoteza homogenosti disperzija.

Time je potvrđena hipoteza o homogenosti varijansi uzorka, što ukazuje na stabilnost procesa; potvrđena je hipoteza o homogenosti uzorka sredstava prema metodi poređenja sredina, što znači da centar disperzije nije promijenjen i da je proces u stabilnom stanju.

Metoda rasipanja i dijagrama tačnosti

U određenom vremenu uzimaju se trenutni uzorci, od 3 do 10 proizvoda, i određuju se statističke karakteristike svakog uzorka.

Dobijeni podaci se primjenjuju na grafikone, na osi apscise koje vrijeme je ucrtano? ili broja k uzoraka, a duž y-ose - pojedinačne vrijednosti xk ili vrijednost jedne od statističke karakteristike(uzorak aritmetičke sredine, uzorak standardne devijacije). Osim toga, na dijagramu su nacrtane dvije horizontalne linije Tv i Tn, koje ograničavaju polje tolerancije proizvoda.

Trenutni uzorci dati su u Aneksu B.


Slika 1 Tabela tačnosti

Dijagram jasno prikazuje napredak proizvodnog procesa. Može se ocijeniti da je proces proizvodnje nestabilan