Mostrat në të cilat vëzhgimi nuk përfshin numër i madh njësi (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Gabimi margjinal i një kampioni të vogël përcaktohet nga formula:

Gabimi mesatar i një kampioni të vogël:

ku është varianca e një kampioni të vogël:

ku është vlera mesatare e veçorisë në mostër;

Numri i shkallëve të lirisë

Koeficienti i besimit të një kampioni të vogël, i cili varet jo vetëm nga një probabilitet i caktuar besimi, por edhe nga numri i njësive të mostrës.

Probabiliteti që mesatarja e përgjithshme të jetë brenda kufijve të caktuar përcaktohet nga formula

ku është vlera e funksionit të Studentit.

Për të llogaritur koeficientin e besimit, vlera e funksionit përcaktohet me formulën:

Më pas, sipas tabelës së shpërndarjes së Studentit (shih Shtojcën 4), në varësi të vlerës së funksionit dhe numrit të shkallëve, përcaktohet vlera.

Funksioni përdoret gjithashtu për të përcaktuar probabilitetet që devijimi aktual i normalizuar nuk do të kalojë vlerën e tabelës.


Tema 7. Studimi statistikor i marrëdhënies: Koncepti i lidhjes statistikore. Llojet dhe format e lidhjes statistikore. Detyrat studim statistikor marrëdhëniet e dukurive. Veçoritë e hallkave të dukurive socio-ekonomike. Metodat bazë të studimit statistikor të marrëdhënieve.

korrelacioni - një marrëdhënie që nuk shfaqet në çdo rast individual, por në masën e rasteve në vlera mesatare në formën e një tendence.

Studim statistikor synon të përftojë një model varësie për përdorimin praktik të tij. Zgjidhja e këtij problemi kryhet në sekuencën vijuese.

1. Analizë logjike e thelbit të fenomenit në studim dhe marrëdhëniet shkak-pasojë. Si rezultat, treguesi i performancës është vendosur (y), faktorët e ndryshimit të tij, të karakterizuar nga tregues (x (, x 2, x 3,..., X"). Marrëdhënia e dy shenjave (në dhe X) thirrur korrelacioni i çiftit. Ndikimi i disa faktorëve në tiparin efektiv quhet korrelacion i shumëfishtë.

Në drejtimin e përgjithshëm të komunikimit mund të jetë drejt dhe e kundërta. Me lidhje të drejtpërdrejta me një rritje në tipar x rritet edhe shenja y, me të kundërt - me një rritje të shenjës X shenjë zvogëlohet.

2. Mbledhja e informacionit parësor dhe kontrollimi i tij për homogjenitet dhe shpërndarje normale. Për të vlerësuar homogjenitetin e popullatës, përdoret koeficienti i variacionit sipas karakteristikave të faktorëve

Kompleti konsiderohet homogjen nëse koeficienti i variacionit nuk kalon 33%. Kontrollimi i normalitetit të shpërndarjes së të studiuarit shenjat e faktorit (x ( , x 2 , x 3 ,..., X") kryhet duke përdorur rregullin tre sigma. Rezultatet e testit për shpërndarje normale duhet të paraqiten në formë tabelare.

Kur kontrolloni cilësinë e mallrave në kërkimin ekonomik, eksperimenti mund të kryhet në bazë të një kampioni të vogël.

Nën mostër e vogël kuptohet si një vrojtim statistikor jo i vazhdueshëm, në të cilin popullata e mostrës formohet nga një numër relativisht i vogël njësish të popullsisë së përgjithshme. Vëllimi i një kampioni të vogël zakonisht nuk i kalon 30 njësi dhe mund të arrijë deri në 4-5 njësi.

Në tregti, përdoret një madhësi minimale e mostrës kur një mostër e madhe ose nuk është e mundur ose jo praktike (për shembull, nëse studimi përfshin përkeqësimin ose shkatërrimin e mostrave që ekzaminohen).

Vlera e gabimit të një kampioni të vogël përcaktohet nga formula të ndryshme nga formulat për vëzhgimin e mostrës me një madhësi relativisht të madhe kampioni (n>100). Gabimi mesatar i një kampioni të vogël u(mu)m.v. llogaritur me formulën:

um.v \u003d rrënjë (Gsquare (m.v.) . / n),

ku Gsquare(m.v.) është varianca e një kampioni të vogël. *kjo është sigma*

Sipas formulës (numri është aty) kemi:

G0square=Gkatror *n/ (n-1).

Por meqenëse me një mostër të vogël n / (n-1) është domethënëse, llogaritja e variancës së një kampioni të vogël bëhet duke marrë parasysh të ashtuquajturin numër të shkallëve të lirisë. Numri i shkallëve të lirisë kuptohet si numri i opsioneve që mund të marrin vlera arbitrare pa ndryshuar vlerën mesatare. Gjatë përcaktimit të variancës Gsquare, numri i shkallëve të lirisë është n-1:

Gsquare (m.v.) \u003d shuma (xi-x (me një vijë të valëzuar)) / (n-1).

Gabimi margjinal i një kampioni të vogël Dm.v. (shenjë trekëndëshi) përcaktohet nga formula:

Në këtë rast, vlera e koeficientit të besimit t varet jo vetëm nga probabiliteti i dhënë i besimit, por edhe nga numri i njësive të mostrës n. Për vlerat individuale të t dhe n, probabiliteti i besimit të një kampioni të vogël përcaktohet nga tabelat speciale të Studentit, në të cilat jepen shpërndarjet e devijimeve të standardizuara:

t= (x(me vijë të valëzuar) –x(me vijë)) / Gm.v.

Në tekstet shkollore jepen tabelat e nxënësve mbi statistika matematikore. Këtu janë disa vlera nga këto tabela që karakterizojnë probabilitetin që gabimi marxhinal i një kampioni të vogël të mos kalojë t herë gabimin mesatar:

St=P[(x(me një vijë të valëzuar) –x(me një vijë)

Ndërsa madhësia e kampionit rritet, shpërndarja e Studentit i afrohet shpërndarjes normale dhe në 20 ajo tashmë ndryshon pak nga shpërndarja normale.

Gjatë kryerjes së anketave të vogla me mostra, është e rëndësishme të kihet parasysh se sa më e vogël të jetë madhësia e kampionit, aq më i madh është ndryshimi midis shpërndarjes së Studentit dhe shpërndarje normale. Me një madhësi minimale të kampionit (n=4), ky ndryshim është shumë domethënës, gjë që tregon një ulje të saktësisë së rezultateve të një kampioni të vogël.

Me anë të një kampioni të vogël në tregti, zgjidhen një sërë problemesh praktike, para së gjithash, vendosja e një kufiri në të cilin qëndron mesatarja e përgjithshme e tiparit në studim.

Meqenëse, gjatë kryerjes së një kampioni të vogël, praktikisht merret si probabilitet besimi vlera 0.95 ose 0.99, atëherë për të përcaktuar gabimin margjinal të kampionimit Dm.v. Përdoren leximet e mëposhtme të shpërndarjes së nxënësit.

Statistikat e mostrave të vogla

Në përgjithësi pranohet se fillimi i S. m. ose, siç quhet shpesh, statistika “n e vogël”, u krijua në dekadën e parë të shekullit të 20-të nga botimi i veprës së W. Gosset, në të cilën ai vendosi shpërndarjen t të postuar nga “studenti” i cili. më vonë fitoi famë botërore. Në atë kohë, Gosset punonte si statisticien për birraritë Guinness. Një nga detyrat e tij ishte të analizonte tufa të njëpasnjëshme të fuçive të forta të freskëta. Për arsye që ai kurrë nuk i shpjegoi me të vërtetë, Gosset eksperimentoi me idenë e reduktimit të madh të numrit të mostrave të marra nga një numër shumë i madh kavanozësh në magazinat e fabrikës së birrës për të kontrolluar në mënyrë të rastësishme cilësinë e portierit. Kjo e shtyu atë të postulonte shpërndarjen t. Meqenëse statuti i fabrikës së birrës Guinness i ndaloi punonjësit e tyre të publikonin rezultatet e studimit, Gosset publikoi rezultatet e eksperimentit të tij duke krahasuar kontrollin e cilësisë së mostrës duke përdorur një shpërndarje t-kampion të vogël dhe një shpërndarje tradicionale z (shpërndarje normale) në mënyrë anonime, nën pseudonimi "Studenti" (Studenti - nga ka ardhur emri t-Shpërndarja e studentit).

t-shpërndarja. Teoria e shpërndarjes t, si teoria e shpërndarjes z, përdoret për të testuar asnje hipoteze se dy mostrat janë thjesht mostra të rastësishme nga e njëjta popullatë dhe për këtë arsye statistikat e llogaritura (p.sh., devijimi mesatar dhe standard) janë vlerësime të paanshme të parametrave të popullatës. Megjithatë, ndryshe nga teoria e shpërndarjes normale, teoria e shpërndarjes t për mostrat e vogla nuk kërkon njohuri apriori ose vlerësime të sakta pritje matematikore dhe variancën e popullatës së përgjithshme. Për më tepër, megjithëse testimi i ndryshimit midis mesatareve të dy mostrave të mëdha për rëndësi statistikore kërkon një supozim themelor për shpërndarjen normale të karakteristikave të popullatës, teoria e shpërndarjes t nuk kërkon supozime për parametrat.

Dihet mirë se karakteristikat e shpërndara normalisht përshkruhen nga një kurbë e vetme - kurba Gaussian, e cila plotëson ekuacionin e mëposhtëm:

Me një shpërndarje t, një familje e tërë kurbash përfaqësohet me formulën e mëposhtme:

Kjo është arsyeja pse ekuacioni për t përfshin funksionin gama, që në matematikë do të thotë se me ndryshimin e n, një kurbë tjetër do të plotësojë ekuacionin e dhënë.

Shkallët e lirisë

Në ekuacionin për t, n tregon numrin e shkallëve të lirisë (df) të lidhura me vlerësimin e variancës së popullsisë (S2), që është momenti i dytë i çdo funksioni gjenerues të momentit, siç është ekuacioni për shpërndarjen t. Në S., numri i shkallëve të lirisë tregon se sa karakteristika mbetën të lira pas përdorimit të tyre të pjesshëm në një lloj të veçantë analize. Në një shpërndarje t, një nga devijimet nga mesatarja e mostrës është gjithmonë fikse, pasi shuma e të gjitha devijimeve të tilla duhet të jetë zero. Kjo ndikon në shumën e katrorëve kur llogaritet varianca e mostrës si një vlerësim i paanshëm i parametrit S2 dhe çon në faktin se df është e barabartë me numrin e matjeve minus një për çdo mostër. Prandaj, në formulat dhe procedurat për llogaritjen e statistikave t për testimin e hipotezës zero df = n - 2.

Ndarja e hapësirës F. Hipoteza zero e testuar nga testi t është se dy mostrat janë nxjerrë rastësisht nga e njëjta popullatë ose janë nxjerrë rastësisht nga dy popullata të ndryshme me të njëjtën variancë. Po sikur të keni nevojë të analizoni më shumë grupe? Përgjigja për këtë pyetje u kërkua për njëzet vjet pasi Gosset zbuloi shpërndarjen t. Dy nga statisticienët më të shquar të shekullit të 20-të u përfshinë drejtpërdrejt në prodhimin e tij. Një - statisticieni më i madh anglez R. A. Fisher, i cili propozoi teorinë e parë. formulime, zhvillimi i të cilave çoi në shpërndarjen F; puna e tij mbi teorinë e mostrave të vogla, duke zhvilluar idetë e Gosset, u botua në mesin e viteve 1920 (Fisher, 1925). Një tjetër është George Snedecor, një nga statisticienët e parë amerikanë, i cili zhvilloi një mënyrë për të krahasuar dy mostra të pavarura të çdo madhësie duke llogaritur raportin e dy vlerësimeve të variancës. Ai e quajti këtë raport raporti F, sipas Fischer. Rezultatet e hulumtimit. Snedekor çoi në faktin se shpërndarja F filloi të specifikohej si shpërndarja e raportit të dy statistikave c2, secila me shkallët e veta të lirisë:

Nga kjo erdhi puna klasike e Fisher mbi analizën e variancës, një teknikë statistikore e orientuar në mënyrë eksplicite drejt analizës së mostrave të vogla.

Shpërndarja e mostrës F (ku n = df) përfaqësohet nga ekuacioni i mëposhtëm:

Ashtu si në rastin e shpërndarjes t, funksioni gama tregon se ekziston një familje shpërndarjesh që plotësojnë ekuacionin për F. Megjithatë, në këtë rast, analiza përfshin dy sasi të df: numrin e shkallëve të lirisë për numërues dhe për emëruesin e raportit F.

Tabelat për vlerësimin e statistikave t dhe F. Kur testoni hipotezën zero duke përdorur C. bazuar në teorinë e mostrave të mëdha, zakonisht kërkohet vetëm një tabelë referimi - tabela e devijimeve normale (z), e cila ju lejon të përcaktoni zonën nën kurbën normale midis çdo dy vlerash. e z në boshtin x. Megjithatë, tabelat për shpërndarjet t- dhe F janë të paraqitura domosdoshmërisht në një grup tabelash, pasi këto tabela bazohen në shpërndarje të shumëfishta që rezultojnë nga ndryshimi i numrit të shkallëve të lirisë. Megjithëse shpërndarjet t- dhe F janë shpërndarje të densitetit të probabilitetit, si shpërndarja normale për mostrat e mëdha, ato ndryshojnë nga kjo e fundit në lidhje me katër momentet e përdorura për t'i përshkruar ato. Shpërndarja t, për shembull, është simetrike (vëreni t2 në ekuacionin e saj) për të gjitha df, por bëhet gjithnjë e më e lartë me zvogëlimin e madhësisë së mostrës. Lakoret me kulm (me kurtozë më të madhe se normale) priren të jenë më pak asimptotike (d.m.th., më afër boshtit x në skajet e shpërndarjes) sesa kthesat me kurtozë normale, siç është kurba Gaussian. Ky ndryshim çon në mospërputhje të dukshme midis pikave në boshtin x që korrespondojnë me vlerat e t dhe z. Me df = 5 dhe nivel dypalësh a i barabartë me 0,05, t = 2,57, ndërsa z = 1,96. Prandaj, t = 2.57 tregon rëndësi statistikore në nivelin 5%. Megjithatë, në rastin e një kurbë normale, z = 2.57 (më saktë 2.58) do të tregonte tashmë një nivel 1% të rëndësisë statistikore. Krahasime të ngjashme mund të bëhen me shpërndarjen F, pasi t është e barabartë me F kur numri i mostrave është dy.

Çfarë përbën një mostër "të vogël"?

Në një kohë, u ngrit pyetja se sa i madh duhet të jetë kampioni në mënyrë që të konsiderohet i vogël. Thjesht nuk ka një përgjigje përfundimtare për këtë pyetje. Megjithatë, është zakon të konsiderohet df = 30 si një kufi i kushtëzuar midis një kampioni të vogël dhe një kampioni të madh.Baza për këtë vendim deri diku arbitrar është rezultati i krahasimit të shpërndarjes t me shpërndarjen normale. Siç u përmend më lart, mospërputhja midis vlerave t dhe z tenton të rritet me uljen dhe zvogëlimin me rritjen e df. Në fakt, t fillon t'i afrohet z nga afër shumë përpara rastit kufizues kur t = z për df = ∞. Një ekzaminim i thjeshtë vizual i vlerave tabelare të t ju lejon të shihni se ky përafrim bëhet mjaft i shpejtë, duke filluar nga df = 30 e lart. Vlerat krahasuese të t (në df = 30) dhe z janë, përkatësisht: 2.04 dhe 1.96 për p = 0.05; 2,75 dhe 2,58 për p = 0,01; 3,65 dhe 3,29 për p = 0,001.

Statistikat e tjera për mostrat "të vogla".

Edhe pse testet statistikore si t dhe F janë krijuar posaçërisht për t'u aplikuar në mostra të vogla, ato janë njëlloj të zbatueshme për mostrat e mëdha. Megjithatë ka edhe shumë të tjerë. metodat statistikore, i destinuar për analizimin e mostrave të vogla dhe shpesh përdoret për këtë qëllim. Ata nënkuptojnë të ashtuquajturat. metoda joparametrike ose pa shpërndarje. Në thelb, S. që shfaqet në këto metoda synohet të zbatohet për matjet e marra duke përdorur shkallë që nuk plotësojnë përkufizimin e shkallëve të raporteve ose intervaleve. Më shpesh këto janë matje rendore (grade) ose nominale. S. joparametrike nuk kërkojnë supozime për parametrat e shpërndarjes, në veçanti, në lidhje me vlerësimet e variancës, sepse shkallët rendore dhe nominale përjashtojnë vetë konceptin e variancës. Për këtë arsye, metodat joparametrike përdoren edhe për matjet e marra duke përdorur shkallët e intervalit dhe të raportit kur analizohen mostra të vogla dhe ekziston mundësia që të shkelen supozimet bazë të nevojshme për aplikimin e metodave parametrike. Ndër C. të tilla, të cilat mund të zbatohen në mënyrë të arsyeshme në mostra të vogla, janë: testi i saktë i probabilitetit të Fisher, analiza joparametrike (rank) me dy faktorë të Friedman-it, koeficienti i korrelacionit të renditjes t Kendall, koeficienti i përputhjes së Kendall (W), kriteri H i Kruskal-it. - Wallace për analizën joparametrike (rank) të variancës, Mann-Whitney U-test, testi mesatar, testi i shenjave, koeficienti i korrelacionit të rangut të Spearman r dhe testi t Wilcoxon.

Një person mund të njohë aftësitë e tij vetëm duke u përpjekur t'i zbatojë ato. (Seneca)

Bootstrap, mostra të vogla, aplikim në analizën e të dhënave

Ideja kryesore

Metoda e bootstrap u propozua nga B. Efron si një zhvillim i metodës jackknife në 1979.

Le të përshkruajmë idenë kryesore të bootstrap.

Qëllimi i analizës së të dhënave është të merret më e sakta selektive vlerëson dhe shpërndan rezultatet në të gjithë popullsinë.

Termi teknik për të dhënat numerike të nxjerra nga një mostër është statistika e mostrës.

Statistikat kryesore përshkruese janë selektive mesatare, mesatare, devijimi standard etj.

Statistikat që rezultojnë, të tilla si mesatarja e mostrës, mesatarja, korrelacioni do të ndryshojnë nga mostra në kampion.

Studiuesi duhet të dijë madhësinë e këtyre devijimeve në varësi të popullatës. Bazuar në këtë, llogaritet marzhi i gabimit.

Fotografia fillestare e të gjitha vlerave të mundshme të një statistike të mostrës në formën e një shpërndarje probabiliteti quhet shpërndarja e mostrës.

Çelësi është permasa mostrat. Po sikur madhësia e kampionit të jetë e vogël? Një qasje e arsyeshme është që e rastit nxjerr të dhëna nga kampioni ekzistues.

Ideja e bootstrap-it është të përdorë rezultatet e llogaritjeve të mostrës si një "popullatë e rreme" për të përcaktuar shpërndarjen e mostrës së statistikave. Në fakt analizon i madh numri i mostrave "fantomike", të quajtur mostra bootstrap.

Zakonisht disa mijëra mostra gjenerohen rastësisht, nga ky grup mund të gjejmë shpërndarjen e bootstrap të statistikave me interes për ne.

Pra, le të themi se kemi një mostër, në hapin e parë, zgjidhni rastësisht një nga elementët e kampionit, kthejeni këtë element në mostër, zgjidhni rastësisht elementin përsëri, e kështu me radhë.

Le të përsërisim procedurën e përshkruar të përzgjedhjes rastësore n herë.

Në bootstrap, bëhet një përzgjedhje e rastësishme me kthehu, elementet e zgjedhur të mostrës origjinale kthehet në mostër dhe më pas mund të zgjidhet përsëri.

Formalisht, në çdo hap, ne zgjedhim një element të mostrës origjinale me një probabilitet prej 1/n.

Në total, kemi n elementë të kampionit fillestar, probabiliteti i marrjes së një kampioni me numra (N 1 ... Nn ), ku Ni varion nga 0 në n, përshkruhet nga një shpërndarje polinomiale.

Janë gjeneruar disa mijëra mostra të tilla, gjë që është mjaft e arritshme për kompjuterët modernë.

Për çdo mostër, ndërtohet një vlerësim i sasisë së interesit, pastaj vlerësohen mesatarisht.

Meqenëse ka shumë mostra, ne mund të ndërtojmë funksion empirik shpërndarja e vlerësimeve, më pas llogaritni sasitë, llogaritni intervalin e besimit.

Është e qartë se metoda bootstrap është një modifikim i metodës Monte Carlo.

Nëse gjenerohen mostrat nuk ka kthim elementet, atëherë fitohet metoda e njohur jackknife.

Pyetje: pse e bëjmë këtë dhe kur është e arsyeshme të përdoret metoda në analizën reale të të dhënave?

Në bootstrap, ne nuk marrim informacione të reja, por i përdorim të dhënat e disponueshme me mençuri, bazuar në detyrën në fjalë.

Për shembull, bootstrap mund të përdoret për të i vogël mostra, për vlerësimet e mesatares, korrelacioneve, ndërtimit të intervaleve të besimit dhe në situata të tjera.

Punimi origjinal i Efron mori në konsideratë vlerësimet e korrelacionit në çift për një madhësi mostre prej n = 15.

B = 1000 mostra bootstrap gjenerohen (përsëritja e bootstrap).

Bazuar në koeficientët e marrë ro 1 … ro B, ndërtohet një vlerësim i përgjithshëm i koeficientit të korrelacionit dhe një vlerësim i devijimit standard.

Gabimi standard i koeficientit të korrelacionit të mostrës i llogaritur duke përdorur përafrimin normal është:

ku koeficienti i korrelacionit është 0.776, madhësia fillestare e mostrës është n = 15.

Vlerësimi i bootstrap-it të gabimit standard është 0.127, shih Efron, Gall Gong, 1982.

Sfondi teorik

Le të jetë parametri i synuar i studimit, për shembull, të ardhurat mesatare në shoqërinë e përzgjedhur.

Për një mostër arbitrare të madhësisë, ne marrim një grup të dhënash. Le të jetë statistika përkatëse e mostrës

Për shumicën e statistikave të mostrës me i madh vlera (>30) shpërndarja e kampionit është një kurbë normale me një qendër dhe një devijim standard, ku parametri pozitiv varet nga popullsia dhe lloji i statistikave

Ky rezultat klasik njihet si teorema e kufirit qendror.

Shpesh ka vështirësi të konsiderueshme teknike në vlerësimin e devijimit standard të kërkuar nga të dhënat.

Për shembull, nëse mesatare ose korrelacioni i mostrës.

Metoda e bootstrap i anashkalon këto vështirësi.

Ideja është e thjeshtë: shënoni me një vlerë arbitrare që përfaqëson të njëjtat statistika të llogaritura nga kampioni bootstrap i marrë nga kampioni origjinal

Çfarë mund të thuhet për shpërndarjen e kampionit nëse kampioni "origjinal" është fiks?

Në kufi, shpërndarja e kampionimit është gjithashtu në formë zile me parametra dhe

Kështu, shpërndarja e bootstrap përafron mirë shpërndarjen e mostrës

Vini re se kur kalojmë nga një mostër në tjetrën, vetëm shprehja ndryshon, pasi ajo llogaritet nga

Ky është në thelb një version bootstrap i teoremës së kufirit qendror.

U zbulua gjithashtu se nëse shpërndarja e kampionimit të kufirit të një funksioni statistikor nuk përfshin të panjohurat e popullsisë, shpërndarja e bootstrap ofron një përafrim më të mirë me shpërndarjen e mostrës sesa teorema e kufirit qendror.

Në veçanti, kur funksioni statistikor ka formën ku tregon vlerësimin e vërtetë ose mostër të gabimit standard, shpërndarja margjinale e kampionit është zakonisht normale standarde.

Ky efekt quhet korrigjim i rendit të dytë duke përdorur bootstrapping.

Le d.m.th. mesatarja e popullsisë etj. mesatare e mostrës; është devijimi standard i popullsisë, është devijimi standard i mostrës i llogaritur nga të dhënat origjinale dhe llogaritet nga kampioni i bootstrap.

Pastaj shpërndarja e mostrës së vlerës ku , do të përafrohet me shpërndarjen e bootstrap, ku është mesatarja mbi kampionin e bootstrap, .

Në mënyrë të ngjashme, shpërndarja e mostrës do të përafrohet me shpërndarjen e bootstrap, ku .

Rezultatet e para mbi korrigjimin e rendit të dytë u botuan nga Babu dhe Singh në 1981-83.

Aplikacionet Bootstrap

Përafrimi i gabimit standard të një vlerësimi të mostrës

Supozoni se parametri është i njohur për popullatën

Le të jetë një vlerësim i bazuar në një kampion të rastësishëm të madhësisë d.m.th. është një funksion i Meqenëse kampioni ndryshon mbi grupin e të gjitha mostrave të mundshme, qasja e mëposhtme përdoret për të vlerësuar gabimin standard:

Llogaritni duke përdorur të njëjtën formulë si përdoret për, por këtë herë bazuar në mostra të madhësive të ndryshme të bootstrap-it secila. Përafërsisht, mund të pranohet vetëm nëse nuk është shumë i madh. Në këtë rast, mund të reduktohet në n ln n. Atëherë mund të përcaktohet duke u nisur, në fakt, nga thelbi i metodës së bootstrap: popullata (kampioni) zëvendësohet nga një popullatë (kampion) empirike.

Korrigjimi Bayesian duke përdorur metodën e bootstrap

Mesatarja e një shpërndarjeje kampioni shpesh varet nga zakonisht si përafërsisht e madhe, d.m.th., përafrimi Bayesian:

ku është kopja bootstrap e . Atëherë vlera e rregulluar do të jetë -

Vlen të përmendet se metoda e mëparshme e rimarrjes së mostrave, e quajtur metoda jackknife, është më e popullarizuar.

Intervalet e besimit

Intervalet e besimit (CI) për një parametër të caktuar janë intervale të bazuara në mostra.

Ky interval ka vetinë që i përket një vlerë me një probabilitet shumë të lartë (të paravendosur). Ky quhet niveli i rëndësisë. Natyrisht, kjo probabilitet duhet të zbatohet për çdo mostër të mundshme, pasi çdo mostër kontribuon në përcaktimin e intervalit të besimit. Dy nivelet më të përdorura të rëndësisë janë 95% dhe 99%. Këtu do të kufizohemi në vlerën 95%.

Tradicionalisht, CI varet nga shpërndarja e mostrës së sasisë më saktësisht në kufi. Ekzistojnë dy lloje kryesore të intervaleve të besimit që mund të ndërtohen me bootstrap.

Metoda e përqindjes

Kjo metodë është përmendur tashmë në hyrje, është shumë e popullarizuar për shkak të thjeshtësisë dhe natyralitetit të saj. Supozoni se kemi 1000 kopje bootstrap le t'i shënojmë me Pastaj vlerat nga diapazoni do të bien në intervalin e besimit. Duke iu rikthyer justifikimit teorik të metodës, vlen të theksohet se kërkon simetri të shpërndarjes së kampionimit rreth. Arsyeja për këtë është se shpërndarja e kampionimit është përafruar metoda që përdor shpërndarjen e bootstrap duhet të përafrohet me një vlerë që është e kundërt në shenjë.

Metoda e përqindjes së nisjes në qendër

Supozoni se shpërndarja e kampionit është e përafruar me shpërndarjen e bootstrap-it, domethënë, siç synohej fillimisht në bootstrapping. Le të shënojmë përqindjen e 100-të (në përsëritjet e bootstrap) si Atëherë supozimi se vlera qëndron në intervalin nga deri në do të jetë i vërtetë me një probabilitet prej 95%. E njëjta shprehje mund të konvertohet lehtësisht në një të ngjashme për diapazonin nga në Ky interval quhet intervali i qendrës së besueshmërisë për përqindjet e nisjes (në një nivel rëndësie prej 95%).

kriteri bootstrap-t

Siç është vërejtur tashmë, bootstrap përdor një funksion të formës ku ka një vlerësim mostër të gabimit standard

Kjo jep saktësi shtesë.

Si shembull bazë, le të marrim statistikën standarde t (prandaj emri i metodës): kjo eshte rast i veçantë, kur (mesatarja e popullsisë), (mesatarja e mostrës) dhe - devijimi standard i mostrës. Analogu bootstrap i një funksioni të tillë është ku llogaritet në të njëjtën mënyrë si dhe vetëm në mostrën e bootstrap.

Le të shënojmë përqindjen e 100-të të nisjes me dhe të supozojmë se vlera qëndron në intervalin

Përdorimi i barazisë mund të rishkruhet pohimi i mëparshëm, d.m.th. qëndron në interval

Ky hendek quhet intervali i besimit t bootstrap për në nivelin 95%.

Përdoret në literaturë për të arritur saktësi më të madhe se qasja e mëparshme.

Shembull i të dhënave reale

Si shembull i parë, merrni të dhënat nga Hollander dhe Wolfe 1999, f. 63, që është efekti i dritës në shkallën e çelëzimit të zogjve.

Grafiku standard i kutisë nuk supozon normalitet në të dhënat e popullsisë. Ne kryem një analizë bootstrap të mesatares dhe mesatares.

Më vete, vlen të përmendet mungesa e simetrisë në histogramin t bootstrap, i cili ndryshon nga kurba standarde e kufirit. Intervalet e besimit 95% për mesataren dhe mesataren (të llogaritura duke përdorur metodën e përqindjes së nisjes) mbulojnë afërsisht diapazonin

Ky diapazon përfaqëson ndryshimin e përgjithshëm (rritje) në rezultatet e shkallës së çeljes së zogjve në varësi të dritës së prapme.

Si shembull i dytë, merrni parasysh të dhënat nga Devore 2003, f. 553, i cili shqyrtoi korrelacionin midis Kërkesës Biokimike për Oksigjen (BOD) dhe Peshës Hidrostatike (HW) të rezultateve të lojtarëve profesionistë të futbollit.

Të dhënat 2D përbëhen nga çifte dhe çiftet mund të zgjidhen lirshëm gjatë rimarrjes së mostrave në bootstrap. Për shembull, së pari merr pastaj, etj.

Në figurë, grafiku kuti-mustaqe tregon mungesën e normalitetit për popullatat kryesore. Histogramet e korrelacionit të llogaritura nga të dhënat e bootstrap-it 2D janë asimetrike (të zhvendosura në të majtë).

Për këtë arsye, metoda e përqindjes së nisjes në qendër është më e përshtatshme në këtë rast.

Si rezultat i analizës, rezultoi se matjet janë të ndërlidhura për të paktën 78% të popullsisë.

Të dhënat për shembull 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Të dhënat për shembull 2:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

Literatura shpesh sugjeron skema të ndryshme për bootstrapping, të cilat mund të japin rezultate të besueshme në situata të ndryshme statistikore.

Ajo që u diskutua më lart janë vetëm elementët më themelorë, dhe në fakt ka shumë opsione të tjera qarku. Për shembull, cila metodë është më e mirë për t'u përdorur në rast të kampionimit me dy faza ose kampionimit të shtresuar?

Në këtë rast, nuk është e vështirë të shpikësh një skemë natyrore. Bootstrapping në rastin e të dhënave me modele regresioni përgjithësisht tërheq shumë vëmendje. Ekzistojnë dy metoda kryesore: në të parën, variablat e kovariancave dhe të përgjigjes ri-modelohen së bashku (bootstrapping në çift), në të dytën, bootstrapping kryhet në mbetjet (rezidual bootstrapping).

Metoda e çiftit mbetet e saktë (përsa i përket rezultateve në ) edhe nëse variancat e gabimit në modele nuk janë të barabarta. Metoda e dytë në këtë rast është e gabuar. Ky pengesë kompensohet nga fakti se një skemë e tillë jep saktësi shtesë në vlerësimin e gabimit standard.

Është shumë më e vështirë të aplikohet bootstrapping në të dhënat e serive kohore.

Megjithatë, analiza e serive kohore është një nga fushat kryesore në ekonometri. Këtu mund të dallohen dy vështirësi kryesore: së pari, të dhënat e serive kohore kanë vetinë të jenë të varura në mënyrë sekuenciale. Kjo është, varet nga, etj.

Së dyti, popullsia statistikore ndryshon me kalimin e kohës, domethënë shfaqet jostacionariteti.

Për këtë, janë zhvilluar metoda që transferojnë varësinë në të dhënat e burimit në mostrat e bootstrap, në veçanti, bllok diagramin.

Në vend të përzgjedhjes së bootstrap-it, ai ndërtohet menjëherë bllokoj të dhëna që ruajnë varësi nga kampioni origjinal.

Në fushën e aplikimit të bootstrapping në seksionet e ekonometrisë, aktualisht po kryhen mjaft kërkime, në përgjithësi, metoda është duke u zhvilluar në mënyrë aktive.

Metoda e mostrës së vogël

Avantazhi kryesor i metodës së mostrës së vogël është aftësia për të vlerësuar dinamikën e procesit me kalimin e kohës me një reduktim të kohës për procedurat llogaritëse.

Zgjidh rastësisht mostra të menjëhershme në periudha të caktuara vëllimi kohor nga 5 në 20 njësi. Periudha e kampionimit përcaktohet në mënyrë empirike dhe varet nga qëndrueshmëria e procesit, e përcaktuar nga analiza e informacionit apriori.

Për çdo mostër të menjëhershme përcaktohen karakteristikat kryesore statistikore. Mostrat e menjëhershme dhe karakteristikat e tyre kryesore statistikore janë paraqitur në Shtojcën B.

Një hipotezë për homogjenitetin e variancës së mostrës është paraqitur dhe testuar duke përdorur një nga kriteret e mundshme (kriteri i Fisher-it).

Testimi i hipotezës për homogjenitetin e karakteristikave të mostrës.

Për të kontrolluar rëndësinë e diferencës ndërmjet mesatareve aritmetike në 2 seri matjesh, paraqitet masa G. Llogaritjet janë dhënë në shtojcën B.

Rregulli i vendimit formulohet si më poshtë:

ku tr është vlera e kuantilit të shpërndarjes së normalizuar për një probabilitet të caktuar besimi Р, ? = 0,095, n = 10, tr = 2,78.

Kur plotësohet pabarazia, konfirmohet hipoteza se ndryshimi midis mesatareve të mostrës nuk është i rëndësishëm.

Meqenëse pabarazia është e plotësuar në të gjitha rastet, hipoteza se diferenca midis mesatareve të mostrës nuk është e rëndësishme konfirmohet.

Për të testuar hipotezën për homogjenitetin e variancave të kampionit, masa F0 prezantohet si raport i vlerësimeve të paanshme të variancave të rezultateve të 2 serive matjesh. Për më tepër, më i madhi nga 2 vlerësimet merret si numërues, dhe nëse Sx1>Sx2, atëherë

Rezultatet e llogaritjes janë dhënë në Shtojcën B.

Pastaj vendosen vlerat e probabilitetit të besimit P dhe vlerat e F(K1; K2; ?/2) përcaktohen në K1 = n1 - 1 dhe K2 = n2 - 1.

Në P=0.025 dhe K1=10-1=4 dhe K2=10-1=4 F(9;9;0.025/2)=4.1.

Rregulli i vendimit: nëse F(K1; K2; ?/2)>F0, atëherë hipoteza e homogjenitetit të variancave në dy mostra pranohet.

Meqenëse kushti F(K1; K2; ?/2) > F0 është i plotësuar në të gjitha rastet, hipoteza e homogjenitetit të variancave pranohet.

Kështu, konfirmohet hipoteza për homogjenitetin e variancave të mostrës, gjë që tregon stabilitetin e procesit; vërtetohet hipoteza për homogjenitetin e mjeteve të mostrës sipas metodës së krahasimit të mesatareve, që do të thotë se qendra e dispersionit nuk ka ndryshuar dhe procesi është në gjendje të qëndrueshme.

Metoda e diagrameve të shpërndarjes dhe saktësisë

Brenda një kohe të caktuar merren mostra të menjëhershme, nga 3 deri në 10 produkte dhe përcaktohen karakteristikat statistikore të çdo kampioni.

Të dhënat e marra zbatohen në grafikët, në boshtin e abshisave të cilës kohë është paraqitur? ose numrat e k mostrave, dhe përgjatë boshtit y - vlerat individuale xk ose vlera e një prej karakteristikat statistikore(mesatarja aritmetike e mostrës, devijimi standard i mostrës). Përveç kësaj, dy vija horizontale Tv dhe Tn janë vizatuar në diagram, duke kufizuar fushën e tolerancës së produktit.

Mostrat e menjëhershme janë dhënë në Aneksin B.


Figura 1 Grafiku i saktësisë

Diagrami tregon qartë ecurinë e procesit të prodhimit. Mund të gjykohet se procesi i prodhimit është i paqëndrueshëm