Kuzatish qamrab olinmaydigan namunalar katta raqam birliklar (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Kichik namunaning chegaraviy xatosi quyidagi formula bilan aniqlanadi:

Kichik namunaning o'rtacha xatosi:

kichik namunadagi dispersiya qayerda:

namunadagi xususiyatning o'rtacha qiymati qayerda;

Erkinlik darajalari soni

Kichik tanlamaning ishonch koeffitsienti, bu nafaqat berilgan ishonch ehtimoliga, balki namuna birliklari soniga ham bog'liq.

Umumiy o'rtachaning ma'lum chegaralar ichida bo'lish ehtimoli formula bilan aniqlanadi

Talaba funksiyasining qiymati qayerda.

Ishonch koeffitsientini hisoblash uchun funktsiyaning qiymati quyidagi formula bilan aniqlanadi:

Keyin, Talabaning taqsimot jadvaliga ko'ra (4-ilovaga qarang), funktsiyaning qiymatiga va darajalar soniga qarab, qiymat aniqlanadi.

Funktsiya, shuningdek, haqiqiy normallashtirilgan og'ishning jadval qiymatidan oshmasligi ehtimolini aniqlash uchun ishlatiladi.


Mavzu 7. O'zaro bog'liqlikni statistik o'rganish: Statistik bog'lanish tushunchasi. Statistik bog'lanishning turlari va shakllari. Vazifalar statistik o'rganish hodisalarning munosabati. Ijtimoiy-iqtisodiy hodisalarning bog'lanish xususiyatlari. Aloqalarni statistik o'rganishning asosiy usullari.

korrelyatsiya - har bir alohida holatda emas, balki tendentsiya ko'rinishidagi o'rtacha qiymatlardagi holatlar massasida paydo bo'ladigan munosabatlar.

Statistik o'rganish amaliy foydalanish uchun qaramlik modelini olishni maqsad qiladi. Bu masalani yechish quyidagi ketma-ketlikda amalga oshiriladi.

1. O'rganilayotgan hodisaning mohiyati va sabab-oqibat munosabatlarini mantiqiy tahlil qilish. Natijada, ishlash ko'rsatkichi o'rnatiladi (y), ko'rsatkichlar bilan tavsiflangan uning o'zgarishi omillari (x (, x 2, x 3,..., X"). Ikki belgining munosabati (da va X) chaqirdi juft korrelyatsiya. Samarali xususiyatga bir necha omillarning ta'siri deyiladi ko'p korrelyatsiya.

Umumiy aloqa yo'nalishi bo'yicha bo'lishi mumkin To'g'riga va teskari. Xususiyatning oshishi bilan bevosita aloqalar bilan x belgisi ham ortadi y, teskari bilan - belgining ortishi bilan X belgisi da kamayadi.

2. Birlamchi ma'lumotlarni to'plash va uni bir xillik va normal taqsimotni tekshirish. Populyatsiyaning bir xilligini baholash uchun omil xususiyatlari bo'yicha o'zgarish koeffitsienti qo'llaniladi

Agar o'zgaruvchanlik koeffitsienti 33% dan oshmasa, to'plam bir hil deb hisoblanadi. O'rganilganlarning taqsimlanishining normalligini tekshirish omil belgilari (x ( , x 2 , x 3 ,..., X") Uch sigma qoidasi yordamida amalga oshiriladi. Oddiy taqsimot uchun test natijalari jadval shaklida taqdim etilishi kerak.

Iqtisodiy tadqiqotlarda tovar sifatini nazorat qilishda eksperimentni kichik namuna asosida olib borish mumkin.

ostida kichik namuna to'xtovsiz statistik kuzatuv tushuniladi, bunda tanlanma umumiy populyatsiyaning nisbatan kam sonli birliklaridan shakllanadi. Kichik namunaning hajmi odatda 30 birlikdan oshmaydi va 4-5 birlikgacha yetishi mumkin.

Savdoda, agar katta namuna olish mumkin bo'lmasa yoki amaliy bo'lmasa (masalan, agar tadqiqot tekshirilayotgan namunalarning yomonlashishi yoki yo'q qilinishi bilan bog'liq bo'lsa) minimal namuna hajmiga murojaat qilinadi.

Kichik tanlamaning xatosi qiymati nisbatan katta tanlama hajmi (n>100) bo'lgan namunaviy kuzatish uchun formulalardan farqli formulalar bilan aniqlanadi. Kichik namunadagi o'rtacha xato u(mu)m.v. formula bo'yicha hisoblanadi:

um.v \u003d ildiz (Gsquare (m.v.) . / n),

Bu erda Gsquare(m.v.) kichik namunadagi dispersiya. *bu sigma*

Formulaga ko'ra (raqam mavjud) bizda:

G0square=Gsquare *n/ (n-1).

Ammo kichik namuna bilan n / (n-1) muhim bo'lganligi sababli, kichik tanlamaning dispersiyasini hisoblash erkinlik darajalari deb ataladigan sonni hisobga olgan holda amalga oshiriladi. Erkinlik darajalari soni deganda o'rtacha qiymatni o'zgartirmasdan o'zboshimchalik bilan qiymatlarni qabul qila oladigan variantlar soni tushuniladi. Gsquare dispersiyasini aniqlashda erkinlik darajalari soni n-1 ga teng:

Gsquare (m.v.) \u003d summa (xi-x (to'lqinli chiziq bilan)) / (n-1).

Kichik namunadagi Dm.v.ning chegaraviy xatosi (uchburchak belgisi) formula bilan aniqlanadi:

Bu holda t ishonch koeffitsientining qiymati faqat berilgan ishonch ehtimolligiga bog'liq bo'lmay, balki n tanlama birliklari soniga ham bog'liq. T va n ning individual qiymatlari uchun kichik namunaning ishonchlilik ehtimoli maxsus talabalar jadvallari bilan aniqlanadi, unda standartlashtirilgan og'ishlarning taqsimoti berilgan:

t= (x(to'lqinli chiziq bilan) –x(chiziq bilan)) / Gm.v.

Talabalar jadvallari darsliklarda berilgan matematik statistika. Kichik namunadagi marjinal xato o'rtacha xatolikdan t marta oshmasligi ehtimolini tavsiflovchi ushbu jadvallardan ba'zi qiymatlar:

St=P[(x(to'lqinli chiziq bilan) –x(chiziq bilan)

Namuna hajmi oshgani sayin, Student taqsimoti normal taqsimotga yaqinlashadi va 20 da u odatdagi taqsimotdan deyarli farq qilmaydi.

Kichik tanlanma so‘rovlarni o‘tkazishda shuni yodda tutish kerakki, tanlama hajmi qanchalik kichik bo‘lsa, Talabalar taqsimoti va o‘rtasidagi farq shunchalik katta bo‘ladi. normal taqsimot. Minimal namuna hajmi (n = 4) bilan bu farq juda muhim, bu kichik tanlama natijalarining to'g'riligi pasayganligini ko'rsatadi.

Savdoda kichik namuna yordamida bir qator amaliy muammolar, birinchi navbatda, o'rganilayotgan belgining umumiy o'rtacha qiymati yotadigan chegarani belgilash hal qilinadi.

Kichkina tanlamani o'tkazishda 0,95 yoki 0,99 qiymati amalda ishonchli ehtimollik sifatida qabul qilinganligi sababli, tanlamaning chegaraviy xatosini aniqlash uchun Dm.v. Quyidagi Talabaning taqsimlash o'qishlari qo'llaniladi.

Kichik namunali statistika

Umuman olganda, S.ning boshlanishi m. yoki, odatda, deyilganidek, "kichik n" statistikasi, 20-asrning birinchi o'n yilligida V. Gossetning "talaba" tomonidan ilgari surilgan t-taqsimotini joylashtirgan asari nashr etilishi bilan o'rnatildi. keyinchalik jahon miqyosida shuhrat qozondi. O'sha paytda Gosset Ginnes pivo zavodlarida statistik bo'lib ishlagan. Uning vazifalaridan biri yangi pishirilgan bochkalarning ketma-ket partiyalarini tahlil qilish edi. U hech qachon tushuntirmagan sabablarga ko'ra, Gosset porter sifatini tasodifiy nazorat qilish uchun pivo zavodi omborlaridagi juda ko'p sonli qutilardan olingan namunalar sonini sezilarli darajada kamaytirish g'oyasini sinab ko'rdi. Bu uni t-tarqatish postulatsiyasiga olib keldi. Ginnesning pivo zavodlari ustavida o‘z xodimlariga tadqiqot natijalarini nashr etish taqiqlanganligi sababli, Gosset o‘zining anonim ravishda kichik namunadagi t-tarqatish va an’anaviy z-tarqatish (normal taqsimot) yordamida namuna olish sifatini nazorat qilish bo‘yicha o‘tkazgan tajriba natijalarini e’lon qildi. taxallusi "Talaba" (Talaba - t-Studentning taqsimoti nomi qaerdan paydo bo'lgan).

t-tarqatish. T-tarqatish nazariyasi, z-tarqatish nazariyasi kabi, sinov uchun ishlatiladi nol gipoteza ikkita namuna bir xil populyatsiyadan oddiy tasodifiy namunalar ekanligi va shuning uchun hisoblangan statistik ma'lumotlar (masalan, o'rtacha va standart og'ish) populyatsiya parametrlarining xolis bahosidir. Biroq, normal taqsimot nazariyasidan farqli o'laroq, kichik namunalar uchun t-tarqatish nazariyasi aprior bilim yoki aniq taxminlarni talab qilmaydi. matematik kutish va umumiy populyatsiyaning farqi. Bundan tashqari, statistik ahamiyatga ega bo'lgan ikkita katta tanlamaning o'rtacha ko'rsatkichlari o'rtasidagi farqni tekshirish populyatsiya xususiyatlarini normal taqsimlash to'g'risida fundamental taxminni talab qilsa-da, t-tarqatish nazariyasi parametrlar bo'yicha taxminlarni talab qilmaydi.

Ma'lumki, normal taqsimlangan xususiyatlar bitta egri chiziq - Gauss egri chizig'i bilan tavsiflanadi, bu quyidagi tenglamani qondiradi:

T-tarqatish bilan egri chiziqlarning butun oilasi quyidagi formula bilan ifodalanadi:

Shuning uchun t uchun tenglama gamma funksiyani o'z ichiga oladi, bu matematikada n o'zgarganda, boshqa egri chiziq berilgan tenglamani qondirishini anglatadi.

Erkinlik darajalari

T uchun tenglamada n, t-tarqatish tenglamasi kabi har qanday moment hosil qiluvchi funktsiyaning ikkinchi momenti bo'lgan populyatsiya dispersiyasini baholash (S2) bilan bog'liq erkinlik darajalari (df) sonini bildiradi. S.da erkinlik darajalari soni tahlilning muayyan turida qisman qoʻllangandan keyin qancha belgilar erkin qolganligini koʻrsatadi. T-tarqatishda o'rtacha tanlamadan chetlanishlardan biri har doim o'zgarmasdir, chunki barcha og'ishlarning yig'indisi nolga teng bo'lishi kerak. Bu S2 parametrining xolis bahosi sifatida tanlama dispersiyasini hisoblashda kvadratlar yig'indisiga ta'sir qiladi va df har bir namuna uchun bittadan minus o'lchovlar soniga teng bo'lishiga olib keladi. Demak, null gipotezani tekshirish uchun t-statistikani hisoblash formulalari va tartiblarida df = n - 2.

F-kosmik bo'linish. T-testi tomonidan tekshirilgan nol gipoteza shundan iboratki, ikkita namuna tasodifiy ravishda bir xil populyatsiyadan olingan yoki bir xil dispersiyaga ega bo'lgan ikki xil populyatsiyadan tasodifiy ravishda olingan. Agar tahlil qilish kerak bo'lsa-chi Ko'proq guruhlar? Bu savolga javob yigirma yil davomida Gosset t-tarqatishni kashf qilganidan keyin qidirildi. Uni ishlab chiqarishda 20-asrning eng koʻzga koʻringan ikki statistik olimlari bevosita ishtirok etgan. Biri - birinchi nazariyani taklif qilgan eng yirik ingliz statistik R. A. Fisher. ishlab chiqish F-tarqatishga olib kelgan formulalar; Gosset g'oyalarini rivojlantiruvchi kichik namunalar nazariyasi bo'yicha ishi 1920-yillarning o'rtalarida nashr etilgan (Fisher, 1925). Yana biri Jorj Snedekor, birinchi amerikalik statistik olimlardan biri bo'lib, u dispersiyaning ikkita bahosi nisbatini hisoblash orqali har qanday o'lchamdagi ikkita mustaqil namunani solishtirish usulini ishlab chiqdi. U bu nisbatni Fisher nomi bilan F-nisbati deb atadi. Tadqiqot natijalari. Snedekor F-tarqatish har biri o'z erkinlik darajasiga ega bo'lgan ikkita statistik c2 nisbati taqsimoti sifatida belgilana boshlaganiga olib keldi:

Bundan Fisherning dispersiyani tahlil qilish bo'yicha klassik ishi paydo bo'ldi, bu aniq kichik namunalarni tahlil qilishga qaratilgan statistik usul.

Namuna taqsimoti F (bu yerda n = df) quyidagi tenglama bilan ifodalanadi:

T-tarqatish holatida bo'lgani kabi, gamma funksiyasi F uchun tenglamani qanoatlantiradigan taqsimotlar oilasi mavjudligini ko'rsatadi. Biroq, bu holda, tahlil ikki df miqdorini o'z ichiga oladi: uchun erkinlik darajalari soni. numerator va F nisbatining maxraji uchun.

t- va F-statistikasini baholash uchun jadvallar. Katta namunalar nazariyasiga asoslangan C. yordamida nol gipotezani sinab ko'rishda odatda faqat bitta mos yozuvlar jadvali talab qilinadi - normal og'ishlar jadvali (z), bu har qanday ikki qiymat orasidagi normal egri chiziq ostidagi maydonni aniqlash imkonini beradi x o'qi bo'yicha z dan. Biroq, t- va F-tarqatishlar uchun jadvallar jadvallar to'plamida taqdim etilishi kerak, chunki bu jadvallar erkinlik darajasining o'zgarishi natijasida yuzaga keladigan bir nechta taqsimotlarga asoslangan. T- va F-tarqatishlar katta namunalar uchun normal taqsimot kabi ehtimollik zichligi taqsimoti bo'lsa-da, ularni tavsiflash uchun ishlatiladigan to'rt momentga nisbatan ikkinchisidan farq qiladi. Masalan, t-tarqatish barcha df uchun nosimmetrikdir (uning tenglamasida t2 ga e'tibor bering), lekin tanlama hajmi kamaygan sari eng yuqori cho'qqiga aylanadi. Piklangan egri chiziqlar (normal kurtozdan kattaroq) Gauss egri chizig'i kabi oddiy kurtozli egri chiziqlarga qaraganda kamroq asimptotik (ya'ni taqsimotning uchlaridagi x o'qiga yaqinroq) bo'ladi. Bu farq x o'qidagi t va z qiymatlariga mos keladigan nuqtalar o'rtasida sezilarli tafovutlarga olib keladi. Df = 5 va ikki tomonlama daraja bilan a 0,05 ga teng, t = 2,57, mos keladigan z = 1,96. Shuning uchun t = 2.57 5% darajasida statistik ahamiyatga ega ekanligini ko'rsatadi. Biroq, normal egri chiziq bo'lsa, z = 2,57 (aniqrog'i 2,58) allaqachon statistik ahamiyatga ega bo'lgan 1% darajasini ko'rsatadi. Xuddi shunday taqqoslashlarni F-tarqatish bilan ham qilish mumkin, chunki namunalar soni ikkita bo'lganda t F ga teng.

"Kichik" namuna nimadan iborat?

Bir vaqtlar, kichik deb hisoblash uchun namunani qanchalik katta bo'lishi kerakligi haqida savol tug'ilgan. Bu savolga shunchaki aniq javob yo'q. Biroq, df = 30 ni kichik va katta tanlama o'rtasidagi shartli chegara sifatida ko'rib chiqish odat tusiga kirgan.Bu qandaydir o'zboshimchalik bilan qaror qabul qilish uchun asos t-taqsimotni normal taqsimot bilan solishtirish natijasidir. Yuqorida ta'kidlab o'tilganidek, t va z qiymatlari o'rtasidagi tafovut kamayishi bilan ortib boradi va df ortishi bilan kamayadi. Aslida, df = ∞ uchun t = z bo'lganda, t cheklovchi holatdan ancha oldin z ga yaqinlasha boshlaydi. T ning jadval qiymatlarini oddiy vizual tekshirish sizga bu yaqinlashuv df = 30 va undan yuqoriroqdan boshlab juda tez bo'lishini ko'rish imkonini beradi. T (df = 30 da) va z ning qiyosiy qiymatlari mos ravishda: p = 0,05 uchun 2,04 va 1,96; p = 0,01 uchun 2,75 va 2,58; p = 0,001 uchun 3,65 va 3,29.

"Kichik" namunalar uchun boshqa statistik ma'lumotlar

T va F kabi statistik testlar kichik namunalarga qo'llash uchun maxsus ishlab chiqilgan bo'lsa-da, ular katta namunalar uchun bir xil darajada qo'llaniladi. Biroq, ko'plab boshqalar bor. statistik usullar, kichik namunalarni tahlil qilish uchun mo'ljallangan va ko'pincha bu maqsadda ishlatiladi. Ular atalmishni anglatadi. parametrik bo'lmagan yoki taqsimlanmagan usullar. Asosan, bu usullarda paydo boʻlgan S.lar nisbatlar yoki intervallar shkalasi taʼrifini qanoatlantirmaydigan shkalalar yordamida olingan oʻlchovlarga nisbatan qoʻllash uchun moʻljallangan. Ko'pincha bu tartib (darajali) yoki nominal o'lchovlardir. Parametrik boʻlmagan S. taqsimot parametrlari, xususan, dispersiyani baholash boʻyicha taxminlarni talab qilmaydi, chunki tartibli va nominal shkalalar dispersiya tushunchasini istisno qiladi. Shu sababli, kichik namunalar tahlil qilinganda va parametrik usullarni qo'llash uchun zarur bo'lgan asosiy taxminlar buzilishi ehtimoli mavjud bo'lganda, interval va nisbat shkalalari yordamida olingan o'lchovlar uchun parametr bo'lmagan usullar ham qo'llaniladi. Kichik namunalarga asosli ravishda qoʻllanilishi mumkin boʻlgan bunday C.lar qatoriga quyidagilar kiradi: Fisherning aniq ehtimollik testi, Fridmanning ikki faktorli noparametrik (darajali) dispersiya tahlili, Kendallning darajali korrelyatsiya koeffitsienti t, Kendallning muvofiqlik koeffitsienti (W), Kruskalning H-mezoni. - Parametrik bo'lmagan (darajali) bir tomonlama dispersiya tahlili uchun Uolles, Mann-Uitni U-testi, median testi, belgi testi, Spearmanning darajali korrelyatsiya koeffitsienti r va Uilkoxonning t-testi.

Inson o'z qobiliyatlarini faqat amalda qo'llash orqali tan oladi. (Seneca)

Bootstrap, kichik namunalar, ma'lumotlarni tahlil qilishda qo'llash

Asosiy fikr

Bootstrap usuli B. Efron tomonidan 1979 yilda jacknife usulining rivojlanishi sifatida taklif qilingan.

Keling, bootstrapning asosiy g'oyasini tasvirlab beraylik.

Ma'lumotlarni tahlil qilishning maqsadi eng aniq ma'lumotlarni olishdir selektiv baholaydi va natijalarni butun aholiga tarqatadi.

Namunadan olingan raqamli ma'lumotlarning texnik atamasi namunaviy statistika hisoblanadi.

Asosiy tavsiflovchi statistik ma'lumotlar selektiv o'rtacha, median, standart og'ish va boshqalar.

Olingan o'rtacha, o'rtacha, korrelyatsiya kabi statistik ma'lumotlar namunadan namunaga o'zgaradi.

Tadqiqotchi populyatsiyaga qarab bu og'ishlarning hajmini bilishi kerak. Shunga asoslanib, xatolik chegarasi hisoblanadi.

Namuna statistikasining barcha mumkin bo'lgan qiymatlarining ehtimollik taqsimoti ko'rinishidagi boshlang'ich rasmiga tanlov taqsimoti deyiladi.

Asosiysi hajmi namunalar. Namuna hajmi kichik bo'lsa-chi? Mantiqiy yondashuvlardan biri tasodifiy mavjud namunadan ma'lumotlarni chiqarib oling.

Bootstrap g'oyasi statistik ma'lumotlarning tanlov taqsimotini aniqlash uchun namunaviy hisob-kitoblar natijalaridan "so'qmoqli populyatsiya" sifatida foydalanishdir. Aslida, u tahlil qiladi katta yuklash namunalari deb ataladigan "fantom" namunalar soni.

Odatda bir necha ming namunalar tasodifiy hosil bo'ladi, bu to'plamdan bizni qiziqtirgan statistik ma'lumotlarning yuklash taqsimotini topishimiz mumkin.

Demak, bizda namuna bor, deylik, birinchi bosqichda namunaning elementlaridan birini tasodifiy tanlaymiz, bu elementni namunaga qaytaramiz, elementni yana tasodifiy tanlaymiz va hokazo.

Ta'riflangan tasodifiy tanlash protsedurasini n marta takrorlaymiz.

Bootstrap-da tasodifiy tanlash bilan amalga oshiriladi qaytish, asl namunaning tanlangan elementlari qaytadi namunaga kiritiladi va keyin yana tanlanishi mumkin.

Rasmiy ravishda, har bir bosqichda biz 1/n ehtimollik bilan asl namunaning elementini tanlaymiz.

Hammasi bo'lib, bizda dastlabki namunaning n elementi bor, raqamlar bilan namuna olish ehtimoli (N 1 ... Nn ), bu erda Ni 0 dan n gacha o'zgarib turadi, polinom taqsimoti bilan tavsiflanadi.

Bir necha mingta bunday namunalar yaratiladi, bu zamonaviy kompyuterlar uchun juda mos keladi.

Har bir namuna uchun qiziqish miqdorining taxmini tuziladi, so'ngra taxminlar o'rtacha hisoblanadi.

Namunalar ko'p bo'lgani uchun biz qurishimiz mumkin empirik funktsiya taxminlarni taqsimlash, keyin kvantillarni hisoblash, ishonch oralig'ini hisoblash.

Bootstrap usuli Monte-Karlo usulining modifikatsiyasi ekanligi aniq.

Agar namunalar yaratilgan bo'lsa qaytish yo'q elementlar, keyin taniqli jacknife usuli olinadi.

Savol: Nega buni qilish kerak va bu usulni haqiqiy ma'lumotlarni tahlil qilishda qachon qo'llash maqsadga muvofiq?

Bootstrapda biz yangi ma'lumot olmaymiz, lekin mavjud ma'lumotlardan qo'yilgan vazifaga asoslanib oqilona foydalanamiz.

Masalan, bootstrap dan foydalanish mumkin kichik namunalar, medianani, korrelyatsiyalarni, ishonch oraliqlarini qurishni va boshqa vaziyatlarni baholash uchun.

Efronning asl maqolasida n = 15 tanlama kattaligi uchun juft korrelyatsiya taxminlari ko'rib chiqildi.

B = 1000 yuklash namunasi yaratiladi (bootstrap replikatsiyasi ).

Olingan ro 1 … ro B koeffitsientlari asosida korrelyatsiya koeffitsientining umumiy bahosi va standart og'ishning bahosi tuziladi.

Oddiy yaqinlashish yordamida hisoblangan namunaviy korrelyatsiya koeffitsientining standart xatosi:

bu erda korrelyatsiya koeffitsienti 0,776, boshlang'ich tanlama hajmi n = 15.

Standart xatoning bootstrap taxmini 0,127 ga teng, Efron, Gall Gong, 1982 ga qarang.

Nazariy ma'lumot

Tadqiqotning maqsadli parametri bo'lsin, masalan, tanlangan jamiyatdagi o'rtacha daromad.

O'lchamdagi ixtiyoriy tanlama uchun biz ma'lumotlar to'plamini olamiz.Tegishli tanlanma statistik bo'lsin

Ko'pgina namunaviy statistik ma'lumotlar uchun katta qiymat (>30) tanlama taqsimoti markazi va standart og'ishi bilan normal egri chiziq bo'lib, ijobiy parametr populyatsiya va statistika turiga bog'liq.

Ushbu klassik natija markaziy chegara teoremasi deb nomlanadi.

Ma'lumotlardan talab qilinadigan standart og'ishlarni baholashda ko'pincha jiddiy texnik qiyinchiliklar mavjud.

Masalan, agar median yoki namunaviy korrelyatsiya.

Bootstrap usuli bu qiyinchiliklarni chetlab o'tadi.

Fikr oddiy: dastlabki namunadan olingan bootstrap namunasidan hisoblangan bir xil statistikani ifodalovchi ixtiyoriy qiymat bilan belgilang.

"Asl" namuna aniqlangan bo'lsa, namunalarni taqsimlash haqida nima deyish mumkin?

Limitda, namuna olish taqsimoti ham parametrlari bilan qo'ng'iroq shaklida va

Shunday qilib, bootstrap taqsimoti namunalar taqsimotiga yaxshi yaqinlashadi

E'tibor bering, biz bir namunadan ikkinchisiga o'tganimizda, faqat ifoda o'zgaradi, chunki u dan hisoblanadi

Bu asosan markaziy chegara teoremasining yuklash versiyasidir.

Bundan tashqari, agar statistik funktsiyaning chegara tanlama taqsimoti populyatsiya noma'lumlarini o'z ichiga olmasa, yuklash taqsimoti markaziy chegara teoremasiga qaraganda tanlab olish taqsimotiga yaxshiroq yaqinlashuvni ta'minlashi aniqlandi.

Xususan, statistik funktsiya standart xatoning to'g'ri yoki namunaviy bahosini bildiradigan shaklga ega bo'lsa, marjinal tanlov taqsimoti odatda standart normal bo'ladi.

Bu effekt yuklash yordamida ikkinchi darajali tuzatish deb ataladi.

Keling, ya'ni. o'rtacha aholi va boshqalar. namunaviy o'rtacha; populyatsiya standart og'ishi, dastlabki ma'lumotlardan hisoblangan namunaviy standart og'ish va yuklash namunasidan hisoblanadi.

Keyin qiymatning namunaviy taqsimoti qaerda , bootstrap taqsimoti bilan taxminan bo'ladi, bu erda bootstrap namunasi bo'yicha o'rtacha, .

Xuddi shunday, namuna olish taqsimoti bootstrap taqsimoti bilan taxminiy bo'ladi, bu erda .

Ikkinchi tartibli tuzatish bo'yicha birinchi natijalar 1981-83 yillarda Babu va Singx tomonidan nashr etilgan.

Bootstrap ilovalari

Namuna bahosining standart xatosining yaqinlashishi

Parametr aholi uchun ma'lum deb faraz qiling

O'lchamdagi tasodifiy tanlamaga asoslangan taxmin bo'lsin, ya'ni. ning funksiyasi Namuna barcha mumkin bo‘lgan namunalar to‘plamida o‘zgarganligi sababli standart xatoni baholash uchun quyidagi yondashuv qo‘llaniladi:

Foydalanilgan formuladan foydalanib hisoblang, lekin bu safar har bir yuklash o'lchami namunalari asosida. Taxminan aytganda, agar u juda katta bo'lmasa, qabul qilinishi mumkin. Bunday holda, uni kamaytirish mumkin n ln n. Shunda uni aslida yuklash usulining mohiyatidan kelib chiqib aniqlash mumkin: populyatsiya (namuna) empirik populyatsiya (namuna) bilan almashtiriladi.

Bootstrap usuli yordamida Bayesian tuzatish

Namuna taqsimotining o'rtacha qiymati odatda katta, ya'ni Bayes yaqinlashuviga bog'liq:

ning yuklash nusxasi qayerda. Keyin sozlangan qiymat bo'ladi -

Shuni ta'kidlash kerakki, oldingi qayta namuna olish usuli, ya'ni jaknife usuli deb ataladi, ko'proq mashhurdir.

Ishonch oraliqlari

Berilgan parametr uchun ishonch intervallari (CI) namunaga asoslangan diapazonlardir.

Bu diapazon juda yuqori (oldindan o'rnatilgan) ehtimolga ega bo'lgan qiymatga tegishli xususiyatga ega. Bu muhimlik darajasi deb ataladi. Albatta, bu ehtimollik mumkin bo'lgan har qanday namunaga tegishli bo'lishi kerak, chunki har bir namuna ishonch oralig'ini aniqlashga hissa qo'shadi. Eng ko'p ishlatiladigan ikkita muhimlik darajasi 95% va 99%. Bu erda biz o'zimizni 95% qiymati bilan cheklaymiz.

An'anaga ko'ra, CI chegarada aniqroq miqdorning namunaviy taqsimotiga bog'liq. Bootstrap bilan qurilishi mumkin bo'lgan ikkita asosiy turdagi ishonch intervallari mavjud.

Foiz usuli

Bu usul allaqachon kirish qismida aytib o'tilgan, u soddaligi va tabiiyligi tufayli juda mashhur. Aytaylik, bizda 1000 ta yuklash nusxasi bor, keling, ularni quyidagicha belgilaymiz Keyin diapazondagi qiymatlar ishonch oralig'iga to'g'ri keladi.Usulning nazariy asoslanishiga qaytadigan bo'lsak, shuni ta'kidlash kerakki, u atrofida namunalar taqsimotining simmetriyasini talab qiladi. yuklash taqsimotidan foydalanadigan usul belgisi qarama-qarshi bo'lgan qiymatga yaqinlashishi kerak.

Markazlashtirilgan bootstrap foizli usuli

Namuna taqsimoti bootstrap taqsimotiga yaqinlashtirilgan deb faraz qiling, ya'ni dastlab yuklashda mo'ljallangan. 100-persentilni (bootstrap takrorlashlarida) shunday belgilaylik. Keyin qiymatdan to gacha bo'lgan oraliqda joylashganligi haqidagi taxmin 95% ehtimollik bilan to'g'ri bo'ladi. Xuddi shu ifodani dan gacha bo'lgan diapazon uchun osongina o'xshashiga aylantirish mumkin.

bootstrap-t mezoni

Yuqorida aytib o'tilganidek, bootstrap standart xatoning namunaviy bahosi mavjud bo'lgan shakl funktsiyasidan foydalanadi.

Bu qo'shimcha aniqlikni beradi.

Asosiy misol sifatida standart t-statistikani olaylik (shuning uchun usulning nomi): ya'ni maxsus holat, qachon (aholi o'rtacha), (namuna o'rtacha) va - namunaviy standart og'ish. Bunday funktsiyaning yuklash analogi bu erda faqat bootstrap namunasi bilan bir xil tarzda hisoblab chiqiladi.

100-bootstrap protsentile bilan belgilaymiz va qiymat intervalda joylashgan deb faraz qilaylik.

Tenglikdan foydalanish oldingi bayonotni qayta yozish mumkin, ya'ni. oraliqda yotadi

Ushbu bo'shliq 95% darajasida bootstrap t-ishonch oralig'i deb ataladi.

U adabiyotda oldingi yondashuvga qaraganda ko'proq aniqlikka erishish uchun ishlatiladi.

Haqiqiy ma'lumotlarga misol

Birinchi misol sifatida, Hollander va Wolfe 1999, 63-bet ma'lumotlarini oling, bu yorug'likning jo'jalarning chiqish tezligiga ta'siri.

Standart quti sxemasi populyatsiya ma'lumotlari bo'yicha hech qanday normallikni nazarda tutmaydi. Biz median va o'rtacha yuklash tahlilini o'tkazdik.

Alohida-alohida, standart chegara egri chizig'idan farq qiladigan bootstrap t-gistogrammasida simmetriya yo'qligiga e'tibor qaratish lozim. Median va o'rtacha uchun 95% ishonch oralig'i (bootstrap foizli usuli yordamida hisoblangan) taxminan diapazonni qamrab oladi.

Bu diapazon, orqa yorug'likka qarab, jo'ja lyukining tezligi natijalarining umumiy farqini (o'sishini) ifodalaydi.

Ikkinchi misol sifatida, professional futbolchilarning kislorodga bo'lgan biokimyoviy talabi (BOD) va gidrostatik og'irlik (HW) natijalari o'rtasidagi korrelyatsiyani ko'rib chiqqan Devore 2003, 553-bet ma'lumotlarini ko'rib chiqing.

Ikki o'lchovli ma'lumotlar juftlikdan iborat bo'lib, bootstrap qayta namuna olish paytida juftlarni erkin tanlash mumkin. Masalan, birinchi navbatda, keyin oling va hokazo.

Rasmda quti mo'ylovli syujet asosiy populyatsiyalar uchun normallikning yo'qligini ko'rsatadi. 2D yuklash ma'lumotlaridan hisoblangan korrelyatsiya gistogrammalari assimetrikdir (chapga siljigan).

Shu sababli, bu holatda markazlashtirilgan bootstrap persentil usuli ko'proq mos keladi.

Tahlil natijasida ma'lum bo'lishicha, o'lchovlar aholining kamida 78 foizi uchun korrelyatsiya qilingan.

Misol uchun ma'lumotlar 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Ma'lumotlar, masalan, 2:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

Adabiyotda ko'pincha yuklash uchun turli xil sxemalar taklif etiladi, bu turli statistik vaziyatlarda ishonchli natijalar berishi mumkin.

Yuqorida muhokama qilingan narsalar faqat eng asosiy elementlardir va aslida juda ko'p boshqa sxema variantlari mavjud. Masalan, ikki bosqichli yoki qatlamli namuna olishda qaysi usulni qo'llash yaxshiroq?

Bunday holda, tabiiy sxemani ixtiro qilish qiyin emas. Regressiya modellari bilan ma'lumotlar holatida bootstrapping odatda katta e'tiborni tortadi. Ikkita asosiy usul mavjud: birinchisida kovariantlar va javob oʻzgaruvchilari birgalikda qayta namunalanadi (juft yuklash), ikkinchisida yuklash qoldiqlarda amalga oshiriladi (qoldiq yuklash).

Modellardagi xato dispersiyalari teng bo'lmasa ham juftlik usuli to'g'ri bo'lib qoladi (natijalar bo'yicha). Bu holatda ikkinchi usul noto'g'ri. Ushbu kamchilik, bunday sxema standart xatoni baholashda qo'shimcha aniqlik berishi bilan qoplanadi.

Vaqt seriyasidagi ma'lumotlarga yuklashni qo'llash ancha qiyin.

Vaqt seriyalarini tahlil qilish esa ekonometrikaning asosiy yo'nalishlaridan biridir. Bu erda ikkita asosiy qiyinchilikni ajratib ko'rsatish mumkin: birinchidan, vaqt seriyalari ma'lumotlari ketma-ket bog'liqlik xususiyatiga ega. Ya'ni, ga bog'liq va hokazo.

Ikkinchidan, statistik populyatsiya vaqt o'tishi bilan o'zgaradi, ya'ni nostatsionarlik paydo bo'ladi.

Buning uchun manba ma'lumotlaridagi bog'liqlikni yuklash namunalariga, xususan, blok diagrammaga o'tkazadigan usullar ishlab chiqilgan.

Bootstrap tanlovi o'rniga u darhol quriladi blok asl namunadagi bog'liqlikni saqlaydigan ma'lumotlar.

Ekonometrika bo'limlariga yuklash usulini qo'llash sohasida hozirda juda ko'p tadqiqotlar olib borilmoqda, umuman olganda, usul faol ishlab chiqilmoqda.

Kichik namuna usuli

Kichik tanlama usulining asosiy afzalligi - hisoblash protseduralari uchun vaqtni qisqartirish bilan vaqt o'tishi bilan jarayonning dinamikasini baholash qobiliyati.

In lahzali namunalarni tasodifiy tanlang muayyan davrlar vaqt hajmi 5 dan 20 birlikgacha. Namuna olish davri empirik tarzda o'rnatiladi va aprior ma'lumotlarning tahlili bilan belgilanadigan jarayonning barqarorligiga bog'liq.

Har bir lahzali namuna uchun asosiy statistik xarakteristikalar aniqlanadi. Bir lahzali namunalar va ularning asosiy statistik xarakteristikalari B ilovasida keltirilgan.

Tanlangan dispersiyaning bir xilligi haqidagi faraz ilgari suriladi va mumkin bo'lgan mezonlardan biri (Fisher mezoni) yordamida tekshiriladi.

Namuna belgilarining bir xilligi haqidagi gipotezani tekshirish.

2 qator o‘lchovlardagi arifmetik o‘rtachalar orasidagi farqning ahamiyatini tekshirish uchun G o‘lchovi kiritiladi.Hisoblashlar B ilovada keltirilgan.

Qaror qabul qilish qoidasi quyidagicha tuzilgan:

Bu yerda tr - berilgan ishonch ehtimolligi uchun normalangan taqsimot kvantilining qiymati R, ? = 0,095, n = 10, tr = 2,78.

Tengsizlik bajarilganda, tanlanma o'rtachalar orasidagi farq muhim emas degan gipoteza tasdiqlanadi.

Tengsizlik barcha holatlarda qanoatlantirilganligi sababli, tanlanma o'rtachalar orasidagi farq muhim emas degan gipoteza tasdiqlanadi.

Namuna dispersiyalarining bir xilligi haqidagi gipotezani tekshirish uchun F0 o‘lchovi 2 qator o‘lchovlar natijalari dispersiyalarining xolis baholari nisbati sifatida kiritiladi. Bundan tashqari, 2 ta bahodan kattasi hisoblagich sifatida qabul qilinadi va agar Sx1>Sx2 bo'lsa, u holda

Hisoblash natijalari B ilovasida keltirilgan.

Keyin P ishonch ehtimolining qiymatlari o'rnatiladi va F(K1; K2; ?/2) qiymatlari K1 = n1 - 1 va K2 = n2 - 1 da aniqlanadi.

P=0,025 va K1=10-1=4 va K2=10-1=4 F(9;9;0,025/2)=4,1 da.

Qaror qabul qilish qoidasi: agar F(K1; K2; ?/2)>F0 bo'lsa, u holda ikkita namunadagi dispersiyalarning bir jinsliligi gipotezasi qabul qilinadi.

F(K1; K2; ?/2) > F0 sharti hamma hollarda qanoatlantirilganligi sababli dispersiyalarning bir jinsliligi gipotezasi qabul qilinadi.

Shunday qilib, namunaviy dispersiyalarning bir xilligi haqidagi gipoteza tasdiqlanadi, bu jarayonning barqarorligini ko'rsatadi; vositalarni solishtirish usuli bo'yicha tanlanma vositalarining bir jinsliligi haqidagi faraz tasdiqlanadi, bu dispersiya markazi o'zgarmaganligini va jarayonning barqaror holatda ekanligini bildiradi.

Tarqalish usuli va aniqlik diagrammalari

Muayyan vaqt ichida 3 dan 10 tagacha mahsulot namunalari olinadi va har bir namunaning statistik xarakteristikalari aniqlanadi.

Olingan ma'lumotlar diagrammalarga qo'llaniladi, qaysi vaqtning abtsissa o'qida chizilgan? yoki k namunalar soni va y o'qi bo'ylab - individual qiymatlar xk yoki ulardan birining qiymati statistik xususiyatlar(namuna arifmetik o'rtacha, namunaviy standart og'ish). Bundan tashqari, diagrammada mahsulotning bardoshlik maydonini cheklaydigan ikkita gorizontal chiziq Tv va Tn chizilgan.

Bir lahzali namunalar B ilovasida keltirilgan.


1-rasm Aniqlik jadvali

Diagrammada ishlab chiqarish jarayonining borishi aniq ko'rsatilgan. Ishlab chiqarish jarayoni beqaror ekanligiga hukm qilish mumkin