Gözlemin kapsamadığı örnekler Büyük sayı birimler (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Küçük bir örneğin marjinal hatası aşağıdaki formülle belirlenir:

Küçük bir örneğin ortalama hatası:

küçük bir örneğin varyansı nerede:

örnekteki özelliğin ortalama değeri nerede;

Serbestlik derecesi sayısı

Yalnızca belirli bir güven olasılığına değil, aynı zamanda örnek birimlerinin sayısına da bağlı olan küçük bir örneğin güven katsayısı.

Genel ortalamanın belirli sınırlar içinde olma olasılığı formülle belirlenir.

Student fonksiyonunun değeri nerede.

Güven katsayısını hesaplamak için fonksiyonun değeri aşağıdaki formülle belirlenir:

Daha sonra Öğrenci dağılım tablosuna göre (bakınız Ek 4), fonksiyonun değerine ve derece sayısına bağlı olarak değer belirlenir.

Fonksiyon aynı zamanda gerçek normalleştirilmiş sapmanın tablo değerini aşmama olasılıklarını belirlemek için de kullanılır.


Konu 7. İlişkinin istatistiksel çalışması: Konsept istatistiksel bağlantı. İstatistiksel bağlantı türleri ve biçimleri. Görevler istatistiksel çalışma fenomenlerin ilişkisi. Sosyo-ekonomik fenomenlerin bağlantılarının özellikleri. İlişkilerin istatistiksel olarak incelenmesinin temel yöntemleri.

korelasyon - her bir bireysel durumda görünmeyen, ancak bir eğilim şeklinde ortalama değerlerdeki vakaların kütlesinde ortaya çıkan bir ilişki.

istatistiksel çalışma pratik kullanımı için bir bağımlılık modeli elde etmeyi amaçlamaktadır. Bu sorunun çözümü aşağıdaki sırayla gerçekleştirilir.

1. İncelenen olgunun özünün ve sebep-sonuç ilişkilerinin mantıksal analizi. Sonuç olarak, performans göstergesi belirlenir (y), göstergelerle karakterize edilen değişiminin faktörleri (x (, x 2, x 3,..., X").İki işaretin ilişkisi (en ve X) aranan çift ​​korelasyon. Birkaç faktörün etkili özellik üzerindeki etkisine denir. çoklu korelasyon.

Genel iletişim yönünde olabilir dümdüz ve tersi. Özellikte bir artışla doğrudan bağlantılarla x işareti de artar y, ters ile - işarette bir artışla X işaret de azalır.

2. Birincil bilgilerin toplanması ve homojenlik ve normal dağılım için kontrol edilmesi. Popülasyonun homojenliğini değerlendirmek için faktör özelliklerine göre varyasyon katsayısı kullanılır.

Varyasyon katsayısı %33'ü geçmiyorsa küme homojen kabul edilir. İncelenen faktör işaretlerinin dağılımının normalliğinin kontrol edilmesi ( x ( , x 2 , x 3 ,..., X")üç sigma kuralı kullanılarak gerçekleştirilmiştir. Normal dağılım testinin sonuçları tablo şeklinde sunulmalıdır.

Ekonomik araştırmalarda malların kalitesi kontrol edilirken, deney küçük bir örneklem bazında gerçekleştirilebilir.

Altında küçük örnekörnek popülasyonun genel popülasyonun nispeten az sayıda biriminden oluşturulduğu, sürekli olmayan bir istatistiksel anket olarak anlaşılmaktadır. Küçük bir numunenin hacmi genellikle 30 birimi geçmez ve 4-5 birime kadar ulaşabilir.

Ticarette, büyük bir numunenin mümkün olmadığı veya pratik olmadığı durumlarda (örneğin, çalışma incelenen numunelerin bozulmasını veya yok edilmesini içeriyorsa) minimum numune boyutuna başvurulur.

Küçük bir örneğin hata değeri, nispeten büyük bir örneklem büyüklüğü (n>100) ile örnek gözlemi için formüllerden farklı formüllerle belirlenir. Küçük bir örneğin ortalama hatası u(mu)m.v. formülle hesaplanır:

um.v \u003d kök (Gsquare (m.v.) . / n),

burada Gsquare(m.v.) küçük bir örneğin varyansıdır.*bu sigmadır*

Formüle göre (sayı var) elimizde:

G0kare=Gkare *n/ (n-1).

Ancak küçük bir örnekle n / (n-1) önemli olduğundan, küçük bir örneğin varyansının hesaplanması sözde serbestlik derecesi sayısı dikkate alınarak yapılır. Serbestlik derecesi sayısı, ortalama değeri değiştirmeden keyfi değerler alabilen seçeneklerin sayısı olarak anlaşılmaktadır. Varyans Gsquare belirlenirken, serbestlik derecesi sayısı n-1'dir:

Gsquare (m.v.) \u003d toplam (xi-x (dalgalı bir çizgi ile)) / (n-1).

Küçük bir örneğin Dm.v.'nin (üçgen işareti) marjinal hatası aşağıdaki formülle belirlenir:

Bu durumda, t güven katsayısının değeri, yalnızca verilen güven olasılığına değil, aynı zamanda n örnek birimlerinin sayısına da bağlıdır. Bireysel t ve n değerleri için, küçük bir örneğin güven olasılığı, standart sapma dağılımlarının verildiği özel Öğrenci tabloları ile belirlenir:

t= (x(dalgalı bir çizgi ile) –x(bir çizgi ile)) / Gm.v.

Öğrenci tabloları ders kitaplarında verilmektedir. matematiksel istatistik. Küçük bir örneğin marjinal hatasının ortalama hatanın t katını geçmeme olasılığını karakterize eden bu tablolardan bazı değerler:

St=P[(x(dalgalı bir çizgi ile) –x(bir çizgi ile)

Örneklem büyüklüğü arttıkça Student'ın dağılımı normal dağılıma yaklaşır ve 20'de normal dağılımdan çok az farklılık gösterir.

Küçük örneklem anketleri yürütürken, örneklem boyutu ne kadar küçükse, Öğrenci dağılımı ile öğrenci dağılımı arasındaki farkın o kadar büyük olduğunu akılda tutmak önemlidir. normal dağılım. Minimum örneklem büyüklüğü (n=4) ile bu fark çok önemlidir, bu da küçük bir örneklemin sonuçlarının doğruluğunda bir düşüş olduğunu gösterir.

Ticarette küçük bir örneklem vasıtasıyla, bir takım pratik problemler çözülür, her şeyden önce, incelenen özelliğin genel ortalamasının bulunduğu sınırın belirlenmesi.

Küçük bir örnek yürütülürken, 0.95 veya 0.99 değeri pratik olarak bir güven olasılığı olarak alındığından, marjinal örnekleme hatası Dm.v'yi belirlemek için. Aşağıdaki Student dağılım okumaları kullanılır.

Küçük örnek istatistikleri

S. m.'nin başlangıcı olduğu genel olarak kabul edilir. ya da, sıklıkla adlandırıldığı gibi, “küçük n” istatistikleri, 20. yüzyılın ilk on yılında, W. Gosset'in “öğrenci” tarafından öne sürülen t-dağılımını yerleştirdiği çalışmasının yayınlanmasıyla kuruldu. sonra dünya çapında ün kazandı. O sırada Gosset, Guinness bira fabrikalarında istatistikçi olarak çalışıyordu. Görevlerinden biri, taze demlenmiş şişman fıçıların ardışık partilerini analiz etmekti. Gosset, asla açıklayamadığı nedenlerden dolayı, hamalın kalitesini rastgele kontrol etmek için bira fabrikasının depolarındaki çok sayıda fıçıdan alınan numune sayısını büyük ölçüde azaltma fikrini denedi. Bu onun t-dağılımını varsaymasına yol açtı. Guinness bira fabrikalarının tüzüğü, çalışanlarının çalışmanın sonuçlarını yayınlamasını yasakladığından, Gosset, küçük örnekli bir t-dağılımı ve geleneksel bir z-dağılımı (normal dağıtım) kullanarak örnekleme kalite kontrolünü karşılaştıran deneyinin sonuçlarını, takma ad "Öğrenci" (Öğrenci - t-Öğrenci dağıtımı adı nereden geldi).

t-dağılımı. t-dağılımı teorisi, z-dağılımı teorisi gibi, test etmek için kullanılır. sıfır hipotezi iki örneğin aynı popülasyondan rastgele örnekler olduğu ve bu nedenle hesaplanan istatistiklerin (örneğin, ortalama ve standart sapma) popülasyon parametrelerinin yansız tahminleri olduğu. Bununla birlikte, normal dağılım teorisinden farklı olarak, küçük örnekler için t-dağılımı teorisi, önsel bilgi veya kesin tahminler gerektirmez. matematiksel beklenti ve genel popülasyonun varyansı. Ayrıca, istatistiksel anlamlılık için iki büyük örneğin ortalamaları arasındaki farkı test etmek, popülasyonun özelliklerinin normal dağılımı hakkında temel bir varsayım gerektirse de, t-dağılım teorisi, parametreler hakkında varsayımlar gerektirmez.

Normal olarak dağıtılan özelliklerin tek bir eğri ile tanımlandığı iyi bilinmektedir - aşağıdaki denklemi sağlayan Gauss eğrisi:

Bir t-dağılımı ile, bütün bir eğri ailesi aşağıdaki formülle temsil edilir:

Bu nedenle t denklemi, matematikte n değiştikçe başka bir eğrinin verilen denklemi karşılayacağı anlamına gelen gama fonksiyonunu içerir.

Özgürlük derecesi

t denkleminde n, t dağılımı denklemi gibi herhangi bir moment üreten fonksiyonun ikinci momenti olan popülasyon varyans tahmini (S2) ile ilişkili serbestlik derecesi (df) sayısını belirtir. S.'de, serbestlik derecesi sayısı, belirli bir analiz türünde kısmi kullanımlarından sonra kaç özelliğin serbest kaldığını gösterir. Bir t dağılımında, tüm bu tür sapmaların toplamı sıfıra eşit olması gerektiğinden, örnek ortalamasından sapmalardan biri her zaman sabittir. Bu, S2 parametresinin yansız bir tahmini olarak örnek varyansını hesaplarken karelerin toplamını etkiler ve df'nin her örnek için ölçüm sayısı eksi bire eşit olduğu gerçeğine yol açar. Bu nedenle, df = n - 2 boş hipotezini test etmek için t istatistiklerini hesaplama formülleri ve prosedürlerinde.

F-uzay bölümü. T testi ile test edilen boş hipotez, iki örneğin aynı popülasyondan rastgele veya aynı varyansa sahip iki farklı popülasyondan rastgele seçilmiş olmasıdır. Ya analiz etmen gerekirse daha fazla gruplar? Bu sorunun cevabı, Gosset'in t-dağılımını keşfetmesinden sonraki yirmi yıl boyunca arandı. 20. yüzyılın en önde gelen istatistikçilerinden ikisi, doğrudan üretimine dahil oldu. Bir - ilk teoriyi öneren en büyük İngiliz istatistikçi R. A. Fisher. gelişimi F dağılımına yol açan formülasyonlar; Gosset'in fikirlerini geliştiren küçük örnekler teorisi üzerine çalışması 1920'lerin ortalarında yayınlandı (Fisher, 1925). Bir diğeri, iki varyans tahmininin oranını hesaplayarak herhangi bir büyüklükteki iki bağımsız örneği karşılaştırmanın bir yolunu geliştiren ilk Amerikalı istatistikçilerden biri olan George Snedecor'dur. Bu orana Fischer'den sonra F oranı adını verdi. Araştırma sonuçları. Snedekor, F dağılımının, her biri kendi serbestlik derecesine sahip iki istatistiğin c2 oranının dağılımı olarak belirtilmeye başlamasına yol açtı:

Bundan Fisher'in varyans analizi üzerine klasik çalışması geldi; bu, açıkça küçük örneklerin analizine yönelik istatistiksel bir teknikti.

Örnekleme dağılımı F (burada n = df) aşağıdaki denklem ile temsil edilir:

t-dağılımı durumunda olduğu gibi, gama fonksiyonu, F denklemini sağlayan bir dağılım ailesi olduğunu gösterir. Ancak bu durumda, analiz iki df niceliği içerir: için serbestlik derecesi sayısı. pay ve F oranının paydası için.

t ve F istatistiklerini tahmin etmek için tablolar. Büyük örnekler teorisine dayanan C. kullanarak boş hipotezi test ederken, genellikle sadece bir referans tablosu gereklidir - normal sapmalar tablosu (z), bu, herhangi iki değer arasındaki normal eğrinin altındaki alanı belirlemenizi sağlar. x ekseninde z. Bununla birlikte, t- ve F-dağılımları için tablolar, bu tablolar, serbestlik derecelerinin sayısının değiştirilmesinden kaynaklanan çoklu dağılımlara dayandığından, zorunlu olarak bir dizi tablo halinde sunulur. t ve F dağılımları, büyük örnekler için normal dağılım gibi olasılık yoğunluk dağılımları olsa da, bunları tanımlamak için kullanılan dört moment açısından ikincisinden farklıdır. Örneğin t-dağılımı, tüm df için simetriktir (denklemindeki t2'ye dikkat edin), ancak örnek boyutu azaldıkça giderek daha fazla zirve yapar. Doruk eğriler (normal basıklıktan daha büyük), Gauss eğrisi gibi normal basıklığa sahip eğrilerden daha az asimptotik (yani dağılımın uçlarında x eksenine daha yakın) olma eğilimindedir. Bu fark, t ve z değerlerine karşılık gelen x ekseni üzerindeki noktalar arasında gözle görülür farklılıklara yol açar. df = 5 ve iki taraflı a düzeyi 0,05'e eşit olduğunda, t = 2,57, karşılık gelen z = 1,96. Bu nedenle, t = 2.57, %5 düzeyinde istatistiksel anlamlılığı gösterir. Bununla birlikte, normal bir eğri durumunda, z = 2.57 (daha kesin olarak 2.58), zaten %1'lik bir istatistiksel anlamlılık seviyesini gösterir. Örnek sayısı iki olduğunda t, F'ye eşit olduğundan, F-dağılımı ile de benzer karşılaştırmalar yapılabilir.

"Küçük" bir numuneyi ne oluşturur?

Bir zamanlar, örneğin küçük sayılabilmesi için ne kadar büyük olması gerektiği sorusu gündeme geldi. Bu sorunun kesin bir cevabı yok. Bununla birlikte, df = 30'u küçük ve büyük bir örnek arasında koşullu bir sınır olarak kabul etmek gelenekseldir.Bu biraz keyfi kararın temeli, t-dağılımını normal dağılımla karşılaştırmanın sonucudur. Yukarıda belirtildiği gibi, t ​​ve z değerleri arasındaki fark, artan df ile azalma ve azalma ile artma eğilimindedir. Aslında, df = ∞ için t = z olduğunda t, sınırlayıcı durumdan çok önce z'ye yaklaşmaya başlar. t'nin tablo değerlerinin basit bir görsel incelemesi, df = 30 ve üstünden başlayarak bu yaklaşımın oldukça hızlı hale geldiğini görmenizi sağlar. t (df = 30'da) ve z'nin karşılaştırmalı değerleri sırasıyla: p = 0.05 için 2.04 ve 1.96; p = 0.01 için 2.75 ve 2.58; p = 0,001 için 3,65 ve 3,29.

"Küçük" örnekler için diğer istatistikler

t ve F gibi istatistiksel testler özellikle küçük numunelere uygulanacak şekilde tasarlanmış olsa da, büyük numunelere eşit derecede uygulanabilir. Ancak, başkaları da var. istatistiksel yöntemler, küçük numunelerin analizi için tasarlanmıştır ve genellikle bu amaç için kullanılır. Sözde demek istiyorlar. parametrik olmayan veya dağıtımdan bağımsız yöntemler. Temel olarak, bu yöntemlerde görünen S., oran veya aralık ölçeklerinin tanımını karşılamayan ölçekler kullanılarak elde edilen ölçümlere uygulanmak üzere tasarlanmıştır. Çoğu zaman bunlar sıralı (sıra) veya nominal ölçümlerdir. Parametrik olmayan S., özellikle varyans tahminleriyle ilgili olarak, dağılımın parametreleri hakkında varsayımlar gerektirmez, çünkü sıralı ve nominal ölçekler, varyans kavramını dışlar. Bu nedenle, küçük örnekler analiz edildiğinde aralık ve oran ölçekleri kullanılarak elde edilen ölçümler için parametrik olmayan yöntemler de kullanılmaktadır ve parametrik yöntemlerin uygulanması için gerekli temel varsayımların ihlal edilme olasılığı vardır. Küçük örneklere makul bir şekilde uygulanabilen bu tür C'ler arasında şunlar bulunur: Fisher'in kesin olasılık testi, Friedman'ın iki faktörlü parametrik olmayan (sıra) varyans analizi, Kendall'ın sıra korelasyon katsayısı t, Kendall'ın uyum katsayısı (W), Kruskal'ın H-kriteri - Parametrik olmayan (sıra) tek yönlü varyans analizi için Wallace, Mann-Whitney U-testi, medyan testi, işaret testi, Spearman's rank korelasyon katsayısı r ve Wilcoxon's t-testi.

Bir kişi yeteneklerini ancak onları uygulamaya çalışarak tanıyabilir. (Seneca)

Bootstrap, küçük örnekler, veri analizinde uygulama

Ana fikir

Bootstrap yöntemi, 1979 yılında B. Efron tarafından jackknife yönteminin bir gelişimi olarak önerilmiştir.

Bootstrap'ın ana fikrini açıklayalım.

Veri analizinin amacı, en doğru sonucu elde etmektir. seçici tahmin eder ve sonuçları tüm popülasyona yayar.

Bir örnekten alınan sayısal veriler için teknik terim, örnek istatistiklerdir.

Ana tanımlayıcı istatistikler şunlardır: seçici ortalama, medyan, standart sapma vb.

Örnek ortalaması, medyan, korelasyon gibi elde edilen istatistikler örnekten örneğe değişecektir.

Araştırmacı, popülasyona bağlı olarak bu sapmaların boyutunu bilmelidir. Buna göre hata payı hesaplanır.

Olasılık dağılımı şeklinde bir örnek istatistiğinin tüm olası değerlerinin ilk resmine örnek dağılımı denir.

anahtar boyutörnekler. Örnek boyutu küçükse ne olur? Makul bir yaklaşım, rastgele mevcut örnekten veri ayıklayın.

Önyükleme fikri, istatistiğin örnek dağılımını belirlemek için örnek hesaplamaların sonuçlarını “kukla popülasyon” olarak kullanmaktır. Aslında, analiz eder büyükönyükleme örnekleri adı verilen "hayalet" örneklerin sayısı.

Genellikle birkaç bin örnek rastgele oluşturulur, bu kümeden ilgilendiğimiz istatistiklerin önyükleme dağılımını bulabiliriz.

Diyelim ki bir numunemiz var, ilk adımda numunenin elemanlarından birini rastgele seçin, bu elemanı numuneye geri döndürün, elemanı tekrar rastgele seçin, vb.

Açıklanan rastgele seçim prosedürünü n kez tekrarlayalım.

Bootstrap'da rastgele bir seçim yapılır. dönüş, orijinal numunenin seçilmiş elemanları İadelerörneğe ve daha sonra tekrar seçilebilir.

Resmi olarak, her adımda, 1/n olasılıkla orijinal numunenin bir öğesini seçeriz.

Toplamda, ilk numunenin n elemanına sahibiz, Ni'nin 0 ile n arasında değiştiği sayılarla (N 1 ... Nn ) bir numune elde etme olasılığı, bir polinom dağılımı ile tanımlanır.

Modern bilgisayarlar için oldukça ulaşılabilir olan bu tür birkaç bin örnek üretilir.

Her bir numune için, ilgilenilen miktarın bir tahmini oluşturulur, ardından tahminlerin ortalaması alınır.

Birçok örnek olduğu için, inşa edebiliriz ampirik fonksiyon tahminlerin dağılımı, ardından nicelikleri hesaplayın, güven aralığını hesaplayın.

Bootstrap yönteminin Monte Carlo yönteminin bir modifikasyonu olduğu açıktır.

Örnekler oluşturulursa iade yok elemanlar, daha sonra iyi bilinen jackknife yöntemi elde edilir.

Soru: Bunu neden yapıyorsunuz ve yöntemi gerçek veri analizinde kullanmak ne zaman mantıklı?

Önyüklemede yeni bilgi almıyoruz, ancak elimizdeki göreve göre mevcut verileri akıllıca kullanıyoruz.

Örneğin, önyükleme yapmak için kullanılabilir küçük medyan tahminleri, korelasyonlar, güven aralıklarının oluşturulması ve diğer durumlar için örnekler.

Efron'un orijinal makalesi, n = 15'lik bir örneklem boyutu için ikili korelasyon tahminlerini ele aldı.

B = 1000 önyükleme örneği oluşturulur (önyükleme çoğaltması).

Elde edilen ro 1 … ro B katsayılarına dayanarak, korelasyon katsayısının genel bir tahmini ve standart sapmanın bir tahmini oluşturulur.

Normal yaklaşım kullanılarak hesaplanan örnek korelasyon katsayısının standart hatası:

korelasyon katsayısının 0.776 olduğu yerde, ilk örneklem büyüklüğü n = 15'tir.

Standart hatanın önyükleme tahmini 0.127'dir, bkz. Efron, Gall Gong, 1982.

Teorik arka plan

Çalışmanın hedef parametresi, örneğin seçilen toplumdaki ortalama gelir olsun.

Rastgele bir boyut örneği için bir veri seti elde ederiz.Karşılık gelen örnek istatistiği olsun.

Çoğu örnek istatistik için büyük değer (>30) örnekleme dağılımı, pozitif parametrenin popülasyona ve istatistiklerin türüne bağlı olduğu, merkezi ve standart sapması olan normal bir eğridir.

Bu klasik sonuç, merkezi limit teoremi olarak bilinir.

Verilerden gerekli standart sapmayı tahmin etmede genellikle önemli teknik zorluklar vardır.

örneğin, eğer medyan veya örnek korelasyon.

Önyükleme yöntemi bu zorlukların üstesinden gelir.

Fikir basit: orijinal örnekten elde edilen önyükleme örneğinden hesaplanan aynı istatistikleri temsil eden keyfi bir değerle ifade edin

“Orijinal” örnek sabit ise örnekleme dağılımı hakkında ne söylenebilir?

Limitte, örnekleme dağılımı da parametrelerle çan şeklindedir ve

Böylece, önyükleme dağılımı, örnekleme dağılımına iyi bir şekilde yaklaşır.

Bir örnekten diğerine geçtiğimizde, yalnızca ifadede değişiklik olduğuna dikkat edin, çünkü şundan hesaplanmıştır:

Bu, esasen merkezi limit teoreminin bir önyükleme versiyonudur.

Ayrıca bir istatistiksel fonksiyonun limit örnekleme dağılımı popülasyon bilinmeyenlerini içermiyorsa, önyükleme dağılımının örnekleme dağılımına merkezi limit teoreminden daha iyi bir yaklaşım sağladığı da bulundu.

Özellikle, istatistiksel fonksiyon, standart hatanın doğru veya örnek tahminini gösteren bir forma sahip olduğunda, marjinal örnek dağılımı genellikle standart normaldir.

Bu etkiye, önyükleme kullanarak ikinci dereceden düzeltme denir.

Yani nüfus ortalaması vb. örnek ortalama; popülasyon standart sapmasıdır, orijinal verilerden hesaplanan örnek standart sapmasıdır ve önyükleme örneğinden hesaplanır.

Daha sonra, burada , değerinin örnek dağılımı, önyükleme dağılımı ile yaklaşık olacak, burada önyükleme örneği üzerinden ortalama, .

Benzer şekilde, örnekleme dağılımı, burada, önyükleme dağılımı ile yaklaşık olacaktır.

İkinci derece düzeltme ile ilgili ilk sonuçlar, 1981-83'te Babu ve Singh tarafından yayınlandı.

Önyükleme uygulamaları

Örnek bir tahminin standart hatasının yaklaşıklığı

Parametrenin popülasyon için bilindiğini varsayalım

Rastgele bir boyut örneğine dayalı bir tahmin olsun. Numune tüm olası numuneler kümesi üzerinde değiştiğinden, standart hatayı tahmin etmek için aşağıdaki yaklaşım kullanılır:

Kullanılan formülün aynısını kullanarak hesaplayın, ancak bu sefer her biri farklı önyükleme boyutu örneklerine dayanarak. Kabaca söylemek gerekirse, çok büyük değilse kabul edilebilir. Bu durumda, azaltılabilir n içinde n. Daha sonra, aslında, önyükleme yönteminin özünden yola çıkarak belirlenebilir: popülasyon (örnek), ampirik bir popülasyon (örnek) ile değiştirilir.

Önyükleme yöntemini kullanarak Bayes düzeltmesi

Bir örnek dağılımının ortalaması genellikle genellikle büyük, yani Bayes yaklaşımına bağlıdır:

önyükleme kopyası nerede. Ardından ayarlanan değer -

Jackknife yöntemi olarak adlandırılan önceki yeniden örnekleme yönteminin daha popüler olduğunu belirtmekte fayda var.

Güvenilirlik aralığı

Belirli bir parametre için güven aralıkları (CI), numuneye dayalı aralıklardır.

Bu aralık, çok yüksek (önceden ayarlanmış) bir olasılığa sahip bir değerin kendisine ait olma özelliğine sahiptir. Buna önem düzeyi denir. Elbette, bu olasılık olası olanların herhangi bir örneğine uygulanmalıdır, çünkü her örnek güven aralığının belirlenmesine katkıda bulunur. En sık kullanılan iki anlamlılık düzeyi %95 ve %99'dur. Burada kendimizi %95 değeriyle sınırlayacağız.

Geleneksel olarak CI, limitte daha kesin olarak miktarın örnek dağılımına bağlıdır. Önyükleme ile oluşturulabilecek iki ana tür güven aralığı vardır.

yüzdelik yöntemi

Bu yöntem girişte zaten belirtilmişti, sadeliği ve doğallığı nedeniyle çok popüler. 1000 önyükleme kopyamız olduğunu varsayalım, bunları şöyle gösterelim: Daha sonra aralıktaki değerler güven aralığına düşecektir.Yöntemin teorik gerekçesine dönersek, etrafında örnekleme dağılımının simetrisini gerektirdiğini belirtmekte fayda var. Önyükleme dağılımını kullanan yöntem, işaretin tersi olan bir değere yaklaşmalıdır.

Ortalanmış önyükleme yüzdesi yöntemi

Örnekleme dağılımının, önyükleme dağılımıyla, yani başlangıçta önyüklemede amaçlandığı gibi yaklaşık olduğunu varsayalım. 100. yüzdelik dilimi (önyükleme tekrarlarında) olarak gösterelim. O zaman değerin ile aralığında olduğu varsayımı %95 olasılıkla doğru olacaktır. Aynı ifade, ile arasındaki aralık için kolaylıkla benzer bir ifadeye dönüştürülebilir. Bu aralığa, önyükleme yüzdelikleri için ortalanmış güven aralığı denir (%95 anlamlılık düzeyinde).

önyükleme-t kriteri

Daha önce belirtildiği gibi, önyükleme, standart hatanın örnek bir tahmininin bulunduğu formun bir işlevini kullanır.

Bu ek hassasiyet sağlar.

Temel bir örnek olarak, standart t istatistiğini alalım (yöntemin adı buradan gelir): yani özel durum, ne zaman (popülasyon ortalaması), (örnek ortalaması) ve - örnek standart sapması. Böyle bir işlevin önyükleme analogu burada yalnızca önyükleme örneğiyle aynı şekilde hesaplanır.

100. önyükleme yüzdesini ile gösterelim ve değerin aralıkta olduğunu varsayalım.

eşitliği kullanma önceki ifadeyi yeniden yazabilirsiniz, yani. aralıkta yatıyor

Bu boşluk, %95 düzeyindeki için önyükleme t-güven aralığı olarak adlandırılır.

Literatürde önceki yaklaşımdan daha fazla doğruluk elde etmek için kullanılır.

Gerçek Veri Örneği

İlk örnek olarak, ışığın civcivlerin kuluçka hızına etkisi olan Hollander ve Wolfe 1999, s.63'teki verileri alınız.

Standart kutu grafiği, popülasyon verileri arasında normallik olmadığını varsayar. Medyan ve ortalamanın bir önyükleme analizi yaptık.

Ayrı olarak, standart sınır eğrisinden farklı olan önyükleme t-histogramındaki simetri eksikliğine dikkat etmek önemlidir. Medyan ve ortalama için %95 güven aralıkları (önyükleme yüzdesi yöntemi kullanılarak hesaplanmıştır) kabaca aralığı kapsar

Bu aralık, arka ışığa bağlı olarak civciv çıkış oranı sonuçlarındaki genel farkı (artışı) temsil eder.

İkinci bir örnek olarak, profesyonel futbolcuların Biyokimyasal Oksijen İhtiyacı (BOD) ve Hidrostatik Ağırlık (HW) sonuçları arasındaki korelasyona bakan Devore 2003, sayfa 553'teki verileri ele alalım.

İki boyutlu veriler çiftlerden oluşur ve önyükleme yeniden örneklemesi sırasında çiftler serbestçe seçilebilir. Örneğin, önce al, sonra vb.

Şekilde, kutu bıyık grafiği, ana popülasyonlar için normallik eksikliğini göstermektedir. 2B önyükleme verilerinden hesaplanan korelasyon histogramları asimetriktir (sola kaydırılır).

Bu nedenle, ortalanmış önyükleme yüzdesi yöntemi bu durumda daha uygundur.

Analiz sonucunda, ölçümlerin nüfusun en az %78'i için korele olduğu ortaya çıktı.

Veri örneğin 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Örnek 2 için veriler:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

Literatür genellikle, farklı istatistiksel durumlarda güvenilir sonuçlar verebilen, önyükleme için farklı şemalar önerir.

Yukarıda tartışılanlar sadece en temel unsurlardır ve aslında birçok başka devre seçeneği vardır. Örneğin, iki aşamalı örnekleme veya tabakalı örnekleme durumunda hangi yöntemin kullanılması daha iyidir?

Bu durumda, doğal bir şema icat etmek zor değildir. Regresyon modelleriyle veri durumunda önyükleme genellikle çok fazla dikkat çekiyor. İki ana yöntem vardır: ilkinde kovaryanslar ve yanıt değişkenleri birlikte yeniden örneklenir (çiftsel önyükleme), ikincisinde artıklar üzerinde önyükleme yapılır (artık önyükleme).

Modellerdeki hata varyansları eşit olmasa bile çift yöntemi ( 'deki sonuçlar açısından) doğru kalır. Bu durumda ikinci yöntem yanlıştır. Bu dezavantaj, böyle bir şemanın standart hatanın tahmininde ek doğruluk sağlamasıyla telafi edilir.

Önyüklemeyi zaman serisi verilerine uygulamak çok daha zordur.

Ancak zaman serisi analizi, ekonometrideki kilit alanlardan biridir. Burada iki ana zorluk ayırt edilebilir: birincisi, zaman serisi verileri sıralı olarak bağımlı olma özelliğine sahiptir. Yani, bağlıdır vb.

İkinci olarak, istatistiksel popülasyon zamanla değişir, yani durağan olmama ortaya çıkar.

Bunun için kaynak verilerdeki bağımlılığı özellikle blok diyagram olmak üzere önyükleme örneklerine aktaran yöntemler geliştirilmiştir.

Önyükleme seçimi yerine hemen oluşturulur engellemek orijinal örnekten bağımlılıkları koruyan veriler.

Ekonometri bölümlerine önyükleme uygulaması alanında, şu anda oldukça fazla araştırma yapılmakta, genel olarak yöntem aktif olarak geliştirilmektedir.

Küçük Örnek Yöntemi

Küçük örnekleme yönteminin ana avantajı, hesaplama prosedürleri için gereken süreyi azaltarak sürecin dinamiklerini zaman içinde tahmin etme yeteneğidir.

Rastgele anlık örnekleri seçin belirli dönemler zaman hacmi 5 ila 20 birim. Örnekleme periyodu ampirik olarak belirlenir ve a priori bilginin analizi ile belirlenen sürecin kararlılığına bağlıdır.

Her anlık numune için ana istatistiksel özellikler belirlenir. Anlık örnekler ve temel istatistiksel özellikleri Ek B'de sunulmuştur.

Örnek varyansının homojenliği hakkında bir hipotez ileri sürülür ve olası kriterlerden biri (Fisher kriteri) kullanılarak test edilir.

Örnek özelliklerinin homojenliği hakkındaki hipotezin test edilmesi.

2 seri ölçümde aritmetik ortalamalar arasındaki farkın önemini kontrol etmek için G ölçüsü verilir.Hesaplamalar Ek B'de verilmiştir.

Karar kuralı şu şekilde formüle edilmiştir:

burada tr, belirli bir güven olasılığı Р için normalleştirilmiş dağılımın niceliğinin değeridir, ? = 0.095, n = 10, tr = 2.78.

Eşitsizlik sağlandığında, örnek ortalamalar arasındaki farkın anlamlı olmadığı hipotezi doğrulanır.

Eşitsizlik her durumda sağlandığından, örnek ortalamalar arasındaki farkın anlamlı olmadığı hipotezi doğrulanır.

Örnek varyanslarının homojenliği hakkındaki hipotezi test etmek için, 2 dizi ölçümün sonuçlarının varyanslarının yansız tahminlerinin oranı olarak F0 ölçüsü verilir. Ayrıca, 2 tahminden büyük olanı pay olarak alınır ve Sx1>Sx2 ise, o zaman

Hesaplama sonuçları Ek B'de verilmiştir.

Daha sonra güven olasılığı P değerleri ayarlanır ve F(K1; K2; ?/2) değerleri K1 = n1 - 1 ve K2 = n2 - 1'de belirlenir.

P=0.025 ve K1=10-1=4 ve K2=10-1=4 F(9;9;0.025/2)=4.1'de.

Karar kuralı: F(K1; K2; ?/2)>F0 ise, iki örneklemdeki varyansların homojenliği hipotezi kabul edilir.

F(K1; K2; ?/2) > F0 koşulu her durumda sağlandığından, varyansların homojenliği hipotezi kabul edilir.

Böylece, sürecin kararlılığını gösteren örnek varyanslarının homojenliği hakkındaki hipotez doğrulanır; araçların karşılaştırma yöntemine göre numune araçlarının homojenliği hakkındaki hipotez doğrulanır, bu da dağılım merkezinin değişmediği ve işlemin kararlı bir durumda olduğu anlamına gelir.

Dağılım yöntemi ve doğruluk diyagramları

Belirli bir süre içerisinde 3 ila 10 ürün arasında anlık numuneler alınır ve her numunenin istatistiksel özellikleri belirlenir.

Elde edilen veriler çizelgelere uygulanır, apsis ekseninde hangi zaman çizilir? veya k örnek sayısı ve y ekseni boyunca - bireysel değerler xk veya bunlardan birinin değeri istatistiksel özellikler(örnek aritmetik ortalama, örnek standart sapma). Ayrıca şema üzerinde Tv ve Tn olmak üzere iki yatay çizgi çizilerek ürünün tolerans alanı sınırlandırılmıştır.

Anlık örnekler Ek B'de verilmiştir.


Şekil 1 Doğruluk Tablosu

Diyagram, üretim sürecinin ilerlemesini açıkça göstermektedir. Üretim sürecinin kararsız olduğu yargısına varılabilir