Выборки, при которых наблюдением охватывается небольшое число единиц (n < 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Предельная ошибка малой выборки определяется по формуле:

Средняя ошибка малой выборки:

где - дисперсия малой выборки:

где - среднее значение признака по выборке;

Число степеней свободы

Коэффициент доверия малой выборки, зависящей не только от заданной доверительной вероятности, но и от численности единиц выборки.

Вероятность того, что генеральная средняя находится в определенных границах, определяется по формуле

где - значение функции Стьюдента.

Для расчета коэффициента доверия определяют значение функции по формуле:

Затем по таблице распределения Стьюдента (см. приложение 4) в зависимости от значения функции и числа степеней определяют значение .

Функция используется также для определения вероятностей того, что фактическое нормированное отклонение не превзойдет табличное значение.


Тема 7. Статистическое изучение взаимосвязи : Понятие статистической связи. Виды и формы статистической связи. Задачи статистического изучения взаимосвязи явлений. Особенности связей социально-экономических явлений. Основные методы статистического изучения связей.

Корреляционная связь –связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в следующей последовательности.

1. Логический анализ сущности изучаемого явления и причинно-следственных связей. В результате устанавливаются результативный показатель (у), факторы его изменения, характеризуемые показателями (х { , х 2 , х 3 , ..., х„). Связь двух признаков и х) называется парной корреляцией . Влияние нескольких факторов на результативный признак называется множественной корреляцией .

По общему направлению связи могут быть прямые и обратные . При прямых связях с увеличением признака x увеличиваетcя и признак у, при обратных - с увеличением признака х признак у уменьшается.

2. Сбор первичной информации и проверка ее на однородность и нормальность распределения. Для оценки однородности совокупности используется коэффициент вариации по факторным признакам

Совокупность считается однородной, если коэффициент вариации не превышает 33%. Проверка нормальности распределения исследуемых факторных признаков (х { , х 2 , х 3 , ..., х„) проводится с помощью правила «трех сигм». Результаты проверки на нормальность распределения следует представлять в табличной форме.

При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки.

Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4-5 единиц.

В торговле к минимальному объему выборки прибегают, когда большая выборка или невозможна, или нецелесообразна (например, если проведение исследования связано с порчей или уничтожением обследуемых образцов).

Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (n>100). Средняя ошибка малой выборкиu(мю)м.в. вычисляется по формуле:

uм.в = корень(Gквадрат(м.в.) . /n),

где Gквадрат(м.в.) – дисперсия малой выборки.*это сигма*

По формуле (там номер стоит) имеем:

G0квадрат=Gквадрат *n/ (n-1).

Но поскольку при мало выборке n/(n-1) имеет существенное значение, то вычисление дисперсии малой выборки производится с учетом так называемого числа степеней свободы. Под числом степеней свободы понимается количество вариантов, которые могут принимать произвольные значения, не меняя величины средней. При определении дисперсииGквадрат число степеней свободы равноn-1:

Gквадрат(м.в.) = сумма (xi–x(cволнистой чертой))/(n-1).

Предельная ошибка малой выборки Дм.в.(знак- треугольник) определяется по формуле:

При этом значение коэффициента доверия tзависит не только от заданной доверительной вероятности, но и от численности единиц выборкиn. Для отдельных значенийtиnдоверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:

t= (x(cволнистой чертой) –x(с чертой)) /Gм.в.

Таблицы Стьюдента приводятся в учебниках по математической статистике. Вот некоторые значения из этих таблиц, характеризующие вероятность того, что предельная ошибка малой выборки не превзойдет t-кратную среднюю ошибку:

St=P[(x(cволнистой чертой) –x(с чертой)

По мере увеличения объема выборки распределение Стьюдента приближается к нормальному, и при 20 оно уже мало отличается от нормального распределения.

При проведении малых выборочных обследований важно иметь в виду, что чем меньше объем выборки, тем больше различие между распределением Стьюдента и нормальным распределением. При минимальном объеме выборки (n=4) это различие весьма существенно, что указывает на уменьшение точности результатов малой выборки.

Посредством малой выборки в торговле решается ряд практических задач, прежде всего установление предела, в котором находится генеральная средняя изучаемого признака.

Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,95 или 0,99, то для определения предельной ошибки выборки Дм.в. используются следующие показания распределения Стьюдента.

Статистика малых выборок (small-sample statistics)

Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п», было положено в первом десятилетии XX века публикацией работы У. Госсета, в к-рой он поместил t-распределение, постулированное получившим чуть позже мировую известность «студентом». В то время Госсет работал статистиком на пивоваренных заводах Гиннесса. Одна из его обязанностей заключалась в том, чтобы анализировать поступающие друг за другом партии бочонков только что сваренного портера. По причине, к-рую он никогда толком не объяснял, Госсет экспериментировал с идеей существенного сокращения числа проб, отбираемых из очень большого количества бочек, находящихся на складах пивоварни, для выборочного контроля качества портера. Это и привело его к постулированию t-распределения. Так как устав пивоваренных заводов Гиннесса запрещал публикацию их работниками результатов исслед., Госсет опубликовал результаты своего эксперимента по сравнению выборочного контроля качества с использованием t-распределения для малых выборок и традиционного z-распределения (нормального распределения) анонимно, под псевдонимом «Студент» (Student - откуда и пошло название t -распределение Стьюдента).

t-распределение. Теория t-распределения, подобно теории z-распределения, используется для проверки нулевой гипотезы о том, что две выборки представляют собой просто случайные выборки из одной генеральной совокупности и, следовательно, вычисленные статистики (напр., среднее и стандартное отклонение) яв-ся несмещенными оценками параметров генеральной совокупности. Однако, в отличие от теории нормального распределения, теория t-распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности. Более того, хотя проверка различия между средними двух больших выборок на статистическую значимость требует принципиального допущения о нормальном распределении характеристик генеральной совокупности, теория t-распределения не требует допущений относительно параметров.

Общеизвестно, что нормально распределенные характеристики описываются одной единственной кривой - кривой Гаусса, к-рая удовлетворяет следующему уравнению:

При t-распределении целое семейство кривых представлено следующей формулой:

Вот почему уравнение для t включает гамма-функцию, которая в математике означает, что при изменении п данному уравнению будет удовлетворять другая кривая.

Степени свободы

В уравнении для t буквой п обозначается число степеней свободы (df), сопряженных с оценкой дисперсии генеральной совокупности (S2), к-рая представляет собой второй момент любой производящей функции моментов, такой, напр., как уравнение для t-распределения. В С. число степеней свободы указывает на то, сколько характеристик осталось свободным после их частичного использования в конкретном виде анализа. В t-распределении одно из отклонений от выборочного среднего всегда фиксировано, так как сумма всех таких отклонений должна равняться нулю. Это сказывается на сумме квадратов при вычислении выборочной дисперсии как несмещенной оценки параметра S2 и ведет к тому, что df получается равным числу измерений минус единица для каждой выборки. Отсюда, в формулах и процедурах вычисления t-статистики для проверки нулевой гипотезы df = n - 2.

F-pacnpeделение. Проверяемая с помощью t-критерия нулевая гипотеза состоит в том, что две выборки были случайным образом извлечены из одной генеральной совокупности или же были случайно извлечены из двух разных совокупностей с одинаковой дисперсией. А что делать, если нужно провести анализ большего числа групп? Ответ на этот вопрос искали в течение двадцати лет после того, как Госсет открыл t-распределение. Два самых выдающихся статистика XX столетия непосредственно причастны к его получению. Один - крупнейший английский статистик Р. А. Фишер, предложивший первые теорет. формулировки, развитие к-рых привело к получению F-распределения; его работы по теории малых выборок, развивающие идеи Госсета, были опубликованы в середине 20-х годов (Fisher, 1925). Другой - Джордж Снедекор, один из плеяды первых американских статистиков, разработавший способ сравнения двух независимых выборок любого объема посредством вычисления отношения двух оценок дисперсии. Он назвал это отношение F-отношением, в честь Фишера. Результаты исслед. Снедекора привели к тому, что F-распределение стало задаваться как распределение отношения двух статистик с2, каждой со своими степенями свободы:

Из этого вышли классические работы Фишера по дисперсионному анализу - статистическому методу, явно ориентированному на анализ малых выборок.

Выборочное распределение F (где п = df) представлено следующим уравнением:

Как и в случае t-распределения, гамма-функция указывает на то, что существует семейство распределений, удовлетворяющих уравнению для F. В этом случае, однако, анализ включает два величины df: число степеней свободы для числителя и для знаменателя F-отношения.

Таблицы для оценивания t- и F-статистик. При проверке нулевой гипотезы с помощью С., основанных на теории больших выборок, обычно требуется только одна справочная таблица - таблица нормальных отклонений (z), позволяющая определить площадь под нормальной кривой между любыми двумя значениями z на оси абсцисс. Однако таблицы для t- и F-распределений по необходимости представлены комплектом таблиц, поскольку эти таблицы основаны на множестве распределений, полученных вследствие варьирования числа степеней свободы. Хотя t- и F-распределения представляют собой распределения плотности вероятности, как и нормальное распределение для больших выборок, они отличаются от последнего в отношении четырех моментов, используемых для их описания. t-распределение, напр., является симметричным (обратите внимание на t2 в его уравнении) при всех df, но становится все более островершинным по мере уменьшения объема выборки. Островершинные кривые (с эксцессом больше нормального) имеют тенденцию быть менее асимптотическими (т. е. меньше приближаться к оси абсцисс на концах распределения), чем кривые с нормальным эксцессом, такие как кривая Гаусса. Это различие приводит к заметным расхождениям между точками на оси абсцисс, соответствующими значениям t и z. При df = 5 и двустороннем уровне а, равном 0,05, t = 2,57, тогда как соответствующее z = 1,96. Следовательно, t = 2,57 свидетельствует о статистической значимости на 5% уровне. Однако в случае нормальной кривой z = 2,57 (точнее 2,58) будет уже указывать на 1% уровень статистической значимости. Аналогичные сравнения можно провести и с F-распределением, поскольку t равно F в случае, когда число выборок равно двум.

Что составляет «малую» выборку?

В свое время был поднят вопрос о том, какой объем должна иметь выборка, чтобы ее можно было считать малой. Определенного ответа на этот вопрос просто не существует. Однако условной границей между малой и большой выборкой принято считать df = 30. Основанием для этого в какой-то мере произвольного решения служит результат сравнения t-распределения с нормальным распределением. Как уже отмечалось выше, расхождение значений t и z имеет тенденцию возрастать с уменьшением и снижаться с увеличением df. Фактически, t начинает тесно приближаться к z задолго до предельного случая, когда t = z при df = ∞. Простое визуальное изучение табличных значений t позволяет увидеть, что это приближение становиться довольно быстрым, начиная с df = 30 и выше. Сравнительные величины t (при df = 30) и z равны соответственно: 2,04 и 1,96 для р = 0,05; 2,75 и 2,58 для р = 0,01; 3,65 и 3,29 для р = 0,001.

Другие статистики для «малых» выборок

Хотя такие статистические критерии, как t и F, специально разработаны для применения к малым выборкам, они в равной степени применимы и к большим выборкам. Существует, однако, множество др. статистических методов, предназначенных для анализа малых выборок и часто используемых именно для этой цели. Имеются в виду т. н. непараметрические или свободные от распределения методы. В основном, фигурирующие в этих методах С. предназначены для применения к измерениям, полученным с помощью шкал, не удовлетворяющих определению шкал отношений или интервалов. Чаще всего это порядковые (ранговые) или номинальные измерения. Непараметрические С. не требуют предположений в отношении параметров распределения, в частности, в отношении оценок дисперсии, потому что порядковые и номинальные шкалы исключают само понятие дисперсии. По этой причине непараметрические методы используются также для измерений, полученных с помощью интервальных шкал и шкал отношений, когда анализируются малые выборки и существует вероятность того, что нарушаются основные предположения, необходимые для применения параметрических методов. К числу таких С., к-рые можно обоснованно применять к малым выборкам, относятся: критерий точной вероятности Фишера, двухфакторный непараметрический (ранговый) дисперсионный анализ Фридмана, коэффициент ранговой корреляции t Кендалла, коэффициент конкордации (W) Кендалла, H-критерий Краскела - Уоллеса для непараметрического (рангового) однофакторного дисперсионного анализа, U-критерий Манна-Уитни, медианный критерий, критерий знаков, коэффициент ранговой корреляции r Спирмена и t-критерий Уилкоксона.

Свои способности человек может узнать, только попытавшись приложить их. (Сенека)

Бутстреп, малые выборки, применение в анализе данных

Основная идея

Метод бутстрепа предложен Б. Эфроном как развитие метода складного ножа в 1979 году.

Опишем основную идею бутстрепа.

Цель анализа данных – получить максимально точные выборочные оценки и распространить результаты на всю популяцию.

Технический термин, которым обозначаются численные данные, построенные по выборке, это выборочная статистика.

Основные описательные статистики это выборочные среднее, медиана, стандартное отклонение и т.д.

Итоговая статистика, например, выборочное среднее, медиана, корреляция будут меняться от выборки к выборке.

Исследователю требуется знать размер этих отклонений в зависимости от популяции. На основании этого рассчитывается предел погрешности.

Исходная картина всех возможных значений выборочной статистики в форме распределения вероятностей называется выборочным распределением.

Ключевым является размер выборки. Что делать, если размер выборки небольшой? Один из разумных подходов состоит в том, чтобы случайным образом извлекать данные из имеющейся выборки.

Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками.

Обычно случайным образом генерируется несколько тысяч выборок, из этого набора можно найти бутстреп-распределение интересующей нас статистики.

Итак, пусть имеем выборку выберем на первом шаге случайным образом один из элементов выборки, возвратим этот элемент в выборку, вновь случайным образом выберем элемент и тд.

Повторим описанную процедуру случайного выбора n раз.

В бутстрепе проводится случайный выбор с возвращением, выбранные элементы исходной выборки возвращается в выборку и далее могут быть снова выбраны.

Формально на каждом шаге мы выбираем элемент исходной выборки с вероятностью 1/n .

Всего имеем n элементов исходной выборки, вероятность получить выборку с номерами (N 1 … Nn ), где Ni меняется от 0 до n описывается полиномиальным распределением.

Таких выборок генерируется несколько тысяч, что вполне достижимо для современных компьютеров.

Для каждой выборки строится оценка интересующей величины, далее оценки усредняются.

Так как выборок много, можно построить эмпирическую функцию распределения оценок, далее рассчитать квантили, вычислить доверительный интервал.

Ясно, что бутстреп метод является модификацией метода Монте-Карло.

Если выборки генерируются без возвращения элементов, то получается известный метод складного ножа.

Вопрос: зачем это делать и когда метод разумно использовать в реальном анализе данных?

В бутстрепе мы не получаем новой информации, но разумно используем имеющиеся данные, исходя из поставленной задачи.

Например, бутстреп можно использовать для малых выборок, для оценок медианы, корреляций, построения доверительных интервалов и в других ситуациях.

В исходной работе Эфрона рассматривались оценки парной корреляции для размера выборки n = 15.

Генерируется B = 1000 бутстреп выборок (bootstrap replication ).

На основе полученных коэффициентов ro 1 … ro В строится общая оценка коэффициента корреляции и оценка стандартного отклонения.

Стандартная ошибка выборочного коэффициента корреляции, вычисленная с помощью нормального приближения, имеет вид:

где коэффициент корреляции равен 0.776, размер исходной выборки n = 15.

Бутстреп оценка стандартной ошибки равна 0.127, см. Efron , Gall Gong , 1982.

Теоретический бэкграунд

Пусть - целевой параметр исследования, например, средний доход в выбранном обществе.

По произвольной выборке размера получаем набор данных Пусть соответствующая выборочная статистика -

Для большинства выборочных статистик при большом значении (>30) выборочное распределение представляется из себя нормальную кривую с центром и стандартным отклонением , где положительный параметр зависит от популяции и вида статистики

Этот классический результат известен как центральная предельная теорема.

Зачастую при оценке требуемого стандартного отклонения по данным возникают серьезные технические трудности.

Например, если медиана или выборочная корреляция .

Метод бутстрепа позволяет обойти эти трудности.

Идея простая: обозначим через произвольную величину, представляющую собой такую же статистику, вычисленную по бутстреп-выборке, которая получена из исходной выборки

Что можно сказать про выборочное распределение , если “исходная” выборка фиксирована?

В пределе выборочное распределение также является колоколообразным с параметрами и

Таким образом, бутстреп-распределение хорошо аппроксимирует выборочное распределение

Заметим, что когда мы переходим от одной выборки к другой, в выражении меняется только , так как вычислена по

По сути это является бутстреп версией центральной предельной теоремы.

Также было установлено, если предельное выборочное распределение статистической функции не включает в себя неизвестные по популяции, бутстреп-распределение позволяет получить более хорошее приближение к выборочному распределению, чем центральная предельная теорема.

В частности, когда статистическая функция имеет вид где через обозначена истинная, или выборочная оценка стандартной ошибки при этом предельное выборочное распределение обычно стандартное нормальное.

Этот эффект получил название коррекции второго порядка с помощью бутстреппинга.

Пусть т.е. среднее по популяции, и т.е. среднее по выборке; - стандартное отклонение в популяции, - выборочное стандартное отклонение, вычисленное по исходным данным, а - вычисленное по бутстреп-выборке.

Тогда выборочное распределение величины где , будет аппроксимироваться бутстреп-распределением , где - среднее по бутстреп-выборке, .

Аналогично, выборочное распределение будет аппроксимироваться бутстреп-распределением , где .

Первые результаты по коррекции второго порядка были опубликованы Бабу и Сингхом в 1981-83 годах.

Приложения бутстрепа

Аппроксимация стандартной ошибки выборочной оценки

Предположим, что для популяции известен параметр

Пусть - оценка сделанная на основе случайной выборки размера т.е. это функция от Так как выборка меняется на множестве всех возможных выборок, то для того, чтобы оценить стандартную ошибку используется следующий подход:

Вычислим используя ту же формулу, что использовалась для но на этот раз на основе различных бутстреп-выборок размера каждая. Грубо говоря, можно принять если только не сильно велико. В этом случае можно сократить до n lnn . Тогда можно определить исходя, собственно, из сути бутстреп-метода: популяция (выборка) заменяется эмпирической популяцией(выборкой).

Байесовская коррекция с помощью бутстреп метода

Среднее выборочного распределения часто зависит от обычно как для больших То есть, Байесовская аппроксимация:

где - это бутстреп-копии . Тогда скорректированное значение будет -

Стоит отметить, что предыдущий метод ресэмплинга(замен выборки), называемый методом складного ножа, является более популярным.

Доверительные интервалы

Доверительные интервалы (ДИ) для заданного параметра это основанные на выборке диапазоны .

Этот диапазон обладает тем свойством, что значение с очень высокой (заранее установленной) вероятностью принадлежит ему. Это называется уровнем значимости. Конечно, эта вероятность должна относиться к любой выборке из возможных, т.к. каждая выборка привносит свой вклад в определение доверительного интервала. Два наиболее часто используемых уровня значимости это 95% и 99%. Здесь мы ограничимся значением 95%.

Традиционно ДИ зависят от выборочного распределения величины точнее в пределе . Есть два основных вида доверительных интервалов, которые могут быть построены с помощью бутстрепа.

Метод процентилей

Этот метод уже упоминался во введении, он очень популярен благодаря своей простоте и естественности. Предположим, что у нас есть 1000 бутстреп копий обозначим их через Тогда в доверительный интервал попадут значения из диапазона Возвращаясь к теоретическому обоснованию метода, стоит отметить, что в нем требуется симметрия выборочного распределения вокруг Причина этого заключается в том, что в методе аппроксимируется выборочное распределение с помощью бутстреп-распределения , хотя по логике получается, что оно должно аппроксимироваться значением то есть противоположным по знаку.

Центрированный метод бутстреп-процентилей

Предположим, что выборочное распределение аппроксимируется с помощью бутстреп распределения то есть как изначально и предполагалось в бутстреппинге. Обозначим 100-й процентиль (в бутстреп-повторениях) через Тогда предположение, что значение лежит в диапазоне от до будет верным с вероятностью 95%. Это же выражение легко преобразуется в аналогичное для диапазона от до Этот интервал и называется центрированным доверительным интервалом по бутстреп-процентилям (при уровне значимости 95%).

Бутстреп-t критерий

Как уже было отмечено, в бутстрепе используется функция вида где есть выборочная оценка стандартной ошибки

Это дает дополнительную точность.

В качестве основного примера возьмем стандартную t-статистику (отсюда название метода): то есть частный случай, когда (популяционное среднее), (выборочное среднее) и - выборочное стандартное отклонение. Бутстреп аналогом такой функции является где вычисляется также, как и только по бутстреп-выборке.

Обозначим 100-й бутстреп-процентиль через и будем полагать, что значение лежит в интервале

Используя равенство можно переписать предыдущее утверждение, т.е. лежит в интервале

Этот промежуток называется бутстреп t-доверительным интервалом для при уровне 95%.

В литературе он используется для достижения большей точности, чем предыдущий подход.

Пример реальных данных

Возьмем для первого примера данные из работы Холландера и Вольфе 1999 года, стр. 63, которые представляют собой эффект влияния света на скорость вылупления цыплят.

Стандартный бокс-график предполагает отсутствие нормальности по данным популяции. Мы провели бутстреп анализ медианы и среднего.

Отдельно стоит отметить отсутствие симметрии на бутстреп t-гистограмме, которая отличается от стандартной предельной кривой. 95%-е доверительные интервалы для медианы и среднего (вычисленные с использованием бутстреп метода процентилей), грубо говоря, покрывают диапазон

Этот диапазон представляет общую разницу (нарастание) в результатах скорости вылупления цыплят в зависимости от подсветки.

В качестве второго примера рассмотрим данные из работы Девора (Devore) 2003 г., стр 553, в которой рассматривалась корреляция между показателем биохимической потребности в кислороде (БПК, BOD) и результатами гидростатического взвешивания (HW) профессиональных спортсменов - футболистов.

Двумерные данные состоят их пар и пары можно произвольно выбирать во время бутстреп ресэмплинга. Например, сначала взять затем и т.д.

На рисунке график ящики-усы показывает отсутствие нормальности для основных популяций. Гистограммы корреляций, вычисленные на основе бутстреп двумерных данных, являются асимметричными (сдвинутыми влево).

По этой причине, центрированный метод бутстреп процентилей является в данном случае более подходящим.

В результате анализа выяснилось, что измерения скоррелированы для как минимум 78% популяции.

Данные для примера 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Данные для примера 2 :

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

В литературе часто предлагаются различные схемы для бутстреппинга, которые могли бы давать достоверные результаты в различных статистических ситуациях.

То, что обсуждалось выше - лишь самые базовые элементы, и других вариантов схем на самом деле очень много. Например, какой метод лучше использовать в случае двухступенчатой выборки или стратифицированной выборки?

Естественную схему в этом случае нетрудно придумать. Бутстрэппинг в случае данных с моделями регрессии вообще привлекает много внимания. Есть два основных метода: в первом ковариации и переменные отклика ресэмплируются вместе (парный бутстреппинг), во втором - бутстреппинг производится по остаткам (остаточный бутстреппинг).

Парный метод остается корректным (в смысле результатов при ) даже если дисперсии ошибок в моделях не равны. Второй метод в этом случае некорректен. Этот недостаток компенсируется тем, что такая схема дает дополнительную точность в оценке стандартной ошибки.

Гораздо сложнее применять бутстреппинг для данных временных рядов.

Анализ временных рядов, однако, является одной из ключевых областей в эконометрике. Здесь можно выделить две основные трудности: во-первых, данные по временным рядам обладают свойством быть последовательно зависимыми. То есть, зависит от , и т.д.

Во-вторых, статистическая популяция со временем меняется, то есть появляется нестационарность.

Для этого разработаны методы, которые переносят зависимость в исходных данных на бутстреп-выборки, в частности, блоковая схема.

Вместо бутстреп выборки сразу строится блок данных, сохраняющий в себе зависимости из исходной выборки.

В области приложения бутстреппинга к разделам эконометрики в настоящий момент проводится довольно много исследований, в целом метод активно развивается.

Метод малых выборок

Основным достоинством метода малых выборок является возможность оценить динамику процесса во времени с сокращением времени на вычислительные процедуры.

Случайным образом отбирают мгновенные выборки в определенные периоды времени объемом от 5 до 20 единиц. Период отбора проб устанавливается опытным путем и зависит от устойчивости процесса, определенной при анализе априорной информации.

Для каждой мгновенной выборки определяют основные статистические характеристики. Мгновенные выборки и их основные статистические характеристики представлены в приложении Б.

Выдвигается и проверяется гипотеза об однородности дисперсии выборок при помощи одного из возможного критерия (критерий Фишера).

Проверка гипотезы об однородности выборочных характеристик.

Для проверки значимости различия между средними арифметическими в 2-х сериях измерений вводят меру G. Расчеты приведены в приложении В

Правило принятия решения формулируется следующим образом:

где tр - значение квантиля нормированного распределения при заданной доверительной вероятности Р, ? = 0,095, n = 10, tр =2,78.

При выполнении неравенства подтверждается гипотеза о том, что разница между выборочными средними не значима.

Поскольку неравенство выполняется во всех случаях, то гипотеза о том, что разница между выборочными средними не значима подтверждается.

Для проверки гипотезы об однородности выборочных дисперсий вводят меру F0 как отношение несмещенных оценок дисперсий результатов 2-х серий измерений. Причем большую из 2-х оценок принимают за числитель и если Sx1>Sx2, то

Результаты расчетов приведены в приложении В.

Затем задаются значениями доверительной вероятности Р и определяют значения F(K1; K2; ?/2) при К1 =n1 - 1 и K2=n2 - 1.

При Р=0,025 и К1=10-1=4 и К2=10-1=4 F (9;9;0,025/2) =4,1.

Правило принятия решения: если F(K1; K2; ?/2)>F0, то гипотеза об однородности дисперсий в двух выборках принимается.

Поскольку условие F(K1; K2; ?/2) > F0 выполняется во всех случаях, то гипотеза об однородности дисперсий принимается.

Таким образом, гипотеза об однородности дисперсий выборок подтверждается, что свидетельствует о стабильности процесса; гипотеза об однородности выборочных средних по методу сравнения средних подтверждается, это означает, что центр рассеивания не изменился и процесс находится в стабильном состоянии.

Метод точечных и точностных диаграмм

В течение определенного времени берут мгновенные выборки, объемом от 3 до 10 изделий и определяют статистические характеристики каждой выборки.

Полученные данные наносят на диаграммы, по оси абсцисс которых отложено время? или номера k выборок, а по оси ординат - индивидуальные значения хк или значение одной из статистических характеристик (выборочное среднее арифметическое, выборочное среднее квадратическое отклонение). Кроме того, на диаграмме проводят две горизонтальные линии Тв и Тн, ограничивающие поле допуска изделия.

Мгновенные выборки приведены в приложении В.


Рисунок 1 точностная диаграмма

Диаграмма наглядно отображает ход производственного процесса. По ней можно судить о том, что производственный процесс является нестабильным