close

Вход

Забыли?

вход по аккаунту

?

Solov'eva Starozhilova Teoriya veroyatnostej i matem statistika Tsh1 variacionnye ryady proverka statist gipotez

код для вставкиСкачать
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ
БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ
Л. А. Соловьева, О. В. Старожилова
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
ЧАСТЬ 1. ВАРИАЦИОННЫЕ РЯДЫ, ПРОВЕРКА
СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Учебное пособие
Самара - 2015
ФЕДЕРАЛЬНОЕ АГЕНСТВО СВЯЗИ
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
«ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ»
Кафедра высшей математики
Л.А.СОЛОВЬЕВА, О.В.СТАРОЖИЛОВА
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
(ЧАСТЬ 1 ВАРИАЦИОННЫЕ РЯДЫ, ПРОВЕРКА
СТАТИСТИЧЕСКИХ ГИПОТЕЗ)
Учебное пособие
Самара
2015
2
519.2
С 603
Старожилова, О.В.
Теория вероятностей и математическая статистика (Часть 1 Вариационные ряды,
проверка статистических гипотез)//Л.А.Соловьева, О.В.Старожилова.- Самара: ИНУЛ
ПГУТИ, 2015.-141с.
В учебное пособие входят разделы высшей математики: математическая статистика,
вариационные ряды, проверка статистических гипотез. Пособие знакомит
формами
представления и описания данных в математической статистике, содержит общие
методические указания, конкретные рекомендации по всем темам курса.
Рекомендуется для студентов 2 курса дневной формы обучения направления
подготовки 080500 – Бизнес-информатика, 080200 – Информационный менеджмент, 222000
– Управление инновациями, а также для специалистов, желающих изучать высшую
математику и статистику самостоятельно.
Каждый раздел заканчивается контрольными вопросами, которые помогут проверить
теоретическое освоение курса, содержит большое количество задач для самостоятельного
решения и ответы для проверки.
© ,Соловьева Л.А., Старожилова О.В. , 2015
3
Оглавление
1 Математическая статистика ..................................................................................... 6
Контрольные вопросы ................................................................................................. 8
1.1 Виды выборки ......................................................................................................... 8
1.2 Вариационные ряды ............................................................................................... 11
1.3 Способы отбора ...................................................................................................... 13
1.4 Табличное представление статистических данных ............................................ 15
1.5 Интервальный вариационный ряд ........................................................................ 18
1.6 Графическое представление статистических данных......................................... 23
Контрольные вопросы ................................................................................................. 28
1.7 Обработка первичной статистической информации в интерактивной среде .. 29
1.8 Выборочная функция распределения ................................................................... 35
1.9 Использование электронных таблиц для построения выборочных функций
распределения ............................................................................................................... 40
Задачи для самостоятельного решения ...................................................................... 43
2. Числовые характеристики вариационного ряда .................................................... 48
2.1 Статистические характеристики дискретного ряда ............................................ 51
2.2 Меры разброса опытных данных .......................................................................... 52
2.3 Начальные и центральные моменты вариационного ряда ................................. 62
2.4 Использование электронных таблиц для вычисления выборочных характеристик
........................................................................................................................................ 66
Задания для самостоятельной работы ........................................................................ 67
2.5 Использование электронных таблиц для обработки данных тестирования ..... 69
Контрольные вопросы ................................................................................................. 72
Задачи для самостоятельного решения ...................................................................... 73
3.Характеристика основных законов распределения ............................................... 79
3.1 Биноминальное распределение ............................................................................. 79
3.2 Распределение Пуассона ....................................................................................... 80
3.3 Равномерное распределение.................................................................................. 81
3.4 Показательное распределение............................................................................... 82
3.5 Нормальное распределение ................................................................................... 82
3. 6 Распределение 2 (хи-квадрат) ........................................................................... 84
3.7 t - распределения Стьюдента................................................................................. 85
3.8 Распределение Фишера-Снедекора (F) ................................................................ 86
3.9 Использование электронных таблиц для построения распределений .............. 87
3.10 Генерация случайных величин ........................................................................... 89
Задание для самостоятельной работы ........................................................................ 90
4 Проверка статистических гипотез ........................................................................... 94
4.1 Критическая область .............................................................................................. 98
Задачи для самостоятельного решения ...................................................................... 100
4.2 Сравнение выборочной средней с математическим ожиданием ....................... 100
Задачи для самостоятельного решения ...................................................................... 105
4.3.Сравнение двух дисперсий .................................................................................... 107
Задачи для самостоятельного решения ...................................................................... 109
4.4 Сравнение двух математических ожиданий ....................................................... 112
Задачи для самостоятельного решения ...................................................................... 117
4
5 Критерий Пирсона..................................................................................................... 119
5.1 Проверка гипотезы о распределении генеральной совокупности по биномиальному
закону............................................................................................................................. 124
5.2 Проверка гипотезы о распределении генеральной совокупности по нормальному
закону............................................................................................................................. 128
5.3 Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
........................................................................................................................................ 130
Контрольные вопросы ................................................................................................. 131
Задачи для самостоятельного решения ...................................................................... 132
6 Статистические оценки............................................................................................. 134
6.1 Метод наибольшего правдоподобия .................................................................... 136
Задачи для самостоятельного решения ...................................................................... 142
6.2 Метод моментов ..................................................................................................... 142
Контрольные вопросы ................................................................................................. 146
Задачи для самостоятельного решения ...................................................................... 147
Глоссарий ...................................................................................................................... 148
Список основных формул ........................................................................................... 153
Приложение 1Таблица значений функции
Приложение 2 Таблица значений t
x
1
2
x
e
z2
2 dz
............................ 155
0
t , n ............................................................. 157
Приложение 3 Критические точки распределения 2 ............................................ 158
Приложение 4 Критические точки распределения Стьюдента ............................... 159
Список литературы ...................................................................................................... 160
5
1 Математическая статистика
Математическая статистика изучает различные методы сбора, обработки и осмысления
результатов многократно повторяемых случайных событий. Понятие случайного события
определяется в теории вероятностей, обработка результатов также производится при помощи
теоретически разработанных вероятностных методов.
Для процесса построения и применения моделей характерно, чем больше данных, тем
точнее, адекватнее модель. О современной математической статистике можно говорить как о
науке принятия решений в условиях неопределенности.
 Определение Математическая статистика – раздел математики, занимающейся
установлением закономерностей, которым подчинены массовые случайные явления, на
основе обработки статистических данных, полученных в результате наблюдений.
Двумя основными задачами математической статистики являются:
- определение способов сбора и группировки этих статистических данных;
- разработка методов анализа полученных данных в зависимости от целей
исследования, к которым относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения;
оценка параметров распределения, вид которого известен; оценка зависимости от других
случайных величин и т.д.;
б) проверка статистических гипотез о виде неизвестного распределения или о значениях
параметров известного распределения.
Для решения этих задач необходимо выбрать из большой совокупности однородных
объектов ограниченное количество объектов, по результатам изучения которых можно
сделать прогноз относительно исследуемого признака этих объектов.
Во многих своих разделах математическая статистика опирается на теорию
вероятностей, позволяющую оценить надѐжность и точность выводов, делаемых на
основании ограниченного статистического материала (например, оценить необходимый
объѐм выборки для получения результатов требуемой точности при выборочном
обследовании).
Математическая статистика подразделяется на две основные области: описательную и
аналитическую статистику.
Описательная статистика охватывает методы описания статистических данных,
представления их в форме таблиц, распределений.
Описательная статистика есть совокупность эмпирических методов, используемых
для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы,
диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной
природе данных. Некоторые методы описательной статистики предполагают использование
возможностей современных компьютеров.
Аналитическая статистика или теория статистических выводов ориентирована на
обработку данных, полученных в ходе эксперимента, с целью формулировки выводов,
имеющих прикладное значение для самых различных областей человеческой деятельности.
Статистический подход – это выявление закономерной изменчивости на фоне
случайных факторов и причин. Методы математической статистики позволяют оценить
параметры имеющихся закономерностей, проверить те или иные гипотезы об этих
закономерностях.
Связь математической статистики с теорией вероятностей имеет в разных случаях
различный характер. Теория вероятностей изучает не любые массовые явления, а явления
случайные и именно «вероятностно случайные», т. е. такие, для которых имеет смысл
говорить о соответствующих им распределениях вероятностей. Теория вероятностей играет
определенную роль и при статистическом изучении массовых явлений любой природы,
6
которые могут не относиться к категории вероятностно случайных. Это осуществляется
через основанные на теории вероятностей теорию выборочного метода и теорию ошибок. В
этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а
приемы их исследования.
В математической статистике применяют избирательный подход.
Пример
Имеется партия деталей, качественным признаком может служить стандартность
детали, а количественным — контролируемый размер детали.
Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов
совокупности относительно признака, которым интересуются. На практике, однако,
сплошное обследование применяется сравнительно редко.
Например, если совокупность содержит очень большое число объектов, то провести
сплошное обследование физически невозможно. Если обследование объекта связано с его
уничтожением или требует больших материальных затрат, то проводить сплошное
обследование практически не имеет смысла. В таких случаях случайно отбирают из всей
совокупности ограниченное число объектов и подвергают их изучению.
Методы оценивания и проверки гипотез опираются на вероятностные модели
происхождения данных. Эти модели делятся на параметрические и непараметрические. В
параметрических моделях предполагается, что характеристики изучаемых объектов
описываются посредством распределений, зависящих от (одного или нескольких) числовых
параметров. Непараметрические модели не связаны со спецификацией параметрического
семейства для распределения изучаемых характеристик. В математической статистике
оценивают параметры и функции от них, представляющие важные характеристики
распределений (например, математическое ожидание, медиана, стандартное отклонение,
квантили и др.), плотности и функции распределения и пр. Используют точечные и
интервальные оценки. Обычно совокупность исследуется относительно некоторого
качественного или количественного признака, характеризующего эти объекты. Определим
основные понятия математической статистики.
Исходным понятием статистики является понятие совокупность, объединяющее обычно
какое-либо множество испытуемых по одному или нескольким интересующим признакам.
Главное требование к выделению изучаемой совокупности — это ее качественная
однородность, например, по уровню знаний, росту, весу и другим признакам.
Применение большинства статистических методов основано на идее использования
небольшой случайной совокупности испытуемых из общего числа тех, на которых можно
было бы распространить (генерализовать) выводы, полученные в результате изучения
совокупности.
Эта небольшая совокупность в статистике называется выборочной совокупностью (или
короче — выборкой). Главный принцип формирования выборки — это случайный отбор
испытуемых из мыслимого множества, называемого генеральной совокупностью.
 Определение Генеральная совокупность – совокупность всех возможных
наблюдений, проводимых в одинаковых условиях над некоторой случайной величиной.
В математической статистике понятие генеральной совокупности трактуется аналогично
понятию случайной величины как совокупность всех мыслимых наблюдений, которые могли
бы быть произведены при данном реальном комплексе условий.
 Определение Выборочной совокупностью, или просто выборкой, называют
совокупность случайно отобранных объектов.
7
 Определение Объем генеральной совокупности N и объем выборки n – число
объектов в рассматриваемой генеральной и выборочной совокупности.
k
nk
n,
i 1
где случайная величина X принимает в выборке значение x1 - n1 раз, x2 - n2 раз, …, xn - nn
раз.
Из статистических соображений рекомендуется, чтобы объем выборки составлял не менее
30—35.
 Определение Ранжирование - расположение выборочных наблюдѐнных значений
случайной величины в порядке неубывания.
Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной
совокупности выносить суждение о свойствах в целом.
Пример Из 1000 деталей отобрано для обследования 100 деталей, то объем
генеральной совокупности N 1000 , а объем выборки n 100 .
 Определение Исследуемый признак генеральной совокупности является дискретным,
если он принимает отдельные, изолированные возможные значения с определѐнными
вероятностями.
 Определение Исследуемый признак генеральной совокупности является
непрерывным, если он может принимать все значения из некоторого конечного или
бесконечного промежутка.
По всякой ли выборке можно достаточно уверенно судить о генеральной совокупности?
Случайная выборка строится таким образом, что
каждый объект генеральной совокупности имеет одинаковую вероятность быть
отобранным;
объекты выбирают независимо друг от друга.
случайность гарантирует надежность.
Контрольные вопросы
1.
2.
3.
4.
5.
6.
7.
Охарактеризуйте основные разделы математической статистики?
В чем заключается основная идея математической статистики?
Охарактеризуйте соотношение генеральной и выборочной совокупностей
Объясните схему применения методов математической статистики
Укажите перечень основных задач математической статистики
С каких основных блоков состоит применения статистических методов?
Раскройте связь математической статистики с теорией вероятностей.
1.1 Виды выборки
Пусть случайная величина X принимает в выборке значение x1 - n1 раз, x2 - n2 раз,
…, xn - nn раз и
k
nk
n , где n – объем выборки.
i 1

Определение Варианты - наблюдаемые значения x1 , x2 ,…, xn случайной
величины X , принимаемые в выборке n1 раз, n2 раз, …, nn раз.
8

Определение Частоты n1 , n2 ,…, nk –. величины, показывающие, сколько раз
встречается то или иное значение признака.
Частота или вес варианты показывает численность отдельной группы
сгруппированного ряда наблюдаемых данных.

Определение Относительные частоты - отношение частот к объему выборки
ni
wi
n

Замечание Частостями называют частоты, выраженные в процентах или
долях единицы.

Определение Вариационный ряд - последовательность вариант, записанных в
порядке возрастания и соответствующих им частот или относительных частот .

Определение Статистический ряд
последовательность частот или
относительных частот, записанных в порядке возрастания.
xi
x1
x2
…
xk
ni
n1
n2
…
xk
wi
w1
w2
…
wk
В зависимости от методики формирования выборочной совокупности различают
следующие основные виды выборки:
собственно случайную;
механическую;
типическую (стратифицированную, районированную);
серийную (гнездовую);
комбинированную;
 Определение Собственно случайная выборка - выборка генеральная совокупность
которой строго подразделяется на единицы отбора, и затем в случайном повторном или
бесповторном порядке отбирается достаточное число единиц.
Формировать выборку в строгом соответствии с правилами случайного отбора
практически очень сложно, а иногда невозможно, так как при использовании таблиц
случайных чисел необходимо пронумеровать все единицы генеральной совокупности.
Довольно часто генеральная совокупность такая большая, что провести подобную
предварительную работу чрезвычайно сложно и нецелесообразно, поэтому на практике
применяют другие виды выборок, каждая из которых не является строго случайной. Однако
организуются они так, чтобы было обеспечено максимальное приближение к условиям
случайного отбора.
Однако прежде чем производить собственно-случайный отбор, необходимо убедиться,
что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы
попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования
отдельных единиц и т.п. Следует также установить четкие границы генеральной
совокупности таким образом, чтобы включение или невключение в нее отдельных единиц не
вызывало сомнений.
Так, например, при обследовании студентов необходимо указать, будут ли приниматься
во внимание лица, находящиеся в академическом отпуске, студенты негосударственных
вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться,
включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие
подобные объекты.
Собственно-случайный отбор может быть как повторным, так и бесповторным. Для
проведения бесповторного отбора в процессе жеребьевки выпавшие жребии обратно в
9
исходную совокупность не возвращаются и в дальнейшем отборе не участвуют. При
использовании таблиц случайных чисел бесповторность отбора достигается пропуском чисел
в случае их повторения в выбранном столбце или столбцах.
 Определение Механическая выборка - выборка, в которой генеральная совокупность
каким-либо образом упорядочена, т.е. имеется определенная последовательность в
расположении единиц (табельные номера работников, списки избирателей, телефонные
номера респондентов, номера домов и квартир и т.п.).
Генеральную совокупность при механическом отборе можно ранжировать или
упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит
повысить репрезентативность выборки. Однако в этом случае возрастает опасность
систематической ошибки, связанной с занижением значений изучаемого признака (если из
каждого интервала регистрируется первое значение) или с его завышением (если из каждого
интервала регистрируется последнее значение). Поэтому целесообразно отбор начинать с
середины первого интервала
При чисто механической выборке вся генеральная совокупность единиц представлена в
виде списка единиц отбора, составленного в каком-то нейтральном по отношению к
изучаемому признаку порядке, например по алфавиту. Затем список единиц отбора
разбивается на столько равных частей, сколько необходимо отобрать единиц. Далее по
заранее установленному правилу, не связанному с вариацией исследуемого признака, из
каждой части списка отбирается одна единица.
 Определение Типическая (районированная, стратифицированная) выборка –
выборка обеспечивающая представительство в выборке соответствующих типических групп
генеральной совокупности по интересующим исследователя признакам.
При типической выборке до начала ее формирования генеральная совокупность единиц
разбивается на типические группы.
При этом очень важным моментом является правильный выбор группировочного
признака. Выделенные типические группы могут содержать одинаковое или различное число
единиц отбора. В первом случае выборочная совокупность формируется с одинаковой долей
отбора из каждой группы, во втором – с долей, пропорциональной ее доле в генеральной
совокупности.
Если выборка формируется с равной долей отбора, по существу она равносильна ряду
собственно случайных выборок из меньших генеральных совокупностей, каждая из которых
и есть типическая группа. Отбор из каждой группы осуществляется в случайном (повторном
или бесповторном) либо механическом порядке. При типической выборке, как с равной, так
и неравной долей отбора, удается устранить влияние межгрупповой вариации изучаемого
признака на точность ее результатов, так как обеспечивается обязательное
представительство в выборочной совокупности каждой из типических групп.
 Определение Серийная (гнездовая) выборка – это такой вид формирования
выборочной совокупности, когда в случайном порядке отбираются не единицы, подлежащие
обследованию, а группы единиц (серии, гнезда). Внутри отобранных серий (гнезд)
обследованию подвергаются все единицы.
Серийную выборку практически организовать и провести легче, чем отбор отдельных
единиц. Однако при этом виде выборки, во-первых, не обеспечивается представительство
каждой из серий и, во-вторых, не устраняется влияние межсерийной вариации изучаемого
признака на результаты обследования. В том случае, когда эта вариация значительна, она
приведет к увеличению случайной ошибки репрезентативности. При выборе вида выборки
исследователю необходимо учитывать это обстоятельство.
В практике те или иные способы и виды выборок применяются в зависимости от цели и
задач выборочных обследований, а также возможностей их организации и проведения. Чаще
всего применяется комбинирование способов отбора и видов выборки. Такие выборки
10
получили название комбинированные. Комбинирование возможно в разных сочетаниях:
механической и серийной выборки, типической и механической, серийной и собственно
случайной и т. д. К комбинированной выборке прибегают для обеспечения наибольшей
репрезентативности с наименьшими трудовыми и денежными затратами на организацию и
проведение обследования.
1.2 Вариационные ряды
Многие явления, в том числе и экономические, имеют большой объем числовой
информации. Для того, чтобы обработатать и изучить такой большой объем данных,
необходимо сначала каким-то образом его сгруппировать. От того как сгруппировать ряд,
зависит какую информацию можно получить в конечном итоге и какими свойствами
обладают те или иные признаки (варианты).
 Определение Вариационный ряд - сгруппированный ряд числовых данных,
ранжированный в порядке возрастания или убывания, каждая группа которого имеет
определенный вес (или частоту).
Вариационный ряд характеризует распределение единиц определенной статистической
совокупности по какому–либо количественному признаку. Для больших выборок (n 30)
основным методом группировки является построение вариационного ряда.
Первым этапом статистического изучения вариации являются построение вариационного
ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по
убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением
признака.
Выделяют три формы вариационного ряда:
ранжированный ряд,
дискретный ряд,
интервальный ряд.
Вариационный ряд часто называют рядом распределения. Этот термин используется при
изучении вариации как количественных, так и неколичественных признаков. То есть
вариационный ряд – двойной числовой ряд, показывающий, каким образом численные
значения изучаемого признака связаны с их повторяемостью в выборке.
 Определение Ранжированный ряд — это перечень отдельных единиц совокупности в
порядке возрастания (убывания) изучаемого признака.
Определение Дискретный вариационный ряд распределения - ранжированная
совокупность вариант xi c соответствующими им частотами или относительными частотами.
Пример Распределение рабочих по тарифному разряду представлено в
следующей таблице:
Тарифный разряд x i
Частота (кол-во рабочих) ni
1
2
2
3
3
6
4
8
5
22
6
9
50
Пример При проведении 20 серий из 10 бросков игральной кости число выпадений
шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.
Составим вариационный ряд: 0,1,2,3,4,5.
Статистический ряд для абсолютных и относительных частот имеет вид:
11
xi
0
1
2
3
4
5
ni
3
6
5
3
2
1
wi
0,15 0,3
0,25 0,15 0,1 0,05

Определение
Интервальный
вариационный
ряд
упорядоченная
последовательность интервалов варьирования случайной величины с соответствующими
частотами.
Если наблюдаемая случайная величина непрерывна или дискретная величина такова, что
число еѐ возможных значений велико, то для построения вариационного ряда используют
интервальный ряд распределения. В этом случае весь возможный интервал варьирования
разбивают на конечное число частичных интервалов и подсчитывают частоту попадания
значений величины в каждый частичный интервал.
При составлении выборки можно поступать двояко: после того, как объект отобран и над
ним произведено наблюдение, он может быть возвращен, либо не возвращен в генеральную
совокупность.
В соответствии со сказанным, выборки подразделяют на повторные и бесповторные
выборки.
 Определение Повторная выборка – каждый отобранный объект перед выбором
следующего возвращается в генеральную совокупность;
 Определение Бесповторная выборка – отобранный объект в генеральную
совокупность не возвращается.
На практике обычно пользуются бесповторным случайным отбором.

Замечание Для того, чтобы по исследованию выборки можно было сделать выводы о
поведении интересующего признака генеральной совокупности, нужно, чтобы выборка
правильно представляла пропорции генеральной совокупности, то есть была
репрезентативной (представительной).
Определение Репрезентативная выборка – выборка, осуществленная случайныйм
образом,при этом все объекты генеральной совокупности имеют одинаковую вероятность
быть отображенными и отбор одного объекта не влияет на вероятность отбора другого
объекта совокупности.
Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если
каждый объект выбран случайно, причем для любого объекта вероятность попасть в
выборку одинакова.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь
незначительную часть этой совокупности, то различие между повторной и бесповторной
выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная
совокупность, а выборка имеет конечный объем, это различие исчезает.
Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных
генеральных совокупностей.
Пример
Выборка, целиком состоящая из москвичей, владеющих автомобилем, не
репрезентирует все население Москвы.
- Выборка из российских предприятий численностью до 100 человек не
репрезентирует все предприятия России.
Выборка из москвичей, совершающих покупки на рынке, не репрезентирует
покупательское поведение всех москвичей.
В то же время, указанные выборки (при соблюдении прочих условий) могут отлично
репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия
и покупателей, совершающих покупки на рынках соответственно.
12
Требование репрезентативности предполагает, что
совокупности имеют равную вероятность попасть в выборку.
все
элементы
изучаемой
1.3 Способы отбора
Статистическое исследование может быть полным и выборочным. При полном
исследовании измерение интересующего вас признака производится у каждого элемента
совокупности. При этом определяется точное распределение признака.
Как провести выборку, чтобы она наилучшим образом соответствовала генеральной
совокупности, то есть, чтобы выборка была репрезентативной?
Выборка будет репрезентативной, если отбор элементов в выборку производится
случайно. Это означает, что все элементы генеральной совокупности имеют одинаковую
вероятность попасть в выборку. Обеспечить случайность выборки не так просто как кажется.
Ни в коем случае не следует полагаться на свою интуицию, следует подчеркнуть: если
выборка окажется не репрезентативной (ее называют смещенной), то с ростом ее объема
может уменьшаться точность или могут появляться ошибочные выводы. Закон больших
чисел сработает наоборот.
Определение Теория выборки - раздел статистики, в котором изучаются виды
выборок, разрабатываются методики, обеспечивающие репрезентативность выборок,
изучается влияние объема выборки на получаемые результаты.
Очевидна ее важная роль в планировании статистического исследования. На практике
применяются различные способы отбора. Принципиально эти способы можно подразделить
на два вида:
1. Отбор, не требующий расчленения генеральной совокупности на части, сюда
относятся:
 простой случайный бесповторный отбор;
 простой случайный повторный отбор.
2. Отбор, при котором генеральная совокупность разбивается на части, сюда относятся:
 типический отбор;
 механический отбор;
 серийный отбор.
 Определение Простой случайный отбор - отбор, при котором объекты извлекают по
одному из всей генеральной совокупности.
Осуществить простой отбор можно различными способами. Например, для извлечения n
объектов из генеральной совокупности объема N поступают так: пронумеровывают все
объекты генеральной совокупности и выписывают номера от 1 до N на карточках, которые
тщательно перемешивают и наугад вынимают одну карточку; объект, имеющий одинаковый
номер с извлеченной карточкой, подвергают обследованию; затем карточка возвращается в
пачку, и процесс повторяется, т. е. карточки перемешиваются, наугад вынимают одну из них
и т. д. Так поступают n раз; в итоге получают простую случайную повторную выборку
объема n .
Если извлеченные карточки не возвращать в пачку, то выборка будет простой случайной
бесповторной. При большом объеме генеральной совокупности описанный процесс
оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных
чисел», в которых числа расположены в случайном порядке.
Для того чтобы отобрать, например 50 объектов из пронумерованной генеральной
совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд
50 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными
случайными числами.
13
Если бы оказалось, что случайное число таблицы превышает число N , то такое
случайное число пропускают. При осуществлении бесповторной выборки случайные числа
таблицы, уже встречавшиеся ранее, следует также пропустить.
 Определение Типический отбор - отбор, при котором объекты отбираются не из всей
генеральной совокупности, а из каждой ее «типической» части.
Например, если детали изготовляют на нескольких станках, то отбор производят не из
всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка
в отдельности.
Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в
различных типических частях генеральной совокупности.
Например, если продукция изготовляется на нескольких машинах, среди которых есть
более и менее изношенные, то здесь типический отбор целесообразен.
 Определение Механический отбор - отбор, при котором генеральная совокупность
«механически» делится на столько групп, сколько объектов должно войти в выборку, и из
каждой группы отбирается один объект.
Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают
каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую
деталь и т. д. Следует указать, что иногда механический отбор может не обеспечить
репрезентативности выборки.
Например, если отбирается каждый двадцатый обтачиваемый валик, причем сразу же
после отбора производят замену резца, то отобранными окажутся все валики, обточенные
затупленными резцами. В таком случае надо устранить совпадение ритма отбора с ритмом
замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати
обточенных.

Определение Серийный отбор - отбор, при котором объекты отбирают из
генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному
обследованию.
Например, если изделия изготовляются большой группой станков-автоматов, то
подвергают сплошному обследованию продукцию только нескольких станков. Серийным
отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях
незначительно.
На практике часто применяется комбинированный отбор, при котором сочетаются
указанные выше способы.
Например, иногда разбивают генеральную совокупность на серии одинакового объема,
затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии
простым случайным отбором извлекают отдельные объекты.
Под способом отбора понимают порядок отбора единиц из генеральной совокупности.
Различают два способа отбора: повторный и бесповторный. При повторном отборе каждая
отобранная в случайном порядке единица после ее обследования возвращается в
генеральную совокупность и при последующем отборе может снова попасть в выборку. Этот
способ отбора построен по схеме «возвращенного шара»: вероятность попасть в выборку для
каждой единицы генеральной совокупности не меняется независимо от числа отбираемых
единиц. При бесповторном отборе каждая единица, отобранная в случайном порядке, после
ее обследования в генеральную совокупность не возвращается. Этот способ отбора построен
по схеме «невозвращенного шара»: вероятность попасть в выборку для каждой единицы
генеральной совокупности увеличивается по мере производства отбора.
14
1.4 Табличное представление статистических данных
Результаты сводки и группировки материалов статистического наблюдения, как
правило, представляются в виде статистических таблиц - систематизированного,
рационального изложения статистических показателей, наглядно иллюстрирующих все
наиболее важные стороны изучаемых явлений по одному или нескольким существенным
признакам, взаимосвязанным логикой анализа.
После того, как данные собраны, выполняется их обработка, при этом необходимо
обеспечить наглядность представления данных, позволяющую получить какие-то
первоначальные представления об их закономерности. Эта наглядность достигаются путем
построения таблиц и графиков
Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять
из очень большого количества чисел. В этом случае удобнее использовать группированную
выборку.
Для ее получения интервал, в котором заключены все наблюдаемые значения признака,
разбивают на несколько равных частичных интервалов длиной h , а затем находят для
каждого частичного интервала ni – сумму частот вариант, попавших в i -й интервал.
Составленная по этим результатам таблица называется группированным статистическим
рядом. От негрупированной выборки всегда можно перейти к групированной, но не
наоборот.
Группированная форма не содержит информации о каждрм элементе выборки, при этом в
качестве значения случайной величины на каждом интервале принимается его середина.

Определение Числа, показывающие, сколько раз встречаются варианты из данного
интервала, называются частотами, а отношение их к общему числу наблюдений –
относительными частотами. Частоты и относительные частоты называют весами.
 Определение Вариационный
соответствующими весами.
Номера интервалов
Границы
интервалов
Сумма частот вариант,
попавших в интервал
ряд
–
ранжированный
ряд
1
(a, a + h)
2
(a + h, a + 2h)
…
…
k
(b – h, b)
n1
n2
…
nk
вариантов
с
Пример Задано распределение частот выборки объема n = 20:
xi
ni
2
3
6
10
12
7
Написать распределение относительных частот.
Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки:
W1 = 3/20 = 0,15; W2 = 10/20 = 0,50; W3 = 7/20 = 0,35.
Напишем распределение относительных частот:
xi
wi
2
0,15
6
0,50
12
0,35
15
Контроль: 0,15 + 0,50 + 0, 35 = 1.
Пример Составить дискретный вариационный ряд успеваемости студентов, сдавших
экзамен по курсу "Математика и статистика". На курсе 100 человек. Полученные студентами
оценки представляют собой следующий набор чисел:
5 3 4 5 4 3 5 4 2 4 5 4 4 3 3 4 2 5 4 5
3 4 3 3 4 5 4 5 3 4 5 4 4 5 2 3 5 4 5 4
3 4 4 4 5 5 4 3 4 5 5 4 5 4 3 5 2 4 4 4
3 5 4 2 5 4 5 3 5 4 5 4 4 5 2 3 5 4 5 4
5 5 3 5 4 3 3 4 5 4 5 4 3 5 3 4 5 4 5 4
Решение
Полученные сведения образуют выборку или статистический ряд. Выборку надо
"организовать". Расположим наблюдавшиеся значения признака (оценки) в порядке
возрастания (ранжирование).
Оценка принимает дискретные значения от 2 до 5. Ранжированный ряд удобно
представлять в табличной форме в виде дискретного вариационного ряда
Частота признака m x - величина, показывающая, сколько раз встречается то или иное
значение признака.
Относительная частота w x - отношение частоты m x к общему объему выборки n :
mx
mx
x
n
mx
Наряду с понятиями частоты и относительной частоты, в математической статистике
рассматриваются понятия накопленной частоты m xнак и накопленной относительной
частоты нак
которые показывают, во скольких наблюдениях признак принял значения не
x
больше заданного значения x :
m xнак
нак
m xнак
mx ,
x
n
Оценка (х)
2
3
4
5
Итого
Доля
Количество
студентов
студентов
(относительна
(частота m x )
я частота x )
6
0,06
20
0,2
40
0,4
34
0,34
100
1,0
Накопленн Накопленная
ая частота относительная
частота нак
m xнак
x
6
26
66
100
-
0,06
026
0,66
1
-
16
Пример На телефонной станции проводились наблюдения над числом Х
неправильных соединений в минуту. Наблюдения в течение часа дали следующие
результаты: 3,1,3,1,4,2,2,4,0,3,0,2, 2,0,2,1,4,3,3,
1,4,2,2,1,1,2,1,0,3,4,1,3,2,7,2,0,0,1,3,3,1,2,4,2,0,2,3,1,2,5,1,1,0,1,1,2, 2,1,1,5.
Составить дискретный вариационный ряд.
Решение
Построим ранжированный ряд данных наблюдений:
0,0,0,0,0,0,0,0
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2
3,3,3,3,3,3,3,3,3,3
4,4,4,4,4,4, 5,5,7
Получили 7 вариантов 0,1,2,3,4,5,7.
x1=0, x2=1, x3=2, x4=3, x5=4, x6=5, x7=7
Частота каждого варианта:m1=8, m2=17, m3=16, m4=10, m5=6, m6=2, m7=1.
7
Общая сумма всех частот
mi
60 .
i 1
Относительная частота каждого варианта pi
mi
7
mi
7
mi
, где
n
n объем выборки.
mi
i 1
i 1
Составим дискретный вариационный ряд:
индекс
число неправильныхсоединений
в минуту
частота
i
1
2
3
4
5
6
7
xi
0
1
2
3
4
5
7
mi
8
17
16
10
6
2
1
относительная частота
pi
8
60
17
60
16
60
10
60
6
60
2
60
1
60
Пример Наблюдается число выигрышей в мгновенной лотерее. В результате
наблюдения
получены
следующие
значения
выигрышей
(тыс.руб.):
0,1,0,0,5,0,1,0,0,1,0,0,1,5,1,0,0,0,1,0,1,0,0,0,5,5,0,5,0,
0,1,
1,1,5,10,0,1,1,0,5,0,0,0,0,1,0,1,0,5,0,0,0,0,1,0.
Составить вариационный ряд случайной величины Х – выигрыша в мгновенной
лотереи.
Ответ:
xi
0
1
5
10
pi
30
54
14
54
8
54
2
54
Пример В супермаркете проводились наблюдения над числом Х покупателей,
обратившихся в кассу за один час. Наблюдения в течение 30 часов (15 дней в период с 9 до10
и с 10 до 11 часов) дали следующие результаты: 70,75,100,120,75,60,100,120,70,60,
65,100,65,100,70,75,60,100,100,120,70,75,70,120,65,701,75,70,100, 100. Число покупателей Х
является дискретной случайной величиной, а полученные данные представляют собой
выборку из n=30 наблюдений.
17
Требуется составить ряд распределения частот (вариационный ряд).
Ответ:
xi
60 65 70 75 100 120
pi
3
30
3
30
7
30
5
30
8
30
4
30
1.5 Интервальный вариационный ряд
В случае непрерывной случайной величины рассматривают не дискретные значения
признака, а их значения в пределах определенного интервала. В качестве частоты при таком
подходе выступает количество случаев, в которых признак принял значения, входящие в
некоторый интервал.
Такую величину называют интервальной частотой и обозначают тh (соответственно
рассматривается также и интервальная относительная частота wh ).
Полученный таким образом ряд называют интервальным вариационным рядом.
Интервальный вариационный ряд строят не только на основе наблюдений за
непрерывно меняющимся признаком.
Во многих случаях, когда признак варьирует дискретно, однако число наблюдений
достаточно велико, удобнее как раз строить интервальный ряд.
Для построения интервального ряда необходимо установить величину интервала h. Она
должна быть такой, чтобы ряд был не слишком громоздким и не отвлекал внимание на
частности, и, в то же время, обеспечивал выявление характерных черт и закономерностей
исследуемых явлений.
 Определение Вариационный размах – разность между наибольшим и наименьшим
вариантами ряда
R
x max
x min
Определение Группировка - разбиение вариантов на различные интервалы.
Число интервалов может быть найдено по формуле Стерджеса
m 1 3,322 lg n ,
где n -объѐм выборки

Определение Ширина интервала – число, вычисленное по формуле

xmax
h
xmin
m
где xmax и xmin - минимальное и максимальное значения случайной величины соответственно.
Когда величина интервала h выбрана, строят шкалу интервалов.
При этом за верхнюю границу первого интервала принимают обычно величину
a1 xmin h / 2
Верхняя граница каждого последующего интервала определяется добавлением к
верхней границе предыдущего значения интервала h
aj
aj
1
h,
( j
2 ,3...)
до тех пор, пока начало очередного интервала не окажется больше xmax .
Затем все значения признака, входящие в выборку, распределяются между
соответствующими интервалами, и строится интервальный вариационный ряд.
18
Пример Студенты некоторого факультета, состоящего из 100 человек, написали
выпускную контрольную работу. Каждый студент набрал определенное количество баллов.
Приведем эти баллы (в порядке алфавитного списка студентов):
64
59
76
59
59
11
89
76
55
87 65
99
94
78
34
89
42
91 41
99
49
66
57
79
65
94
67
38
68
85
51
78
38
87
43
49
58
33
53
75
28
67
37
50
98 56
71
83
68
58
82
67
57
72
59 86
51
64
70
53
32
56
57
69 87
82
67
37
74
39
84
99
47
57
96
66
46
72
54
75
47
79 61
67
70
24
73
40
58
78 75
6
10
0
33
7
10
4
10
3
11
0
11
5
87
65
51
Решение
В таблице подчеркнуты максимальное и минимальное значения признака.
Величина интервала (ширина интервала) вычисляется тогда по формуле
x max x min
h
,
1 3,322 lg n
где n-объѐм выборки, а xmax и xmin - минимальное и максимальное значения случайной
величины соответственно.
Величина интервала h = 12.
Тогда
a1
xmax
h
2
24 6 30 ;
a2 a1 h 30 12 42 ; a3 a2 h 54 .
Результаты построения интервального вариационного ряда по приведенным объемам
выпуска ДСП представлены:
19
Верхняя Частота Относительн Накопленн Накопленная
граница
ая частота ая частота относительная
mx
интервала
частота нак
m xнак
x
x
а
30
2
0,02
2
0,02
42
12
0,12
14
0,14
54
13
0,13
27
0,27
66
23
0,23
50
0,50
78
24
0,24
74
0,74
90
12
0,12
86
0,86
102
9
0,09
95
0,95
114
3
0,03
98
0,98
126
2
0,02
100
1,00
Итого
100
1
Пример Необходимо изучить изменение выработки на одного рабочего
механического цеха в отчѐтном году по сравнению с предыдущим. Получены следующие
данные о распределении 100 рабочих цеха по выработке в отчѐтном году (в % к
предыдущему году):
97,8 97,0 101,7 132,5 97,6 105,1 104,2 103,1 100,1 101,3 106,1 107,2 107,3 108 108,4 10,9
109,5 110,1 110,9 111 112,1 112,3 113,2 113,5 114,1 114,5 115,6 115,8 117,2 118,2 117,8 117,6
117,5 116,3 114,4 115,7 113,2 114,1 115,2 116,3 117,8 118,1 118,1 118,2 118,3 119,3 119,5 119,6
119,7 120 150,1 120,2 120,3 120,4 120,5 120,6 120,7 120,7 121 121,4 121,5 121,7 121,8 122 122,3
123,7 123,8 123,8 124,1 124,2 124,3 124,5 125,2 125,7 125,8 125,9 126,3 126,7 126,8 127,2 128,3
128,4 129,1 129,3 129,4 129,5 129,7 142,3 104,2 141,0 122,1 130,2 130,3 131,3 131,4 132,5 132,6
133,4 133,5 134,6 135,9
(100 значений). Составить интервальный вариационный ряд.
Решение
Найдем минимальное и максимальное значение варианты
xmin =97,0; xmax =141,0
Для определения величины интервала h используем формулу Стэрджеса:
141 97
h
5,74% ,
1 3,322 lg 100
выбираем h 6 .
x нач = x наим – h/2=97 – 6/2=94
Интервальный вариационный ряд:
i
Выработка в отчѐтном
году в% к предыдущему
интервалы
( xi ; xi 1]
Частота
(кол-во
рабочих) mi
1
2
3
4
94,0 - 100
100-106
106-112
112-118
3
7
11
20
Относительн
ая частота
(доля
рабочих)
pi mi / n
0,03
0,07
0,11
0,2
Накопленн
ая частота
нак
mi
Накопленна
я частость
нак
pi
3
10
21
41
0,03
0,1
0,21
0,41
20
5
6
7
8
Σ
118-124
124-130
130-136
136-142
28
19
10
2
100
0,28
0,19
0,1
0,02
1
69
88
98
100
0,69
0,88
0,98
1
Накопленная частота показывает, сколько наблюдалось вариантов со значением признака,
меньшим x.
нак
Отношение накопленной частоты mi
к общему числу наблюдений n назовѐм
нак
накопленной частостью p i .
Накопленные частоты (частости) для каждого интервала находятся последовательным
суммированием частот (частостей) всех предшествующих интервалов, включая данный.
Например, для x=124 накопленная частота
нак
mi =3+7+11+20+28=69,
то есть 69 рабочих имели выработку, меньшую 124%.
Пример Приведены данные о размерах вкладов 20 физических лиц в одном банке
(тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Построить интервальный вариационный ряд с равными интервалами.
Решение:
1. Исходная совокупность состоит из 20 единиц (n = 20).
2. По формуле Стерджесса определим необходимое количество используемых групп:
m=1+3,322*lg20=5
3. Вычислим величину равного интервала:
h=(152 — 2) /5 = 30 тыс.руб
4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
5. Результаты группировки представим в таблице:
Размер вкладов
Число вкладов Число вкладов в % к итогу
тыс.руб Xi
fi
Wi
2 — 32
11
55
32 — 62
4
20
62 — 92
2
10
92 — 122
1
5
122 — 152
2
10
20
100
Итого:
При такой записи непрерывного признака, когда одна и та же величина встречается
дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта
величина относится к той группе, где эта величина выступает в роли верхней границы.
Пример В таблице приведена выборка результатов измерения роста 105 студентов
(юношей). Измерения проводились с точностью до 1 см.
155
173
178
183
170
155
170
170
183
178
178
169
185
183
180
180
183
186
180
175
197
178
170
179
188
173
178
163
178
189
152
170
181
166
181
155
173
183
187
178
173
174
178
175
168
175
168
179
178
180
174
182
185
179
168
175
179
190
175
169
185
192
184
167
170
154
21
174
188
178
173
171
168
175
168
184
179
183
186
175
178
190
176
193
183
167
171
178 184 180 196 175 168
184 178 181 177 163 169
170 178 183 170 178 190
188
Требуется составить интервальный вариационный ряд.
Ответ:
Интервалы
Относит. частота
15-20
0,08
20-25
0,14
25-30
0,18
30-35
0,30
35-40
0,10
40-45
0,14
45-50
0,06
 Замечание: Под распределениями понимают в математической статистике —
соответствие между наблюдаемыми вариантами и их частотами.
Пример При измерении диметра валиков после шлифовки получены следующие
результаты:
6,75
6,73
6,77
6,77
6,78
6,76
6,76
6,71
6,72
6,77
6,77
6,78
6,77
6,77
6,76
6,80
6,76
6,77
6,7
6,68
6,75
6,78
6,74
6,77
6,82
6,76
6,77
6,7
6,73
6,81
6,77
6,77
6,74
6,76
6,77
6,73
6,74
6,76
6,74
6,75
6,77
6,78
6,7
6,81
6,76
6,76
6,76
6,75
6,75
6,73
6,81
6,73
6,77
6,7
6,75
6,77
6,74
6,78
6,8
6,78
6,81
6,74
6,76
6,76
6,76
6,78
6,76
6,77
6,76
6,75
6,7
6,77
6,74
6,74
6,72
6,8
6,73
6,74
6,74
6,76
6,76
6,74
6,71
6,81
6,75
6,74
6,74
6,74
6,72
6,74
6,76
6,76
6,7
6,76
6,73
6,77
6,77
6,8
6,82
6,78
6,75
6,76
6,7
6,71
6,77
6,74
6,77
6,74
6,78
6,7
6,8
6,77
675
6,76
674
6,76
6,8
6,74
6,75
6,71
6,78
6,76
6,75
6,74
6,8
6,75
6,72
6,72
6,78
6,74
6,77
6,74
6,74
6,8
6,78
6,76
6,72
6,76
6,76
6,8
6,77
6,76
6,73
6,69
6,76
6,69
6,76
6,74
6,73
6,75
6,71
6,7
6,76
6,77
6,81
6,82
6,72
6,74
6,78
6,82
6,73
6,76
6,74
6,77
6,77
6,75
6,76
6,74
6,75
6,72
6,79
6,69
6,77
6,78
6,75
6,73
6,73
6,76
6,7
6,71
6,77
6,72
6,77
6,72
6,74
6,7
Составить интервальный вариационный ряд.
Ответ:
6,67-6,69
Интервалы
Относит.
0,010
частота
6,77 –
Интервалы 6,79
Относит.
0,220
частота
6,69 –
6,71
6,71 –
6,73
6,73 –
6,75
6,75 –
6,77
0,075
0,085
0,220
0,260
6,79 –
6,81
6,81 –
6,83
6,83 –
6,85
0,070
0,055
0,005
22
Пример В городе А для определения сроков гарантийного обслуживания проведено
исследования величины среднего пробега автомобилей, находящихся в эксплуатации в
течении двух лет с момента продажи автомобиля магазином.
Получен следующий результат (тыс.км.): 3,0; 25,0; 18,6; 12,1; 10,6; 18,0; 17,3; 29,1; 20,0;
18,3; 21,5; 26,7; 12,2; 14,4; 7,3; 9,1; 2,9; 5,4; 40,1; 16,8; 11,2; 9,9; 25,3; 4,2; 29,6.
Составить интервальный вариационный ряд.
1.6 Графическое представление статистических данных
Для наглядного представления о поведении исследуемой случайной величины в выборке
можно строить различные графики. Наиболее часто используют следующие виды
графического представления характеристик выборки: полигон, гистограмма и кумулятивная
кривая. Гистограмма и полигон позволяют выявить преобладающие значения признака и
характер распределения частот и относительных частот.
 Определение Полигон - ломаная линия с координатами xi , mx где xi откладываются
на оси абсцисс, а m x , – на оси ординат.
Если на оси ординат откладывать не абсолютные, а относительные ( wi ) частоты, то
получим полигон относительных частот.
Полигон служит обычно для представления дискретного вариационного ряда. В системе
координат ( x , m x ) строятся точки, соответствующие значениям частот или относительных
частот ряда, а затем эти точки соединяются прямыми линиями.
Пример полигона частот для ряда.
50
Частота mx
40
30
20
10
0
2
3
4
5
Оценка х
 Определение Гистограмма – прямоугольники, с основаниями, равными
интервалам значений признака и высотами, равными частотам.
Полигон (гистограмма) аналогичны кривой распределения, эмпирическая функция
распределения – функции распределения случайной величины.
Гистограмма — это диаграмма, используемая, как правило, для представления
интервального вариационного ряда. Для еѐ построения на оси х откладывают отрезки
частичных интервалов варьирования и на этих отрезках, как на основаниях, строят
прямоугольники с высотами, равными частотам mi, или относительным частотам
соответствующих интервалов pi, или выборочным оценкам плотности вероятности pi/h, где hдлина каждого интервала.
30
25
mh
20
15
10
5
0
30
42
54
66
78
aj
90
102
114
126
23
Наиболее существенное отличие от полигона в том, что частота и относительная
частота отображаются не точкой, а прямой, параллельной оси абсцисс на всем интервале.
Это объясняется тем, что данная частота (относительная частота) относится не к
дискретному значению признака, а ко всему интервалу.
Любой вариационный ряд можно изобразить графически в виде кривой накопленных
частот — кумуляты.
Определение Кумулятивная кривая (кривая сумм) — ломаная, составленная по
последовательно суммированным, т.е. накопленным частотам или относительным частотам.
При построении кумулятивной кривой дискретного признака на ось абсцисс наносятся
значения признака, а ординатами служат нарастающие итоги частот. Соединением вершин
ординат прямыми линиями получают кумуляту.
При построении кумуляты интервального признака на ось абсцисс откладываются
границы интервалов и верхним значениям присваивают накопленные частоты.
Кумулятивную кривую называют полигоном накопленных частот.
120
100
mhнак
80
60
40
20
0
30
42
54
66
78
90
102
114
126
aj
По аналогии с функцией распределения случайной величины можно задать
некоторую функцию, относительную частоту события X x . Кумулятивная кривая, то же,
что график функции распределения.
Графическое изображение вариационных рядов в виде полигона, гистограммы и
кумуляты позволяет получить первоначальное представление о закономерностях, имеющих
место в совокупности наблюдений.
Для дискретного ряда кумулята представляет ломаную, соединяющую точки (xi,miнак) или
(xi,piнак). Для интервального вариационного ряда ломаная начинается с точки, абсцисса
которой равна началу первого интервала, а ордината – накопленной частоте, равной 0.
Другие точки этой ломаной соответствуют концам интервалов.
Пример
Используя данные таблицы:
индекс
число
неправильных
соединений в
минуту
частота
относительная
частота
i
1
2
3
4
5
6
7
xi
0
1
2
3
4
5
7
mi
8
17
16
10
6
2
1
pi
8
60
17
60
16
60
10
60
6
60
2
60
1
60
24
Построить полигон частот, полигон относительных частот и кумуляты частот и
относительных частот.
Решение
Отложим на оси ох варианты хi, а на оси ординат – соответствующие им частоты mi.
Соединив точки (xi,mi) отрезками прямых, получим искомый полигон частот.
Отложим на оси абсцисс варианты xi, а на оси ординат соответствующие относительные
частоты pi. Соединив точки (xi,pi) отрезками прямых, получим искомый полигон
относительных частот.
Отложим на оси абсцисс варианты хi, а на оси ординат соответствующие им накопленные
частоты miнак. Соединив точки (xi,miнак) отрезками прямых, получим кумуляту частот.
хi
mi
pi
miнак
piнак
1
2
2/50
2
2/50
2
3
3/50
5
5/50
хi
0
нак
m
8
3
i 4
6
8
6/50 8/50
11
19
11/50 19/50
1 2
3 4 5 7
25 541 51 6 57 59 60
22
9
22/50 9/50
41
50
41/50 1
Отложим на оси абсцисс варианты хi, а на оси ординат соответствующие им накопленные
относительные частоты piнак. Соединив точки (xi,piнак) отрезками прямых, получим кумуляту
относительных частот.
хi
piнак
0
8
1 2 3 4 5 7
25 41 51 57 59 1
Пример Построить полигон и кумуляту по выборке распределения 50 рабочих
механического цеха по тарифному разряду.
тарифный разряд хi
частота (кол-во рабочих)
mi
1
2
3
4
5
6
Σ
2
3
6
8
22
9
50
25
Решение
Полигон
Кумулята
Пример Построить гистограмму и полигон частот по данному распределению
выборки объѐма n=100.
сумма частот
частичный
номер
вариант
интервала интервал
интервала
xi xi 1
i
mi
1
1-5
10
2
5-9
20
3
9-13
520
4
13-17
12
5
17-21
8
плотность
частот
mi / h
2,5
5
12,5
3
2
Решение:
Построим на оси абсцисс заданные интервалы длины h=4. Проведѐм над этим
интервалами отрезки, параллельные оси абсцисс, и находящиеся от нее на расстояниях,
равных соответствующим плотностям частот mi / h . Например, над интервалом (1,5)
построим отрезок, параллельный оси абсцисс, на расстоянии mi / h =10/4=2,5. Аналогично
строят остальные отрезки. Искомая гистограмма частот:
Для графического изображения интервального вариационного ряда можно использовать
полигон, если этот ряд преобразовать в дискретный.
В этом случае интервалы заменяются их серединными значениями и ставят им в
соответствие интервальные частоты (частости). Для полученного дискретного ряда строят
полигон (пунктирная линия).
26
Пример Построить гистограмму относительных частот по данному распределению
выборки.
номер интервала i
1
2
3
n
mi
частичный интервал
xi xi 1
0-2
2-4
4-6
сумма частот вариант
частичного интервала mi
20
30
50
100 .
Решение:
Найдем относительные частоты:
p1 =20/100=0,2; p2 =30/100=0,3; p3 =50/100=0,5.
Найдем плотности относительных частот, учитывая, что длина интервала h=2.
p1 / h =0,2/2=0,1; p2 / h =0,3/2=0,15; p3 / h =0,5/2=0,25.
Построим на оси абсцисс данные частичные интервалы.
Проведем над этими интервалами отрезки, параллельные оси абсцисс и находящиеся от
них на расстояниях, равных соответствующим плотностям относительной частоты.
Например, над интервалом (0,2) проведем отрезок, параллельный оси абсцисс и находящийся
от нее на расстоянии, равном 0,1. Аналогично строят остальные отрезки. Искомая
гистограмма:
Пример Пользуясь формулой Стэрджеса, определите интервал группировки
сотрудников фирмы по уровню доходов, если общая численность сотрудников составляет
120 человек, а минимальный и максимальный доход соответственно равен 500 и 6500 руб.
Решение
Количество групп равно n=1+3,322*lg120=8 .Величина интервала руб.
Интервалы выглядят следующим образом:
Величина интервала
№ группы
группировки
1
500-1250
2
1250-2000
3
2000-2750
4
2750-3500
5
3500-4250
6
4250-5000
7
5000-5750
8
5750-6500
27
Пример Имеются следующие данные о количестве филиалов каждого из двадцати
банков в городе. Количество филиалов в городе у разных банков: 2, 4, 3, 5, 4, 4, 6,5,4, 3, 4, 3,
4, 5, 3, 4, 6, 3, 5, 4 . Построить ряд распределения по имеющимся данным. Дать графическое
изображение ряда распределения.
Решение
Вариация признака носит дискретный характер, число вариант дискретного признака
невелико, и значения признака у отдельных единиц совокупности повторяются. Поэтому
строится дискретный ряд распределения. Для его построения следует перечислить все
встречающиеся варианты значений признака и подсчитать частоту повторения.
Дискретный ряд распределения, построенный по данным, выглядит следующим образом
Количество филиалов в Число банков
городе организации, х (или частота, f)
2
1
3
5
4
8
5
4
6
2
20
Итого
Частость, w
1/20=0,05
5/20=0,25
8/20=0,40
4/20=0,20
2/20=0,10
1,00
Накопленная
частота, S
1
1+5 = 6
6+8 = 14
14+4 = 18
18+2 = 20
Частость w рассчитана как отношение соответствующей частоты к общей сумме
частот.По полученному дискретному ряду распределения строится полигон частот.
Для построения кумуляты следует рассчитать накопленные частоты S. Накопленная
частота первой варианты равна частоте первого интервала, т.е. всего 1 банк в городе имеет
не больше двух филиалов.
Накопленная частота второй варианты равна сумме частот первой и второй вариант
(или сумме накопленной частоты первой варианты и частоты второй варианты), т.е. не
больше трех филиалов имеют 6 городских банков: у пяти из них по 3 филиала, у одного — 2
филиала. Остальные накопленные частоты определяются аналогично. Накопленная частота
последней варианты равна сумме всех частот ряда: все банки в городе имеют не больше 6
филиалов.
Контрольные вопросы
1. Понятие сводки и группировки.
2. Что называется ранжированным рядом? Приведите пример
3. Понятие группировочного признака.
4. Что такое варьирующий признак? Приведите пример.
5. Понятие ряда распределения. Приведите пример.
6. Классификация рядов распределения.
7. Что называется вариационным рядом? Приведите пример.
8. Что называется размахом вариации?
9. Что называется шагом или интервалом ряда?
10. Какие ряды называют интервальными, какими бывают интервальные ряды?
28
Задачи для самостоятельного решения
1.
Дана выборка 3, 8, -1, 3, 0, 5, 3, -1, 3, 5. Определить объем и размах выборки.
Задать дискретный вариационный ряд. Построить полигон.
2.
Восстановить распределение частот для выборки объемом n = 30. Написать
распределение относительных частот. Найти математическое ожидание и дисперсию
дискретной случайной величины, зная ее закон распределения:
x
2
3
5
8
ni
2
6
?
7
3. Построить полигоны частот и относительных частот заданного распределения.
x
ni
1
10
3
15
5
30
7
33
9
12
4. Построить гистограммы частот и относительных частот распределения:
Частичный
интервал
2-5
5-8
8-11
11-14
Сумма частот
вариант
9
10
25
6
1.7 Обработка первичной статистической информации в интерактивной среде
Задание Проранжировать первичный ряд данных, определить частоты, найти абсолютную и
относительные плотности распределения, перегруппировать данные для сопоставления и
анализа двух рядов, графически изобразить кривые (плотности) распределения рядов,
представить данные в виде полигона частот, гистограмм, кумулятивных кривых по
известным накопленным частотам.
Условие. Имеются разрозненные данные по рентабельности активов банков с доходами от
50 до 100 млн. долл.:
1,51; 0,85; 1,37; 1,62; 0,80; 2,0; 1,49; 1,58; 1,75; 1,24; 1,28; 1,04; 1,98; 1,15; 1,66; 1,33; 1,73;
1,13; 1,36; 1,28.
Сравнить полученный сгруппированный ряд с известным интервальным рядом
распределения по уровню рентабельности активов банков с доходами от 100 до 300 млн.
долл.
29
Группы банков с доходами от 100 до 300 млн. долл.
Рентабельность активов
Количество банков в % (частости)
0,6 – 0,8
10
0,8 – 1,0
30
1,0 – 1,1
10
1,1 – 1,2
15
1,2 – 1,4
20
1,4 – 1,8
10
1,8 – 2,0
5
ИТОГО:
100
Выполнение задания. 1. В Excel заполняется столбец
исходных данных
2. Выполняется сортировка столбца А - первичного ряда в
порядке возрастания. В результате получен новый
интервальный ранжированный ряд
3. Определяются частоты нового
ряда. Для этого используется
данные об объеме совокупности
исследуемых банков N = 20 .
Дискретный вариационный ряд
разбивается на интервалы, число которых подсчитывается по формуле Стержесса
k=
1 + 3,322 lg N
,
в которой квадратные скобки означают округление числа 5,32 , тогда
частичного интервала определяется по формуле.
k = 5. Длина
xmax = 2,0 , xmin = 0,8 , h = 0,24. Тогда границы интервалов будут такими:
x0=
xmin =0,8 ;
x1=
xmin + h = 1,04 ;
x2=
xmin + 2h = 1,28 ;
x3=
xmin + 3h = 1,52 ;
x4=
xmin + 4h = 1,76 ;
x5=
xmin + 5h = 2 .
30
Подсчитывается количество банков принадлежащих каждому из интервалов. Вычисляется
накопленная частота и процентное отношение частоты к общему объему всей
совокупностиN = 20 или частость.
4. Необходимо перегруппировать данные исследуемого интервального вариационного ряда
для сопоставления и анализа двух рядов.
Группы банков с доходами
Группы банков с доходами от 50 до 100
от 100 до 300 млн. долл.
Рентабельнос
ть активов
Количество
млн. долл.
Количество банков в % (частости)
банков в %
(частости)
0,6 – 0,8
10
-
0,8 – 1,0
30
8,33 = 0,2m1
1,0 – 1,1
10
6,67
1,1 – 1,2
15
8,33
1,2 – 1,4
20
24,17
1,4 – 1,8
10
43,33 =(1,52-1,4)m3+0,24 m4+(1,8-1,76) m5
1,8 – 2,0
5
4,17
2,0 и более
-
5,00
100
100,00
ИТОГО:
Расчетная схема представлена ниже.
Необходимо вычислить новые величины интервалов:
h01 = y0 – x0 ,h11 = x1 – y0 ,h12 = y1 – x1 ,h21 = x2 – y1 ,h22 = x3 – x2 ,
31
h23 = x4 – x3 ,h24 = y2 – x4 ,h31 = x5 – y2 ,h32 = x6 – x5 ,…
Здесь – узловые точки xi рентабельности активов, отстоящие друг от друга на один и тот
же равный шаг h , yi – узловые точки интервального рядаНа промежутках [y-1, y0] U [y0, y1] U
[y1, y2] U [y2, y3] частости Wi перераспределяются следующим образом:
[y-1, y0]
W0 = h01m1 ,
[y0, y1]
W1 = h11m1 + h12m2 ,
[y1, y2]
W2 = h21m2 + h22m3+ h23m4+ h24m5 ,
[y2, y3]
W3 = h31m5 + h32m6 ,
Полученными новыми значениями Wi заполняется третий столбец
5. Графическое представление кривой (ненормированной плотности) распределения
исходного ряда
6. Полигон частот
32
7. Гистограмма
8. Кумулятивная кривая накопленных частот.
9. Сравнительная оценка частот интервальных вариационных рядов по уровню
рентабельности активов банков с доходами от 100 до 300 млн. долл. и от 50 до 100 млн. долл.
(табл. 2).
Выводы. Количество банков с доходами от 100 до 300 млн. долл. до уровня рентабельности
1,25 больше, чем банков с доходами от 50 до 100 млн. долл. После уровня рентабельности
1,25 банков с доходами от 50 до 100 млн. долл. значительно больше, чем банков с доходами
от 100 до 300 млн. долл. Экстремальные значения при рентабельности активов 0,9 имеют 30
33
% банков с доходами от 100 до 300 млн. долл. и при рентабельности активов 1,6 имеют 43,33
% банков с доходами от 50 до 100 млн. долл.
Представленная графическая зависимость позволяет сделать вывод о том, что наиболее
рентабельными являются банки ряда 2 .
34
Варианты заданий. Варианты указаны римскими цифрами.
Сгруппированный ряд сравнивать с рядом заданным в табл. 1.
Вар.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
I
0,52
1,22
1,43
0,87
1,55
0,65
0,65
1,89
1,14
0,91
1,37
1,43
1,78
0,96
1,25
1,11
0,58
1,56
1,09
2
1,21
0,99
1,45
0,89
1,87
0,62
1,23
II
0,65
1,63
0,53
1,45
1,34
1,68
1,88
0,99
1,75
0,59
2,10
1,87
1,43
III IV
0,89 1,21
1,69
1,29
0,41
1,06
0,69 1,75
1,56
0,54
1,75
0,89
0,92
1,25
1,45
1,51
1,65
1,78
1,08
1,52
0,65
V
1,25
1,85
1,84
1,98
0,89
0,95
1,96
1,43
0,97
1,99
1,54
1,05
1,47
1,03
1,21
1,07
1,42
1,65
2
1,08
1,84
1,54
1,89
1,84
1,42
1,37
1,65
1,24
1,49
1,37
1,37
0,89
0,63
1,65
1,21
1,25
1,43
1,52
1,37
1,34 1,23 0,89
1,37 1,42
1,87
0,74
1,25 1,67
0,65 1,64
1,47 1,58 1,57
1,14 1,02 1,58
1,35
1,78
1,11 1,79
1,02 1,21 1,85 1,06
VI
1,69
0,94
0,78
1,21
1,54
0,50
0,65
1,05
1,25
2,01
0,94
1,14
1,78
0,59
1,45
1,29
1,21
1,11
1,44
1,22
1,98
1,32
0,89
1,64
1,42
1,56
VII
1,45
0,42
1,21
1,78
1,54
1,66
1,10
1,25
1,48
1,03
1,66
0,65
1,96
1,62
1,43
1,51
1,81
1,11
1,70
1,37
1,67
1,74
1,42
1,83
1,06
1,43
1,59
1,04
0,89
VIII
1,85
1,64
1,28
1,78
1,37
0,89
1,51
1,88
1,56
1,11
2
1,43
1,22
1,01
1,23
1,25
0,63
1,54
1,21
0,95
0,97
1,25
1,05
0,74
1,28
IX
0,35
1,05
1,43
1,21
0,73
1,25
1,43
X
0,68
1,78
1
1,43
1,11
0,74
1,05
1,14
1,64
0,75
0,63
1,22
1,08
0,74
1,51
1,11
0,65
1,88
1,54
0,85
0,68
1,55
0,89
1,22
1,21
0,71
1,78
1,05
0,89
1,92
1,64
0,72
1,21
1,01
1,37
0,63
1,09
0,78
1,25
0,46
1,43
0,67
1,54
1,51
0,65
XI
0,48
1,51
0,49
0,65
0,85
0,53
0,63
0,25
0,68
1,11
0,72
1,43
0,98
0,35
1,78
0,74
1,21
0,86
1,05
0,39
1,89
0,45
1,01
1,64
0,89
1,05
0,81
1,22
1,54
0,41
XII
1,25
1,22
0,74
0,65
1,21
1,54
1,25
2,14
1,01
0,89
0,76
1,51
0,32
0,63
1,54
1,05
1,11
0,85
0,81
1,43
1,85
0,93
0,89
XIII
1,79
1,11
1,95
1,01
1,54
1,55
0,79
0,74
1,43
0,95
0,83
1,37
0,63
1,25
1,05
0,89
0,99
0,69
1,06
1,56
1,15
2,12
1,24
1,88
1,25
1,13
1,22
1,51
0,69
XIV
1,96
1,54
1,05
1,43
1,73
1,51
1,83
1,42
0,63
1,64
0,89
1,78
1,47
1,63
1,22
1,92
1,88
0,74
1,25
1,75
1,32
1,62
1,84
0,65
1,74
1,71
1,21
1,01
1,65
XV
0,86
1,88
1,22
0,63
1,64
1,01
1,43
1,33
1,21
1,69
0,65
1,54
0,89
1,61
1,37
1,51
2
1,65
1,51
0,65
1,11
1,56
0,74
1,05
1,78
1,37
1,64
1,25
1,35
1.8 Выборочная функция распределения
 Определение Выборочной (эмпирической) функцией распределения называют
функцию F x , определяющую для каждого значения x относительную частоту события
X x.
F
*
x
nx
n
где n x – число вариант, меньших x , n – объем выборки.

Замечание. В отличии от эмпирической функции распределения, найденной
опытным путем, функцию распределения F x генеральной совокупности называют
35
теоретической функцией распределения. F x определяет вероятность события X
x, а
F x – его относительную частоту.

Замечание При достаточно больших n , как следует из теоремы Бернулли,
F x стремится по вероятности к F x .
Из определения эмпирической функции распределения видно, что ее свойства
совпадают со свойствами F x , а именно:
1) 0
F x
1.
2) F x – неубывающая функция.
3) Если х1 – наименьшая варианта, то F x
0 при x
x1 ; если xk – наибольшая
варианта, то F x 1 при x xk ..
Если относительную частоту разделить на длину каждого интервала h, то полученная
величина
будет
представлять
собой
выборочную
оценку
плотности
вероятности f * ( xi ) pi / h .
Выборочную функцию плотности f * ( x ) можно задать соотношением
0,
f * ( x)
при x
xi ;
pi / h, при xi x xi 1 ; i 1,
при x xi 1 .
0
где p i – относительная частота попадания наблюдаемых значений в интервал x i ; xi
длина частичного интервала, xv 1 – конец последнего v-го интервала.
h ,h–
Пример Найти выборочную (эмпирическую) функцию по данному распределению
выборки:
хi
1
4
6
mi
10
15
25
Решение
Найдем объем выборки: n=10+15+25=50.
Наименьшая варианта равна 1, следовательно F * ( x ) =0 при x≤1.
Значения X<4, а именно x1 =1, наблюдалось 10 раз, следовательно, F * ( x ) =10/50=0,2 при
1<x≤4.
Значения X<6, а именно x1 =1 и x2=4, наблюдались 10+15=25 раз, следовательно,
F * ( x ) =25/50=0,5 при 4<x≤6.
Т.к. x=6 – наибольшая варианта, то F * ( x ) =1 при x>6.
0
F ( x)
0, 2
0, 5
1
при x 1;
при 1 x 4;
при 4 x 6;
при x 6.
Пример Построить выборочную функцию распределения по данным таблицы:
36
индекс
число
неправильных
соединений в
минуту
частота
относительная
частота
i
1
2
3
4
5
6
7
xi
0
1
2
3
4
5
7
mi
8
17
16
10
6
2
1
pi
8
60
17
60
16
60
10
60
6
60
2
60
1
60
Решение n=60, наименьшая варианта равна 0, значит mx=0 при x≤0
mx
n
0
60
0,
т.е. F ( x) 0 при x≤0. Если 0<x≤1, то неравенство X<x выполняется при условии, что Х=0.
mx
Т.к. эта варианта встречается в выборке 8 раз, то n
8
60
p1 , т.е. F * ( x ) = 8 .
60
Если 1<x≤2, то неравенство X<x выполняется при условии, что Х=0 или Х=1. Т.к.
mx 8 17 25
варианта x1 =0 встречается 8 раз, а варианта х2=1
17 раз, то
, т.е.
n
60
60
25
В результате получаем искомую функцию распределения, значения
F * ( x) p1 p2 =
60
которой представим в виде таблицы:
График этой функции
F * ( x)
x
x≤0
0
0<x≤1
p1=80/60=2/15
1<x≤2
p1+p2=25/60=5/12
2<x≤3
p1+p2+p3=41/60
3<x≤4
p1+p2+p3+p4=51/60
4<x≤5
p1+p2+p3+p4+p5=57/60
5<x≤7
p1+p2+p3+p4+p5+p6=59/60
7
x>7
pi
60 / 60 1
i 1
Аналитически функция F * ( x ) задается в виде
0
при x x1
i 1
i 1,
F* x
p e при xi 1 x xi
e 1
при x xv
1
Здесь xv
xнаиб . Частости
i 1
pe являются накопленными частостями.
e 1
Пример Найти эмпирическую функцию по данным вариационным рядам.
37
а)
б)
в)
г)
д)
xi
mi
xi
mi
xi
mi
xi
mi
xi
mi
2
1
4
5
60
3
1
2
-2
3
5
3
7
2
65
3
3
10
0
17
7
2
8
3
70
7
7
4
5
28
8
4
75
5
9
24
8
22
100
8
12
10
14
10
120
4
Если случайная величина непрерывная и ее выборочные значения представлены в виде
интервального вариационного ряда, то выборочную функцию распределения строят иначе.
Пример Построить выборочную функцию распределения по интервальному
вариационному ряду.
индекс
интервала
i
1
2
3
4
5
6
7
8
9
10
Интервалы
xi X x i 1
150-155
155-160
160-165
165-170
170-175
175-180
180-185
185-190
190-195
195-200
относительная
Частота
частота
mi
pi
4
0,0381
0
0
2
0,0190
19
0,1810
19
0,1810
26
0,2479
21
0,2000
10
0,0953
2
0,0190
2
0,0190
Решение
Очевидно, для x ( ;150 ] F * ( x ) =0, т.к. mx=0. Подсчитаем на концах интервалов
значения функции F * ( x ) в виде ―нарастающей относительной частоты‖.
индекс
F * ( x)
интервала
1
0,0381
2
0,0381
3
0,0571
4
0,2381
5
0,4197
6
0,6667
7
0,8667
8
0,962
9
0,981
10
1
38
Очевидно, что табличные значения не полностью определяют выборочную функцию
распределения непрерывной случайной величины, поэтому при графическом изображении
такой функции ее доопределяют, соединив точки графика, соответствующим концам
интервала, отрезками прямой.
Пример Используя данные таблицы построить выборочную функцию распределения
F * ( x ) и выборочную функцию плотности f *( x ).
интервалы
6,67-6,69
6,69-6,71
6,71-6,73
6,73-6,75
6,75-6,77
интервалы
mi
pi
2
15
17
44
52
0,01
0,075
0,085
0,220
0,260
Решение
Очевидно, что при всех x (
6,77-6,79
6,79-6,81
6,81-6,83
6,83-6,85
mi
pi
44
14
11
1
0,220
0,070
0,055
0,005
;6,67 ] функция распределения равна нулю. Пусть теперь
mx
не определено, т.к. неизвестно, сколько
n
выборочных значений случайной величины, принадлежащих этому интервалу, меньше x .
Если x =6,69, то mx =2. Следовательно, F (6,69)= 2 =0,01.
x
(6,67;6,69 ] . В этом случае число
200
Рассуждая аналогично, убеждаемся, что точками, в которых значения функции
F * ( x ) можно определить, являются правые концы интервалов и все точки интервала [6,85;
). Определяем теперь значения функции F * ( x ) в указанных точках и запишем в виде
таблицы
x
F * ( x)
x
F * ( x)
6,67
0
6,77
0,65
6,69
0,01
6,99
0,87
6,71
0,085
6,81
0,94
6,73
0,17
6,83
0,995
6,75
0,39
6,85
1
При графическом изображении данной функции целесообразно ее доопределить,
соединив точки графика, соответствующие концам интервалов, отрезками прямой.
39
Построим выборочную функцию плоскости f *( x ).
Функцию f *( x ) можно задать соотношением:
0,
f * ( x)
при x x1;
x
x
pi / h, при i
x xv 1.
при
0,
xi 1 ;
i
1,2,..., v
где p i – частость попадания наблюдаемых значений случайной величины в интервале
[ xi , xi h] , где h - длина частичного интервала, xv 1 - конец последнего v -го интервала.
i
1
2
3
4
5
6
7
8
9
Интервалы Частость
xi , xi 1
pi
6,67-6,69
0,010
6,69-6,71
0,075
6,71-6,73
0,085
6,73-6,75
0,220
6,75-6,77
0,260
6,77-6,79
0,220
6,79-6,81
0,070
6,81-6,83
0,055
6,83-6,85
0,005
f* x
0,50
3,75
4,25
11,0
13,0
11,0
3,50
2,75
0,25
1.9 Использование электронных таблиц для построения выборочных функций
распределения
Для практических задач закон распределения обычно неизвестен, или известен с
точностью до некоторых неизвестных параметров. В частности, невозможно рассчитать
точное значение соответствующих вероятностей, так как нельзя определить количество
общих и благоприятных исходов. Поэтому вводится статистическое определение
вероятности. По этому определению вероятность равна отношению числа испытаний, в
40
которых событие произошло, к общему числу произведенных испытаний. Такая вероятность
называется статистической частотой.
Связь между эмпирической функцией распределения и функцией распределения
(теоретической функцией распределения) такая же, как связь между частотой события и его
вероятностью.
Для построения выборочной функции распределения весь диапазон изменения
случайной величины X (выборки) разбивают на ряд интервалов (карманов) одинаковой
ширины. Число интервалов обычно выбирают не менее 3 и не более 15. Затем определяют
число значений случайной величины X, попавших в каждый интервал (абсолютная частота,
частота интервалов).
Частота интервалов – число, показывающее сколько раз значения, относящиеся к
каждому интервалу группировки, встречаются в выборке. Поделив эти числа на общее
количество наблюдений (n), находят относительную частоту (частость) попадания
случайной величины X в заданные интервалы.
По найденным относительным частотам строят гистограммы выборочных функций
распределения.
Накопленная частота интервалов – это число, полученное последовательным
суммированием частот в направлении от первого интервала к последнему, до того интервала
включительно, для которого определяется накопленная частота.
В Excel для построения выборочных функций распределения используются специальная
функция ЧАСТОТА и процедура Гистограмма из пакета анализа.
Функция ЧАСТОТА (массив_данных, двоичный_массив) вычисляет частоты появления
случайной величины в интервалах значений и выводит их как массив цифр, где
• массив_данных — это массив или ссылка на множество данных, для которых
вычисляются частоты;
• двоичный_массив — это массив интервалов, по которым группируются значения
выборки.
Процедура Гистограмма из Пакета анализа выводит результаты выборочного
распределения в виде таблицы и графика. Параметры диалогового окна Гистограмма:
• Входной диапазон - диапазон исследуемых данных (выборка);
• Интервал карманов - диапазон ячеек или набор граничных значений, определяющих
выбранные интервалы (карманы). Эти значения должны быть введены в возрастающем порядке.
Если диапазон карманов не был введен, то набор интервалов, равномерно распределенных между
минимальным и максимальным значениями данных, будет создан автоматически.
• выходной диапазон предназначен для ввода ссылки на левую верхнюю ячейку
выходного диапазона.
• переключатель Интегральный процент позволяет установить режим включения в
гистограмму графика интегральных процентов.
• переключатель Вывод графика позволяет установить режим автоматического создания
встроенной диаграммы на листе, содержащем выходной диапазон.
Пример Построить эмпирическое распределение веса студентов в килограммах
для следующей выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61, 59, 59, 63, 61.
Решение
41
В ячейку А1 введите слово Наблюдения, а в диапазон А2:А21 — значения веса студентов.
В ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите граничные
значения интервалов (40, 45, 50, 55, 60, 65, 70).Введите заголовки создаваемой таблицы: в ячейки
С1 — Абсолютные частоты, в ячейки D1 — Относительные частоты, в ячейки E1 —
Накопленные частоты..
С помощью функции Частота заполните столбец абсолютных частот, для этого выделите
блок ячеек С2:С8. С панели инструментов
0,7
1,2
Стандартная вызовите Мастер функций (кнопка
0,6
fx).
1
0,5
относит.
В появившемся диалоговом окне выберите
0,8
частота
0,4
категорию
Статистические
и
функцию
0,6
0,3
накопл.
ЧАСТОТА,
после
чего
нажмите
кнопку
ОК.
0,4
0,2
частота
Указателем
мыши
в
рабочее
поле
0,2
0,1
Массив_данных
введите
диапазон
данных
0
0
наблюдений
(А2:А8).
В
рабочее
поле
40 45 50 55 60 65 70
Двоичный_массив мышью введите диапазон
интервалов (В2:В8). Слева на клавиатуре
последовательно нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце C должен появиться
массив абсолютных частот.
В ячейке C9 найдите общее количество наблюдений. Активизируйте ячейку С9, на панели
инструментов Стандартная нажмите кнопку Автосумма. Убедитесь, что диапазон
суммирования указан правильно и нажмите клавишу Enter.
Заполните столбец относительных частот.
В ячейку введите формулу для вычисления относительной частоты: =C2/$C$9. Нажмите
клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши)
скопируйте введенную формулу в диапазон и получите массив относительных частот.
Заполните столбец накопленных частот. В ячейку D2 скопируйте значение относительной частоты из ячейки E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу
Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте
введенную формулу в диапазон D3:D8. Получим массив накопленных частот. Постройте
42
диаграмму относительных и накопленных частот. Щелчком указателя мыши по кнопке на
панели инструментов вызовите Мастер диаграмм. В появившемся диалоговом окне выберите
закладку Нестандартные и тип диаграммы График/гистограмма.
Задачи для самостоятельного решения
1. . Построить выборочные функции распределения (относительные и накопленные
частоты) для роста в см. 20 студентов: 181, 169, 178, 178, 171, 179, 172, 181, 179, 168,
174, 167, 169, 171, 179, 181, 181, 183, 172, 176.
2. Найдите распределение по абсолютным частотам для следующих результатов
тестирования в баллах: 79, 85, 78, 85, 83, 81, 95, 88, 97, 85 (используйте границы
интервалов 70, 80, 90).
3. На фирме работает 39 человек. Проведено исследование числа рабочих дней,
пропущенных каждым работником фирмы в течение месяца. Результаты
исследования
таковы:
0,1,3,0,2,3,5,
7,3,5,2,10,7,5,0,2,5,10,5,3,1,9,15,10,1,0,2,3,5,7,7,6,5,3,0,7,10,13,0.
Составить интервальный вариационный ряд. Построить функцию распределения
F*( x ) случайной величины числа пропущенных рабочих дней и выборочную
функцию плотности f *( x ).
2 Найти эмпирическую функцию распределения F*( x ) и выборочную функцию
плотности f *( x )по данным интервальным вариационным рядам.
А)
i
1
2
3
4
5
6
7
8
9
xi
X
xi
Б)
i
1
2
3
4
5
6
7
8
mi
1
0-2
2-4
4-6
6-8
8-10
10-12
12-14
14-16
16-18
6
4
2
18
29
11
10
17
3
xi
X
11-14
14-17
17-20
20-23
23-26
26-29
29-32
32-35
xi
1
mi
16
24
30
7
8
6
5
4
3.Построить полигон частот, полигон относительных частот, и кумуляты частот и
относительных частот по данным вариационным рядам:
вариант 1
вариант 2
вариант 3
вариант 4
xi
4
7
8
12
mi
5
2
3
10
xi
0
1
5
10
mi
30 14 8
xi
60 65 70 75 100 120
mi
3
3
7
5
8
xi
1
4
5
7
9
mi
10 25 45 20 10
2
4
43
вариант 5
вариант6
вариант 7
вариант 8
вариант 9
вариант 10
вариант 11
вариант 12
вариант 13
вариант14
вариант 15
вариант 16
вариант 17
вариант 18
вариант 19
вариант 20
вариант 21
вариант 22
вариант 23
xi
-1
0
mi
15 5
25 55 10
xi
2
3
6
mi
8
10 32 45 13
2
xi
3
5
12
mi
2
26 42 35 4
xi
2
4
mi
15 20 10 10 45
xi
1
mi
15 25 30 20 10
xi
20 40 65 80
mi
xi
mi
10 20 30 40
2 5 7 8 11
10 9 21 25 30
xi
1
mi
20 10 14 6
xi
2
mi
10 15 5
xi
15 20 25 30 10
mi
10 15 30 20 25
xi
3
5
7
mi
5
8
16 12 9
xi
5
9
13 17 21
mi
4
6
9
xi
11 13 15 17 19
mi
4
12 8
xi
4
8
12 16 20
mi
6
8
10 12 4
xi
10 20 30 40 50
mi
2
8
xi
5
10 15 20 25
mi
4
14 12 8
xi
10 14 18 22 26
mi
5
7
10 12 6
xi
1
5
9
mi
3
8
14 15 10
xi
4
6
8
10 12
mi
5
4
8
12 11
4
4
3
1
8
5
5
5
5
3
7
9
7
8
5
10
11
12
1
10
9
13
5
7
6
20
9
11
10 11
8
14 6
18
10
2
13 17
44
вариант 24
xi
mi
xi
10 14 18 22 26
5 7 4 1 3
5 8 11 14 17
вариант 25
mi
5
14 26 9
xi
4
6
8
10 12
mi
3
9
7
22 9
xi
6
9
12 15 18
mi
3
9
18 14 16
xi
4
7
10 13 16
mi
4
5
9
xi
8
10 12 14 16
mi
12 17 46 12 13
xi
5
9
mi
3
16 8
вариант 26
вариант 27
вариант 28
вариант 29
вариант 30
6
10 2
13 17 21
7
6
4.Рассчитать и построить гистограммы частот и относительных частот по
сгруппированным данным, где mi - частота попадания вариант в промежуток ( xi ; xi 1 ].
вариант 1
Вариант 3
Вариант 5
Вариант 7
i
1
2
3
4
5
1
2
3
4
5
6
7
1
2
3
4
1
2
3
4
5
6
7
xi<X≤
xi+1
1–5
5–9
9 – 13
13 – 17
17 – 21
3–5
5–7
7–9
9 – 11
11 – 13
13 – 15
15 – 17
2–5
5–8
8 – 11
11 – 14
3–5
5–7
7–9
9 – 11
11 – 13
13 – 15
15 – 17
mi
10
20
50
12
8
4
6
20
40
20
4
6
6
10
4
5
20
25
15
13
12
8
7
вариант 2
вариант 4
Вариант 6
Вариант 8
i
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
6
7
8
9
1
2
3
4
xi<X≤ xi+1
2–7
7 – 12
12 – 17
17 – 22
22 – 27
10 – 15
15 – 20
20 – 25
25 – 30
30 – 35
6,67 – 6,69
6,69 – 6,71
6,71 – 6,73
6,73 – 6,75
6,75 – 6,77
6,77 – 6,79
6,79 – 6,81
6,81 – 6,83
6,83 – 6,85
-2 – 2
2–6
6 – 10
10 – 14
mi
5
10
25
6
4
2
4
8
4
2
2
15
17
44
52
44
14
11
1
5
25
40
12
45
Вариант 9
Вариант 11
Вариант 13
Вариант 15
Вариант 17
Вариант 19
Вариант 21
Вариант 23
Вариант 25
Вариант 27
1
2
3
4
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
60 – 65
65 – 70
70 – 75
75 – 80
4–6
6–8
8 – 10
10 – 12
дек.14
10 – 14
14 – 18
18 – 22
22 – 26
26 – 30
2–6
6 – 10
10 – 14
14 – 18
18 – 22
5 – 10
10 – 15
15 – 20
20 – 25
25 – 30
4–9
9 – 14
14 – 19
19 – 24
24 – 29
10 – 14
14 – 18
18 – 22
22 – 26
26 - 30
10 – 20
20 – 30
30 – 40
40 – 50
50 – 60
20 – 40
40 – 60
30
20
25
25
3
9
7
22
9
3
16
8
7
6
5
3
18
9
5
2
14
11
9
4
5
9
13
6
7
5
14
26
9
6
12
17
46
12
13
8
14
3
4
60 – 80
80 – 100
100 –
120
12 – 16
10 – 20
20 – 24
10
9
5
1
2
3
19
7
15
13
Вариант
10
Вариант
12
Вариант
14
Вариант
16
Вариант
18
Вариант
20
Вариант
22
Вариант
24
Вариант
26
Вариант
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
14 – 16
5–8
8 – 11
11 – 14
14 – 17
17 – 20
1–5
5–9
9 – 13
13 – 17
17 – 21
20 – 22
22 – 24
24 – 26
26 – 28
28 – 30
14 – 16
16 – 18
18 – 20
20 – 22
22 – 24
3–5
5–7
7–9
9 – 11
11 – 13
2–5
5–8
8 – 11
11 – 14
14 – 17
5 – 10
10 – 15
15 – 20
20 – 25
25 – 30
15 – 30
30 – 45
45 – 60
60 – 75
75 – 90
18
5
7
4
1
3
4
5
9
10
2
4
6
10
4
6
3
12
10
15
10
1
6
14
7
2
6
24
13
1
6
3
9
18
14
16
8
16
12
4
10
1
2
4 – 10
10 – 16
4
5
3
4
5
1
16 – 22
22 – 28
28 – 34
8 – 10
12
14
5
5
46
4
5
1
2
3
4
Вариант 29
5
24 – 28
28 – 32
100 –
110
110 –
120
120 –
130
130 –
140
140 –
150
2
3
10 – 12
12 – 14
16
11
7
4
14 – 16
8
16
5
16 – 18
10
12
1
100 – 120
10
11
2
120 – 140
34
3
4
140 – 160
160 – 180
25
21
8
7
4
28
Вариант
30
47
2. Числовые характеристики вариационного ряда
Основная задача статистической обработки наблюдений – нахождение ряда показателей,
характеризующих в обобщенном виде свойства данной совокупности.
К числовым характеристикам обычно относят так называемые средние (центральные)
величины и меры, характеризующие разброс данных вокруг средних величин, а также
некоторые другие дополнительные параметры, описывающие характер распределения
опытных данных.
Определение Средние величины — это характеристики, обобщенно представляющие
одним числом всю выборку.
Существует несколько видов средних величин:

средняя арифметическая,

средняя геометрическая,

средняя гармоническая
Какой из них пользоваться в каждом конкретном случае определяется тем, какое свойство
ряда желательно описать данной величиной.
Наиболее распространенной является средняя арифметическая или, как часто говорят,
просто средняя.
x (
 Определение
Средней
арифметической
выборочной
средней xв )
вариационного ряда называется сумма произведений всех вариантов на соответствующие
xв
частоты, деленная на сумму частот: x
m
x i ni
,
i 1
x
n
где x i - варианты дискретного ряда или середины интервалов вариационного ряда, ni m
соответствующие им частоты n
ni
- объем выборки.
Это наиболее общая формула для вычисления средней арифметической.
Однако при большом числе наблюдений пользоваться ей не очень удобно, поэтому
существуют некоторые другие более удобные формулы.
В частности, если уже построены вариационные ряды, то среднюю арифметическую
можно найти с помощью частот по формулам:
1
1
x
xm x
и
x
x h mh
n x
n h
,
i 1
или
x
x
x
x
и
x
xh
h
h
где x и xh — соответственно значение признака для дискретного и интервального (центр
интервала) ряда.
Средняя арифметическая представляет собой как бы точку равновесия вариационного
ряда, отклонения от которой в сторону увеличения или уменьшения признака взаимно
уравновешиваются
Для дискретного ряда эти формулы дают точные значения величин x , а для
интервального ряда — приближенные, поскольку предполагают, что все значения
наблюдаемой величины совпадают с центром интервала или равномерно распределены
вокруг него. Однако чем больше объем выборки, тем ближе приближенное значение к
48
среднему. Средняя арифметическая обладает рядом свойств, основными из которых
являются следующие.
Свойства средней арифметической
1. Средняя арифметическая - величина, которая обеспечивает неизменность суммы
значений результатов наблюдений, если каждое из них заменить средней арифметической:
n
n
xi
x
i 1
nx
i 1
2. Сумма отклонений результатов наблюдений от средней арифметической равна нулю:
n
( xi
x)
0
i 1
3. Средняя арифметическая сумм (разностей) двух рядов наблюдении с одинаковым
объемом выборок равна сумме (разности) средних арифметических этих рядов, если
исследуемые признаки взаимно соответствуют друг другу:
(x
y)
x
y
Последнее свойство обобщается на любое количество рядов.
Средняя арифметическая является важной характеристикой ряда наблюдений. Она
показывает наиболее часто встречающееся, наиболее вероятное значение анализируемой
величины и подобна математическому ожиданию в теории вероятностей.
Часто в практике приходится прибегать к средней геометрической, которая определяется
как корень n - ой степени из произведения всех полученных измерений (наблюдений):
n
x геом
n
x1 x2
xn
xi
i 1
Определение Оценки параметров генеральной совокупности, полученные на
основании выборки, называются статистическими.
Определение Оценка генерального параметра, выражаемая одним числом, называется
точечной.

Замечание Точечной оценкой генеральной средней является выборочное среднее
.
 Определение Медианой называется значение признака, приходящееся на середину
ранжированного ряда наблюдений.
Медиана (Me или ~
x ) - значение признака, для которого половина всех наблюдений
меньше (соответственно половина больше) этого значения или, иначе говоря, срединное
значение признака.
Наиболее просто медиану можно найти по графику кумулятивной кривой накопленных
относительных частот, определяя значение ~
x , отвечающее величине
h = 0,5, или
ближайшего к нему целому для дискретного целочисленного ряда.
К вычислению медианы прибегают в том случае, когда надо определять значение
признака, которое лежит в середине распределения.
Для дискретного вариационного ряда с нечетным числом членов медиана равна
серединному варианту, а для ряда с четным числом членов – полусумме двух серединных
вариантов.
Для интервального вариационного ряда находится медианный интервал, на который
приходится середина ряда, а значение медианы на этом интервале может быть найдено с
49
n
нак
1 / 2 ,т.е.
или pi
2
значения медианы на этом интервале находят с помощью линейного интерполирования.
помощью кумуляты как значение признака, для которого mi
нак
Пример n
50 -четное, серединных интервалов два x 25 5, x 26 5
x 25 x 26
5 5
M
5
2
2
.
Квартили представляют собой значения, которые делят две половины выборки
(разбитые медианой) еще раз пополам (от слова кварта — четверть).
Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю
часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая
меньше медианы и делит пополам нижнюю часть выборки.
Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений
переменной меньше нижней квартили.
Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений
переменной меньше верхней квартили.
Таким образом, три точки — нижняя квартиль, медиана и верхняя квартиль - делят
выборку на 4 равные части.
¼ наблюдений лежит между минимальным значением и нижней квартилью, ¼ - между
нижней квартилью и медианой, ¼ - между медианой и верхней квартилью, ¼ - между
верхней квартилью и максимальным значением выборки.
 Определение Мода –вариант, которому соответствует наибольшая частота.
Мода (Мо) — это такое значение признака, которому отвечает максимум частоты или
относительной частоты вариационного ряда. Для дискретного вариационного ряда значение
моды определяется непосредственно из таблицы или по полигону частот (относительных
частот).
Если распределение имеет несколько мод, то говорят, что оно мультимодально или
многомодально (имеет два или более «пика»).
Пример Mo 5 , так как этому варианту соответствует наибольшая частота ni 22 .
Для интервального ряда сначала определяют модальный интервал, т. е. интервал,
отвечающий наибольшей частоте признака. Обозначим через a0 начало модального
интервала. Через m0 ( 0 ), m0 ( 0 ) и m0 ( 0 ) обозначим частоту (относительная частота)
модального, предшествующего и последующего интервалов. Тогда
m0 m0
Mo a0 h
2m0 m0 m0
или
Mo
a0
h
0
0
2 0
0
0
Модальный интервал имеет наибольшую частоту, а значения моды на этом интервале
можно найти графическим путем с помощью гистограммы.
Пример Найти медиану распределения рабочих по тарифному разряду по данным
таблицы:
тарифный разряд xi
1 2 3 4 5 6 Σ
частота (кол-во рабочих) 2 3 6 8 22 9 50
50
mi
Решение:
n 50 - четное число.
Построим ранжированный ряд:
1,1
2,2,2
3,3,3,3,3,3
4,4,4,4,4,4,4,4
5,5,5,5,5,5,5,5,5,5,…5,5,5
6,6,6,6,6,6,6,6,6
Т.к. n - четное число, то серединных вариантов два x25
полусумме двух серединных вариантов:
Me
x25 x26
2
5 и x26
5 , поэтому Me равна
5 5
5% .
2
 Замечание Обычно модой пользуются, чтобы установить, например, какая
производительность труда, себестоимость продукции, объем ее выпуска и т. п. преобладают
в данном ряду наблюдении, на данной группе предприятии, в данном районе, в данном году
и т. п.
2.1 Статистические характеристики дискретного ряда
В качестве характеристик дискретного вариационного ряда в математической статистике
применяют средние величины и показатели вариации.
Рассмотрим алгоритмы вычисления статистических характеристик дискретного
вариационного ряда с применением встроенной математической функции СУММ и
Массивов в качестве ее аргументов на примере вычисления значения средней
арифметической членов дискретного вариационного ряда.
Алгоритм. Вычисление статистических характеристик дискретного вариационного ряда с
применением встроенной математической функции СУММ и Массивов в качестве ее
аргументов
Формула для вычисления средней арифметической дискретного вариационного ряда
представляет собой сумму произведений элементов с одинаковыми индексами для двух
рядов – варианта признака и соответствующей ему частоты, деленную на количество
признаков в простом статистическом ряду.
Для вычисления средней арифметической вариантов дискретного признака с
применением встроенной математической функции СУММ необходимо выполнить
следующую последовательность операций:
выделить место на рабочем листе для двух диапазонов ячеек, включающего два
столбца длиной р=5 (например, K2:L11), для рядов "Варианты признака" и "Частота
варианта";
ввести в ячейки диапазона K2:K11 ряд значений "Варианты признака", а в ячейки
диапазона L2:L11 - ряд значений "Частота варианта".
выделить ячейку M2 и ввести формулу
{=СУММ(K2:K11*L2:L11)/30}
(фигурные скобки не вводятся, они добавляются автоматически в строке формул
рабочей области Microsoft Excel при фиксации ввода). Произведение диапазонов K2:K11 и
L2:L11 задает массив аргументов. Формула "произведение диапазонов" действует на все
ячейки диапазона. Для фиксации ввода формулы Массива необходимо нажать одновременно
клавиши Ctrl-Shift-Enter.
51
2.2 Меры разброса опытных данных
Средние величины характеризуют всю выборку, при этом такие характеристики даются
единственным числом. Степень изменчивости наблюдаемых значений или, как принято
говорить, вариация признака такими характеристиками никак не учитывается.
Однако на практике небезразлично, как разбросаны значения измеряемых величин.
Средняя арифметическая характеризует только центр рассеивания опытных данных. Нужны
еще какие-то меры, которые характеризовали бы рассеяние этих данных вокруг центра.
Таких мер существует несколько.
Простейшей из них является вариационный размах. Эта величина легко вычисляется,
поэтому ею часто пользуются на практике. Однако эта характеристика, опираясь только на
два крайних значения из всего ряда наблюдений, не учитывает, как расположены внутри
этого интервала остальные значения. Поэтому чаще используются более эффективные меры
для оценки рассеивания.
 Определение Дисперсия – средняя арифметическая квадратов отклонений вариантов
от их средней арифметической
m
xi
s
2
x
2
ni
i 1
,
n
где s - средне квадратическое отклонение.
Дисперсия полно характеризует меру рассеивания измеренных значений вокруг средней
арифметической. Чем меньше дисперсия, тем теснее группируются данные около центра
рассеивания. Дисперсия и средняя арифметическая имеют разные размерности, что создает
затруднения при практических оценках.
 Определение Выборочная дисперсия представляет собой среднюю арифметическую
квадратов отклонений вариант от их выборочной средней:
k
D
mi x i
x
2
/ n.
i 1
Для расчетов может быть использована также формула
2
D
x2 x ,
где x 2 - выборочная средняя квадратов вариант выборки.
Свойства выборочной дисперсии:
1. Дисперсия постоянной равна нулю.
2. Если ко всем вариантам добавить постоянное число, то дисперсия не изменится.
3. Если все варианты умножить на одно и то же число
, то дисперсия умножится на
.
Статистическая оценка является случайной величиной и меняется в зависимости от
выборки.
 Определение Несмещенная статистическая оценка – статистическая оценка,
математическое ожидание которой оценки равно оцениваемому параметру генеральной
совокупности, если не равно – то оценка смещенная.
Выборочная средняя является оценкой математического ожидания случайной величины и
представляет собой несмещенную оценку.
Выборочная дисперсия оценивает дисперсию генеральной совокупности и является
смещенной оценкой.
52
Для устранения смещенности выборочной дисперсии ее умножают на величину n / n 1 и
получают
n
D
D .
n 1
Величину D называют несмещенной или «исправленной» выборочной дисперсией.
Разница между D и D заметна при небольшом числе наблюдений n 30 40 .
В некоторых случаях для удобства расчетов при определении статистических оценок
переходят к условным вариантам.
Например если варианты xi - большие числа, то используют разности
U i xi С ,
где С - произвольно выбранное число (ложный нуль).
Чтобы получить заметное упрощение расчетов, в качестве ложного нуля С следует взять
середину серединного интервала.
Если серединных интервалов два (при четном числе интервалов), то в качестве
С рекомендуется взять середину одного из этих интервалов, например, имеющего большую
частоту. В этом случае
k
miU i
2
x
С
, D
x2 x ,
n
i 1
2
2
k
k
miU i
miU i
D
DU U
U
.
n
n
i 1
i 1
Для уменьшения значения варианты можно ввести также условные варианты путем
использования масштабного множителя: U i Cxi , где C 10
( выбирается
положительным или отрицательным целым числом), тогда
DU
U
.
x
, D
k
k2
1
В качестве масштабного множителя рекомендуется взять C
, где k - величина
k
D U k2.
интервала. В этом случае x
U k, D
xi C
Если U i
, то
k
m
2
2
m
U i mi
x
i 1
n
k
2
U i mi
C,D
i 1
n
k2
x
C
2
.
Если ряд состоит из нескольких групп, то выборочная средняя определяется как среднее
арифметическое групповых выборочных средних
x
x
i
n
ni
,
где x i - выборочная средняя i -й группы, l - число групп.
Общая выборочная дисперсия (дисперсия всего ряда) вычисляется по формуле
2
( правило сложения дисперсий),
D
D
53
l
D
где D
i 1
n
i
ni
- выборочная средняя групповых дисперсий;
m
xj
D
x
mj
j 1
i
- дисперсия i - й группы;
mi
l
x
2
2
i
i
x
2
ni
- межгрупповая дисперсия.
i 1
n
Среднее квадратичное отклонение
D .
выражается в тех же единицах, что и значение признака.
Рассматривается также безразмерная характеристика – коэффициент вариации.
 Определение Коэффициент вариации - показатель, отражающий разброс значений
относительно среднего (отношение стандартного отклонения к среднему значению, отражает
однородность временного ряда
100 %, x
0 .
x
Коэффициент вариации показатель, который поможет вам в подготовке данных для
прогноза, поможет вам выделить ряды, на которые стоит обратить внимание перед расчетом
прогноза и очистить данные от случайных факторов.
 Замечание Если коэффициет вариации признака, принимающего только
положительные значения, высок (например, более 100%), то, как правило, это
свидетельствует о неоднородности значений признака.
Поэтому часто прибегают к выборочному стандартному отклонению:
1
n
в
n
( xi
x ) 2 - для неранжированного ряда или
( xi
x )2
i 1
в
h
- для ранжированного ряда.
h
Достаточно удобной величиной, дающей возможность оценить меру рассеивания,
является выборочный коэффициент вариации, определяемый либо в относительных
значениях, либо в процентах:
x
x
x
Формулами, которыми значительно удобнее пользоваться на практике:
1 n 2
2
xi x 2
в
ni1
2
в
xh
h
h
x2
.
Пример
По данным, приведенным в таблице вычислить выборочную среднюю и выборочную
дисперсию.
54
индекс
число неправильных соединений в
минуту
i
1
2
3
4
5
6
7
xi
0
1
2
3
4
5
7
8
17
16
10
6
2
1
m
частота
i
Решение
k
x
i 1
x i mi
n
0 8 1 17 2 16 3 10 4 6 5 2 7 1
60
k
xi
D
x
2
x
2
2
2
mi
i 1
2
x
n
0 2 8 12 17 2 2 16 32 10 4 2 6 5 2 2 7 2 1 2
2
60
2,1 .
Пример По данным, приведенным в таблице вычислить выборочную среднюю,
выборочную дисперсию.
Номер Интервалы Частота mi
1
6,67-6,69
2
2
6,69-6,71
15
3
6,71-6,73
17
4
6,73-6,75
44
5
6,75-6,77
52
номер Интервалы Частота mi
6
6,77-6,79
44
7
6,79-6,81
14
8
6,81-6,83
11
9
6,83-6,85
1
Решение
Для интервального вариационного ряда за xi принимают середину i - го интервала, а за mi соответствующую интервальную частоту.
1
6,68 2 6,70 15 6,72 17
200
x
6,74 44 6,76 52
6,7578.
6,78 44 6,8 14 6,82 11 6,84 1
D
1
6,68 2 2 6,7 2 15 6,72 2 17
200
6,74 2 44 6,76 2 52
6,78 2 44 6,82 14 6,82 2 11 6,84 2 1
6,7578 2
0,001 .
Пример Найти выборочную среднюю, выборочную дисперсию и несмещенную
дисперсию по данному распределению выборки:
xi
1450
1480
1490
mi
3
5
2
55
Решение
Т.к. выборочные значения – большие числа. Целесообразно ввести условные варианты. В
качестве ложного нуля выбираем С 1470 , рассчитываем U i
по формуле
Ui
xi
C
xi 1470
Ui
-20 10
20
mi
3
5
2
U i mi
20 3 10 5 20 2
n 10 , U
n
10
i 1
x
C U 1470 3 1473 .
k
D
D
U
n
U2
U
20
2
2
30
10
3 10 2 5 20 2 2 2
3
10
3.
247
10
247 247 ,4 .
n 1
9
Пример Выручка в магазине от продажи обуви составила соответственно по месяцам
следующие значения (млн.руб):
D
D
месяц
p
месяц
p
1
0,2
7
0,2
2
0,5
8
0,2
3
0,4
9
0,4
4
0,2
10
0,5
5
0,4
11
0,4
6
0,5
12
0,2
Найти выборочную среднюю, выборочную дисперсию и несмещенную дисперсию.
Решение:
Составим ранжированный ряд:
0,2 0,2 0,2 0,2 0,2
0,4 0,4 0,4 0,4
0,5 0,5 0,5
Получено три варианты.
Составим распределение выборки:
xi
0,2 0,4 0,5
mi
5
4
3
Введем масштабный множитель: С 10 , U i
3
U
i
x
U i mi
n
1
U
C
U
10
Ui
2
4
5
mi
5
4
3
2 5 4 4 5 3
12
41
12
C xi
10 xi .
3,417 ;
0,3417 ;
56
3
D
U
Ui
2
mi
2
U
n
D U 1,576
0,016 ;
100
C2
n
12
D
0,016 0,017 .
n 1
10
i 1
D
D
4 5 16 4 25 3
12
41
12
2
159
12
1681
144
227
144
1,576 ;
Пример Найти выборочную дисперсию по данному распределению выборки:
xi
0,02 0,05 0,08
mi
3
2
5
Решение
В целях упрощения расчетов целесообразно перейти к условным вариантам. Введем
масштабный множитель С 100 , U i 100 xi .
3
D
U
i 1
Ui
2
3
mi
n
i
Ui
2
5
8
mi
3
2
5
U i mi
n
1
2
4 3 25 2 64 5
2 3 5 2 8 5
10
10
DU
6,84
D
7 10 4 .
2
C
100 2
2
6,84
Пример Имеются следующие данные о средних и дисперсиях заработной платы двух
групп рабочих.
группа рабочих
работающие на
одном станке
работающие на
двух станках
число рабочих
ni
средняя зарплата
одного рабочего в
группе (руб.)
Дисперсия
зар.платы
Di
40
2400
180000
60
3200
200000
Найти общую дисперсию распределения рабочих по заработной плате и его коэффициент
вариации.
1
2400 40 3200 60 2880 (руб.).
Решение x
100
Найдем выборочную среднюю групповых дисперсий:
57
2
D
D
i
ni
i 1
n
Найдем межгрупповую дисперсию:
2
x
2
i
2
x
180000 40 200000 60
100
192000 .
ni
i 1
n
2880
2400
2
2
40 3200 2880 60
153600 .
100
Используя «правило сложения дисперсий», найдем общую выборочную дисперсию
зарплаты и ее среднеквадратическое отклонение:
2
345600 588 (руб).
D D
192000 153600 345600 ,
Коэффициент вариации
588
100 % 20,4% .
2880
Пример В таблице проведено распределение 50 рабочих по производительности
труда Х (единиц за смену), разделенных на 2 группы: 30 и 20 человек.
xi
прошедшие техническое обучение (группа1)
85
34
96
102
103
xi
не прошедшие
техническое
обучение (группа2)
63 69 83 89 106
mi
2
mi
2
5
11
8
4
6
8
3
1
Вычислить общие и групповые средние и дисперсии и убедиться в справедливости
правила сложения дисперсий.
Решение:
Найдем общую выборочную среднюю x и общую выборочную дисперсию D :
1 k
85 2 34 5 96 11 102 8 103 4
x i mi
ni1
50
63 2 69 6 83 8 89 3 106 1 2624 1577
84,02 .
50
x
D
1
n
2
k
xi
i 1
2
mi
x
2
1
85 2 2 34 2 5 96 2 11 102 2 8
50
2
103 4 63 2 2 69 2 6 83 2 8 89 2 3 106 2 1 84,02
1
14450 5780 101376 83232 42436 7938 28566
50
1
55112 23763 11236 7059 ,36
247247 126615
7059 ,36 418 ,42 .
50
Найдем групповые выборочные средние и выборочные дисперсии:
58
x
1
1
n1
k
1
85 2 34 5 96 11 102 8 103 4
30
x i mi
i 1
2624
30
87 ,47 ;
1 k
x i mi
n2 i 1
1 k 2
x i mi
n1 i 1
1
1577
63 2 69 6 83 8 89 3 106 1
20
20
1
2
D1
x1
85 2 2 34 2 5 96 2 11 102 2 8
30
247247
2
103 2 4 87 ,47
7651,0 591,47 .
30
1 k 2
1
2
D 2
x i mi x 2
63 2 2 69 2 6 83 2 8 89 2 3
n2 i 1
20
126651
2
106 2 1 78,85
6217 ,32 113 ,43 .
20
x 1 n1
Проверим, что x
:
n
x 1 n1 87,47 30 78,85 20 17744 ,1 2268 ,6
400 ,25 .
n
50
50
Найдем межгрупповую дисперсию:
x
2
2
x
i
x
2
ni
2
2
357 ,08 534 ,58
30 20 78,85 84,02
17 ,83 .
50
n
50
Проверим «правило сложения дисперсий»:
2
;
D
D
2
D
400 ,25 17,83 418 D .
Для подсчета истинных характеристик вводят поправки к группировке (поправки
Шепарда), при этом истинные моменты связываются
2
i 1
87,47 84,02
78,85 ;
s2
m4
m4
1 2 2
s h
2
s2
1 2
h ,
12
m3
7 4
h A
240 ,
s3
m3 ,
m3
, E
E h
k - ширина интервала.
Пример По данным приведенным в таблице
i
выработка в отчетном
году в% к предыдущему
частота (кол-во
рабочих) mi
i
выработка в отчетном
году в% к предыдущему
частота (кол-во
рабочих) mi
1
94-100
2
100106
3
106112
4
112118
3
5
118124
7
6
124130
11
7
130136
20
8
136142
28
19
10
2
59
а) Вычислить среднюю выработку рабочих, выборочную дисперсию, среднее
квадратическое отклонение и коэффициент вариации;
б) Упрощенным способом вычислить выборочную среднюю, выборочную дисперсию
и несмещенную выборочную дисперсию распределения рабочих по выработке;
в) Построить полигон, гистограмму, кумуляту, найти медиану и моду.
k
xi mi
1
97 3 103 7 109 11 115 20
n
100
i 1
121 28 127 19 133 10 139 2 119,2 % ,
где xi - середины соответствующих интервалов.
Решение
а) x
1
97 2 3 103 2 7 109 2 11 115 2 20
100
2
121 2 28 127 2 19 113 2 10 139 2 2 119 ,2
87 ,48 .
Среднее квадратическое отклонение:
Db
87,48 9,35 % .
b
Коэффициент вариации:
9,35
b
V
100 %
100 % 7,8% .
119 ,2
xb
D
x2
x
2
б) Введем масштабный множитель
1
K
, где постоянная K =6, и постоянную C , равную
середине пятого (одного из серединных интервалов),т.е. C =121.
Тогда новые варианты
xi
Ui
121
.
6
Благодаря такому переходу получим вместо вариантов
xi 97,103,109 ,115,121,127 ,133
«простые» варианты U i
4, 3, 2, 1,0,1,2,3 .
Вычисления представим в виде таблицы:
В итоговой строке таблицы находим
8
8
U i mi
30,
i 1
Ui
2
mi
252 .
i 1
Последний столбец – контрольный.
Интервалы Середина интервала
i xi 1 , xi
xi
Ui
i
1
2
3
4
94-100
100-106
106-112
112-118
-4
-3
-2
-1
97
103
109
115
xi 121
6
2
mi
ui mi
3
7
11
20
-12
-21
-22
-20
u i mi
48
63
44
20
ui 1
-3
-2
-1
0
ui 1
2
mi
27
28
11
0
60
5
6
7
8
118-124
124-130
130-136
136-142
121
127
133
139
0
1
2
3
-
28
19
10
2
100
0
19
20
6
-30
0
19
40
48
252
1
2
3
4
-
2
76
90
32
292
Если таблица составлена верно, то:
m
Ui
1
m
2
mi
m
2
U i mi
i 1
В данном случае
2
i 1
8
U i mi
h , где h
i 1
Ui
1 mi
m
mi .
i 1
292
252
2
30
100 , т.е. расчеты верны.
i 1
m
U i mi
i 1
xb
K
n
C
30
6 121 119 ,2% .
100
m
U i2 mi
K2
i 1
Db
n
xb
C
2
252 2
6
100
119 ,2 121
Найдем относительные частоты pi
2
87 ,48
mi
íàê
, накопленные частоты mi
и накопленные
n
íàê
mi
частости pi
.
h
интервалы
94-100
mi
3
pi
0,03
íàê
100-106
106-112
112-118
118-124
7
11
20
28
0,07
0,11
0,2
0,28
3
10
21
41
69
pi
интервалы
mi
0,03
124-130
0,1
130-136
0,21
136-142
0,41
0,69
19
10
2
pi
0,19
0,1
0,02
88
98
100
0,88
0,98
1
mi
íàê
íàê
mi
pi
íàê
íàê
На гистограмме распределения находим прямоугольник с наибольшей частотой.
Соединяя отрезками прямых вершины этого прямоугольника с вершинами двух соседних
прямоугольников, получим точку пересечения этих отрезков (диагоналей) абсцисса которой
и будет модой вариационного ряда: M 0 120 ,8%.
На графике кумуляты проведѐм горизонтальную прямую y 0,5 или ( y 50 ),
соответствующую накопленной частости piíàê Fn (x) 0,5 (или накопленной частоте
miíàê
50 ), до пересечения с графиком кумуляты. Абсцисса точки пересечения и будет
медианой вариационного ряда: Me 119 ,9% .
Построим полигон, гистограмму, кумуляту.
61
2.3 Начальные и центральные моменты вариационного ряда
Статистическое описание случайной величины слишком громоздка. На практике
достаточно указать только отдельные числовые характеристики закона распределения
случайной величины. Для оценки того или иного свойства законов распределения случайной
величины в теории вероятностей используют числовые характеристики, называемые
моментами.
Выборочная средняя и дисперсия вариационного ряда являются частными случаями
более общего понятия – моментов вариационного ряда.

Определение Начальный момент V k k -го порядка вариационного ряда –
числовая характеристика вариационного ряда, определяется по формуле:
m
xi
k
mi
i 1
.
n

Замечание Очевидно, что начальный момент 1 порядка есть выборочное
среднее V1 x .

Определение Центральный момент k k - го порядка вариационного ряда
числовая характеристика вариационного ряда, определяется по формуле:
Vk
m
xi
x
k
mi
i 1
.
n

Замечание Очевидно, что центральный момент 1 порядка есть
центральный момент 1 порядка есть выборочная дисперия 2 D .
k
1
0, а

Замечание Формулы, выражающие центральные выборочные моменты
различных порядковх через начальные моменты:
2
2
V2 V1 ,
3
V3
3V1V2
2V1 ,
4
V4
4V1V3
6V1 V2
3
2
4
3V1 и т.д.
62
Свойства моментов вариационного ряда
1. Если все наблюдаемые значения случайной величины увеличить (уменьшить) на одно
и то же число, то центральный выборочный момент k - го порядка не изменится
.
C
k xi
k xi
2. Если все наблюдаемые значения случайной величины умножить на одно и то же
число С, то начальный и центральный выборочные моменты k - го порядка изменяется в
С k раз Vk xi C C k Vk xi , k xi C C k k xi .

Определение Коэффициентом асимметрии вариационного ряда называется
числовая характеристика вариационного ряда
m
xi
3
3
A
3
x
mi
i 1
.
3
n
Если A =0, то распределение имеет симметричную форму, т.е. варианты,
равноудаленные от x имеют одинаковую частоту.
При A >0 или A <0 говорят о положительной (правосторонней) или отрицательной
(левосторонней) асимметрии.
Ассиметрия характеризует симметричность распределения относительно средней
арифметической.

Определение Эксцессом вариационного ряда называется числовая
характеристика вариационного ряда
m
xi
E
x
4
mi
i 1
4
2
3
3.
2
D
n D
Эксцесс является показателем «крутости» вариационного ряда по сравнению с
нормальным распределением. Эксцесс или коэффициент эксцесса характеризуют остроту
вершины полигона или гистограммы.
Если E >0 ( E <0), то полигон вариационного ряда имеет более крутую (пологую)
вершину по сравнению с нормальной кривой. Чем больше значение этих величин, тем острее
вершина. Эксцесс является показателем крутости вариационного ряда по сравнению с
нормальным распределением, если E 0 - то нормальное распределение.
Пример Вычислить коэффициент асимметрии и эксцесс распределения рабочих по
выборке по данным таблицы.
i
1
выработка xi
94-100
частота (кол-во рабочих) mi
i
3
5
выработка xi
частота (кол-во рабочих) mi
2
100106
3
4
106-112
112-118
11
7
20
8
118-124
7
6
124130
130-136
136-142
28
19
10
2
63
Решение:
=9,35.
x =119,2;
m
xi
A
3
x
mi
3
97 119 ,2
i 1
3
n
109 119 ,2
127 119 ,2
3
11
3
19
115 119 ,2
3
133 119 ,2
3 103 119 ,2
100 9,35 3
20
3
121 119 ,2
10
3
3
7
28
139 119 ,2
3
2
= 0,302 .
m
xi
E
4
x
mi
i 1
3
97 119 ,2
n D
2
109 119 ,2
4
11
115 119 ,2
4
127 119 ,2
4
19
133 119 ,2
4
4
4
3 103 119 ,2
100 87,48 4
20
121 119 ,2
10
139 119 ,2
4
4
7
28
2
=-0,286.
В силу того, что коэффициент асимметрии A <0 и близок к нулю, распределение рабочих
по выборке обладает незначительной левосторонней асимметрией, а поскольку эксцесс E
близок к нулю, рассматриваемое распределение по крутости приближается к нормальной
кривой.
Пример Используя данные таблицы, найти x , D , A , E преобразуя, прежде всего,
данный интервальный ряд в дискретный.
Диаметр
валика
Частота mi
pi
Диаметр
валика
Частота mi
pi
6,67-6,69
6,69-6,71
6,71-6,73
6,73-6,75
6,75-6,77
2
15
17
44
52
0,01
0,075
0,085
0,220
0,260
6,77-6,79
6,79-6,81
6,81-6,83
6,83-6,85
44
14
11
1
0,220
0,070
0,055
0,005
Решение:
Составим таблицу:
Середина
интервала xi
6,68
6,7
6,72
6,74
6,76
Частота
mi
2
15
17
44
52
2
3
4
Ui
U i mi
U i mi
U i mi
U i mi
-4
-3
-2
-1
0
-8
-45
-34
-44
0
32
135
68
44
0
-128
-405
-136
-44
0
512
1215
272
44
0
64
6,78
6,8
6,82
6,84
Σ
44
14
1
1
200
1
2
3
4
44
28
33
4
-22
44
56
99
16
494
44
112
297
64
-196
44
224
291
256
2858
Наибольшую частоту имеет 5ый интервал (этому серединному интервалу соответствует
частота 52). С=6,67 (середина пятого интервала).
xi C xi 6,67
h=0,02 . U i
xi 6,67 50 .
n
0,02
По определению начальных моментов имеем:
U i mi
22
V1U
0,11 ;
n
200
U i mi 494
V2U
2,47 ;
n
200
3
U i mi
196
V3U
0,98 ;
n
200
4
U i mi 2858
V4U
14,29 .
n
200
2
2
V2 V1
2,47
0,11
2,4579 ;
2U
2
V3 3V1V2 2V1
0,98 3 0,11 2,47 2
0,98 0,8151 0,002662
0,167562 ;
3U
4U
V4
6
4V1V3
0,11
2
2
6V1 V2
2,47 3
3V1
0,11
4
4
14,29 4
0,11
0,11
2
0,98
14,037683 .
Тогда для первоначального вариационного ряда:
2,4579
2U
0,00098316 0,001;
2
2
C
50 2
D
3
1,34 10 6 ;
14,037683 0,02
4
2,246 10 6.
0,167562
C
4U
4
4
x
0,02
3U
3
3
C
U
0,11
6,76 6,7578 ;
0,02
2,4579
0,001 ;
2,4579 ; D
2
0,02
V1U
U
0,11; x
2U
D
A
3
3
E
4
2
D
0,00098316
1,34 10
0,0314
3
0,0314 ;
63
0,0435 ;
2,246 10
0,001
2
6
3
0,676 .
65
2.4
Использование
электронных
таблиц
для
вычисления
выборочных
характеристик
Пакет электронных таблиц Excel оснащен средствами статистической обработки
данных. В него включены основные, наиболее часто используемые статистические
процедуры: средства описательной статистики, критерии различия, корреляционные и
другие методы, позволяющие проводить необходимый статистический анализ данных.
Каждая единица информации занимает свою собственную ячейку (клетку) в
создаваемой рабочей таблице. В каждой рабочей таблице 256 столбцов (из которых в новой
рабочей таблице на экране видны, как правило, только первые 10 или 11 (от А до J или К) и
65 536 строк (из которых обычно видны только первые 15-20). Каждая новая рабочая книга
содержит три чистых листа рабочих таблиц. Вся помещаемая в электронную таблицу
информация хранится в отдельных клетках рабочей таблицы. Но ввести информацию можно
только в текущую клетку. С помощью адреса в строке формул и табличного курсора Excel
указывает, какая из клеток рабочей таблицы является текущей. В основе системы адресации
клеток рабочей таблицы лежит комбинация буквы (или букв) столбца и номера строки,
например A2, B12.
В мастере функций Excel имеется ряд специальных функций, предназначенных для
вычисления выборочных характеристик.
Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов
(аргументов) чисел. Аргументы число1, число2, ... — это от 1 до 30 массивов для которых
вычисляется среднее.
Функция МЕДИАНА позволяет получать медиану заданной выборки.
Функция МОДА вычисляет наиболее часто встречающееся значение в выборке.
Функция ДИСП позволяет оценить дисперсию по выборочным данным.
Функция СТАНДОТКЛОН вычисляет стандартное отклонение.
Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочным данным.
Функция СКОС позволяет оценить асимметрию выборочного распределения.
Функция КВАРТИЛЬ вычисляет квартили распределения. Функция имеет формат
КВАРТИЛЬ(массив, значение), где массив – интервал ячеек, содержащих значения СВ;
значение определяет какая квартиль должна быть найдена (0 – минимальное значение, 1 –
нижняя квартиль, 2 – медиана, 3 – верхняя квартиль, 4 – максимальное значение
распределения).
В пакете Excel помимо мастера функций имеется набор более мощных инструментов
для работы с несколькими выборками и углубленного анализа данных, называемый Пакет
анализа, который может быть использован для решения задач статистической обработки
выборочных данных.
Для установки пакета Анализ данных в Excel сделайте следующее:
- в меню Сервис выберите команду Надстройки;
- в появившемся списке установите флажок Пакет анализа.
Для использования статистического пакета анализа данных необходимо:
указать курсором мыши на пункт меню Сервис и щелкнуть левой кнопкой
мыши;
в раскрывающемся списке выбрать команду Анализ данных (если команда
Анализ данных отсутствует в меню Сервис, то необходимо установить в Excel пакет анализа
данных);
выбрать строку Описательная статистика и нажать кнопку Оk
в появившемся диалоговом окне указать входной интервал, то есть ввести
ссылки на ячейки, содержащие анализируемые данные;
66
указать выходной интервал, то есть ввести ссылку на ячейку, в которую будут
выведены результаты анализа;
в разделе Группирование переключатель установить в положение по столбцам
или по строкам;
установить флажок в поле Итоговая статистика и нажать Ок.
Пример Провести статистический анализ методом описательной статистики
доходов населения в регионе 1 и регионе 2 с использованием пакета электронных таблиц
Excel.
1
1
1
1
1
1
1
1
1
491
500
50
2401
0
49
51
49
51
49
51
49
51
49
51
500
50
сумма
среднее
1,11
дисперсия
1,05
49
51
50
49
-
станд. отклонение
квартили
квартили
медиана
мода
154,
95
1
1
1
1
10 2,57
3,16
0
эксцесс
скос(ассиметрия)
Задания для самостоятельной работы
1. Наблюдение посещаемости четырех лекций мероприятий в экспериментальной (20
человек) и контрольной (30 человек) группе дали значения (соответственно): 18, 20,
20, 18 и 15, 23, 10, 28. Требуется найти среднее значение, стандартное отклонение,
медиану и квартили этих данных.
2. Найти среднее значение, медиану, стандартное отклонение и квартили результатов
бега на дистанцию 100 м у группы студентов (с): 12,8; 13,2; 13,0; 12,9; 13,5; 13,1.
3. Определите верхнюю и нижнюю квартиль, выборочную асимметрию и эксцесс для
данных измерений роста групп студенток: 164, 160, 157, 166, 162, 160, 161, 159, 160,
163, 170, 171.
67
4. Найти наиболее популярный туристический маршрут из четырех реализуемых
фирмой, если за неделю последовательно были реализованы следующие маршруты: 1,
3, 3, 2, 1, 1, 4, 4, 2, 4, 1, 3, 2, 4, 1, 4, 4, 3, 1, 2, 3, 4, 1, 1, 3.
5. В рабочей зоне производились замеры концентрации вредного вещества. Получен
ряд значений (в мг./м3): 12, 16, 15, 14, 10, 20, 16, 14, 18, 14, 15, 17, 23, 16. Необходимо
определить основные выборочные характеристики.
68
2.5 Использование электронных таблиц для обработки данных тестирования
В настоящее время существуют два теоретических подхода к созданию тестов:
классическая теория и современная теория IRT (Item Response Theory). Оба подхода
базируются на последующей статистической обработке так называемого сырого балла (raw
score), то есть балла, набранного в результате тестирования. Только после проведения
многократных статистических обработок можно говорить о создании теста с устойчивыми
параметрами качества (надежностью и валидностью).
Для обработки данных, полученных на
этапе тестирования, воспользуемся пакетом MS
Office 2000 и электронными таблицами MS Excel.
После сбора эмпирических данных необходимо
провести
статистическую
обработку,
этап
математико–статистической обработки разобьем
на ряд шагов.
Шаг 1. Формирование матрицы тестовых
результатов.
Результаты ответов студентов на задания
тестов оцениваются в дихотомической шкале: за
каждый правильный ответ студент получает один
балл, а за неправильный ответ или за пропуск
задания – нуль баллов .
Шаг 2. Преобразование матрицы тестовых результатов.
На втором шаге из матрицы тестовых результатов устраняются строки и столбцы,
состоящие только из нулей или только из единиц. В приведенном выше примере таких
столбцов нет, а строк только две. Одна из них, нулевая строка соответствует ответам
одиннадцатого испытуемого, который не смог выполнить правильно ни одного задания в
тесте.
В этом случае вывод довольно однозначен: тест непригоден для оценки знаний такого
студента. Столь же непригоден, но уже по другой причине, тест для оценки знаний
двенадцатого студента, который выполнил правильно все без исключения задания теста.
Причина непригодности теста заключается в его излишней легкости, не позволяющий
выявить истинный уровень подготовки двенадцатого студента.Таким образом, на данном
шаге необходимо удалить из матрицы данных 11 и 12 строки.
Шаг 3. Подсчет индивидуальных баллов испытуемых и количество правильных
ответов на каждое задание теста.
Индивидуальный балл испытуемого получается суммированием всех единиц,
полученных им за правильное выполнение
задания теста. В Excel для суммирования
данных по строке можно воспользоваться
кнопкой Автосумма
на панели
инструментов Стандартная. Для удобства
полученные индивидуальные баллы (Хi)
приводятся в последнем столбце матрицы
результатов
Число правильных ответов на задания
теста (Yi) также получается суммированием
единиц, но уже расположенным по столбцам.
69
Шаг 4. Упорядочение матрицы результатов.
Значения индивидуальных баллов необходимо отсортировать по возрастанию, для
этого в MS Excel:
1.
выделим блок ячеек, содержащих номера испытуемых, матрицу результатов и
индивидуальные баллы. Начинать выделение необходимо со столбца X (индивидуальные
баллы).
2.
на панели инструментов Стандартная нажимаем на кнопку Сортировка по
возрастанию
. Матрица результатов примет вид.
Шаг 5. Графическое представление данных.
Эмпирические результаты тестирования можно представить в виде полигона частот,
гистограммы, сглаженной кривой или графика. Для построения кривых упорядочим
результаты эксперимента и подсчитаем частоту получения баллов.
Для расчета рейтинга (ранга) каждого учащегося по индивидуальным балам
необходимо применить функцию РАНГ, которая возвращает ранг числа в списке чисел. Ранг
числа – это его величина относительно других значений в списке. В MS Excel 2000 для
вычисления ранга используется функция
РАНГ (число; ссылка; порядок), где
Число – адрес на ячейку, для которой определяется ранг.
Ссылка - ссылка на массив индивидуальных баллов (выборка).
Порядок – число, определяющее способ упорядочения. Если порядок равен 0 (нулю),
или опущен, то Excel определяет ранг числа так, как если бы ссылка была списком,
отсортированным в порядке убывания. Если порядок – любое ненулевое число, то Excel
определяет ранг числа так, как если бы ссылка была списком, отсортированным в порядке
возрастания.

Замечание. Функция РАНГ присваивает повторяющимся числам одинаковый
ранг. При этом наличие повторяющихся чисел влияет на ранг последующих чисел.
70
Например, если в списке целых чисел дважды встречается число 10, имеющее ранг 5, число
11 будет иметь ранг 7 (ни одно из чисел не будет иметь ранг 6).
По частотному распределению можно построить гистограмму. Гистограмму можно
построить и по индивидуальным баллам.
При разработке тестов необходимо помнить о том,
что кривая распределения индивидуальных баллов,
получаемых по репрезентативной выборке, является
следствием кривой распределения трудности заданий теста.
Для первого распределения слева характерно явное
смещение в тесте в сторону легких заданий, что,
несомненно, приведет к появлению большого числа
завышенных баллов у репрезентативной выборки
студентов. Большая часть студентов выполнит почти все
задания теста.
Второй случай (слева) отражает существенное
смещение в сторону трудных заданий при разработке теста,
что не может не сказаться на снижении результатов студентов, поэтому распределение
индивидуальных баллов имеет явно выраженный всплеск вблизи начала горизонтальной оси.
Основная часть выполнит незначительное число наиболее легких заданий теста.
B третьем случае задания теста обладают оптимальной трудностью, поскольку
распределение имеет вид нормальной кривой.
Отсюда автоматически возникает нормальность распределения индивидуальных
баллов репрезентативной выборки студентов, что в свою очередь позволяет считать
полученное распределение устойчивым по отношению к генеральной совокупности.
В профессионально разработанных нормативно-ориентированных тестах типичным
является результат, когда приблизительно 70% испытуемых выполняют правильно от 30 до
70% заданий теста. а наиболее часто встречается результат в 50%.
Шаг 6. Определение выборочных характеристик результатов.
На данном этапе необходимо вычислить среднее значение, моду, медиану, дисперсию,
стандартное отклонение выборки, ассиметрию и эксцесс.
Степень отклонения распределения наблюдаемых частот
выборки от симметричного распределения, характерного для
нормальной кривой, оценивается с помощью асимметрии.
Наличие асимметрии легко установить визуально, анализируя
полигон частот или гистограмму. Более тщательный анализ
можно провести с помощью обобщенных статистических
характеристик, предназначенных для оценки величины
асимметрии в распределении.
71
Функция СКОС MS Excel возвращает ассиметрию распределения.
СКОС (число 1; число 2), где число1 – ссылка на массив данных, содержащих
индивидуальные баллы учеников.
При интерпретации полученного значения асимметриии 0,277 необходимо обратить
внимание на то, что величина ассиметрии получилась положительной и небольшой.
Кривые распределения с отрицательной, нулевой и положительной ассиметрией
(слева направо) соответственно.
Асимметрия распределения положительна, если основная часть значений
индивидуальных баллов лежит справа от среднего значения, что обычно характерно для
излишне легких тестов.
Асимметрия распределения баллов отрицательна, если большинство студентов
получили оценки ниже среднего балла. Эффект отрицательной асимметрии встречается в
излишне трудных тестах, не сбалансированных правильно по трудности при отборе заданий
В хорошо сбалансированном по трудности тесте распределение баллов имеет вид
нормальной кривой. Для нормального распределения характерна нулевая асимметрия, что
вполне естественно, так как при полной симметрии каждое значение балла, меньшее
среднего значения, уравновешивается другим симметричным, большим чем среднее.
С помощью эксцесса можно получить представление о том, является ли функция
распределения частот островершинной, средневершинной или плоской.
Для расчета данного параметра применим функцию ЭКСЦЕСС (число1; число2; …),
где число1 – ссылка на массив данных, содержащих индивидуальные баллы учеников.
В том случае, когда распределение данных бимодально (имеет две моды), необходимо
говорить об эксцессе в окрестности каждой моды.
Бимодальная конфигурация указывает на то, что по результатам выполнения теста
выборка разделилась на две группы. Одна группа справилась с большинством легких, а
другая с большинством трудных заданий теста.
Контрольные вопросы
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
Сформулируйте основные задачи математической статистики.
Дайте определение генеральной и выборочной совокупностей.
Какие способы отбора выборки вы знаете? Приведите примеры.
Что такое вариационный ряд?
Приведите пример статистического распределения выборки. Найдите объем выборки.
Что такое статистическая оценка неизвестного параметра генеральной совокупности?
Напишите формулы для нахождения выборочной средней и дисперсии выборки.
Запишите формулы для нахождения генеральной средней и генеральной дисперсии.
Что такое исправленное среднее квадратическое отклонение?
В чем различие между полигоном частот и полигоном относительных частот?
Чему равна площадь прямоугольника в гистограмме частот?
Как определить моду на полигоне частот?
Чему равна площадь одного прямоугольника в гистограмме частот?
Чему равна сумма площадей всех прямоугольников в гистограмме частот?
Может ли значение дисперсии равняться значению стандартного отклонения?
При каких условиях распределение случайных величин может оказаться бимодальным?
Какие факторы должны учитываться при выборе числа интервалов гистограммы?
72
Задачи для самостоятельного решения
1. Из генеральной совокупности найти выборочную среднюю.
xi
1 3
7
12
mi
8 16 6
10
Ответ: 5,45.
2. Из генеральной совокупности извлечена выборка.
xi
-8
1
3
mi
-2
1
1
1
1
4
5
1
2
Найти выборочную среднюю.
Ответ: -1,04.
3.Найти несмещенную оценку дисперсии случайной величины X на основании данного
распределения выборки:
1
xi
2 7 9 0
1 1 1
mi
8 4 0 8
Ответ: 7,73.
4.Найти несмещенную оценку дисперсии случайной величины X на основании данного
распределения выборки:
xi
1 5 6 8
mi
6 4 7 3
Ответ: 6,67.
5.Найти выборочную среднюю по данному распределению выборки:
а)
xi
3140 3150 3180
mi
12
6
б)
12
xi
2430 2460 2500
mi
24
14
12
Ответ: а) 3158; б)2455,2.
6.Найти выборочную дисперсию по данному распределению выборки:
xi
0,002 0,005 0,006
mi
9
6
5
Ответ: 3 10 .
8
7.Найти методом произведениѐ по данному статистическому распределению:
а) выборочную среднюю;
73
б) выборочную дисперсию;
в) выборочное среднее квадратичное отклонение, коэффициент вариации;
г) моду и медиану.
1
xi
12,4
16,4
20,4
24,4
28,4
32,4
36,4
6
xi
110
115
120
125
130
135
140
11
xi
-10
-5
-1
4
8
16
24
16
xi
0,2
0,3
0,5
0,6
0,9
0,11
0,12
21
mi
5
15
40
25
8
4
3
2
xi
26
32
38
44
50
56
62
mi
5
10
30
25
15
10
5
7
xi
45
50
55
60
65
70
75
mi
25
44
16
46
14
28
27
12
xi
430
450
500
510
530
550
560
mi
16
11
10
13
14
6
20
17
xi
3150
3170
3200
3230
3250
3270
3300
22
mi
5
15
40
25
8
4
3
3
xi
10,6
15,6
20,6
25,6
30,6
35,6
40,6
mi
4
6
10
40
20
12
8
8
xi
10,2
10,9
11,6
12,3
13
13,7
14,4
mi
30
18
12
31
14
28
27
mi
14
6
20
8
14
10
18
13
xi
0,01
0,04
0,08
0,14
0,17
0,2
0,25
18
xi
-4
-1
2
8
9
11
15
16
23
mi
8
10
60
12
5
3
2
4
xi
100
110
120
130
140
150
160
mi
8
10
60
12
5
3
2
9
xi
12,5
13
13,5
14
14,5
15
15,5
mi
19
28
31
22
30
18
12
mi
16
8
14
12
24
14
10
2
14
xi
2
6
8
9
10
14
16
22
19
xi
47
50
52
56
59
61
65
24
mi
4
6
10
40
20
12
8
5
xi
130
140
150
160
170
180
190
mi
5
10
30
25
15
10
5
mi
5
15
40
25
8
4
3
10
xi
105
110
115
120
125
130
135
mi
4
6
10
40
20
12
8
mi
20
13
12
5
13
24
14
9
mi
24
16
23
17
40
44
16
15
xi
3
6
8
14
17
20
25
20
xi
-6
-2
2
5
9
10
13
mi
8
14
10
18
14
26
20
mi
11
13
14
12
29
11
10
25
74
xi
14
15
18
20
30
32
37
26
xi
30
32
37
10
16
26
mi
15
12
11
12
41
28
31
xi
381
385
389
392
397
402
409
mi
41
28
31
14
18
18
27
xi
0,1
0,3
0,5
0,02
0,05
0,08
mi
54
22
24
21
32
23
24
mi
16
21
13
32
29
39
xi
-6
-3
-2
1
3
4
6
8
28
xi
-3
-1
5
7
6
9
11
14
mi
12
2
14
3
16
1
8
4
xi
16
20
22
30
38
42
46
29
xi
246
250
257
421
428
432
mi
15
11
25
19
21
32
23
24
mi
14
26
17
3
52
36
12
mi
24
12
14
32
44
24
xi
15
26
31
42
47
50
mi
426
318
256
246
250
257
30
xi
15
18
23
24
44
48
52
mi
13
3
14
8
29
46
25
8.По таблицам, данным в теме «Выборочная функция распределения», (Задачи для
самостоятельного решения, задача 4) вычислить:
1)выборочную среднюю;
2)выборочную дисперсию;
3)среднее квадратичное отклонение и коэффициент вариации;
4)построить полигон, гистограмму, кумуляту;
5)найти моду и медиану.
9.Дано распределение признака Х (случайной величины Х), полученной по n
наблюдениям.
xi
0
6
7
8
9
10
mi
146 97 73 34 23 10 6
3
4
2
2
1
2
3
4
5
Необходимо:
1. Построить полигон (гистограмму), кумуляту и эмпирическую функцию
распределения Х;
2. Найти:1) выборочную среднюю x ;
2) медиану Me и моду Mо ;
3) дисперсию D , среднее квадратическое отклонение
и коэффициент вариации V ;
4)начальные V k и центральные k моменты k -го порядка ( k =1,4);
5)коэффициент асимметрии A и эксцесс E .
А) Х – число сделок на фондовой бирже за квартал, n=400 (инвесторов).
75
Ответ: x =1,535;
Me =1, Mо =0;
=1,838;
D =3,378
V =54,3%;
V1 =1,535
1 =0;
V2 =5,735
2 =3,378;
V3 =30,38
3 =-11,2039;
V4 =201,605
A =-3,32
=79,494113;
E =3,97.
4
Б)X – месячный доход жителя региона (в руб.) , n=1000 (жителей).
Менее 50010002000Свыше
1500-2000
500
1000
1500
2500
2500
mi 58
96
239
328
145
132
При наличии открытых интервалов Х типа «менее xi » или «свыше x n » для проведения
расчетов их условно заменяют интервалами той же ширины k , т.е. x1 k; x1 или
xn ; xn k .
Ответ: x =1653;
Me =1663, Mо =1665;
=667,5;
D =445591,
V =40,4%;
V1 =1653, V2 =317800.
xi
В) X – удой коров на молочной ферме за лактационный период (в ц.), n=100 (коров).
xi
4-6
6-8
8-10
1012
1214
1416
mi
1
1618
3
1820
6
2022
11
2224
15
2426
20
6
2
xi
mi
14
12
10
Ответ: : x =15,6;
Me =15,4; Mо =14,9;
=4,36;
D =19;
V =27,9%;
V1 =15,6
1 =0;
V2 =262,36
2 =19,0;
V3 =4685,76
3 =0,144;
V4 =87874,12
4
=898,0098.
10 Кредиторская задолженность предприятий за отчетный период характеризуется
данными тыс. руб:40, 60, 80, 50, 74, 90, 120, 45, 70, 92,100, 52, 67, 83, 70, 74, 63, 75, 85,
76
110. Постройте ряд распределения предприятий по размеру кредиторской
задолженности, образовав 4 группы с разными интервалами. По данным ряда
распределения определите
а) структуру предприятий по размеру кредиторской задолженности;
б) коэффициент вариации, если известно, что дисперсия изучаемого признака = 361.
Решение
А) построении ряда с равными интервалами величина интервала
Группы
40-60
60-80
80-100
100-120
Число
4
8
5
2
В%
25
40
25
10
Х
50
70
90
110
Б) 33% совокупность достаточно однородна, а среднее надежно
11. По данному распределению найти:
1) выборочную среднюю x ;
2) дисперсию D , среднее квадратическое отклонение
и коэффициент вариации V ;
3) начальные V k и центральные k моменты k -го порядка ( k = 1, 4 );
4) коэффициент асимметрии A и эксцесс E .
вариант распределение
xi
-6
-2
1
mi 12
14
xi
-10
-5
2
mi 25
44
xi
4
8
3
mi 31
14
xi
430 450
4
mi 30
18
xi
0,01 0,04
5
mi 19
28
xi
2
6
6
mi 20
13
xi
10
14
7
mi 13
24
xi
3
6
8
mi 8
14
xi
0,2
0,3
9
mi 16
11
xi
3150 3170
10
mi 14
6
11
xi
-4
-1
вариант распределение
3
6
xi -3
1
16
16
8
mi 2
3
-1
4
xi 16
20
17
16
15
mi 14
26
16
24
xi 38
42
18
28
27
mi 52
36
500
xi 15
26
19
12
mi 426 318
0,08 0,14
xi 4
8
20
31
22
mi 12
24
8
9
xi 30
32
21
12
5
mi 41
28
16
22
xi 0,1 0,3
22
14
9
mi 16
21
8
14
xi 0,02 0,05
23
10
18
mi 32
29
0,5
0,6
xi 10
16
24
10
13
mi 14
18
3200
xi -3
-1
25
20
mi 15
11
2
8
26
xi 6
9
4
1
22
17
46
12
31
256
10
38
37
31
0,5
13
0,08
39
26
18
5
25
11
8
4
30
3
14
26
7
19
14
77
12
13
14
15
mi
xi
mi
xi
mi
xi
mi
xi
mi
16
47
24
-6
11
14
15
381
54
8
50
16
-2
13
15
12
385
22
14
52
23
2
14
18
11
389
24
12
56
17
5
12
20
12
27
28
29
30
mi
xi
mi
xi
mi
xi
mi
xi
mi
21
246
24
421
32
15
13
44
29
32
250
12
428
44
18
5
48
46
23
257
14
432
24
23
14
52
25
24
24
8
78
3.Характеристика основных законов распределения
При построении математической модели для проверки статистической гипотезы
необходимо ввести математическое предположение о законе распределения случайной
величины (параметрический путь построения модели).
Распределение вероятностей одно из центральных понятий теории вероятности и
математической статистики. Распределение вероятностей некоторой случайной величины,
возможные значения которой x1, x2, … xn образуют выборку, задается указанием этих
значений и соответствующих им вероятностей p1, p2,… pn. (pn должны быть положительны и
в сумме давать единицу).
Закон распределения вероятностей можно задать таблично, аналитически (в виде
формулы) и графически.
 Определение Закон распределения вероятностей дискретной случайной величины соответствие между возможными значениями измеряемой величины (признака) и
вероятностью, с которой это значение появляется в результате проведения измерений.
Для непрерывных случайных величин закон распределения обычно задаѐтся в двух
формах: в виде интегрального и дифференциального законов распределения. Среди всех
вероятностных распределений есть такие, которые используются на практике особенно
часто. Многие из этих распределений лежат в основе целых областей знаний – таких, как
теория массового обслуживания, теория надежности, контроль качества, теория игр.
Рассмотрим наиболее известные распределения.
3.1 Биноминальное распределение
Биноминальному распределению подчинены случайные величины, описывающие
события, имеющие только два возможных исхода: например, число бракованных изделий в
выборках из партий продукции больших размеров и т. п.
Представляет собой распределение вероятностей числа наступлений некоторого
события («удачи») в n повторных независимых испытаниях, если при каждом испытании
вероятность наступления этого события равна p. При этом распределении разброс вариант
(есть или нет события) является следствием влияния ряда независимых и случайных
факторов.
Для биноминального распределения характерно следующее: пусть проводится п
независимых испытаний, в которых вероятность появления некоторого события равна р, а
вероятность его не появления q = 1 - р . Биноминальное распределение описывает
распределение случайных дискретных величин и зависит от двух параметров - n и p. При
этом вероятность р не изменяется от опыта к опыту. Тогда вероятность того, что в п
испытаниях событие появится ровно т раз ( 0 m n ), определяется выражением
p( X
m)
Cnm p m q n
m
Это выражение является формулой Бернулли, определяющей закон биноминального
распределения. Если случайная величина Х подчинена этому закону, то еѐ числовые
характеристики (математическое ожидание, дисперсия, средне квадратичное отклонение)
определяются выражениями:
M (X ) M
np, D( X )
D npq,
x
npq .
Примером является выборочный контроль качества производственных изделий, при
котором отбор изделий для пробы производится по схеме случайной повторной выборки, т.е.
когда проверенные изделия возвращаются в исходную партию. Тогда количество
нестандартных изделий среди отобранных есть случайная величина с биномиальным
законом распределения вероятностей.
79
Пример Контроль качества партии фармакологического препарата. Требуется
подсчитать число изделий (упаковок), не соответствующих требованиям. Все причины,
влияющие на качество препарата, принимаются одинаково вероятными и не зависящими
друг от друга. Сплошная проверка качества в этой ситуации не возможна, поскольку
изделие, прошедшее испытание, не подлежит дальнейшему использованию.
Поэтому для контроля из партии наудачу выбирают определенное количество
образцов изделий (n). Эти образцы всестороннее проверяют и регистрируют число
бракованных изделий (k). Теоретически число бракованных изделий может быть любым, от 0
до n. Практическре использование биноминального закона распределения.
Пример отдел продаж магазина бытовой техники в среднем получает один
заказ на покупку телевизоров из 10 звонков. Составить закон распределения вероятностей на
покупку m телевизоров. Построить полигон распределения вероятностей
Решение
В таблице m - число заказов, полученных компанией на покупку телевизора. С nm число сочетаний m телевизоров по n, p - вероятность наступления события А, т.е. заказа
телевизора, q - вероятность не наступления события А, т.е. не заказа телевизора, P m,n вероятность заказа m телевизоров из n. Изображен полигон распределения вероятностей.
3.2 Распределение Пуассона
Этому закону подчинено случайное число событий т, происходящих за определенные
промежутки времени при условии, что эти события независимы друг от друга. При этом
средняя интенсивность их появления постоянна, а вероятность их появления р достаточно
мала.
Формула Пуассона имеет вид:
am a
pm
e
m!
где рm— вероятность появления ровно т событий;
а = пр = const — среднее количество появлений событий за промежуток времени t .
Очень часто в качестве параметра для такого закона распределения используют среднюю
плотность потока событий . В этом случае a
dt .
Числовые характеристики (математическое ожидание, дисперсия, средне квадратичное
отклонение) этого распределения определяются следующими выражениями:
M
D
a
np,
x
np
80
Закон распределения Пуассона зависит от одного параметра а , который одновременно
является и математическим ожиданием, и дисперсией случайной величины Х,
распределенной по закону Пуассона.
Данное распределение хорошо описывает число отказов машин и оборудования,
работающих независимо друг от друга; количество деталей или изделий, поступающих на
контроль и т. п.
Пример в среднем за день в компанию по продаже телевизоров поступает
около 100 звонков. Вероятность заказа телевизора марки А равна 0,08; B - 0,06 и C - 0,04.
Составить закон распределения заказов на покупку телевизоров марок А,В и С. Построить
полигон распределения вероятностей. Из условия имеем: m=100, λ1=8, λ2=6, λ3=4 ( ≤10)
Если n достаточно большое и стремится к бесконечности, а значение p стремится к нулю,
так что произведение np стремится к постоянному числу, то данный закон является
приближением к биномиальному закону распределения. Из графика видно, что чем больше
вероятность р, тем ближе кривая расположена к оси m, т.е. более пологая. Необходимо
отметить, что биномиальный, закон распределения Пуассона выражают распределение
вероятностей дискретной случайной величины.
3.3 Равномерное распределение
Случайная непрерывная величина X распределена равномерно на отрезке [a; b], если на
этом отрезке плотность вероятности постоянна, а вне отрезка равна нулю:
0,
если x a
f(x)
c Const если a x b
0,
если x b
Величина с определяется из соотношения:
b
f ( x)dx
cdx 1
a
,
c
1
b a
Числовые
характеристики
случайной
величины
Х
(математическое
ожидание,
дисперсия, средне квадратичное отклонение),
имеющей
равномерное
распределение,
определяются по формулам
81
M
b a
, D
2
(b a)2
,
12
x
b a
2 3
Примерами равномерно распределенных величин являются ошибки округления
3.4 Показательное распределение
Случайная непрерывная величина распределена по показательному закону, если
плотность вероятности определяется зависимостью
f( x)
e x для x 0 и f ( x ) 0
для
x 0
где λ - параметр обратно-пропорциональный математическому ожиданию.
Интегральная функция распределения для этого закона имеет вид:
x
F( x )
x
f ( x )dx
e
x
dx 1 e
x
0
График плотности и функции распределения вероятности с параметрами λ = 2, λ = 4, λ =6
Время Т безотказной работы компьютерной системы есть случайная величина,
имеющая показательное распределение с параметром , физический смысл которого – среднее
число отказов в единицу времени, не считая простоев системы для ремонта
3.5 Нормальное распределение
Нормальное (гауссовское) распределение занимает центральное место в теории и
практике вероятностно-статистических исследований. В качестве непрерывной
аппроксимации к биномиальному распределению его впервые рассматривал А.Муавр в 1733
г. Через некоторое время нормальное распределение снова открыли и изучили К.Гаусс (1809
г.) и П.Лаплас, которые пришли к нормальной функции в связи с работой по теории ошибок
наблюдений.В практике проведения экономических исследований наиболее часто
встречается именно гауссовый (он часто называется нормальный) закон распределения,
поэтому данный закон имеет важнейшее значение в теории математической статистики.
Термин «нормальное распределение» принадлежит К. Пирсону.
Гауссовый закон распределения с x a и стандартным отклонением, равным , задается
либо плотностью вероятности
f(x)
1
e
2
( x a )2
2
2
,
либо в виде интегральной функции распределения
82
F( x )
1
2
( x a )2
x
e
2
2
dx
Для гауссового закона распределения асимметрия равна нулю (A = 0), эксцесс E = 3 4 , а
0.
коэффициент эксцесса
Отсюда, в частности, вытекает возможность оценок асимметрии и эксцесса эмпирических
распределений. По значениям A, E можно в определенной мере судить, насколько
эмпирическое распределение близко к гауссовому.
Функция f(x) обладает следующими свойствами:
1. Функция определена на всей оси х.
2. При всех значениях х функция принимает положительные значения.
3. Предел функции при неограниченном возрастании х (по абсолютной величине) равен
нулю, т.е. ось Oх является горизонтальной асимптотой графика.
1
4. При х = а функция имеет максимум, равный
.
2
5. График функции симметричен относительно прямой х = а.
6. Точки графика, соответствующие х =а- и х= а+ , являются точками перегиба.
При
изменении
величины
математического ожидания кривая будет
смещаться вдоль оси Ох. На графике
видно, что при х=3 кривая имеет максимум,
т.к. математическое ожидание равно 3.
Если математическое ожидание примет
другое значение, например а=6, то кривая
будет иметь максимум при х=6. Говоря о
среднем квадратическом отклонении, как
можно увидеть из графика, чем больше
среднее квадратическое отклонение, тем
меньше максимальное значение плотности
вероятности случайной величины.
Функция, которая выражает распределение случайной величины на интервале (-∞,х), и
имеющая нормальный закон распределения, выражается через функцию Лапласа по
следующей формуле
Т.е. вероятность случайной величины Х состоит из двух частей: вероятности, где x
принимает значения от минус бесконечности до а, равная 0,5 и вторая часть - от а до х.
83
3. 6 Распределение
2
(хи-квадрат)
Пусть Xi (i=1,2,....,n) —независимые случайные величины, распределенные по
гауссовскому закону, причем математическое ожидание каждой из них равно нулю, а средне
квадратичное отклонение — единице. Тогда сумма квадратов этих величин
2
n
X i2
i 1
2
распределена по закону
(''хи квадрат") с k = n степенями свободы.
Распределению хи-квадрат с k степенями свободы соответствует распределение суммы
квадратов n стандартизованных случайных величин, каждая из которых распределена по
нормальному закону, причем k из них независимы.
Плотность этого распределения
0
x 0
1
x/2 k/2 1
f(x)
e
x
x 0
2k / 2 Г ( k / 2 )
где Г (х) =
t x 1e t dt - гамма-функция, в частности, известно, что Г(п+1)=п!
Распределение 2 определяется одним параметром — числом степеней свободы k. С
увеличением числа k распределение медленно приближается к гауссовому.
Число степеней свободы k определяет количество независимых слагаемых. Функция
плотности при k, равном одному или двум, – монотонная, а при k >2 – унимодальная,
несимметричная.
Рис. Плотность распределения хи-квадрат
Математическое ожидание и дисперсия равны соответственно k и 2k.
Плотность вероятности случайной величины, распределенной по распределению χ ² имеет
вид
84
Из графика видно, что чем больше n=k, тем кривая стремиться к нормальному
распределению
Распределение хи-квадрат является частным случаем более
общего гамма-распределения, а величина, равная корню
квадратному из хи-квадрат с двумя степенями свободы,
подчиняется распределению Рэлея. С увеличением числа
степеней свободы (k >30) распределение хи-квадрат
приближается
к
нормальному
распределению
с
математическим ожиданием k и дисперсией 2k. В таких
случаях погрешность аппроксимации не превышает
нескольких процентов.
Критерий не рекомендуется использовать, если:
a. сумма объемов двух выборок меньше 20;
b. хотя бы одна из абсолютных частот, составленной на основе
экспериментальных данных, меньше 5.
3.7 t - распределения Стьюдента
Распределение Стьюдента— это однопараметрическое семейство абсолютно
непрерывных распределений. Названо в честь Уильяма Сили Госсета, который первым
опубликовал работы, посвящѐнные распределению, под псевдонимом «Стьюдент».
Распределение Стьюдента используется при проверке статистических гипотез при
небольшом объѐме выборки. Изучать малые выборки начал английский статистик В.С.
Госсет (псевдоним Стьюдент) в 1908 году. Он доказал, что оценка расхождения между
средней малой выборки и генеральной средней подчинена особому закону распределения.
Пусть Z — гауссовая случайная величина с математическим ожиданием равным нулю, и
средне квадратичном отклонением равным единице, а V — независимая от Z величина,
которая распределена по закону 2 с k степенями свободы. В этом случае величина
Z
T
V /k
имеет распределение, называемое t- распределением Стьюдента с k степенями свободы. С
возрастанием числа степеней свободы распределение Стьюдента быстро приближается к
гауссовому.
Плотность вероятности распределения Стьюдента имеет вид
85
Из графика можно увидеть, что чем больше k, тем больше кривая приближается к
нормальному распределению.
Распределение Стьюдента используется для точечного оценивания, построения
доверительных интервалов и тестирования гипотез, касающихся неизвестного среднего
статистической выборки из нормального распределения.
Распределение Стьюдента по сути представляет собой сумму нескольких нормально
распределенных случайных величин. Чем больше величин, тем больше вероятность, что их
сумма будет иметь нормальное распределение. Отличием является то, что хвосты
распределения Стьюдента медленнее стремятся к нулю, чем хвосты нормального
распределения. Таким образом, количество суммируемых величин определяет важнейший
параметр формы данного распределения - число степеней свободы.
О распределении Стьюдента.
Как вычислить критические значения t-критерия Стьюдента в Excel?
=СТЬЮДРАСПОБР(α; ν).
α - уровень значимости,
ν - число степеней свободы.
Кривая плотности t-распределения похожа на кривую нормального распределению, но
имеет более пологую форму.
При количестве степеней свободы ν ≥ 30 t-распределение переходит в нормальное с
параметрами a = 0; σ = √ν/(ν-2).
Обычно распределение Стьюдента появляется в задачах, связанных с оценкой
математического ожидания нормально распределенных случайных величин.
3.8 Распределение Фишера-Снедекора (F)
в теории вероятностей — это двухпараметрическое семейство
абсолютно непрерывных распределений.
Если U и V — независимые случайные величины, распределенные по закону 2 со
степенями свободы k1 и k2, то случайная величина
U / k1
F
V / k2
имеет распределение, называемое F- распределением Фишера-Снедекора со степенями
свободы k1 и k2.
Плотность
вероятности
случайной
величины имеет вид
При стремлении n к бесконечности распределение Фишера-Снедекора стремится к
нормальному закону распределения
86
Введение в дисперсионный анализ F-распределения связано с именем Фишера, хотя сам
Фишер использовал для дисперсионного отношения величину , которая связана с равенством
;
где z-распределение было табулировано Фишером, F-распределние — Снедекором.
В современной практике предпочитают более простое F-распределение, используя его
связь с бета-распределением таблицы неполной бета-функции, играет фундаментальную
роль в математической статистике и появляется в первую очередь как распределение
отношения двух выборочных дисперсий.
3.9 Использование электронных таблиц для построения распределений
Для построения биноминального распределения случайных челичин
в Excel
применяется функция БИНОМРАСП для вычисления вероятности в задачах с
фиксированным числом тестов или испытаний, когда результатом любого испытания может
быть только успех или неудача.
Функция использует следующие параметры:
БИНОМРАСП
(число_успехов;
число_испытаний;
вероятностъ_успеха;
интегральная), где
число_успехов — это количество успешных испытаний;
число_испытаний — это число независимых испытаний (число успехов и число
испытаний должны быть целыми числами);
вероятность_ успеха — это вероятность успеха каждого испытания;
интегральный — это логическое значение, определяющее форму функции.
Если данный параметр имеет значение ИСТИНА (=1), то считается интегральная
функция распределения (вероятность того, что число успешных испытаний не менее
значения число_ успехов);
если этот параметр имеет значение ЛОЖЬ (=0), то вычисляется значение функции
плотности распределения (вероятность того, что число успешных испытаний в точности
равно значению аргумента число_ успехов).
Пример Какова вероятность того, что трое из четырех новорожденных будут
мальчиками?
Решение
Устанавливаем табличный курсор в свободную ячейку, например в А1. Здесь должно
оказаться значение искомой вероятности. Для получения значения вероятности
воспользуемся специальной функцией: нажимаем на панели инструментов кнопку Вставка
функции (fx).
В появившемся диалоговом окне Мастер функций - шаг 1 из 2 слева в поле
Категория указаны виды функций. Выбираем Статистическая. Справа в поле Функция
выбираем функцию БИНОМРАСП и нажимаем на кнопку ОК.
Появляется диалоговое окно функции. В поле Число_s вводим с клавиатуры
количество успешных испытаний (3). В поле Испытания вводим с клавиатуры общее
количество испытаний (4). В рабочее поле Вероятность_s вводим с клавиатуры вероятность
успеха в отдельном испытании (0,5). В поле Интегральный вводим с клавиатуры вид
функции распределения — интегральная или весовая (0). Нажимаем на кнопку ОК.
В ячейке А1 появляется искомое значение вероятности р = 0,25. Ровно 3 мальчика из
4 новорожденных могут появиться с вероятностью 0,25.
Если изменить формулировку условия задачи и выяснить вероятность того, что
появится не более трех мальчиков, то в этом случае в рабочее поле Интегральный вводим 1
87
(вид функции распределения интегральный). Вероятность этого события будет равна 0,9375.
Для построения биноминального распределения случайных величин
в Excel
используются функция НОРМРАСП, которая вычисляет значения вероятности нормальной
функции распределения для указанного среднего и стандартного отклонения.
Функция имеет параметры:
НОРМРАСП (х; среднее; стандартное_откл; интегральная), где:
х — значения выборки, для которых строится распределение;
среднее — среднее арифметическое выборки;
стандартное_откл — стандартное отклонение распределения;
интегральный — логическое значение, определяющее форму функции. Если
интегральная имеет значение ИСТИНА(1), то функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ (0), то
вычисляет значение функция плотности распределения.
Если среднее = 0 и стандартное_откл = 1, то функция НОРМРАСП возвращает стандартное нормальное распределение.
Пример Построить график нормальной функции распределения f(x) при x,
меняющемся от 19,8 до 28,8 с шагом 0,5, a=24,3 и =1,5.
Решение
В ячейку А1 вводим символ случайной величины х, а в ячейку B1 — символ функции
плотности вероятности — f(x).Вводим в диапазон А2:А21 значения х от 19,8 до 28,8 с шагом
0,5. Для этого воспользуемся маркером автозаполнения: в ячейку А2 вводим левую границу
диапазона (19,8), в ячейку A3 левую границу плюс шаг (20,3). Выделяем блок А2:А3. Затем
за правый нижний угол протягиваем мышью до ячейки А21 (при нажатой левой кнопке
мыши).
Устанавливаем табличный курсор в ячейку В2 и для получения значения вероятности
воспользуемся специальной функцией — нажимаем на панели инструментов кнопку
Вставка функции (fx). В появившемся диалоговом окне Мастер функций - шаг 1 из 2 слева
в поле Категория указаны виды функций. Выбираем Статистическая. Справа в поле
Функция выбираем функцию НОРМРАСП. Нажимаем на кнопку ОК.
Появляется диалоговое окно НОРМРАСП. В рабочее поле X вводим адрес ячейки А2
щелчком мыши на этой ячейке. В рабочее поле Среднее вводим с клавиатуры значение
математического ожидания (24,3). В рабочее поле Стандартное_откл вводим с клавиатуры
значение среднеквадратического отклонения (1,5).
В рабочее поле Интегральная вводим с клавиатуры вид функции распределения (0).
Нажимаем на кнопку ОК.
В ячейке В2 появляется вероятность р = 0,002955. Указателем мыши за правый
нижний угол табличного курсора протягиванием (при нажатой левой кнопке мыши) из
ячейки В2 до В21 копируем функцию НОРМРАСП в диапазон В3:В21.
По полученным данным строим искомую диаграмму нормальной функции
распределения. Щелчком указателя мыши на кнопке на панели инструментов вызываем
Мастер
диаграмм.
В
появившемся
диалоговом окне выбираем тип диаграммы
График, вид — левый верхний. После
нажатия кнопки Далее указываем диапазон
данных — В1:В21 (с помощью мыши).
Проверяем, положение переключателя Ряды
в:
столбцах. Выбираем закладку Ряд и с
помощью мыши вводим диапазон подписей
оси X: А2:А21. Нажав на кнопку Далее,
88
вводим названия осей Х и У и нажимаем на кнопку Готово.
Получен приближенный график нормальной функции плотности распределения
3.10 Генерация случайных величин
Еще одним аспектом использования законов распределения вероятностей является
генерация случайных величин. Бывают ситуации, когда необходимо получить последовательность
случайных чисел. Это, в частности, требуется для моделирования объектов, имеющих случайную
природу, по известному распределению вероятностей.
Процедура генерации случайных величин используется для заполнения диапазона ячеек
случайными числами, извлеченными из одного или нескольких распределений.
В MS Excel для генерации СВ используются функции из категории Математические:
СЛЧИС () – выводит на экран равномерно распределенные случайные числа больше или
равные 0 и меньшие 1;
СЛУЧМЕЖДУ (ниж_граница; верх_граница) – выводит на экран случайное число, лежащее
между произвольными заданными значениями.
В случае использования процедуры Генерация случайных чисел из пакета Анализа
необходимо заполнить следующие поля:
- число переменных вводится число столбцов значений, которые необходимо разместить в
выходном диапазоне. Если это число не введено, то все столбцы в выходном диапазоне будут
заполнены;
- число случайных чисел вводится число случайных значений, которое необходимо
вывести для каждой переменной, если число случайных чисел не будет введено, то все строки
выходного диапазона будут заполнены;
- в поле распределение необходимо выбрать тип распределения, которое следует
использовать для генерации случайных переменных:
1. равномерное - характеризуется верxней и нижней границами. Переменные извлекаются с одной и той же вероятностью для всех значений интервала.
2. нормальное — характеризуется средним значением и стандартным отклонением.
Обычно для этого распределения используют среднее значение 0 и стандартное отклонение
1.
3. биномиальное — характеризуется вероятностью успеха (величина р) для некоторого
числа попыток. Например, можно сгенерировать случайные двухальтернативные переменные
по числу попыток, сумма которых будет биномиальной случайной переменной;
4. дискретное — характеризуется значением СВ и соответствующим ему интервалом
вероятности, диапазон должен состоять из двух столбцов: левого, содержащего значения, и
правого, содержащего вероятности, связанные со значением в данной строке. Сумма
вероятностей должна быть равна 1;
5. распределения Бернулли, Пуассона и Модельное.
- в поле случайное рассеивание вводится произвольное значение, для которого необходимо генерировать случайные числа. Впоследствии можно снова использовать это
значение для получения тех же самых случайных чисел.
- выходной диапазон вводится ссылка на левую верхнюю ячейку выходного диапазона.
Размер выходного диапазона будет определен автоматически, и на экран будет выведено
сообщение в случае возможного наложения выходного диапазона на исходные данные.
89
Пример Повар столовой может готовить 4 различных первых блюда (уха, щи,
борщ, грибной суп). Необходимо составить меню на месяц, так чтобы первые блюда
чередовались в случайном порядке.
Решение
1. Пронумеруем первые блюда по порядку: 1 — уха, 2 — щи, 3 — борщ, 4 — грибной
суп. Введем числа 1-4 в диапазон А2:А5 рабочей таблицы.
2. Укажем желаемую вероятность появления каждого первого блюда. Пусть все
блюда будут равновероятны (р=1/4). Вводим число 0,25 в диапазон В2:В5.
3. В меню Сервис выбираем пункт Анализ данных и далее указываем строку Генерация
случайных чисел. В появившемся диалоговом окне указываем Число переменных — 1, Число
случайных чисел — 30 (количество дней в месяце). В поле Распределение указываем
Дискретное (только натуральные числа). В поле Входной интервал значений и вероятностей
вводим (мышью) диапазон, содержащий номера супов и их вероятности. – А2:В5.
4. Указываем выходной диапазон и нажимаем ОК. В столбце С появляются случайные числа: 1,
2, 3, 4.
Задание для самостоятельной работы
1. Сформировать выборку из 10 случайных чисел, лежащих в диапазоне от 0 до 1.
2. Сформировать выборку из 20 случайных чисел, лежащих в диапазоне от 5 до 20.
3. Пусть спортсмену необходимо составить график тренировок на 10 дней, так чтобы
дистанция, пробегаемая каждый день, случайным образом менялась от 5 до 10 км.
4. Составить расписание занятий на неделю для случайного проведения: семинаров,
интеллектуальных игр, лабораторных работ и спец. курса.
5. Составить расписание на месяц для случайной демонстрации на телевидении одного
из четырех рекламных роликов турфирмы. Причем вероятность появления
рекламного ролика №1 должна быть в два раза выше, чем остальных рекламных
роликов.
6. Какова вероятность того, что восемь из десяти студентов, сдающих зачет, получат
«незачет». (0,04)
7. Построить график нормальной функции плотности распределения f(x) при x,
меняющемся от 20 до 40 с шагом 1 при
=3.
1.Первичная обработка статистических данных. Числовые характеристики
выборки.
Для задач №1 и №2:
А. построить дискретный и интервальный вариационные ряды соответственно.
Б. Для задачи №1 построить полигон, гистограмму (задача 2) и кумулятивную кривую.
В. Определить числовые характеристики выборки:
Выборочную среднюю
Выборочную геометрическую
Моду
Медиану
Вариационный размах
Выборочную дисперсию
Выборочное стандартное отклонение
Коэффициент вариации
Асимметрию
Эксцесс
90
Из таблиц выбрать три строки, соответствующие трем последним цифрам зачетки. Если
цифры повторяются, то каждую повторяющуюся цифру увеличить соответственно на 1.
Задача №1
Требуется выявить картину успеваемости студентов, сдавших экзамен по курсу
"Математическая статистика". На курсе 100 человек. В результате изучения отчетных
документов была составлена следующая таблица оценок, полученных студентами по
факультету (в порядке алфавитного списка студентов):
№ п/п
Оценки
0
1
2
3
4
5
6
7
8
9
5
3
3
3
5
5
5
5
5
5
3
4
4
5
5
4
4
4
4
4
4
3
4
4
3
4
4
5
4
3
5
3
4
2
5
3
5
4
5
5
4
4
5
5
4
3
2
3
2
3
3
5
5
4
3
4
3
5
3
4
5
4
4
5
3
2
5
2
5
5
4
5
3
3
4
5
4
4
4
4
2
3
4
5
5
4
5
4
5
5
4
4
5
4
4
5
4
4
4
4
Задача №2
Студенты некоторого факультета, состоящего из 100 человек, написали выпускную
контрольную работу. Каждый студент набрал определенное количество баллов. Приведем
эти баллы (в порядке алфавитного списка студентов):
№
Число баллов, полученных студентами
п/п
0
64
59 116 89 76
55
87
65
99
94
1
76
59 78 34 89
42
91
41
99
49
2
59
66 57 79 65
94
67
103
38
68
3
85
51 78 38 87
43
104
49
58
33
4
53
75 28 67 37
50
98
56
71
83
5
68
58 82 67 57
72
59
86
51
64
6
70
53 32 56 100 57
69
87
82
67
7
37
74 39 84 37
99
47
110
57
96
8
66
46 72 54 75
47
79
61
115 65
9
67
70 24 73 40
58
78
75
87
51
2 Равномерное распределение
2.1. Плотность равномерного распределения сохраняет в интервале (а, b) постоянное
значение, равное С; вне этого интервала f(x)=0. Найти значение постоянного параметра С.
2.2. Закон равномерного распределения задан плотностью вероятности f(x)=1/(b—а) в
интервале (а, b); вне этого интервала f(x)=0. Найти функцию распределения F (х).
2.3. Найти математическое ожидание случайной величины X, равномерно распределенной
в интервале (а, b).
2.4. Найти математическое ожидание случайной величины, X, распределенной
равномерно в интервале (2, 8).
2.5. Найти дисперсию и стандартное отклонение случайной величины X, распределенной
равномерно в интервале (a, b).
91
2.6. Найти дисперсию и стандартное отклонение случайной величины X, распределенной
равномерно в интервале (2, 8).
2.7. Равномерно распределенная случайная величина Х задана плотностью распределения
f(x)= 1/(2l) в интервале (а-1, а+l); вне этого интервала f(x)=0. Найти математическое
ожидание и дисперсию X.
2.8. Диаметр круга х измерен приближенно, причем а<x<b. Рассматривая диаметр как
случайную величину X, распределенную равномерно в интервале {а, b), найти
математическое ожидание и дисперсию площади круга.
2.9. Ребро куба х измерено приближѐнно, причѐм a<x<b. Рассматривая ребро куба как
случайную величину Х, распределѐнную равномерно в интервале (a,b), найти
математическое ожидание и дисперсию объѐма куба.
2.10. Цена деления шкалы амперметра равна 0,1 А. Показания округляют до ближайшего
целого деления. Найти вероятность того, что при отсчете будет сделана ошибка,
превышающая 0,02 А.
3. Нормальное распределение
3.1. Математическое ожидание и стандартное отклонение нормально распределенной
случайной величины Х соответственно равны 10 и 2. Найти вероятность того, что в
результате испытания Х примет значение, заключенное в интервале (12, 14).
3.2. Математическое ожидание и стандартное отклонение нормально распределенной
случайной величины Х соответственно равны 20 и 5. Найти вероятность того, что в
результате испытания Х примет значение, заключенное в интервале (15, 25).
3.3. Автомат штампует детали. Контролируется длина детали X, которая распределена
нормально с математическим ожиданием (проектная длина), равным 50 мм. Фактически
длина изготовленных деталей не менее 32 и не более 68 мм. Найти вероятность того, что
длина наудачу взятой детали больше 55 мм.
3.4. Производится измерение диаметра вала без систематических (одного знака) ошибок.
Случайные ошибки измерения Х подчинены нормальному закону со стандартным
отклонением
10 мм. Найти вероятность того, что измерение будет произведено с
ошибкой, не превосходящей по абсолютной величине 15 мм.
3.5. Автомат изготовляет шарики. Шарик считается годным, если отклонение Х диаметра
шарика от проектного размера по абсолютной величине меньше 0,7 мм. Считая, что
случайная величина Х распределена нормально со стандартным отклонением
0.4 мм.
Найти, сколько в среднем будет годных шариков среди ста изготовленных.
3.6. Деталь, изготовленная автоматом, считается годной, если отклонение ее
контролируемого размера от проектного не превышает 10 мм. Случайные отклонения
контролируемого размера от проектного подчинены нормальному закону со стандартным
5 мм и математическим ожиданием a 0 . Сколько процентов годных
отклонением
деталей изготавливает автомат?
3.7. Случайная величина Х распределена нормально с математическим ожиданием
a 10 . Вероятность попадания Х в интервал (10, 20) равна 0,3. Чему равна вероятность
попадания Х в интервал (0, 10)?
3.8. Случайная величина Х распределена нормально с математическим ожиданием
a 25 . Вероятность попадания Х в интервал (10, 15) равна 0,2. Чему равна вероятность
попадания Х в интервал (35, 40)?
3.9. Случайная величина Х распределена нормально с математическим ожиданием a 10
5 . Найти интервал, симметричный относительно
и стандартным отклонением
математического ожидания, в который с вероятностью 0,9973 попадет величина Х в результате испытания.
92
5
3.10. Случайная величина Х распределена нормально со стандартным отклонением
мм. Найти длину интервала, симметричного относительно математического ожидания, в
который с вероятностью 0,9973 попадет Х в результате испытания.
4. Показательное распределение и его числовые характеристики
4.1. Непрерывная случайная величина Х распределена по показательному закону,
заданному плотностью вероятности f ( x ) 3e 3 x при x 0 ; f ( x ) 0 при x 0 . Найти
вероятность того, что в результате испытания Х попадает в интервал (0.13, 0.7).
4.2. Непрерывная случайная величина Х распределена по показательному закону,
заданному при x 0 плотностью распределения f ( x ) 0.04 e 0.04 x ; при x 0 функцией
f ( x ) 0 . Найти вероятность того, что в результате испытания Х попадает в интервал (1, 2).
4.3. Непрерывная случайная величина Х распределена по показательному закону,
заданному функцией распределения F ( x ) 1 e 0.6 x при x 0 ; при x 0 F ( x ) 0 . Найти
вероятность того, что в результате испытания Х попадет в интервал (2, 5).
4.4. Найти математическое ожидание показательного распределения
f(x)
e x при x 0 ; f ( x ) 0 при x 0 .
4.5. Найти математическое ожидание показательного распределения, заданного при
x 0 : а) плотностью f ( x ) 5e 5 x ; б) функцией распределения F ( x ) 1 e 0.1x .
4.6. Найти: а) дисперсию; б) стандартное отклонение показательного распределения,
заданного плотностью вероятности: f ( x )
e x при x 0 ; f ( x ) 0 при x 0 .
4.7. Найти дисперсию и стандартное отклонение показательного распределения,
заданного плотностью вероятности f ( x ) 10 e 10 x при x 0 .
4.8. Найти дисперсию и стандартное отклонение показательного закона, заданного
функцией распределения F ( x ) 1 e 0.4 x при x 0 .
4.9. Студент помнит, что плотность показательного распределения имеет вид f ( x ) 0
при x 0 , f ( x ) Ce x при x 0 ; однако он забыл, чему равна постоянная С. Требуется
найти С.
4.10. На шоссе установлен контрольный пункт для проверки технического состояния
автомобилей. Найти математическое ожидание и стандартное отклонение случайной
величины Т - времени ожидания очередной машины контролером, если поток машин простейший и время (в часах) между прохождениями машин через контрольный пункт
распределено по показательному закону f ( t ) 5e 5t .
93
4 Проверка статистических гипотез
Статистика как метод исследования имеет дело с данными, в которых интересующие
исследователя закономерности искажены различными случайными факторами, большинство
статистических вычислений сопровождается проверкой некоторых предположений или
гипотез об источнике этих данных.
На разных этапах статистического исследования возникает необходимость в
формулировании и экспериментальной проверке некоторых предположительных
утверждений (гипотез). Часто необходимо знать закон распределения генеральной
совокупности. Если закон распределения неизвестен, но имеются основания предположить,
что он имеет определенный вид (назовем его A ), выдвигают гипотезу: генеральная
совокупность распределена по закону A . Таким образом, в этой гипотезе речь идет о виде
предполагаемого распределения.
Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если
есть основания предположить, что неизвестный параметр равен определенному значению
0 , выдвигают гипотезу:
0.
Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного
известного распределения.
Возможны и другие гипотезы: о равенстве параметров двух или нескольких
распределений, о независимости выборок и многие другие.

Определение Статистическая гипотеза – гипотеза о виде неизвестного
распределения, или о параметрах известных распределений.
Пример
Статистическими будут гипотезы:
 генеральная совокупность распределена по закону Пуассона;
 дисперсии двух нормальных совокупностей равны между собой.
В первой гипотезе сделано предположение о виде неизвестного распределения, во второй
- о параметрах двух известных распределений.
Гипотеза «в 2015г. не будет дождей»
Данная гипотеза не является статистической, поскольку в ней не идет речь ни о виде,
ни о параметрах распределения.
Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если
выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза.
По этой причине эти гипотезы целесообразно различать.
Нулевой (основной) называют выдвинутую гипотезу H 0 .
Конкурирующей (альтернативной) называют гипотезу H 1 , которая противоречит
нулевой.
Например, если нулевая гипотеза состоит в предположении, что математическое
ожидание а нормального распределения равно 10, то конкурирующая гипотеза, в частности,
может состоять в предположении, что a 10 H 0 : a 10; H 1 : a 10 .
Нулевая гипотеза представляет собой такое утверждение, которое принимается тогда,
когда нет убедительных аргументов для его отклонения.
Альтернативную гипотезу принимают только тогда, когда есть убедительное
статистическое доказательство, которое отвергает нулевую гипотезу.
Определяя, какая из двух гипотез будет альтернативной, надо спросить себя: «Какая из
гипотез требует доказательств?».Эта гипотеза и будет альтернативной.
94
Различают гипотезы, которые содержат только одно и более одного предположений.
Простой называют гипотезу, содержащую только одно предположение. Например, если
параметр показательного распределения, то гипотеза H 0 :
5 простая.
Пример Гипотеза H 0 : математическое ожидание нормального распределения равно 3
( известно) - простая.
Сложной называют гипотезу, которая состоит из конечного или бесконечного числа
простых гипотез.
Например, сложная гипотеза H :
5 состоит из бесчисленного множества простых вида
Hi :
bi , где bi любое число, большее 5. Гипотеза H 0 : математическое ожидание
нормального распределения равно 3 ( неизвестно) - сложная.
Для проверки нулевой гипотезы используют специально подобранную случайную
величину, точное или приближенное распределение которой известно.
Эту величину обозначают через U или Z, если она распределена нормально, F или v2 - по
закону Фишера - Снедекора, Т - по закону Стьюдента, 2 - по закону «хи квадрат» и т. д.
Признаем, что и принимая, и отвергая H 0 , мы подвергаем себя определѐнному риску.
В итоге статистической проверки могут быть допущены ошибки двух типов:
1.
Ошибка 1 рода - будет отвергнута правильная гипотеза. Принимается H1 ,
тогда как верна H 0 .
2.
Ошибка 2 рода – будет принята неправильная гипотеза. Примем H 0 , тогда как
на самом деле верна H1 .
Решение
H 0 отвергается
H 0 принимается
Фактически H 0
верно
Ошибка 1 рода
Правильное
решение
Фактически H 0
не верно
Правильное
решение
Ошибка 2 рода
 Определение Критическая область – совокупность значений статистики, при
которых нулевую гипотезу отвергают.
 Определение Критические точки – точки, отделяющие критическую область от
области принятия гипотезы.
Можно предложить следующую схему статистической проверки гипотез :
95
.
Пример H 0 - подсудимый невиновен (гипотеза либо принимается, либо отвергается).
Могут быть 2 ошибки:
1.осудить невиновного (1 рода)
2.оправдать виновного (2 рода)
Последствия ошибок разны.
Пример Идет строительство дома. Однако выявлены ряд ошибок в проекте и самом
строительстве. Продолжать ли стройку? H 0 - продолжать.
Ошибка 1 рода – остановили стройку. Денежные потери.
Ошибка 2 рода – продолжили строительство. Дом обвалился.
Вероятность совершить ошибку 1 рода (отвергнуть правильную H 0 ) обычно
обозначается и называется уровнем значимости.
Если
0.05 , то это означает, что имеется риск в 5 случаях из 100 отвергнуть
правильную гипотезу.
Вероятность совершить ошибку 2 рода (принять H 0 , когда она неверна) обычно
обозначается .
Вероятность 1
не допустить ошибку 2 рода (отвергнуть H 0 , когда она неверна)
называется мощностью критерия.
Возможностью двойной ошибки проверка гипотез отличается от интервального
оценивания, где рассматривалась только одна ошибка.
Пример Процесс производства препарата весьма сложен. Несущественные на
первый взгляд отклонения от технологии вызывают появление высокотоксичной побочной
примеси. В результате партию подвергают исследованию на токсичность биологическими
методами. Исследование лекарства может привести к одному из возможных способов
действия: выпустить партию в продажу (а1), вернуть партию поставщику для доработки или,
может быть, для уничтожения (а2).
Ошибки двух видов, связанные с действиями а 1 и а2 совершенно различны, различна и
важность избежания их. Сначала рассмотрим случай, когда применяется действие а 1, в то
время когда предпочтительнее а2. Лекарство опасно для пациента, в то время как оно
признано безопасным. Ошибка этого вида может вызвать смерть пациентов, употребляющих
этот препарат. Это ошибка первого рода, важнее ее избежать.
Рассмотрим случай когда предпринимается действие а2, в то время когда а1 является
более предпочтительным. Это означает, что вследствие неточностей в проведении
эксперимента партия нетоксичного лекарства классифицировалась как опасная. Последствия
ошибки могут выражаться в финансовом убытке и в увеличении стоимости лекарства.
Отвержение нетоксичной партии лекарства – ошибка второго рода.
Допустимая вероятность ошибки первого рода (Ркр) может быть равна 5% или 1%
(0.05 или 0.01).
Уровень значимости – это вероятность ошибки первого рода при принятии решения
(вероятность ошибочного отклонения нулевой гипотезы).
Альтернативные гипотезы принимаются тогда и только тогда, когда опровергается
нулевая гипотеза. Это бывает в случаях, когда различия, скажем, в средних арифметических
экспериментальной и контрольной групп настолько значимы (статистически достоверны),
что риск ошибки отвергнуть нулевую гипотезу и принять альтернативную не превышает
одного из трех принятых уровней значимости статистического вывода:
первый уровень — 5% (р=5%); где допускается риск ошибки в выводе в пяти случаях
из ста теоретически возможных таких же экспериментов при строго случайном отборе
испытуемых для каждого эксперимента;
96
второй уровень — 1%, т. е. соответственно допускается риск ошибиться только в
одном случае из ста;
третий уровень — 0,1%, т. е. допускается риск ошибиться только в одном случае из
тысячи.
Последний уровень значимости предъявляет очень высокие требования к
обоснованию достоверности результатов эксперимента и потому редко используется.
Процедура проверки нулевой гипотезы в общем случае включает следующие этапы:
1.
задается допустимая вероятность ошибки первого рода (Ркр=0,05)
2.
выбирается статистика критерия (Т)
3.
ищется область допустимых значений
4.
по исходным данным вычисляется значение статистики Т
5. если Т (статистика критерия) принадлежит области принятия нулевой гипотезы,
то нулевая гипотеза принимается (корректнее говоря, делается заключение, что исходные
данные не противоречат нулевой гипотезе), а в противном случае нулевая гипотеза
отвергается и принимается альтернативная гипотеза. Это основной принцип проверки всех
статистических гипотез.
В современных статистических пакетах на ЭВМ используются не стандартные уровни
значимости, а уровни, подсчитываемые непосредственно в процессе работы с
соответствующим статистическим методом. Эти уровни, обозначенные буквой P, могут
иметь различное числовое выражение в интервале от 0 до 1, например, 0,7 0,23 0,012.
Понятно, что в первых двух случаях полученные уровни значимости слишком велики и
говорить о том, что результат значим нельзя. В последнем случае результаты значимы на
уровне 12 тысячных. Это достоверный результат.
При проверке статистических гипотез с помощью статистических пакетов, программа
выводит на экран вычисленное значение уровня значимости Р и подсказку о возможности
принятия или неприятия нулевой гипотезы.
Если вычисленное значение Р превосходит выбранный уровень Ркр, то принимается
нулевая гипотеза, а в противном случае — альтернативная гипотеза. Чем меньше
вычисленное значение Р, тем более исходные данные противоречат нулевой гипотезе.

Определение Статистический критерий (или просто критерий)- случайная
величина K , которая служит для проверки нулевой гипотезы.
Например, если проверяют гипотезу о равенстве дисперсий двух нормальных
генеральных совокупностей, то в качестве критерия K принимают отношение исправленных
выборочных дисперсий:
s12
F
s22
Эта величина случайная, потому что в различных опытах дисперсии будут принимать
различные, наперед неизвестные значения.
Для проверки гипотезы по данным выборок вычисляют частные значения входящих в
критерий величин, и таким образом получают частное (наблюдаемое) значение критерия.
Наблюдаемым значением K набл назначают значение критерия, вычисленное по выборкам.
Например, если по двум выборкам, извлеченным из нормальных генеральных
совокупностей, найдены исправленные выборочные дисперсии s12 20 и s22 5 , то
наблюдаемое значение критерия F
s12 20
Fнабл
4
5
s22
97
Общий алгоритм
1.Сформулировать нулевую и альтернативную гипотезы.
2.Задать уровень значимости (допустимую вероятность ошибки 1 рода).
3.Выбрать подходящий критерий (меру расхождения) K
4. Определить критическую область.
5. По выборочным данным найти фактическое значение критерия..
6.Если наблюденное значение критерия принадлежит критической области, то нулевая
гипотеза отклоняется, иначе – принимается.
Если H 0 принята, она ещѐ не доказана. Говорят, что данные согласуются с H 0
Если гипотеза отвергается, то этот вывод более категоричен.
Пример Для проведения экзамена по курсу «Теория вероятностей» подготовлено 100
вопросов. Если студент знает не менее 60 вопросов, считается, что он усвоил курс и ему
может быть поставлен экзамен. Каждому студенту предлагается 5 вопросов. Студент
получает экзамен, если ответит не менее, чем на 3 вопроса.
Решение
Генеральная совокупность – 100 вопросов. Выборка –5 вопросов. Гипотеза H 0 - «студент
курса не усвоил». Критерием для проверки служит число правильных ответов.
Областью принятия гипотезы является совокупность чисел 0,1,2, а критической областью
– 3,4,5. Пусть «хороший» студент знает 70 из 100 вопросов и объективно должен получить
экзамен. Тогда H 0 неверна. Но возможно, что из 5 вопросов студент будет знать меньше 3 и
не получит экзамен. Произойдет ошибка 2 рода.
Наоборот,
«плохой»
студент,
знающий 30 вопросов, может получить 3 и более известных вопросов. В этом случае будет
отвергнута правильная гипотеза H 0 и произойдет ошибка 1 рода.
Как уменьшить вероятность ошибок 1 и 2 рода? Можно уменьшить вероятность ошибки 1
рода путем сужения критической области (ставить экзамен за 4 или 5 правильных ответов).
Но при этом возрастет и вероятность ошибки 2 рода. Одновременное уменьшение
вероятностей ошибок 1 и 2 рода возможно только за счет увеличения объема выборки, т.е.
числа предлагаемых вопросов.
4.1 Критическая область
Как построить критическую область?
1. Задаем уровень значимости .
2. Зная закон распределения K ищем K кр , исходя из требования (для односторонней
области)
или K K кр
.
K > K кр
3. Находим K набл .
98
Если
K набл
K кр
или
K кр –
K набл
отвергаем
В
H 0 ..
противном случае принимаем H 0 с уровнем значимости
.
Если критерий двусторонний, то критические точки выбираются, исходя из требования
.
K K кр
K > K кр
Чаще всего выбирается так, чтобы
K
K кр
K > K кр
2
.
99
Задачи для самостоятельного решения
1. Ваш друг утверждает, что он умеет различать на вкус два близких сорта яблок если и
не всегда, то хотя бы в четырех случаях из пяти. Вы же склонны считать, что он просто
угадывает.
Сформулируйте оба этих мнения в виде статистических гипотез и предложите какуюлибо процедуру проверки. В чем состоят ошибки первого и второго рода?
2. Урна содержит большое количество белых и черных шаров, 100 раз производится
следующее действие: из урны наугад достается шар, фиксируется его цвет, затем шар
опускается обратно в урну, после чего шары перемешиваются. Оказалось, что 67 раз достали
белый шар. 33 раза - черный. Можно ли на 5%-м уровне значимости принять гипотезу о том,
что доля белых шаров в урне составляет 0,6?
3. Обычно применяемое лекарство снимает послеоперационные боли у 80% пациентов.
Новое лекарство, применяемое для тех же целей, помогло 90 пациентам из первых 100
оперированных. Можно ли на уровне значимости
= 0,05 считать, что новое лекарство
лучше? А на уровне = 0,01?
4. Игральный кубик бросили 60 раз, при этом числа 1, 2, 3, 4,5, 6 выпали соответственно
12, 9, 13, 11, 8, 7 раз. Можно ли на 5%- м уровне значимости отвергнуть гипотезу о
симметричности кубика?
5. Трое рабочих работают на трех одинаковых станках. В конце смены первый рабочий
изготовил 60 деталей, второй - 80, третий -100 деталей. Можно ли на уровне значимости =
0,01 принять гипотезу о том, что производительности труда первых двух рабочих равны
между собой и в 2 раза меньше производительности третьего рабочего?
4.2 Сравнение выборочной средней с математическим ожиданием
На практике часто требуется оценить, соответствуют ли действительности рекламные
данные о параметрах того или иного товара. В этом случае возникает задача сравнения
выборочной средней с анонсируемым значением этого параметра.
Критерии проверки гипотез о выборочной средней
Нулевая
гипотеза
a
a0
Предполо
жение
σ2
известна
Статистика
критерия
xв a0
Z
n
Альтернатив
ная гипотеза
a a0
Критерий
отклонения
гипотезы
Z
Z 0.5
a a0
Z
Z
0.5
2
a a0
σ2
неизвестн
а
T
xв a0
n 1
a a0
t
t1
2 ,n 1
a a0
t
t1
,n 1
a a0
Критические значения статистик на уровне
соответствующим таблицам, исходя из соотношений:
значимости
определяются
по
100
p( Z
Z
)
0.5
p( t
( x)
t1
(Z
2
,n 1
)
(t1
1
2
,n 1
)
1
2
x
1
2
)
0.5
e
t
2
dt
0
функция Лапласа
x
Ф(x)
1,645
0,450
1,96
0,475
Таблица Значение
Число
степеней
свободы
l
9
16
28
36
49
81
Вероятность
0,9
0,95
1,83
1,75
1,69
2,26
2,12
2,05
t
,е
- критерий Стьюдента
=10,98
2,82
2,58
1,677
1,993
Пример Составлена случайная выборка из 64 покупателей, которые интересовались
товаром А. Из них товар А купили 16 человек. Поставщик утверждает, что данный товар
должен привлечь треть покупателей, а среднее квадратичное отклонение σ равно одному
человеку. Проверить нулевую гипотезу при 5% уровне значимости.
Решение:
Предположим, что число покупателей, приобретающих товар А есть случайная величина,
подчиненная нормальному закону распределения. Гипотетическая генеральная средняя при
1
21 человек. Будем считать, что σ=1. Таким образом, речь идет о
этом составит 64
3
проверке гипотезы о числовом значении математического ожидания нормального
распределения при известной дисперсии, т.е. о сравнении гипотетической генеральной
средней 21 с выборочной средней 16 при известном среднем квадратичным отклонении σ.
Нулевая гипотеза в этой задаче имеет вид H0: a0=21; а альтернативная гипотеза, например
H1: a0 21. Возможны и другие альтернативные гипотезы, например H1: a0<21 или H1: a0>21.
Уровень значимость задан: =0,05. В качестве критерия в этом случае рассматривается
функция
Z
xв
a0
n
Функция Z подчинена нормальному закону распределения N(0,1).
Критическая область будет двусторонней, ее образуют интервалы (
определяемые из условий p ( Z
Z крл )
p( Z
Z крn )
2
. Если =0,05, то
; Z крл )
2
( Z крn ;
),
=0,025.
101
Это вероятность попадания случайной величины Z
в левостороннюю или
правостороннюю области.
В этом случае вероятность непопадания случайной величины Z в правостороннюю
критическую область (1-
1
) можно представить следующим образом:
2
p(
2
Z крn )
Z
p(
p(
а p(
1
n
( Z кр
)
Z
0)
p (0
Z
Z крn ) т.к.
0.5 ,
n
( Z крn ) - функция Лапласа в точке Z кр , то
Z крn )
Z
Z
0)
n
( Z кр
)
0 .5
2
0,5
0,5 0,025 0,475 .
2
На основании таблицы значений функции Лапласа находим
n
Z кр
1,96 . Точка
л
Z кр
расположена симметрично и равна -1,96. Следовательно, критическая область состоит
из интервалов (
Рассчитаем
(
; 1,96 )
Z
16
40
21
40 .
1
64
(1,96;
; 1,96 )
(Z
(1,96;
1,96
Z
=
-40
попадает
в
критическую
область
)
n
Z кр
)
Z
0,5
).
,
2
поэтому гипотеза H0: a0=21 отвергается.
Пример По паспортным данным на автомобильный двигатель, расход топлива на 100
км составляет 10л при среднем квадратичном отклонении 2 л. В результате
совершенствования конструкции ожидается, что расход топлива уменьшится. Для проверки
проведены испытания 25 случайно отобранных автомобилей с модернизированными
двигателем: средний расход топлива на 100 км составил 9,2 л. Используя 5%-ый уровень
значимости, проверить гипотезу, утверждающую, что модернизация повлияла на расход
топлива.
Решение: H0: a0=10 H1: a0<10 x в 9,2
σ=2
a0=10
n=25
В качестве критерия в этом случае рассматривается функция Z
xв
a0
.
n
(
Левосторонняя критическая область
P( Z
; Z кр ) ,
определяется из условия
Z кр )
P(
т.к.
p(
Z
0)
0,5
Z 0) P(
а, P(Z кр
Z
Z Zкр ) P(Zкр Z 0) ,
0)
(Zкр ) ,
102
то 0,5
( Z кр ) ,
0,5 и
( Z кр )
( Z кр )
0,5
0,5
0,05
0,45
Z кр =1,645 по таблице функции Лапласа Z кр = -1,645
(
Следовательно, критическая область
; 1,645 )
9,2 10
( Z 2 1,645 Z кр Z 0,5 ), поэтому гипотеза H0
2
2
25
отвергается, т. е. опытные данные подтверждают влияние модернизации двигателя на расход
топлива.
Пример Фирма-поставщик в рекламном буклете утверждает, что средний срок
безотказной работы предлагаемого изделия – 2900 ч. Для выборки 50 изделий средний срок
безотказной работы оказался равным 2720 ч при «исправленном» среднем квадратичном
отклонении 700 ч. При 5%-м уровне значимости проверить гипотезу о том, что значение
2900 ч является математическим ожиданием.
Решение:
Предположим, что случайная величина срока безотказной работы подчинена
нормальному закону распределения. Требуется проверить гипотезу о числовом значения
математического ожидания нормально распределенной величины (генеральной средней) при
неизвестной генеральной дисперсии.
В этом случае в качестве критерия выбирают
Рассчитаем Z
T
xв
a0
,
s
n 1
где x в - выборочная средняя, a0 - математическое ожидание, s - «исправленное» выборочное
среднее квадратичное отклонение.
Случайная величина Т имеет t-распределение (распределение Стьюдента) с l=n-1
степенями свободы.
В данной задаче речь идет о сравнении выборочной средней 2720ч с гипотетическим
математическим ожиданием a0 2900 , при этом «исправленное» выборочное среднее
отклонение равно 700ч. Требуется найти критическую область для нулевой гипотезы H0:
a0=2900 при альтернативной гипотезе H1: a0<2900.
Очевидно, что другие альтернативные гипотезы ( a 0 2900
и a 0 2900 )
нецелесообразны, так как потребитель обычно обеспокоен лишь тем, что срок службы
изделия может оказаться меньше гарантируемого поставщиком.
Критическая область левосторонняя;
л
t кр
находим из условия p (T
t крл )
. При
=0,05 и l=50 - 1=49 в таблице t-распределения, используя линейную интерполяцию
находим:
t1 2
t крл
,l
t 0,9;49 1,677
t крп
1,677
Таким образом критическая область
Рассчитаем t, полагая a0 a0 2900
(
; 1,677 )
103
t
2720 2900
700
180
100
1,8
50 1
t=-1,8попадет в критическую область ω ( t 1,8 1,677 t кр ) .
Поэтому нулевая гипотеза H0 должна быть отвергнута. Следовательно, фирма в рекламе
завышает срок безотказной работы изделия.
Пример На основании сделанного прогноза средняя дебиторская задолженность
однотипных предприятий региона должна составить a0=120 ден. ед. Выборочная проверка
10ти предприятий дала среднюю задолженность x в 135 ден. ед., а среднее квадратичное
отклонение задолженности s=20 ден. ед. На уровне значимости 0,05, выяснить, можно ли
принять данный прогноз?
Решение:
Проверяемая гипотеза H0: a0=120. В качестве альтернативной возьмем гипотезу: a0>120.
Так как генеральная дисперсия σ2 неизвестна, то используем t – критерий Стьюдента.
xв a0
135 120
Статистика критерия T
;t
2,25
s
20
n 1
10 1
=0,05, число степеней свободы l=n-1=9.
Критическое значение статистики
t кр t1 2
Критическая область правосторонняя
t 0,9;9 1,83
,l
(1,83;
), t
2,25
( t t кр ( 2,25 1,83) ), следовательно гипотеза H0 отвергается, т. е. на 5%-ом уровне
значимости сделанный прогноз должен быть отвергнут.
Пример Средний диаметр подшипников должен составлять 35 мм. Однако для
выборки из 82 подшипников он составил 35,3 мм при «исправленном» среднем
квадратичном отклонении 0,1 мм. При 5%-ом уровне значимости проверить гипотезу о том,
что станок, на котором изготавливают подшипники, не требует подналадки.
Решение:
Предположим, что случайная величина диаметра подшипников подчинена нормальному
закону распределения. Требуется проверить гипотезу о числовом значении математического
ожидания нормально распределенной величины при неизвестной генеральной дисперсии. В
этом случае в качестве критерия выбираем функцию
T
xв
a0
s
,
n 1
где x в 35,3 – выборочная средняя, a0 35 – гипотетическое математическое ожидание,
s=0,1 – «исправленное» выборочное среднее
l=n-1=82-1=81 – число степеней свободы
H0: a0=35 H1: a0 35
104
p(T t крл )
p(T t крл )
t крл
1,993
t
t крn
2
0,025; t кр
t1
;l
t 0,95;81 1,993
35,3 35
27
0,1
81
Критическая область двусторонняя
t
(t
(
; 1,993 )
(1,993;
)
n
кр
27 1,993 t )
H0 отвергается, т. е. станок требует подналадки.
Задачи для самостоятельного решения
1. По результатам 10 замеров установлено, что среднее время обслуживания клиента
x 15 минут. Предполагая, что время обслуживания клиента – нормально распределенная
случайная величина с дисперсией σ2=9 мин2, при уровне значимости =0,05 установить,
можно ли принять в качестве норматива (мат. ожидания) для обслуживания одного клиента:
а) 21 мин. б) 16 мин.
Ответ:
Z
6,32
а)
(
H0:
a0=21
; 1,96 )
(1,96;
H1:
a0
21
H0
отвергается,
т.
к.
) т. е. время обслуживания клиента, равное 21 мин.
, в качестве норматива опытными данными не подтверждается
б)
H0:
a0=16
H1:
a0<16
H0
не
отвергается,
т.
к.
Z
1,054 ( ; 1,96 ) (1,96; ) т. е. время обслуживания клиента, равное 16
мин., в качестве норматива не противоречит опытным данным.
2 Среднесуточная продажа хлеба в течение многих лет данного магазина составляла 6 т
при среднем квадратичном отклонении 0,05 т. Сегодня магазином было продано 7 т хлеба.
Можно ли при 5%-м уровне значимости предполагать, что и завтра будет продано 7 т хлеба?
Ответ: H0: a0=6, H1: a0>6. H0 отвергается, т. к Z
предполагать, что и завтра будет продано 7 т хлеба.
20
(1,645;
) , т. е. можно
3. Поставщик удобрений утверждает, что применение новой партии удобрений
обеспечивает урожайность пшеницы в 60 ц/га. Удобрения внесли на площади в 37 га и
получили урожай 55 ц/га при «исправленном» среднем квадратичном отклонении 3 ц/га. При
5%-ом уровне значимости оценить справедливость утверждения поставщика.
Ответ: H0: a0=60, H1: a0<60
10 1,69
H0 должна быть отвергнута, т. к. t
поставщика не согласуется с опытными данными.
t кр . Следовательно, утверждение
4. Фирма-изготовитель женских украшений, выпустив новый товар, утверждает, что 40%
покупателей купят эти украшения. В ходе 10-дневной рекламной распродажи в среднем
105
приобрели украшения 29,5% покупателей, «исправленное» среднее квадратичное отклонение
составило 16,5%. При 5%-ом уровне значимости оценить утверждение изготовителя товара.
Ответ: H0: a0=40; H1: a0<40
H0 должна быть отвергнута, т. к. t
1,909
1,83
t кр
5. Поставщик двигателей утверждает, что средний срок их службы составляет 800ч. Для
выборки из 17 двигателей средний срок службы оказался равным 865ч. при «исправленном»
среднем квадратичном отклонении 120ч. Проверить нулевую гипотезу при уровне
значимости:
а) 5%, б) 1%
Ответ: H0: a0=800, H1: a0>800
а) Гипотеза H0 должна быть отвергнута, т. к. t
б) H0 не отвергается, т. к.
t
2,17
1,75
t кр
2,17 2,58 t кр
6. Из большой партии ананасов одного размера случайным образом отобрано 36 штук.
Выборочная средняя масса одной штуки при этом оказалась равной 930г. Используя
двусторонний критерий при =0,05, проверить гипотезу, что средняя масса одного ананаса
(по утверждению поставщика) составляет 1кг, если:
а) среднее квадратичное отклонение известно и составляет 200г;
б) среднее квадратичное отклонение неизвестно, а 2 «исправленное» составило 250г.
Ответ: H 0 : a0 1 H 1 : a0 1
2,1 ( ; 1,96 ) (1,96; ) т. е. утверждение о том, что
а) H0 отвергается, т. к. Z
средняя масса одного ананаса составляет 1 кг опытными данными не подтверждается.
1,65 (
; 2,032 ) (2,032 ;
) т. е. утверждение о
б) H0 не отвергается, т. к. t
средней массе одного ананаса опытными данными подтверждается.
Задания: Проверить нулевую гипотезу о том, что заданное значение a0 является
математическим ожиданием нормально распределенной случайной величины при 5%-ом
уровне значимости для двусторонней критической области, если в результате обработки
выборки объема n=10 получено выборочное среднее
квадратичное отклонение равно s.
Вариант a0
1
2
3
4
5
6
7
8
9
10
10
20
20
40
58
60
70
70
50
30
xв
12
22
18
44
56
64
66
72
48
34
s
Вариант a0
1
4
2
3
4
6
8
5
2
4
16
17
18
19
20
21
22
23
24
25
100
80
80
50
60
90
80
70
70
60
xв
96
78
84
48
54
96
86
68
74
62
xв ,
а несмещенное среднее
s
6
4
3
2
2
5
4
5
6
3
106
11
12
13
14
15
50
90
86
80
60
52
88
84
78
66
3
6
5
4
5
26
27
28
29
30
42
60
30
40
84
46
62
34
38
80
2
3
2
4
6
4.3.Сравнение двух дисперсий
Пусть имеются 2 случайные величины X=N(ax,σx) и Y=N(ay,σy) с неизвестными
дисперсиями и две независимые выборки x1, x2,…,xn и y1, y2,…,ym.
Требуется по полученным выборочным оценкам
n
( xi
где x в
и Dy
i 1
Dx
n 1
1
n
n
m
x) 2
xi и y в
i 1
1
m
m
( yi y) 2
i 1
m 1
,
y i проверить гипотезу
H 0 : Dx
Dy .
i 1
В качестве критерия при проверке гипотезы H0 используют функцию F (l1 , l 2 )
Dx
, которая
Dy
имеет F-распределение (распределение Фишера-Снедекора) с l1=n-1 и l2=m-1 степенями
Dy
свободы, если полученные по выборкам значения D x D y и F (l2 , l1 )
с l1=m-1 и l2=nDx
1, если D y
Dx
Если задаться уровнем значимости
проверки гипотезы H 0 : Dx
1) H 1 : Dx
, то можно построить критические области для
D y при 2 альтернативных гипотезах:
D y , если D x D y или H 1 : Dx D y , если D x D y . В этом случае критическая
n
область правосторонняя ( f кр ;
n
) , f кр где определяется из условия
f крn )
p ( F (l1 , l 2 )
2) H 1 : Dx
D y . В этом случае критическая область двусторонняя. Однако можно
использовать только правостороннюю область
p( F (l1
n 1, l 2
m 1)
f крn )
2
p( F (l 2
если D x
( f крn ; ) , где f крn определяется из условия
, если D x
D y , и из условия
m 1, l1 n 1)
f крn )
2
,
D y . Если fz попадает в критическую область , то принимается альтернативная
гипотеза H1, в противном случае принимается гипотеза H 0 : Dx D y , при этом оценкой
генеральной дисперсии служит величина
S2
D x (n 1) D y (m 1)
n m 2
.
107
Таблица F-распределения
l1
4
8
9
15
16
l2
4
6,39
9
11
12
24
25
27
3,18
2,54
2,43
3,28
2,29
2,08
Пример Срок хранения продукции, изготовленной по технологии А, составил:
Срок хранения
Число
продукции
xi
5
6
7
единиц ni
4
4
4
а изготовленной по технологии В:
Срок хранения
Число
продукции
единиц
yi
5
6
7
8
mi
1
8
7
1
Предположив, что случайные величины X и Y распределены по нормальному закону,
проверить гипотезу H 0 : D x D y при уровне значимости 0,1 и альтернативной гипотезе
H 1 : Dx
Dy .
Решение: Вычислим «исправленные» выборочные дисперсии
найдем
D x , D y . Для этого вначале
xв , y в
1
n
xв
yв
1
m
n
1
(5 2 6 4 7 4) 6,2
10
xi
i 1
m
1
(5 1 6 8 7 7 8 1) 6,5
17
yi
i 1
n
Dx
1
n
n 1
i 1
( xi
xв ) 2
xi2
n
i 1
n 1
n
xв2
Тогда
10
9
25 2 36 4 49 4
10
6, 22
0, 62
108
m
1
m 1
Dy
17
16
m
( yi
i 1
m
m 1
i 1
m
25 2 36 8 49 7 64 1
6, 52
17
Учитывая, что D x
f
yв ) 2
yi2
Dx
Dy
0,62
0,11
yв2
0,11
D y определим f
5,64
n
Критическое значение f кр находим из условия
p( F (l1 10 1, l 2 17 1)
f крn )
2
0,05
n
По таблице F-распределения определяем f кр 2,54 .
( ; 2,54 ) (2,54; ) .
Двусторонняя критическая область
Так как число f=5,64 попадает в критическую область ω, то гипотезу о равенстве
дисперсий среднего срока хранения продукции, изготовленной по технологиям А и В,
отвергаем.
Задачи для самостоятельного решения
1 На двух станках производят одну и ту же продукцию, контролируемую по наружному
диаметру изделия. Из продукции станка А было проверено 16 изделий, а из продукции
станка В – 25 изделий. Выборочные оценки математических ожиданий и дисперсий
контролируемых размеров составили x A
DB 1,44
1,21 мм2 и x B
36,8 мм при
мм2. Проверить гипотезу о равенстве дисперсий, если =0,1
Ответ:
f
37,5 мм при D A
1,19 (
H 0 : D A DB ,
; 2,29) (2,29;
H 1 : D A DB .
H0
не
отвергается,
т.
к.
)
2.Температура в холодильной камере контролируется по двум электронным термометрам.
Для сравнения точности термометров их показания фиксируются одновременно.
Произведено 10 замеров показаний термометров:
Номер
1
2
3
4
5
6
7
8
9
10
замера
Термометр -7,11 -8,63 -7,23 -7,51 -7,68 -7,91 -6,97 -7,44
-7,64
1
6,89
Термометр -7,13 -8,49 -7,19 -7,67 -7,49 -8,03 -7,15 -7,29
-7,89
2
7,12
109
При уровне значимости 0,1 проверить гипотезу о равенстве дисперсий.
Ответ:
f
2,08 (
H 0 : Dx D y
при
; 3,18) (3,18;
H 1 : Dx
не
Dy
отвергается,
т.
к.
).
3. Фирма поставляет радары для измерения скорости движения автомобилей. Для закупки
большой партии проведены испытания приборов, изготовленных на заводе А и на заводе В.
Измерения проводили на одной и той же машине и на одной и той же дороге. Определены
величины отклонений между показаниями спидометра автомобиля и радара:
Завод А
Отклонение,
км/ч
∆xi
0,7
0,3
0,1
0,5
0,8
0,9
1,0
1,2
1,3
Число
измерений
ni
5
4
2
6
3
1
3
1
1
Завод В
Отклонение, ∆yi
км/ч
Число
mi
измерений
-0,6
-0,1
0,4
0,7
1,0
1,4
4
5
3
2
2
1
Полагая показания спидометра автомобиля эталоном, проверить гипотезу об одинаковой
точности измерений, производимых радарами завода А и завода В, при уровне значимости
0,1
Ответ: H 0 : D x D y при H 1 : D x D y не отвергается, т. к. f 1,13 ( ; 2,08) (2,08; ) ,
т. е. гипотеза об одинаковой точности измерений проводимых радарами заводов А и В, не
противоречит выборочным данным.
Задания: При уровне значимости =0,1 проверить гипотезу о равенстве дисперсий двух
нормально распределенных случайных величин X и Y на основе выборочных данных при
альтернативной гипотезе H 1 : D x
Вариант X
xi
1
142
145
146
148
2
37
38
40
41
42
ni
3
1
2
4
2
1
4
3
6
Y
yi
140
146
147
151
38
39
40
41
43
mi
5
3
2
2
4
3
2
2
3
Dy
Вариант X
xi
16
42
45
46
50
17
30
32
33
34
36
ni
15
17
12
16
4
5
8
1
2
Y
yi
84
87
92
96
30
31
32
34
35
mi
3
2
4
1
6
4
3
5
2
110
3
4
5
6
7
8
9
10
11
12
39
43
45
47
51
3,5
3,7
3,9
4,0
4,1
9
10
11
12
14
6,1
6,5
6,6
7,0
7,4
20
22
23
24
26
0,2
0,4
0,8
1,0
1,2
31
33
34
38
42
15
17
20
21
25
27
29
32
33
82
83
85
90
4
2
3
4
2
1
3
5
4
4
4
5
3
2
1
2
3
1
4
2
3
4
2
2
1
6
4
2
5
3
6
2
1
3
2
1
3
2
4
6
3
9
6
2
2
1
3
4
75
80
84
91
94
3,6
3,7
3,8
4,4
4,2
9
10
11
13
14
5,8
6,0
6,2
6,3
6,8
18
19
20
22
23
0,4
0,5
0,9
1,2
1,4
85
88
95
97
100
20
22
23
25
26
28
29
30
32
-10
-9
-6
-3
4
2
3
4
2
3
5
2
1
4
5
6
4
8
3
6
4
5
2
3
6
3
4
2
5
3
5
6
6
6
1
3
4
2
5
4
2
2
3
1
8
9
4
9
14
18
12
6
18
19
20
21
22
23
24
25
26
27
42
44
48
50
53
31
35
40
42
44
61
62
64
67
68
12
16
19
21
25
44
45
48
52
54
16
18
21
24
25
71
73
75
79
80
70
72
73
75
78
10
11
13
14
6
7
9
10
4
8
3
5
10
7
3
4
2
4
5
4
6
2
3
10
12
14
9
5
5
2
3
4
6
12
10
14
8
6
4
5
8
10
3
12
10
12
8
8
10
14
12
14
1
8
7
2
44
45
46
51
55
29
32
33
35
39
60
63
64
68
70
14
15
20
21
24
43
46
48
50
53
18
25
29
36
40
68
69
70
74
78
16
18
21
25
28
9
10
12
13
6,5
7,4
8,2
9,1
16
12
11
6
5
8
9
12
10
11
4
3
2
6
5
7
6
8
10
9
3
3
4
4
6
3
1
4
6
6
10
14
13
12
11
7
4
8
5
6
5
3
4
8
2
5
3
7
111
13
51
53
55
56
59
12
15
18
19
23
-8
-5
-3
1
3
4
14
15
6
5
4
3
2
2
5
3
1
4
3
2
4
5
4
2
15
18
20
23
27
44
46
47
50
52
10
14
15
18
21
25
7
5
4
3
6
4
5
8
6
7
4
10
9
7
4
6
28
10
11
12
14
16
12,1
12,5
12,7
13,0
13,2
23
25
26
28
29
30
7
5
4
6
8
1
2
4
1
2
8
7
6
9
9
11
12
14
15
12,2
12,4
12,5
12,7
13,0
30
35
41
46
9
12
14
9
6
4
8
3
2
8
7
8
2
3
4.4 Сравнение двух математических ожиданий
Пусть имеются 2 выборки x1, x2, … xn и
y1, y2, …ym, полученные в результате
независимых испытаний. По этим данным рассчитаны оценки
xâ
и
yâ ,
а также D x и
Dy .
В предположении, что случайные величины X и Y распределены по нормальному закону
X=N(ax,σx) и Y=N(ay,σy) требуется проверить на основании выборочных данных гипотезу H0:
ax=ay при условии, что гипотеза о равенстве дисперсий не отвергается.
Таблица t-распределение
l
α
0,05
8
1,86
20
25
27
0,025
2,086
1,708
2,06
2,052
Пример Средний ежедневный объем продаж за 1 квартал текущего года для 17
торговцев района А составляет 15 тыс. рублей при «исправленном» среднем квадратичном
отклонении 2,5 тыс. руб., а для 10 торговцев района В – 13 тыс. руб. при «исправленном»
среднем квадратичном отклонении 3 тыс. руб. Каждую группу можно считать случайной
независимой выборкой из большой совокупности. Существенно ли различие объемов продаж
в районах А и В при 5%-м уровне значимости?
Решение:
112
Предположим, что ежедневный объем продаж подчинен нормальному закону
распределения. Математическое ожидание и среднее квадратичное отклонение законов
распределения для районов А и В неизвестны. Предположим, что дисперсии объемов продаж
одинаковы. В этих условиях возникает задача оценки статической гипотезы H 0 : a x
альтернативной H 1 : a x
a y , если принять за
ax
a y при
математическое ожидание объема продаж
для района А, а за a y – для района В. Выборочные средние x â и y â являются
независимыми нормально распределенными случайными величинами. В этом случае в
качестве критерия используют функцию T
xâ
yâ
2
x
, где S
(n 1)
2
y
(m 1)
.
n m 2
1 1
S
n m
Функция Т подчинена t-распределению для l=m+n-2 степеней свободы.
По таблице t-распределения для l=17+10-2=25 и 5%-го уровня значимости (для
n
двусторонней критической области) α=0,05/2=0,025 находим tкр
( ; 2,06 ) (2,06; ) .
критическая область
Вычислим t:
2
y
2,5 2 (17 1) 3 2 (10 1)
7,24 2,69
n m 2
25
xâ y â
15 13
t
1,86
1 1
1
1
S
2,69
n m
17 10
1,86 критической области
( ; 2,06 ) (2,06; ) , следовательно, разность
S
t
2
x
2,06 . Это значит, что
(n 1)
несущественна и гипотеза H0: a x
(m 1)
a y принимается.
В качестве общей средней выборочной принимают величину x0
15 17 13 10
27
14 .
Пример В условиях предыдущего примера выяснить, существенно ли при 5%-м
уровне значимости превышение объема продаж в районе А по сравнению с объемом в
районе В.
Решение:
В данной задаче, по сравнению с предыдущей, альтернативной к гипотезе H0: a x
становится гипотеза H1: a x
ay .
ay
В этом случае критическая область односторонняя( в
n
частности, правосторонняя), для l=25 и α=0,05 имеем tр 1,708 и критическую
) ;t входит в критическую
(1,708 ; ) , т. к. t=1,86>1,708, т. е. t (1,708 ;
область
область, поэтому превышение объема продаж в районе А по сравнению с объемом в районе
В существенно и гипотеза
H 0 : ax a y
отвергается.
Пример Акционерное общество (АО) выпускает печенье в пачках, на которых
написано: масса нетто 200г. Осуществлена выборка для оценки средней массы печенья в
113
пачках, выпущенных московской и санкт-петербургской фабриками АО. Результаты
выборок таковы (указана масса пачек печенья):
Московская фабрика
201, 195, 197, 199, 202, 198, 199, 203, 195, 196, 198, 199, 194, 203, 195, 202, 197.
Санкт-Петербургская фабрика
203, 207, 191, 193, 197, 201, 196, 192, 194, 195, 198, 196.
Предполагая, что случайная величина массы пачки печенья распределена по
нормальному закону с одинаковыми дисперсиями, и считая выборки независимыми,
определить:
а) средние выборочные и «исправленные» средние квадратичные отклонения массы для
каждой фабрики;
б) для α=0,05 значимо или нет различие между средними выборочными (если это
различие имеется);
в) является ли величина 200г математическим ожиданием массы при 5%-м уровне
значимости?
Решение:
а)
1
xì
(201 195 197 199 202 198 199 203 195 196 198 199 194 203
17
195 202 197 ) 198 ,41
1
(203 207 191 193 197 201 196 192 194 195 198 196) 196,92
12
xс-п
17 1
(
(2012 1952 3 197 2 2 1992 3 2022 2
16 17
1982 2 2032 2 1962 1942 )
2
м
Dм
ì
198, 42 ) 13, 72
12 1
(
(2032 207 2 1912 1932 197 2
11 12
2
194
1952 1982 1962 ) 196, 922 ) 20,83
2
с п
Dс-п
1922
3,7
2012
196 2
4,56
с п
б) Сначала проверим гипотезу H 0 : Dì
f
F (l2 , l1 )
P( F (11,16)
F (11,16)
f
f крn )
Dс п
Dм
Dñ-ï . Т. к Dñ-ï
Dì , то
20,83
1,52
13,72
0, 05
n
f кр 2, 43 . Критическая область правосторонняя
По таблице F-распределения
(2,43; )
(2,43; ) f 1,52
гипотеза H0 не отклоняется.
Найдем оценку генеральной дисперсии
Dì (n 1) Dñ-ï (m 1) 13,72 16 20,83 11
S2
16,62
n m 2
27
añ-ï ; H1 : a ì añ-ï
Теперь проверим H 0 : aì
l=17+12-2=27, α=0,05/2=0,025 (для двусторонней критической области) по таблице tn
распределения tкр
2, 052 .
114
Критическая область
xì
t
xñ-ï
1
n
S
t
0,99
в)
H 0 : a0
(
; 2,052 )
(2,052 ;
)
16,62
4,08
198 ,41 196 ,92
1
m
0,99
1 1
4,08
17 12
разность несущественна и гипотеза H0 не отклоняется.
200; H1 : a0
200
x ì 17
xñ-ï 12 198 ,41 17 196 ,92 12
197 ,79
29
29
Dì 17 Dñ-ï 12 12,91 17 19,09 12
Dâ
15,47
29
29
19
D
15,47 16,02
28
S
D 4,00
Применяем критерий Стьюдента
α=0,05, l=n-1=28 по таблице tкр=t1-α,l=t0,95,28=2,05
(
; 2,05)
Критическая область двусторонняя
xâ
t
S
xв
a0
S
n 1
(197, 79 200)
4
28
2,92
t
(t
2, 92
(2,05;
)
2, 05
n
tкр
)
H0 отклоняется.
Пример. Фирма предлагает автоматы по розливу напитков. При выборке n=16
найдена средняя величина x 182г дозы, наливаемой в стакан автоматом №1. По выборке
m=9 найдена средняя величина y 185г дозы, наливаемой в стакан автоматом №2. По
утверждению изготовителя, случайная величина наливаемой дозы имеет нормальный закон
2
распределения с дисперсией, равной Dx Dy 25г . Можно ли считать отличия выборочных
средних случайной ошибкой при уровне значимости α=0,01?
Решение:
Пусть a x и a y – математические ожидания доз, наливаемых автоматом №1 и автоматом
№2. Нулевая гипотеза H 0 : a x
a y , при альтернативных
H1 : a x
ay
H1 : a x
ay
. Дисперсия известна
σ2=25
В качестве критерия справедливости статистической гипотезы выбирается функция
x y
Z
распределенная по нормальному закону с параметрами (0;1)
Dx D y
n
m
1. Рассмотрим вначале гипотезу H 0 : a x
случае критическая область имеет вид (
P( Z
Z крл )
;
( Z крл )
(
)
( Z крл )
(
)
a y при альтернативной H 1 : a x
a y . В этом
л
; Z крл ) , где Z кр определяется из условия
( Z крп ) 0,5
( Z крп ) 0,5; т. к. функция Лапласа
нечетная.
115
Итак,
п
( Z кр
) , т. е.
0,5
п
( Z крп )
0,5
0, 49
л
2,33
Откуда Z кр 2,33, Z кр
Значит, левосторонняя критическая область (
182 185
3 12
Z
1,44 ( ; 2,33)
25
25 25
16 9
гипотеза H0 принимается.
2. Рассмотрим гипотезу H 0 : a x
a y при альтернативной H1 : a x
критическая область двусторонняя и имеет вид
п
и Z кр рассчитываются из условий
P( Z
1
2
Z крп )
; 2,33)
P( Z
; Z крл )
(
Z крл )
2
и
п
( Z кр
;
P(Z
Z крп )
Z
1,44
a y . В этом случае
) . Величины Z крл
2
( Z крп ) 0,5
( Z крп ) 0,5
( Z крп ) 0,5
2
0,5 0, 005 0, 495
п
По таблице значений функции Лапласа Z кр 2,57
( ; 2,57 ) (2,57;
Критическая область
принимается.
).
гипотеза
H0
116
Задачи для самостоятельного решения
1.Производительность каждого из агрегатов А и В составила (в кг вещества за час
работы):
Номер
замера
1
2
3
4
5
Агрегат
14,1
13,1
14,7
13,7
14,0
Агрегат
14,0
14,5
13,7
12,7
14,1
А
В
Можно ли считать производительность агрегатов А и В одинаковой в предположении,
что обе выборки получены из нормально распределенных генеральных совокупностей, при
уровне значимости α=0,1?
DB ; H1 : DA DB
Ответ: 1 этап: H 0 : DA
H0 не отвергается, т. к. f 1,35 ( ; 6,39 ) (6,39; )
2 этап: H0 : aA
H0 не отвергается, т. к. t
aB ; H1 : aA
0,27
aB
(
; 1,86 )
(1,86;
)
2.Расход сырья на единицу продукции составил:
по старой технологии
Расход сырья
Число
изделий
xi
ni
305
1
307
4
308
4
по новой технологии
Расход сырья
Число изделий
yi
mi
303
2
304
6
305
4
308
1
Предположив, что соответствующие случайные величины X и Y имеют нормальные
распределения с математическими ожиданиями
проверить:
а) при уровне значимости 0,1 гипотезу H 0 : Dx
б) при уровне значимости 0,05 гипотезу H 0 : a x
ax
и
ay
и одинаковыми дисперсиями,
D y при альтернативной H 1 : Dx
a y при альтернативной H 1 : a x
Dy ;
ay .
Ответ: а) H 0 : Dx
D y ; H 1 : Dx D y
H0 не отвергается, т. к. f 1,06 (3,28;
б) H 0 : a x
H0 отвергается, т. к. t
a y ; H1 : a x
3,92
(
)
ay
; 2,086 )
(2,086 ;
)
117
3. В таблице приведены результаты измерения процентного содержания крахмала в
картофеле (исследовали 16 клубней различных сортов картофеля) двумя различными
способами:
№ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 11 9 13 8 6 7 6 12 10 11 14 12 7 5 15 11
2 13 9 13 9 8 9 9 9 11 13 11 12 6 6 13 12
При уровне значимости 0,1 можно ли считать, что крахмалистость картофеля одна и та же
для обоих способов?
Ответ:
H 0 : ax
ay
при
Z
0,39 ( ; 1,64 ( (1,64;
и та же для обоих способов.
H1 : a x
ay
гипотеза
H0
принимается,
т.
к.
) , т. е. можно считать, что крахмалистость картофеля одна
4. Используются два вида удобрений: 1 и 2. Для сравнения их эффективности были
попарно выбраны 20 участков равной площади так, что пару составили участки, однородные
по плодородию. Десять участков были обработаны удобрением 1, а десять, парных им, удобрением 2. На соответствующих парах участков получили следующий урожай:
№ 1
2
3
4
5
6
7
8
9
10
1
8,0
8,4
8,0
6,4
8,6
7,7
7,7
5,6
5,6
6,2
2
5,6
7,4
7,3
6,4
7,5
6,1
6,6
6,0
5,5
5,0
При уровне значимости 5% проверить гипотезу о различном влиянии использования
удобрения 1 или 2.
Ответ: 1) H 0 : a x
a y при H1 : a x
ay
H0 отвергается, т. к. Z 1,96 (1,64;
преимущества 1-го удобрения.
2) H 0 : a x a y при H 1 : a x a y
) ,т. е. статистические данные подтверждают
H0 принимается, т.к. Z 1,934 ( ; 1,96 ) (1,96;
подтверждают преимущества какого-либо удобрения.
3) H 0 : a x a y при H 1 : a x a y
H0 принимается, т. к. t 1,935 ( ; 2,101) (2,101;
подтверждают преимущества какого-либо удобрения
4) H 0 : a x
a y при H1 : a x
H0 отвергается, т. к. t 1,935
преимущества 1-го удобрения.
) , т. е. статистические данные не
) ,т. е. статистические данные не
ay
(1,734 ;
) , т. е. статистические данные подтверждают
118
5 Критерий Пирсона
Одной из важнейших задач математической статистики является установление
теоретического закона распределения случайной величины по эмпирическим данным.
Предположение о виде закона распределения может быть выдвинуто, исходя из
теоретических предпосылок, опыта предшествующих исследований и на основании
графического представления опытных данных. Параметры распределения заменяют их
точечными оценками. Между теоретическим и эмпирическим распределениями неизбежны
расхождения. Возникает вопрос: объясняются ли эти расхождения
случайными
обстоятельствами, связанными с ограниченным числом наблюдений, или они являются
существенными и связаны с тем, что теоретический закон подобран неудачно. Для ответа на
этот вопрос служат критерии согласия.
 Определение Критерий согласия - критерий проверки гипотезы о предполагаемом
законе неизвестного распределения, о соответствии эмпирического распределения
теоретическому распределению вероятностей.
Сатистические критерии подразделяются на следующие категории:
Критерии значимости. Проверка на значимость предполагает проверку гипотезы о
численных значениях известного закона распределения: H 0 : a a0 - нулевая гипотеза.
a0 или a a0 - конкурирующая гипотеза.
Критерии согласия. Проверка на согласие подразумевает проверку предположения о
том, что исследуемая случайная величина подчиняется предполагаемому закону. Критерии
согласия можно также воспринимать, как критерии значимости.
Критерии на однородность. При проверке на однородность случайные величины
исследуются на факт взаимного соответствия их законов распределения (подчиняются ли эти
величины одному и тому же закону). Используются в факторном (дисперсионном) анализе
для определения наличия зависимостей. Это разделение условно, и зачастую один и тот же
критерий может быть использован в разных качествах.
Критерий Пирсона, или критерий χ2 — наиболее часто употребляемый критерий для
проверки гипотезы о законе распределения. Во многих практических задачах точный закон
распределения неизвестен, то есть является гипотезой, которая требует статистической
проверки.
Обозначим через X исследуемую случайную величину. Пусть требуется проверить
гипотезу H о том, что эта случайная величина подчиняется закону распределения F x . Для
H1 : a
a0 a
0
проверки гипотезы произведѐм выборку, состоящую из n независимых наблюдений над
случайной величиной X . По выборке можно построить эмпирическое распределение F * x
исследуемой случайной величины.
Сравнение эмпирического F * x и теоретического распределений производится с
помощью специально подобранной случайной величины — критерия согласия. Одним из
таких критериев и является критерий Пирсона.
Пусть проведено n независимых опытов, в каждом из которых случайная величина
приняла определенное значение. Все значения упорядочены в таблице
Xi
…
X1
X2
Xk
pi*
ni
n
p1*
p2*
…
pk*
119
Выдвигаем гипотезу H 0 , состоящую в том, что случайная величина
распределения F :
Xi
…
X1
X2
Xk
p1
p2
pi
…
pk
Согласно гипотезе H 0 отклонение эмпирических частот
pi*
ni
n
имеет закон
от теоретических
X i ) объясняется случайными причинами. Чтобы проверить
вероятности pi P(
правдоподобие этой гипотезы для уровня значимости в качестве меры расхождения между
гипотетическим и статистическим распределениями рассчитывается величина
k
(ni npi ) 2
2
.
набл
npi
i 1
Эта величина – случайна, т.к. в различных опытах она принимает различные, заранее
неизвестные значения. Чем меньше отличаются теоретические и эмпирические частоты, тем
меньше величина критерия, следовательно, критерий 2 характеризует степень близости
теоретического и эмпирического распределений.
При n
закон распределения критерия Пирсона независимо от того, какому закону
подчинена генеральная совокупность, стремится к закону распределения 2 с k степенями
свободы.
Число степеней свободы k m r 1 где m - число значений, которые принимает
случайная величина, r – число параметров предполагаемого теоретического распределения,
вычисленных по экспериментальным данным.
Критерий 2 – правосторонний.
Потребуем, чтобы вероятность попадания в критическую область, в предположении
справедливости H 0 , была равна принятому уровню значимости .
P{
По таблице находим
2
набл
2
кр
2
кр
2
( , k ) и если
2
кр
( , k )}
2
набл
2
кр
– нет оснований отвергать H 0 , если
– отвергаем гипотезу.
Необходимо, чтобы каждое ni 5 . Если
некоторые значения меньше 5, имеет смысл
объединить их с соседними.
2
 Замечание
- критерий Пирсона в
2
качестве меры расхождения U берется
, равная
сумме
квадратов
отклонений
частоты U
2
m
ci
i 1
весов берут ci
i
pi
2
в
качестве
,
n
pi .
Схема применения критерия для ДСВ
1.
Определяется мера расхождения эмпирических и теоретических частот
2
120
2.
Для выбранного уровня значимости
критическое значение
3.
по таблице
2
распределения находят
2
,k
2
Если фактически наблюдаемое
больше критического, т.е.
2

2
,k ,
то
гипотеза отвергается,
если
2

2
,k
то принимается.
Случайная величина
n pi 2
n pi
i 1
характеризует согласованность гипотезы Н 0 с опытными данными.
2
Схема применения критерия
2
r
ni
для НСВ
Пусть проведено n ( n 50 ) независимых опытов, в каждом из которых случайная
величина
приняла определенное значение. Все значения упорядочены в виде
вариационного ряда. Весь интервал значений делим на S частичных одинаковых интервалов
[ai , ai 1 ] и считаем число значений выборки, попавших в i - тый интервал
Выдвигаем гипотезу H 0 , состоящую в том, что случайная величина
имеет закон
распределения F :
В качестве меры расхождения между гипотетическим и статистическим распределениями
рассчитывается величина
k
(ni npi ) 2
2
,
набл
npi
i 1
где pi P(ai
ai 1 ) .
Число степеней свободы k m r 1 где m - число частичных интервалов, на которые
разбивается выборка, r – число параметров предполагаемого теоретического распределения,
вычисленных по экспериментальным данным.
2
2
Задаваясь уровнем значимости, по таблице находим кр2 ( , k ) и если набл
кр – нет
оснований отвергать H 0 , если
2
набл
2
кр
– отвергаем гипотезу.
Число выборочных значений ni , i 1 r в каждом разряде должно быть не менее 5-10.
Если это не выполняется, то разряды надо объединять. В этом случае и соответствующие
частоты надо сложить.
Пример При 4040 бросаниях монеты французский естествоиспытатель Бюффон
получил 2048 выпадений герба и 1992 выпадения цифры. На уровне значимости = 0,05
проверим гипотезу о том, что монета была правильной.
Решение
Здесь в результате испытания может произойти одно из двух событий — выпадение герба
либо выпадение цифры. Поэтому имеем:
A1 = {выпадение герба}, A2 = {выпадение цифры},
n = 4040, m1 = 2048, m2 = 1992.
1
1
Нулевая гипотеза - H 0 : p A1
,т. е. p1 p2
p A2
2
2
Вычислим величину
2
. Имеем:
121
m1 np1
np1
2
2048 2020
2020
2
2
m2 np2
np2
2
1992 2020
2020
2
0.776
Число степеней свободы k в данном случае равно r 1 2 1 1 .
По известным значениям = 0.05, k = 1 находим в таблице 2kp
Так как
2
2
kp ,
3.8
то нулевая гипотеза принимается - монета была правильной.
Пример Фирма владеет тремя магазинами. Руководство фирмы решило выяснить,
посещают ли покупатели все три магазина одинаково охотно либо имеется некоторое
различие. Для проверки была собрана информация о количестве покупателей, сделавших
покупки в течение недели. Оказалось, что в первом магазине это число составляет 160
человек, во втором — 225. в третьем —215.
Решение
Нулевой гипотезой будет равенство вероятностей посещения покупателем первого ( p1 ),
1
второго ( p2 ) и третьего ( p3 ) магазинов: H 0 : p1 p2 p3
.
3
В результате испытания получаем
m1 =160, m2 =225, m3 =215, n =160+225+215=600
Вычислим величину
160 200 2
225 200 2
215 200 2
2
12.25
200
200
200
Обратимся теперь к таблице критических значений (при k 2 ). Даже на уровне
2
2
значимости = 0.01 имеем 2kp = 9.2. Таким образом,
kp .
Поэтому, видимо, разницу в посещаемости магазинов в течение недели нельзя объяснить
случайными колебаниями.
Пример По выборке из 24 вариант выдвинута гипотеза о нормальном распределении
генеральной совокупности. Используя критерий Пирсона при уровне значимости
0,025
среди заданных значений 2 = {34, 35, 36, 37, 38} указать:
а) наибольшее, для которого нет оснований отвергать гипотезу; б) наименьшее, начиная с
которого гипотеза должна быть отвергнута.
Решение
Найдем число степеней свободы k с помощью формулы:
k S r 1,
где S - число групп выборки (вариант), r - число параметров распределения.
Так как нормальное распределение имеет 2 параметра ( m и ), получаем
k 24 2 1 21 .
По таблице критических точек распределения 2 , по заданному уровню значимости
2
0,025 и числу степеней свободы k 21 определяем критическую точку кр
35,5 .
В случае
а) для значений
распределении, так как
2
, равных 34 и 35, нет оснований отвергать гипотезу о нормальном
2
2
кр .
А наибольшее среди этих значений
2
35 .
122
В случае
б) для значений 36, 37, 38 гипотезу отвергают, так как
2
2
2
.
кр
Наименьшее среди них
36 .
Таблица Критические точки распределения
Число
степеней
свободы
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,01
0,05
6,6
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
3,8
6,0
7,8
9,5
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
35,2
36,4
37,7
38,9
40,1
41,3
42,6
43,8
Уровень значимости α
0,1
0,90
0,95
2,71
4,61
6,25
7,78
9,24
10,6
12,0
13,4
14,7
16,0
17,3
18,5
19,8
21,1
22,3
23,5
24,8
26,0
27,2
28,4
29,6
30,8
32,0
33,2
34,4
35,6
36,7
37,9
39,1
40,3
0,02
0,21
0,58
1,06
1,61
2,20
2,83
3,49
4,17
4,87
5,58
6,30
7,04
7,79
8,55
9,31
10,1
10,9
11,7
12,4
13,2
14,0
14,8
15,7
16,5
17,3
18,1
18,9
19,8
20,6
0,004
0,1
0,35
0,71
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,1
10,9
11,6
12,3
13,1
13,8
14,6
15,4
16,2
16,9
17,7
18,5
2
0,99
0,0002
0,02
0,12
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,2
10,9
11,5
12,2
12,9
13,6
14,3
15,0
Пример Коммерсант предполагает, что объем продаж нового вида продукции в
каждой из пяти торговых точек, расположенных в различных районах, будет одинаков.
Фактический объем продаж оказался разным:
Район
Фактический
продаж
i
объем mi
1
105
2
117
3
84
4
111
5
83
123
Оценить, значимы или нет различия между наблюдаемыми и ожидаемыми объемами
продаж при уровне значимости 0,01 и 0,05.
Решение:
Теоретический «закон распределения» определен: во всех районах объем продаж
1 5
500
одинаков, т. е. m1T m2T m3T m4T m5T
mi
100
5 i1
5
Район
Фактический
объем продаж
Ожидаемый
объем продаж
Тогда
5
2
r
(mi
miT ) 2
miT
2
êð
13,3
i 1
i
mi
1
105
2
117
3
84
4
11
5
83
miT
100
100
100
100
100
1
(5 2 17 2 16 2 112 17 2 )
100
9,8 , число степеней свободы
ν=5-1=4
а) α=0,01 ν=4
2
r
) , гипотеза H0: ожидаемые и фактические
9,8 (13,3;
объемы продаж
согласуются, не отвергается.
б) α=0,05 ν=4
2
r
2
êð
9,8 (9,5;
9,5
)
H0 должна быть отклонена.
Пример Страховая компания выпустила четыре вида страховых полисов в
предположении, что спрос на них будет одинаков. Фактические объемы реализации
различных видов страховых полисов приведены ниже:
Виды
страховых полисов
Фактический
объем реализации
A
B
C
D
50
21
23
26
Оценить для уровней значимости α=0,01 и α=0,05, согласуется ли фактический и
теоретический спрос на различные виды полисов.
Ответ: Для обоих уровней значимости теоретический и фактический спрос не
согласуются. т. к.
2
18,2 (11,3; )
а)
б)
2
18,2
(7,8;
).
5.1 Проверка гипотезы
биномиальному закону
о
распределении
генеральной
совокупности
по
124
Пусть задано эмпирическое распределение дискретной случайной величины. Требуется,
используя критерий Пирсона, проверить гипотезу о распределении генеральной
совокупности по биноминальному Пуассона.
Задача 1. Экзаменационный билет по математике содержит 10 заданий. Пусть Х –
случайная величина числа задач, решенных абитуриентами на вступительном экзамене.
Результаты сдачи экзамена по математике для 300 абитуриентов таковы:
i
1
2
3
4
5
6
7
8
9
10
11
xi
0
1
2
3
4
5
6
7
8
9
10
m
13
17
15
35
10
9
40
51
45
33
32
i
Оценить закон распределения случайной величины Х.
Решение:
Для составления гипотезы о модели закона распределения случайной величины Х
сделаем следующие предположения:
1) вероятность решения задачи не зависит от исхода решения других задач
2) вероятность решить отдельно взятую задачу одна и та же и равна p, а вероятность не
решить задачу равна q=1-p
При этих допущениях можно предположить, что Х подчинена биномиальному
распределению (нулевая гипотеза), т. е. вероятность того, что абитуриент решит х задач,
x
x
10 x
может быть подсчитана по формуле p( X x) C10 p q
Найдем оценку параметра р. р – вероятность того, что абитуриент решит задачу. Оценкой
вероятности р является относительная частота р*, которая вычисляется по формуле
11
11
xi mi
p*
i 1
xi mi
1
i 1
11
11
mi
x
,
mi
i 1
i 1
11
x i mi
где x
i 1
11
- среднее число задач, решенных одним абитуриентом, ν – число задач,
mi
i 1
решаемое каждым абитуриентом.
Тогда оценку для р получим в виде:
11
xi mi
1
13
17
15
n
p* i 1
(0
1
2
10
300
300
300
45
33
32
8
9
10
) 0,6
300
300
300
3
35
300
Подставим р*=0,6 и q*=1-0,6=0,4 в выражение
получим теоретические вероятности
p iT
и частоты
4
10
300
5
9
300
6
40
300
p( X x) C10x p x q10 x
miT
7
51
300
и при разных xi
piT n
125
P( X
0)
C100 p 0 q 10
P( X
1)
1
C10
p1 q 9
10 0,6 0,4 9
xi
p iT
miT
0
1
2
3
4
5
6
7
8
9
10
0,0001
0,0016
0,0106
0,0425
0,1115
0,2007
0,2508
0,2150
0,1209
0,0403
0,0060
0,03
0,48
3,18
12,75
33,45
60,21
75,24
64,50
36,27
12,09
1,80
Номер
группы i
1
2
3
4
5
6
7
8
9
10
11
1 1 0,410
0,0001
0,0016
Для групп 1, 2, 3 и 11 теоретическая частота miT >5, такие группы обычно объединяются с
соседними. Объединим группы 1, 2, 3 с 4ой, а 11ую с 10ой и составим таблицу
Номер
группы i
xi
mi
miT
1
2
3
4
5
6
7
0-3
80
16
4
10
33
5
9
60
6
40
75
7
51
64
8
45
36
9-10
65
14
Рассчитываем величину критерия согласия
k (m
miT ) 2 (80 16) 2 (10 33) 2
2
i
r
miT
16
33
i 1
(9 60) 2
60
(40 75) 2 (51 64) 2 (45 36) 2 (65 14) 2
522, 4
75
64
36
14
Зададимся уровнем значимости α=0,05, тогда для l=k-r-1=7-1-1=5 степеней свободы
2
кр
11,1
2
r
522 ,4
(11,1;
нулевая гипотеза H0 должна быть отвергнута.
)
Задача 2. Дано следующее распределение успеваемости 125 студентов, сдавших 3
экзамена:
Число
сданных
экзаменов
Число студентов
0
1
2
3
3
5
47
70
126
Проверить гипотезу о биномиальном распределении числа сданных экзаменов при
α=0,05.
Ответ: Гипотеза не отвергается, т. к.
2
2,5
(3,8;
)
Задача 3. При принятии на работу фирма предлагает 4 теста. Результаты решения этих
тестов десятью претендентами приведены ниже:
Число верно решенных тестов
0
1
2
3
4
Число участников
1
2
2
3
2
Проверить гипотезу о биномиальном распределении случайной величины Х – числа
успешно решенных тестов – при α=0,05
Ответ: H0 не отвергается, т. к.
2
1,8 (6;
).
127
5.2 Проверка гипотезы о распределении генеральной совокупности по нормальному
закону
Пусть задано эмпирическое распределение непрерывной случайной величины. Требуется,
используя критерий Пирсона, проверить гипотезу о распределении генеральной
совокупности по нормальному Пуассона.
Задача 1. Результаты взвешивания 50 случайным образом отобранных пачек чая
приведены ниже (в граммах):
150, 147, 152, 148, 149, 153, 151, 150, 149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152,
150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149,
148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.
Оценить закон распределения случайной величины Х – массы пачки чая – для уровня
значимости α=0,05.
Решение:
Масса пачки чая – непрерывная случайная величина, но в силу того, что взвешивание
проведено с дискретностью 1г и размах составляет 147-153г, то непрерывная случайная
величина может быть представлена дискретным вариационным рядом:
Х
Значение сл. величины 14
7
Частота появления
4
14
8
5
14
9
8
150
151
11
11
15
2
7
15
3
4
В качестве модели закона распределения выберем нормальный закон N (a0 ;
параметров которого r=2:
a 0 – математическое ожидание,
x
) , число
x – среднее квадратичное отклонение.
По выборочным данным получим оценки параметров нормального закона распределения.
Применяем метод произведений
C=150
ui xi 150
xi
mi
ui 1
ui mi
u i2 mi
(ui 1) 2 mi
147
148
149
150
151
152
153
-3
-2
-1
0
1
2
3
0
4
5
8
11
11
7
4
50
-12
-10
-8
0
11
14
12
7
36
20
8
0
11
28
36
139
-2
-1
0
1
2
3
4
7
16
5
0
11
44
63
64
203
T
Для расчета теоретических частот p i воспользуемся табличными значениями функции
Лапласа Ф(Z).
По нормированным значениям случайной величины Z находим значение Ф(Z), затем
найдем ФN(x).
128
(ui 1) 2 mi
ui2 mi 2
ui mi n
203 139 2 7 50
ui mi
n
ui2 mi
Dв
n
n
D
Dв
n 1
1,68
xв
Zi
x1
xi
xв
147 , Z1
( 1,87 )
x2
148 , Z 2
( 1,27 )
7
150 150,14
50
139
( xв C )2
(150,14 150)2
50
50
2,76 2,82
49
C
, Fn ( xi )
0,5
2,78 0,02 2,76
(Zi )
147
150 ,14
1,87
1,68
0,46926 , FN (147 ) 0,5
0,46926
0,03074
148
150 ,14
1,27
1,68
0,39796 , FN (148 ) 0,10204
.......
Для уровня значимости α=0,05 и числа степеней свободы ν=k-r-1=6-2-1=3 находим по
2
таблице кр 7,8
2
r
5,267
(7,8;
) , поэтому гипотеза о том, что случайная величина Х – масса
пачки чая – подчинена нормальному закону распределения, согласуется с выборочными
данными.
Задача 2. Масса (в граммах)
«Геркулес» такова:
произвольно выбранных 30 пачек полуфабриката
509, 495, 493, 489, 485, 507, 511, 487, 495, 506, 504, 507, 511, 499, 491, 494, 518, 506, 515,
487, 509, 507, 488, 495, 490, 498, 497, 492, 495.
Можно ли при уровне значимости α=0,05 утверждать, что случайная величина Х – масса
пачки – подчинена нормальному закону распределения?
2
14,96 (9,5; )
Ответ: Гипотеза подтверждается, т. к.
Задача 3. Результаты исследования числа покупателей в универсаме в зависимости от
времени работы приведены ниже:
Часы работы
9-10
10-11
11-12
12-13
Число покупателей
41
82
117
72
Можно ли утверждать при уровне значимости α=0,05, что случайная величина Х – число
покупателей – подчинена нормальному закону?
Ответ: Гипотеза отвергается, т. к.
2
103,9
(3,8;
).
129
5.3 Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
Пусть задано эмпирическое распределение дискретной случайной величины. Требуется,
используя критерий Пирсона, проверить гипотезу о распределении генеральной
совокупности по закону Пуассона.
Распределение Пуассона имеет один параметр λ. Этот параметр может быть известен
заранее или оцениваться по данным выборки. Для получения оценки может быть
использован, например, метод моментов, который состоит в замене теоретических моментов
mx, Dx, соответствующими выборочными моментами – выборочным средним x
и
выборочной дисперсией D . Из полученных соотношений и находят оцениваемые значения
параметров.
Для распределения Пуассона неизвестный параметр λ является математическим
ожиданием данной случайной величины. Поэтому оценкой параметра λ распределения
Пуассона по методу моментов служит выборочное среднее
n
xi mi
i 1
xâ
n
.
Так как здесь оценивается один параметр λ, то r=1, l=k-2.
Задача 1. В результате эксперимента, состоящего из n=1000 испытаний, в каждом из
которых регистрировалось число Xi появлений некоторого события, получено следующее
эмпирическое распределение (в первой строке указано количество Xi появления события; во
2ой строке частота mi, т. е. число испытаний, в которых наблюдалось xi появлений события):
xi
mi
0
405
1
366
2
175
3
40
4
8
5
4
6
2
Требуется при уровне значимости α=0,01 проверить гипотезу о том, что случайная
величина Х – число появлений события – распределена по закону Пуассона.
1) Найдем выборочную среднюю
mi xi
405 0 366 1 175 2 40 3 4 8 5 4 6 2
i 1
xâ
0,9
n
1000
Примем в качестве оценки параметра λ распределения Пуассона среднюю
x 0,9 .
Следовательно, предполагаемый закон Пуассона:
i
p( X
3) Полагая i=0,1,…,6 найдем
p iT
xi )
ei2
0,9 i e
i!
0.9
появления событий в 1000 испытаний:
130
0,9 0 e 0,9
0,9 4 e
e 0,9 0,4066
T
p4
0!
4!
0,9
0,9 e
T
p1
0,3659
0,9 5 e
1
p5T
5!
0,9 2 e 0,9
p 2T
0,1647
6
0,9 e
T
2
p
6
6!
0,9 3 e 0,9
p3T
0,0494
6
4) Найдем теоретические частоты по формуле:
p 0T
miT
p iT n
m0T
406 ,6
m4T
11,1
m1T
365 ,9
m5T
2
m
T
2
164 ,7
m6T
0,3
m
T
3
49 ,4
0,9
0,0111
0,9
0,0020
0,9
0,0003
p iT 1000
5) Объединим малочисленные частоты 4+2=6 и соответствующие им теоретические
частоты 2+0,3=2,3. Сравним эмпирические и теоретические частоты с помощью критерия
Пирсона:
2
r
i
mi
0
1
2
3
4
5
405
366
175
40
8
6
miT
406,6
365,9
164,7
49,4
11,1
2,3
mi miT
-1,6
0,1
10,3
-9,4
-3,1
3,7
(mi miT ) 2
2,56
0,01
106,09
88,36
9,61
13,69
(mi miT ) 2 / miT
0,0063
0,00003
0,6441
1,7887
0,8658
5,9522
9,257
9,257
По таблице критических точек распределения χ2 по уровню значимости α=0,01 и числу
степеней
2
r
9,257
свободы
(13,3;
l=6-2=4
находим
критическую
точку
2
13,3 ,
т.
к.
) нет оснований отвергнуть гипотезу о распределении случайной
величины Х по закону Пуассона.
Контрольные вопросы
1.
Что произойдет со стандартной ошибкой среднего, если размер выборки
увеличить в 2 раза?
2.
Приведите пример нулевой, конкурирующей гипотезы.
3.
Что представляют собой ошибки 1-го и 2-го рода?
131
Задачи для самостоятельного решения
1. По данному эмпирическому распределению:
xi
mi
0
m0
1
m1
…
…
7
m7
при уровне значимости α проверить гипотезу о том, что случайная величина Х
распределена по закону Пуассона. Построить гистограмму. Построить статистическую
функцию распределения и ее график.
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
m0
62
59
56
53
51
129
118
109
100
92
85
47
43
40
37
34
31
29
26
24
22
21
19
165
120
111
103
94
86
49
m1
173
165
163
156
151
267
254
243
233
222
211
142
135
125
124
118
106
104
98
90
87
82
78
295
254
245
231
223
213
147
m2
242
238
235
232
223
273
267
265
268
265
259
221
215
204
203
196
186
184
172
171
164
156
152
271
274
271
264
266
262
220
m3
223
226
222
226
227
186
190
196
205
211
214
226
225
220
224
222
215
218
213
206
203
202
199
163
195
194
205
204
210
226
m4
156
159
163
165
165
98
106
113
119
121
133
174
178
176
183
188
186
192
195
195
197
196
193
75
104
105
118
152
128
168
m5
88
87
95
97
98
41
47
47
57
57
61
107
112
118
123
122
129
137
142
146
151
148
157
28
41
46
51
56
66
105
m6
43
45
47
50
51
18
13
21
24
21
28
51
56
64
69
74
73
78
86
91
96
95
103
12
15
19
17
25
24
50
m7
19
20
20
24
24
8
9
9
10
11
12
26
28
32
33
38
34
42
47
50
53
57
55
6
8
9
9
11
12
26
α
0,01
0,001
0,05
0,1
0,01
0,2
0,02
0,001
0,1
0,02
0,05
0,01
0,2
0,001
0,02
0,2
0,1
0,2
0,02
0,1
0,05
0,1
0,2
0,05
0,02
0,001
0,1
0,02
0,05
0,01
132
2. Используя критерий Пирсона при уровне значимости 0.05 проверить, согласуется ли
гипотеза о нормальном распределении генеральной совокупности Х с эмпирическим
распределением выборки объема n = 200:
xi
ni
0.3
6
0.5
9
0.7
26
0.9
25
1.1
30
1.3
26
1.5
21
1.7
24
1.9
20
2.1
8
2.3
5
3. Используя критерий Пирсона, при уровне значимости 0.01 установить, случайно или
значимо расхождение между эмпирическими частотами ni и теоретическими частотами ni' ,
которые вычислены, исходя из гипотезы о нормальном распределении генеральной
совокупности Х:
ni
8
16
40 72 36 18 10
ni'
6
18
36
76
39
18
7
4. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли
гипотеза о нормальном распределении генеральной совокупности Х с эмпирическим
распределением выборки объема n =100:
Верхняя граница
интервала xi
Частота ni
8
13
18
23
28
33
38
6
8
15
40
16
8
7
5. Используя критерий Пирсона, при уровне значимости 0.05 установить, случайно или
значимо расхождение между эмпирическими частотами ni и теоретическими частотами ni' ,
которые вычислены, исходя из гипотезы о нормальном распределении генеральной
совокупности Х:
ni
5
10
20
8
7
ni'
6
14
18
7
5
6. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли
гипотеза о нормальном распределении генеральной совокупности Х с эмпирическим
распределением выборки:
Верхняя граница
интервала xi
Частота ni
-10
0
10
20
30
40
50
20
47
80
89
40
16
8
133
6 Статистические оценки
Результаты измерений могут рассматриваться законченными, только когда они
сопровождаются статистической оценкой полученных данных, поскольку никогда не бывает
100% уверенности в точности определенных значений.
Для статистической оценки параметров распределения используют средние значения
разных степеней отклонений отдельных величин признака от его средней арифметической
величины. Эти показатели называют центральными моментами распределения порядка,
соответствующего степени, в которую возводятся отклонения
Получив статистические оценки параметров распределения (выборочное среднее,
выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат
приближением соответствующих характеристик генеральной совокупности. Определим
требования, которые должны при этом выполняться.

Определение Статистическая оценка неизвестного параметра теоретического
распределения - функция от наблюдаемых случайных величин.
Рассматривая x1 , x2 , x3 ..., xn как независимые случайные величины X 1 , X 2 , X 3 ...X n можно
сказать, что найти статистическую оценку неизвестного параметра теоретического
распределения — это значит найти функцию от наблюдаемых случайных величин, которая и
дает приближенное значение оцениваемого параметра. Например, для оценки
математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака)
X 1 X 2 ... X n
X
n
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых
параметров, они должны удовлетворять определенным требованиям.
Пусть * есть статистическая оценка неизвестного параметра
теоретического
*
распределения. Допустим, что по выборке объема п найдена оценка 1 .
Повторим опыт, т. е. извлечем из генеральной совокупности другую выборку того же
объема и по ее данным найдем оценку *2 .
Повторяя опыт многократно, получим числа
* *
*
1 , 2 ,... n ,
которые, вообще говоря, будут
различны между собой. Таким образом, оценку * можно рассматривать как случайную
величину, а числа *1 , *2 ,... *n — как ее возможные значения.
Представим себе, что оценка * дает приближенное значение
с избытком; тогда
*
каждое, найденное по данным выборок, число i ( i 1,2,...k ) будет больше истинного
значения . Ясно, что в этом случае и математическое ожидание (среднее значение)
случайной величины * будет больше, чем , т. е. M ( * )
. Очевидно, что если * дает
оценку с недостатком, то M ( * )
.
Таким образом, использование статистической оценки, математическое ожидание
которой не равно оцениваемому параметру, привело бы к систематическим (одного знака)
ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание
оценки * было равно оцениваемому параметру. Хотя соблюдение этого требования не
устранит ошибок (одни значения * больше, а другие меньше ), однако ошибки разных
знаков будут встречаться одинаково часто.
134
Следовательно, необходимым условием отсутствия систематических ошибок является
требование M ( * )
Определение Статистическая оценка * называется несмещенной, если ее
математическое ожидание равно оцениваемому параметру при любом объеме выборки:
M( * )

Определение Статистическая оценка называется смещенной оценкой, если
математическое ожидание не равно оцениваемому параметру.
Однако несмещенность не является достаточным условием хорошего приближения к
истинному значению оцениваемого параметра. Если при этом возможные значения * могут
значительно отклоняться от среднего значения, то есть дисперсия * велика, то значение,
найденное по данным одной выборки, может значительно отличаться от оцениваемого
параметра. Следовательно, требуется наложить ограничения на дисперсию.

Определение Статистическая оценка называется эффективной, если она при
заданном объеме выборки n имеет наименьшую возможную дисперсию.
Эффективность оценки зависит от вида распределения. Можно доказать, что если
случайная величина имеет нормальное распределение, то оценка математического ожидания
X является и эффективной. При рассмотрении выборок большого объема к статистическим
оценкам предъявляется еще и требование состоятельности. Естественно потребовать от
оценки * , чтобы при увеличении числа опытов n она приближалась к искомому параметру


Определение Состоятельной называется статистическая оценка, которая при
стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная,
n
то она будет состоятельной, если при n
ее дисперсия стремится к 0).
*
lim P{
} 1.
n

Замечание Чем больше объем выборки, тем больше вероятность того, что
ошибка оценки будет очень мала.
Убедимся, что среднее арифметическое значение x B представляет собой несмещенную
оценку математического ожидания M x .
Будем рассматривать x B как случайную величину, а x1 , x2 ,, xn , то есть значения
исследуемой случайной величины, составляющие выборку, – как независимые, одинаково
распределенные случайные величины X 1 , X 2 ,, X n , имеющие математическое ожидание a .
Из свойств математического ожидания следует, что:
X1 X  X n
M XB M
a
n
Но, поскольку каждая из величин X 1 , X 2 ,, X n имеет такое же распределение, что и
генеральная совокупность, a M X , то есть M X B M X , что и требовалось доказать.
Выборочное среднее является не только несмещенной, но и состоятельной
оценкой математического ожидания.
Если предположить, что X 1 , X 2 ,, X n имеют ограниченные дисперсии, то из теоремы
Чебышева следует, что их среднее арифметическое, то есть X B , при увеличении n стремится
по вероятности к математическому ожиданию каждой их величин, то есть к M X .
Следовательно, выборочное среднее есть состоятельная оценка математического
ожидания.
В отличие от выборочного среднего, выборочная дисперсия является смещенной
оценкой дисперсии генеральной совокупности. Можно доказать, что
135
n 1
Dr ,
n
где Dr – истинное значение дисперсии генеральной совокупности.
Можно предложить другую оценку дисперсии – исправленную дисперсию
вычисляемую по формуле:
M DB
2
k
s
ni x i
n
2
n 1
xB
i 1
DB
s2 ,
.
n 1
Такая оценка будет являться несмещенной.
Ей соответствует исправленное среднее квадратическое отклонение
2
k
ni xi
s
Множитель
s
2
xB
i 1
n 1
.
n
называется поправкой Бесселя.
n 1

Определение Оценка некоторого признака называется асимптотически
несмещенной, если для выборки x1 , x2 ,, xn
x x  xn
lim 1 2
X
n
n
где X – истинное значение исследуемой величины.
Пример Пусть в n испытаниях Бернулли событие A произошло m раз. В качестве
оценки вероятности p принимается частота события
несмещенной?
Решение
Т.к. случайная величина ( w)
m
M[ *] M[ ]
n
1
M [m]
n
m имеет M [ ]
1
np
n
m
. Т.е.
n
p,
*
m
. Будет ли
n
*
np , то
p.
Частота события является несмещенной оценкой.
6.1 Метод наибольшего правдоподобия
Метод наибольшего правдоподобия, предложенный Р. Фишером, применяемый для
определения точечной оценки, опирается на использование условий экстремума функции
одной или нескольких случайных величин. В качестве такой функции применяют функцию
правдоподобия. Оценка максимального правдоподобия является статистическим методом,
который используется для создания статистической модели на основе данных, и обеспечения
оценки параметров модели.
Пусть X – дискретная случайная величина, которая в результате n испытаний
приняла значения x1 , x2 ,, xn . Предположим, что нам известен закон распределения этой
величины, определяемый параметром , но неизвестно численное значение этого параметра.
Найдем его точечную оценку.
Пусть p( xi , ) – вероятность того, что в результате испытания величина X примет
значение xi . Назовем функцией правдоподобия дискретной случайной величины X
функцию аргумента , определяемую по формуле:
136
L x1 , x2  , xn ,
Тогда
значение *
в
p ( x1 , ) p ( x2 , )  p ( xn , )
качестве точечной оценки параметра Θ принимают такое его
x1 , x2  , xn , при котором функция правдоподобия достигает максимума.
Оценку * называют оценкой наибольшего правдоподобия.
Поскольку функции L и ln L достигают максимума при одном и том же значении Θ ,
удобнее искать максимум ln L – логарифмической функции правдоподобия. Для этого
нужно:
d ln L
1)
найти производную
;
d
2)
приравнять ее нулю (получим так называемое уравнение правдоподобия) и
найти критическую точку;
d 2 ln L
3)
найти вторую производную
, если она отрицательна в критической
d 2
точке, то это – точка максимума.
Достоинства метода наибольшего правдоподобия:
1)
полученные оценки состоятельны (хотя могут быть смещенными),
распределены асимптотически нормально при больших значениях n и имеют наименьшую
дисперсию по сравнению с другими асимптотически нормальными оценками;
2)
если для оцениваемого параметра
существует эффективная оценка * , то
уравнение правдоподобия имеет единственное решение * ;
3)
метод наиболее полно использует данные выборки и поэтому особенно полезен
в случае малых выборок.
Важность метода максимального правдоподобия связана с его оптимальными
свойствами.
Основной недостаток метода — трудность вычисления оценок, связанных с решением
уравнений. Кроме того, для построения оценок необходимо точное знание типа закона
распределения p( xi , ) , что иногда практически невозможно
Для непрерывной случайной величины с известным видом плотности распределения
f x и неизвестным параметром функция правдоподобия имеет вид:
L x1 , x2  , xn ,
f ( x1 , ) f ( x2 , )  f ( xn , ) .
Оценка наибольшего правдоподобия неизвестного параметра проводится так же, как
для дискретной случайной величины.
Метод наибольшего правдоподобия используется чаще всего при биномиальном,
пуассоновском и показательном распределении случайной величины.
В случае биномиального распределения
r m
Pr m C rm p m 1 p
,
где Pr m - вероятность появления ровно m раз события А (случайной величины) в r
испытаниях; p – вероятность появления события А в одном испытании.
Если проводится n опытов по r испытаний в каждом и фиксируется число появлений
события (величины) в каждом испытании xi , то выражение для оценки
n
xi
.
nr
i 1
Если значения xi встречаются mi раз, то оценка параметра p принимает вид
p
k
p
i 1
xi mi
,
nr
137
где n
m1 m2  mk - число опытов по r испытаний в каждом.
В случае пуассоновского распределения
m
e
,
Pr m
m!
оценка параметра находится в виде
n
k
xi
mi xi
xв или
xв .
n
i 1 n
i 1
В случае показательного распределения
f ( x)
e x (x 0)
оценка параметра находится в виде
n
1
n
или
.
n
k
xв
xi
x i mi
i 1
i 1
В случае нормального закона распределения
f ( x)
оценки параметров a и
x a
1
e
2
находятся в виде:
k
2
2
2
k
xi mi
a
i 1
xi
xв , Dв
2
i 1
2
xв mi
.
n
n
При достаточно общих условиях оценки максимального правдоподобия являются
состоятельными, асимптотически эффективными и имеют асимптотическое нормальное
распределение.
Основной недостаток метода максимального правдоподобия - трудность вычисления
оценок, связанных с решением уравнений правдоподобия, чаще всего нелинейных.Для
построения оценок максимального правдоподобия и обеспечения их «хороших» свойств
необходимо точное знание типа анализируемого закона распределения, что во многих
случаях оказывается практически нереальным.
Пример Найти оценку метода максимального правдоподобия для вероятности
р наступления некоторого события А по данному числу т появления этого события в п
независимых испытаниях.
Решение. Составим функцию правдоподобия:
L( x1 , x2 ,..., xn ; p)
pp... p(1 p)(1 p)...(1 p)
или
Тогда
и
ln
d ln L
dp
L p m (1 p ) n m .
m ln p (n m) ln(1 p )
m
n
n m
, откуда p
1 p
m
n
Таким образом, оценкой метода максимального правдоподобия вероятности р события А
будет частость w
m этого события..
n
138
aи
2
Пример Найти оценки метода максимального правдоподобия для параметров
нормального закона распределения по данным выборки.
Р е ш е н и е Плотность вероятности нормально распределенной случайной
величины:
N
2
( x; a,
1
e
2
)
( x a )2
2 2
.
Тогда функция правдоподрбия имеет вид:
n
n
L( x1 , x2 ,..., xn ; a,
2
1
e
2
)
i 1
( xi n )
( xi a )
2 2
i 1
1
n
(2 )
n
2
2
e
2
.
Логарифмируя, получим:
n
(ln
2
ln L
2
n
1
ln(2 ))
2
2
a) 2 .
i 1
Для нахождения параметров а и
параметрам а и,
( xi
2
2
надо приравнять нулю частные производные по
т.е. решить систему уравнений правдоподобия:
ln L
a
1
ln L
1
n
( xi
2
a ) 0,
i 1
2
2
n
( xi
4
a)2
i 1
n
2
2
0,
откуда оценки максимального правдоподобия равны:
n
n
xi
a
( xi
i 1
2
x,
n
x )2
i 1
n
s2.
Таким образом, оценками метода максимального правдоподобия математического
ожидания а и дисперсии
2
нормально распределенной случайной величины являются
соответственно выборочная средняя
x
и выборочная дисперсия s2.
Пример Стеклянные однородные изделия отправлены для реализации из
Москвы в Новосибирск в 1000 контейнерах. После поступления товара было выявлено
количество разбитых изделий в каждом контейнере. Результаты представлены в таблице:
xi
0
1
2
3
4
mi
785
163
32
16
4
139
Считая, что число разбитых изделий описывается законом Пуассона, найти точечную
оценку параметра .
Решение:
k
i 1
mi xi
n
1
0 785 1 163
1000
2 32 3 16
4 4
0.291
Пример Случайная величина Х распределена по биномиальному закону.
Статистическое распределение выборки представлено в таблице:
xi
0
1
2
3
4
5
6
7
mi
2
3
10
22
26
20
15
2
Найти точечную оценку параметра p указанного закона распределения случайной
величины ( r =10).
Решение:
k
x i mi
p
i 1 nr
1
0 2 1 3 2 10 3 22
100 10
397
0.397
1000
4 26 5 20
6 15 7 2
Пример Случайная величина Х распределена по показательному закону.
Статистическое распределение выборки представлено в таблице:
xi
5
15
25
45 55
65
mi
365
245
150 100 70 45
25
Найти точечную оценку параметра
Решение
n
35
.
k
xi mi
i 1
5 365 15 245
1000
0.05
20000
25 150
1000
35 100
45 70 55 45 65 25
Пример Неизвестная величина
измеряется измерительным прибором,
прибавляющим к случайную ошибку, распределенную по нормальному закону с нулевым
средним и известной дисперсией
. Имеем независимую выборку
из
140
распределения, принадлежащему семейству
- нормальное распределение с
известной дисперсией. Если документация прибора ничего не сообщает о дисперсии
совершаемой им ошибки, то независимая выборка
. Параметр
,
принадлежит семейству
двумерен.
Решение
Обозначим
,
максимум функции правдоподобия:
. Будем искать точку, в которой достигается
Очевидно, что максимум достигается в той же точке, что и у функции
. Чтобы найти ее точки экстремума, приравняем к нулю частные
производные:
Эта система имеет единственное решение
Оценки максимального правдоподобия широко применяются. Во многих регулярных
(т.е., хороших) ситуациях они оказываются состоятельными и асимптотически
нормальными.
Метод максимльного правдоподобия вляется основным и в том случае,когда
априорное распределение не задано.
Пример Независимая выборка
отрезке
, где
равномерно распределена в
-- неизвестный параметр. Функция правдоподобия
или в более удобном виде:
Легко видеть, что максимальное значение эта функция принимает в точке
Это и есть искомая оценка наибольшего правдоподобия для параметра .
.
141
Задачи для самостоятельного решения
1. Случайная величина Х распределена по закону Пуассона с неизвестным параметром
. Статистическое распределение выборки представлено в таблице:
xi
0
1
2
3
4 5
6 7
mi
199
169
87
31
9 3
1 1
Найти точечную оценку параметра .
1
Ответ:
2.Случайная величина Х распределена по биномиальному закону. Статистическое
распределение выборки представлено в таблице:
xi
0
1
2
3
4
mi
1
9
23
30
18
Найти точечную оценку параметра p указанного закона распределения случайной
величины ( r =10).
Ответ: p =0,27
6.2 Метод моментов
Существует ряд задач оценивания, в которых трудно найти максимум
. В таких
случаях часто используется метод моментов, не обладающий свойствами асимптотической
оптимальности,но часто приводящий к сравнительно простым вычислениям.
Метод моментов нахождения оценок в математической статистике - это способ
построения оценок, основанный на уравнивании теоретических и выборочных моментов.
Был впервые предложен Пирсоном в 1894г., основан на том, что начальные и центральные
эмпирические моменты являются состоятельными оценками соответственно начальных и
центральных теоретических моментов, поэтому можно приравнять теоретические моменты
соответствующим эмпирическим моментам того же порядка.
Если задан вид плотности распределения f ( x, ) , определяемой одним неизвестным
параметром , то для оценки этого параметра достаточно иметь одно уравнение.
Например, можно приравнять начальные моменты первого порядка:
xв
M X
x f ( x, )dx
( )
получив тем самым уравнение для определения Θ .
Его решение * будет точечной оценкой параметра, которая является функцией от
выборочного среднего и, следовательно, и от вариант выборки:
x1 , x2  , xn .
Если известный вид плотности распределения f ( x, 1 , 2 ) определяется двумя
неизвестными параметрами 1 и 2 , то требуется составить два уравнения, например
M1 , 2 m2 ,.
1
142
Отсюда
M X
xB
D X
DB
- система двух уравнений с двумя неизвестными
решениями будут точечные оценки
*
1
и
*
2
1
и
2
. Ее
- функции вариант выборки:
x1 , x2  , xn , 2
2 x1 , x2  , xn .
Оценки метода моментов обычно состоятельны, однако по эффектности они не
являются «наилучшими», их эффективность часто значительно меньше единицы. Тем не
менее, метод моментов часто используется на практике, т.к. приводит к сравнительно
простым вычислениям.
Пример Найти оценку метода моментов для параметра
закона Пуассона.
Р е ш е н и е В данном случае для нахождения единственного параметра
1
1
и эмпирический v1 начальные моменты первого
порядка. v1 -математическое ожидание случайной величины X. Для случайной величины,
распределѐнной по закону Пуассона, М(Х) = . Момент v1 равен x . Следовательно, оценка
достаточно приравнять теоретический
v1
метода моментов параметра закона Пуассона есть выборочная средняя x .
Пример На предприятии изготавливается определенный вид продукции.
Ежемесячный объем выпуска этой продукции является случайной величиной, для
характеристики которой принят показательный закон распределения f ( x)
e x ( x 0 ). В
течение 6 месяцев приводился замер объемов выпуска продукции, получены следующие
данные:
месяц
1
2
3 4
5
6
объем выпуска 20 24 25 28 27 32
Найти оценку параметра .
Решение:
Т.к. закон распределения содержит лишь один параметр , то для его оценки требуется
составить одно уравнение.
k
xi mi 1
Найдем xв
20 24 25 28 27 32 26
n
6
i 1
Определяем математическое ожидание:
mx
xf x dx
0
xe
x
dx
0
1
Интегрируя по частям, получим m x
. Тогда
1
xв .
Это равенство является приближенным, т.к. правая его часть является случайной
величиной. Таким образом, из этого уравнения получается не точное значение , а его
1
1
оценка
.
x в 26
Пример Случайная величина Х задана функцией распределения F(x)=1- e
( x 0 ). Произведена выборка:
3
xi
mi
2
Найти оценку параметра .
5
3
6
5
8
10
x
10
10
143
Решение
1
xв
3 2 5 3 6 5 8 10 10 10
30
f ( x) F ( x)
e x, x 0
1
mx
1
f x
xi
mi
1
xв
xв ,
3
21
30
231
231
30
7,7
0.1299
Пример При условии равномерного распределения случайной величины Х
1
, x a, b
. Произведена выборка:
b a
0, x a, b
5
16
7
15
9
26
11
22
13
14
15
21
17
22
19
18
21
25
Найти оценку параметров a и b.
Решение:
Методом произведений найдем xв и Dв :
xi
Ui
mi
U i mi
miU i2
mi U i
3
5
7
9
11
13
15
17
19
21
-4
-3
-2
-1
0
1
2
3
4
5
21
16
15
26
22
14
21
22
18
25
-84
-48
-30
-26
0
14
42
66
72
125
336
144
60
26
0
14
84
198
288
625
189
64
15
0
22
56
189
352
450
900
200
131
1775
2237
С=11
Контроль: 2237
k=2
1775
1
2
xi 11
2
2 131 200
Ui
144
m
U i mi
xв
i 1
C
n
131
11 11 .655
200
m
U i2 mi
Dв
k2
i 1
xв
2
C
n
35 .5 0.429 35 .07 ,
1775
4
200
11 .655 11
2
2
a b
b a
, Dx
2
12
a b
11 .655
m x xв
2
mx
Dx
a b 23 .31
2
Dв
b a
35 .07
12
Решая систему, получаем b
b a 12 35 .07
17.58, a
5.73 .
Пример Случайная величина подчиняется закону распределения
1
f ( x)
e
2
x
a
2
2
2
.
Произведена выборка
3
6
xi
mi
5
9
7
16
9
25
11
20
13
16
15
8
Найти оценку параметра a и несмещенную оценку параметра
Решение
Ui
-3
-2
-1
0
1
2
3
xi
3
5
7
9
11
13
15
С=9
k=2
mi
U i mi
-18
-18
-16
0
20
32
24
24
C xi 9
6
9
16
25
20
16
8
100
Ui
xi
k
miU i2
54
36
16
0
20
64
72
262
.
mi U i
24
9
0
25
80
144
128
410
1
2
2
145
Контроль: 410 262 2 24 100
m
U i mi
i 1
xв
n
C
24
100
k2
xв
9 9.24
m
U i2 mi
i 1
Dв
n
10 .48 0.0576
D
n
n 1
a xв
Dв
a
C
2
262
4
100
9.24 9
2
1042 ,
100
10 .42 10 .52 ,
99
3.24
D
10 .52
3.24
9.24
Пример Методом моментов по выборке
X
3
4
5
n
70
20
10
Найти точечную оценку параметра
является показательным:
f x
, предполагая, что теоретическое распределение
e x , x 0;
0, x 0 .
Решение
Согласно методу моментов нужно приравнять начальный теоретический момент
первого порядка (математическое ожидание M ( X ) ) к начальному эмпирическому моменту
первого порядка (выборочному среднему x ): M ( X )
x.
Для показательного распределения имеем: M ( X )
Выборочное среднее находим по формуле x
ni - частота xi , n
k
i 1
Получаем x
70
1.
1 k
x n , где xi - варианта выборки,
ni 1 i i
ni - объем выборки.
1
3 70
20 10
Приравнивая моменты, находим
4 20 5 10
: 1
3,4 =>
3,4 .
1
3,4
0,29 .
Контрольные вопросы
1.
Дайте определение точечной оценки параметра.
2.
Какая оценка называется:
а) смещенной;
б) несмещенной;
146
в) эффективной?
3.
Какую оценку называют оценкой наибольшего правдоподобия?
4.
Перечислите достоинства метода наибольшего правдоподобия.
5.
Сформулируйте основные положения метода моментов.
6.
Методы получения оценок: метод моментов, метод максимального
правдоподобия проведите сравнение.
Задачи для самостоятельного решения
1. При условии показательного распределения случайной величины Х
e x , если x 0
f x
. Произведена проверка:
0, если x 0
4
3
10
12
15
xi
mi
3
3
6
4
4
Найти оценку параметра .
0.1058
Ответ:
2.При условии равномерного распределения случайной величины Х
1
, x a, b
. Произведена выборка:
f x
b a
0, x a, b
Найти оценку параметров a и b.
0.34 .
Ответ: b
7.18, a
3.Случайная величина подчиняется закону распределения
f ( x)
1
2
x a
e
2
2
2
.
Произведена выборка:
1
2
3
4
5
6
xi
mi
3
6
13
22
17
13
Найти оценку параметра a и несмещенную оценку параметра
Ответ:
1.35 , a
4.12
.
147
Глоссарий
Асимптотически несмещенная оценка – оценка некоторого признака и для выборки
x1 , x2 ,, xn
x x2  xn
lim 1
X
n
n
где X – истинное значение исследуемой величины.
Бесповторная выборка – отобранный объект в генеральную совокупность не возвращается.
выражением
Биноминальное распределение – закон, выражающийся формулой Бернулли
p( X
Cnm p m q n
m)
m
Варианты - наблюдаемые значения x1 , x2 ,…, xn случайной величины X , принимаемые в
выборке n1 раз, n2 раз, …, nn раз.
Вариационный размах – разность между наибольшим и наименьшим вариантами ряда
R
x max
x min
Вариационный ряд - последовательность вариант, записанных в порядке возрастания и
соответствующих им частот или относительных частот.
Вес варианты - численность отдельной группы сгруппированного ряда наблюдаемых
данных.
Весы – частоты и относительные частоты.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Выборочная совокупность - совокупность случайно отобранных объектов.
Выборочная (эмпирическая) функция распределения - функция F * x , определяющая для
каждого значения x относительную частоту события X x .
nx
,
n
F* x
где n x – число вариант, меньших x , n – объем выборки.
Генеральная совокупность – совокупность всех возможных наблюдений, проводимых в
одинаковых условиях над некоторой случайной величиной, множество имеющихся
объектов.
Гистограмма – прямоугольники, с основаниями, равными интервалам значений признака и
высотами, равными частотам.
Группировка – разбиение вариантов на различные интервалы.
Дискретный признак генеральной совокупности - исследуемый признак, принимающий
отдельные, изолированные возможные значения с определѐнными вероятностями.
Дисперсия – средняя арифметическая квадратов отклонений вариантов от их средней
арифметической
m
xi
s
2
x
i 1
n
2
ni
,
где s - средне квадратическое отклонение.
Доверительный интервал - интервал, в который попадает неизвестный параметр с заданной
надежностью .
148
Закон распределения вероятностей дискретной случайной величины - соответствие между
возможными значениями измеряемой величины (признака) и вероятностью, с которой это
значение появляется в результате проведения измерений.
Интервальные частоты - частоты, в которых признак принял значения, входящие в
некоторый интервал.
Конкурирующая (альтернативная) гипотеза - гипотезу H 1 , которая противоречит нулевой.
Коэффициент ассиметрии – числовая характеристика, выражающая характер распределения
выборки
m
A
m3
xi
x
3
ni
i 1
s3
n s3
Коэффициент вариации - показатель, отражающий разброс значений относительно среднего
(отношение стандартного отклонения к среднему значению, отражает однородность
временного ряда
100 %, x
0 .
x
Критерий согласия - критерий проверки гипотезы о предполагаемом законе неизвестного
распределения
Кумулятивная кривая (кривая сумм) — ломаная, составленная по последовательно
суммированным, т.е. накопленным частотам или относительным частотам.
Математическая статистика – раздел математики, занимающейся установлением
закономерностей, которым подчинены массовые случайные явления, на основе обработки
статистических данных, полученных в результате наблюдений.
Медиана - значение признака, приходящееся на середину ранжированного ряда наблюдений.
Метод моментов -статистический метод нахождения оценок, способ построения оценок,
основанный на уравнивании теоретических и выборочных моментов.
Метод наибольшего правдоподобия - статистический метод для определения точечной
оценки, опирается на использование условий экстремума функции ( функции
правдоподобия) одной или нескольких случайных величин.
Механическая выборка - выборка, в которой генеральная совокупность каким-либо образом
упорядочена, т.е. имеется определенная последовательность в расположении единиц.
Механический отбор - отбор, при котором генеральная совокупность «механически» делится
на столько групп, сколько объектов должно войти в выборку, и из каждой группы
отбирается один объект.
Мода – варианта соответствующая наибольшей частоте.
Нормальный закон распределения – гауссовское распереление
1
e
2
f(x)
( x a )2
2
2
Наблюдаемое значение K набл - значение критерия, вычисленное по выборкам.
Надежность (доверительная вероятность) оценки Θ * параметра Θ - вероятность
что выполняется неравенство
.
Θ* Θ
того,
Начальный момент V k k -го порядка вариационного ряда определяется по формуле:
m
xi
Vk
k
i 1
n
mi
.
149
Непрерывный признак генеральной совокупности - исследуемый признак генеральной
совокупности, принимающий все значения из некоторого конечного или бесконечного
промежутка.
Несмещенная дисперсия - «исправленная» выборочная дисперсия
n
D
D .
n 1
Несмещенная статистическая оценка Θ* – статистическая оценка, математическое
ожидание которой оценки равно оцениваемому параметру генеральной совокупности
M Θ* Θ
Нулевая (основная) гипотеза H 0 - выдвинутая гипотеза.
Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой
совокупности.
Относительные частоты - отношение частот к объему выборки
ni
wi
n
Повторная выборка – каждый отобранный объект перед выбором следующего возвращается
в генеральную совокупность;
Показательное распределение – распределение, плотность вероятности определяется
зависимостью
f( x)
e x для x 0 и f ( x ) 0
для
x 0
где λ - параметр обратно-пропорциональный математическому ожиданию.
Полигон - ломаная линия с координатами xi , ni , где xi откладываются на оси абсцисс, а ni –
на оси ординат.
Простая гипотеза - гипотеза, содержащая только одно предположение.
Простой случайный отбор - отбор, при котором объекты извлекают по одному из всей
генеральной совокупности.
Пуассона закон имеет вид:
am a
pm
e
m!
где рm— вероятность появления ровно т событий; а = пр = const — среднее количество
появлений событий за промежуток времени t .
Равномерный закон распределния – закон, у которого непрерывная величина X
распределена равномерно на отрезке [a; b], если на этом отрезке плотность вероятности
постоянна, а вне отрезка равна нулю:
0,
если x a
Const если a x b
0,
если x b
Ранжирование - расположение выборочных наблюдѐнных значений случайной величины в
порядке неубывания.
Ранжирование вариантов ряда – расположение, упорядочивание вариантов в порядке
возрастания (убывания).
Репрезентативная выборка – выборка, осуществленная случайныйм образом, при этом все
объекты генеральной совокупности имеют одинаковую вероятность быть отображенными
и отбор одного объекта не влияет на вероятность отбора другого объекта совокупности.
Серийная (гнездовая) выборка – это такой вид формирования выборочной совокупности,
когда в случайном порядке отбираются группы единиц (серии, гнезда), подлежащие
f(x)
c
150
обследованию, внутри отобранных серий (гнезд) обследованию подвергаются все
единицы.
Серийный отбор - отбор, при котором объекты отбирают из генеральной совокупности не по
одному, а «сериями», которые подвергаются сплошному обследованию.
Сложная гипотеза - гипотеза, которая состоит из конечного или бесконечного числа
простых гипотез.
Смещенная статистическая оценка – статистическая оценка, математическое ожидание
которой оценки не равно оцениваемому параметру генеральной совокупности.
Состоятельная оценка - статистическая оценка, которая при n
стремится по
вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет
состоятельной, если при n
ее дисперсия стремится к 0).
Статистическая оценка неизвестного параметра теоретического распределения - функция
от наблюдаемых случайных величин.
Собственно случайная выборка – выборка, генеральная совокупность которой, строго
подразделяется на единицы отбора, и затем в случайном повторном или бесповторном
порядке отбирается достаточное число единиц.
Средней арифметической вариационного ряда называется сумма произведений всех
вариантов на соответствующие частоты, деленная на сумму частот.
m
x i ni
x
i 1
,
n
где x i - варианты дискретного ряда или середины интервалов вариационного ряда, ni соответствующие им частоты,
Средние величины — это характеристики, обобщенно представляющие одним числом всю
выборку.
Статистическая гипотеза – гипотеза о виде неизвестного распределения, или о параметрах
известных распределений.
Статистический критерий - случайная величина К, которая служит для проверки нулевой
гипотезы.
Статистический ряд- последовательность частот или относительных частот, записанных в
порядке возрастания.
…
xk
xi
x1
x2
…
xk
ni
n2
n1
…
wi
wk
w1
w2
Теория выборки - раздел статистики, в котором изучаются виды выборок, разрабатываются
методики, обеспечивающие репрезентативность выборок, изучается влияние объема
выборки на получаемые результаты.
Типический отбор - отбор, при котором объекты отбираются не из всей генеральной
совокупности, а из каждой ее «типической» части.
Типическая (районированная, стратифицированная) выборка – выборка обеспечивающая
представительство в выборке соответствующих типических групп генеральной
совокупности по интересующим исследователя признакам.
Центральный момент k - го порядка вариационного ряда определяется по формуле:
m
xi
x
k
mi
i 1
.
n
Частота – число, показывающее, сколько раз встречаются варианты из данного интервала
k
151
Частоты n1 , n2 ,…, nk –. величины, показывающие, сколько раз встречается то или иное
значение признака.
Частности - частоты, выраженные в процентах или долях единицы.
Число интервалов по формуле Стерджеса
m 1 3,322 lg n
Числовые характеристики биноминального распределения -характеристики (математическое
ожидание, дисперсия, средне квадратичное отклонение) определяемые выражениями:
M
np, D npq,
npq .
x
Числовые характеристики пуассоновского распределения – характеристики (математическое
ожидание, дисперсия, средне квадратичное отклонение) этого распределения
определяются следующими выражениями:
M D a np,
np
x
Числовые характеристики равномерного закона распределения – характеристики
(математическое ожидание, дисперсия, средне квадратичное отклонение) этого
распределения определяются следующими выражениями
b a
(b a)2
b a
, D
, x
2
12
2 3
0
x 0
1
Хи-квадрат распределение f ( x )
e x / 2 xk / 2 1 x 0
2k / 2 Г ( k / 2 )
Ширина интервала по формуле Стерджеса
x max x min
h
1 3,322 lg n
Эксцесс - числовая характеристика, выражающая характер распределения
M
m
E
m4
s4
xi
3
x
i 1
n s4
4
ni
3
Эффективная оценка – статистическая оценка, которая при заданном объеме выборки n
имеет наименьшую возможную дисперсию.
152
Список основных формул
1.
wi
2.
n
ni
n
k
относительная частота
nk - – объем выборки
i 1
nx
выборочная функция распределения
n
x max x min - вариационный размах
3.
F* x
4.
R
5.
m 1 3,322 lg n -число интервалов по формуле Стерджеса
x max x min
h
- ширина интервала по формуле Стерджеса
1 3,322 lg n
6.
m
xi ni
x
7.
среднее арифметическое вариационного ряда
i 1
n
m
xi ni
x
8.
среднее арифметическое вариационного ряда
i 1
n
m
xi
s
9.
2
2
x
ni
дисперсия
i 1
n
m
m3
A
10.
xi
x
3
ni
i 1
s3
коэффициент ассимметрии
n s3
m
m4
E
11.
s
4
xi
xi
Vk
12.
k
начальный момент V k k -го порядка вариационного ряда
n
k
x
mi
центральный момент k - го порядка вариационного ряда
i 1
k
n
2
U
эксцесс
mi
i 1
xi
13.
ni
3
n s4
m
14.
4
i 1
3
m
x
m
ci
pi
i
2
критерий Пирсона
i 1
15.
2
r
i 1
ni
n pi
n pi
2
случайная величина
153
2
k
s
16.
ni xi
n
2
n 1
i 1
DB
2
ni xi
17.
s
18.
p( X
19.
pm
s
xB
n 1
Cnm p m q n
am
e
m!
a
f(x)
c
f( x)
e
распределение
21.
22.
f(x)
23.
f(x)
m
биноминальное распределение
закон Пуассона
если
0,
20.
исправленное среднее квадратическое отклонение
i 1
m)
исправленная дисперсия
n 1
k
2
xB
x
a
Const если a x b равномерный закон распределения
0,
если x b
x
для x
1
e
2
и
0
f( x)
0
для
x
0
-показательное
( x a )2
2
2
- нормальное распределение
0
x
1
e
k/2
2 Г( k / 2 )
x/2 k/2 1
x
x
0
0 Хи-квадрат распределение
24.
b a
, D
25.
2
распределения
M
26.
M
D
a
np,
(b a)2
,
12
b a
2 3
числовые
характеристики
равномерного
np числовые характеристики пуассоновского распределения
x
M np, D npq,
распределения
x x2  xn
28.
lim 1
n
n
*
pΘ
Θ Θ*
29.
27.
x
x
npq
X
асимптотически несмещенная оценка
числовые
характеристики
биноминального
доверительная вероятность
154
Приложение 1Таблица значений функции
x
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
x
0,0000
0,0040
0,0080
0,0120
0,0160
0,0199
0,0239
0,0279
0,0319
0,0359
0,0398
0,0438
0,0478
0,0517
0,0557
0,0596
0,0636
0,0675
0,0714
0,0753
0,0793
0,0832
0,0871
0,0910
0,0948
0,0987
0,1026
0,1064
0,1103
0,1141
0,1179
0,1217
0,1255
0,1293
0,1331
0,1368
0,1406
0,1443
0,1480
0,1517
0,1554
0,1591
0,1628
0,1664
x
0,45
0,46
0,47
0.48
0,49
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
x
0,1736
0,1772
0,1808
0,1844
0,1879
0,1915
0,1950
0,1985
0,2019
0,2054
0,2088
0,2123
0,2157
0,2190
0,2224
0,2257
0,2291
0,2324
0,2357
0,2389
0,2422
0,2454
0,2486
0,2517
0,2549
0,2580
0,2611
0,2642
0,2673
0,2703
0,2734
0,2764
0,2794
0,2823
0,2852
0,2881
0,2910
0,2939
0,2967
0,2995
0,3023
0,3051
0,3078
0,3106
x
x
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
0,99
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
1,32
1,33
1
2
x
e
z2
2 dz
0
x
0,3159
0,3186
0,3212
0,3238
0,3264
0,3289
0,3315
0,3340
0,3365
0,3389
0,3413
0,3438
0,3461
0,3485
0,3508
0,3531
0,3554
0,3577
0,3599
0,3621
0,3643
0,3665
0,3686
0,3708
0,3729
0,3749
0,3770
0,3790
0,3810
0,3830
0,3849
0,3869
0,3883
0,3907
0,3925
0,3944
0,3962
0,3980
0,3997
0,4015
0,4032
0,4049
0,4066
0,4082
x
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
x
0,4115
0,4131
0,4147
0,4162
0,4177
0,4192
0,4207
0,4222
0,4236
0.4251
0,4265
0,4279
0,4292
0,4306
0,4319
0,4332
0,4345
0,4357
0,4370
0,4382
0,4394
0,4406
0,4418
0,4429
0,4441
0,4452
0,4463
0,4474
0,4484
0,4495
0,4505
0,4515
0.4525
0,4535
0,4545
0,4554
0,4564
0,4573
0,4582
0,4591
0,4599
0.4608
0,4616
0.4625
155
0,44
0,1700
0,89
0,3133
1,34
0,4099
1,79
0,4633
156
Продолжение приложения 1
x
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
x
0,4641
0,4649
0,4656
0,4664
0,4671
0,4678
0,4686
0,4693
0,4699
0,4706
0,4713
0,4719
0,4726
0,4732
0,4738
0,4744 .
0,47500,4756
0,4761
0,4767
x
2,00
2,02
2,04
2,06
2,08
2,10
2,12
2,14
2,16
2,18
2,20
2,22
2,24
2,26
2,28
2.30
2,32
2,34
2,36
2,38
x
0,4772
0,4783
0,4793
0,4803
0,4812
0,4821
0,4830
0,4838
0,4846
0,4854
0,4861
0,4868
0,4875
0,4881
0,4887
0,4893
0,4898
0,4904
0,4909
0,'4913
Приложение 2 Таблица значений t
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0,95
0.99
0,999
2,78
2,57
2,45
2,37
2,31
2,26
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,11
2,10
4,60
4,03
3,71
3,50
2,36
3,25
3,17
3,11
3,06
3,01
2,98
2,95
2,92
2,90
2,88
8,61
6,86
5,96
5,41
5,04
4,78
4,59
4,44
4,32
4,22
4,14
4,07
4,02
3,97
3,92
x
2,40
2,42
2,44
2,46
2,48
2,50
2,52
2,54
2,56
2,58
2,60
2,62
2,64
2,66
2,68
2,70
2,72
2,74
2,76
2,78
x
0,4918
0,4922
0,4927
0,4931
0,4934
0,4938
0.4941
0,4945
0,4948
0,4951
0,4953
0,4956
0,4959
0,4961
0,4963
0,4965
0,4967
0,4969
0,4971
0,4973
x
2,80
2,82
2,84
2,86
2,88
2,90
2,92
2,94
2,96
2,98
3,00
3,20
3,40
3,60
3,80
4,00
4,50
5,00
x
0,4974
0,4976
0,4977
0,4979
0,4980
0,4981
0,4982
0,4984
0.4985
0,4986
0,49865
0,49931
0,49966
0,499841
0,499928
0,499968
0,499997
0,499997
0,95
0,99
0,999
2,093
2,064
2,045
2,032
2,023
2,016
2,009
2,001
1,996
1,001
1,987
1,984
1,980
1,960
2,861
2,797
2,756
2,729
2,708
2,692
2,679
2,662
2,649
2,640
2,633
2,627
2,617
2,576
3,883
3,745
3,659
3,600
3,558
3,527
3,502
3,464
3,439
3,418
3,403
3,392
3,374
3,291
t ,n
n
20
25
30
35
40
45
50
60
70
80
90
100
120
157
Приложение 3 Критические точки распределения
Число
степеней
свободы k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
2
Уровни значимости a
0,01
0,025
0,05
0,95
0.975
0,99
6,6
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
5,0
7,4
9,4
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,6
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
3,8
6,0
7,8
9,5
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
35,2
36,4
37,7
38,9
40,1
41,3
42,6
43,8
0,0039
0,103
0,352
0,711
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,1
10,9
11,6
12,3
13,1
13,8
14,6
15,4
16,2
16,9
17,7
18,5
0,00098
0,051
0.216
0,484
0,831
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,3
11,0
11,7
12,4
13,1
13,8
14,6
15,3
16,0
16,8
0,00016
0,020
0,115
0,297
0,554
0,872
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,2
10,9
11,5
12,2
12,9
13,6
14,3
15,0
158
Приложение 4 Критические точки распределения Стьюдента
Число
степеней
свободы k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
Уровень значимости a
(двусторонняя критическая область)
0,10
0,05
0,02
0.01
6,31
12,7
31,82
63,7
2,92
4,30
6.97
9,92
2,35
3,18
4,54
5,84
2,13
2,78
3,75
4,60
2,01
2.57
3,37
4,03
1,94
2,45
3,14
3,71
1,89
2,36
3,00
3,50
1,86
2,31
2,90
3,36
1,83
2,26
2,82
3,25
1,81
2,23
2,76
3,17
1,80
2,20
2,72
3.11
1,79
2,18
2,68
3,05
1,77
2,16
2,65
3,01
1,76
2,14
2,62
2,98
1,75
2,13
2.60
2,95
1,75
2,12
2,58
2,92
1,74
2,11
2,57
2,90
1,73
2,10
2,55
2,88
1,73
2,09
2,54
2,86
1,73
2,09
2,53
2,85
1,72
2,08
2,52
2,83
1,72
2,07
2,51
2,82
1,71
2,07
2,50
2,81
1,71
2,06
2,49
2,80
1,71
2,06
2,49
2,79
1,71
2,06
2,48
2,78
1,71
2,05
2,47
2,77
1,70
2,05
2,46
2,76
1,70
2,05
2,46
2,76
1,70
2,04
2,46
2,75
1,68
2,02
2,42
2,70
1,67
2,00
2,39
2,66
1,66
1,98
2,36
2,62
1,64
1,96
2,33
2,58
0,05
0,025
0,01
0,005
Уровень значимости a
(односторонняя критическая область)
0,002
318,3
22,33
10,22
7,17
5,89
5,21
4,79
4,50
4,30
4,14
4,03
3,93
3,85
3,79
3,73
3,69
3,65
3.61
3,58
3,55
3,53
3,51
3,49
3,47
3,45
3,44
3,42
3,40
3,40
3,39
3,31
3,23
3,17
3,09
0,001
0.001
637,0
31,6
12,9
8,61
6,86
5.96
5,40
5,04
4,78
4,59
4,44
4,32
4,22
4,14
4,07
4,01
3.96
3,92
3,88
3,85
3,82
3,79
3,77
3,74
3,72
3,71
3,69
3,66
3,66
3,65
3,55
3,46
3,37
3,29
0,0005
159
Список литературы
1.
2.
3.
4.
5.
6.
7.
8.
Годин, А. М. Статистика: учебник / А. М. Годин. – Москва: Дашков и К°, 2012. – 451
с.
Ниворожкина, Л. И. Статистика: учебник для бакалавров: учебник /. – Москва:
Дашков и Кº: Наука–Спектр, 2011. – 415 с.
Статистика: учебник / [И. И. Елисеева и др.]. – Москва: Проспект, 2011. – 443 с.
Статистика: теория и практика в Excel: учебное / В. С. Лялин, И. Г. Зверева, Н. Г.
Никифорова. – Москва: Финансы и статистика: Инфра–М, 2010. – 446.
Тумасян, А. А. Статистика промышленности: учебное пособие / А. А. Тумасян, Л. И.
Василевская. – Минск: Новое знание. – Москва: Инфра–М, 2012. – 429 с.
Экономическая статистика: учебник / [А. Р. Алексеев и др.]. – Москва: Инфра–М,
2011. – 666 с.
Богданова М.Г.,Старожилова О.В. Методическая разработка к практическим занятиям
«Основные понятия статистики и выборочный метод». Самара, ИУНЛ Поволжского
государственного университета телекоммуникаций и информатики, 2011,с.25
Блатов И.А., Старожилова О.В. Теория вероятностей и математическая статистика.
Конспект лекций. Самара, ИУНЛ Поволжского государственного университета
телекоммуникаций и информатики, 2011,с.240
9.
Старожилова О.В., Якимова М.И.Методическая разработка к практическим
занятиям «Показатели значений центра и размаха вариации статистического
распределения». Самара, ИУНЛ Поволжского государственного университета
телекоммуникаций и информатики, 2011,с.23
160
Документ
Категория
Без категории
Просмотров
120
Размер файла
4 869 Кб
Теги
matem, proverka, veroyatnostey, statistika, starozhilova, tsh1, solo, eva, teoriya, statist, ryady, gipotezy, variacionnoe
1/--страниц
Пожаловаться на содержимое документа