close

Вход

Забыли?

вход по аккаунту

?

Лапшина М.Л. Логика и методология науки

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ
ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ
ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ЛЕСОТЕХНИЧЕСКИЙ
УНИВЕРСИТЕТ ИМЕНИ Г.Ф. МОРОЗОВА»
Кафедра вычислительной техники и информационных систем
Логика и методология науки
Методические указания к практическим занятиям
для студентов по направлению подготовки
09.04.02 – Информационные системы и
технологии
Воронеж 2016
1
УДК 004.43
Лапшина, М.Л. Логика и методология науки [Текст]: методические
указания к практическим занятиям для студентов по направлению
подготовки 09.04.02 – Информационные системы и технологии / М.Л.
Лапшина; М-во образования и науки РФ, ФГБОУ ВО «ВГЛТУ им. Г.Ф.
МОРОЗОВА». – Воронеж, 2016. – 21 с.
1
Рассматриваются следующие задачи:
1. Определение
закона
распределения
случайной
величины
по
статистическим данным
2. Критерии
согласия
эмпирического
и
теоретического
законов
распределения.
3. Оценка
числовых
характеристик
и
неизвестных
параметров
распределения.
1. Определение закона распределения случайной величины по
статистическим данным
1.1. В разнообразных видах практической деятельности встречается
такая задача. Наблюдается некоторая случайная величина
X,
закон
распределения которой не известен. Требуется определить этот закон из
опыта или проверить гипотезу о том, что эта случайная величина подчинена
определенному закону распределения.
В результате наблюдений (эксперимента, исследований) имеем ряд значений
случайной величины:
1
x1
2
x2
3
x3
… n
xn
Такой ряд называется первичным (простым) рядом наблюдений или
выборкой значений случайной величины, при этом число наблюденных
значений n называется объемом (размером) выборки.
Для
заданной
выборки
может
быть
построена
статистическая
(эмпирическая) функция распределения случайной величины Х - Fn ( x) .
Значение функции Fn ( x) для каждого действительного числа x полагается
равным частоте события X  x в данной выборке:
Fn ( x)  P ( X  x) 
2
nx
,
n
(1)
где nx - число наблюдений в выборке, меньших x,    x   .
1.2. Чтобы описать свойства статистической функции распределения
расположим наблюдения в порядке возрастания значений:
x(1)  x(2)  x(3) 
 x( n)
Такой ряд называется вариационным рядом. Основные свойства Fn ( x)
следующие:
1) Функция Fn ( x) не убывает:
Fn ( x1 )  Fn ( x2 ) , для x1  x2
2) Если x( k )  x( k 1) , то слева от любого x из промежутка x( k )  x  x( k 1) лежит
одно и то же число наблюдений
(именно k ). Поэтому функция Fn ( x)
k
во всех точках этого промежутка, включая
n
сохраняет постоянное значение
точку x( k 1) :
Fn ( x) 
k
,
n
для x( k )  x  x( k 1) .
В самой же точке x( k 1) функция Fn ( x) совершает скачок на величину
n( k 1)
n
,
где n( k 1) - число наблюдений в ряду, в точности равных x( k 1) .
3) Слева от наименьшего наблюденного значения, включая и само это
значение, функция Fn ( x) равна 0:
Fn ( x)  0 , для x  x(1)
4) Справа от наибольшего наблюденного значения функция Fn ( x) равна 1:
Fn ( x)  1 , для x  x( n )
Но самые важные свойства Fn ( x) следующие:
5) Согласно закону больших чисел (теореме Бернулли) при каждом x Fn ( x)
сходится к F ( x) по вероятности:
Для каждого x и каждого   0
lim P( Fn ( x)  F ( x)   )  0
n
3
6) Более того, с вероятностью единица имеет место равномерная по
  x   сходимость F  ( x) к F ( x) при n   (теорема Гливенко):
sup Fn* ( x)  F ( x) 
 0 с вероятностью 1,
n 
 x 
где значок sup означает точную верхнюю грань (максимальное значение)
модуля разности между Fn ( x) и F ( x) , а оговорка « с вероятностью 1»
означает, что для любой наблюденной последовательности значений
случайной величины указанный предел будет равен 0.
Благодаря свойствам 5 и 6 построение эмпирической функции распределения
решает в принципе задачу определения закона распределения случайной
величины.
1.3. Рассмотрим построение функции Fn ( x) на примере.
Задача 1.
10 раз повторяли серию из 100 подбрасываний монеты и подсчитывали число
выпадений герба в каждой серии. Получили следующую выборку:
1
2
3
4
5
6
7
8
9
10
53 39 46 46 53 43 50 61 53 52
Требуется построить статистическую функцию распределения.
Решение.
Построим вариационный ряд наблюдений:
39 43 46 46 50 52 53 53 53 61
Составим таблицу (1):
В первый столбец последовательно выпишем различные
значения
вариационного ряда ( zi ) ;
Во втором столбце для каждого значения укажем число повторений
этого значения в выборке, так называемую абсолютную частоту (ni ) ;
4
В третьем столбце вычислим относительные частоты наблюдений,
т.е. результат деления абсолютных частот на общее число наблюдений
pi  ni / n ;
В четвертом столбце относительные частоты представим нарастающим
итогом, причем для первого значения укажем ноль. Это и есть значения
статистической функции распределения в каждой точке скачка Fn ( zi ) .
Таблица
(1)
позволяет
выписать
формулы
(1),
определяющие
статистическую функцию распределения Fn ( x) .
Таблица 1
zi
39
43
46
50
52
53
61
ni
1
1
2
1
1
3
1
10
pi
0,1
0,1
0,2
0,1
0,1
0,3
0,1
1
0
0,1

0, 2

0, 4

F ( x)  
0,5
0, 6

0,9
1

F  ( zi )
0
0,1
0,2
0,4
0,5
0,6
0,9
1
x  39
39  x  43
43  x  46
46  x  50
(2)
50  x  52
52  x  53
53  x  61
61  x
График функции F ( x) приведен на рис.1. Он имеет вид ступенчатой

n
возрастающей функции, причем в каждой точке скачка функция непрерывна
слева: на рисунке 1 значение 0,2 в точке 46 выделено жирной точкой, предел
справа в это точке равен 0,4.
1,2
1
1
0,9
0,8
0,6
0,6
0,5
0,4
0,4
0,2
0,2
0,1
0
38
40
42
44
46
48
50
52
Рисунок 1
5
54
56
58
60
62
1.4 Статистическая функция распределения имеет ступенчатый
характер как для дискретной, так и для непрерывной случайной величины.
Для дискретной случайной количество скачков будет сохраняться или
медленно возрастать при увеличении числа наблюдений, а величины этих
скачков будут стремиться
к истинным вероятностям соответствующих
значений.
Так в рассмотренном примере выборка размером 10 имела 9 скачков. Были
смоделированы выборки объемом 50 и 100 наблюдений из данного
распределения вероятностей. Для 50 получили 16 скачков, для 100 – 19
скачков. Но вообще-то в рассмотренном примере количество скачков может
достигнуть 100.
Если количество различных значений дискретной случайной величины
невелико, то построение функции Fn ( x) можно выполнять описанным выше
способом. На самом деле для дискретной случайной величины нужны
статистические частоты наблюденных значений, т.е. статистический ряд
распределения.
Для непрерывной случайной величины количество скачков будет мало
отличаться от n , поэтому построение Fn ( x) описанным способом в этом
случае возможно лишь при небольшом объеме выборки. При больших n
построение Fn ( x) описанным способом становится чрезвычайно трудоемким,
да и сама функция, содержащая сотни скачков, оказывается недостаточно
наглядной. Эти проблемы устраняются путем преобразования первичного
ряда наблюдений в так называемый группированный статистический ряд.
1.5. Группированный статистический ряд можно построить следующим
способом.
Первичная выборка преобразуется в вариационный ряд. Далее определяется
размах выборки:
R  x( n )  x(1)
6
Определяется количество разрядов, интервалов, на которые будут
разделены наблюденные значения. Количество таких интервалов, как
правило, от 10 до 20. При этом желательно, чтобы эти интервалы были
равной длины. Но иногда отдельные интервалы приходится объединять, если
они содержат слишком мало значений. При высокой же частоте изменения
значений
X
в некоторых областях исходные интервалы приходится
разбивать на более мелкие интервалы.
Будем считать, что область значений случайной величины разбивается на k
разрядов длины h :
h
R
.
k
При вычислении h удобно округлить до одного-двух знаков после
запятой в большую сторону, чтобы наблюдение
x( n )
попало внутрь
последнего разряда. Границы i - го разряда будем обозначать через ai и ai 1 .
Так что вся область изменения случайной величины разлагается в сумму k
непересекающихся разрядов:
[a1 , a2 ),[a2 , a3 ),
[ak 2 , ak 1 ),[ak 1, ak ]
Далее подсчитываем количество наблюдений, попавших в i -ый
разрядов, так называемые абсолютные частоты - mi , относительные частоты
pi  mi / n и накопленные частоты:
Fn (a1 )  0, Fn (a2 )  Fn (a1 )  p1 ,
При построении графика Fn ( x)
Fn (ak 1 )  Fn (ak )  pk  1 .
полученные значения Fn (ai ) соединяют
отрезками прямой или плавной линией, что вполне оправдано, так как
предельная функция F ( x) является непрерывной.
1.5 Выполним описанный расчет на данных конкретной задачи.
Задача 2.
Дана
выборка
размера
100
из
нормальной
совокупности
с
математическим ожиданием 0 и дисперсией 1. Данные размещены по
7
столбцам в таблице (2). Построить статистическую функцию распределения
и сравнить ее с функцией стандартного нормального распределения.
Таблица 2
№ п/п
1
32
43
54
65
76
87
98
9
10
1
-0,1116
-0,7394
0,6354
-1,0073
-0,6055
0,5294
1,2392
1,8320
-1,5434
0,1474
2
-2,0578
-0,2984
0,6409
0,7695
-0,0093
0,9830
0,9453
1,0247
-0,7626
-1,4730
3
-0,6008
1,3807
-0,6593
1,1176
-0,3430
0,4903
-0,5459
-0,7933
-0,2553
-1,8222
4
1,5535
-1,0874
-0,6599
1,2506
-1,0980
-1,6584
0,0924
-0,0492
0,4369
0,8957
5
-0,1615
-0,4740
-0,9447
-0,2533
1,8154
-1,0040
0,0470
-0,4918
0,6216
-0,5583
6
-2,4063
0,3993
1,2911
-0,5885
-0,6324
-1,4356
-0,0108
0,4732
-0,7125
-0,3553
7
0,5496
0,6486
-0,7125
2,7876
-0,3313
0,2834
-0,3276
-0,1317
-0,7496
-1,0774
8
9
10
-0,4507 -2,2961 1,5484
-0,1383 -0,7128 -0,8536
-0,8667 -0,2884 -1,3493
0,6535 -1,2660 0,9677
1,1891 -2,2253 0,2445
-1,4466 1,9075 -1,7894
-0,7358 1,4536 1,0812
-0,2844 -0,3376 -0,1067
-1,4501 -0,7563 -0,0888
1,4407 -0,4736 0,1044
Решение.
Вычисления удобно выполнять в Excel. Там сгенерированные
исходные данные располагаются в одном столбце. Их легко отсортировать по
возрастанию и найти минимальное и максимальное значение, размах и длину
разряда при числе разрядов, равном 10:
xmin
xmax
R
k
h
-2,4063
2,7876
5,1939
10
0,52
Теперь заполняем таблицу (3) группированного статистического ряда
Таблица 3
i
1
2
3
4
5
6
7
8
9
10
11
ai
-2,4063
-1,8863
-1,3663
-0,8463
-0,3263
0,1937
0,7137
1,2337
1,7537
2,2737
2,7937
mi
4
8
10
26
18
13
9
8
3
1
100

F100
(ai )
0,00
0,04
0,12
0,22
0,48
0,66
0,79
0,88
0,96
0,99
1,00
(ai )
0,008057
0,029625
0,085916
0,198681
0,372083
0,576779
0,762281
0,891335
0,960256
0,988507
0,997394
D
D(ai )
0,008057
0,010375
0,034084
0,021319
0,107917
0,083221
0,027719
0,011335
0,000256
0,001493
0,002606
0,107917
Здесь использованы следующие обозначения:
i - номер разряда и его левой границы;
8
ai - значение левой границы разряда;
ni - число наблюдений, удовлетворяющих неравенству ai 1  x j  ai ;
( x) - функция стандартного нормального распределения;

Di  F100
(ai )  (ai ) ;
D  max Di .
i
Подсчет чисел ni выполнен с помощью функции Excel СЧЁТ ЕСЛИ
(диапазон; условие). При большом n такой подсчет затруднительно сделать
без компьютера.

На рисунке 2 показаны функции F100
( x) и ( x) для сравнения. Видно
достаточно хорошее соответствие. Более точное заключение сделаем
несколько позже, когда будем рассматривать критерии согласия.
1.6.
На
практике
часто
группированный
статистический
ряд
представляют в виде графика гистограммы.
Чтобы построить гистограмму, нужно по оси абсцисс отложить
границы разрядов, и на каждом разряде как на основании построить
прямоугольник с площадью, равной частоте разряда.
Для этого нужно частоту разряда разделить на длину разряда и полученное
число взять в качестве высоты прямоугольника. Для i -го разряда получаем
формулу:
pi
,
yi 
h

где yi - высота прямоугольника, а pi* 
разряда.
9
ni
n
- относительная частота i -го
1,20
1,00
0,80
N100
N(0,1)
0,60
0,40
0,20
-3,0000
-2,0000
0,00
0,0000
-1,0000
1,0000
2,0000
3,0000
4,0000
Рисунок 2
Обозначим через xi абсциссу середины i -го разряда. Тогда точка
( xi , yi ) есть середина верхнего основания прямоугольника i -го разряда.
Соединяя эти точки отрезками прямых линий, получим полигон частот,
который
позволяет
сравнить
гистограмму
с
функцией
плотности
теоретического распределения, к которой стремится гистограмма при
увеличении n и неограниченном уменьшении длины разряда.
Задача 3.
Используя данные задачи 2 построить на одном графике для сравнения
гистограмму,
полигон
частот
и
функцию
плотности
стандартного
нормального распределения.
Решение.
Используя таблицу (3) составим таблицу (4) для построения требуемых
графиков. Графики представлены на рисунке 3. Графики показывают
небольшую левую асимметрию и выброс в центре, обусловленные
случайными отклонениями.
Таблица 4
i
ai
xi
ni
pi
yi
10
 (ai )
0
1
2
3
4
5
6
7
8
9
10
11
12
-3,0000
-2,4063
-1,8863
-1,3663
-0,8463
-0,3263
0,1937
0,7137
1,2337
1,7537
2,2737
2,7937
3,0000
-2,1463
-1,6263
-1,1063
-0,5863
-0,0663
0,4537
0,9737
1,4937
2,0137
2,5337
0
4
8
10
26
18
13
9
8
3
1
0,00
0,04
0,08
0,10
0,26
0,18
0,13
0,09
0,08
0,03
0,01
0,0000
0,0769
0,1538
0,1923
0,5000
0,3462
0,2500
0,1731
0,1538
0,0577
0,0192
0,004432
0,022056
0,067335
0,156863
0,278849
0,378255
0,391531
0,309254
0,186393
0,085726
0,030086
0,008057
0,004432
100
0,60
0,50
0,40
0,378
0,392
0,309
0,30
0,279
0,20
0,186
0,157
0,10
0,086
0,067
0,022
0,004
-2,41 -1,89
0,030
-1,37
-0,85
0,00
-0,33
0,19
0,71
1,23
1,75
2,27
0,008
0,004
2,79
Рисунок 3
2. Критерии согласия эмпирического и теоретического законов
распределения.
Построенные на рисунках 2 и 3 графики позволяют высказать
предположение о том, что наблюдаемая случайная величина имеет
нормальное распределение с математическим ожиданием 0 и дисперсией 1 N (0,1) . Способы, позволяющие проверить это утверждение (гипотезу),
называются критериями.
2.1 Критерий Колмогорова
11
Этот критерий основывается на максимальном значении модуля разности
между статистической функцией распределения Fn ( x) и теоретической
функцией распределения F ( x) :
D  max Fn ( x)  F ( x)
А.Н.
Колмогоров
доказал,
что
для
любой
непрерывной
функции
распределения F ( x) вероятность неравенства
D n 
при неограниченном возрастании n стремится к пределу
P ( )  1 

 (1) e
k
2 k 2  2
k 
Значения этих вероятностей для различных значений  приведены в таблице
5.
Таблица 5

0,000
0,100
0,200
0,300
0,400
0,500
0,600
P ( )
1,000
1,000
1,000
1,000
0,997
0,964
0,864

0,700
0,800
0,900
1,000
1,100
1,200
1,300
P ( )
0,711
0,544
0,393
0,270
0,178
0,112
0,068

1,400
1,500
1,600
1,700
1,800
1,900
2,000
P ( )
0,040
0,022
0,012
0,006
0,003
0,002
0,001
Покажем, как работает критерий Колмогорова на примере конкретной задачи
Задача 4
Используя данные задачи 3, проверить гипотезу о том, что выборка
значений случайной величины произведена из нормального распределения
N (0,1) .
Решение.
В таблице 3 сосчитано значение D для этой выборки:
D 0,107917
Вычислим  :
  D n  0,107917 10  1,08
12
Интерполируя по таблице 5, находим P(1,08)  0, 20 . Эта вероятность
довольно велика, поэтому можно считать, что высказанная гипотеза не
противоречит опытным данным. Если бы вычисленное значение оказалось
порядка 0,01, то мы бы отвергли эту гипотезу на уровне значимости 0,05, так
как при таком уровне значимости мы считаем все события, вероятность
которых меньше 0,05 практически невозможными.
2.2. Критерий хи-квадрат.
Другим
критерием,
позволяющим
проверить
соответствие
теоретической и статистической функции распределения, является критерий
хи-квадрат, который основан на статистике (функции наблюденных
значений):
2  
i
n 
( pi  pi )2
pi
Это выражение удобно переписать в другом виде:
2  
i
(ni  npi )2
.
npi
Последнее выражение более удобно для вычислений.
Здесь, как и прежде, ni - число наблюдений, попавших в i - й разряд, а pi теоретическая вероятность попадания в i - й разряд согласно функции
распределения F ( x) случайной величины X .
К. Пирсон доказал, что при неограниченном увеличении числа опытов
n и для любой функции F ( x) распределение статистики  2 стремится к
одному и тому же пределу, именно функции распределения хи-квадрат с
r  k  s степенями свободы. Степени свободы это линейные ограничения,
наложенные на частоты pi . Например, одно ограничение есть всегда:
p

i
 1.
i
Если других ограничений нет, то число степеней, свободы равно 1, а
r  k 1 .
13
могут быть еще ограничения, обусловленные оценками неизвестных
параметров.
Этот
случай
мы
рассмотрим
несколько
позже.
Для
распределения  2 составлены специальные таблицы, оно также включено в
состав математического обеспечения многих программных продуктов, в
частности, Excel. Рассмотрим применение критерия  2 на примере задачи.
Задача 5
Используя данные задачи 3, проверить по критерию  2 гипотезу о том,
что выборка значений случайной величины произведена из нормального
распределения N (0,1) .
Решение.
Исходим из данных таблицы 3. Для применения критерия  2 ,
требуется, чтобы количество наблюдений в разряде было не менее 5.
Поэтому объединяем 1 и 2 разряды, а также 8, 9 и 10 разряды таблицы 3. В
результате приходим к таблице 6. В новой таблице будет 7 разрядов, причем
a1   , а a8   , так как теоретически нормально распределенная случайная
величина может принимать любые значения на числовой прямой.
В таблице обозначено:
(ai ) - значение функции стандартного распределения в точке ai , а
pi  (ai 1 )  (ai )
В правом нижнем углу желтым цветом выделено значение статистики
 2 и вероятность наблюдать такое или большее значение за счет случайных
отклонений. Как видим, вероятность довольно большая, поэтому нет
оснований отвергать проверяемую гипотезу. Заметим, однако, что эта
вероятность несколько меньше, чем для критерия Колмогорова.
Таблица 6
i
1
2
3
4
ai
-∞
-1,3663
-0,8463
-0,3263
(ai )
ni
12
10
26
0,0000
0,0859
0,1987
0,3721
npi
pi
0,0859
0,1128
0,1734
14
8,59
11,28
17,34
ni  npi
(ni  npi ) 2
npi
3,41 1,3522
-1,28 0,1445
8,66 4,3248
5
6
7
8
∑
0,1937
0,7137
1,2337
+∞
18
13
9
12
100
0,5768
0,7623
0,8913
1,0000
0,2047
0,1855
0,1291
0,1087
1,0000
20,47
18,55
12,91
10,87
100,00
-2,47
-5,55
-3,91
1,13
0,00
0,2979
1,6606
1,1818
0,1182
9,0801
0,1691
Рассмотрим теперь следующую задачу.
Задача 6
Используя данные задачи 3, проверить по критерию  2 гипотезу о том,
что выборка значений случайной величины произведена из нормального
распределения, параметры
среднеквадратическое
которого математическое ожидание
отклонение

нам
неизвестны.
Вместо

и
них
использовать оценки этих параметров, рассчитанные по выборке: m  0,1391
и s  1, 0322 . Методы расчета оценок параметров будут рассмотрены в
следующем разделе.
Решение.
Построим таблицу 7, такую же, как таблица 6, но вместо функции ( x) будем
использовать функцию ( x) нормального распределения с параметрами
m  0,1391 и s  1, 0322 . Получим следующую таблицу.
Таблица 7
ai
i
1
2
3
4
5
6
7
8
∑
-∞
-1,3663
-0,8463
-0,3263
0,1937
0,7137
1,2337
+∞
(ai )
ni
12
10
26
18
13
9
12
100
0,0000
0,1172
0,2466
0,4280
0,6264
0,7956
0,9082
1,0000
npi
pi
0,1172
0,1294
0,1814
0,1984
0,1692
0,1126
0,0918
1,0000
11,72
12,94
18,14
19,84
16,92
11,26
9,18
100,00
ni  npi
0,28
-2,94
7,86
-1,84
-3,92
-2,26
2,82
0,00
(ni  npi ) 2
npi
0,0065
0,6676
3,4046
0,1704
0,9090
0,4530
0,8685
6,4796
0,1661
Новое значение статистики  2  6, 4796 , а вероятность такого же или
большего
отклонения,
вычисленная
при
числе
степеней
свободы
r  7 1  2  4 , оказалась равной 0,1661, т.е. почти такая же, как и в
предыдущем случае. Поэтому мы с таким же уровнем доверия можем
15
принять гипотезу о том, что данные извлечены из распределения
N (0,1391;1,0322) .
3. Оценка числовых характеристик и неизвестных параметров1
распределения.
3.1. Точечные оценки моментов распределения.
Напомним, что понятие момента пришло в теорию вероятностей из
механики, где моменты используются для описания распределения масс. В
теории
вероятностей
моменты
служат
для
описания
распределения
вероятностной массы.
Различают моменты относительно начала координат, так называемые
начальные моменты. Для дискретной случайной величины начальный
момент r - го порядка задается формулой:
r   xir pi
i
Начальный
момент
1-го
порядка
называется
математическим
ожиданием и характеризует положения центра распределения:
M [ X ]    1   xi pi
i
Физически математическое ожидание представляет центр тяжести
распределенной массы.
Центральные моменты вычисляются относительно математического
ожидания:
r   ( xi   )r pi
i
Мы будем рассматривать только первые 4 момента, которые в
основном используются на практике.
Центральный момент 1-го порядка равен 0.
Параметрами мы называем такие числовые характеристики, которые явно входят в
выражение для функции плотности или распределения вероятностей случайной величины.
1
1 
Например, μ и σ для нормального закона с плотностью f ( x) 
e
2
16
( x   )2
2 2
.
Центральный момент 2-го порядка характеризует рассеяние
вероятностной массы относительно центра распределения и называется
дисперсией:
D[ X ]   2   ( xi   )2 pi .
i
Третий и четвертый центральные моменты служат для определения
асимметрии
A
распределения и эксцесса E (меры островершинности)
распределения:
3
3

E  44  3

A
Для непрерывной случайной величины формулы для моментов
заменяются интегралами. Так, например, формула для центрального момента
r -го порядка будет следующей:
r 




r
r
 ( x   ) f ( x)dx   ( x   ) dF ( x) ,
где f ( x) - плотность, а F ( x) - функция распределения вероятностей случайной
величины X . Аналогично изменятся и другие формулы.
Точным
статистическим
аналогом
моментов
теоретического
(истинного) распределения являются моменты статистической функции
распределения, которые вычисляются по формулам:
1
xir

n i
1
mr   ( xi  m) r
n i
mr 
Для первых четырех моментов имеем:
1
 xi
n i
(3)
m2 
1
( xi  m)2

n i
(4)
m3 
1
( xi  m)3

n i
(5)
m  m1 
17
m4 
1
( xi  m)4

n i
(6)
A 
m3
s3
(7)
E 
m4
3
s4
(8)
n
m2
n 1
(9)
где
s
Приведенные выше статистики являются состоятельными оценками
соответствующих численных характеристик истинного распределения, т.е.
при возрастании n сходятся по вероятности к соответствующим значениям.
Но несмещенными являются только оценки mr , в частности, оценка m . Легко
проверить, что M [m2 ] 
n 1
2 , поэтому при малых n для оценки дисперсии
n
используется выборочная дисперсия:
s2 
1
n
( xi  m)2 
m2

n 1 i
n 1
(10)
Ясно, что при больших n статистики s 2 и m2 эквивалентны.
Рассмотрим технику вычисления выборочных моментов на конкретных
примерах.
3.1.1. Малая выборка
Задача 7.
Произведено 16 измерений начальной скорости снаряда. Результаты
измерений (в м/сек) следующие: 1245.6, 1247.5, 1242.9, 1246.2, 1248.5, 1244.2,
1245.9, 1243.3, 1244.5, 1246.8, 1247.6, 1243.1, 1244.3, 1247.5, 1245.4, 1244.7.
Вычислить 4 первых выборочных момента распределения, а также
асимметрию и эксцесс.
Решение.
18
Составляем таблицу
Таблица 8
№п/п
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∑
xi
zi=xi-m
1245,6
0,1
1247,5
2
1242,9
-2,6
1246,2
0,7
1248,5
3
1244,2
-1,3
1245,9
0,4
1243,3
-2,2
1244,5
-1
1246,8
1,3
1247,6
2,1
1243,1
-2,4
1244,3
-1,2
1247,5
2
1245,4
-0,1
1244,7
-0,8
19928
0
zi2
0,01
4
6,76
0,49
9
1,69
0,16
4,84
1
1,69
4,41
5,76
1,44
4
0,01
0,64
45,9
zi3
0,0010
8,0000
-17,5760
0,3430
27,0000
-2,1970
0,0640
-10,6480
-1,0000
2,1970
9,2610
-13,8240
-1,7280
8,0000
-0,0010
-0,5120
7,3800
zi4
0,0001
16,0000
45,6976
0,2401
81,0000
2,8561
0,0256
23,4256
1,0000
2,8561
19,4481
33,1776
2,0736
16,0000
0,0001
0,4096
244,2102
Затем по формулам (3) – (10) вычисляются требуемые величины:
m = m'1
m2
S²
m3
m4
S
A*
E*
1245,5
2,8687
3,0600
0,4612
15,2631
1,7493
0,0862
-1,3699
3.1.2. Большая выборка
Задача 8.
Используя данные табл.2, вычислить 4 первых выборочных момента
распределения, а также асимметрию и эксцесс.
Решение.
Составляем таблицу:
Таблица 9
i
1
ai
2,406341
2
1,886341
3
-
ni
pi*
x i*
xi*pi* zi=xi*-m
zipi*
zi2pi*
zi3pi*
zi4pi*
4
0,04 -2,1463 -0,08585 -2,0072 -0,08029 0,161154 -0,3235
0,6493
8
10
0,08 -1,6263 -0,13011 -1,4872 -0,11898 0,176941 -0,2631
0,10 -1,1063 -0,11063 -0,9672 -0,09672 0,093548 -0,0905
0,3914
0,0875
19
4
5
6
7
8
9
10
11
∑
1,366341
0,846341
0,326341
0,193659
0,713659
1,233659
1,753659
2,273659
2,793659
26
0,26 -0,5863 -0,15245 -0,4472 -0,11627 0,051997 -0,0233
0,0104
18
13
9
8
3
1
0,18 -0,0663 -0,01194
0,13 0,4537 0,05898
0,09 0,9737 0,08763
0,08 1,4937 0,11949
0,03 2,0137 0,06041
0,01 2,5337 0,02534
100
1
0,0728 0,013104 0,000954
0,5928 0,077064 0,045684
1,1128 0,100152 0,111449
1,6328 0,130624 0,213283
2,1528 0,064584 0,139036
2,6728 0,026728 0,071439
0,0001
0,0271
0,1240
0,3482
0,2993
0,1909
0,0000
0,0161
0,1380
0,5686
0,6444
0,5103
0,0000
0,2893
3,0159
-0,13914
1,0655
Обозначения столбцов:
i - номер разряда и его левой границы;
ai - значение левой границы разряда;
ni - число наблюдений, удовлетворяющих неравенству ai 1  x j  ai ;
pi 
ni
- относительная частота разряда;
n
xi 
ai  ai 1
- середина разряда;
2
Обозначения остальных столбцов представлены формулами.
Моменты вычисляем по формулам:
m  m1   xi pi
(11)
i
m2   zi2 pi
(12)
i
m3   zi3 pi
(13)
i
m4   zi4 pi
(14)
i
Асимметрию и эксцесс вычисляем по формулам (11) и (15), где
s  m2
(15)
Получаем следующие результаты:
m
m2
m3
m4
S
A*
E*
-0,1391
1,0655
0,2893
3,0159
1,0322
0,2631
-0,3434
20
3.2. Интервальные оценки
3.2.1. Понятие доверительного интервала.
Пусть  истинное значение некоторой числовой характеристики или
параметра распределения случайной величины X , для которой есть выборка
значений x  ( x1 , x2 , xn ) . Пусть также даны две функции 1 ( x ) и 2 ( x ) такие,
что 1 ( x )  2 ( x ) для любого x . Тогда интервал I  (1 ( x ),2 ( x )) для каждой
выборки имеет определенное значение: для одной – одно, для другой –
другое. В одном случай он содержит  , в другом – нет. Таким образом,
интервал I является случайным интервалом, и можно говорить о вероятности
того, что интервал I содержит значение  . Задача интервального оценивания
заключается в том, чтобы по заданной вероятности  построить интервал,
границами которого являются функции от выборки x и который с

вероятностью
содержит (накрывает) истинное значение заданного
параметра:
P(1 ( x )    2 ( x ))   .
Если нам удается построить такой интервал, то он называется
доверительным
интервалом
с
доверительной
вероятностью
.
Доверительную вероятность  следует понимать так, что мы уславливаемся
считать все события с вероятностью равной или больше  практически
достоверными, а события с вероятностью, равной или меньше   1  
практически невозможными событиями. При этом  называется уровнем
значимости.
3.2.2. Приближенный способ построения доверительного интервала для
математического ожидания случайной величины
При построении доверительного интервала таким способом исходят из
предположения, что распределение статистики
21
(m   )
/ n
приблизительно
нормально с параметрами 0,1. Если задана доверительная вероятность  , то
всегда можно найти t , для которого выполняется условие:
 (m   )

P
 t   (t )  (t )  2(t )  1  
 / n

Разрешая это уравнение относительно  , найдем:
 1  
t   1 

 2 
(16)
Использовались обозначения:
( x) - функция распределения стандартного нормального закона;
 1 ( x) функция, обратная к ( x) .
Запишем доверительный интервал для математического ожидания в виде
(m, m) .
(17)
Если  известно, то:
m  m t 

n
(18)
Если  неизвестно, то:
m  m t 
s
,
n
(19)
Рассмотрим примеры:
Задача 9
Используя результаты решения задачи 7, построить доверительный
интервал для начальной скорости снаряда с доверительной вероятностью 0,9
и доверительный интервал для дисперсии начальной скорости снаряда с
доверительной вероятностью 0,92.
Решение.
Результаты решения задачи 7:
m = m'1
m2
S²
m3
m4
S
1245,5
2,86875
3,06
0,46125
15,26314
1,749286
22
A*
E*
0,08617
-1,36995
Для   0,9 находим по формуле (16): t0,9  1  0,95  1,64485
Для этого используем таблицы функции распределения нормального
закона или, например, функцию НОРМСТОБР(вероятность) из Excel. По
формуле (13) находим границы доверительного интервала:
m  1245,5 1,645 
1,749
16
m  1244,78
m  1246,22
3.2.2. Приближенный способ построения доверительного интервала для
дисперсии случайной величины
Здесь мы исходим из того, что статистика s 2 при больших n
распределена приблизительно нормально с математическим ожиданием
2   2 и дисперсией
1
4
( 4  22 ) 
( E  2) .
n
n
Поэтому приблизительный доверительный интервал для дисперсии будет:
( D , D ) ,
(20)
где

E*  2 
D  s 2 1 t 
,


n


(21)
где t определяется по формуле (14). Оценка будет тем точнее, чем больше
n . Рассмотрим примеры:
Задача 10
Используя результаты решения задачи 7, построить доверительный
интервал для начальной скорости снаряда с доверительной вероятностью 0,9
и доверительный интервал для дисперсии начальной скорости снаряда с
доверительной вероятностью 0,92.
23
Решение:
Для   0,92 находим по формуле (14):
t0,9  1  0,96   1,751
По формуле (21) находим границы доверительного интервала:

-1,37+2 
D  3,06  1 1,751

16 

D  2,00
D  4,12
3.3. Оценки максимального правдоподобия
Пусть дана выборка независимых наблюдений их распределения, вид
которого известен с точностью до неизвестного параметра  . Совместное
распределение наблюдений, рассматриваемое как функция неизвестного
параметра  , называется функцией правдоподобия выборки:
L( x1 , x2,
xn ; )  f ( x1 , ) f ( x2 , )
f ( xn , ) ,
где f ( x, ) обозначает плотность распределения , если оно непрерывно, или
вероятность
значения
x,
если
оно
дискретно.
Согласно
принципу
максимального правдоподобия в качестве оценки для  надо взять такое
значение  из области допустимых значений  , при котором функция
правдоподобия
L( x1 , x2,
принимает
максимальное
значение.
Если
функция
xn ; ) дважды дифференцируема по  то точку максимума следует
искать как корень уравнения
L( x1 , x2,
xn ; ) 

L( x1 , x2,

xn ; )  0
при условии (достаточном, но не необходимом), что L( x1 , x2,
На практике часто удобно иметь дело с ln L( x1 , x2,
(ln L) 
а (ln L) 
xn ; ) , т.к.
L
,
L
LL  ( L)2 L

L2
L  
24
xn ; )  0 .
Поэтому уравнение для оценки максимального правдоподобия можно
записать в виде

 ln f ( xi , )  0 .
 i
Рассмотрим конкретную задачу.
Задача 11.
Пусть 0, 1, 4, 3, 4, 3, 4, 3,4,4
биномиальным
– выборка из совокупности с
теоретическим
распределением
Построить
P( X  k )  C5k p k (1  p)5k , k  0,...,5.
и
вычислить
оценку
максимального правдоподобия для параметра p .
Решение. Поскольку в выражение для вероятности множитель p или
1  p входит в виде степени, то удобно перейти к логарифму функции
правдоподобия:
ln L( x1 , x2 ,
10
10
i 1
i 1
x10 ; p)     xi ln p   (5  xi ) ln(1  p) ,
где
символ

обозначает
слагаемое, не зависящее от p .
Дифференцируя это выражение по p получим:
10
 xi 
i 1
1 10
1
  (5  xi )
0
p i 1
1 p
или, так как p  0 и p  1 , то
10
10
i 1
i 1
(1  p) xi  p (5  xi )  0 ,
10
Откуда p 
x
i 1
i
10  5

30
 0, 6 .
50
Убедимся, что найденное значение
максимум
функции
правдоподобия.
производную от логарифма L( x1 , x2,
10
 xi 
i 1
p
Для
действительно доставляет
этого
x10 ; p) по p :
1 10
1
  (5  xi )
2
p
(1  p)2
i 1
25
вычислим
вторую
Так как 0  xi  5 , то обе суммы в предыдущем выражении неотрицательны, а
потому все выражение  0 при 0  p  1 . Таким образом, вторая производная
логарифма L( x1 , x2,
x10 ; p) всегда меньше нуля, в т.ч. и для p  p .
Библиографический список
Основная литература
1. Шкляр М. Ф. Основы научных исследований [Электронный ресурс]:
учеб. пособие для бакалавров / М. Ф. Шкляр. - 5-e изд. - М.: Дашков и К,
2013. - 244 с. - ЭБС "Знаниум".
Дополнительная литература
2 Кузнецов И. Н. Основы научных исследований [Электронный ресурс]
: учеб. пособие для бакалавров / И. Н. Кузнецов. - М. : Издательско-торговая
корпорация «Дашков и Ко», 2013. - 284 с. - ЭБС "Знаниум".
3. Болдин А. П. Основы научных исследований [Текст] : доп. УМО
вузов РФ по образованию в обл. транспорт. машин и трансп.-технол.
комплексов в качестве учеб. для студентов вузов / А. П. Болдин, В. А.
Максимов. - 2-е изд., перераб. и доп. - М. : Академия, 2014. - 352 с.
4. Лапшина М. Л. Логика и методология науки [Электронный ресурс] :
тексты лекций / М.Л.Лапшина; ВГЛТУ. - Воронеж, 2016. - 100 с. - ЭБС
ВГЛТУ.
26
Документ
Категория
Без категории
Просмотров
10
Размер файла
598 Кб
Теги
логика, лапшина, науки, методология
1/--страниц
Пожаловаться на содержимое документа