close

Вход

Забыли?

вход по аккаунту

?

1397.Математическая статистика

код для вставкиСкачать
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
В. Ю. БОСЬ
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Методические указания по выполнению
расчетно-графической работы по
математической статистике для студентов
экономических и агрономических специальностей.
Саратов 2012
1
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Бось В.Ю.
Математическая статистика: Методические указания /ФГБОУ ВПО
«Саратовский государственный аграрный университет им. Н.И.Вавилова».
Саратов, 2012, 60с.
Методические указания «Математическая статистика» предназначены
оказать помощь студентам в выполнении расчетно-графической работы по
математической статистике. С этой целью, весь материал разбит на части,
каждая из которых посвящена определенной теме, изучаемой студентами, в
соответствии с
учебной программой. Каждая часть соответствует
определенному пункту задания для выполнения расчетно-графической
работы.
Методические указания составлены таким образом, что кроме расчетов
приводится краткое изложение теоретического материала по каждому
разделу.
В начале методических указаний приводится задание для расчетнографической работы и статистические данные для обработки, по двум
признакам.
Методические указания предназначены для проведения практических
занятий студентов экономических и агрономических специальностей как
очной, так и заочной форм обучения.
© Бось В. Ю., 2012
2
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Данные методические указания составлены в помощь студентам для
выполнения расчетно-графической работы по математической статистике,
поэтому в работе рассматривается пример аналогичный индивидуальному
заданию каждого студента. Кроме расчетов в методических указаниях
приводится краткое изложение теории, необходимой для их проведения.
РГР выполняется студентами по приведенному ниже заданию.
Задание для выполнения расчетно-графической работы
по математической статистике.
Требуется провести статистическую обработку результатов
хозяйственной деятельности по двум признакам Х и У шестидесяти
хозяйств Саратовской области. Необходимо выполнить:
1. Построить интервальный и дискретный вариационные ряды, и
многоугольники распределения для каждой выборки.
1.1. Найти минимальное и максимальное значения и вычислить размах
варьирования.
1.2. Вычислить длину частичного интервала.
1.3. Определить значение нижней границы первого интервала и разбить
выборку на частичные интервалы.
1.4. Произвести разноску данных по интервалам. Построить
интервальный вариационный ряд.
1.5. Определить середину каждого интервала и построить дискретный
вариационный ряд.
1.6. Построить многоугольники распределения.
2. Вычислить статистические характеристики вариационного ряда.
2.1.Вычислить выборочные средние, высшее и низшее средние.
2.2.Вычислить моду и медиану.
2.3.Вычислить средние квадратические отклонения и проверить теорему
об
отклонение.
2.4.Вычислить коэффициенты вариации.
3. Проверить гипотезы о согласии эмпирического распределения с
теоретическим нормальным распределением.
3.1.По χ2 – критерию Пирсона.
3.2.По ω2 – критерию Смирнова.
3.3.На графиках многоугольников эмпирического распределения
построить
графики теоретического распределения.
3
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4. Дать статистические оценки параметров распределения генеральной
совокупности с надежностью 0,95.
4.1.Вычислить доверительные интервалы для генеральных средних.
4.2. Вычислить доверительные интервалы для генеральных средних
квадратических отклонений.
5. Провести регрессионный и корреляционный анализ между признаками Х
и У.
5.1.Построить корреляционную таблицу.
5.2.Вычислить групповые средние.
5.3.Построить эмпирическую линию регрессии.
5.4.Составить уравнение прямой линии регрессии.
5.5.Вычислить его ошибку и точность.
5.6.Установить наличие корреляционной зависимости между признаками
Х
и У.
5.7.Вычислить коэффициент линейной корреляции.
5.8.Вычислить корреляционное отношение.
5.9.Составить нелинейное регрессионное уравнение и вычислить его
ошибку (этот пункт подлежит выполнению, если найденное линейное
уравнение не подходит для описания регрессионной связи).
6. Написать пояснительную записку.
Пояснения к оформлению РГР.
 Работа выполняется на листах формата А4.
 Все графики строятся на миллиметровой бумаге.
 Данные вычислений заносятся в таблицы, при этом необходимо
показать, как эти вычисления производились.
 При оформлении работы нет необходимости приводить
теоретические выкладки.
 Титульный лист оформляется согласно приложению 1.
4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА.
Основная задача математической статистики в получении выводов о
массовых явлениях и процессах по данным наблюдений над ними или
экспериментов. Цель математической статистики – оценить характеристики
генеральной совокупности по выборочным данным.
1. Построение вариационных рядов.
Статистической совокупностью называется множество однородных
предметов или явлений, объединенных по какому-нибудь общему признаку.
Статистическая совокупность, подлежащая изучению, называется
генеральной совокупностью.
Подмножество
генеральной
совокупности,
отобранной
для
исследований, называется выборочной совокупностью или выборкой.
Объемом совокупности называют число объектов этой совокупности.
Следует отметить, что все выводы о генеральной совокупности
делаются по результатам обработки выборки.
Выборка называется случайной, если из генеральной совокупности
элементы берутся наугад и в выборку каждой из них может попасть с
одинаковой вероятностью, не зависящей от изучаемого признака.
Повторной называют выборку, при которой отобранные объекты,
возвращаются в генеральную совокупность, перед отбором следующего
объекта.
Безповторной называют выборку, при которой отобранный объект в
генеральную совокупность не возвращается.
В практике обычно пользуются безповторной выборкой. При
больших объемах генеральной совокупности N и малом относительном
объеме выборки n, т.е. при малом
n
, различия в формулах, описывающих
N
обе выборки по технике их отбора, невелики.
5
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Последовательность значений хi изучаемого признака некоторой
выборки, записанная в возрастающем порядке, называется вариационным
рядом, а сами значения вариантами. Причем, если отдельные значения
вариант, отличаются друг от друга на некоторую конечную величину, то
такой вариационный ряд называется дискретным. Если значения признака
отличаются одно от другого на сколь угодно малую величину, то
распределение этого признака носит непрерывный характер и для его
характеристики используется интервальный вариационный ряд.
Если
в дискретном
вариационном ряде некоторые варианты
встречаются несколько раз, то ряд записывается в виде следующей таблицы
Таблица 1.1.
Варианта xi
x1
x2
…
xi
…
x
Частота mi
m1
m2
…
mi
…
m
величины
строят
m1+ m2 + …+ mi +… +mn= 1.
Для
непрерывной
случайной
интервальный
вариационный ряд. Для выбора оптимальной величины интервала, т.е.
такой величины интервала, при которой вариационный ряд не будет
громоздким
и
в
нем
не
исчезнут
особенности
явления,
рекомендовать формулу:
hx 
Rx
1  3,2 lg n
(1.1)
где hx – длина частичного интервала,
n – объем выборки,
Rx – размах варьирования, определяемый формулой:
Rx  xmax  xmin
где xmax – максимальное значение варианты,
xmin – минимальное значение варианты.
6
(1.2)
можно
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Для построения интервального ряда выбирают нижнюю границу
первого интервала. За начало можно принять xmin или значение х1 < xmin, но
такое, что x min  x1 
hx
, т.е. отстоящее от xmin не более, чем на половину
2
длины частичного интервала. Проводят разбиение выборки на интервалы и
делают разноску вариант по полученным интервалам, причем, если
значение варианты совпадает с границей частичного интервала, то она
заносится в правый интервал. Каждому интервалу ставиться в соответствии
частота mi, показывающая, сколько вариант выборки попало в данный
интервал.
Замечание. Для удобства подсчета частот удобно использовать
обозначение, которое часто применяется в математической статистике.
∷, «8» –
Единица обозначается одной точкой, число «4» знаком квадратом - -
, 10 – квадратом с диагоналями -
.
Дискретный ряд распределения (табл. 1) можно представить
графически многоугольником распределения частот или полигоном
частот.
Полигоном частот называют ломаную, отрезки которой соединяют
точки (х1,m1), (х2,m2), …, (хi,mi), …, (х,m), где xi – варианты выборки и mi –
соответствующие им частоты. Например, для k=6 полигон выглядит так
(рис. 1.1):
m
m3
m4
m5
m2
m1
m6
0
x1
x2
x
Рис.
1.1.3
7
x4
x5
x6
x
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Для выполнения расчетно-графической работы каждому студенту дается
индивидуальное задание следующего вида:
Таблица 1
Данные хозяйственной деятельности
60 хозяйств Новобурасского района
Саратовской области.
Посеяно Собрано
Посеяно Собрано
пшеницы пшеницы
пшеницы пшеницы
(сотен га) с 1 га(ц)
(сотен га)
с 1 га(ц)
Х
У
Х
У
20
15,9
23
18,8
21
16,9
23
17,9
22
20,4
21
17,8
20
17,0
20
16,9
20
16,9
18
18,4
23
18,6
18
17,1
22
19,2
19
18,1
20
18,3
22
17,1
19
17,4
20
18,2
18
17,0
20
17,0
19
16,1
22
19,8
21
17,3
22
19,4
23
19,3
22
18,9
24
19,1
19
16,5
18
18,0
19
17,0
21
17,8
19
17,8
21
17,8
22
18,3
21
17,9
20
18,2
21
19,1
20
18,4
23
18,0
22
19,0
21
20,0
18
16,9
21
17,0
23
20,4
21
16,8
22
19,3
23
18,6
23
19,8
24
17,8
22
19,0
21
17,4
20
19,2
21
17,8
18
15,9
24
19,6
21
17,9
24
20,0
20
19,0
22
19,3
19
17,5
8
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Проведем обработку статистических данных признака Х – число сотен
гектаров засеянных пшеницей.
1.1.
1.2.
Найдем минимальное и максимальное значения выборки:
xmin = 18
xmax = 24
Вычислим размах варьирования Rx по формуле (1.2)
Rx = 24 – 18 = 6.
По формуле (1.1) найдем длину частичного интервала или шаг
частичного интервала hx :
hx 
6
6

 0,87 .
1  3,32 lg 60 6.9
Для удобства расчетов округляем шаг до hx = 1 (сотни га).
1.3.
За нижнюю границу первого интервала возьмем число 17,5, что
соответствует требованиям, указанным выше, и при этом середины
интервалов, будут удобные для расчетов числа.
Получим следующее разбиение выборки на интервалы:
17,5 – 18,5 – 19,5 – 20,5 – 21,5 – 22,5 - 23,5 – 24,5
1.4. Произведем разноску данных по интервалам и составим рабочую
таблицу 2.
Таблица 2
Интервалы
17,5 – 18,5
18,5 – 19,5
19,5 – 20,5
20,5 – 21,5
21,5 – 22,5
22,5 – 23,5
23,5 – 24,5
Середина
интервала
xi
18
19
20
21
22
23
24
Разноска
Частота
mi
6
7
11
13
11
8
4
60
9
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1.5. Итак, получили дискретный вариационный ряд:
Таблица 3
xi
mi
18
6
19
7
20
11
21
13
22
11
23
8
24
4
1.6. Построим многоугольник распределения (полигон).
mi
13
1
11
8
7
6
4
18
19
20
21
22
23
24
xi
Рис. 2
2. Статистические характеристики вариационного ряда.
Наиболее
часто
применяемым
статистическим
показателям
совокупности является средняя арифметическая, которая характеризует
всю совокупность в целом, а не отдельные члены совокупности, ибо она
представляет
собой
обобщающую
абстрактную
характеристику
совокупности, являющуюся как бы равнодействующей всех определяющих
условий, участвовавших в образовании входящих в данную совокупность
индивидуальных величин.
10
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Пусть
для
изучения
генеральной
совокупности
относительно
количественного признака Х извлечена выборка объемом n.
Выборочной
значение
признака
средней
х называется
выборочной
среднее
совокупности.
арифметическое
Для
простого
статистического ряда, когда все значения х1, х2, … хn признака выборки
различны, х вычисляется по формуле:
n
x
x
i 1
i
(2.1)
n
Для дискретного ряда (таб.1.1) выборочная средняя вычисляется по
формуле:

x
x m
i
i 1
i
(2.2)
n
где ν – число интервалов или групп вариант;
n – объем выборки;
mi – частота i –го интервала.
Групповой средней называется среднее арифметическое значений
признака, принадлежащих группе.
Выборочная средняя разбивает ряд распределения данной выборки на
две части. Одна состоит из вариант, значения которых меньше х , вторая –
из вариант, значения которых больше х . Групповые средние значения
каждой из этих частей назовем частными средними, причем для первой
части – низшей частной средней хниз . , а для второй – высшей частной
средней хвысш. .Частные средние вычисляются по формулам:
k1
xниз . 
x m
j 1
k1
j
 mj
j 1
11
j
(2.3)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
где k1 – число групп ряда, варианты которых x j  x .
mj – частоты этих групп.
k2
xвысш . 
x m

 1
k2

(2.4)
 m
 1
где k2 – число групп ряда, варианты которых x  x .
m – частоты этих групп.
С помощью частных средних в статистике удобно характеризовать
некоторые особенности изучаемого признака данной выборки.
2.1. Вычислим выборочную среднюю, для этого составим следующую
рабочую таблицу:
Таблица 4.
xi
mi
ximi
18
6
108
19
7
133
20
11
220
21
13
273
Согласно формуле (2.2) получаем
х
22
11
242
23
8
184
24
4
96
60
1256
1256
 20,93
60
Итак, х  20,93 сотен га.
Выборочная средняя делит вариационный ряд на две части, низшая
средняя вычисляется для вариант, значения которых меньше х = 20,93, а
высшая средняя для вариант больших х = 20.93.
Используя таблицу 4 и формулы (2.3) и (2.4), вычислим высшую и
низшую частные средние:
xниз. 
108  133  220 461

 19,21 ;
24
24
xвысш. 
273  242  184  96 795

 22,08 .
36
36
12
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Высшая и низшая средние дают возможность определить количество
хозяйств,
имеющих
наименьшую
и
наибольшую
площадь
посева,
отведенную под пшеницу. Так число вариант хi  xниз . равно 13, а число
вариант
хi  xвысш. равно 12, следовательно, наименьшую площадь,
засеянную пшеницей, имеют 13 хозяйств, а 12 хозяйств отводят под посев
пшеницы наибольшую площадь.
Для выборочного среднего существует теорема, согласно которой:
алгебраическая сумма отклонений значений xi от их выборочной средней х
равна 0:
n
 x  x   0
i 1
i
в
(2.5)
Для дискретного вариационного ряда, с числом групп вариант ν
имеем:

 x
i 1
i
 x mi  0
(2.6)
Модой Мо называют варианту, которая имеет наибольшую частоту.
Для интервального вариационного ряда мода определяется по
следующей формуле:
Mo  x Mo  h
где h – шаг,
содержащего моду),
n Mo
n Mo  n Mo1
 n Mo1   n Mo  n Mo1 
nMo – частота модального интервала (интервала,
nMo-1 – частота домодального интервала,
nMo+1 –
частота послемодального интервала, xMo – начало модального интервала.
Замечание. Следует заметить, что вариационный ряд может иметь не
одну моду.
Медианой Ме называют варианту, которая делит вариационный ряд
на две части, равные по числу вариант. Для дискретного вариационного
ряда медиана вычисляется следующим образом: если число вариант
нечетно, т.е. n  2  1 , то
13
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Mе  x 1
(2.7)
Если число вариант нечетно, т.е. n  2  , то
Mе 
x   x1
2
(2.8)
Для интервального вариационного ряда медиана вычисляется по
формуле:
Me  x Me  h Me
1
 mi  FMe1
2 i
,
m Mt
где - xMe – нижняя граница медианного интервала, hMe – длина
медианного интервала,
предшествующего медианному,
m
i
- накопленная частота интервала,
FMe-1
mMe – частота медианного интервала,
- сумма частот ряда.
i
2.2. В нашем случае варианта, имеющая, наибольшую частоту равна
21, следовательно, Mo(x) = 21 сот. га .
Для вычисления медианы найдем
поэтому
х30 = 21 и х31 = 21 (n=2l=60),
Me(x) =21 сот. га.
Для характеристики рассеяния значений наблюдаемого признака
выборки вокруг своего выборочного среднего х вводят выборочную
дисперсию.
Выборочной дисперсией Dв называют среднее арифметическое
квадратов отклонения наблюдаемых значений признака от выборочной
средней х .
Для статистического ряда заданного таблицей 1.1 формула для
вычисления выборочной дисперсии выглядит так:

Dв 
 x
i 1
 x  mi
2
i
n
14
(2.9)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Как было указано выше, для характеристики рассеяния используется
дисперсия, однако она измеряется в квадратических единицах. Удобнее
характеризовать рассеяние значений признака, относительно среднего
арифметического, величиной, выраженной в тех же единицах измерения,
что и выборочная средняя.
Такой
характеристикой
является
выборочное
среднее
квадратическое отклонение или стандарта S, которую определяют как
корень квадратный из выборочной дисперсии.
S  Dв
(2.10)
С учетом формулы для вычисления дисперсии формулу для
выборочного среднего квадратического отклонения можно записать так:

Sx 
 x
i 1
 x  mi
2
i
(2.11)
n
В случае, если число вариант мало (n<30), то лучше применять
формулу:

Sx 
 x
i 1
 xв  mi
2
i
n 1
(2.12)
Величина n-1 получила особое название – число степеней свободы.
Если известна средняя арифметическая, то каждое отдельное значение ряда
может быть определено, через остальные наблюдения, которых n-1. Иначе
говоря, определение данного значения в данной совокупности зависит от
остальных значений. В некоторых случаях число степеней свободы
вычисляется более сложно.
15
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2.3. Для вычисления стандарты составим таблицу:
Таблица 5.
xi
mi
xi  x
( x i  x )mi
( x i  x ) 2 mi
18
6
-2,93
-17,58
51,51
19
7
-1,93
-13,51
26,07
20
11
-0,93
-10,23
9,51
21
13
0,07
0,91
0,06
22
11
1,07
11,77
12,59
23
8
2,07
16,56
34,28
24
4
3,07
12,28
37,70
-41,32
60
+41,52
171,72
Из таблицы видно, что сумма четвертого столбца таблицы близка к
нулю (отличие от нуля за счет округления x ), что подтверждает теорему о
выборочном среднем, формула (2.6).
По формуле (2.10) вычислим выборочное среднее квадратическое
отклонение:
Sx 
Для
сравнения
171,72
 2,91  1,71.
59
характера
рассеяния
вариант
относительно
выборочного среднего, у двух различных рядов, варианты которых имеют
различную размерность, удобно использовать безразмерную величину,
которую называют коэффициентом вариации.
Коэффициент вариации V – это отношение выборочного среднего
квадратического отклонения к выборочной средней, выраженное в
процентах
Vx 
Sx
 100%
xв
16
(2.11)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Сравнивая два вариационных ряда, можно утверждать, что тот из
рядов, у которого коэффициент вариации больше, имеет большее рассеяние
вариант по отношению к выборочной средней, при этом не важно в каких
единицах размерности заданы варианты.
Для биолога, животновода, растениевода очень важно знать,
насколько изучаемый ими материал выровнен или, наоборот, разнороден, в
какой степени устойчивы взятые для сравнения признаки. В частности, это
важно при планировании опытов, установлении величины необходимых
опытных групп, а также при оценки результатов опытов. Так, если было
ранее установлено, что изменчивость изучаемых признаков колеблется в
пределах 10-15 %, а в опыте были получены данные, выходящие за эти
пределы, то искать причины расхождений нужно или в самой постановке
опыта, или в вычислениях, или, наконец, предположить, что какое-то
непредвиденное обстоятельство повлияло на степень точности опыта.
.4. Вычислим коэффициент вариации
Vx 
1,71
20,93
100%  8,17%.
3. Проверка гипотезы о согласии эмпирического распределения с
теоретическим нормальным распределением.
На практике мы встречаемся с признаком, который оказывается
случайной величиной с неизвестным законом распределения. Чтобы
установить
вид
предполагаемого
закона
распределения
случайной
величины используют критерии согласия эмпирического распределения,
теоретическому. Критерий согласия дает возможность проверить гипотезу о
предполагаемом законе неизвестного распределения.
Генеральная совокупность обычно предполагает большой объем
случайных величин, а согласно закону Больших чисел, такая совокупность
17
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
подчиняется
закону
нормального
распределения,
поэтому
будем
рассматривать критерии согласия о предполагаемом законе нормального
распределения.
Имеется несколько критериев согласия 2 («хи-квадрат») К. Пирсона,
 2 («омега-квадрат») Смирнова, критерий Колмогорова и др. Эти критерии
применяются для сравнения выборок различного объема. Так критерий
Пирсона можно применять только при достаточно большом объеме
выборки (n>100) и для больших частот (практически для mi >5; i=1, 2, …, )
вариант ряда. Критерий Пирсона позволяет сравнить эмпирические частоты
с
теоретическими
частотами
нормального
распределения.
Следует
отметить, что критерий 2 дает возможность сравнивать распределение
случайной величины не только с нормальным распределением, но и с
теоретическими распределениями, подчиняющимися другим законам
распределения.
Пусть в результате наблюдений получен вариационный ряд (табл.1.1).
В качестве меры расхождения теоретического и эмпирического рядов
частот берут величину

2
фак.

mi  miT  2
i 1
miT

(3.1)
где mi – эмпирические частоты
miT – теоретические частоты
 - число вариант ряда.
2
Из формулы (3.1) видно, что  фак
= 0, лишь при совпадении
.
соответствующих эмпирических и теоретических частот, что практически
невозможно.
критическим
Поэтому

2
кр .
вычисленное
значение
, имеющим 2 – распределение.
18

2
фак.
сравнивают
с
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Схема расчета

2
фак.
:
1. Построить вариационный ряд для наблюдаемого признака и
вычислить его параметры: выборочную среднюю х и среднее
квадратическое отклонение Sx.
2. В
предположении
нормального
распределения,
вычислить
теоретические частоты по формуле
miT 
nhx
 ( ui )
Sx
(3.2)
где n – объем выборки,
hx – шаг (разность между двумя соседними вариантами),
 ui  - дифференциальная функция Лапласа (приложение 2)
u2
1 2
 u  
е
2
(3.3 ),
а аргумент функции ui вычисляется по формуле
ui 
xi  x
Sx
3. Вычисляют эмпирическое значение
(3.4).

2
фак.
.
4. По таблице (приложение 3) критических точек распределения 2,
по заданному уровню значимости  и числу степеней свободы k=3 ( - число групп выборки) находят
  ; k 
2
кр .
правосторонней
критической области.
5. Если

2
фак.
<  кр2 . - нет оснований отвергнуть выдвинутую гипотезу о
нормальном
распределении
генеральной
совокупности,
т.е.
эмпирические и теоретические частоты различаются незначимо
(случайно). В противном случае, если
19

2
фак.
>  кр2 . , гипотезу
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
отвергают, и различия между эмпирическими и теоретическими
частотами считают значимыми.
Замечание 1. Как отмечалось выше, критерий Пирсона можно
применять только для больших частот (mi >5), поэтому, в случае, когда
частоты крайних интервалов
mi<5, их следует объединять с частотами
соседних интервалов. В этом случае объединяют и соответствующие им
теоретические частоты, а число степеней свободы рассчитывается с учетом,
что измениться  - число группы выборки, оставшихся после объединения
частот.
Замечание 2. При использовании критерия Пирсона число степеней
свободы рассчитывается по формуле
k    1   , где 
- число
параметров, определяющих рассматриваемый закон распределения и
определяемых по выборке. Закон нормального распределения определяется
двумя
параметрами
квадратическим
с
математическим
отклонением
,
ожиданием
а
и
2
следовательно,
средним
и
тогда
k   2   3.
Для проверки гипотезы о нормальном распределении по выборке
объем которой n>50 можно использовать критерий 
2
– Смирнова. Этот
критерий устанавливает существенность различий между накопленными
частостями эмпирического и теоретического распределений.
Фактическое значение критерия 2 вычисляется по формуле


2
фак.
  Fi  FiT  ,
i 1

2
(3.5)
где Fi   w j - накопленная частость i – группы; wi 
i 1
ni
частость in
ой группы.
2
Вычисленное значение  фак. сравнивают с критическим значением
 кр2 . , которое находится по таблице для величины n и уровня значимости .
20
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
В частности
 2 0 ,1; n  
0 ,347
0 ,461
0 ,744
;  2 0 ,05; n  
;  2 0 ,01; n  
.
n
n
n
(3.6.)
Схема расчета  2.
1. Построить вариационный ряд для наблюдаемого признака и
вычислить его параметры x и Sx.
2. В
предположении
нормального
распределения,
вычислить
теоретические частоты по формуле (3.2).
3. Вычислить частости по формуле
wi 
ni
n
(3.7)
Для каждой группы ряда вычислить накопленную частость.
2
4. Вычислить эмпирическое значение фак. .
2
5. Сравнить вычисленное значение фак. с критическим значением
 кр2 . .
2
2
Если фак. <  кр . - нет оснований отвергнуть выдвинутую гипотезу о
нормальном распределении генеральной совокупности. В противном
случае,
если
2
2
фак
гипотезу отвергают, и различие между
. >  кр . ,
эмпирическими и теоретическими частотами считают значимым.
Замечание. Накопленная частость по всем группам вариационного
ряда, для теоретического и эмпирического распределения, равна 1.
3.1.
Для вычисления фактического значения критерия Пирсона
построим следующую таблицу:
21

2
фак.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Таблица 6
ui 
xi  x
Sx
 ui 
miT
mi- miT
(mi- miT)
2
mi  miT 2
xi
mi
18
6
-1,76
0,0925
3
3
9
3
19
7
-1,13
0,2107
7
0
0
0
20
11
-0,54
0,3448
12
-1
1
0,08
21
13
0,04
0,3986
14
-1
1
0,07
22
11
0,63
0,3271
12
-1
1
0,08
23
8
12
4
1,21
0,1919
1,80
0,0790
7
10
3
2
4
0,2
24
60
Перед
miT
58
заполнением
таблицы,
3,43
сначала
желательно
вычислить
nh x
множитель
, входящий в формулу (3.2), для вычисления теоретических
Sx
частот:
nhx 60 1

 35,3 .
Sx
1,71
x x
Значения функции  ui  от нормированного аргумента u i  i
Sx
находятся по таблице приложения 2.
Из полученной таблицы 6 видно, что сумма теоретических частот не
равна 60, как это должно быть, а только 58. Это произошло из-за того, что в
процессе вычислений производились округления и нормированного
аргумента, и теоретических частот.
Получили фактическое значение критерия Пирсона равное
По таблице приложения 3 находим
22
2
фак.
 3,43 .
  ; k  , для k=6-3=3 и =0,05.
2
кр .
 0,05;3  7,8 .
2
кр .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Так как

2
фак.
<  кр2 .
- гипотезу о нормальном распределении
генеральной совокупности не отвергаем.
Критерий
показательном,
можно
использовать
биноминальном,
для
равномерном
проверки
гипотезы
распределениях
и
о
о
распределении генеральной совокупности по закону Пуассона.
3.2. Проверим гипотезу о нормальном распределении по критерию 
2
– Смирнова. Для этого для каждой варианты по формуле (3.7) вычислим
относительную частоту (частость) и накопленную частость, как для
эмпирического, так и для теоретического распределения. Значения
теоретических частот возьмем из таблицы 6. Все данные лучше записать в
таблицу.
Таблица 7
xi
mi
wi
Fi
xiT
wiT
FiT
(Fi- FiT)2
18
6
0,1
0,1
3
0,05
0,05
0,0025
19
7
0,12
0,22
7
0,12
0,17
0,0025
20
11
0,18
0,40
12
0,21
0,38
0,0004
21
13
0,22
0,62
14
0,24
0,62
0
22
11
0,18
0,80
12
0,21
0,83
0,0009
23
8
0,13
0,93
7
0,12
0,95
0,0004
24
4
0,07
1,00
3
0,05
1,00
0
60
1,00
58
1,00
0,0067
2
2
Значение фак. получим равным фак.  0,0067. Согласно формулам
2
2
(3.6) критическое значение  кр . при =0,05 равно  кр . 
0 ,461
 0 ,0077 .
60
2
2
Так как фак. <  кр . , то с надежностью 0,95 можно полагать, что
генеральная совокупность распределена по нормальному закону.
23
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
На
3.3.
рисунке
2
построен
эмпирический
многоугольник
распределения, на этом же рисунке строим полигон теоретических частот.
mi
113
11
8
7
6
4
18
19
20
21
22
23
24
xi
Рис. 3
4. Статистические оценки параметров распределения
Для изучения какого-либо количественного признака генеральной
совокупности обычно используют значения количественного признака
выборки,
полученной
из
этой
генеральной
совокупности.
Задача
статистической оценки параметров заключается в том, чтобы найти такую
выборочную
характеристику,
которая
позволила
бы
получить
по
возможности более точное и надежное представление об интересующем нас
параметре.
Статистической
оценкой
*
неизвестного
параметра

теоретического распределения называют функцию от наблюдаемых
случайных величин.
Точечной называют статистическую оценку, которая определяется
одним числом.
24
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Если математическое ожидание статистической оценки * равно
оцениваемому параметру, то есть М(*)=, то такая оценка называется
несмещенной.
Во избежание допуска большой ошибки статистической оценки
предъявляется еще ряд требований: она должна быть эффективной и
состоятельной.
Эффективной называют статистическую оценку, которая (при
заданном объеме выборки) имеет наименьшую возможную дисперсию.
Состоятельной называют статистическую оценку, которая при n
стремиться по вероятности к оцениваемому параметру.
Генеральной средней называют среднее арифметическое значений
признака генеральной совокупности.
Несмещенной оценкой генеральной средней служит выборочная
средняя, которая также является и состоятельной оценкой генеральной
средней.
Генеральной дисперсией
называется среднее арифметическое
квадратов отклонений значений признака генеральной совокупности от их
среднего значения.
Генеральным средним квадратическим отклонением
называют
квадратный корень из генеральной дисперсии.
Выборочная дисперсия является смещенной оценкой генеральной
дисперсии и проводит к систематическим ошибкам, давая заниженное
значение генеральной дисперсии. Несмещенной оценкой генеральной
дисперсии, является исправленная дисперсия S2, которая вычисляется по
формуле

S2 
 x
i 1
 x  ni
2
i
n 1
25
(4.1)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Интервальной называют оценку, которая определяется двумя
числами – концами интервала, покрывающего оцениваемый параметр.
Доверительным
называют
интервал,
который
с
заданной
надежностью покрывает заданный параметр.
Интервальной оценкой математического ожидания а нормально
распределенного количественного признака Х по выборочной средней x
при известном среднем квадратическом отклонении 
генеральной
совокупности служит доверительный интервал
x
σ
σ
t  aх  x 
t
n
n
(4.2)
где t находится по таблице приложения 4.
σ
t  ,
n
Величина
(4.3)
называется точностью оценки, значение которой неотрицательно и
указывает на абсолютную разность между значением неизвестного
параметра  и его статистической оценкой *, т.е.
  *  
(4.4)
Из формулы (4.4) видно, что чем меньше , тем точнее оценка.
Если среднее квадратическое отклонение  генеральной совокупности
неизвестно,
то
интервальную
оценку
генеральной
средней
(математического ожидания) а нормальной совокупности можно сделать по
формуле:
x
Sx
S
t  ax  x  x t
n
n
(4.5)
где Sx – исправленное выборочное среднее квадратическое
отклонение, значения t находят по таблице при заданной надежности р и
объеме
выборки n, t  t  р; n .
26
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Интервальной оценкой (с надежностью р) среднего квадратического
отклонения  нормально распределенного количественного признака Х по
исправленному выборочному среднему квадратическому отклонению Sx
служит доверительный интервал
Sx
S
x  x
1 q
1 q
(4.6)
где q находят по таблице приложения 5 по заданным n и р.
4.1. В предыдущем разделе работы было установлено, что с
надежностью 0,95, данное распределение можно считать нормальным,
поэтому для определения доверительного интервала генеральной средней,
воспользуемся формулой (4.5).
Ранее были вычислены следующие числовые характеристики
выборки:
x = 20,93, Sx = 1,71 . Объем выборки n = 60, а коэффициент t определяем
по таблице приложения 4 при заданной надежности p = 0,95, t = 2,001.
Итак:
20,93 
1,71
1,71
2,001  a x  20,93 
2,001
60
60
20,93  0,44  a x  20,93  0,44
20,49  a x  21,37
4.2. По формуле (4,6) найдем доверительный интервал генерального
среднего квадратического отклонения, но сначала по таблице приложения 5
для объема выборки n = 60 и надежности p = 0,95, определим значения
коэффициента q = 0,188.
Итак:
1,71
1,71
x 
1  0,188
1  0,188
1,44   x  2,11 .
Все результаты статистической обработки необходимо свести в таблицу.
27
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
№
Параметр
Обозначение
Значения параметров
Х
У
n
60
60
1
Объем выборки
2
Размах варьирования
Rx , Ry
6
4,6
3
Выборочное среднее
Rx , Ry
20,93
18,2
x низ. , y низ.
19,21
17,36
x высш. , y высш.
22,08
19,28
Частные средние:
4
- низшая
- высшая
5
Мода
Mo(x),Mo(y)
21
17,1; 17,9
6
Медиана
Me(x),Me(y)
21
17,9
Sx , Sy
1,71
1,1

3,43
5,37
7
Среднее квадратическое
отклонение (стандарта)
Соответствие нормальному
распределению по критерию
8
9
10
2
- Пирсона
2
фак.
 2 - Смирнова
2
фак
.
0,0067
0,013
Коэффициент вариации
Vx, Vy
8,17%
6,04%
20,49-
17,92-
21,37
18,48
1,44-2,11
0,93-1,35
Доверительный интервал
a
генеральной средней
Доверительный интервал
11
генерального среднего
a
квадратического отклонения
28
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5. Статистическая зависимость.
Исследование зависимостей и взаимосвязей между объективно
существующими явлениями и процессами играет в науке большую роль. В
естественных науках часто речь идет о функциональной зависимости,
когда каждому значению одной переменной соответствует вполне
определенное значение другой. Однако часто между переменными
величинами существует зависимость, когда каждому значению одной
переменной соответствует множество значений другой.
Зависимость между двумя случайными величинами называется
статистической или стохастической, если каждому значению одной из
них соответствует определенное (условное) распределение другой.
Для исследования такого вида связи применяется регрессионный и
корреляционный анализ.
Регрессия
–
это
односторонняя
статистическая
зависимость,
устанавливающая соответствие между случайными переменными.
Задачи регрессионного анализа:
- установить форму связи;
- определить функцию регрессии;
- оценить неизвестные значения зависимой переменной.
Регрессия выражается с помощью функции регрессии, которая
формально устанавливает соответствие между переменными, хотя они
могут не состоять в первично-следственных отношениях.
Различают следующие виды регрессии:
простую и множественную (частичную) регрессии в зависимости от
числа переменных, участвующих в регрессии; линейную и нелинейную
регрессии – относительно вида функции регрессии; положительную и
отрицательную регрессии – в зависимости от характера регрессии.
29
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Относительно типа соединения различают: непосредственную,
косвенную и ложную регрессии.
Пример 5.1. Регрессия между затратами на производство (зависимая
переменная
или
переменная
подлежащая
объяснению)
и
объемом
продукции, произведенной предприятием (объясняющая, независимая или
предсказывающая переменная) – простая регрессия.
- Множественная
регрессия
имеет
место
между
производительностью труда и уровнем механизации производственных
процессов, фондом рабочего времени, квалификации рабочих.
- Регрессия между прибылью и объемом производства продукции –
это положительная регрессия, в то время как, регрессия между размером
прибыли на единицу продукции и затратами на производство –
отрицательная регрессия.
Корреляция, в широком смысле слова, означает связь, соотношение
между объективно существующими явлениями и процессами. Если
случайные переменные причинно обусловлены и можно в вероятностном
смысле высказаться об их связи, то имеется корреляционная связь. Часто
дают такое определение корреляционной зависимости:
Корреляционной
зависимостью
между
двумя
переменными
величинами называется зависимость между значениями одной из них и
условным математическим ожиданием другой.
Пример 5.2. Корреляционная связь существует между:
- себестоимостью продукции и объема производства;
- доходом и потреблением товаров на душу населения;
- производительностью труда и техническим уровнем производства;
- урожайностью зерновой культуры и количеством внесенных
удобрений.
Задачи корреляционного анализа:
- измерение степени
связанности
(тесноты, силы, строгости,
интенсивности) двух и более явлений;
30
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
- отбор факторов, оказывающих наиболее существенное влияние на
результативный признак, на основании измерения степеней
связанности между явлениями;
- обнаружение неизвестных причин связи.
Различают следующие виды корреляции: в зависимости от числа
переменных – простую, множественную и частную; относительно формы
связи – линейную и нелинейную; относительно характера корреляции –
положительную и отрицательную, а так же относительно типа
соединений – непосредственную и косвенную.
Понятие регрессии и корреляции непосредственно связаны между
собой. В то время, как в корреляционном анализе оценивается сила
стохастической связи, в регрессионном анализе исследуется ее форма.
Поэтому
величинами
при
исследовании
необходимо
соответствия
применять
методы
между
и
случайными
регрессионного
и
корреляционного анализа.
Для изучения двух признаков Х и Y определяем форму связи
(методами регрессионного анализа), а затем оценим ее силу (методами
корреляционного анализа).
Регрессия может быть выражена несколькими способами: путем
построения эмпирической линии регрессии, путем составления уравнения
регрессии, и, наконец, с помощью вычисления коэффициента регрессии.
Прежде, чем приступить к изучению этих способов, введем понятие
корреляционной
таблицы,
которая
позволяет
более
компактно
представить значения изучаемых признаков.
По результатам наблюдения двух признаков Х и Y получим следующую таблицу.
Таблица 5.1
xi
x1
x2
…
xi
…
xn
yi
y1
y2
…
yi
…
yn
31
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Если число пар значений (xi; yj) будет достаточно велико, и, тем
более, если среди них окажутся повторяющиеся пары, то вместо таблицы
5.1 применяются корреляционные таблицы, в которых содержатся
статистические данные двух случайных величин Х и Y и которые имеют
вид:
Таблица 5.2
Y
y1
y2
…
yj
…
y
mx
x1
x2
…
xi
…
m11
m21
…
mi1
…
m12
m22
…
mi2
…
…
…
…
…
…
m1j
m2j
…
mij
…
…
…
…
…
…
m1l
m2l
…
mil
…
m1
m2
…
mi
…
x
m1
m2
…
mj
…
mνl
m
my
m1'
m2'
…
m 'j
…
m'
n
X
Символы mx и my обозначают частоты, соответственно по признакам Х


i 1
j 1
и Y; причем  m xi   m yj  n , где n – объем выборки; mij – частота, с
которой в выборке встречается пара значений (xi; yj); xi и yj – варианты
признаков Х и Y.
Следует отметить, что в корреляционной таблице некоторые частоты
mij могут равняться нулю.
Корреляционная таблица, даже при поверхностном знакомстве, дает
общее представление о прямой и обратной связи (положительной и
отрицательной регрессиях). Если частоты расположены по диагонали вниз
направо, то связь между признаками прямая (при увеличивающихся
значениях признака в строках и столбцах). Если же частоты расположены
по диагонали вверх направо, то связь обратная.
32
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Так же по виду корреляционной таблицы можно судить о тесноте
корреляционной связи между признаками Х и Y. Если частоты группируются
строго
по
диагонали,
то
между
признаками
существует
строгая
корреляционная зависимость, если же частоты рассеяны по всему полю
корреляционной таблицы, то, скорее всего между изучаемыми признаками
существует очень слабая корреляционная зависимость или вообще
отсутствует.
В дальнейшем независимую переменную будем называть фактором,
а зависимую – коррелянтой.
Графическим изображением эмпирической связи двух признаков
является множество точек с координатами (xi; yi) которое называют
диаграммой рассеяния. Скопление точек определяет картину зависимости
двух переменных. По ширине разброса точек можно сделать вывод о
степени тесноты связи. Если точки расположены близко друг к другу в виде
узкой полоски, то можно утверждать о наличии относительно тесной связи
(рис. 5.1). Если точки разбросаны широко по диаграмме, то имеется слабая
связь (рис. 5.2).
y
y
x
x
Рис. 5.1
Рис. 5.2
По диаграмме рассеяния можно графическим путем определить
предполагаемую функцию описывающую связь двух случайных величин Х
и Y. Так по рисунку 5.1 можно предположить о наличии прямой линейной
зависимости.
33
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Графическим изображением эмпирической связи также является
эмпирическая линия регрессии. Для ее построения используют метод
частных или групповых средних. Из корреляционной таблицы 5.2 видно,
что каждому значению фактора xi соответствует ряд распределения
признака Y, для которого нужно вычислить групповую среднюю y i . Тогда
ломанная линия, соединяющая точки с координатами (xi;
y i ) будет
называться эмпирической линией регрессии.
Эмпирическая линия регрессии показывает как смещаются ряды
распределения у с увеличением х или как в среднем изменяется Y с
увеличением значений признака Х.
5.1. Для построения корреляционной таблицы, сначала составим
рабочую таблицу, в которой первый столбец и первая строка, представляют
интервальные вариационные ряды, признаков Х и У.
В эту таблицу
разнесем данные таблицы 1.
Таблица 9
У
Х
15,9-16,7
16,7-17,5
17,5-18,3
18,3-19,1
17,5-18,5
1
3
1
1
18,5-19,5
2
2
3
19,5-20,5
1
4
2
20,5-21,5
5
6
21,5-22,5
1
22,5-23,5
2
23,5-24,5
1
my
4
15
15
19,9-20,7
mx
6
7
3
11
34
19,1-19,9
1
11
1
1
13
4
5
1
11
3
2
1
8
2
1
4
4
60
11
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5.2. Составим корреляционную таблицу 9, в которую добавим столбец
групповых средних, вычисленных следующим образом:
y1 
16,3  1  17,1  3  17,9  1  18,7
 17,37
6
y2 
16,3  2  17,1  2  17,9  3
 17,21
7
y3 
16,3  1  17,1  4  17,9  2  18,7  3  19,5  1
 17,83
11
y4 
17,1  5  17,9  6  19,5  1  20,3  1
 17,9
13
y5 
17,1  1  18,7  4  19,5  5  20,3  1
 19,06
11
y6 
17,9  2  18,7  3  19,5  2  20,3  1
 18,9
8
y7 
17,9  1  19,5  2  20,3  1
 19,3
4
Таблица 10
У
16,3
17,1
17,9
18,7
18
1
3
1
1
19
2
2
3
20
1
4
2
21
5
6
22
1
Х
23
2
24
1
my
4
15
15
3
19,5
20,3
1
mx
уi
6
17,37
7
17,21
11
17,83
1
1
13
17,9
4
5
1
11
19,06
3
2
1
8
18,9
2
1
4
19,3
11
4
60
11
5.3. Построим эмпирическую линию регрессии, для этого на оси
абсцисс откладываем значения группы фактора xi, а по оси ординат –
соответствующие им групповые средние y i . Полученные на графике точки
35
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
соединяем ломанной кривой (1) , которая и будет являться эмпирической
линией регрессии (рис. 5.3).
У
1
19
2
8,5
18
17,5
17
18
19
20
21
22
23
24
Х
Рисунок 5.3
Замечание. При построении эмпирической линии регрессии, по осям
координат можно выбирать разный масштаб.
Уравнение регрессии.
Под простой регрессией понимают одностороннюю стохастическую
зависимость результативной переменной только от одной объясняющей
переменной:
y  f x 
(5.1)
Исходя из соображений профессионально-теоретического характера
в сочетании с исследованием расположения точек на диаграмме рассеяния
36
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
(рис. 5.1) или по виду эмпирической линии регрессии, предполагается
характер этой зависимости , т.е. вид функции f(x).
Уравнение (5.1) называется уравнением регрессии. Для выбора и
обоснования типа кривой регрессии нет универсального метода, и чаще
всего вид функции f(x) выбирают из известных элементарных функций.
Линейная парная регрессия
Обычно уравнение линейной регрессии записывают в виде:
y х  Ry / x x  b
(5.2)
Для отыскания параметров уравнения регрессии используют метод
наименьших
квадратов,
суть
которого
состоит
в
следующем:
неизвестные параметры выбираются таким образом, чтобы сумма
квадратов
отклонений
эмпирических
yi
значений
от
значений,
вычисленных по уравнению (5.1), была минимальной.
Параметры уравнения (5.2) Ry/x и b определяются формулами:
R y/x 
b
xy  x y
2 ,
x 2  x 
(5.3)
x 2 y  x xy
x 2  x 
2
,
(5.4)
2
где x и y – выборочные средние; значения x и xy для
не сгруппированных данных находятся по формулам:
n
x 
2
n
 xi2
i 1
n
xy 
(5.5)
x y
i
i 1
i
(5.6)
n
Для сгруппированных данных формулы примут вид:

x 
2

x n
i 1
2
i i
n
xy 
(5.7)
37
x у n
i 1
i
n
i
i
(5.8)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Коэффициент
Ry/x
называется
выборочным
коэффициентом
линейной регрессии и показывает скорость изменения функции (в случае
установленной
корреляционной
зависимости
скорость
изменения
коррелянты по фактору).
Обозначение Ry/x показывает, что устанавливается зависимость
изменения признака Y от изменения значений признака Х, если
обозначается Rх/у то это – коэффициент сопряженной регрессионной
прямой. Уравнение такой прямой, записывается в предположении линейной
зависимости признака Х от изменений значений признака Y и имеет вид:
xу  Ry / x y  b*
По
сравнению
с
уравнением
(5.2)
(5.9)
переменной
подлежащей
объяснению является х.
Коэффициент регрессии Ry/x оценивает меру влияния, оказываемого
изменением переменной х на переменную у, и
показывает среднюю
величину изменения переменной у при изменении объясняющей переменной х
на одну единицу.
Знак
Ry/x
объясняет
направление
этого
объяснения.
При
положительном коэффициенте, речь идет о положительной регрессии, при
отрицательном коэффициенте – об отрицательной регрессии.
Значения функций y xi называется предсказанными или откликами.
5.4. Статистическая обработка данных признаков Х и У бала
проведена в предыдущих разделах, а данные приведены в таблице 8.
Для вычисления коэффициентов уравнения линейной регрессии из
этой таблицы выпишем значения x = 20,93 и y = 18,2, а также составим
рабочую таблицу 11, которая облегчит вычисление величин xy и x 2 .
38
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Таблица 11
xi
yi
mi
x i2 mi
y i x i mi
18
17,37
6
1944
1875,96
19
17,21
7
2527
2288,93
20
17,83
11
4400
3922,6
21
17,9
13
5733
4886,7
22
19,06
11
5324
4612,52
23
18,9
8
4232
3477,6
24
19,3
4
2304
1852,8
60
26464
22917,11
Используя данные таблицы 11 и формулы (5.7) и (5.8), получим:
x2 
26464
 441,07
60
xy 
22917,11
 381,95 .
60
Вычислим коэффициенты уравнения линейной регрессии:
R y/x 
381,95  20,93  18,2 381,95  380,93 1,02


 0,34
2
441
,
07

438
,
06
3
,
01
441,07  20,93
b
441,07  18,2  20,93  381,95 33,26

 11,05
2
3,01
441,07  20,93
Таким образом, теоретическое уравнение линейной регрессии имеет вид:
y х  0,34 x  11,05
На рисунке 5.3, где изображена эмпирическая линия регрессии (1)
строим график теоретической линии регрессии (2). Из рисунка видно, что
для одних и тех же xi, групповые значения yi отличаются от y xi ,
вычисленных с помощью составленного уравнения регрессии. Эти различия
39
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
обусловлены влиянием множества причин, не поддающихся строгому учету
и контролю.
В идеальном случае эта разность должна равняться нулю, но это не
возможно. Поэтому, чем эта разность меньше, тем мы имеем большее право
утверждать,
что
полученное
уравнение,
подходит
для
описания
регрессионной связи между изучаемыми признаками. Так как точность
обработки статистических данных в РГР выполняется с надежностью 0,95,
то точность данного уравнения должна быть меньше 5%.
Для вычисления ошибки корреляционного уравнения Sк.у. и точности
корреляционного уравнения Рк.у. используем следующие формулы:
 y

S к. у. 
i 1

2
i
 y xi
 mi
(5.10)
nr
где n – объем выборки;
r – число параметров уравнения регрессии.
Pк. у . 
S к. у.
y
 100%
(5.11)
5.5. Определим точность линейного регрессионного уравнения.
Для упрощения вычислений составим рабочую таблицу 12.
Таблица 12
y i - y xi
( y i - y xi )2mi
17,17
0,2
0,24
17,21
17,51
-0,3
0,63
11
17,83
17,85
-0,02
0,0044
21
13
17,9
18,19
-0,29
1,0933
22
11
19,06
18,53
0,53
3,0899
23
8
18,9
18,87
0,03
0,0072
24
4
19,3
19,21
0,09
0,0324
xi
mi
yi
18
6
17,37
19
7
20
y xi
60
5,0972
40
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Так как, линейное уравнение содержит два параметра Ry/x и b, то в
формуле (5.10) r =2.
Итак:
S к. у. 
Pк. у . 
5,0972
 0,088  0,296 ;
58
0,296
 100%  0,016  100%  1,6% .
18,2
Точность регрессионного уравнения 1,6%, что меньше 5%, следовательно, с
надежностью 0,95, можно использовать полученное уравнение на практике
для описания связи между исследуемыми признаками.
Оценка тесноты корреляционной связи
Для решения вопроса о зависимости двух случайных величин Х и Y
можно воспользоваться методом дисперсионного анализа. В качестве
нулевой гипотезы Н0 выдвигаем гипотезу о независимости признаков Х и Y,
т.е. расхождение между средними значениями различных выборок
генеральной совокупности незначительны и обусловлены случайностями
выборок. В противном случае это различие обусловлено еще и влиянием
исследуемого фактора и тогда случайная величина Y будет завесить от
случайной величины Х.
Проверка гипотезы Н0 проводится с помощью F-критерия:
Fнаб .
2
Sфак
 2 .
Sост.
(5.12)
2
Факторная дисперсия Sфак. вычисляется по формуле:

2
Sфак
. 
y
i 1
 y  mi
2
i
 1
,
(5.13)
где  - число групп фактора; y i - групповые средние; y - выборочная
средняя.
2
Остаточная (случайная) дисперсия Sост. определяется по формуле:
41
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

2
Sост
. 
 y

i 1 j 1
 yi  mij
2
j
(5.14)
n 
В формулах (5.13) и (5.14), выражения стоящие в числителях
называются суммами квадратов (вариациями) и обозначается W.
Для
определения
остаточной
дисперсии,
лучше
использовать
формулу разложения общей суммы квадратов S2общ на составляющие.
2
Согласно этой формулы, остаточная сумма квадратов S ост будет равна:
Wост.=Wобщ. - Wфак.
Причем
Wобщ.  S y2 n  1
(5.15).
(5.16),
2
где S y - выборочное среднее квадратическое отклонение выборки
признака Y объема n.
Значение Fнаб., вычисленное по формуле (5.12), надо сравнить с
Fкр. (; k1; k2), которое находится по таблице приложения 6 для уровня
значимости  и степеням свободы k1 =  - 1 и k2 = n - .
Если Fнаб. > Fкр., то гипотеза Н0 отвергается и с надежностью р=1-
можно считать, что изменения средних значений признака Y вызваны
влиянием фактора Х, т.е. существует зависимость между признаками Х и Y.
Если Fнаб. < Fкр., то признаки Х и Y независимы.
5.6. Вычислим вариации:
Wобщ. = 1,1∙(60-1) = 64,9;
Wфак. = (17,37 - 18,2)2∙6 + (17,21 - 18,2)2∙7 + (17,83 - 18,2)2∙11 +
+(17,9 - 18,2)2∙13 + (19,06 - 18,2)2∙11 + (18,9 - 18,2)2∙8 +
+ (19,3 - 18,2)2∙4 = 4,1334 + 6,8607 + 1,5059 + 1,17 +8,1356+
+ 3,92 + 4,84= 30,5656
Wост. = 64,9 – 30,57 = 34,33.
42
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Следовательно, соответствующие дисперсии равны:
Wфак.
2
S фак

 1
2
Sост
. 

30,57 30,57

 5,095
7 1
6
Wост. 34,33 34,33


 0,65
n   60  7
53
Вычисляем фактическое значение F – критерия:
Fнаб . 
По
таблице
5,095
 7,84.
0,65
приложения
6
определим
критическое
значение
Fкр.(;k1;k2)= =Fкр.(0,05; 6; 53)=2,34.
Так как, Fнаб. > Fкр., то гипотеза о наличии корреляционной
зависимости между признаками Х и У не отвергается на уровне значимости
0,05.
При стохастических связях изменения в величинах зависимой
переменной
не
полностью
определяются
влияние
рассматриваемых объясняющих переменных. На изменения
изменений
зависимых
переменных оказывают влияние также другие, не учитываемые нами или
скрытые от нас факторы и случайности. Чем больше изменения зависимых
переменных обусловлены изменениями рассматриваемых объясняющих
переменных, тем теснее, интенсивнее рассматриваемая связь.
Если между двумя случайными величинами Х и Y существует
линейная корреляционная связь, то тесноту (интенсивность) этой связи
оценивают с помощью выборочного коэффициента корреляции (или
просто коэффициента корреляции) ry/x., который вычисляется по
формуле:
ry / x 
xy  x y
,
SxS y
(5.17)
где Sx и Sy – выборочные средние квадратические отклонения, x и y выборочные средние, а xy - величина, вычисляемая по формулам (5.8)
43
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Свойства коэффициента корреляции:
1.
Коэффициент корреляции принимает значение на отрезке [-1;1], т.е. 1< ry/x<1;
2.
При ry/x=0 линейной корреляционной связи между признаками Х и Y не
существует, однако
нелинейная корреляционная
связь и
даже
нелинейная функциональная зависимость может существовать
3.
Если ry/x=1 или ry/x= -1, то между случайными величинами Х и Y
существует линейная функциональная зависимость: при ry/x=1 – прямая
зависимость и при ry/x= -1 - обратная.
Таким образом, чем ближе коэффициент корреляции к единице, тем
теснее, интенсивнее связь между переменными Х и У, тем больше
изменения зависимой переменной обусловлены изменениями объясняющей
переменной.
Замечание. Если случайная величина Х зависит от Y, то коэффициент
корреляции обозначается rх/у, и равен коэффициенту ry/x, т.е. ry/x= rх/у=r.
При большом числе наблюдений удобно пользоваться другой
формулой для вычисления коэффициента линейной корреляции:
ry / x  R y / x
Sx
,
Sy
(5.18)
где Ry/x – коэффициент линейной регрессии.
Формула (5.18) устанавливает связь между коэффициентом линейной
корреляции и коэффициентом линейной регрессии.
Коэффициент корреляции вычисляется по результатам выборки,
поэтому он является функцией выборки и его значения, вычисленные по
результатам различных выборок, отличаются друг от друга.
Так как выборочный коэффициент корреляции r является оценкой
генерального коэффициента корреляции , то необходимо установить
значимость выборочного коэффициента корреляции, и целесообразно
найти доверительный интервал (интервальную оценку) для , который с
44
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
заданной надежностью р=1- содержит (точнее «накрывает») неизвестный
генеральный коэффициент корреляции .
При проверке значимости коэффициента корреляции r, в качестве
нулевой гипотезы Н0 выдвигают гипотезу об отсутствии линейной
корреляционной связи между переменными в генеральной совокупности,
т.е. Н0: различие между выборочным коэффициентом корреляции r и =0
незначимо. В качестве альтернативной, выдвигают гипотезу Н1: различие
между r и =0 значимо, и, следовательно, между переменными Y и Х
имеется существенная связь.
При справедливости гипотезы Н0, статистике
t
r n2
1 r2
(5.19)
имеет t – распределение Стьюдента с k=n-2 степенями свободы.
Если значение
t
будет больше критического значения t(,k),
найденного по таблице приложения 4, для заданного уровня значимости ,
то гипотеза Н0 отвергается, то есть, выборочный коэффициент корреляции r
значимо (существенно) отличается от нуля и связь между переменными
значима.
5.7. Вычислим коэффициент линейной корреляции по формуле (5.18):
ry / x  0,34 
1,71
 0,53 .
1,1
Вычисленный коэффициент линейной корреляции значительно отличается
от нуля, но не достаточно близок к единице, следовательно, между
признаками существует линейная зависимость, но она не достаточно
сильная.
Проверим значимость коэффициента корреляции, для этого определим
статистику по формуле (5.19):
t
0,53  60  2
1  0,53
2

0,53  7,62
 4,75 ,
0,85
45
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
По таблице приложения 4 для =0,05 и k = 60-2=58 найдем
критическое значение tкр(;k) : t(0,05;58)=2,00. Поскольку t > tкр.(0,05;58),
нулевую гипотезу отвергаем, допуская ошибку лишь в 5% случаев.
Выборочный коэффициент корреляции r значимо (существенно) отличается
от нуля и связь между переменными значима.
Для оценки тесноты (интенсивности) любой формы связи используют
корреляционное отношение y/x, которое вычисляется по формуле
 y/x 

2
где S межгр. 
y
i 1
2
S межгр
.
S y2
(5.20)
 y  mi
2
i
n
рассеяние групповых средних
- межгрупповая дисперсия, характеризует
yi
относительно среднего
y ; S y2
-
выборочная дисперсия.
Эмпирическое корреляционное отношение y/x является показателем
рассеяния точек корреляционного поля относительно эмпирической линии
регрессии.
Свойства корреляционного отношения.
1. Корреляционное отношение есть неотрицательная величина,
принимающая значение на отрезке [0; 1], т.е.
0 <  < 1.
2. Если =0, то корреляционная связь отсутствует.
3. Если =1, то между переменными существует функциональная
зависимость.
4. у/хх/у, т.е.
при вычислении корреляционного отношения
существенно, какую переменную считать независимой, а какую –
зависимой.
46
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5. Так как корреляционное отношение оценивает тесноту для любого
вида связи, то при линейной корреляции r   .
5.8. Вычислим корреляционное отношение по формуле(5.20), для этого
сначала определим межгрупповую дисперсию по формуле (5.32):

2
S межгр
. 
y
i 1
 y  mi
2
i
(5.21).
n
Для удобства вычислений составим рабочую таблицу:
Таблица 13
yi
mi
yi  y
( y i  y ) 2  mi
17,37
6
-0,83
4,1334
17,21
7
-0,99
6,8607
17,83
11
-0,37
1,5059
17,9
13
-0,3
1,17
19,06
11
0,86
8,1356
18,9
8
0,7
3,92
19,3
4
1,1
4,84
60
2
Получаем: S межгр. 
Тогда
 y/x 
30,5656
30,5656
 0,51 ,
60
S y2  (1,1)2= 1,21.
0,51
 0,42  0,64.
1,21
Видно, что корреляционное отношение больше коэффициента линейной
корреляции, что подтверждает его свойство 5, и подтверждает наличие
достаточно тесной корреляционной зависимости.
47
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Нелинейная регрессия
Различают
относительно
два
класса
включенных
в
нелинейных
анализ
регрессий:
объясняющих
нелинейные
переменных
и
нелинейные относительно оцениваемых параметров.
Для описания нелинейной связи можно выбрать одно из следующих
уравнений:
параболическое -
y  a0  a1 x  a2 x 2
(5.22)
гиперболическое -
y  a0 
a1
x
(5.23)
показательное -
y  a0 a1x
(5.24)
логарифмическое -
y  a0  a1 lg x
(5.25)
Для отыскания параметров уравнений нелинейной регрессии используют
метод наименьших квадратов,
Рассмотрим
квадратичную
(параболическую)
зависимость,
описывающую уравнением (5.22). Метод наименьших квадратов дает
следующую систему уравнений для нахождения параметров этого
уравнения:
а 0  а 1 х  а 2 х 2  у


2
3
а0 х  а1 х  а 2 х  ху

2
3
4
2
а0 х  а1 х  а 2 х  х у
(5.26)
2
где х и ху вычисляются по формулам (5.7) – (5.8), а для вычисления
х 3 , х 4 и х 2 у применяют формулы:
- для не сгруппированных данных:
n
х3 
x
i 1
n
n
3
i
;
х4 
x
i 1
n
48
4
i
;
х2 y 
x
2
i
n
yi
,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
- для сгруппированных данных:


х 
3
x m
i 1
3
i
n
i
x m
х 
i 1
4
;
4
i
n
i
х y
2
;
n
x
i 1
2
i
yi mi
n
.
Если для описания зависимости используется уравнения гиперболы
(5.21), то система уравнений для отыскания коэффициентов а0 и а1 для не
сгруппированных данных имеет вид:
n
n
1

а0 n  a1  x   yi

i 1 i
i 1
 n
n
n
y
1
1
a
 a1  2   i
0
 i 1 xi
i 1 xi
i 1 xi
(5.27)
Для сгруппированных данных система (5.27) выглядит так:


mi

а 0 n  a1  x   y i mi

i 1
i 1
i
 


mi
mi
ym
a
 a1  2   i i
0
 i 1 xi
i 1 x i
i 1 x i
(5.28)
Если зависимость описывается показательным уравнением (5.24), то
это уравнение надо сначала прологарифмировать: lgy = xlgb + lga, а затем,
используя метод наименьших квадратов составить систему уравнений для
определения коэффициентов a
и b. Для не сгруппированных данных
система имеет вид :


2
lg
a
 1  x i
i 1


 lg a1  x i

i 1

 lg a 0  x i

i 1

x
i 1

n lg a 0

i
lg y i
(5.29)

 lg y
i 1
i
Для сгруппированных данных:


2
lg
a
 1  x i mi
i 1


 lg a1  x i mi

i 1

 lg a 0  x i mi

i 1

n lg a 0
49

x
i 1

i
lg y i mi
(5.30).

 lg y m
i 1
i
i
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Замечание. В системах (5.29) и (5.30) может быть и натуральный
логарифм.
Для зависимости описываемой логарифмическим уравнением (5.25)
система
найденная
методом
наименьших
квадратов
для
не
сгруппированных данных имеет вид:
 
2
a1  (ln x i )
i 1
 
 a1  (ln x i )
 i 1


 a 0  (ln x i ) 
 y (ln x )
i 1

(5.31)

y

a0 n
i
i
i 1
i 1
i
Для сгруппированных данных:
 
2
a1  (ln x i ) mi
i 1
 
 a1  (ln x i )mi
 i 1

 a 0  (ln x i )mi



i 1
a0 n

m
i 1
i
y i (ln x i )
(5.32)

 y i mi
i 1
Замечание. Рассмотренные выше уравнения регрессии нелинейные
относительно включенной в анализ объясняющей переменной, но линейны
по подлежащим оценке параметрам регрессии, поэтому для них возможно
непосредственное применение метода наименьших квадратов.
При исследовании экономических явлений, часто встречается класс
регрессий, характеризующийся нелинейностью относительно оцениваемых
параметров,
который
не
допускает
применения
обычного
метода
наименьших квадратов. Для решения получающейся при этом системы
наименьших
уравнений
привлекают
интеграционные
методы
или
прибегают к аппроксимации параметров искомой зависимости.
Если выбранное линейное регрессионное уравнение не подходит для
описания связи между признаками, то по виду эмпирической линии
регрессии (Рис.5.3) подбирают одно из уравнений (5.22) – (5.25).
Определяют его коэффициенты методом наименьших квадратов и находят
точность полученного нелинейного уравнения регрессии, как это было
показано выше, для линейного уравнения.
50
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА.
В данной расчетно-графической работе проведена статистическая
обработка данных 60 хозяйств по количеству засеянных пшеницей гектаров
Х (сотен га) и урожайностью пшеницы У(ц с 1 га), а также установлен вид
регрессионной связи и наличие корреляционной зависимости между
указанными признаками.
Статистическая обработка данных по признаку Х.
Полученные статистические характеристики дают сделать следующие
выводы:
 количество площади, отведенной под пшеницу, в среднем по
выбранным хозяйствам составляет
х  20,93 сотен гектаров. В
большинстве хозяйств она больше Mo(x)=21 сот. га. При этом
наиболее передовые хозяйства засеивают x высш. =22,08 сот. га, а
отстающие x низ. = 19,21 сот. га. Наиболее отстающими являются 13
хозяйств, в которых под пшеницу отводится площадь меньшая, чем
19,21 сот. га;
 рассеивание количества гектаров пашни отведенных под пшеницу
относительно, наиболее характерной для данной выборки, площади
х  20,93
сот.
га
характеризуется
выборочным
средним
квадратическим отклонением или стандартой S x = 1,71 сот. га. В
процентах это отклонение выражает коэффициент вариации
Vx = 8,17% , который меньше 10%, следовательно, разброс
данных незначителен;
 проведенная проверка согласия эмпирического и теоретического
нормального распределения по критериям  2 - Пирсона и  2 –
Смирнова подтвердила, что распределение данной выборки можно
считать, с надежностью р = 0,95, подчиняющимся закону
нормального распределения, что дает основание использовать
формулы нормального распределения для вычисления интервальных
оценок;
 с надежностью 0,95 определены доверительные интервалы
генеральной средней 20,49  a x  21,37 и генерального среднего
квадратического отклонения 1,44   x  2,11 . Следовательно, в
среднем по области количество пашни, засеянной пшеницей, для всех
хозяйств будет находиться в пределах от 20,49 сот. га до 21,37 сот. га,
а среднее квадратическое отклонение от 1,44 сот. га до 2,11 сот. га.
51
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Статистическая обработка данных по признаку У.
Полученные статистические характеристики дают сделать следующие
выводы:
 урожайность пшеницы в среднем по выбранным хозяйствам
составляет у = 18,2 ц с 1 гектара. В большинстве хозяйств она равна
Mo(x)=17,4 ц и Mo(x)=17,9 ц (в данном случае получили
многомодальный ряд). При этом наиболее передовые хозяйства
получают с одного гектара у высш. = 19,28 ц пшеницы, а отстающие
у низ. = 17,36 ц.. Наиболее отстающими являются 19 хозяйства, в
которых урожайность пшеницы меньше, чем 17,36 ц с га, а наиболее
успешными являются 15 хозяйств, в которых урожайность превышает
высшую среднюю 19,28 ц;
 рассеивание урожайности
пшеницы относительно, наиболее
характерной для данной выборки, урожайности у = 18,2 ц с 1 га
характеризуется выборочным средним квадратическим отклонением
или стандартой S у = 1,1 ц. В процентах это отклонение выражает
коэффициент вариации
Vx = 6,04% , который меньше 10%,
следовательно, разброс данных незначителен;
 проведенная проверка согласия эмпирического и теоретического
нормального распределения по критериям  2 - Пирсона и  2 –
Смирнова подтвердила, что распределение данной выборки можно
считать, с надежностью р = 0,95, подчиняющимся закону
нормального распределения, что дает основание использовать
формулы нормального распределения для вычисления интервальных
оценок;
 с надежностью 0,95 определены доверительные интервалы
генеральной средней 17,92  a у  18,48 и генерального среднего
квадратического отклонения 0,93   у  1,34 . Следовательно, в
среднем по области урожайность пшеницы, будет находиться в
пределах от 17,92 ц до 18,48 ц с 1 га, а среднее квадратическое
отклонение от 0,93 ц до 1,34ц с 1 га.
Анализ статистической зависимости между признаками Х и У.
Установлено, что между фактором Х – количество сотен гектаров
засеянных пшеницей, и коррелянтой
У – количество центнеров
пшеницы, собранной с одного гектара, существует достоверная (Fнаб.=
7,8 Fкр.= 2,34)
52
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
корреляционная зависимость, которая характеризуется линейным
уравнением: y х  0,34 x  11,05 .
Выборочный
коэффициент
линейной
регрессии
R y/x  0,34 указывает , что увеличение посева пшеницы на одну сотню
гектаров вызывает увеличение урожайности на 0,34 центнера с гектара.
Теснота
линейной
корреляционной
связи
оценивается
коэффициентом линейной корреляции ry / x  0,53
Вычисленный коэффициент линейной корреляции значительно
отличается от нуля, но не достаточно близок к единице, следовательно,
между признаками существует линейная зависимость, но она не достаточно
сильная.
53
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение 1.
Образец титульного листа расчетно-графической работы.
МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОСИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Саратовский государственный аграрный университет им. Н.И.Вавилова»
Кафедра
Математика, моделирование и информатика.
РАСЧЕТНО-ГРАФИЧЕСКАЯ РАБОТА
по математической статистике
ВЫПОЛНИЛ
студент 2 курса
группы ____________
факультета_________
______________(И.В.Петров)
Саратов 2012г.
54
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение 2
1

2
Значения функции f t  
Целые и
десятые
доли х
t2

2
Сотые доли х
0
1
2
3
4
5
6
7
8
9
0,0
0,1
0,2
0,3
0,4
0,5
0,3989
3970
3910
3814
3683
3521
0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,3973
3965
3961
3956
3951
3945
3939
3932
3925
3918
3902
3894
3885
3876
3867
3857
3847
3836
3825
3802
3790
3778
3765
3752
3739
3726
3712
3697
3668
3653
3637
3621
3605
3589
3572
3555
3538
3503
3485
3467
3448
3429
3410
3391
3372
3352
0,6
0,7
0,8
0,9
1,0
3332
3123
2897
2661
0,2420
3312
3292
3271
3251
3230
3209
3187
3166
3144
3101
3079
3056
3034
3011
2989
2966
2943
2920
2874
2850
2827
2803
2780
2756
2732
2709
2685
2637
2613
2589
2565
2541
2516
2492
2468
2444
0,2396 0,2371 0,2347 0,2323 0,2299 0,2275 0,2251 0,2227 0,2203
1,1
1,2
1,3
1,4
1,5
2179
1942
1714
1497
1295
1,6
1,7
1,8
1,9
2,0
1109
0940
0790
0656
0,0540
2,1
2,2
2,3
2,4
2,5
0440
0355
0283
0224
0175
2,6
2,7
2,8
2,9
3,0
0136
0104
0079
0060
0,0044
3,1
3,2
3,3
3,4
3,5
0033
0024
0017
0012
0009
3,6
3,7
3,8
3,9
4,0
0006
0004
0003
0002
0,0001
2155
1919
1691
1476
1276
2131
1895
1669
1456
1257
2107
1872
1647
1435
1238
2083
1849
1626
1415
1219
2059
1826
1604
1394
1200
2036
1804
1582
1374
1182
2012
1781
1561
1354
1163
1989
1758
1539
1334
1145
1965
1736
1518
1315
1127
1092
1074
1057
1040
1023
1006
0989
0973
0957
0925
0909
0893
0878
0863
0848
0833
0818
0804
0775
0761
0748
0734
0721
0707
0694
0681
0669
0644
0632
0620
0608
0596
0584
0573
0562
0551
0,0529 0,0519 0,0508 0,0498 0,0488 0,0478 0,0468 0,0459 0,0449
0431
0347
0277
0219
0171
0422
0339
0270
0213
0167
0413
0332
0264
0208
0163
0404
0325
0258
0203
0158
0396
0317
0252
0198
0154
0387
0310
0246
0194
0151
0379
0303
0241
0189
0147
0371
0297
0235
0184
0143
0363
0290
0229
0180
0139
0132
0129
0126
0122
0119
0116
0113
0110
0107
0101
0099
0096
0093
0091
0088
0086
0084
0081
0077
0075
0073
0071
0069
0067
0065
0063
0061
0058
0056
0055
0053
0051
0050
0048
0047
0046
0,0043 0,0042 0,0041 0,0039 0,0038 0,0037 0,0036 0,0035 0,0034
0032
0023
0017
0012
0008
0031
0022
0016
0012
0008
0030
0022
0016
0011
0008
0029
0021
0015
0011
0008
0028
0020
0015
0010
0007
0027
0020
0014
0010
0007
0026
0019
0014
0010
0007
0025
0018
0013
0009
0007
0025
0018
0013
0009
0006
0006
0006
0005
0005
0005
0005
0005
0005
0004
0004
0004
0004
0004
0004
0003
0003
0003
0003
0003
0003
0003
0003
0002
0002
0002
0002
0002
0002
0002
0002
0002
0002
0002
0002
0001
0001
0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
55
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение 3
Критические точки распределения 2
Число
степеней
свободы
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Уровень значимости
0,01
0,025
0,05
0,95
0,975
0,89
6,6
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
5,0
7,4
9,4
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
3,8
6,0
7,8
9,5
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
35,2
36,4
37,7
38,9
40,1
41,3
42,6
43,8
0,0039
0,103
0,352
0,711
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,1
10,9
11,6
12,3
13,1
13,8
14,6
15,4
16,2
16,9
17,7
18,5
0,00098
0,051
0,216
0,484
0,831
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,3
11,0
11,7
12,4
13,1
13,8
14,6
15,3
16,0
16,8
0,00016
0,020
0,115
0,297
0,554
0,872
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,2
10,9
11,5
12,2
12,9
13,6
14,3
15,0
56
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение 4
Значения tp(p,n)
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0,95
2,78
2,57
2,45
2,37
2,31
2,26
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,11
2,10
p
0,99
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,06
3,01
2,98
2,95
2,92
2,90
2,88
n
0,999
8,61
6,86
5,96
5,41
5,04
4,78
4,59
4,44
4,32
4,22
4,14
4,07
4,02
3,97
3,92
20
25
30
35
40
45
50
60
70
80
90
100
120

0,95
2,093
2,064
2,045
2,032
2,023
2,016
2,009
2,001
1,996
1,991
1,987
1,984
1,980
1,960
p
0,99
2,861
2,797
2,756
2,720
2,708
2,692
2,679
2,662
2,649
2,640
2,633
2,627
2,617
2,576
0,999
3,883
3,745
3,652
3,600
3,558
3,527
3,502
3,464
3,439
3,418
3,403
3,392
3,374
3,291
Приложение 5
Значения q = q(p,n)
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0,95
1,37
1,09
0,92
0,80
0,71
0,65
0,59
0,55
0,52
0,48
0,46
0,44
0,42
0,40
0,39
p
0,99
2,67
2,01
1,62
1,38
1,20
1,08
0,98
0,90
0,83
0,78
0,73
0,70
0,66
0,63
0,60
n
0,999
5,64
3,88
2,98
2,42
2,06
1,80
1,60
1,45
1,33
1,23
1,15
1,07
1,01
0,96
0,92
20
25
30
35
40
45
50
60
70
80
90
100
150
200
250
57
0,95
0,37
0,32
0,28
0,26
0,24
0,22
0,21
0,188
0,174
0,161
0,151
0,143
0,115
0,099
0,089
p
0,99
0,58
0,49
0,43
0,38
0,35
0,32
0,30
0,269
0,245
0,226
0,211
0,198
0,160
0,136
0,120
0,999
0,88
0,73
0,63
0,56
0,50
0,46
0,43
0,38
0,34
0,31
0,29
0,27
0,211
0,185
0,162
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение 6
F-распределение


Значения Fn1 ,n2 ; p , соответствующие вероятности p  P Fn1 ,n2  Fn1 ,n2 ; p ,
где случайная величина Fn1 ,n2 имеет F-распределение с n1 и n2 степенями
свободы
р=0,05
n1
n2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

1
2
3
4
5
6
8
12
24

161,4
18,51
10,13
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4,75
4,67
4,60
4,54
4,49
4,45
4,41
4,38
4,35
4,32
4,30
4,28
4,26
4,24
4,22
4,21
4,20
4,18
4,17
4,08
4,00
3,92
3,84
199,5
19,00
9,55
6,94
5,79
5,14
4,74
4,46
4,26
4,10
3,98
3,88
3,80
3,74
3,68
3,63
3,59
3,55
3,52
3,49
3,47
3,44
3,42
3,40
3,38
3,37
3,35
3,34
3,33
3,32
3,23
3,15
3,07
2,99
215,7
19,16
9,28
6,59
5,41
4,76
4,35
4,07
3,86
3,71
3,59
3,49
3,41
3,34
3,29
3,24
3,20
3,16
3,13
3,10
3,07
3,05
3,03
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,84
2,76
2,68
2,60
224,6
19,25
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
3,36
3,26
3,18
3,11
3,06
3,01
2,96
2,93
2,90
2,87
2,84
2,82
2,80
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,61
2,52
2,45
2,37
230,2
19,30
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
3,20
3,11
3,02
2,96
2,90
2,85
2,81
2,77
2,74
2,71
2,68
2,66
2,64
2,62
2,60
2,59
2,57
2,56
2,54
2,53
2,45
2,37
2,29
2,21
234,0
19,33
8,94
6,16
4,95
4,28
3,87
3,58
3,37
3,22
3,09
3,00
2,92
2,85
2,79
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,53
2,51
2,49
2,47
2,46
2,44
2,43
2,42
2,34
2,25
2,17
2,09
238,9
19,37
8,84
6,04
4,82
4,15
3,73
3,44
3,23
3,07
2,95
2,85
2,77
2,70
2,64
2,59
2,55
2,51
2,48
2,45
2,42
2,40
2,38
2,36
2,34
2,32
2,30
2,29
2,28
2,27
2,18
2,10
2,02
1,94
243,9
19,41
8,74
5,91
4,68
4,00
3,57
3,28
3,07
2,91
2,79
2,69
2,60
2,53
2,48
2,42
2,38
2,34
2,31
2,28
2,25
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,00
1,92
1,83
1,75
249,0
19,45
8,64
5,77
4,53
3,84
3,41
3,12
2,90
2,74
2,61
2,50
2,42
2,35
2,29
2,24
2,19
2,15
2,11
2,08
2,05
2,03
2,00
1,98
1,96
1,95
1,93
1,91
1,90
1,89
1,79
1,70
1,61
1,52
254,3
19,50
8,53
5,63
4,36
3,67
3,23
2,93
2,71
2,54
2,40
2,30
2,21
2,13
2,07
2,01
1,96
1,92
1,88
1,84
1,81
1,78
1,76
1,73
1,71
1,69
1,67
1,65
1,64
1,62
1,52
1,39
1,25
1,00
58
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Список литературы
1. Кузнецов, Б.Т. Математика / Б.Т.Кузнецов. - М. : ЮНИТИ-ДАНА, 2004. - 719 с.
2. Высшая математика для экономистов / Н.Ш. Кремер, [и др.]. - М. : ЮНИТИДАНА, 2006. – 532 с.
3. Высшая математика для экономических специальностей: Учебник и практикум /
Н.Ш. Кремер, [и др.]. – М. : Высшее образование, 2005. – 589 с.
4. Бось В.Ю. Теория вероятностей и математическая статистика / В.Ю.Бось
Саратов:СГАУ,2003.-276с.
5. Гмурман В.Б. Теория вероятностей и математическая статистика / В.Б. Гмурман.М.:Высш.шк., 2007.-480с.
6. Письменный Д. Т. Конспект лекций по теории вероятностей, математической
статистике и случайным процессам Д.Т. Письменный.- М.: Айрис-пресс, 2007.287с.
7. Кремер Н.Ш. Теория вероятностей и математическая статистика/Н.Ш. Кремер. –
М.: ЮНИТИ, 2006.-544с.
8. Красс М.С., Чупрынов Б.П. Математика в экономике. Математические методы и
модели: учебник/ М.Н.Красс, Б.П.Чупрынов.-М.:Финансы и статистика, 2007.544с.
1. Лунгу, К.Н., Письменный, Д.Т., Федин, С.Н., Шевченко, Ю.А. Сборник задач по
высшей математике / К.Н. Лунгу, Д.Т. Письменный, С.Н. Федин, Ю.А.
Шевченко. - М. : Рольф, 2001. – 576 с.
2. Справочник по математике для экономистов: Учебное пособие / В.И. Ермаков [и
др.]. – М. : ИНФРА-М, 2007. – 464 с.
3. Общий курс высшей математики для экономистов / В.И. Ермаков, [и др.]. – М. :
ИНФРА-М, 2005. – 656 с.
4. Красс М.С. Математика в экономике. Основы математики/М.С. Красс.- М.:
Финансы и статистика, 2007.-470с..
5. Кремер, Н.Ш., Путко, Б.А., Тришин, И.М. Математика для экономистов: от
Арифметики до Эконометрики / учебно-справочное пособие / Н.Ш. Кремер, Б.А.
Путко, И.М.Тришин. - М. : Высшее образование, 2009. – 646 с.
6. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и
математическая статистика/ В.А. Колемаев, О.В. Староверов, В.Б.
Турундаевский.- М.: Высш. шк., 1991. 400 с.
7. Фестер Э., Ренц Б. Методы корреляционного и регрессионного анализа/
Э.Фестер, Б. Ренц.- М.: Финансы и статистика, 1983. 302 с.
8. Дрейнер Н., Смит Г. Прикладной регрессионный анализ Т.1./Н.Дрейпер, Г.Смит.М.: Финансы и статистика, 1986. 366 с.
59
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Содержание.
1. Построение вариационного ряда.
1.1. Определение размаха варьирования…………………………
1.2. Определение длины частичного интервала…………………
1.3. Разбиение выборки на интервалы…………………………...
1.4. Построение интервального вариационного ряда…………...
1.5. Построение дискретного вариационного ряда……………...
1.6. Графическое изображение дискретного
вариационного ряда………………………………………….
2. Статистические характеристики вариационного ряда…………...
2.1. Выборочные и частные средние……………………………..
2.2. Мода и медиана……………………………………………….
2.3. Среднее квадратическое отклонение………………………...
2.4. Коэффициент вариации………………………………………
3. Проверка гипотез о виде распределения…………………………..
3.1. χ2 – критерий Пирсона………………………………………...
3.2. ω2 – критерий Смирнова……………………………………...
3.3. Построение графика теоретического распределения………
4. Статистические оценки……………………………………………..
4.1. Доверительный интервал генеральной средней…………….
4.2. Доверительный интервал генерального
среднего квадратического отклонения………………………
5. Статистическая зависимость……………………………………….
5.1. Корреляционная таблица……………………………………..
5.2. Вычисление групповых средних……………………………..
5.3. Построение эмпирической линии регрессии………………...
5.4. Уравнение прямой линии регрессии…………………………
5.5. Определение точности уравнения линейной регрессии……
5.6. Корреляционная зависимость………………………………...
5.7. Коэффициент линейной корреляции…………………………
5.8. Корреляционное отношение………………………………….
5.9. Нелинейная регрессия………………………………………..
6. Пояснительная записка………………………………………………
7. Приложения…………………………………………………………..
8. Список литературы………………………………………………….
60
5
9
9
9
9
10
10
10
12
14
16
17
17
21
23
24
24
24
27
29
34
35
35
38
40
42
45
47
48
51
54
59
Документ
Категория
Физико-математические науки
Просмотров
219
Размер файла
901 Кб
Теги
статистика, 1397, математические
1/--страниц
Пожаловаться на содержимое документа