close

Вход

Забыли?

вход по аккаунту

?

Ustimov

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
В. И. Устимов, В. Г. Фарафонов
ОСНОВЫ КОРРЕЛЯЦИОННОГО
И РЕГРЕССИОННОГО АНАЛИЗА
Учебное пособие
Санкт-Петербург
2015
УДК 519.2(075.8)
ББК 22.17я73
У80
Рецензенты:
кандидат физико-математических наук, доцент Ю. А. Гусман;
доктор физико-математических наук, профессор Ю. А. Пичугин
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Устимов, В. И.
У80Основы корреляционного и регрессионного анализа: учеб.
пособие / В. И. Устимов, В. Г. Фарафонов. – СПб.: ГУАП,
2015. – 34 с.
Учебное пособие составлено в соответствии с программой по высшей математике для студентов экономических специальностей. В пособии рассмотрены разделы курса теории вероятностей и математической статистики: основы корреляционного и регрессионного анализа.
Каждый раздел содержит теоретические сведения и формулы, проиллюстрированные подробно разобранными примерами. Завершают пособие 10 вариантов контрольных работ для заочников, каждый из которых содержит 4 задачи.
Настоящее пособие может быть рекомендовано как студентам бакалавриата, так и магистратуры, углубленно изучающим вопросы теории вероятностей и математической статистики.
УДК 519.2(075.8)
ББК 22.17я73
©
©
Устимов В. И., Фарафонов В. Г., 2015
Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2015
ВВЕДЕНИЕ
Математико-статистические исследования становятся необходимым инструментом для получения более глубоких и полноценных знаний о механизме случайных явлений и процессов.
Овладение приемами статистической обработки наблюдений, освоение методов составления уравнений, дающих адекватное описание изучаемого явления, – непременное условие получения корректных выводов.
В настоящем пособии на примере двух случайных величин рассматриваются корреляционный и регрессионный анализ, широко
применяемые при построении математических моделей. Данные
методы обработки и анализа статистических данных широко распространены в экономике и социальных науках (в частности в психологии и социологии), контроле качества промышленной продукции, металловедении, агрохимии, гидробиологии, биометрии и
т. п., что обусловлено простотой подсчета коэффициентов корреляции и регрессии и тем, что их применение не требует специальной
математической подготовки.
Пособие состоит из двух разделов. В первом разделе (гл. 1) рассматривается построение корреляционного поля, корреляционных
таблиц и вычисление выборочного корреляционного коэффициента. Там же достаточно подробно описана процедура построения доверительного интервала для коэффициента корреляции и определения значимости корреляционной связи. Во втором разделе (гл. 2)
обсуждается построение кривых регрессии, в том числе и построение линейной регрессии.
Авторы стремились изложить материал, с одной стороны, наиболее просто и понятно, с другой стороны – достаточно строго с математической точки зрения. Применяемый математический аппарат
основан на программе начального университетского курса высшей
математики, в частности теории вероятностей и математической
статистики.
3
В пособии приведены экономические примеры, которые позволяют наглядно продемонстрировать последовательность обработки
данных. При этом следует отметить, что примеры будут понятны не
только студентам экономических специальностей, но и студентам,
обучающимся по техническим направлениям и информатике.
Пособие завершается 10 вариантами контрольных работ, что
позволяет использовать его при заочной форме обучения. Каждая
контрольная содержит 4 задачи, связанных с обработкой данных
методами корреляционного и регрессионного анализа.
4
ГЛАВА 1. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА
Корреляция (от лат. correlatio – соотношение, взаимосвязь), корреляционная зависимость – статистическая взаимосвязь двух или нескольких случайных величин. При этом изменения значений одной или нескольких из этих величин приводят
к систематическому изменению значений другой или других величин.
Зависимость между тремя и бóльшим числом случайных величин изучается методами многофакторного корреляционного
анализа [5–6], которые сводятся к вычислению частных и множественных коэффициентов корреляции и корреляционных отношений.
В настоящем пособии мы ограничимся рассмотрением взаимосвязей двух случайных величин ξ и η, математической мерой корреляции которых является коэффициент корреляции rξη.
Корреляционный анализ – это совокупность основанных на теории математической статистики (теории корреляции) методов
обнаружения корреляционной зависимости между случайными
величинами.
Для двух случайных величин ξ и η корреляционный анализ состоит из следующих этапов:
– построение корреляционного поля и составление корреляционной таблицы;
– вычисление выборочного коэффициента корреляции;
– проверка статической гипотезы о значимости корреляционной связи.
Рассмотрим подробнее каждый из указанных этапов.
1.1. Корреляционное поле и корреляционная таблица
Корреляционное поле и корреляционная таблица являются исходными данными при корреляционном анализе. Пусть (xi, xj) –
значения, которые принимают соответственно случайные величины ξ и η в процессе парных измерений (i = 1, ..., n). Изображая полученные результаты в виде точек в декартовой системе координат,
получим корреляционное поле. По характеру расположения точек
поля можно составить предварительное представление о форме зависимости случайных величин, например, о том, что одна из них
в среднем возрастает (рис. 1, а) или убывает (рис. 1, б) с возрастанием другой.
5
yi
yi
xi
Рис. 1, а
xi
Рис. 1, б
Пример 1. По 30 фитнес-центрам были установлены затраты ξ на рекламу и количество реализованных годовых абонементов η. В табл. 1
фирмы ранжированы по величине затрат на рекламу.
Таблица 1
Статистические данные (выборка) для примера 1
6
№ п / п
Затраты на рекламу,
тыс. руб.
Количество реализован.
абонементов
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
160
170
170
175
180
180
180
185
190
190
195
200
205
210
210
215
220
220
220
800
730
800
850
800
880
950
820
900
1000
920
1060
950
900
1200
1150
1000
1200
1250
Окончание табл. 1
№ п / п
Затраты на рекламу,
тыс. руб.
Количество реализован.
абонементов
20
21
22
23
24
25
26
27
28
29
30
220
225
230
230
235
235
240
240
250
260
270
1300
1250
1300
1350
1400
1450
1500
1600
1550
1700
1700
Количество реализованных
абонементов
Корреляционное поле, построенное по статистическим данным,
приведено на рис. 2.
Анализ рис. 2 позволяет сделать вывод о наличии сильной линейной статистической связи между затратами фитнес-центров на
рекламу и количеством реализованных годовых абонементов. При
этом связь имеет положительную тенденцию, то есть с ростом переменной ξ наблюдается увеличение величины η.
В случае наличия большого числа различных значений результативного признака (в нашем случае величины η), соответствующих одному и тому же значению признака-фактора (величины ξ),
1800
1600
1400
1200
1000
800
600
400
200
0
0
50
100
150
200
250
300
Затраты на рекламу, тыс. руб.
Рис. 2. Корреляционное поле
7
целесообразнее воспользоваться для установления факта наличия
связи корреляционной таблицей.
Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. Для результативного
признака необходимо определить величину интервала группировки ∆.
Это можно сделать с помощью формулы Стержэсса, в которой n = 30:
∆=
ymax - ymin
1700 - 730
»
» 161.
1 + 3,322 lg n
6
(1.1)
Таблица 2
Корреляционная таблица (выборочный закон распределения)
для примера 1
[Ik, Ik + 1] [730;891] [892;1053] [1054;1215] [1216;1377] [1378;1539] [1540;1701]
xl \ yk
810,5
972,5
1134,5
1296,5
1458,5
1620,5
160
170
175
180
185
190
195
200
205
210
215
220
225
230
235
240
250
260
270
1
2
1
2
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
2
1
0
1
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
В корреляционной таблице факторный признак ξ, как правило, располагают в строках, а результативный признак η – в столбцах таблицы. Здесь yk = (Ik + Ik + 1 ) / 2, k = 1, ..., n(k) и l = 1, ..., n(l).
Числа nlk, расположенные на пересечении строк и столбцов табли8
цы, означают частоту повторения данного значения ξ и η. Для nlk
справедливо соотношение:
n(l)n(k)
å å nlk = n. l=1 k=1
(1.2)
Если в табл. 2 разделить частоты nlk на n, то мы получим выборочный закон распределения. Числа, расположенные на пересечении строк и столбцов таблицы, являются относительными
частотами, которые представляют собой выборочные вероятности
p*Ik = nlk / n (здесь и дальше * будет относиться к величинам, рассчитываемым по выборке).
Данная корреляционная таблица уже при общем знакомстве
дает возможность выдвинуть предположение о наличии или отсутствии корреляции, а также выяснить ее направление. Так как в нашем случае частоты расположены на диагонали из левого нижнего
угла в правый верхний угол (т. е. бóльшим значениям фактора соответствуют бóльшие значения функции), то можно предположить
наличие прямой корреляционной зависимости между признаками.
1.2. Выборочный коэффициент корреляции
Для начала вспомним, как определяется и какие свойства имеет
теоретико-вероятностный коэффициент корреляции.
Случайная величина в основном хорошо описывается двумя числовыми характеристиками: математическим ожиданием и дисперсией. Чтобы описать систему из двух случайных величин, кроме
«основных» характеристик, используют так же корреляционный
момент и коэффициент корреляции.
Корреляционным моментом (ковариацией) Kξη [1] называется
математическое ожидание произведения центрированных случайных величин ξ и η, которое характеризует степень линейной статистической зависимости величин ξ и η и рассеивание относительно
точки (mξ, mη).
или
Kξη = M éê(ξ - mξ )(η - mη )ùú , где mξ = M éëξùû и mη = M éëηùû
ë
û
Kξη = M êé(ξ - mξ )(η - mη )úù = M éêë ξη - ξmη - ηmξ + mξmη ùúû =
ë
û
é
ù
é
= M [ξη]- M ëê ξmη ûú - M ëê ηmξ ûùú + mξmη = M [ξη]- mymmξmη . (1.3)
(1.4)
9
Свойства корреляционного момента
1. – ∞ < Kξη < ∞.
2. Kξη = Kηξ. Свойство 2 следует из определения Kξη.
3. Корреляционный момент двух независимых случайных величин ξ и η равен 0.
Доказательство: Так как случайные величины ξ и η – независимы, то и их совместная плотность распределения представляется
произведением плотностей распределения отдельных случайных
величин ξ и η.
Тогда
M éëξηùû = M [ξ]M [η] и Kξη = M [ξη]- mξmη = mξmη - mξmη = 0.
4. Абсолютная величина корреляционного момента двух случайных величин не превышает среднего геометрического их дисперсий:
K
ξη
£ σξ ση или K
ξη
£ Dξ Dη . (1.5)
Доказательство: Введем в рассмотрение случайные величины
z1 = σηξ – σξη и z2 = σηξ + σξη. Вычислим их дисперсии D[z1] и D[z2].
Из того, что D[z1] ≥ 0, получим:
2ù
2
é
2
D[z1 ] = M éê z12 ùú - M [z1 ] = M ê(σηξ - σξ η) ú - (ση M [ξ]- σξ M [η]) =
ë û
êë
úû
2
2
= σ2η M éê ξ2 ùú + σ2ξ M éêη2 ùú - 2σξ ση M [ξη]- σ2η M [ξ ] - σ2ξ M [η] +
ë û
ë û
+2σξ ση M [ξ]M [η] = 2σ2ησ2ξ - 2σξ ση Kξη ³ 0.
В результате: Kξη ≤ σξση.
Аналогично, из неравенства D[z2] ≥ 0 нетрудно показать, что –
σξση ≤ Kξη.
Отсюда – σξση ≤ Kξη ≤ σξση и |Kξη| ≤ σξση.
Если Kξη ≠ 0, случайные величины ξ и η называются коррелированными (зависимыми в определенном смысле). Если же Kξη = 0,
то необязательно, что ξ и η независимы. В этом случае они называются некоррелированными. Итак, из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не
вытекает их коррелированность.
Из независимости двух случайных величин следует их некоррелированность, но из некоррелированности еще нельзя заключить о
независимости этих величин.
10
Величина ковариации (корреляционного момента) дает нам
лишь качественную характеристику корреляции. Корреляционный момент зависит от единиц измерения случайных величин,
входящих в систему, и от того, насколько каждая из случайных
величин отклоняется от своего математического ожидания. Для
количественной оценки связи между ξ и η удобно рассматривать
безразмерную характеристику корреляции, которая называется коэффициентом корреляции rξη:
rξη =
Kξη
.
(1.6)
Свойства коэффициента корреляции
1. Величина коэффициента корреляции двух случайных величин не превышает единицы: |Kξη | ≤ 1. Это утверждение прямо следует из доказанного выше неравенства |Kξη| ≤ σξση (1.5) и определения
коэффициента корреляции (1.6).
2. |rξη| = 1, если η = a + bξ.
Доказательство: Используя свойства математического ожидания, получим:
σξ ση
Kξη = M [ξη]- M [ξ] M [η] = M [ξ(a + bξ) ]- M [ξ] M [a + bξ] =
(
)
= aM [ξ] + bM êé ξ2 úù - aM [ξ]- bM2 [ξ] = b M êé ξ2 úù - M2 [ξ] = bσ2ξ = bDξ .
ë û
ë û
Найдем дисперсию η:
D[η] = M éê η2 ùú - M2 [η] = M éê(a + bξ)2 ùú - M [a + bξ ]M [a + bξ ] =
ë û
ë
û
2
2
2ù
2
é
= a + b M ê ξ ú + 2abM [ξ ]- a - b2 M2 [ξ]- 2abM [ξ] =
ë û
= b2 M éê ξ2 ùú - M2 [ξ] = b2 σ2ξ = b2 Dξ .
ë û
(
)
Подставим выражения для Kξη и Dη в (1.6):
rξη =
Kξη
Dξ Dη
=
bDξ
2
b Dξ Dξ
=
b
2
b
=
b
.
b
Таким образом, rξη = 1, если b > 0 и rξη = –1, если b < 0.
Коэффициент корреляции служит для оценки тесноты линейной связи между ξ и η: чем ближе абсолютная величина коэффициента корреляции к 1, тем связь сильнее, чем ближе к 0, тем слабее.
11
3. Если величины ξ и η независимы, то rξη = 0.
4. На рис. 3, а, 3, б схематично показано, как меняется коэффициент корреляции от +1 до –1 в зависимости от вида корреляционного поля.
Как мы уже отмечали, для независимых случайных величин коэффициент корреляции равен нулю, обратное неверно и требуются
дополнительные исследования.
На рис. 3, в, 3, г представлены примеры, когда несмотря на то,
что rξη = 0, на корреляционном поле можно увидеть зависимость
между случайными величинами.
a)
1,0
0,4
0,8
0,0
б)
–0,4
–0,8
–1,0
в)
0,0
0,0
0,0
0,0
0,0
г)
0,0
Рис. 3
12
0,0
Выборочный коэффициент корреляции
Выборочный коэффициент корреляции находится по статистическим данным (выборке) или корреляционной таблице, используя формулы (1.7)–(1.10) (здесь используются обозначения как
в табл. 1 и табл. 2):
*
rξη
= *
=
Kξη
Dξ* Dη*
,
(1.7)
1 n n
1 n n
å å (xi - x)(yj - y ) = å å xi yj - xy =
n i=1j=1
n i=1j=1
1 n(l)n(k)
å å xl yknlk - xy,
n l=1 k=1
(1.8)
Dξ* =
1 n
1 n 2
1 n(l) 2
2
2
2
å (xi - x ) = å xi - x = å xl nl - x ,
n i=1
n i=1
n l=1
(1.9)
Dη* =
2
1 n
1 n 2
1 n(k) 2
2
2
å (yj - y ) = å yj - y = å yk nk - y ,
n j=1
n j=1
n k=1
(1.10)
=
*
Kξη
где x и y – выборочные средние:
x=
1 n
1 n(k)
1 n
1 n(l)
å xi = å xknk , y = å yj = å ylnl
n i=1
n k=1
n j=1
n l=1
и
n(l)
n(k)
l=1
k=1
nk = å nlk , nl = å nlk .
Выборочный коэффициент корреляции r*ξη = 0 обладает всеми
свойствами, которыми обладает теоретико-вероятностный коэффициент корреляции rξη. В частности, для любой выборки |r*ξη| ≤ 1.
При этом, чем ближе r*ξη к 1 (или к –1), тем сильнее выражена линейная зависимость между ξ и η.
Найдем выборочные средние, дисперсии и корреляционный коэффициент для примера 1, рассмотренного выше.
Расчеты будем проводить двумя способами. В первом случае мы
воспользуемся статистическими данными (выборкой), приведенными в табл. 1. Второй вариант расчета будет основан на корреля13
ционной таблице (табл. 2), которую для удобства представим в более удобном для вычисления виде, соответствующем выборочному
закону распределения (табл. 3). Результаты вычислений приведены в табл. 4.
Таблица 3
Выборочный закон распределения для примера 1
xi \ yk
810,5
972,5
1134,5
1296,5
1458,5
1620,5
nl
160
1
0
0
0
0
0
1
170
2
0
0
0
0
0
2
175
1
0
0
0
0
0
1
180
2
1
0
0
0
0
3
185
1
0
0
0
0
0
1
190
0
2
0
0
0
0
2
195
0
1
0
0
0
0
1
200
0
0
1
0
0
0
1
205
0
1
0
0
0
0
1
210
0
1
1
0
0
0
2
215
0
0
1
0
0
0
1
220
0
1
1
2
0
0
4
225
0
0
0
1
0
0
1
230
0
0
0
2
0
0
2
235
0
0
0
0
2
0
2
240
0
0
0
0
1
1
2
250
0
0
0
0
0
1
1
260
0
0
0
0
0
1
1
270
0
0
0
0
0
1
1
nk
7
7
4
5
3
4
30
Таблица 4
Выборочные средние, дисперсии и корреляционный коэффициент
Варианты
расчетов
x
1
2
14
y
D*ξ
D*η
210,3
1142,0
786,6
82576
0,9485
210,3
1145,3
786,6
76866
0,9406
r*ξη
Более точным следует признать первый вариант расчета. Второй
вариант вычислений связан с предварительной группировкой статистических данных. Результаты расчетов естественно зависят от
выбранного способа группировки. Это объясняет некоторые отличия выборочных моментов, полученных по второму варианту расчета, от их точных значений для данной выборки.
Однако следует отметить, что в рассмотренном примере отличия
оказываются незначительными. Так, корреляционный коэффициент, вычисленный по второму варианту расчета (0,9406), меньше
точного значения (0,9485) всего на 0,8%.
1.3. Проверка статистической гипотезы
о значимости корреляционной связи
Мало найти коэффициент корреляции, необходимо подкрепить
значимость соответствующей зависимости путем проверки статистической гипотезы.
Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза – отсутствие линейной статистической связи H0: rξη = 0, альтернативной гипотезой может выступать любая из трех возможных:
ìï rξη < 0
ïï
H1 : ïí rξη ¹ 0.
ïï
ïïî rξη > 0
В тех случаях, когда справедливо предположение о нормальном
распределении выборки, в качестве статистического критерия выберем случайную величину
Z=
*
rξη
n -2
*2
1 - rξη
,
(1.11)
где rξ*η – выборочный коэффициент корреляции; n – объем выборки.
Случайная величина Z имеет распределение Стьюдента [2] c n–2
степенями свободы St(n–2).
Пусть α – уровень значимости, который равен вероятности ошибочного отклонения (отвержения) гипотезы H0: rξη = 0, в то время
как она на самом деле верна.
Рассмотрим в качестве примера альтернативную гипотезу
H1: rξη ≠ 0. В этом случае критическая область, удовлетворяющая
15
6
fSt
5
4
3
S=1–α
2
Критическая область
S=α/2
–25
–20
–15
Критическая область
S=α/2
1
Zα
–5
0
0
5
Zα
15
20
25
Рис. 4
условию p(|Z| > Zα) = α, является двусторонней, поскольку состоит
из двух частей Z < –Zα и Z > + Zα (рис. 4).
Вероятность попадания критерия Z в каждую из половин критической области равна α / 2. Поэтому Zα определяется из соотношения
p(Z > Zα) = α / 2. Вычислим Z*, подставив в формулу (1.11) найденное
для исследуемой выборки значение выборочного коэффициента корреляции rξ*η. Нулевую гипотезу H0 можно принять, если |Z*| < Zα, и
следует отвергнуть в случае |Z*| > Zα.
Если альтернативная гипотеза H1: rξη > 0, то критическая область удовлетворяет условию p(Z > Zα) = α и является правосторонней Z > + Zα (рис. 5).
Величина Zα определяется из соотношения p(Z > Zα) = α. Нулевую
гипотезу H0 принимают, если Z* < Zα, и отвергают в противоположном случае Z* > Zα [2].
6
fSt
5
4
3
S=1–α
2
Критическая область
S=α
1
–25
–20
–15
–10
–5
0
0
Рис. 5
16
5
Zα
15
20
25
Проиллюстрируем вышесказанное на нашем примере 1. Выберем
уровень значимости α = 0,01. Сначала рассмотрим двустороннюю
критическую область. Значение Zα можно найти либо из таблицы
критических точек для распределения Стьюдента с 28 степенями
свободы (p(Z > Zα) = 0,005), либо из таблицы квантилей распределения Стьюдента (p(Z < Zα) = 0,995). В результате получим (см., например, табл. 2 из Приложения):
Zα = tγ,n = t1-α/2,28 = t0,995,28 = 2,7633.
Для правосторонней критической области величина Zα находится из условия p(Z > Zα) = 0,01 (по таблице критических точек) или
из соотношения p(Z < Zα) = 0,99 (по таблице квантилей).
В результате для правосторонней критической области
Zα = t0,99,28 = 2,4671.
В примере 1 выборочный корреляционный коэффициент, вычисленный первым ( более точным) способом, равен 0,9485, тогда
Z* »
0,9485 28 - 2
2
1 - 0,9485
=
4,8364
= 15,27.
0,3168
В результате, т. к. Z* >> Zα (15,27 >> 2,7633 в случае двусторонней критической области и 15,27 >> 2,4671 для односторонней
критической обрасти) можно сделать вывод, что в нашем случае гипотезу об отсутствии линейной зависимости между случайными
величинами ξ и η следует отбросить и корреляционная связь является значимой.
Отметим, что при объемах выборки n > 30 квантили распределения Стьюдента tg,n (тут p(t < tg,n) = g, где n – число степеней свободы)
можно находить по приближенной формуле, используя квантили
нормального распределения Ug:
tγ,n =
Uγ
.
1 - (1 / 4n))2 - (Uγ )2 / (2n) (1.12)
Преобразование Фишера
Статистика Стьюдента не позволяет получить надежных выводов о значимости корреляционных зависимостей в случае
малых значений выборочного корреляционного коэффициента и относительно небольших выборках. Менее чувствительной
17
к объему выборки является статистика, основанная на преобразовании Фишера:
*
1 1 + rξη
V = ln
.
(1.13)
*
2 1 - rξη
Фишером было показано, что при n ≥ 30 случайная величина V имеет приближенно нормальное распределение с независящей
от rξ*η дисперсией
σ2V =
1
n -3
и математическим ожиданием
ρ
1 1+ ρ
+
mV = ln
,
2 1 - ρ 2n - 2
1 1+ ρ
lim mV = ln
,
2 1- ρ
n®¥
(1.14)
где ρ – истинное (но неизвестное) значение коэффициента корреляции rξη.
Величина
U=
V - mV » N (0,1),
σV
(1.15)
где N(0,1) – нормальное распределение с нулевым математическим
ожиданием и единичной дисперсией.
Заметим, что с помощью указанной статистики можно проверять более общую гипотезу о сравнении с эталоном H0: ρ = ρ0 при
любой из трех альтернативных гипотез
ìïρ < ρ0
ïï
H1 : ïíρ ¹ ρ0 .
ïï
ïïîρ > ρ0
В этом случае mV заменяется на условное математическое ожидание
1 1 + ρ0
M éë V | H0 ùû = ln
2 1 - ρ0
18
и центрирование статистики V в формуле (1.15) осуществляется на
эту величину.
Возвращаясь к нашему примеру 1, проверим значимость найденного выборочного коэффициента корреляции. Тогда основная
гипотеза H0:ρ = 0 – отсутствие линейной статистической связи, условное математическое ожидание M[V|H0] = 0 и
U=
*
n - 3 1 + rξη
ln
~ N (0,1).
*
2
1 - rξη
Вычислим U*, полагая r*ξη = 0,9485 и n = 30,
U* =
30 - 3 1 + 0,9485
ln
= 2,5981ln(37,8350) = 9,4395.
2
1 - 0,9485
Критические точки Uα находим для уровня значимости α = 0,01
из таблицы квантилей нормального распределения (например, используя функции Лапласа Φ0(x) из табл. 1 Приложения:
Φ0(Uα) = 0,5 – α – для односторонней области и Φ0(Uα) = 0,5 –α / 2 –
для двусторонней. В первом случае Uα = 2,32, во втором – Uα = 2,58.
В обоих случаях U* попадает в критическую область (U* > Uα), гипотезу об отсутствии линейной статистической связи следует отбросить. Вероятность ошибки при этом равна α = 0,01.
1.4. Доверительный интервал
для корреляционного коэффициента
Воспользовавшись преобразованием Фишера (1.13) и соотношением (1.15), можно построить доверительный интервал для выборочного коэффициента корреляции.
Действительно,
*
1 1 + rξη
V = ln
,
*
2 1 - rξη
где V = arcth(rξ*η) – гиперболический арктангенс, возрастающая нечетная функция: V(–r*ξη) = –V(r*ξη).
Распределение вероятностей значений V приближается (тем более точно, чем больше объем выборки n) к нормальному распределению N(mV,σV) с параметрами
19
ρ
1 1+ ρ
+
mV = ln
2 1 - ρ 2n - 2 и
σ2V =
1
.
n -3 (1.16)
Статистика случайной величины U = (V – mV) / σV имеет асимптотическое стандартное нормальное распределение N(0,1).
Доверительный интервал для нормального отклонения с надежностью (доверительной вероятностью) g определяется неравенством:
V - mV
< Uγ ,
σV
где Ug – квантиль уровня (1 + g) / 2 распределения N(0,1), т. е. Ug –
корень уравнения Φ0(Ug) = g / 2 (Φ0(x) – функция Лапласа).
Доверительный интервал для математического ожидания mV :
V
Uγ
n -3
< mV < V +
Uγ
.
n -3 (1.17)
Подставляя в (1.17) выражение для mV (1.16), получим:
V
Uγ
Uγ
1 1+ ρ
ρ
< ln
+
<V +
.
n - 3 2 1 - ρ 2n - 2
n -3 (1.18)
Величиной ρ / (2n – 2) в выражении для mV (1.16) можно пренебречь, принимая во внимание, что при n → ∞ она есть бесконечно
малая более высокого порядка в сравнении с V-
Uγ
Uγ
n -3
Uγ
1 1+ ρ
< ln
<V +
.
n - 3 2 1- ρ
n -3 :
(1.19)
Решение относительно ρ данного двойного неравенства (1.19)
приводит к искомому доверительному интервалу для коэффициента корреляции (th(x)) – гиперболический тангенс):
20
æ
æ
Uγ ö÷
Uγ ö÷
÷÷ < ρ < th ççV +
÷÷.
th çççV çè
ççè
n - 3 ÷ø
n - 3 ø÷
(1.20)
Этапы определения доверительного интервала для коэффициента корреляции рассмотрим на примере 1.
Выберем доверительную вероятность (надежность) g = 0,90,
тогда Φ0(U0,90) = 0,45 и U0,90 = 1,65 (см. табл. 1 Приложения). Объем
выборки n = 30, вычисленный по выборке корреляционный коэффициент rξ*η = 0,9485. Тогда
*
1 1 + rξη 1 1 + 0,9485 1
V = ln
= ln
= ln(37,8350) = 1,8166
*
2 1 - rξη
2 1 - 0,9485 2
и
th (1,499)<ρ < th (2,134).
Вычислив гиперболические тангенсы, получим искомый доверительный интервал:
0,905 < ρ < 0,972.
21
ГЛАВА 2. РЕГРЕССИОННЫЙ АНАЛИЗ
Регрессия (лат. regressio – обратное движение, отход) в теории
вероятностей и математической статистике зависимость математического ожидания (например, среднего значения) какой-либо
случайной величины η от одной ξ или нескольких других случайных величин (независимых переменных). Такая зависимость между случайными величинами называется стохастической и описывается условным математическим ожиданием:
y(x) = M éë η | ξ = xùû = f (x),
(2.1)
которое, как видно из записи, является функцией от независимой
переменной x, имеющей смысл возможного значения случайной
величины ξ. Соответственно y – возможные значения случайной
величины η.
Уравнение y = y(x) = f(x) называется уравнением регрессии η
на ξ. Переменная x называется регрессионной переменной или регрессором. График функции y = f(x) называется линией или кривой регрессии. Корреляционный анализ – поиск функции f(x).
Кривые регрессии η на x дают наилучшее в среднеквадратическом
смысле предсказание значения величины η по заданному значению
ξ = x. Иными словами, среди всех действительных функций φ(x) минимум M[(η – φ(x))2] достигается для функции φ(x) = M[η|ξ = x]. На
практике это свойство используется для прогноза η по известному ξ.
Если модуль коэффициента корреляции близок к 1, то, как мы
писали выше, зависимость η от ξ стремится к линейной. Линейная
регрессия:
y = A + Bx
(2.2)
наиболее простой, но важный случай.
Коэффициенты A и B можно найти из условия минимума
F(A,B) = M[(η – A – Bξ)2].
Приравнивая к нулю частные производные
¶F ( A, B)
¶A
¶F ( A, B)
¶B
22
= -2M éë(η - A - Bξ)ùû = -2( M [η]- A - BM [ξ]) = 0,
(
)
= -2M ëé ξ (η - A - Bξ)ûù = -2 M [ξη]- AM [ξ]- BM êé ξ2 úù = 0,
ë û
и решая систему двух линейных алгебраических уравнений относительно A и B, нетрудно получить:
B=
Kξη
Dξ
Dη
= rξη
Dξ
= rξη
ση
σξ
и A = M [η] - BM [ξ] = mη - rξη
ση
σξ
mξ ,
где mξ, mη – математические ожидания случайных величин ξ и η.
Dξ, Dη и σξ, ση – соответственно их дисперсии и среднеквадратические отклонения; rξη – коэффициент корреляции величин ξ и η.
Уравнением регрессии является прямая линия
y(x) = mη - rξη
ση
σξ
(x - mξ ),
(2.3)
проходящая через точку (mξ, mη) с угловым коэффициентом
k = rξη
ση
σξ
,
называемым коэффициентом регрессии η на x.
Заметим, что целью построения линейной регрессии является
подгонка прямой линии по точкам так, чтобы минимизировать
квадраты отклонений этой линии от наблюдаемых точек. Поэтому
эту общую процедуру иногда называют оценкой по методу наименьших квадратов.
Пример 2. Воспользовавшись данными из табл. 5, найти кривую
регрессии, в том числе и уравнение прямой линейной регрессии.
Таблица 5
Результаты измерений роста ξ (см) и веса η (кг)
50 мужчин – слушателей академии МЧС
η
[55,65)
Y1 = 60,0
[65,75)
Y2 = 70,0
[75,85)
Y3 = 80,0
[85,95)
Y4 = 90,0
[95,105]
Y5 = 100,0
nl
[155,160)
X1 =157,5
4
2
0
0
0
6
[160,165)
X2 =162,5
3
3
1
0
0
7
[165,170)
X3 =167,5
1
3
2
0
0
6
ξ
23
Окончание табл. 5
[170,175)
X4 =172,5
[175,180)
X5 =177,5
[180,185)
X6 =182,5
[185,190)
X7 =187,5
[190,195)
X8 =192,5
nk
0
4
3
1
0
8
0
0
2
4
0
6
0
0
1
4
1
6
0
0
1
2
1
4
0
0
1
3
3
7
8
12
11
14
5
50
Решение: x =
Dξ* =
1 8
å xlnl = 174,50,
70 l=1
y=
1 8 2
2
å xl nl - x = 129,00, 70 l=1
Dη* = Dη* =
*
=
Kξη
1 5
å ykn = 79,20,
70 k=1 k σ*ξ = 11,36,
1 5 2
2
å yk nk - y = 155,36,
70 k=1
σ*η = 12,46,
*
Kξη
*
rξη
= * * = 0,8378.
σξ ση
1 8 5
å å xl yknlk - xy = 118,6, 70 l=1k=1
Тогда уравнение линейной регрессии
*
* ση
y(x) = y + rξη
(x - x)
σ*ξ
после подстановки входящих в него величин примет вид:
y(x) = 79,20 + 0,9194(x - x) = 0,9194x + 79,20 - 0,9194 * 174,50,
(2.4)
y(x) = 0,9194x - 81,235.
Для того чтобы найти кривую регрессии согласно формуле
y(x) = M[η|ξ=x] = f(x), надо вычислить условное математическое
ожидание y(xῖ) [1]:
5
y(xl ) = M éëê η | ξ = xl ùûú = å yknk|l=l ,
k=1
24
где nk|l=l =
nkl
nl=l
– условное распределение случайной величины η
при ξ = xῖ.
Таблица 6
Условные распределения nkl=ῖ и условное математическое ожидание y(xῖ)
случайной величины η
η
ξ
X1 =157,5
X2 =162,5
X3 =167,5
X4 =172,5
X5 =177,5
X6 =182,5
X7 =187,5
X8 =192,5
Y1 = 60,0
Y2 = 70,0
0,66666667 0,33333333
0,42857143 0,42857143
0,16666667
0,5
0
0,5
0
0
0
0
0
0
0
0
Y3 = 80,0
Y4 = 90,0 Y5 = 100,0
0
0,14285714
0,33333333
0,375
0,33333333
0,16666667
0,25
0,14285714
0
0
0
0,125
0,6667
0,6667
0,5
0,4286
0
0
0
0
0
0,166667
0,25
0,428571
Y(Xi)
63,33
67,14
71,67
76,25
86,67
90,00
90,00
92,86
Числа nkl=ῖ расположены на пересечении строк и столбцов таблицы, столбец Y(Xi) = f(xi) позволяет по точкам построить кривую
регрессии.
Найденные кривые регрессии на рис. 6 представлены на фоне
корреляционного поля.
95
90
Вес (кг)
85
Отклонение линии регрессии
от наблюдаемой точки А
80
A
75
70
65
60
155
160
165
170
175
180
185
190
195
Рост (см)
Рис. 6
25
Построенная нами кривая регрессии φ(x) – это функция, которая
среди всех действительных функций наилучшим образом описывает наблюдаемые точки в среднеквадратическом, то есть именно
для этой функции достигается минимум M[(η – φ(x))2].
Найденная прямая y(x)=0,9194x – 81,235 (линейная регрессия)
дает наилучшее описание в смысле минимума суммы квадратов
отклонений прямой от наблюдаемых точек среди всех линейных
функций. Для примера, на рис. 6 показано отклонение прямой
y(x)=0,9194x – 81,235 от некоторой точки A.
Линии регрессии (φ(x) и y(x)=0,9194x – 81,235) позволяют смоделировать поведение случайной величины η в зависимости от величины ξ, сделать необходимый прогноз.
26
ПРИЛОЖЕНИЯ
Таблица 1
Значения функции Лапласа Φ0 (x) =
1
x
2ö
æ
ç x ÷
ò expçççè- 2 ÷÷÷÷ødx
2π
0
x
0,00
0,02
0,04
0,06
0,08
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
x
Φ0(x)
x
Φ0(x)
0,00000
0,03983
0,07926
0,11791
0,15542
0,19146
0,22575
0,25804
0,28814
0,31594
0,34134
0,36433
0,38493
0,40320
0,41924
0,43319
0,44520
0,45543
0,46407
0,47128
0,47725
0,48214
0,48610
0,48928
0,49180
0,49379
0,49534
0,49653
0,49744
0,49813
3,0
0,49865
4,0
0,49997
0,00798
0,04776
0,08706
0,12552
0,16276
0,19847
0,23237
0,26424
0,29389
0,32121
0,34614
0,36864
0,38877
0,40658
0,42220
0,43574
0,44738
0,45728
0,46562
0,47257
0,47831
0,48300
0,48679
0,48983
0,49224
0,49413
0,49560
0,49674
0,49760
0,49825
3,2
0,49931
4,2
0,49999
0,01595
0,05567
0,09483
0,13307
0,17003
0,20540
0,23891
0,27035
0,29955
0,32639
0,35083
0,37286
0,39251
0,40988
0,42507
0,43822
0,44950
0,45907
0,46712
0,47381
0,47932
0,48382
0,48745
0,49036
0,49266
0,49446
0,49585
0,49693
0,49774
0,49836
3,4
0,49966
0,02392
0,06356
0,10257
0,14058
0,17724
0,21226
0,24537
0,27637
0,30511
0,33147
0,35543
0,37698
0,39617
0,41308
0,42786
0,44062
0,45154
0,46080
0,46856
0,47500
0,48030
0,48461
0,48809
0,49086
0,49305
0,49477
0,49609
0,49711
0,49788
0,49846
3,6
0,49984
0,03188
0,07142
0,11026
0,14803
0,18439
0,21904
0,25175
0,28230
0,31057
0,33646
0,35993
0,38100
0,39973
0,41621
0,43056
0,44295
0,45352
0,46246
0,46995
0,47615
0,48124
0,48537
0,48870
0,49134
0,49343
0,49506
0,49632
0,49728
0,49801
0,49856
3,8
0,49993
27
Таблица 2
Квантили распределения Стьюдента tg,η
n\g
0,7500
0,9000
0,9500
0,9750
0,9900
0,9950
0,9995
1
1,0000
3,0777
6,3138
12,706
31,821
63,657
636,62
2
0,8165
1,8856
2,9110
4,3027
6,9646
9,9248
31,599
3
0,7649
1,6377
2,3534
3,1825
4,5407
5,8409
12,924
4
0,7407
1,5332
2,1319
2,7765
3,7470
4,6041
8,6103
5
0,7267
1,4759
2,0150
2,5706
3,3649
4,0321
6,8688
6
0,7176
1,4398
1,9432
2,4469
3,1427
3,7074
5,9588
7
0,7111
1,4149
1,8946
2,3646
2,9980
3,4995
5,4079
8
0,7064
1,3968
1,8595
2,3060
2,8965
3,3554
5,0413
9
0,7027
1,3830
1,8331
2,2622
2,8214
3,2498
4,7809
10
0,6998
1,3722
1,8125
2,2281
2,7638
3,1693
4,5869
11
0,6974
1,3634
1,7959
2,2010
2,7181
3,1058
4,4370
12
0,6955
1,3562
1,7823
2,1788
2,6810
3,0545
4,3178
13
0,6938
1,3502
1,7709
2,1604
2,6503
3,0123
4,2208
14
0,6924
1,3450
1,7613
2,1448
2,6245
2,9768
4,1405
15
0,6912
1,3406
1,7531
2,1315
2,6025
2,9467
4,0728
16
0,6901
1,3368
1,7459
2,1199
2,5835
2,9208
4,0150
17
0,6892
1,3334
1,7396
2,1098
2,5669
2,8982
3,9651
18
0,6884
1,3304
1,7341
2,1009
2,5524
2,8784
3,9216
19
0,6876
1,3277
1,7291
2,0930
2,5395
2,8609
3,8834
20
0,6870
1,3253
1,7247
2,0860
2,5280
2,8453
3,8495
21
0,6864
1,3232
1,7207
2,0796
2,5177
2,8414
3,8193
22
0,6858
1,3212
1,7171
2,0739
2,5083
2,8188
3,7921
23
0,6853
1,3195
1,7139
2,0687
2,4999
2,8073
3,7676
24
0,6849
1,3179
1,7109
2,0639
2,4922
2,7969
3,7454
25
0,6844
1,3163
1,7081
2,0595
2,4851
2,7874
3,7251
26
0,6840
1,3150
1,7056
2,0555
2,4786
2,7787
3,7066
27
0,6837
1,3137
1,7033
2,0518
2,4727
2,7707
3,6896
28
0,6834
1,3125
1,7011
2,0484
2,4671
2,7633
3,6739
29
0,6830
1,3114
1,6991
2,0452
2,4620
2,7564
3,6594
30
0,6828
1,3104
1,6973
2,0423
2,4573
2,7500
3,6460
∞
0,6745
1,2816
1,6449
1,9600
2,3264
2,5758
3,2905
28
ВАРИАНТЫ КОНТРОЛЬНЫХ РАБОТ ДЛЯ ЗАОЧНИКОВ
Для приводимых ниже вариантов выборок случайных величин ξ
и η решить следующие задачи:
Задача 1. Построить корреляционную таблицу и найти:
– выборочные средние x и y ;
– выборочные дисперсии Dξ* и Dη*;
– выборочные среднеквадратичные отклонения σξ* и ση*;
– выборочный корреляционный момент r*ξη.
Задача 2. Проверить значимость корреляционной связи случайных величин ξ и η. Уровень значимости взять α = 0,01. В ходе проверки основной гипотезы rξ*η = 0 в качестве альтернативных гипотез
рассматривать rξ*η ≠ 0 и rξ*η > 0.
Задача 3. Построить с надежностью g = 0,90 доверительный интервал для корреляционного коэффициента ρ = rξη.
Задача 4. Исследовать корреляционную зависимость случайной
величины η от ξ, найти:
– кривую регрессии φ(x);
– построить прямую линию линейной регрессии.
Вариант 1
Считать уровень механизации труда (%) и производительность труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ
(x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях
деревообрабатывающей промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
15
35,52
8
50
98,15
20
39,96
9
55
102,61
25
48,56
10
60
108,08
30
58,22
11
65
131,21
35
67,75
12
70
123,72
40
73,73
13
75
140,89
45
86,90
14
80
155,43
Вариант 2
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях горнодобывающей промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
19
109,81
8
33
186,57
21
116,53
9
35
176,96
23
115,96
10
37
206,54
25
141,75
11
39
213,42
27
140,08
12
41
214,19
29
158,36
13
43
231,72
31
158,99
14
45
244,62
29
Вариант 3
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14
предприятиях черной металлургии, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
17
120,26
8
31
213,90
19
129,35
9
33
227,87
21
150,57
10
35
247,90
23
172,22
11
37
257,42
25
171,95
12
39
275,13
27
201,37
13
41
302,94
29
202,93
14
43
294,57
Вариант 4
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14
предприятиях цветной металлургии, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
17
19
21
23
25
27
29
y(i)
101,16
118,89
134,83
142,09
153,52
190,95
200,99
i
8
9
10
11
12
13
14
x(i)
31
33
35
37
39
41
43
y(i)
190,95
200,99
207,52
217,75
243,83
249,04
254,54
Вариант 5
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14
нефте- и газодобывающих предприятиях, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
10
12
14
16
18
20
22
y(i)
21,19
18,35
26,75
19,81
31,11
33,38
28,89
i
8
9
10
11
12
13
14
x(i)
24
26
28
30
32
34
36
y(i)
32,01
36,50
40,85
36,18
45,76
48,36
46,92
Вариант 6
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения вели30
чин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях пищевой промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
17
53,08
8
31
88,69
19
56,97
9
33
94,16
21
63,79
10
35
100,26
23
62,00
11
37
104,63
25
77,62
12
39
115,69
27
75,35
13
41
120,44
29
90,05
14
43
127,14
Вариант 7
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях мукомольно-крупяной и комбикормовой промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
7,5
9
10,5
12
13,5
15
16,5
y(i)
34,16
43,62
52,41
63,16
59,81
67,06
75,91
i
8
9
10
11
12
13
14
x(i)
18
19,5
21
22,5
24
25,5
27
y(i)
84,43
91,80
93,43
108,82
102,80
115,42
120,12
Вариант 8
Считать уровень механизации труда (%) и производительность труда (усл.ед. / чел.) случайными величинами ξ и η.
Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях фарфоро-фаянсовой промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
7,5
9
10,5
12
13,5
15
16,5
y(i)
34,16
43,62
52,41
63,16
59,81
67,06
75,91
i
8
9
10
11
12
13
14
x(i)
18
19,5
21
22,5
24
25,5
27
y(i)
84,43
91,80
93,43
108,82
102,80
115,42
120,12
Вариант 9
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения
величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на
31
14 предприятиях микробиологической промышленности, приведены в таблице:
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
7,5
48,83
8
18
100,72
9
44,86
9
19,5
97,94
10,5
60,24
10
21
115,28
12
62,73
11
22,5
115,03
13,5
80,04
12
24
124,96
15
77,40
13
25,5
130,70
16,5
84,28
14
27
145,96
Вариант 10
Считать уровень механизации труда (%) и производительность
труда (усл.ед. / чел.) случайными величинами ξ и η. Значения величин ξ (x(i), i = 1, ...,14) и η (y(i), i = 1, ...,14), измеренные на 14 предприятиях электротехнической промышленности, приведены в таблице:
32
i
1
2
3
4
5
6
7
x(i)
y(i)
i
x(i)
y(i)
17
98,52
8
31
192,04
19
126,03
9
33
202,44
21
120,97
10
35
195,74
23
139,59
11
37
230,18
25
148,72
12
39
237,24
27
169,57
13
41
233,68
29
173,54
14
43
246,48
ЛИТЕРАТУРА
1. Фарафонов, В. Г. Основы теории вероятностей и математическая статистика / В. Г. Фарафонов, В. Б. Ильин. – СПб.: ГУАП, 2012.
Ч. 1. – 112 с.
2. Фарафонов, В. Г. Теория вероятностей и математическая статистика / В. Г. Фарафонов, В. И. Устимов, В. Б. Ильин. – СПб.: ГУАП,
2013. Ч. 2. – 80 с.
3. Гмурман, В. Е. Теория вероятностей и математическая статистика / В. Е. Гмурман. – М.: Высшее образование, 2008. – 480 с.
4. Гмурман, В. Е. Руководство к решению задач о теории вероятностей и математической статистике / В. Е. Гмурман. – М.: Высшее
образование, 2008. – 404 с.
5. Ферстер, Э. Методы корреляционного и регрессионного анализа: Руководство для экономистов / Э. Ферстер, Б. Ренц. – М.:
Финансы и статистика, 1983. – 304 с.
6. Корреляционный и регрессионный анализ: метод. указания к выполнению лабораторных работ № 1–3 / СПб.: ГУАП;
сост.: В. А. Каргин, М. В. Соколовская. – СПб.: Изд-во ГУАП,
2008. – 55 с.
33
СОДЕРЖАНИЕ
ВВЕДЕНИЕ...............................................................................
3
ГЛАВА 1. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА...................
1.1. Корреляционное поле и корреляционная таблица................
1.2. Выборочный коэффициент корреляции..............................
1.3. Проверка статистической гипотезы
о значимости корреляционной связи.................................
1.4. Доверительный интервал
для корреляционного коэффициента.................................
5
5
9
19
ГЛАВА 2. РЕГРЕССИОННЫЙ АНАЛИЗ.......................................
ПРИЛОЖЕНИЯ........................................................................
22
27
ВАРИАНТЫ КОНТРОЛЬНЫХ РАБОТ ДЛЯ ЗАОЧНИКОВ..............
29
ЛИТЕРАТУРА..........................................................................
33
34
15
Учебное издание
Устимов Владимир Иванович,
Фарафонов Виктор Георгиевич
ОСНОВЫ КОРРЕЛЯЦИОННОГО
И РЕГРЕССИОННОГО АНАЛИЗА
Учебное пособие
Корректор Т. В. Звертановская
Компьютерная верстка В. Н. Костиной
Сдано в набор 14.04.15. Подписано к печати 01.07.15. Формат 60 × 84 1/16.
Бумага офсетная. Усл. печ. л. 1,9. Уч.-изд. л. 2,0.
Тираж 100 экз. Заказ № 235.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Для заметок
Документ
Категория
Без категории
Просмотров
0
Размер файла
1 518 Кб
Теги
ustimov
1/--страниц
Пожаловаться на содержимое документа