close

Вход

Забыли?

вход по аккаунту

?

kursovoy

код для вставкиСкачать
Федеральное агентство железнодорожного транспорта
Сибирский государственный университет путей сообщения
Кафедра "Электротехника, диагностика и сертификация"
Статистический анализ данных
Расчётно-графическая работа по дисциплине
"Планирование и организация эксперимента"
В-36
Руководитель Выполнил
доцент студент гр. МСС-411
_______ Бояркин Е.В. ________ Ярохно Ю.Е. (подпись) (подпись) _______ ________ (дата) (дата)
2013
Содержание
Задание.................................................................................3
Введение...............................................................................4
Оценка точности вычислений.....................................................5
Парный корреляционный анализ.................................................7
Парный регрессионный анализ...................................................9
Многофакторный корреляционно-регрессионный анализ................12
Выводы................................................................................19
Список использованных источников..........................................20
Задание
По условию задачи дано шесть факторов X1, X2, ... X6 и параметр оптимизации Y. Значения приведены в таблице 1.
Таблица 1- Исходные значения
x1x2x3x4x5x6y14,35203-2,08645655,67371,703437108,687896,731862244,49619,79068-2,17334681,57831,48225172,8199193,742862238,20833,86224-1,40006593,90121,75524694,73919173,44942223,13832,66281-1,76079603,86452,09200670,82724136,58512230,7689,827859-2,638713,46091,89672590,75387120,64382252,7158,148135-2,73611709,47561,45036971,82358106,69522258,077,40771-2,7264731,39492,00831470,8272493,742862248,0345,281145-2,82698693,53431,83893885,77221182,41632250,83524,65725-2,23814649,69571,68749587,7648856,878612248,83220,77717-1,66364663,64431,93259393,74286123,63282244,64611,31535-2,65528699,51231,69347372,81991140,57042252,9569,759974-2,33482691,54161,93857183,77955173,44942248,4686,930744-2,71899669,62231,9226390,75387124,62912255,7649,073271-2,59804723,42421,66159185,77221156,51172248,64815,70627-2,69358677,5931,71505372,81991137,58142244,39330,24454-1,90316625,78381,74818196,73186107,69152241,2897,604761-2,73926713,46091,88175487,76488118,65112250,7529,796655-2,78468721,43161,83114667,8382589,757542260,62925,57627-2,0776640,9281,58738480,59129170,06182244,77726,52777-1,07023621,99771,60549781,38836145,75142231,72
Введение
Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую.
Предметом статистики являются только такие из связей, которые имеют количественный характер и изучаются с помощью количественных методов. В данной расчётно-графической работе рассмотрен метод корреляционно-регрессионного анализа, который является основным в изучении взаимосвязей явлений.
Данный метод содержит две свои составляющие части - корреляционный анализ и регрессионный анализ. Корреляционный анализ - это количественный метод определения тесноты и направления взаимосвязи между выборочными переменными величинами. Регрессионный анализ - это количественный метод определения вида математической функции в причинно-следственной зависимости между переменными величинами.
Целью работы является анализ связи факторов и параметра оптимизации (статистический, корреляционный, регрессионный анализ), а также построение уравнения множественной регрессии.
1 ОЦЕНКА ТОЧНОСТИ ВЫЧИСЛЕНИЙ
Заданные измеряемые величины подчиняются нормальному закону распределения. Для анализа данного распределения необходимо рассчитать его основные числовые характеристики. Среднее арифметическое значение:
. (1.1)
Стандартное отклонение (среднеквадратическое отклонение - СКО):
. (1.2)
Коэффициент вариации - мера относительной изменчивости наблюдаемого признака:
. (1.3)
Вычисленные по формулам (1.1)-(1.3) характеристики распределения занесены в таблицу 1.1.
Из таблицы данных также выбраны максимальные и минимальные значения факторов и представлены в таблице 1.1.
Таблица 1.1 - Статистические характеристики
Х1Х2Х3Х4Х5Х6YСреднее значение16,47-2,29674,081,7783,40127,462245,96Стандартное отклонение9,460,5141,220,1710,8833,409,37Коэффициент вариации, %57,47-22,456,119,6313,0526,200,42 Оценку точности вычислений выполняют по коэффициенту вариации. Рекомендуется округлять численные значения до второго значимого числа,
если коэффициент вариации от 10 и более процентов; до третьего значимого числа - от 1 до 10% и до четвёртого значимого числа - от 0,1 до 1%. После анализа коэффициентов вариации исходные данные представлены в таблице 1.2.
Таблица 1.2 - Округлённые исходные данные
x1x2x3x4x5x6y14-2,16561,703109972244,5020-2,26821,48273942238,2134-1,45941,755951732223,1433-1,86042,092711372230,7710-2,67131,897911212252,718-2,77091,450721072258,077-2,77312,00871942248,035-2,86941,839861822250,8325-2,26501,68788572248,8321-1,76641,933941242244,6511-2,77001,693731412252,9610-2,36921,939841732248,477-2,76701,923911252255,769-2,67231,662861572248,6516-2,76781,715731382244,3930-1,96261,748971082241,298-2,77131,882881192250,7510-2,87211,83168902260,6326-2,16411,587811702244,7827-1,16221,605811462231,72
2 ПАРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Зависимость между переменными может быть либо функциональной, либо стохастической. Стохастической является зависимость между двумя случайными величинами, при которой изменение одной величины влечет за собой изменение закона распределения другой. В частном случае зависимость такого типа проявляется в том, что при изменении одной из величин меняется математическое ожидание другой. В таком случае говорят о наличии корреляции или корреляционной зависимости.
Для оценки тесноты и направления связи между изучаемыми переменными при их стохастической зависимости пользуются показателями корреляции.
Линейный коэффициент корреляции характеризует степень тесноты не всякой, а только линейной зависимости. Для расчета коэффициента корреляции используется следующая формула:
. (2.1)
Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону. Эта тенденция к линейной зависимости может быть более или менее выраженной, т.е. более или менее приближаться к функциональной. Если случайные величины X и Y связаны функциональной линейной зависимостью у=ах+b, то = ± 1. В общем случае, когда величины связаны произвольной вероятностной зависимостью, -1< < 1. Дисперсия коэффициента корреляции определяется по формуле:
. (2.2)
Критерием для оценки коэффициента корреляции является достоверность коэффициента корреляции :
. (2.3)
Если достоверность коэффициента корреляции меньше коэффициента Стьюдента:
< ,
то данный коэффициент корреляции и соответствующий ему фактор являются незначимыми.
Вычисленные по формулам (2.1)-(2.3) характеристики сведены в таблицу 2.1.
Таблица 2.1 - Корреляционные характепристики Х1Х2Х3Х4Х5Х6Коэффициент корреляции-0,8251-0,84500,80540,0135-0,1778-0,2945Дисперсия коэффициента корреляции0,07140,06400,07860,22360,21650,2042Достоверность коэффициента корреляции11,5613,2110,250,060,821,44
Коэффициент Стьюдента для объема выборки n=20 и вероятности р=0,975 равен 2,53. Следовательно факторы Х4, Х5 и Х6 являются незначимыми и исключаются из дальнейшего анализа.
Вывод: факторы Х1, Х2 и Х3 имеют высокие коэффициенты корреляции, которые практически равны по модулю, т.о. эти три фактора значительно и одинаково сильно влияют на параметр оптимизации Y. При этом однако между фактороми Х1 и Х2 и параметром Y наблюдается отрицательное направление связи.
3 ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Наряду с корреляционным анализом обычно проводится и регрессионный анализ, который заключается в определении аналитического выражения связи зависимой случайной величины Y (параметра оптимизации) с независимыми случайными величинами Х1, Х2, ... (факторами).
Форма связи результативного признака Y с факторами Х1, Х2, ... получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию.
В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками - множественной (многофакторной) регрессией.
В данном задании будем рассматривать линейную парную регрессионную модель.
Задача линейного регрессионного анализа состоит в том, чтобы, зная расположение точек на плоскости, провести линию регрессии так, чтобы сумма квадратов отклонений вдоль выбранной оси этих точек от проведенной прямой была бы минимальной. Пусть постулируется линейная регрессионная модель:
Y=a+bX(+ε). (3.1)
В этой модели а и b - постоянные величины, называемые параметрами модели. Для данной линейной регрессионной модели составляется приведенная система нормальных уравнений:
(3.2)
Решив систему уравнений, находим значения параметров а и b:
, (3.3)
. (3.4)
Коэффициент а, называемый свободным членом уравнения регрессии, определяет величину отрезка, отсекаемого линией регрессии на оси, вдоль которой вычисляются отклонения.
Коэффициент b представляет собой тангенс угла наклона регрессионной прямой к положительному направлению оси независимой переменной.
Коэффициенты для трех уравнений парной линейной регрессии рассчитаны по формулам (3.3) - (3.4) и сведены в таблицу 3.1.
Таблица 3.1 - Коэффициенты регрессии
abY=f(X1)2259,4-0,8173Y=f(X2)2210,7-15,397Y=f(X3)2122,50,1832
На рисунках 3.1, 3.2 и 3.3 представлены графики зависимостей функций из таблицы 3.1.
Рисунок 3.1 - Зависимость Y=f(X1)
Рисунок 3.2- Зависимость Y=f(X2)
Рисунок 3.3 - Зависимость Y=f(X3)
Вывод: по знаку коэффициента b можно сделать вывод о характере наблюдаемой связи: факторы Х1 и Х2 имеют отрицательную связь с параметром оптимизации Y (уменьшают его), а фактор Х3 - положительную (увеличивает).
4 МНОЖЕСТВЕННЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Уравнение линейной множественной регрессии имеет вид:
, (4.1)
где - теоретические значения результативного признака;
х1, х2, ..., хm - значения факторных признаков;
b0, b1, ..., bm - параметры уравнения (коэффициенты регрессии).
Коэффициенты уравнения множественной регрессии находятся из системы нормальных уравнений:
(4.2)
где n - число наблюдений;
m - число факторов в уравнении регрессии.
Одним из способов построения множественных уравнений регрессии является построение модели связи в стандартизованном масштабе. Такую модель используют для более точной оценки влияния факторных признаков на результативный (в случаях, когда факторные признаки различны по своей сущности и имеют различные единицы измерения). Модель регрессии в стандартизованном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты по формуле:
, (4.3)
где xi - значение признака в натуральном масштабе.
Уравнение множественной регрессии в стандартизованном масштабе следующее:
, (4.4)
где t1, t2, ...tk - стандартизованные значения признаков х1, х2, ..., хk;
- среднее значение стандартизованной переменной соответствующего результативного признака, полученного по уравнению регрессии;
β1, β2, ..., βk - стандартизованные коэффициенты регрессии.
Представим систему нормальных уравнений:
(4.5)
где t - значение результативного признака в стандартизованном масштабе.
Коэффициенты β1, β2, ..., βk дают возможность провести сравнительную оценку силы влияния изменения каждого факторного признака на изменение результативного признака.
Найдем коэффициенты β1, β2 и β3 для рассматриваемой задачи.
Система нормальных уравнений:
(4.6)
где rij - коэффициенты корреляции.
Значения коэффициентов корреляции представлены в таблице 4.1.
Таблица 4.1- Корреляционная таблица
x1x2x3yx110,851943-0,9088-0,8251x20,8519431-0,84222-0,8450x3-0,9088-0,8422210,8054y-0,82509-0,844970,80541
Запишем определитель этой системы:
Тогда: Т.к. величина β характеризует силу влияния фактора на параметр оптимизации, можно сделать вывод о том, что фактор Х2 влияет на Y в большей степени, чем Х1 и Х3. Знак коэффициента β показывает, что фактор Х3 увеличивает Y, а Х1 и Х2 - уменьшают.
От уравнения в стандартизованном масштабе можно легко перейти к уравнению в натуральном масштабе. Коэффициенты bi получают из соотношения:
, (4.7)
а свободный член b0 - из выражения
. (4.8)
По формулам (4.7) и (4.8) найдены коэффициенты множественной регрессии. Результаты сведены в таблицу 4.2.
Таблица 4.2 - Коэффициенты множественной регрессии
iКоэффициенты βiКоэффициенты регрессии bi1-0,29351-0,290742-0,48595-8,8551530,129380,02942102210,62 Т.о. уравнение линейной множественной регрессии имеет вид:
Y = 2210,62 - 0,29 Х1 - 8,86 Х2 + 0,03 Х3 .
Для анализа связи между параметром оптимизации и его тесноту с совокупностью факторов используют коэффициент множественной корреляции R:
. (4.9)
По формуле (4.9) R = 0,8701.
Исправленный коэффициент множественной корреляции определяется по формуле (24):
R ̃=√(1-(1-R^2)(n-1)/(n-p)) , (4.10)
где p - количество факторов.
По формуле (4.10) R ̃=0,8535
Доверительная оценка коэффициента корреляции:
S_R=(1-R ̃^2)/√n, (4.11)
Доверительный интервал коэффициента регрессии для многофакторного уравнения:
S_(b_i )=(S_y √(1-R ̃^2 ))/(S_x √(1-R ̃_i^2 ) √n) , (4.12)
где R ̃_i^2 - коэффициент множественной корреляции связи данного фактора с остальными факторами:
R ̃_i^2=∆^*/∆ (4.13)
С помощью программы Excel рассчитаны следующие определители:
0,851943462-0,9088001850∆1*=1-0,8422214460,851943462=0,247551635-0,8422214461-0,908800185 ∆1=1-0,842221446=0,290663037-0,8422214461
R ̃_1^2=0,851679105
0,851943462-0,8422214460∆2*=1-0,9088001850,851943462=0,130970822
-0,9088001851-0,842221446 ∆2=1-0,908800185=0,174082224
-0,9088001851
R ̃_2^2=0,75235035
-0,908800185-0,8422214460∆3*=10,851943462-0,908800185=0,2310809360,8519434621-0,842221446 ∆3=10,851943462=0,2741923380,8519434621
R ̃_3^2=0,842769488
Таблица 4.3 - Значение доверительного интервала коэффициента регрессии
Sb1,20966927,972010,285232Проверка достоверности проводится, исходя из условия:
|b_i |/S_(b_i ) >τ_α, (4.14)
где τ_α - коэффициент Стьюдента (τ_α=2,6).
Таблица 4.4 - Проверка достоверности
Х1Х2Х30,2403470,3165720,103149Таким образом, достоверными являются все коэффициенты регрессии.
Выводы
Для того чтобы сделать вывод о коэффициентах парной и множественной регрессии представим следующую таблицу:
ФакторКоэффициенты парной регрессииКоэффициенты множественной регрессииabbiX12259,4-0,8173-0,29074X22210,7-15,397-8,85515X32122,50,18320,029421 После анализа можно сделать заключения:
Знаки коэффициентов парной и множественной регрессии совпадают.
Как парный, так и множественный анализ показал, что большее влияние на параметр оптимизации оказывает фактор Х2, в меньшей степени - Х1, еще в меньшей - Х3.
Следовательно, анализ парной регрессии и анализ множественной регрессии дают одинаковые результаты о характере и силе влияния факторов на параметр оптимизации.
Список использованных источников
1. Белько И.В., Свирид Г.П. Теория вероятностей и математическая статистика. Примеры и задачи: Учеб. пособие. - Минск, 2002. - 250 с.
2. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник. - М., 1998. 368 с.
3. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учеб. для вузов. - М., 2004. - 573 с.
4. Теория статистики: Учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова. - М., 2006. - 656 с.
5. СТО СГУПС 1.01СДМ.01-2007. Курсовой и дипломный проекты. Требования к оформлению. Новосибирск, СГУПС, 2007. 59 с. 
Документ
Категория
Рефераты
Просмотров
161
Размер файла
327 Кб
Теги
kursovoy
1/--страниц
Пожаловаться на содержимое документа