close

Вход

Забыли?

вход по аккаунту

?

mu sredstvaissled 2015

код для вставкиСкачать
Министерство образования и науки Российской Федерации
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ПРОМЫШЛЕННЫХ ТЕХНОЛОГИЙ И ДИЗАЙНА»
Кафедра информационных технологий
МЕТОДЫ И СРЕДСТВА ИССЛЕДОВАНИЙ
Методические указания к выполнению лабораторных работ
для направления 09.03.03 «Прикладная информатика»
Составители:
Е. Г. Суздалов
Т. А. Кравец
В. И. Пименов
Е. В. Кулеева
Санкт-Петербург
2015
Рекомендовано
на заседании кафедры
« 11 » 02
2015 г.,
протокол № 1
Рецензент Е. Н. Якуничева
Оригинал-макет подготовлен составителями
Подписано в печать 28.11.2015 г. Формат 60х84 1/16.
Печать трафаретная. Усл. печ. л. 3,6 . Тираж 100 экз. Заказ 755/15
http://publish.sutd.ru
Отпечатано в типографии ФГБОУВО «СПбГУПТД»
191028, Санкт-Петербург, ул. Моховая, 26
Лабораторная работа 1. Моделирование значений случайных величин
Выполняется средствами программы STATGRAPHICS Plus
1.1. Выбор закона распределения случайных величин Х1, Х2, Х3
1.1.1. Запустить программу STATGRAPHICS Plus и раскрыть окно с
таблицей Untitled StatFolio, как показано на рис. 1.1.
Рис. 1.1. Окно Untitled StatFolio
1.1.2. Выбрав в меню элемент Plot щелкнуть по нему левой кнопкой
мыши в STATGRAPHICS Plus - Untitled StatFolio и выбрать Probability
Distributions из элементов меню левой кнопкой мыши (рис. 1.2).
Рис. 1.2. Выбор команды элемента меню
1.1.3. В окне настроек выбора закона распределения Probability
Distribution (рис. 1.3) установить переключатель на Triangular левой кнопкой
мыши, а затем нажать на кнопку ОК.
3
Рис. 1.3. Окно настроек Probability Distribution
1.2. Выбор объема выборки значений случайных величин Х1, Х2, Х3
1.2.1. В открывшемся окне Probability Distribution левой кнопкой
мыши выбрать иконку желтого цвета Tabular Options, как показано на
рис. 1.4, а затем в окне настроек Tabular Options поставить флажок Random
Numbers и нажать на кнопку ОК.
Рис. 1.4. Окно настроек Tabular Options
1.2.2. Щелкнуть в пустом месте по правой клавишей мыши и выбрать
из раскрывшегося меню Pane Options. В появившемся окне Random Numbers
Options (рис. 1.5) задать объем выборки, в целях выполнения данной
лабораторной работы задать ее в размере 150.
4
Рис. 1.5. Окно настроек Random Numbers Options
1.3. Определение размаха выборки случайной величины
В пустом месте окна щелкнуть по правой клавиши мыши, выбрать из
раскрывшегося меню Analysis Options и ввести с клавиатуры параметры
выборки (рис. 1.6) – максимум (90000), минимум (10000) и среднее значение
(52000) выборки случайной величины Х1, ОК.
Рис. 1.6. Окно настроек Analysis Options
1.4. Постороение таблицы данных случайных величин
1.4.1. В Probability Distribution (рис. 1.7) выбрать левой кнопкой мыши
иконку синего цвета Save Results Options, установить флажок на Random
Numbers for Dist. 1 и в Target Variables установить имя случайной величины
на Х1, ОК.
5
Рис. 1.7. Окно настроек Save Results Options
1.4.2. Щелкнуть по окну Закрыть левой кнопкой мыши в
STATGRAPHICS Plus - Untitled StatFolio и выбрать Да левой кнопкой мыши в
STATGRAPHICS Plus.
3. Повторить 1.3-1.4 для генерирования случайных величин Х2 и Х3.
1.5. Моделирование отклика Y в зависимости от случайных величин Х1,
Х2, Х3…
1.5.1. В таблице STATGRAPHICS Plus - Untitled StatFolio, выделить
свободный столбец и правой кнопкой мыши выбрать команду Modify Column
(рис. 1.8). В появившемся окне в поле Name ввести имя отклика Y. Щелкнуть
по кнопке ОК левой кнопкой мыши – появится новое имя столбца.
6
Рис. 1.8. Окно настроек Modify Column
1.5.2. Выделить столбец Y и правой кнопкой мыши выбрать команду
Generate Data – появится окно, в которое необходимо ввести формулу для
моделирования отклика Y, например, как показано на рис. 1.9. Далее
щелкнуть по кнопке ОК левой клавишей мыши. Новый столбец будет
заполнен данными.
Рис. 1.9. Окно настроек Generate Data
1.6. Сохранение полученных статистических данных
Щелкнуть элемент меню File левой кнопкой мыши - Save Data File As,
выбрать папку для сохранения работ, ввести название Ряд
распределения_ФИО_группа и нажать кнопку Сохранить левой кнопкой
мыши в Save Data File As.
7
Лабораторная работа
STATGRAPHICS Plus
2.
Построение
гистограммы
средствами
1. Открыть файл с полученными из предыдущей лабораторной работы
статистическими данными в пакете STATGRAPHICS Plus.
2. Щелкнуть на названии колонки X1 левой кнопкой мыши для
выделения всего столбца и нажать на пиктограмме построения гистограмм,
как показано на рис. 2.1.
Рис. 2.1. Построение гистограммы
3. Выделить X1левой кнопкой мыши в окне Frequency Histogram
(рис. 2.2), нажать на стрелку кнопки Date, чтобы выбрать элемент списка X1,
затем на OK.
4. После выполненных действий программа STATGRAPHICS Plus
отобразит гистограмму, соответствующую статистической совокупности Х1
(рис. 2.3).
8
Рис. 2.2. Окно настройки Frequency Histogram
Рис. 2.3. Готовая гистограмма
5. На гистограмме определить
и
, число разрядов , число
значений случайной величины Х1, попавших в каждый разряд ( ).
Результаты записать в тетрадь.
6. Определить длину разряда
и результаты записать
в тетрадь.
7. Определить границы каждого разряда:
граница 1-го разряда - начальная
, конечная
граница
2-го разряда - начальная
и т. д., пока сумма
Данные записать в тетрадь.
;
, конечная
станет равной
.
8. Повторить пункты 2 - 4 при построении гистограмм для случайных
величин Х2, Х3, …, Y.
9
Лабораторная работа 3. Построение гистограммы средствами MS Excel
3.1. Построение гистограммы числа попаданий в разряд
3.1.1. Копируем в таблицу Excel на отдельные листы значения
случайных величин Х1, Х2, Х3, …, Y, сгенерированные в предыдущей
лабораторной работе в программе STATGRAPHICS Plus. Количество
значений случайной величины равно количеству опытов n (например, n =
150).
3.1.2. Для построения гистограммы необходимо отсортировать
значения случайной величины в порядке возрастания. Найти Xmin, Xmax,
размах, число разрядов и длину разряда (рис. 3.1).
Рис. 3.1. Расчет min, max, размаха, числа и длины разряда для случайной
величины Х1
Для нахождения min и max значений необходимо:
Xmin: Выделить диапазон случайной величины, применить функцию
MIN в Excel.
Xmax: применить функцию MAX в Excel.
Размах: R = Xmax - Xmin
Число разрядов: число разрядов можно рассчитать, оно зависит от
количества опытов n и вычисляется по формуле Стерджесса:
K = 1 + 3,322 lg n. Можно взять число разрядов равным числу разрядов
гистограммы, построенной в предыдущей лабораторной работе в программе
STATGRAPHICS Plus (рис. 3.2).
10
Рис. 3.2. Гистограмма случайной величины Х1 построенной
в Statgraphics Plus
На гистограмме видно, что количество разрядов равно 7. В наших
расчетах также примем число разрядов равным семи (K = 7).
Длина
одного
разряда:
рассчитывается
как
.
3.1.3. Определим количество попаданий значений случайной
величины в каждый разряд. Для этого построим таблицу (рис. 3.3). В столбик
запишем разряды i = 1..k. В нашем примере от одного до семи.
Далее определим начальное и конечное значения Х для каждого
разряда. Начнем с первого разряда. Начальное значение первого разряда
будет соответственно равно значению Xmin, т.е. 11894,8 (рис. 3.3). Конечное
значение первого разряда рассчитывается как:
Начальное значение первого разряда + Длина разряда или
(Xmin + Δx) = 11 894,8+10 989,86=22 884,657 14.
Рис.3.3. Определение количества попаданий значений случайной величины
в каждый разряд
11
Начальное значение второго разряда будет равно конечному
значению первого разряда (22884,65714). Конечное значение второго разряда
будет равно Начальное значение второго разряда + Длина разряда, т.е.
22 884,657 14 + 10 989,86 = 33 874,514 29. Таким образом находим начальные
и конечные значения для каждого разряда (рис. 3.3)/ Конечное значение
седьмого разряда равно max значению 88 823,8.
3.1.4. Нахождение количества попадания
случайной величины Х1 в разряд. Определим
количество попаданий для первого разряда. Начальное
и конечное значения первого разряда соответственно
равны 11 894,8 и 22 884,657 14 и образуют диапазон
первого разряда. Рассмотрим значения случайной
величины Х1, которое на предыдущем шаге выстроили
в порядке возрастания (рис. 3.4).
Рис.3.4. Диапазон
первого разряда
Из рис. 3.4 видно, что значения Х1 в ячейках от
А2 до А10 попадают в диапазон первого разряда.
Количество таких попаданий соответственно равно 9.
Это значение вносим в соответствующий столбец (рис.
3.3). Для удобства подсчета значения, попавшие в
первый разряд выделим желтым цветом.
Определим количество попаданий во второй
разряд. Диапазон второго разряда изменяется от
22 884,657 14 до 33 874,514 29 (рис. 3.3).
В указанный диапазон попадают значения
случайной величины Х1 от А11 до А34 (рис. 3.5).
Выделим этот диапазон красным цветом и сосчитаем
количество значений – оно равно 24. Аналогично
находим количество попаданий для всех разрядов и
заполняем таблицу (рис. 3.3).
Рис. 3.5. Диапазон
второго разряда
12
3.1.5. Построим гистограмму на основе данных рис. 3.3. По оси Х
будем откладывать конечные значения разрядов, а по оси Y – количество
попаданий в разряд. Для создания гистограммы необходимо:
- выделить столбцы Конечное значение разряда и Количество
попаданий в разряд, выбрать вкладку Вставка и нажать на иконке
Гистограмма (рис. 3.6). MS Excel автоматически создаст гистограмму;
- автоматически созданная гистограмма требует доработки, таким
образом, чтобы по оси абсцисс стояли данные конечных значений разрядов, а
по оси ординат – количество попаданий в разряд. Для этого в конструкторе
работы с диаграммами нажать кнопку Выбрать данные. В открывшемся окне
из Элементы легенды удалить данные Конечное значение разряда (1), нажать
кнопку Изменить в Подписи горизонтальной оси (категорий) (2) и в
открывшемся окне Подписи оси определить диапазон конечных значений
разряда (3), как на рис. 3.7;
Рис. 3.6. Вставка гистограммы
Рис. 3.7. Изменение подписей осей категорий
13
- чтобы гистограмма выглядела аналогично гистограмме построенной
в STATGRAPHICS Plus, необходимо сократить зазоры между столбцами. Для
этого необходимо нажать правую клавишу мыши на любом столбце
гистограммы и выбрать из появившегося контекстного меню пункт Формат
ряда данных. В открывшемся окне на вкладке Параметры ряда установить
Боковой зазор равным нулю, на вкладке Цвет границы установить
переключатель на свойство Сплошная линия и определить цвет Черный.
Пример готовой гистограммы построенной в MS Excel представлен на
рис. 3.8.
Рис. 3.8. Гистограмма, построенная в MS Excel
3.1.6. Аналогично строим гистограммы для случайных величин: X2,
X3, …, Y на отдельных листах.
14
Необходимо отметить, что кроме указанного выше вида гистограмм,
когда по оси ординат откладывается количество попаданий значений
случайных величин, на практике часто используются еще два вида:
- когда по оси ординат откладываются частоты
количество значений случайной величины
гистограммы, n – количество опытов;
, где mi –
попавшей
в
i-й
разряд
- когда по оси ординат откладываются статистические плотности
распределения
, где Δx – длина разряда.
3.2. Построение статистической гистограммы для частоты и плотностей
распределения
1. На листе с именем Х1 добавим в таблицу дополнительные столбцы
(рис. 3.9): Pi частота, f(x) статистическая плотность распределения, F(x)
статистическая функция распределения.
Рис. 3.9. Вычисление значений Pi, f(x), F(x)
2. Вычислим частоту (вероятность) попадания в разряд по формуле
, где mi – количество попаданий в разряд, n – количество опытов, в
нашем примере n=150. Соответственно для первого разряда получим 9/150 =
= 0,06 (рис. 3.9).
3. Статистическая плотность распределения f(x) определяется по
формуле для каждого разряда
, где Pi – найденная частота
(вероятность), Δx – длина разряда.
Соответственно для
= 545 958*106 (рис. 3.9).
первого
разряда
15
f(x)
=
0,06/10 989,86 =
4. Статистическая функция распределения F(x) вычисляется
следующим образом: F1 = Р1; F2 = P1 + P2; F3 = P1 + P2 + P3; F4 = P1 + P2 +
+ P3+Р4 и так далее.
5. Построим гистограммы для частоты и плотностей распределения
используя данные таблицы на рис. 3.9.
При построении гистограммы по оси абсцисс необходимо выбирать
данные Конечное значение разряда, а по оси ординат – (Pi, f(x), F(x))
соответственно (рис. 3.10).
Рис. 3.10. Гистограммы Pi, f(x), F(x)
6. Аналогично проводим расчеты для случайных величин X2, X3, …, Y
и строим гистограммы для Pi, f(x), F(x).
16
Лабораторная работа 4. Точечные оценки случайной величины
К точечным оценкам относят: cреднее значение, дисперсию, среднее
квадратичное отклонение, асимметрию, эксцесс, моду и медиану (рис. 4.1).
Асимметрия
величина,
характеризующая
распределения данной случайной величины.
асимметрию
Эксцесс - мера остроты пика распределения случайной величины.
Мода - значение случайной величины, при которой частота или
статистическая вероятность имеет максимальное значение.
Медиана – это абсцисса точки, в которой площадь, ограниченная
кривой распределения делится пополам.
Рассчитаем точечные оценки двумя способами вручную и с
использованием встроенных функций MS Excel.
.
Рис. 4.1. Асимметрия, эксцесс, мода, медиана
4.1. Расчет точечных оценок с помощью встроенных функций MS Excel
Создадим лист Точечные оценки Х1. Добавим в него значения
случайной величины Х1. Для наглядного представления результатов расчета
17
создадим на листе таблицу, показанную на рис. 4.2. В каждую строку
добавим функции вычисления точечных оценок перечисленные ниже.
Математическое ожидание =СРЗНАЧ(A2:A151).
Дисперсия =ДИСПР(A2:A151).
Среднеквадратическое отклонение =СТАНДОТКЛОНП(A2:A151).
Асимметрия =СКОС(A2:A151).
Эсцесс =ЭКСЦЕСС(A2:A151).
Мода =МОДА(A2:A151).
Медиана =МЕДИАНА(A2:A151).
В результате расчета для оценки моды может быть получен
следующий результат #Н/Д, т. е. значение недоступно.
Рис. 4.2. Точечные оценки случайной величины Х1
4.2. Расчет точечных оценок вручную
Для удобства расчетов точечных оценок вручную создадим
дополнительные столбцы, изображенные на рис. 4.3, где проводится расчет
разницы между значением x1 и математическим ожиданием в первой, второй,
третьей и четвертой степенях. Далее по каждому столбцу необходимо, найти
сумму (рис. 4.3).
18
Рис. 4.3. Дополнительные столбцы
Используя данные рис. 4.3, рассчитаем точечные оценки случайной
величины.
Среднее значение находится как
Дисперсия Dx =
50 254,192 6.
343 577 383.
Среднеквадратическое отклонение σ =
Асимметрия Ax =
Эсцесс Ex =
18 535,840 5.
0,0734 3.
- 0,682 4.
Мода – для определения моды необходимо взять данные с листа Х1 и найти
разряд с наибольшим количеством попаданий значений случайной величины
(рис. 3.3). Для нашего примера наибольшее число попаданий (40) приходится
на 4-й разряд. Таким образом, мода находится в диапазоне от 44 864,371 43
до 55 844,228 57.
Медиана делит вариационный ряд на две равные части т.е. это значение Me
при котором вероятность попадания случайной величины от -∞ до Me равно
вероятности попадания случайной величины от Me до +∞ (Ме=50 254,19).
19
Лабораторная работа 5. Интервальная оценка
Полученные в предыдущей лабораторной работе математические
ожидания и дисперсии являются достоверными лишь с некоторой
вероятностью. Например, если изменить число опытов, то значения
математического ожидания и дисперсии изменятся на некоторую величину,
поскольку являются случайными. Требуется определить, в каком интервале с
выбранной вероятностью изменятся значения математического ожидания и
дисперсии.
Создадим новый лист Интервальная оценка Х1. Скопируем значения
точечных оценок с листа Точечные оценки Х1 и поместим их в таблицу
(рис. 5.1).
Чтобы скопировать только значения точечных оценок, а не формулы,
при выполнении операции вставки необходимо в командах правой кнопки
мыши выбрать Специальная вставка и далее установить переключатель
Значения.
Рис. 5.1. Результаты расчета интервальной оценки математического ожидания
и дисперсии
5.1. Интервальная оценка математического ожидания
5.1.1. Добавим таблицу для расчета интервальной оценки
математического ожидания с тремя столбцами (рис. 5.1): Среднее значение
математического ожидания mmx; Дисперсия математического ожидания
20
Dmx; Среднеквадратическое отклонение σmx их значения находятся по
формулам:
Среднее значение математического ожидания: mmx = mx (т. е. среднее
значение математического ожидания совпадает со средним значением
случайной величины Х1 – 50 254,192 67.
Дисперсия математического ожидания: Dmx = Dx/n = 343 577 383/150
= 2 290 515,887 (т.е. значения дисперсии случайной величины Х1 необходимо
разделить на количество опытов, т.е. 150).
Среднеквадратическое отклонение математического ожидания:
(корень квадратный из дисперсии
математического ожидания).
5.1.2. Разброс значений математического ожидания и дисперсии
подчиняется нормальному закону распределения, который представлен на
рис. 5.2. Используя Mathcad 14, найдем интервал (левую и правую границу)
для интервальной оценки математического ожидания по следующему
алгоритму:
а) в Mathcad введем среднее значение математического ожидания;
среднеквадратическое отклонение и функцию f(x) нормального закона
распределения, которая задается формулой на рис. 5.3;
б) построим график нормального закона распределения с заданными
mmx и σmx. Для этого выполним команду View – Toolbars – Graph и нажмем
кнопку
. По оси ординат зададим функцию f(x), абсцисс – x и получим
график функции изображенной на рис. 5.3.
Для того чтобы увидеть график необходимо отрегулировать границы
по оси Х. Известно, что среднее значение математического ожидания равно
50 254,192 6 и является центром симметрии графика. Соответственно, чтобы
увидеть график целиком, нужно взять левую границу меньше, а правую
больше 50 254,192 6 на некоторое число  = 4mx, т. е. левая граница будет
вычислена как х1 = mmx - , а правая граница как х2 = mmx + 
21
Рис. 5.2. Нормальный закон распределения
Рис. 5.3. Интервальная оценка математического ожидания с вероятностью
попадания в интервал 0,95; 0,99; 1,0
Аналогично необходимо отрегулировать границы по оси ординат.
Например, первоначально верхнюю границу функции f(x) задать равной
0,001, нижнюю – 0. Изменяя верхнюю границу f(x), левую и правую границы
x добиться изображения графика как на рис. 5.3.
в) на следующем шаге необходимо варьируя интервал значений
математического ожидания получить значения доверительной вероятности,
например, 0,95; 0,9; 1,0.
22
Для этого используя Mathcad рассчитаем определенный интеграл от
функции f(x), нормального закона распределения, которая была использована
при построении ее графика (рис. 5.3).
Пусть необходимо определить, в каком интервале окажется
математическое ожидание с вероятностью 0,95, тогда, изменяя значение ,
можно подобрать этот интервал (mmx - ; mmx + ).
При дальнейшем изменении левой и правой границ интервала
получим значение доверительных вероятностей равных 0,99 и 1,0 (рис. 5.3) и
показанных в таблице на рис. 5.1.
5.2. Интервальная оценка дисперсии
5.2.1. Добавим таблицу для расчета интервальной оценки дисперсии с
тремя столбцами (рис 5.1): Среднее значение дисперсии mdx; Дисперсия
дисперсии Ddx; Среднеквадратическое отклонение σdx. Рассчитаем их
значения по приведенным ниже формулам и внесем в таблицу на рис. 5.1.
Среднее значение дисперсии:
mdx = Dx (т.е. среднее значение дисперсии совпадает с значением дисперсии
случайной величины Х1 343 577 383).
Дисперсия дисперсии:
.
Среднеквадратическое отклонение дисперсии:
σdx =
= = 39 805 806,82
5.2.2. Интервальная оценка дисперсии определяется аналогично
интервальной оценки математического ожидания. По рассчитанным выше
данным в Mathcad14 строится график и вычисляется доверительный
интервал дисперсии с заданной степенью вероятности (рис. 5.4).
Результаты расчета доверительных интервалов дисперсии и
соответствующих им доверительных вероятностей необходимо записать в
таблицу, как показано на рис. 5.1.
23
Рис. 5.4. Интервальная оценка дисперсии с вероятностью попадания
в интервал 0,95; 0,99; 1,0
5.3. Проверка расчетов средствами MS Excel
5.3.1. Проверим результат ручного счета с использованием функции
MS Excel для этого вернемся на лист Интервальная оценка Х1 и создадим
новые столбцы в таблице Интервальная оценка математического ожидания
(рис. 5.1): Левая граница х1; Правая граница х2; Вероятность, что
математическое ожидание примет значение от х1 до х2. Аналогично
добавим столбцы в таблицу Интервальная оценка дисперсии.
5.3.2. В Mathcad14 были найдены значения доверительных интервалов
математического ожидания и дисперсии для вероятностей 0,95; 0,99; 1, т.е.
значения x1 и х2 для перечисленных вероятностей. Подставим эти значения в
столбцы левая и правая границы (рис. 5.1). По известным значениям,
используя функцию MS Excel НОРМРАСП( ), вычислим вероятность
попадания математического ожидания и дисперсии в интервал.
Аргументами функции =НОРМРАСП(x;mmx;σmx;ИСТИНА) являются
следующие величины: значение х до которого вычисляется интеграл от -∞ до
x; mmx математическое ожидание случайной величины х; σmx
среднеквадратическое отклонение
Например, для расчета вероятности попадания математического
ожидания в интервал от 47 290 до 53 210 вероятность примет значение 0,95.
Для этого необходимо выполнить вычисления по формуле, изображенной на
рис. 5.5.
24
Рис. 5.5. Формула расчета вероятности попадания математического ожидания
в заданный интервал
Результаты проведенных расчетов представлены на рис. 5.1.
25
Лабораторная работа 6. Выравнивание статистического распределения
При обработке статистических данных часто приходится решать
вопрос о том, как подобрать наиболее подходящую теоретическую кривую
распределения.
Такая
задача
называется
задачей
выравнивания
статистического распределения или задачей сглаживания.
Как правило, вид теоретической кривой выбирается заранее из
соображений, связанных с существом задачи и в соответствии с внешним
видом статистического распределения.
Следует понимать, что как бы хорошо ни была подобрана
теоретическая кривая между ней и статистическим распределением
неизбежны некоторые расхождения (рис. 6.1).
Рис. 6.1. Выравнивание статистического распределения
Возникает вопрос: объясняются ли эти расхождения только
случайными обстоятельствами, связанными с ограниченным числом опытов
или являются существенными, связанными с тем, что подобранная кривая
плохо выравнивает данное статистическое распределение. Для ответа на этот
вопрос, а именно для проверки гипотезы о законе распределения, служат так
называемые критерии согласия. Одним из наиболее часто применяемых
критериев согласия является критерий Пирсона 2.
В данной лабораторной работе необходимо проверить гипотезу о
соответствии выбранной теоретической кривой, например, нормального
закона распределения, статистическим данным (гистограмме).
1. Создадим новый лист Выравнивание статистического ряда Х1.
2. Для вычисления необходимо скопировать данные, полученные в
предыдущих лабораторных работах: Статистическое количество попаданий
в разряд, Статистическая вероятность попадания в разряд,
Математическое ожидание и Среднеквадратическое отклонение (рис. 6.2).
Данные могут быть получены с листов Х1 и Точечная оценка Х1.
26
Рис. 6.2. Результаты расчета критерия Пирсона χ2
Дополнительно в таблицу на рис. 6.2 добавим пустые столбцы
Теоритическое количество попадания в разряд miт, Теоретическая
вероятность попадания в разряд piт и χ2 опытное. В дальнейшем значение χ2
опытное позволяет оценить меру отклонения экспериментальных данных от
теоретической кривой.
3. Как было сказано выше, в качестве теоретической кривой для
выравнивания гистограммы, данные которой показаны в пяти первых
столбцах на рис. 6.2, выберем кривую нормального закона распределения с
математическим ожиданием mx и среднеквадратическим отклонением σx,
полученными при выполнения лабораторной работы Точечные оценки
случайной величины (рис. 6.2).
4. Определим теоретическую вероятность попадания в каждый разряд
piт, значений случайной величины Х1, распределенной по нормальному
закону распределения
, с помощью пакета Mathcad (как
показано на рис. 6.3), или непосредственно в MS Excel, используя встроенную
функцию НОРМРАСП( ) на рис. 6.4, и занесем полученные данные в таблицу
(рис. 6.2).
При расчетах вероятности мы пользовались встроенной функцией
MS Excel.
27
Рис. 6.3. Вычисление определенного интеграла теоретической
кривой для 1-го разряда средствами Mathcad
Рис. 6.4. Формула для вычисления определенного интеграла
теоретической кривой для 1-го разряда средствами MS Excel
5. Рассчитав вероятности попадания случайной величины в каждый из
разрядов можно найти теоретическое количество попаданий в разряд по
формуле
. Например, для первого разряда
0,050 6150 = 8.
Результаты расчетов приведены в таблице на рис. 6.2.
6. Определяем меру расхождения
гистограммы и теоретической
2
кривой с помощью критерия Пирсона  и пакета Mathcad при
, где
r – число степеней свободы; k – число разрядов (для гистограммы случайной
величины Х1); s – число связей (для нормального закона s = 3).
,
где
(6.1)
– опытное значение критерия Пирсона.
Для нашего случая
=12,35 (см. таблицу на рис. 6.2).
7. Величина
является случайной величиной. Вероятность того, что
эта случайная величина примет значение больше чем , может быть
найдена с помощью распределения
.
,
где
– интеграл Эйлера (гамма распределение).
28
(6.2)
Используя средства Mathcad вычислим значения искомой вероятности
(рис. 6.5).
Рис. 6.5. Определение значения вероятности средствами Mathcad
Для нашего случая
, поэтому гипотеза о том, что
теоретическая кривая соответствует статистическим данным (гистограмме)
следует отбросить, так как расхождение существенно и неслучайно.
На практике, если
– гипотезу принимают.
29
Лабораторная работа 7. Корреляционный анализ
Коэффициент корреляции
рассчитывается по формуле
для
случайных
величин
х1
,
где
и
х2
(7.1)
– корреляционный момент;
– среднеквадратические отклонения х1 и х2.
Для расчета корреляционного момента используется формула
.
(7.2)
Соответственно для нашей задачи имеем случайные величины
X1,X2,X3,…,Y, поэтому следует найти коэффициент корреляции для
следующих
сочетаний:
(Х1,Х2);(Х1,Х3);(Х1,У);(Х2,Х3);(X2,Y);(X3,Y).
Рассчитаем коэффициент корреляции вручную, с помощью встроенных
функций MS Excel и используя средства пакета анализа MS Excel, сравним
полученные результаты.
7.1. Расчет коэффициента корреляции «вручную»
7.1.1. Создадим лист Корреляция вручную. Скопируем случайные
величины Х1, Х2, Х3,…,Y на созданный лист (для удобства их можно
закрасить).
7.1.2. Рассчитаем среднее (математическое ожидание), дисперсию,
среднеквадратическое отклонение для каждой случайной величины,
используя стандартные функции MS Excel, например, как представлено на
рис. 7.1.
Рис. 7.1. Результаты расчета математического ожидания, дисперсии,
среднеквадратического отклонения для каждой случайной величины
7.1.3. Для удобства дальнейших расчетов корреляционного момента
добавим новые столбцы справа каждой случайной величины, как показано на
30
рис. 7.2, и найдем следующие произведения разностей: (x1i-mx1)*(x2i-mx2);
(x1i-mx1)*(x3i-mx3); (x1i-mx1)*(yi-mxy); (x2i-mx2)*(x3i-mx3); (x2-mx2)*(y-mxy); (x3mx3)*(y-mxy).
Рис. 7.2. Расчет корреляционных моментов и коэффициентов корреляции
7.1.4. После того как нашли все произведения, рассчитываем сумму
для каждого столбца и разделив ее на число опытов n = 150 найдем
корреляционные
моменты
для
сочетаний
(Х1,Х2);(Х1,Х3);(Х1,У);(Х2,Х3);(X2,Y);(X3,Y) представленных на рис. 7.2.
7.1.5. Далее по формуле (7.1) рассчитаем коэффициент корреляции,
для чего разделим значения корреляционного момента для каждого
сочетания на произведение их среднеквадратических отклонений,
соответственно получим корреляционные моменты для каждого сочетания
(рис. 7.2).
7.2. Расчет коэффициента корреляции с помощью встроенных функций
MS Excel
7.2.1. Создадим лист Корреляция Excel. Скопируем случайные
величины Х1, Х2, Х3, Y на созданный лист.
7.2.2. Создадим таблицу (рис. 7.3), в которой будем рассчитывать
коэффициент корреляции для сочетаний с использованием функции
КОРРЕЛ() MS Excel. Например, для сочетания Х1,Х2 необходимо написать
формулу = КОРРЕЛ(x1;x2), указав массивы данных Х1 и Х2.
7.2.3. Далее необходимо сравнить коэффициенты корреляции,
найденный «вручную», и с помощью встроенных функций MS Excel и
сделать выводы (рис. 7.3) используя правила, описанные ниже.
31
Рис. 7.3. Расчет коэффициента корреляции с помощью
встроенных функций MS Excel
Для обоснования силы связи и ее направления необходимо учитывать
следующие правила:
Направление связи - если r является положительным, то направление
связи положительное, если отрицательное, направление отрицательное.
Сила связи - коэффициент корреляции варьируется в пределах
- 1 < r < +1. Если значение r = 0, то корреляция отсутствует (величины не
коррелируемы);
0,09 ≤ r ≤ 0,19 – величины не коррелируемы.
0,2 ≤ r ≤ 0,49 – связь слабая.
0,5 ≤ r ≤ 0,69 – связь средняя.
0,7 ≤ r ≤ 1 – сильная связь.
7.3. Расчет коэффициента корреляции с помощью пакета анализа
MS Excel
На листе Корреляция Excel рассчитаем коэффициент корреляции с
применением пакета анализа MS Excel.
32
Предварительно необходимо провести подключение пакета анализа,
для чего необходимо выполнить команду Файл/Параметры и выбрать
Надстройки, далее нажать на кнопку Перейти. В открывшемся окне
отметить флажок Пакет анализа и Поиск решения (рис. 7.4).
Рис. 7.4. Добавление надстройки Пакет анализа
После выполненной настройки на вкладке Данные появилась кнопка
Анализ данных. Нажмем на нее и выберем Корреляция (рис. 7.5). В
открывшемся окне необходимо задать входной интервал - диапазоны
случайных величин X1, X2, X3,…, Y (вместе с заголовками). Ставим галочку
Метки в первой строке для того чтобы, отображать названия случайных
величин в сгенерированной таблице коэффициентов корреляции MS Excel
(рис. 7.6). В ячейке выходной интервал выбираем любую пустую ячейку
листа для расположения матрицы коэффициентов корреляции.
Рис. 7.5. Окно анализ данных
33
Рис. 7.6. Матрица коэффициентов корреляции
В матрице коэффициентов корреляции данные являются
симметричными относительно главной диагонали, поэтому отображается
только часть значений.
7.4. Определение значимости коэффициентов корреляции
Математическое ожидание
случайных величин
,
и т. д. принимается равными значениям коэффициентов
корреляции, указанных в таблице на рис. 7.6.
7.4.1.
7.4.2. Среднеквадратические отклонения рассчитываются по формуле
.
(7.3)
7.4.3. При определении значимости коэффициентов корреляции
проверяется его статистически значимое отличие от нуля. Одним из способов
проверки нулевой гипотезы является построение доверительного интервала
для коэффициента корреляции.
,
(7.4)
где
– квантиль уровня
, являющийся доверительной вероятностью
. Например, при
= 3,
= 0,9973. Если интервал узок и
сосредоточен вблизи 1 или -1, то корреляция между случайными
и
величинами значима.
Узкий доверительный интервал, включающий 0, свидетельствует о
некоррелированности величин
и .
Для другого способа проверки нулевой гипотезы при больших
выборках используется критерий, который имеет вид

Если для вычисленного по выборке
неравенство
выполняется, то гипотеза
отклоняется и коэффициент корреляции
34
считается значимым, и наоборот, если
и является незначимым.
, то гипотеза
принимается
7.4.4. Для построение доверительного интервала следует использовать
значения коэффициентов корреляции, указанные в матрице на рис. 7.6 и
пакет Mathcad. Например, как показано на рис. 7.7.
Рис. 7.7. Доверительный интервал коэффициента корреляции
Из рис. 7.7 видно, что интервал
(0.989-0.996) узок и сосредоточен
вблизи единицы. Отсюда коэффициент корреляции
7.4.5. Определяется
Отсюда
значим.
значим.
. Например, для коэффициента
имеем
, и это означает, что коэффициент корреляции
7.4.6. Выполнить оценку значимости остальных коэффициентов
корреляции, размещенный в таблице на рис. 7.6 и проанализировать
результаты.
35
Лабораторная работа 8. Регрессионный анализ
Методы регрессионного анализа в частном случае позволяют
случайную связь между случайными величинами Y и X свести к неслучайной
связи межу условным математическим ожиданием одной случайной
величиной и значениями, принимаемыми другой случайной величиной, т. е.
,
где
– регрессия Y относительно X, представляющая собой неслучайную
функцию.
Практическое значение знания регрессионной зависимости между
случайными переменными Y и X заключается в возможности
прогнозирования значения зависимой случайной переменной Y от
конкретных значений, принимаемых независимой случайной переменной X.
Вид функции для изучаемого процесса задается в соответствии с его
сущностью. Например, изучаемый процесс описывается линейным
уравнением вида y = a1x + a0, для этого необходимо определить коэффициент
a1 и свободный член a0. Будем искать уравнение методом наименьших
квадратов (см. теоретический материал, лекции).
Для линейной регрессии коэффициенты a1 и a0 вычисляются по
формулам:
;
(8.1)
.
(8.2)
Полученные значения коэффициентов подставляются в уравнение.
Для оценки качества найденного уравнения регрессии используется
коэффициент детерминации R2, который варьируется в диапазоне R2 = [0;1] и
рассчитывается по формуле
,
где
(8.3)
– среднее значение y;
– вычисленное значение найденной функции регрессии для каждого
при известных a1 и a0;
Если коэффициент детерминации находится в диапазоне R2=[0,7; 1],
то уравнение регрессии хорошо описывает исходные данные. В противном
36
случае необходимо выбрать другой вид зависимости, например, нелинейную
и найти ее коэффициенты.
8.1. Расчет регрессии вручную
Пусть проведен опыт зависимости плотности трикотажа (Y) от длины
нити в петле (X). Данные опыта приведены в таблице на рис. 8.1. Необходимо
найти линейное уравнение регрессии для изучаемого процесса.
8.1.1. Создадим лист Регрессия вручную. Для удобства расчетов
коэффициентов a1 и a0 введем дополнительные столбцы х2 и x*y, как
показано на рис. 8.1, проведем вычисления и найдем суммы по каждому
столбцу.
8.1.2. Коэффициенты a1 и a0 рассчитаем в соответствии с формулами
(8.1) и (8.2).
Рис. 8.1. Вспомогательные расчёты для определения
коэффициентов а0, а1, R2
8.1.3. Для удобства расчетов коэффициента детерминации R2 добавим
в таблицу, изображенную на рис. 8.1, дополнительные столбцы
и
.
Среднее значение находится по формуле
.
Для определения расчетного значения
необходимо в уравнение
y = a1x + a0 подставить значения найденных коэффициентов a1 и a0 и
рассчитать
для каждого значения . Например, для первой строки
значение
вычисляется:
= - 51,250 9  9,19 + 777,886 5 = 306,889 8.
37
Подставив в формулу
коэффициент детерминации R2.
(8.3)
найденные
значения,
получим
8.1.4. Построим точечную диаграмму зависимости Y от X показанных
на рис. 8.2. Добавим линию тренда выбрав в правой клавише мыши Линия
тренда. В открывшемся окне установим переключатель на значение
Линейная и включим флажки Добавить уравнение регрессии, Коэффициент
детерминации. Полученное на диаграмме уравнение регрессии следует
сравнить с рассчитанным вручную.
Рис. 8.2. Построение диаграммы зависимости Y от X
8.2. Расчет регрессии средствами MS Excel
Находим регрессию при помощи подключения функции Анализ
данных. В открывшемся окне задаем входной интервал X, Y – все значения (за
исключением суммы). Ставим флажок метки, для того чтобы отображать
названия случайных величин. Установим уровень надежности равным 95 %
по умолчанию. В ячейке «выходной интервал» выбираем любую пустую
ячейку листа для расположения регрессионного анализа. Результаты расчета
представлены на рис. 8.3. Сравнить полученные результаты с ручным счетом.
38
Рис. 8.3. Регрессионный анализ средствами MS Excel
39
Лабораторная работа 9. Анализ временных рядов
Выполняется средствами программы STATGRAPHICS Plus.
Временной ряд - это последовательность наблюдений (измерений,
отсчетов) x , x , ..., x ,..., x , упорядоченная во времени. То есть xk  x( tk ) ,
1
2
k
n
k  1, n . Будем рассматривать временные ряды, в которых наблюдения
делаются через равные интервалы времени.
В виде временных рядов представлено большинство данных в
экономике, производстве и многих случаях - в технике: динамика валового
национального продукта в России, изменение спроса (душевого потребления)
на производственную продукцию, рост (падение) цен на определенные
группы товаров, отклонения в параметрах выпускаемой продукции,
характеристики работающего оборудования и т.д.
Цели такого анализа временных рядов могут быть различными:
1) сжатое описание характерных особенностей ряда; 2) предсказание
будущего на основе знаний прошлого; 3) управление процессом,
порождающим ряд.
9.1. Построение графика временного ряда
Процедуры предварительного анализа находятся в разделе Special/
Time-Series Analysis/ Descriptive Methods. Вводится имя переменной,
содержащей исходные данные; указывается интервал наблюдения (1 день,
месяц, квартал или год – Day(s), Month(s), Quarter(s), Year(s)) и указывается
дата начала временного ряда, например, для 1-го января 1982 года – 1.82
(рис. 9.1).
Рис. 9.1. Настройка параметров для предварительного анализа
Для анализа используем файл с объемами месячных продаж
автомобилей ведущих фирм США за шесть лет с января 1982 по декабрь
40
1987 года. Эти данные подвержены сезонным и случайным колебаниям, а
состояние экономики должно придавать им некоторую цикличность.
Построение графика временного ряда выполняется графической
процедурой Horizontal Time Sequence Plot. Представляющий исходные
данные график (рис. 9.2) демонстрирует регулярные колебания со
множеством вершин и впадин.
Ряд является нестационарным – среднее значение объемов продаж
изменяется с течением времени.
Рис. 9.2. График временного ряда
Разнообразные методы анализа временных рядов можно разбить на
две большие группы – методы разложения (декомпозиции) временного ряда
на составляющие и методы прогнозирования временного ряда.
9.2. Декомпозиция временного ряда
В общем случае ряд X может быть представлен как смесь четырех
компонент (рис. 9.3)
X = T + C + S + ,
1) тренда T или долгосрочного движения,
2) циклов C  более или менее регулярных колебаний относительного
тренда;
3) сезонной компоненты S;
4) остатка или несистематического случайного эффекта .
41
X = T+С+S+
T+S
T
T+С+S
T+С
Рис. 9.3. Декомпозиция временного ряда
Процедуры разложения временного ряда находятся в разделе Special/
Time-Series Analysis/ Seasonal Decomposition. Вводится имя переменной,
содержащей исходные данные; интервал наблюдения выбирается равным 1
месяцу (Manth(s)), указываются дата начала временного ряда 1.82
(Starting At) и период сезонности 12 (Seasonality) – число месяцев в году.
График тренда, демонстрирующий общую тенденцию изменения
объема продаж автомобилей, приведен на рис. 9.4. График строится
процедурой Trend-Cycle. С помощью контекстного меню (Pane Options) для
дальнейшего анализа выбрана аддитивная модель X(t) = T(t) + S(t) + (t).
42
Рис. 9.4. График тренда
Из графика хорошо видно, что объем продаж автомобилей постоянно
увеличивался до середины 1985 года, после чего в автомобильной отрасли
США начался спад.
График сезонной составляющей (процедура Seasonal Indices)
показывает индексы сезонности для каждого месяца, вычисляемые как
отношение значений исходных отсчетов к скользящему среднему (рис. 9.5).
При вычислении скользящего среднего за сглаженное значение ряда в любой
дискретной точке t принимают среднее значение в некоторой окрестности.
При изменении момента времени окрестность скользит вдоль оси t, чем и
объясняется название преобразования.
43
Рис. 9.5. График сезонной составляющей
За шестилетний период 1982 – 87 г г. наибольший сбыт автомобилей в
США наблюдался в апреле месяце, наименьший – в октябре. По всей
видимости, эти колебания объясняются организацией маркетинговых
мероприятий, проводимых автомобильными корпорациями.
График остаточной составляющей (процедура Irregular Component)
показывает значения элементов ряда после исключения соответствующей
величины тренда и сезонности (рис. 9.6).
Рис. 9.6. График остаточной составляющей
44
В феврале 1987 г. (62-й отсчет) наблюдалось наибольшее абсолютное
отклонение
сбыта
автомобилей
относительно
среднего
уровня,
приблизительно равное 43 %.
9.3. Прогнозирование временного ряда
Прогнозы бывают краткосрочные, среднесрочные и долгосрочные.
Краткосрочный прогноз выполняется на период до 1 года, среднесрочный от 1 до 5 дет, долгосрочный - свыше 5 лет.
При прогнозировании ряд экстраполируется вперед. Предварительно
осуществляется его разложение на тренд и краткосрочные сезонные и
циклические колебания.
Получение краткосрочного прогноза является одной из важнейших
проблем фирмы: спрос на отдельные виды товаров определяет необходимый
уровень запасов фирмы.
Экстраполяция трендов относится к категории долгосрочных
прогнозов. Так как тренды обычно сглаживают сезонные и циклические
колебания, их экстраполяцию не используют для краткосрочных
предсказаний.
Колебания спроса, сезонность выделяются сравнением исходного
ряда со слаженной линей тренда. Генерирование предсказанных значений
уровня спроса по M предшествующим значениям выполняется с помощью
модели авторегрессии с подобранными значениями M коэффициентов ai,
i  1, M . Число коэффициентов M выбирается в пределах от 4 до 14.
Авторегрессию
можно
интерпретировать
как
механизм,
генерирующий ряд, в котором наблюдение в момент t выражается через
прошлые значения - систематическую зависимость от прошлой истории плюс
значение случайного возмущения  в момент t. Обе модели - авторегрессии и
скользящего среднего дают сглаженные ряды { yt } : авторегрессия
сглаживает  ; скользящее среднее -  и S.
Параметры ai линейной модели авторегрессии оцениваются с
помощью стандартного метода наименьших квадратов, по минимуму
среднеквадратической ошибки
Qост 
n
 t2 
t  M 1
n

t  M 1
( xt  yt )2 
n

t  M 1
M
( xt   ai xt i )2  min .
i 1
Для оценки числа членов модели авторегрессии служит график
функции частных автокорреляций. График строится в разделе Special/ TimeSeries Analysis/ Descriptive Methods процедурой Partial Autocorrelation
Function (рис. 9.7) Он показывает величины коэффициентов корреляции
между текущими и последующими значениями продаж.
45
Рис. 9.7. График функции частных автокорреляций
Имеется 2 (из 24) статистически значимых коэффициента, выходящих
за 95 % доверительные интервалы. Последний из них (на который указывает
стрелка) соответствует трем временным интервалам. Поэтому для
прогнозирования
следует
подбирать
модель,
содержащую
3
авторегрессионных члена.
Процедуры предсказания временного ряда находятся в разделе
Special/ Time-Series Analysis/ Forecasting. Вводится имя переменной,
содержащей исходные данные; интервал наблюдения выбирается равным 1
месяцу (Manth(s)), указываются дата начала временного ряда 1.82
(Starting At), период сезонности 12 (Seasonality) и срок предсказания (Number
of Forecasts) – например, 24 месяца. Из появившегося окна общих сведений
(Analysis Summary) следует, что по умолчанию модель ищется методом
случайного поиска (Random walk).
Выбор модели прогнозирования и задание ее параметров
выполняются с помощью контекстного меню (Analysis Options). Для
долгосрочных прогнозов можно выбирать модели, основанные на
экстраполяции трендов: линейные (Linear Trend), квадратичные (Quadratic
Trend), экспоненциальные (Exponential Trend) и S-образные (S-Curve).
Учитывая наличие сезонных колебаний и кратковременность
прогноза, выберем модель ARIMA – Авторегрессионное Интегрированное
Скользящее Среднее. В этом случае временной ряд формируется из частей
двух типов: авторегрессионных членов и членов скользящего среднего, а
также константы. В модель можно включить по одному несезонному и
сезонному фактору каждого типа (AR, MA, SAR и SMA). Исходя из
результатов предварительного анализа, включим в модель, учитывающую
сезонные колебания, 3 авторегрессионных члена (SAR: 3) и 3 члена
скользящего среднего (SMA: 3) (рис. 9.8).
46
Рис. 9.8. Настройка модели ARIMA
Оценки коэффициентов подобранной модели авторегрессии и
скользящего среднего приводятся в средней части окна общих сведений
(таблица ARIMA). Поскольку их вычисленные уровни значимости (P-value)
меньше 0.05, то все шесть коэффициентов и свободный член являются
статистически значимыми (рис. 9.9).
Рис. 9.9. Оценки коэффициентов подобранной модели авторегрессии
График прогнозов (строится процедурой Trend-Cycle) включает
наблюдаемые в течение базового периода значения продаж, прогнозируемые
объемы продаж и 95 % доверительные границы для прогнозов на 2 года
(рис. 9.10).
47
Рис. 9.10. График прогнозов
График прогнозов без учета сезонных колебаний (рис. 9.11) строится
после задания в контекстном меню (Analysis Options) количества
авторегрессионных членов AR: 3 и членов скользящего среднего MA: 3, при
SAR: 0 и SMA: 0. Из графика и таблицы (строится процедурой Forecast Table)
со значениями прогнозов (столбец Forecast) можно сделать вывод, что в
среднем объемы месячных продаж автомобилей будут изменяться в
диапазоне 26 000 – 28 000.
Рис. 9.11. График прогнозов без учета сезонных колебаний
48
Качество моделей авторегрессии, отображаемых на графиках
прогнозов, можно оценить с помощью анализа остатков.
Анализ остатков, вычисляемых как разница между исходными
продажами и их предсказанными значениями, позволяет судить о том,
насколько полно подобранная модель описывает исходные данные. График
автокорреляционной функции остатков (строится процедурой Residual
Autocorrelation Function) демонстрирует величины коэффициентов
корреляции между текущими и предшествующими значениями остатков
(рис. 9.12).
Рис. 9.12. График автокорреляционной функции остатков
Имеются 3 статистически значимых коэффициента, выходящих, хотя
и незначительно, за 95 % доверительные интервалы. Это говорит о том, что
остатки не являются полностью случайными (белым шумом), в них
присутствует некоторая регулярная составляющая. Можно попытаться
подобрать другую модель временного ряда, улучшающую ее
прогнозирующие свойства.
9.4. Порядок выполнения анализа временного ряда
Файл TSDATA с исходными данными размещен в папке Data
программы Statgraphics Plus. Использовать входящие в файл переменные ggb
или bubbly.
1. Построить график исходного временного ряда.
2. Выполнить декомпозицию временного ряда с учетом сезонных
колебаний.
49
3. Выполнить прогнозирование временного ряда с помощью модели
авторегрессии и скользящего среднего. Построить графики прогнозов без
учета и с учетом сезонных колебаний.
4. Оценить качество подобранных моделей.
5. Представить отчет о лабораторной работе по пунктам 1 – 4. Дать
интерпретацию полученным результатам на примере конкретного
временного ряда с описанием его параметров.
50
Лабораторная работа 10. Дисперсионный анализ
Выполняется средствами программы STATGRAPHICS Plus.
Дисперсионный анализ (ДА) используется для оценивания влияния на
отклик Y неколичественных факторов (X1 ,..., Xp ) с целью выбрать среди них
наиболее важные. Такими качественными факторами, например, могут быть
тип оборудования или технологического процесса, вид сырья, способ
обработки и другие условия изготовления изделий, влияющие на их
выходные характеристики.
Идея дисперсионного анализа, как и сам термин дисперсия,
принадлежит английскому статистику Р. Фишеру. Метод был разработан в
20-х годах прошлого века.
В зависимости от количества факторов, включенных в анализ,
различают однофакторный, двухфакторный, а также многофакторный ДА.
При проведении ДА должны выполняться следующие статистические
предположения, которые независимо от уровня фактора величины отклика
имеют нормальный (гауссовский) закон распределения и одинаковую
дисперсию. Таким образом, изменение уровня фактора сказывается лишь на
положении случайной величины отклика (которое характеризуется средним
значением или медианой).
10.1. Однофакторный дисперсионный анализ
Предположим, исследуются четыре партии сырья для текстильной
промышленности на величину разрывной нагрузки. Из первой партии
отобраны 20 образцов, из второй  30, из третьей  25 и из четвертой 15.
Результаты испытаний занесены в файл данных (с расширением SF) под
именами yi1,..., yi4 (рис. 10.1). Требуется выяснить, существенно ли влияние
различных партий сырья (фактора A) на величину разрывной нагрузки
(отклика y), т. е. проверить гипотезу H0 : a1 = a2 = a3 = a4. Если влияние есть,
то выделить партии с близкой прочностью сырья.
51
Рис. 10.1. Результаты испытаний образцов для различных партий сырья
Для
выполнения
однофакторного
ДА
создаются
четыре
вспомогательные переменные с именами code1, ..., code4, содержащие коды
фактора A на каждом из четырех уровней. Одинаковые символы кода будут
использоваться для указания на принадлежность соответствующих им
значений разрывной нагрузки одному и тому же уровню фактора. Как
символы удобно использовать целые числа. В столбце переменной code1
вводится 20 чисел 1, code2  30 чисел 2, code3  25 чисел 3, code4  15 чисел
4.
ДА выполняется в разделе Compare/ Analysis of Variance/ One-Way
ANOVA. Вектор значений отклика вводится в поле Depend Variable
перечислением имен четырех переменных с помощью оператора JOIN4(yi1
yi2 yi3 yi4). В поле Factor в том же порядке оператором JOIN4(code1 code2
code3 code4) задаются коды уровней фактора и нажимается OK (рис. 10.2).
52
Рис. 10.2. Указание отклика и входных факторов для однофакторного ДА
C помощью табличной процедуры ANOVA Table строится базовая
таблица ДА (рис. 10.3).
Рис. 10.3. Базовая таблица ДА
Таблица показывает различные источники вариации: между группами
сырья (Betwen groups), внутри групп (Within groups), а также общее значение
(Total). В первой строке таблицы приведены характеристики, связанные с
действием анализируемого фактора: сумма квадратов (Sum of Squares), число
степеней свободы (Df), средний квадрат (Mean Square) S²мод а также Fотношение (F-ratio) и его вычисленный уровень значимости выч (P-Value).
Во второй строке выводятся характеристики остаточного рассеяния, в
третьей  значения общей суммы квадратов и его число степеней свободы.
При уровне значимости (P-Value) F-отношения, выч= <0.05, нулевая
гипотеза об отсутствии влияния различных партий сырья должна быть
отвергнута с 95 %-м уровнем доверия.
53
В этом случае анализ продолжается для получения оценок
воздействия фактора aj, j=1,..., K, где K=4, и построения для них
доверительных интервалов. Выбирается процедура Table of Means,
результатом работы которой является таблица средних (рис. 10.4).
Рис. 10.4. Таблица средних
В таблице для каждой партии сырья (уровня фактора A) приведено
число наблюдений отклика mj (Count); среднее значение yj (Mean),
являющееся оценкой воздействия фактора aj на j-м уровне. Величина Total
_
Mean равна общему среднему y . Собственно оценки эффектов влияния
_
партий сырья можно вычислить как yj  y . В столбце Stnd. Error (pooled s)
приведены стандартные ошибки отклика по группе наблюдений на каждом
mi
уровне
 ( yij  y. j )2
i 1
mi ( mi  1 )
, в столбцах Lower и Upper Limit  доверительные
интервалы для средних yj, т. е. границы интервальных оценок для aj.
Наглядное представление об оценках воздействий фактора и их
доверительных интервалах можно получить с помощью графика средних
значений yj (рис. 10.5), который строится табличной процедурой Means plot.
Пары интервалов для некоторых уровней фактора не пересекается по
горизонтали, что свидетельствует о статистической значимости различий
соответствующих средних значений. Различие между 1-й и 4-й партиями
сырья в наибольшей степени влияет на величину разрывной нагрузки.
54
Рис. 10.5. График средних значений yj
Процедура Multiple range tests позволяет выделить однородные
группы сырья. В среднем схожими являются 2 и 3 партии сырья, поскольку в
столбце Homogeneous Groups им соответствует вертикальный ряд символов
"" (рис. 10.6). В ниже расположенной таблице приводятся оценки разностей
между каждой парой средних. Звездочки для пар показывают значимость
соответствующих разностей с 95 %-м уровнем доверия.
Рис. 10.6. Результаты сравнения средних значений yj
10.2. Порядок выполнения однофакторного ДА
1. Занести случайным образом результаты испытаний четырех партий
сырья в файл данных под именами yi1,..., yi4. Значения разрывной нагрузки
для каждой партии должны лежать в определенном диапазоне, например 161
 198 для первой партии, 188  220 для второй, 137  179 для третьей, 164 
193 для четвертой.
2. Создать четыре вспомогательные переменные с именами code1, ...,
code4, содержащие коды фактора A на каждом из четырех уровней.
3. Выполнить однофакторный ДА.
Установить, существенно ли влияние различных уровней фактора A
на величину отклика Y, т. е. проверить гипотезу H0 об однородности данных:
a1 = a2 = ...= aK. Если влияние есть, то выделить группы с близкими средними
55
значениями yj (однородные группы сырья) с помощью графика средних
значений отклика и процедуры Multiple range tests.
10.3. Многофакторный ДА
Однофакторная модель может оказаться незначимой, если влияние
фактора A, определяемое F- отношением, является несущественным на фоне
большого внутригруппового разброса S ост . Этот разброс может быть вызван
не только случайными причинами, но также действием еще одного фактора
B. Фактор B дополнительно включается в модель, чтобы попытаться
уменьшить действие неучтенных факторов и повысить влияние на отклик
закономерных причин. Аналогично возникает необходимость рассмотрения
трех- и многофакторных моделей.
Рассмотрим план эксперимента с тремя факторами: A  артикул
материала, B  фасон изделия, C  цвет. Исследуем их влияние на сбыт
изделия с целью выяснить вкус покупателей. Выручка в тысячах рублей при
реализации продукции за два квартала приведена в табл. 10.1. Наблюдения
по каждому кварталу являются повторами и их можно рассматривать
независимыми, не образующими фактора. Суммы квадратов, связанные с
фиктивным фактором квартала D, будем считать одним из источников
остаточной дисперсии.
Результаты наблюдений заносятся в файл данных, содержащий
переменные с именами y, a, b, c (рис. 10.7).
В столбце y заданы 72 значения выручки продукции из матрицы
наблюдений, взятые последовательно для каждой строки. В столбцы a, b, c
введем коды уровней факторов A, B, C, соответствующие выбранной
структуре данных. Одинаковые символы кода для описываемого фактора
указывают на принадлежность соответствующих значений выручки одному и
тому же уровню этого фактора. В качестве символов удобно использовать
целые числа. Тогда в столбец a введем 18 раз повторяющуюся
последовательность чисел 1, 2, 3, 4, в столбец b  6 раз повторяющуюся
последовательность чисел 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3. В столбце c значения
должны иметь следующую структуру:
1,1,...,1, 2,
2, ..., 2,3, 3, ..., 3

  
12 раз
12 раз
12 раз



2 раза
56
.
Таблица 10.1 – Матрица наблюдений для выручки продукции,
разложенной по уровням трех факторов
Фасон B
Квартал
B1 – цельнокроенный
B2 – прилегающий
B3 – прямой
Артикул A
Артикул A
Артикул A
Цвет
C
D
A1 –
A2 –
A3 –
A4 –
A1 –
A2 –
A3 –
A4 –
A1 –
A2 –
A3 –
A4 –
х/б шерсть синте- х/б и х/б шерсть синте- х/б и х/б шерсть синте- х/б и
тика шерсть
тика шерсть
тика шерсть
C1 –
2.9
9.8
8.9
7.8
23.9
7.9
8.7
3.1
3.2
8.1
8.8
7.9
4.1
D1 корич-
12.2
3.1
8.8
21.7
6.8
15.9
2.2
2.1
2.1
6.9
1.9
4.9
10.1
5.1
7.9
22.0
9.1
16.8
3.2
2.2
7.8
5.8
3.0
2.2
13.8
8.9
12.7
28.0
15.9
10.8
3.1
2.2
6.9
5.2
2.8
6.9
D2 корич-
10.8
5.1
8.3
28.1
18.2
9.7
6.4
5.8
5.7
6.1
9.2
10.2
27.1
7.8
27.7
10.7
16.3
6.9
7.6
8.8
7.5
14.4
синий
C2 –
невый
C3 –
зелен
ый
C1 –
синий
C2 –
невый
C3 –
зелен
ый
9.0
57
Рис. 10.7. Файл Sale с данными о выручке продукции
10.4. Порядок выполнения многофакторного ДА
Вариант 1. Выручка продукции, разложенная по уровням трех
факторов (табл. 10.1).
1. Создать файл данных, содержащий переменные с именами y, a, b, c.
В столбец y занести 72 значения выручки продукции из табл. 10.1, взятые
последовательно для каждой строки. В столбцы a, b, c ввести коды уровней
факторов A, B, C, соответствующие выбранной структуре данных.
2. Выполнить многофакторный ДА с учетом взаимодействия
факторов.
Многофакторный анализ выполняется в разделе Compare/ Analysis of
Variance/ Multifactor ANOVA. В поле Dependent Variable вводится имя
переменной y, содержащей значения отклика (выручки продукции), в поле
Factors вводятся имена переменных a, b, c, содержащих коды уровней для
каждого из факторов (поле Covariates служит для ввода значений
количественных факторов и в данном случае не заполняется). Переменные
удобно выбирать из левой части диалогового окна.
С помощью табличной процедуры ANOVA Table рассчитывается
базовая таблица трехфакторного ДА без учета взаимодействия факторов.
Для построения базовой таблицы полного трехфакторного ДА с
учетом взаимодействия факторов с помощью команды контекстного меню
Analysis Options следует увеличить до 3-х максимальный порядок
взаимодействий (Maximum Order Interaction). На рис. 10.8 представлена
базовая таблица полного трехфакторного ДА.
58
Analysis of Variance for y  Tipe III Sums of Squares
Source
Sum
d.f. Mean
F-ratio
of Squares
square
MAIN EFFECTS
2
S A2 Sост
S A2
A: a
3
QA
B: b
C: c
INTERACTIONS
AB
AC
QB
2
QC
2
Q AB
6
6
Q AC
S B2
S B2
2
2
2
Sост
2
PValue

выч

выч
SC
SC S ост

выч
2
S AB
2
2
S AB
Sост

выч
2
S AC
2
BC
QBC
4
S BC
ABC
Q ABC
12
S ABC
2
2
2

выч
2
2

выч
2
2

выч
S AC Sост
S BC Sост
S ABC Sост
2
Sост
RESIDUAL
36
Qост
Q
TOTAL (CORR.)
71
All F-ratios are based on the residual mean square error.
Рис. 10.8. Базовая таблица полного трехфакторного ДА
2.1. Сделать выводы о значимости материала, из которого изготовлено
изделие (фактор A), его фасона (фактор B) и цвета изделия (фактор C) на
распродажу продукции.
Значимость влияния факторов A, B, C и их взаимодействий
проверяется по вычисленным уровням значимости выч (P-value)
соответствующих F- отношений, основанных по умолчанию на дисперсии
2
S ост . Например, если для отношения FAB=
2
S AB
2
S ост
выч < 0.05, то взаимодействие
факторов A и B является значимым.
2.2. Между какими факторами взаимодействие имеет заметную
величину? Какие факторы, рассматриваемые совместно, не оказывают
существенного влияния на сбыт изделия?
2.3. Можно ли в данной многофакторной модели пренебречь
взаимодействием всех трех факторов A, B, C, т. е. ограничиться только
рассмотрением взаимодействий второго порядка?
3. Построить графики средних значений на каждом уровне значимых
факторов (или комбинации уровней для значимых взаимодействий
факторов).
Вид таблицы средних и графиков средних значений на каждом уровне
фактора (или комбинации уровней для взаимодействия факторов) аналогичен
таблице и графикам при однофакторном ДА.
59
4. Выделить с помощью табличной процедуры Multiple range tests
однородные уровни факторов по их влиянию на сбыт изделия. Между
изделиями из каких тканей наблюдается значительное различие по влиянию
на распродажу продукции, почему? С помощью команды контекстного меню
Pane Options выбрать поочередно факторы B и C. Как характеризуют группы
однородности влияние на сбыт фасона и цвета изделий?
5. Представить отчет о лабораторной работе по пунктам 1  4. Сделать
вывод о том, каким сведениям отдает предпочтение покупатель при
совершении покупки?
Вариант 2. Влияние ассортимента товаров А, типа ткани В и
квалификации швей С на затраты времени при изготовлении продукции
(табл. 10.2).
Таблица 10.2 – Матрица затрат времени при изготовлении
продукции, разложенной по уровням трех факторов
КвалиСме- фикация
на
швей
D
D1
D2
D3
C
Артикул ткани B
B1 – хлопок
B2 – шерсть
B3 – синтетика
Тип изделия A
Тип изделия A
Тип изделия A
A1
A2
A3
A1
A2
A3
A1
A2
A3
C1
38
43
41
47
50
49
37
38
45
C2
37
40
43
36
40
47
32
37
45
C3
37
32
43
36
33
38
35
30
32
C1
33
42
51
47
43
50
36
38
36
C2
46
47
45
35
40
45
35
41
38
C3
32
31
46
37
33
46
31
32
36
C1
41
42
43
44
47
49
38
37
39
C2
45
48
43
42
38
43
35
36
42
C3
36
37
42
36
38
43
35
36
34
Эксперимент был проведен трижды: в утреннюю, вечернюю и ночную
смены для каждой швеи с каждым типом ткани и каждой моделью.
Наблюдения в каждую смену будем считать независимыми, не
образующими фактора. Необходимость работать в разные смены не влияет
на хронометраж работы швей-мотористок.
60
Выполнить многофакторный ДА с учетом взаимодействия факторов.
Использовать порядок проведения анализа, приведенный для варианта
1. сделать выводы о том, какие факторы и их взаимодействия оказывают
существенное влияние на затраты времени.
61
Содержание
Лабораторная работа 1. Моделирование значений случайных величин ...........3
Лабораторная работа 2. Построение гистограммы средствами
STATGRAPHICS Plus ..............................................................................................8
Лабораторная работа 3. Построение гистограммы средствами MS Excel ...... 10
Лабораторная работа 4. Точечные оценки случайной величины .................... 17
Лабораторная работа 5. Интервальная оценка ................................................... 20
Лабораторная работа 6. Выравнивание статистического распределения ....... 26
Лабораторная работа 7. Корреляционный анализ ............................................. 30
Лабораторная работа 8. Регрессионный анализ................................................. 36
Лабораторная работа 9. Анализ временных рядов ............................................ 40
Лабораторная работа 10. Дисперсионный анализ ............................................. 51
62
Документ
Категория
Без категории
Просмотров
13
Размер файла
2 269 Кб
Теги
2015, sredstvaissled
1/--страниц
Пожаловаться на содержимое документа