close

Вход

Забыли?

вход по аккаунту

?

Analiz dannyh konspekt lekcij

код для вставкиСкачать
Федеральное агентство связи
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ
ЭЛЕКТРОННАЯ
БИБЛИОТЕЧНАЯ СИСТЕМА
Самара
Федеральное агентство связи
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
«Поволжский государственный университет телекоммуникаций и
информатики»
___________________________________________________
Кафедра информационных систем и технологий
КОНСПЕКТ ЛЕКЦИЙ
ПО УЧЕБНОЙ ДИСЦИПЛИНЕ
«АНАЛИЗ ДАННЫХ»
по специальности (направлению подготовки):
Информационные системы и технологии
Самара
2013
2
УДК 004.02:004.6
Салмин А.А.
Анализ данных. Конспект лекций. – Самара.: ПГУТИ, 2013. - 111 с.
Рассматриваются вопросы анализа данных. Приводятся некоторые из
основополагающих методик анализа данных, такие как: регрессионный анализ,
корреляция,
дисперсионный
анализ
и
др.
Отражены
вопросы
интеллектуального анализа данных, с помощью которого можно выявить ранее
неизвестные, нетривиальные закономерности в данных.
Рецензент:
Тарасов В.Н. – д.т.н., профессор, зав. кафедрой «Программного обеспечения
и управления в технических системах» ПГУТИ
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
«Поволжский государственный университет телекоммуникаций и
информатики»
© Салмин А.А., 2013
3
Содержание конспекта лекций
ВВЕДЕНИЕ
1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ»
1.1. Работа с данными
1.2. Этапы решения задачи анализа данных и их взаимосвязи
2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ
2.1. Вероятность
2.2. Распределения вероятностей
2.3. Случайные переменные и случайные выборки данных
2.4. Нормальное распределение
2.5. Формула Байеса
3. СТАТИСТИКА ВЫВОДОВ
3.1. Доверительные интервалы
3.2. Проверка гипотез
3.2.1. Типы ошибок
3.2.2. Области принятия и непринятия
3.2.3. t-распределение
3.3. Применение непараметрического теста для парных данных
4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ
4.1. Сводные таблицы
4.2. Вычисление ожидаемого количества
наблюдений
4.3. Статистика хи-квадрат Пирсона
5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА
5.1. Понятие «регрессия»
5.2. Простая линейная взаимосвязь
5.2.1. Уравнение регрессии
5.2.2. Подгонка линии регрессии
5.2.3. Интерпретация параметров регрессии
5.3. Проверка модели регрессии
6. КОРРЕЛЯЦИЯ
6.1. Понятие «корреляции»
6.2. Матрица корреляции
6.3. Матрица точечных диаграмм корреляций
7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
7.1. Уравнение множественной регрессии
7.2. Проверка допущений регрессии
7.3. Пошаговая регрессия
7.4. Логистическая регрессия
7.5. Нелинейная регрессия
8. ДИСПЕРСИОННЫЙ АНАЛИЗ
8.1. Однофакторный дисперсионный анализ
8.2. Однофакторный дисперсионный анализ и анализ регрессии
5
7
8
9
15
15
16
18
18
19
22
22
23
24
24
25
27
30
30
32
33
35
35
35
35
37
39
40
43
43
44
45
47
47
49
51
51
52
53
53
57
4
8.2. Двухфакторный дисперсионный анализ
58
9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ
62
9.1. Когнитивный анализ
62
9.2. Методика когнитивного анализа сложных ситуаций
63
9.3. Регрессионно - когнитивный анализ
64
10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
67
10.1. Системы аналитической обработки данных
67
10.1.1. CRM – технология
67
10.1.2. ERP – системы
69
10.1.3. OLAP – технология
69
10.2. Интеллектуальный анализ данных (Data Mining)
70
10.2.1. Этапы исследования данных с помощью методов Data Mining71
10.2.2. Типы закономерностей
71
10.2.3. Методы Data Mining
72
ВВЕДЕНИЕ
Предлагаемый конспект лекций по дисциплине «Анализ данных»
обеспечивает подготовку студентов к эффективному использованию
современных компьютерных средств анализа данных. Предлагаются основные
темы, посвященные формированию теоретических и практических навыков
работы с пакетами прикладных программ для решения задач анализа и
интерпретации данных для создания прогнозов ситуации и принятия
управленческих решений. В рамках конспекта лекций по дисциплине
рассматриваются различные способы создания, форматирования, описания
базовых принципов работы с таблицами данных с целью их последующего
анализа при помощи статистических и математических методов. Таким
образом, у будущих специалистов осуществляется формирование основ
теоретических знаний и практических навыков работы в области анализа
данных и принятия управленческих решений.
Следует также отметить тот факт, что в качестве программного
обеспечения для усвоения курса предлагается использовать продукт MS Excel,
который располагает достаточными средствами анализа данных, такими как:
пакет анализа, общими статистическими функциями мастера функций и т.д.
Кроме тог, предлагается дополнительно использовать подключаемый модуль
StatPlus.
Дисциплина «Анализ данных» базируется на знании предметов
«Информационные технологии», «Электронные таблицы», «Вероятность и
статистика», изучаемых в образовательных учреждениях высшего образования.
5
Элементы курса «Анализ данных» используются при изучении курсов
«Моделирование систем», «Проектирование информационных систем»,
«Надежность информационных систем».
Задача материала данного конспекта лекций в том, чтобы:
- предоставить студентам общие сведения о принципах обработки и
анализа данных с целью получения из них новых сведений;
- показать методы, средства и технологии анализа данных;
- показать на примере регрессионного анализа принцип получения
новых знаний из данных.
Знания и навыки, полученные в результате изучения данной дисциплины,
могут быть применены:
1. при проведении анализа данных с целью получения статистической
информации или прогноза ситуации;
2. для интерпретации полученных результатов в ходе анализа;
3. при формулировании технического задания при создании ИС силами
профессиональных разработчиков.
6
7
1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ»
1.1. Работа с данными
Данные – это воспринимаемые человеком факты, события, сообщения,
измеряемые характеристики, регистрируемые сигналы.
Специфика данных в том, что они, с одной стороны, существуют
независимо от наблюдателя, а с другой – становятся собственно «данными»
лишь тогда, когда существует целенаправленно собирающий их субъект. В
итоге: данные должны быть тем основанием, на котором возводятся все
заключения, выводы и решения. Они вторичны по отношению к цели
исследования и предметной области, но первичны по отношению к методам их
обработки и анализа, извлекающим из данных только ту информацию, которая
потенциально доступна в рамках отобранного материала.
Данные получаются в результате измерений. Под измерением понимается
присвоение символов образцам в соответствии с некоторым правилом. Эти
символы могут быть буквенными или числовыми. Числовые символы также
могут представлять категории или быть числовыми.
Различают 4 типа шкал измерений:
1) Шкала наименований. Эта шкала используется только для
классификации. Каждому классу данных присваивается свое обозначение так,
чтобы
обозначения различных классов не совпадали. Например,
классификация людей по полу М и Ж (1 и 2, 10 и 100) или категория да/нет.
Причем арифметические операции не имеют смысла для шкал наименований.
Для данной шкалы центром измерения является мода (часто повторяющийся
элемент).
2) Порядковая шкала. Данная шкала позволяет не только разбивать
данные на классы, но и упорядочить сами классы. Каждому классу
присваивается различные обозначения так, чтобы порядок обозначений
соответствовал порядку классов. Если мы нумеруем классы, то классы
находятся в числовом порядке; если обозначаем классы по средствам букв, то
классы находятся в алфавитном порядке. Например, необходимо
идентифицировать индивидуумы по трем социально-экономическим
категориям – низкий, средний, высокий: 1 – низкий, 2- средний, 3 – высокий; или
X – низкий, Y – средний, Z – высокий. Применяются любые обозначения цифр
или букв. Арифметические операции для этой шкалы также не имеют
смысла.
3) Интервальная
шкала.
Эта
шкала
позволяет
не
только
классифицировать и упорядочивать данные, но и количественно оценивать
различие между классами. Для проведения таких сравнений необходимо ввести
единицу измерения и произвольное начало отсчета (нуль-пункт). Например,
температура в градусах Фаренгейту принадлежит интервальной шкале, где
0F является началом, 1F - единицей измерения.
4) Шкала отношений. Эта шкала отличается от интервальной шкалы
лишь тем, что в ней задано абсолютное начало отсчета. Т.е. в данной шкале
8
можно определить, во сколько раз одно измерение превосходит другое.
Например: рост человека в дюймах принадлежит шкале отношений, в которой
в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица
измерения.
Кроме того, наблюдения делятся на: дискретные и непрерывные.
Именованные и порядковые данные всегда дискретны, а интервальные и
относительные могут быть как дискретными, так и непрерывными. Например,
непрерывные: стрельба по мишени (любой исход), температура (интервальная
шкала); дискретные: игральная кость (1, 2, 3 …6), монета (орел/решка), число
телефонных вызовов за один час (шкала отношений) (рис. 1.1).
Рис. 1.1. Дискретные и непрерывные данные
1.2. Этапы решения задачи анализа данных и их взаимосвязи
Анализ данных – это совокупность методов и средств извлечения из
организованных данных информации для принятия решений.
Этап 1
Постановка
задачи
Этап 2
Ввод данных в
обработку
Этап 3
Качественный
анализ
Этап 4
Количественное
описание
данных
Этап 5
Интерпретация
результатов
1.1. Определение цели исследования
1.2. Определение состава данных
1.3. Сбор данных
1.4. Выбор средств анализа данных
1.5. Формализация данных
2.1. Ввод данных в память ЭВМ
2.2. Работа с архивом данных
2.3. Формирование задания обработки
3.1. Определение простейших
характеристик данных
3.2. Визуализация данных
3.3. Анализ структуры данных
4.1. Выбор модели данных
4.2. Выполнение обработки
5.1. Анализ результатов
5.2. Принятие решений
9
Рис. 1.2. Этапы анализа данных
Основные этапы решения задачи анализа данных показаны в левой части
рис. 1.2. В правой части каждый из них разбит на более мелкие стадии.
Постановка задачи (является определяющим этапом, от которого
зависит весь ход анализа) начинается со стадии формулировки цели всего
исследования, ради достижения которой и предпринимаются сбор и обработка
данных. Исходя из цели, определяется состав данных, которые необходимо
собрать. Одна из типичных ошибок исследователей состоит в том, что
сначала собираются данные, а затем начинают формулироваться задачи их
обработки. Заранее собранные данные могут отражать совсем другие
характеристики явления, нежели те, которые важны для поставленной цели.
Типичная форма при сборе данных – таблица «объект – признак», в
которую заносятся значения признаков (свойств), характеризующие каждый
исследуемый объект. Примерами признаков могут быть «вес», «длина»,
«цвет», «профессия», «пол», наличие или отсутствие симптома и т.д.
Объекты – «люди», «изделия», «услуги» и т.д. Таблицей такого вида принято
называть таблицей экспериментальных данных (ТЭД).
В качестве примера ТЭД приведена следующая таблица, содержащая
сведения о некоторых услугах телекоммуникационной компании:
Объекты
Вид
услуги
Интернет
Местная
связь
Меж/гор.
связь
Меж/
народн.
связь
Передача
данных
Радиотран
сляция
Мобильн.
Связь
Год
ввода
услуг
и
Популяр Тариф
ность
(руб.)
усл.
(%)
x2
x3
Таблица 1.1. Пример ТЭД
Признаки
Плата от организаций
(руб.)
«А»
«Б»

x4
x5
x6
x1
2000
1990
8
75
0,26
0,10
1200
7600
120
8000
1320
15600
1993
7,5
4,5
450
0
450
1995
3,5
9
360
0
360
1995
4,1
1,3
0
10
10
1992
2,7
1,2
25
250
275
2002
3
2,2
750
0
750
10
Состав данных – это состав признаков, которые характеризуют объекты.
На стадии выбора средств происходит выбор пакета программ или системы
анализа данных. Факторы, влияющие на выбор средств: объема данных, числа
объектов и признаков, типов признаков, типов доступных ЭВМ, квалификации
пользователя.
На стадии формализация собранных данных ТЭД необходимо придать
такой вид, какого требует от входных данных выбранная пользователем
автоматизированная система анализа данных. Результатом является
формализованная ТЭД, готовая к вводу в систему.
Суть второго этапа анализа заключается в том, что данные сначала
вводятся в ЭВМ, где они попадают в архив данных, а затем все или некоторая
часть данных выбирается из архива, после чего только начинается (но уже за
пределами второго этапа) процесс, традиционно называемый обработкой.
В архиве данных при помощи специальных программ – редакторов
происходит проверка введенных данных и исправление ошибок. В задании
обработки указываются размеры ТЭД, место хранения данных, типы признаков
в ТЭД, тип решаемой задачи, режим печати результатов и пр.
Анализ данных на качественном уровне – это попытка представить
собранные данные в визуальной форме, с целью: увидеть их пригодность для
проверки выдвинутых гипотез или достижения поставленной цели.
x2
№
объекта
1
2
3
4
б)
8
75
7,5
3,5
4
5
в)
,1
2
Рис.1.3. Значение признака «популярность услуги» (а),
3 изображение этого признака в виде числовой оси (б) и
0 гистограммы (в)
6
7
,7
8
,7
а)
Представление данных на числовой оси называют проекцией данных на
признак. Этот же признак можно изобразить, разбив всю область его значений
на некоторое количество интервалов, представляющих собой гистограммой
объектов по признаку.
11
Основные задачи при качественном анализе:
1. Экономичное, или информативное, описание данных. Содержательная
постановка задачи: найти небольшое число наиболее важных свойств
(характеристик, особенностей) исследуемого явления. Формальная постановка
задачи – устранить дублирующие друг друга признаки или найти (построить)
новые признаки (меньшее число), описывающие данные. Пример: нахождение
системы признаков «размеров» - «рост» - «полнота», описывающей фигуру
человека и определяющей типоразмеры при изготовлении готовой одежды
(рис. 1.4а).
2. Группировка (классификация) объектов. Содержательная постановка:
среди множества исследуемых объектов найти группы с похожими свойствами.
Формальная постановка: обнаружить в пространстве описания компактные
распределения точек. Пример: классификация растений, животных по видам
(рис. 1.4б).
3. Исследование зависимости одного признака от остальных (описание
целевого признака). Содержательная постановка: описать взаимосвязь
(зависимость) избранного свойства исследуемых объектов от остальных
свойств. Функциональная постановка: найти функциональную зависимость,
приближенно описывающую изменение целевого признака при изменении
других признаков (рис. 1.4в).
4. Распознавание образов (классификация с обучением). Содержательная
постановка: найти правило, пользуясь которым можно определить
принадлежность любого объекта к одному из выданных образов (классов
объекта). Функциональная постановка: найти в пространстве описания область,
разделяющую группу точек, соответствующих различным образам, и описать ее
как функцию исходных признаков; найти к какой группе точек (образу)
относятся заданные объекты (рис. 1.4г).
а) поиск информативного описания
в) описание целевого признака
б) группировка объектов
г) распознавание объектов
12
Рис. 1.4. Графическое представление задач при качественном анализе
Таким образом, на этапе качественного анализа объектом исследования
является структура данных, а результатом, – как правило, информация о классе
моделей, которыми можно описать явление.
На этапе количественного описания данных ведется поиск параметров
моделей, созданных на предыдущем этапе. Сопоставительный анализ помогает
отбирать лучшие варианты, имеющие право на существование не только как
формальные результаты экспериментирования, но и как содержательно
значимая информация о предметной области.
Т.е. происходит описание созданной модели на языках формулы,
отражаются количественные характеристики анализируемых данных. Причем
очень часто возникает необходимость возврата к более ранним этапам
обработки и повторения всего цикла исследования.
На этапе интерпретации результатов и принятия решения принимается
решение об итогах анализа данных:
- прекращение дальнейшей обработки, т.к. поставленные ранее цели
достигнуты;
- решение о продолжении обработки данных с использованием других
методов, возможно, с коррекцией данных;
- решение о недостаточности данных или о том, что данные не содержат
достаточной информации об исследуемом явлении. В этом случае анализ
начинается заново.
Таким образом: успех анализа данных зависит не столько от доступных
методов, алгоритмов и систем обработки, сколько от овладения пользователем
методологией их применения.
Вопросы для самоконтроля
1.
2.
3.
4.
5.
6.
7.
Дайте определение понятию «данные».
Назовите типы шкал с примерами?
Чем дискретные данные отличаются от непрерывных?
Что такое анализ данных?
Назовите этапы анализа данных.
Чем качественный этап анализа данных отличается от количественного?
Опишите основе задачи при качественном анализе данных.
ГЛОССАРИЙ
Данные – воспринимаемые человеком факты, события, сообщения, измеряемые
характеристики, регистрируемые сигналы.
Измерение - присвоение символов образцам в соответствии с некоторым
правилом
Нуль-пункт произвольное начало отсчета в интервальной шкале.
13
Анализ данных – совокупность методов и средств извлечения из
организованных данных информации для принятия решений.
Проекция данных на признак - представление данных на числовой оси
называют.
Гистограмма объектов по признаку - область значений исходных данных на
некоторое количество интервалов
14
2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ
В данной главе рассматриваются распределения вероятностей, которые
образуют основу для понимания и интерпретации статистических данных.
Кроме того, здесь приводится краткое введение в статистику выводов, которая
используется для вывода заключений о данных на основе итоговых
статистических характеристик.
2.1. Вероятность
Предсказания играют большую роль в математике и других областях
науки. Некоторые предсказания можно сделать с очень высокой точностью.
Например,
- законы физики - предсказывание время падения тела под действием силы
тяжести;
- законы химии
- предсказывание свойства смеси двух химических
компонентов.
Однако результаты некоторых процессов невозможно предсказать с
большой точностью. Подбросьте монету и попытайтесь предсказать, какой
стороной она упадет на стол. Исход этого явления нельзя спрогнозировать
точно, но это вовсе не значит, что нам ничего не известно о характеристиках
данного явления. Если подбрасывать монету многократно, то она
приблизительно одинаковое количество раз упадет одной и другой стороной
вверх.
Подбрасывание монеты является классическим примером случайного
явления (random phenomenon), в котором нельзя точно определить отдельные
исходы, но суммарный исход имеет определенную закономерность.
При изучении случайных явлений основная цель — это вычисление общих
характеристик совокупности случайных явлений для создания общих выводов
и предсказаний.
Способы достижения цели:
1) использование теории. Допустим, что монета идеальная и имеет две
совершенно одинаковые стороны. Поэтому вероятности падения на обе
стороны абсолютно равны, т.е. оба исхода данного случайного явления
равновероятны. Таким образом, можно определить теоретическую вероятность
случайного события согласно формуле:
теоретическая _ вероятность _ явления 
количество _ способов_ получения _ данного _ явления
общее _ количесвто _ равновероятных _ исходов
В примере с подбрасыванием монеты есть только один способ выпадения
одной стороны и два равновероятных исхода. Поэтому теоретическая
вероятность выпадения одной стороны равна 1/2, или 0,5.
2) наблюдения. Для определения вероятности выпадения одной стороны
монеты, например ―орла‖, нужно несколько раз подбросить монету. Исходя из
15
этих наблюдений, можно вычислить относительную частоту (relative
frequency) выпадений согласно формуле:
относительная _ частота 
количество _ повторений _ явления
общее _ количество _ испытаний
На рис. 2.1 показана диаграмма с результатами 5 000 подбрасываний
монеты. Сначала относительная частота выпадений «орла» значительно ниже
0,5, но по мере возрастания количества подбрасываний она приближается к
значению 0,5. Согласно закону больших чисел (law of large numbers), по мере
возрастания числа повторений события его относительная частота
приближается к вероятности события. И наоборот, вероятность события можно
определить как предельное значение, к которому стремится относительная
частота после бесконечно большого количества попыток.
Рис. 2.1. Относительная частота выпадения «орла» в зависимости от
количества выбросов
2.2. Распределения вероятностей
Набор вероятностей для нескольких событий называется распределением
вероятностей.
Основные свойства распределения вероятностей:
1. Вероятность каждого события или комбинации событий должна
находиться в диапазоне от 0 до 1;
2. Сумма вероятностей всех возможных событий должна быть равна 1.
В примере с подбрасыванием монеты возможны два исхода (орел и решка)
с равной вероятностью 0,5, а их сумма равна 1. Поэтому данный пример
обладает признаками распределения вероятностей.
Распределения вероятностей могут быть:
- дискретными;
- непрерывными.
В дискретном распределении вероятностей вероятности связаны с набором
дискретных исходов.
Пример: вероятности выпадения орла или решки подбрасывании монеты
образуют дискретное распределение вероятностей. Вероятность выпадения
разных сторон при подбрасывании игральной кости с шестью сторонами
16
также образуют дискретное распределение вероятностей, причем
вероятность выпадения любой стороны равна 1/6.
Дискретность распределения не означает его конечность. Существуют
дискретные распределения, которые имеют бесконечное количество
возможных исходов.
Пример, распределение Пуассона:
p( y) 
y
y!
 e  ,
y  0,1,2,...
(2.1)
где  - среднее количество событий в указанный период времени.
Пример: требуется определить количество срывов связи на заданной сети
в определенном году, если известно, что среднее число таких срывов равно 3.
Чему равна вероятность двух срывов в данном году. Используется
распределение Пуассона: =3, y=2:
32 3 9  0.0498
e 
 0.224 ,
2!
2 1
p ( y )  22 % .
вероятность двух срывов в данном году
Рис. 2.2. Распределение вероятностей Пуассона для срывов на сети
В непрерывном распределении вероятностей вероятности связаны с
диапазоном непрерывных исходов. Пример: стрельба по мишени. Для
вычисления непрерывного распределения вероятностей используется функция
плотностей вероятности f(x) (2.1) (рис 2.3).
b
P(a  x  b)   f ( x)dx ;
(2.2)
a

P(; ) 
 f ( x)dx  1

Рис. 2.3. Функция плотности вероятности
17
Вероятность, связанная с заданным диапазоном значений, равна площади
под кривой ФПВ. Общая площадь под кривой должна быть равна 1.
2.3. Случайные переменные и случайные выборки данных
Случайная переменная — это переменная, которая принимает значения
случайным образом в соответствии с распределением вероятностей.
Дискретная случайная переменная принимает значения в соответствии с
дискретным распределением вероятностей (имеет счетное множество
значений), а непрерывная случайная переменная в соответствии с непрерывным
распределением вероятностей (множество ее значений представляют собой
конечный или бесконечный порядок числовой оси).
Каждое зарегистрированное значение, которое принимает случайная
переменная называется наблюдением, например, выпадение определенной
стороны при подбрасывании монеты или подсчитываемое ежегодно количество
дорожно-транспортных происшествий. Набор нескольких таких наблюдений
называется выборкой. Если наблюдения генерируются совершенно случайным
образом и без какой-либо тенденции, то набор наблюдений называется
случайной выборкой.
С увеличением числа опытов увеличивается точность предсказания (рис.
2.4).
Рис. 2.4. Гистограммы с распределениями попаданий после 50 и 500
выстрелов
2.4. Нормальное распределение
Непрерывная случайная величина называется распределенной
нормальному закону, если ее плотность вероятности имеет вид:

1
f ( y) 
e
 2
по
( y  )2
2 2
,
(2.3)
где  - математическое ожидание (центр, или среднее, распределения);
2 – дисперсия;
 - среднее квадратическое отклонение этой величины (размах
распределения).
Если  = 0 и  = 1, то такое нормальное распределение называется
стандартным нормальным распределением.
18
Около 68,3% наблюдаемых значений находятся в пределах оного
стандартного отклонения от среднего [1], около 95,4% - в области 2 или двух
стандартных отклонений, более 99% - в области 3 или трех стандартных
отклонений.
Основные функции Excel для работы с нормальным распределением
Для проверки степени соответствия данных нормальному распределению
вычисляются нормальные метки. Нормальная метка – это ожидаемое значение
для
выборки,
которая
соответствует
стандартному
нормальному
распределению.
2.5. Формула Байеса
Формула Байеса позволяет связать априорную и апостериорную
вероятности событий. Вместе с тем, при последовательной реализации системы
проверок каждое новое испытание требует рассматривать результат
предыдущего как исходные данные для последующего. На рис. 2.5
представлена обобщенная схема байесовского пересчета.
Рис. 2.5. Пересчет вероятностей при помощи формулы Байеса
Если события Н1 , Н 2 ,, Н n попарно несовместные события, объединение
которых совпадает с пространством элементарных событий проводимого
испытания (образуют полную группу событий, или полную систему событий),
и событие A – случайное событие из этого пространства, то для нахождения
вероятности события A, т.е. P( A) , используется формула полной вероятности:
n
P ( A)   P ( H i )  PH i ( A) .
i 1
19
В этом случае события Н1 , Н 2 ,, Н n обычно называют гипотезами. Сумма
вероятностей гипотез H i должна быть равна единице, т.е.
n
 P( H i )  P( H 1 )  P( H 2 )    P( H n )  1 .
i 1
Если выполняются все условия, имеющие место для формулы полной
вероятности и известно, что событие A уже наступило, то можно вычислить
условную вероятность того, что вместе с событием A осуществилась гипотеза
H i по формуле Байеса:
P( H i )  PH ( A) ,
PA ( H i ) 
i
P( A)
где P( A) – полная вероятность события A.
С помощью формулы Байеса можно после испытания уточнить
вероятность происхождения гипотезы H i .
Кластеризация, основанная на формуле Байеса, не несет простых
объяснительных функций, она лишь предлагает исследователю уточнить его
знания на основе новых знаний, закодированных в новых порциях информации.
В этом смысле наблюдения над многоэтапными экспериментами как процесс,
который интегрирует в себя новые и новые знания, может оказаться
значительно более информативным, чем любые альтернативные подходы. На
рис. 2.6. приведена схема сегментного анализа, построенная на формуле Байеса.
Рис. 2.6. Схема сегментного анализа, построенная на формуле Байеса
Для рис. 2.6. формула Байеса примет вид:
 


p S j ЛХ 1 : lx1z , ЛХ 2 : lx 2h ,..., ЛХ i : lx ik 

 



 p ЛХ 1 : lx1z , ЛХ 2 : lx 2h ,..., ЛХ i : lxik S j  pS j 
j 1
где
 
 


p ЛХ 1 : lx1z , ЛХ 2 : lx 2h ,..., ЛХ i : lx ik S j  p S j 
n

p S j ЛХ1 : lx1z , ЛХ 2 : lx2h ,...,ЛХ i : lxik
;
 - вероятность принадлежности объекта сегменту Sj
при условии, что он обладает определѐнными категориальными значениями
ЛХ;

 

p ЛХ1 : lx1z , ЛХ 2 : lx2h ,...,ЛХ i : lxik S j
- вероятность того, что объект обладает
определѐнными категориальными значениями ЛХ при условии его
принадлежности сегменту Sj;
20
  - безусловная априорная вероятность принадлежности объекта сегменту

p Sj
Sj;
ЛХ1 : lx1z , ЛХ 2 : lx2h ,...,ЛХ i : lxik  - категориальные
значения ЛХ объекта.
Другой привлекательной особенностью метода кластеризации при
сегментации объекта на основе байесовского алгоритмического подхода
является его универсальность, инкапсулированная в простую и давно
известную формулу. Введение в модель новых атрибутов, новых фактов,
увеличение размерности и этапности эксперимента не вносят принципиальных
изменений в алгоритм перерасчета апостериорных вероятностей. Вместе с тем
такой перерасчет способен значительно увеличить информативность процесса
получения новых знаний на основе основного свойства информации – еѐ
аддитивности.
Вопросы для самоконтроля
1.
2.
3.
4.
5.
6.
7.
Дайте определение понятию «вероятность».
Чем относительная частота отличается от вероятности?
Назовите основные свойства распределения вероятности?
Чему равна общая площадь под кривой функции плотности вероятности?
Что такое случайная переменная?
Дайте определение понятию «нормальная метка»?
Какие действие позволяет произвести формула Байеса.
ГЛОССАРИЙ
Распределение вероятностей – набор вероятностей для нескольких событий.
Случайная переменная — это переменная, которая принимает значения
случайным образом в соответствии с распределением вероятностей
Наблюдение - каждое зарегистрированное значение, которое принимает
случайная переменная.
Выборка - набор нескольких наблюдений.
Случайная выборка – набор наблюдений, который генерируются совершенно
случайным образом и без какой-либо тенденции.
Нормальная метка – это ожидаемое значение для выборки, которая
соответствует стандартному нормальному распределению
21
3. СТАТИСТИКА ВЫВОДОВ
Основные компоненты статистики выводов являются:
- доверительные интервалы;
- критерии проверки гипотез.
3.1. Доверительные интервалы
Доверительные интервалы помогают определить точность оценки
истинного среднего на основе выборочного среднего.
Основные свойства распределения и выборки при определении
доверительного интервала:
1) выборочное среднее приблизительно удовлетворяет нормальному
распределению со средним распределением  и стандартным отклонением
 / n , где n – размер выборки;
2) в нормальном распределении около 95% значений попадают в диапазон
двух стандартных отклонений от среднего. Пример: если  = 10, а n = 25, то
выборочное среднее удовлетворяет нормальному распределению со средним 
и стандартным отклонением 2. Т.е. с вероятностью 95% выборочное среднее
попадает в диапазон отклонения на 4 единицы от . Это значит, что если
выборочное среднее равно 20, то  с вероятность 95% находится в диапазоне
от 16 до 24. Этот диапазон называется доверительным интервалом. Для
уменьшения доверительного интервала нужно увеличить размер выборки.
Нужно вычесть среднее распределение  из выборочного среднего и
разделить частное на стандартную ошибку. Полученное значение
удовлетворяет стандартному нормальному распределению и называется zстатистикой:
x
.
/ n
Для случайной переменной Z должно выполняться условие:
(3.1)
P z1 / 2  Z  z1 / 2   1    P
Формула расчета доверительного интервала с учетом z-статистики:

 

(3.2)
P x  z1 / 2
   x  z1 / 2
  1 ,

n
n
где  - среднее отклонение;
 - стандартное отклонение;
n – размер выборки;
P – вероятность попадания в центр распределения;
 - вероятность попадания в один из хвостов распределения (которая равна
1-P);
Z – случайная переменная. При P=0,95 и =0.05  z10.05/ 2  z0.975  1.96
22
Рис. 3.1. Двустороннее z-значение
Т.о. верхняя и нижняя границы доверительного интервала для  равны
x  z1 / 2 / n .
3.2. Проверка гипотез
Метод проверки гипотез основан на создании теории изучаемого явления и
проверке ее обоснованности с помощью статистических параметров. В
статистике сначала формулируется теория, затем собираются данные, и
выполняется проверка.
Алгоритм создания и проверки теории (рис. 3.2):
Рис. 3.2. Создание и проверка теории
Проверка гипотезы включает четыре основных элемента:
1. Формулировка нулевой гипотезы H 0 .
2. Формулировка альтернативной гипотезы H a .
3. Вычисление статистики теста.
4. Определение области непринятия гипотезы.
Нулевая гипотеза, или нуль-гипотеза H 0 представляет используемую по
умолчанию или общепринятую теорию изучаемых явлений. Нулевая гипотеза
считается истинной, если только нет убедительных контраргументов.
23
Альтернативная гипотеза H a представляет альтернативную теорию,
которая автоматически считается истинной, если отвергается нулевая гипотеза.
Статистика теста — это статистика, вычисленная после анализа данных,
которые используются для принятия или непринятия нулевой гипотезы.
Область (или диапазон) непринятия гипотезы — это набор значений
статистики теста, для которых нулевая гипотеза отвергается (или принимается).
3.2.1. Типы ошибок
1. Ошибка первого типа заключается в отказе от нулевой гипотезы, которая
на самом деле является истинной. Обозначение: .
2. Ошибка второго типа заключается в принятии нулевой гипотезы, тогда
как на самом деле истинной является альтернативная гипотеза. Обозначение: .
В статистике используется предельное значение, которое называется
уровнем значимости и является самым высоким значением, допускающим
вероятность возникновения ошибки первого типа. Чаще всего для уровня
значимости используется величина 0,05; т.е. если нулевая гипотеза верна, то
данные попадают в этот диапазон непринятия с вероятностью 0,05, причем в
таком случае нулевая гипотеза отвергается.
3.2.2. Области принятия и непринятия
Область непринятия гипотезы. Наоборот, значения внутри данного
диапазона образуют область принятия гипотезы, т.е. при попадании значений
выборочного среднего в эту область нулевая гипотеза принимается. Верхняя и
нижняя границы области принятия гипотезы называются критическими
значениями, так как занимают критически важное положение при определении
приемлемости или неприемлемости нулевой гипотезы.
Попробуем применить эту формулу в данном примере, где 0 = 50,  = 15,
n = 25, = 0,05, т.е. вероятность возникновения ошибки первого типа равна 5%.
Поэтому область принятия гипотезы вычисляется так:
граница области принятия =
50  1.96  15 25  50  5.88  44,12;55,88 
Любое значение меньше 44,12 или больше 55,88 дает основание для отказа
от нулевой гипотезы. Поскольку 45 попадает в область принятия гипотезы,
то следует принять нулевую гипотезу и не считать, что внедрение нового
технологического процесса снижает количество дефектных резисторов в
партии.
Вероятность того, что некое значение так же экстремально, как и
наблюдаемое заданное значение, называется p-значением и вычисляется при
24
помощи z-значения:
x
/ n
p-значение для одностороннего теста
.
вычисляется как:
р-значение = НОРМСТРАСП(z).
Если р меньше, чем =0,05 (при 95% доверительном интервале), то
нулевая гипотеза отвергается с уровнем значимости , иначе нулевая гипотеза
принимается.
3.2.3. t-распределение
В данном методе считается, что значение  (станд. отклон.) не известно.
Вместо  используется стандартное отклонение выборки s. Метод был
обнаружен Вильямом Госсетом (в начале 20 века). Он обнаружил, что при
подстановке s вместо  соотношение
x
удовлетворяет не стандартному
s/ n
нормальному распределению, а так называемому t-распределению. Это
распределение вероятности с центром в точке 0, которое характеризуется также
количеством степеней свободы и равно размеру выборки минус единица.
Например: выборка из 20 наблюдений имеет 19 степеней свободы. По мере
увеличения размера выборки форма t-распределения приближается к форме
стандартного нормального распределения, но малые выборки существенно
отличаются от него.
Рис. 3.3. t-распределение
3.2.4. t-статистика
В Ехсеl предусмотрено
распределениями.
несколько
функций
для
работы
с
t-
Таблица 3.1. Две функции Excel для работы с t-распределениями:
Попробуем использовать эти функции Ехсеl для решения задачи о ценах на
учебники. Известно, что согласно утверждению администрации колледжа
студентам не придется тратить на учебники более 200 долларов в семестр.
25
Корреспондент студенческой газеты решил проверить это утверждение и
опросил 25 случайно выбранных студентов. Выборочное среднее оказалось
равным 220 долларов, а стандартное отклонение — 25 долларов. Можно ли на
основании этих данных утверждать, что заявление администрации не
соответствует истине?
Прежде всего, нужно сформулировать следующие гипотезы:
• нулевая гипотеза Н0: средняя стоимость учебников 0 равна 200 долларов;
• альтернативная гипотеза На: средняя стоимость учебников не равна 200
долларов.
Теперь вычислим t-статистику:
t n 1 
x  0
s n

220  200 20

 2.
10
50 25
Для проверки нулевой гипотезы с помощью функций Ехсеl необходимо: в
ячейке А1 введите формулу =СТЬЮДРАСП (2; 24; 2) и нажмите клавишу
<Еntег>.
В данном случае аргумент 2 - это значение t-статистики, аргумент 24 —
количество степеней свободы, а аргумент 2 означает применение
двустороннего t-теста.
В данном примере функция СТЬЮДРАСП возвращает р-значение 0,05694,
поэтому нельзя отвергать нулевую гипотезу на уровне значимости, равном 5%.
Таким образом, можно сделать следующий вывод: имеющихся данных
недостаточно для заявления о том, что администрация колледжа недооценивает
затраты на учебники. Если вместо z-теста мы бы применили t-статистику, то
полученное р-значение было бы равно 0,0455 и можно было ошибочно
отвергнуть нулевую гипотезу.
Для создания 95%-ного доверительного интервала нужно: ввести в ячейку
А2 формулу =220-СТЬЮДРАСПОБР(О,05;24)*50/КОРЕНЬ(25) и нажмите
клавишу
<Таb>;
в
ячейку
В2
формулу
=220+СТЬЮДРАСПОБР(О,05;24)*50/КОРЕНЬ(25)
и
нажмите
клавишу
<Еntег>.
Итак, 95%-ный доверительный интервал равен (199,36; 240,64), т.е.
стоимость учебников по этой оценке не должна быть ниже 200 долларов или
выше 240 долларов.
Двухвыборочный t-тест
В одновыборочном или парном t-тесте сравниваются выборочное среднее и
фиксированное значение, указанное в нулевой гипотезе. В двухвыборочном tтесте сравниваются средние из двух независимых выборок для определения
значимой разницы между выборками. Например, одна выборка может
содержать значения уровней холестерина у пациентов, принимающих
стандартное лекарство, а другая — у пациентов, принимающих
экспериментальное лекарство. В таком случае двухвыборочный t-тест
26
заключается в том, чтобы определить наличие статистически значимой разницы
между двумя выборочными средними.
Для сравнения выборочных средних у данных, удовлетворяющих
нормальному распределению, можно использовать один из двух t-тестов.
Необъединенный двухвыборочньй t-тест имеет вид:
(3.3)
x  x2   1   2  ,
t 1
s12 s 22

n1 n2
где x1 и x2 — выборочные средние первой и второй выборок;
s1 и s2 — выборочные стандартные отклонения;
n1 и n2 — размеры выборок;
1 и  2 — средние двух распределений.
В такой форме t-тест можно применять для двух распределений с разными
стандартными отклонениями  1 и  2 . С другой стороны, возможны случаи,
когда используются два распределения с одинаковым стандартным
отклонением . В таком случае можно выполнить t-тест, объединяя оценки
стандартного отклонения из двух выборок в одной оценке s:
s
n1  1  s12  n2  1  s22
n1  n2  2
(3.4)
Объединенный двухвыборочный t-тест имеет вид:
x  x   1   2 
(3.5)
t 1 2
s
1 1

n1 n2
3.3. Применение непараметрического теста для парных данных
t-тест является примером параметрического теста, т.к. сравнивает данные с
распределением, форма которого может быть определена на основании
значений одного или нескольких параметров. Форма t-распределения
определяется количеством степеней свободы.
В непараметрическом тесте используется гораздо меньше простых
предположений о распределении данных. Большинство непараметрическмх
тестов основано на рангах, а не на фактических значениях данных (это
позволяет избежать использования специальных предположений о данных).
Виды непараметрического теста:
1) Знаковый ранговый тест Вилкоксона
Непараметрическим аналогом t-теста является знаковый ранговый тест
Вилкоксона, в котором вычисляется ранг всех абсолютных значений исходных
данных по возрастанию, затем ранг умножается на знак исходного значения,
т.е. -1, 0 или 1. При равенстве двух абсолютных значений им присваивается
27
средний ранг. В табл. 3.2. приводится типичный набор значений переменной и
значения знакового ранга.
Табл. 3.2. Знаковые ранги
В знаковом ранговом тесте Вилкоксона делается только одно
предположение о том, что распределение данных симметрично относительно
медианы
Одно из преимуществ использования рангов вместо фактических значений
состоит в том, что в таком случае проверка гипотезы более чувствительна к
выбросам. Кроме того, непараметрические процедуры могут применяться для
упорядоченных данных, например при обработке результатов опроса с
использованием оценок для выражения предпочтений. Недостатком
непараметрических тестов является то, что они не столь эффективны, как
параметрические тесты при работе с нормально распределенными данными.
2) Знаковый тест
В знаковом тесте игнорируются значения данных, а учитывается только
количество положительных и отрицательных значений. При этом проверяется
точность равенства этих двух количеств. Этот тест аналогичен проверке
равенства вероятностей выпадения каждой из двух сторон подбрасываемой
монеты.
Знаковый тест обычно менее эффективен (для него требуется
использовать выборки большего размера), чем t-тест или знаковый ранговый
тест, за исключением данных, распределение которых имеет очень длинные
хвосты. В таких случаях знаковый тест может быть эффективнее t-теста
или знакового рангового теста.
Наиболее общие правила при использовании статистики выводов:
1. Ясная и четкая формулировка гипотез.
2. Учитывание ограничений используемых статистических тестов,
также предположений о природе данных.
3. Визуализация данных, которая поможет проще обнаружить любые
отклонения от предположений статистического теста. Определение
параметров описательной статистики данных.
4. В случае необходимости возможность использования разных
статистических тестов, например непараметрического (может дать важную
информацию об используемых данных).
5. Помните, что основная цель заключается не в том, чтобы отвергнуть
нулевую гипотезу. Не следует считать результаты исследования
28
отрицательными, если они не позволяют отвергнуть нулевую гипотезу. В то же
время не следует считать результаты исследования положительными, если
получено очень низкое р-значение (особенно если нулевая гипотеза отвергнута
ошибочно). Основная цель исследования заключается в непредвзятой
формулировке выводов о данных и определении степени надежности этих
выводов.
Вопросы для самоконтроля
1.
2.
3.
4.
5.
6.
7.
Основные компоненты статистки выводов.
Что такое доверительный интервал?
Из чего состоит алгоритм проверки гипотез?
Что такое нулевая гипотеза?
Перечислите типы ошибок?
Виды непараметрического теста?
Перечислите наиболее общие правила при использовании статистики
выводов?
ГЛОССАРИЙ
Нулевая гипотеза, или нуль-гипотеза H представляет используемую по
умолчанию или общепринятую теорию изучаемых явлений. Нулевая гипотеза
считается истинной, если только нет убедительных контраргументов.
Альтернативная гипотеза H a представляет альтернативную теорию, которая
автоматически считается истинной, если отвергается нулевая гипотеза.
Статистика теста — это статистика, вычисленная после анализа данных,
которые используются для принятия или непринятия нулевой гипотезы.
Область (или диапазон) непринятия гипотезы — это набор значений
статистики теста, для которых нулевая гипотеза отвергается (или принимается).
Уровень значимости - самое высокое значение, допускающее вероятность
возникновения ошибки первого типа.
Критические значения - верхняя и нижняя границы области принятия гипотезы.
0
29
4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ
4.1. Сводные таблицы
Сводная таблица – динамическая таблица итоговых данных, извлеченных
или рассчитанных на основе информации, содержащейся в списках.
Сводные таблицы являются интерактивными, т.е. могут автоматически
обновляться при изменении исходных данных. Для просмотра данных разными
способами можно поворачивать таблицу для отображения данных по строками
или по столбцам.
Для создания сводной таблицы применяется мастер сводных таблиц Excel:
команда меню Данные  Сводная таблица.
Рис. 4.1. Макет сводной таблицы
Страница – используются в качестве заголовков страниц сводной таблицы.
Строка – используется в качестве заголовков строк сводной таблицы.
Данные – поле (поля), для которого подводится того в сводной таблице.
Столбец - используется в качестве заголовков столбцов сводной таблицы.
В каждую область можно перетащить любое количество полей, но все поля
использовать не обязательно.
Пример: данные из 392 опросных листов с типом используемого
компьютера на различных кафедрах.
По данным получим сводную таблицу с перечнем типов компьютеров и
частотой их упоминания.
Рис. 4.2. Пример сводной таблицы
В данном примере нас не интересует количество отсутствующих данных,
поэтому данную категорию можно удалить из сводной таблицы. Для этого
30
необходимо убрать один из флажков на разворачивающимся списке сводной
таблицы.
Рис. 4.3. Меню управление полями сводной таблицы
Кроме того, в сводной таблице полученные данные можно преобразовать в
необходимый вид, например, представить данные в процентной доле (от суммы
по столбцу).
Рис. 4.4. Итоговый вид сводной таблицы
Таблицы по двум категориальным переменным
Пример задачи: необходимо исследовать взаимосвязь между двумя
категориальными переменными, например, использование компьютеров на
разных кафедрах.
Рис. 4.5. Макет сводной таблицы для двух переменных
Результат представлен на рис. 4.6.
Рис. 4.6. Результат сводной таблицы по двум переменным
31
4.2. Вычисление ожидаемого количества наблюдений
Можно сделать различные предположения: один фактор не зависит от
другого или один фактор находится в непосредственной зависимости от
другого.
Пример: кафедра и выбор типа компьютера не зависят друг от друга,
поэтому распределение разных видов компьютеров не зависит от кафедры. С
другой стороны, распределения компьютеров зависят друг от друга. Тогда
гипотезы:
- Нулевая гипотеза Н0: распределение разных видов компьютеров
одинаково внутри каждой кафедры;
- Альтернативная гипотеза Н1: распределение разных видов
компьютеров зависит от кафедры.
Для определения ожидаемого количества необходимо воспользоваться
формулой:
ожидаемое_ количество 
сумма _ по _ строке  сумма _ по _ столбцу
общее _ количество _ наблюдений
Пример для кафедры математики для компьютеров Macintosh:
22  65
ожидаемое_ количество 
 7,53 .
190
Для создания таблицы с ожидаемыми значениями необходимо
воспользоваться командой меню StatPlus  Descriptive Statistics  Table
Statistics (StatPlus  Описательная статистика  Статистика таблицы).
Результатом является таблица с фактическими (Observed Counts) и
ожидаемыми (Expected Counts) значениями, таблица со стандартной разностью
(Std. Residuals) и другие статистические параметры табличных данных,
показывающие степени взаимосвязи переменных в столбце или строке и
измеряющиеся мерой ассоциации (Measures of Association).
Часто при
получении вышеизложенной таблице можно заметить
следующее сообщение: Warning: More than 1/5 of Fitted Cells are Sparse
(Предупреждение: более 1/5 подогнанных ячеек имеют редкие данные). В
этом случае говорится о том, что ячейка содержит значение, величина
которого меньше 5. Если количество ячеек с ожидаемым значением менее 5
составляет 20%, то p-значение теста хи-квадрат Пирсона может привести к
ошибочному принятию или непринятию нулевой гипотезы.
Для устранения редких данных необходимо произвести группирование
категорий. Необходимо выделить ячейки, которые группируем, затем выбрать
команду Группа и структура  Группировать. После этого подписи в столбце
А сместятся в столбец B, а Excel создаст новый столбец. Для новых групп
необходимо создать более информативные имена, причем столбец со старыми
подписями (столбец B) можно удалить. После того, как были созданы группы
необходимо провести новый анализ табличных данных.
32
При работе с порядковыми переменными (числа) принцип анализа
подобный. Основное отличие состоит в том, что при исследовании порядковых
данных для принятия или отказа от нулевой гипотезы не учитывается Test
Statistics, а учитываются элементы Measures of Association (приведенные на рис.
4.7). При изучении номинальных данных (категорий), наоборот, учитываются
только результаты Test Statistics.
Рис. 4.7.Результирующая таблица с фактическими и ожидаемыми
значениями
4.3. Статистика хи-квадрат Пирсона
На основе полученных таблиц с фактическим и ожидаемыми значениями
вычисляется тестовые характеристики, позволяющие подытоживать разницу
между двумя таблицами. Для этого был введен тест хи-квадрат Пирсона
(предложенный Карлом Пирсоном), вычисляющий по следующей формуле:
значения _ теста _ хи  квадрат _ Пирсона 


по _ в сем_ ячейкам
наблюдаемое _ количество _ подсчетов  ожидаемое_ количество _ подсчетов2
ожидаемое_ количество _ подсчетов
Для проверки истинности нулевой гипотезы (т.е. нулевая гипотеза верна),
значение данного теста должно приблизительно удовлетворять  2 распределению. Аналогично t-распределению,  2 - распределение имеет
только один параметр – количество степеней свободы. При малом количестве
степеней свободы распределение имеет очень ассиметричную форму, а при
увеличении количества степеней свободы форма распределения становится
более симметричной.
33
Рис. 4.8.Сравнение степеней свободы
Аналогично нормальному распределению и t-распределению,  2 распределение имеет критическую границу для отказа от нулевой гипотезы, но
эта граница является односторонней (в отличие от упомянутых).
Количество степеней свободы для теста хи-квадрат Пирсона определяется
количеством строк и столбцов в таблице: количество степеней свободы равно
r  1 c  1 , где r – количество строк, c – количество столбцов.
В примере: с распределением типов компьютеров внутри кафедры имеется 4
строки и 4 столбца, тогда количество степеней свободы определяется как:
(4-1)*(4-1)=9.
Тест хи-квадрат основан на разнице между наблюдаемым и ожидаемым
значениями, причем сумма этих разниц равна 0 для каждой строки и каждого
столбца.
наблюдаемые
значения
4
0
12
6
ожидаемые
значения
7.64
1.27
7.53
5.56
разница
-3.64
-1.27
4.47
0.44
0.00
Т.к. сумма разниц равна 0. то последняя разница может быть вычислена на
основании этого факта и трех разниц. Т.о., независимыми являются только
разницы в первых трех ячейках. Применяя эти сведения ко всей таблице,
можно заключить, что если известны 9 из 16 разниц, можно вычислить
остальные 7 разниц (16-9=7). Следовательно, количество степеней свободы
равно 9.
Вопросы для самоконтроля
1.
2.
3.
4.
5.
Что такое сводная таблица?
Что такое степень свободы?
Как избавиться от редких данных?
Что мера ассоциации?
Перечислите типы ошибок.
34
5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА
5.1. Понятие «регрессия»
В регрессионном анализе рассматривается связь между одной переменной,
называемой зависимой переменной, и несколькими другими, называемыми
независимыми переменными. Эта связь представляется с помощью
математической модели, т.е. уравнения, которое связывает зависимую
переменную с независимыми с учетом множества соответствующих
предположений. Независимые переменные связаны с зависимой посредством
функции регрессии. Если функция линейна относительно параметров (но
необязательно линейна относительно независимых переменных), то говорят о
линейной модели регрессии. В противном случае модель называется
нелинейной.
Статистическими проблемами регрессионного анализа являются:
1) получение наилучших точечных и интервальных оценок неизвестных
параметров регрессии;
2) проверка гипотез относительно этих параметров;
3) проверка адекватности предполагаемой модели;
4) проверка множества соответствующих предположений.
Причины использования регрессионного анализа:
1. Описание зависимости между переменными помогает установить
наличие возможной причинной связи.
2. Уравнение регрессии позволяет предсказывать значения зависимой
переменной по значениям независимых переменным.
Величина линейной зависимости между двумя переменными измеряется
посредством простого коэффициента корреляции, величина линейной
зависимости одной переменной от нескольких измеряется множественным
коэффициентом корреляции.
Другая мера зависимости – частный
коэффициент корреляции – измеряет линейную зависимость между двумя
переменными после устранения части линейной зависимости, обусловленной
зависимостью этих переменных с другими переменными.
5.2. Простая линейная взаимосвязь
При выполнении анализа линейной регрессии пытаются найти такую
линию, которая наилучшим образом оценивает взаимосвязь между двумя
переменными (зависимой переменной y и независимой переменной x). Такая
линия называется подогнанной линией регрессии, а описывающее ее уравнение
– уравнением регрессии.
5.2.1. Уравнение регрессии
Если данные на диаграмме приблизительно укладываются на одну линию,
то линейную регрессию можно использовать для поиска описывающего ее
уравнения. Обычно данные нельзя абсолютно точно подогнать к одной линии,
35
поэтому некоторые точки ложатся выше или ниже подогнанной линии
регрессии.
Для подгонки линии регрессии используется уравнение вида: y = a + bx , где
y – зависимая переменная, значения которой нужно предсказать; х —
независимая переменная, или предиктор, на основе которой нужно сделать
предсказание; а и b — коэффициенты.
На рис. 5.1 показана линия с коэффициентами а = 10 и b = 2. Короткие
вертикальные отрезки представляют собой ошибки или остатки, т.е.
промежутки между подогнанной линией и точками. Остаток — это разность
между наблюдаемыми и предсказываемыми значениями.
Коэффициент a называют пересечением или постоянным членом, b –
наклоном, выражает отношение вертикального и горизонтального приращений
вдоль линии.
Например, если переменная y возрастает от 10 до 30, а переменная x при
этом увеличивается от 0 до 10, то наклон подогнанной линии регрессии
выражается следующей формулой:
вертикальн
ое
_
приращение
30

10
b

 
2
.
горизонтал
ьное
_
приращение
10

0
Предположим, что переменная x обозначает стаж работы, а переменная у
— заработную плату. В таком случае пересечение регрессии (т.е. значение
переменной у при х = 0) обозначает зарплату сотрудника с нулевым стажем
работы, т.е. в момент приема на работу. Кроме того, наклон регрессии
обозначает ежегодное приращение зарплаты сотрудника. У сотрудника с
зарплатой выше подогнанной линии регрессии наблюдается положительный
остаток, а у сотрудника с зарплатой ниже подогнанной линии регрессии —
отрицательный остаток.
Если линия направлена вниз так, что при возрастании значений
переменной х уменьшаются значения переменной у, то линия регрессии имеет
отрицательный наклон.
Например, если переменная х обозначает возраст автомобиля в годах, а
переменная у — его цену, то в таком случае наклон обозначает ежегодное
снижение цены.
Рис. 5.1. Подогнанная линия регрессии
36
5.2.2. Подгонка линии регрессии
При подгонке линии к данным предполагается, что данные удовлетворяют
следующей линейной модели:
y
x
где — «истинное» пересечение;
— «истинный» наклон;
— ошибка.
При подгонке линии предпринимается попытка оценить  и , значения
которых на самом деле не известны. Оценочные значения  и  обозначаются
соответственно
a и b, а предсказываемые значения переменной у — символом

y
:
  a bx
y
.
Для оценки  и  используются такие a и b, для которых сумма квадратов
остатков принимает наименьшее значение. Т.е. если уi — это наблюдаемое
значение переменной у, то a и b должны быть такими, чтобы следующее
выражение имело минимальное значение:
n
сумма _ квадратов _ остатков =   y i  y i  .
2
i=1
Эта процедура называется методом наименьших квадратов. Для
вычисления таких значений a и b, которые удовлетворяют данному условию,
используются формулы оценки на основе метода наименьших квадратов:
x  xy  y
n
b
i1
i
i
x  x
n
i1
,
2
i
a  y bx.
Пример: предположим, используя метод наименьших квадратов, требуется
оценить набор данных, перечисленных в табл. 1.
Табл. 5.1. Данные для оценки методом наименьших квадратов
Выборочные средние для значений переменных х и у равны 1,8 и 3,4
соответственно, а оценки значений a и b определяются по формулам:




x

x
y

y

i
i












1

1
,
8
3

3
,
8

2

1
,
8
4

3
,
8

...

2

1
,
8
5

3
,
8
i

1
b



0
,
5
;
n
2
2
2
2






1

1
,
8

2

1
,
8

...

2

1
,
8


x

x

i
n
i

1
a

y

b
x

3
,
4

0
,
5

1
,
8

2
,
5
.
37
Таким образом, оценка на основе метода наименьших квадратов дает
следующее уравнение регрессии:
у = 2,5 +0,5х.
В Excel предусмотрено несколько функций для оценки регрессии на основе
метода наименьших квадратов. В табл. 2 описаны две такие функции:
Табл. 5.2. Функции Excel для оценки регрессии на основе
метода наименьших квадратов
Например, если значения переменной у находятся в ячейках диапазона
А2:А11, а значения переменной x — в ячейках диапазона В2:В11, то функция
ОТРЕЗОК (А2:А11, В2:В11) вернет значение коэффициента а, а функция
НАКЛОН(А2:А11, В2:В11) — значение коэффициента b.
Для создания диаграммы для анализа регрессии необходимо выбрать меню
Вставка Диаграмма Точечная диаграмма Выбрать необходимый
диапазон для анализа, состоящий из зависимой и независимой переменных 
Добавить линию регрессии
Рис. 5.2. Подогнанная линия регрессии
Величина R2 – величина достоверности аппроксимации, которая измеряет
процентную долю изменчивости значений зависимой переменной, которая
может объясняться изменениями независимой переменной. Величина R2 может
изменяться от 0 до 1. В данном случае значение 0,7654 говорит о том, что
изменчивость, составляющая 76,54% может объясняться изменениями от
независимой переменной. Оставшаяся доля (23,46%) изменчивости может
объясняться случайной изменчивостью.
Для анализа регрессии используется инструменты модуля Пакет анализа
(Analysis ToolPak) Регрессия.
38
Рис. 5.3. Результат выполнения команды Регрессия из пакета анализа
данных
5.2.3. Интерпретация параметров регрессии
- статистические параметры регрессии
Регрессионная статистика
(Коэффициент множественной корреляции) описывает
Множественный
корреляцию между предсказываемой переменной и
R
линейной комбинацией предикторов
R-квадрат
Величина достоверности аппроксимации
Нормированный
R-квадрат
Для анализа регрессии с несколькими предикторами
Стандартная
ошибка
Типичное отклонение (x,y) от линии регрессии
Наблюдения
Размер выборки
- результат анализа изменчивости
Дисперсионный анализ
df
Регрессия
Остаток
Итого
1
14
15
SS
2599.534
796.9058
3396.439
MS
2599.534
56.92184
Значимость
F
F
45.66847 9.20184E-06
df – количество степеней свободы
SS – значения суммы квадратов. Общая сумма квадратов в ячейке на
пересечении со строкой Итого содержит сумму квадратов отклонений уровня
зависимой переменной от среднего. Общая сумма квадратов складывается из
двух частей: одна определяется изменениями линии регрессии, а другая связана
с хаотичными изменениями и указана в ячейке на пересечении со строкой
39
Остаток. Первая часть указана в ячейке на пересечении со строкой Регрессия и
является суммой квадратичных отклонений от среднего. Вторая часть указана в
ячейке на пересечении со строкой Остаток и является суммой квадратичных
отклонений от линии регрессии. Последнее из двух значений должно
принимать минимальное значение в уравнении регрессии. В данном примере
общая сумма квадратичных отклонений равна 3 396,84, причем одно ее
слагаемое 2599,53 определяется изменениями линии регрессии, а другое
(796,91) — ошибкой.
MS – результат деления суммы квадратичных отклонений на количество
степеней свободы (для определения стандартной ошибки).
F – результат отношения среднеквадратического значения для регрессии и
среднеквадратического значения для остатков. Большая величина F отношения означает большую статистическую значимость регрессии.
- остатки и предсказываемые значения
Наблюдение Предсказанное
Остатки
Стандартные остатки
1
53.17999556
14.120004
1.937211191
…
…
…
…
16
99.15503896
3.3449610
0.458916
Остаток – разность между наблюдаемыми значениями и линией
регрессии (предсказываемыми значениями).
Стандартные остатки – нормированные остатки, которые не зависят от
исходной единицы измерения.
остаток
,
Стандартизованный _ остаток 
сумма _ квадатовостов _ остатка / n
где n – количество наблюдений в наборе данных
5.3. Проверка модели регрессии
При выполнении анализа регрессии для заданного набора данных
применимы следующие допущения:
 Справедлива линейна модель;
 Ошибка имеет нормальное распределение со средним 0;
 Ошибка имеет постоянную дисперсию;
 Ошибки не зависят друг от друга.
Эти допущения следует использовать всегда при подгонке прямо линии к
данным. Но, т.к. регрессия характеризуется относительной изменчивостью,
указанные предположения не могут удовлетворять очень точно.
Справедлива линейна модель: Необходимо создать диаграмму для
визуальной проверки отклонения данных от линии или создание диаграммы
для остатков и значения предиктора (пакет анализа – Регрессия). Обращенная
вверх или вниз U-образная зависимость (рис. 4) свидетельствует об
40
искривленной зависимости и о том, что первое допущение о линейной
взаимосвязи данных неверно.
а)
б)
Рис. 5.4. Подгонка прямой линии к искривленному набору данных
(а); диаграмма остатков и значений предиктора для искривленного
набора данных (б)
Ошибка  имеет нормальное распределение со средним 0: Для проверки
данного допущения используется инструменты модуля StatPlus:
модуль StatPlus – Single Variable Charts – Normal P-plots.
Если остатки удовлетворяют нормальному распределению, то они должны
располагаться вблизи линии нормального распределения.
Ошибка имеет постоянную дисперсию: предположение проверяется с
помощью диаграммы остатков и значений предиктора (рис.5). Эта диаграмма
также позволяет выявить некоторые проблемы, связанные с допущением о
линейном характере взаимосвязи.
Рис. 5.5. Диаграмма остатков и значений предиктора, которая отражает
непостоянную дисперсию
Ошибки не зависят друг от друга: один из способов тест Дурбина-Ватсона,
основанные на вычислении параметра:
Где ei - это i-ый остаток в наборе данных.
e e 
Значение DW сравнивается с таблицей значениями теста
DW
Дурбина-Ватсона для определения независимости остатков. Если
e
значение DW равно 0 или 4 - остатки зависимые; если 2 –
независимые. При наличии промежуточных значений независимость остатков
считается спорной
n
i1
i1
i
n
i1
2
i
41
Вопросы для самоконтроля
1.
2.
3.
4.
5.
Дайте определение понятию «регрессия».
Назовите причины использования регрессионного анализа.
На основе какого метода вычисляются коэффициенты уравнения регрессии?
Что такое величина достоверности аппроксимации?
Из чего состоит проверка достоверности модели регрессии?
42
6. КОРРЕЛЯЦИЯ
6.1. Понятие «корреляции»
Корреляция предназначена для выражения силы взаимосвязи по
безразмерной шкале от -1 до + 1.
Положительная
корреляция
означает
сильную
положительную
взаимосвязь, т.е. увѐличение одной переменной вызывает увеличение другой
переменной (рис. 6.1.). Например, такая корреляция наблюдается между
ростом и весом человека. Отрицательная корреляция означает сильную
отрицательную взаимосвязь, т.е. увеличение одной переменной вызывает
уменьшение другой переменной (см. рис. 6). Например, увеличение цены
товара может сопровождаться уменьшением объема продаж. Близкая к
нулю корреляция означает, что между двумя переменными нет никакой
взаимосвязи. Кроме того, между переменными может существовать нелинейная
взаимосвязь, которая характеризуется нулевой корреляцией.
Рис. 6.1. Примеры корреляции
Чаще всего для измерения корреляции используется коэффициент
корреляции Пирсона, который обычно обозначается символом r и вычисляется
по формуле:
xxyy

.
n
r
i
1
i
i
xx  
yy

n
i
1
2
i
n
i
1
2
i
Например, вычислим корреляцию данных из табл. 5.1:












1

1
.
8
3

3
.
8

2

1
.
8
4

3
.
8

...

2

1
.
8
5

3
.
8
1
.
4
r


0
.
763
.
2
2
2
2
2
.
8

1
.
2






1

1
.
8

...

2

1
.
8

3

3
.
8

...

5

3
.
8
Это значение соответствует высокой положительной корреляции.
Наклон корреляции может выражаться любым действительным числом, но
корреляция всегда должна быть в промежутке от — 1 до +1. Корреляция + 1
означает, что все точки данных падают точно на одну линию с положительным
наклоном. В таком случае все остатки равны нулю, а подогнанная линия
регрессии точно проходит через все точки.
43
В контексте проверки гипотез следующие гипотезы совершенно
эквивалентны:
• нулевая гипотеза Н0: между предиктором и зависимой переменной нет
ни- какой линейной взаимосвязи;
• нулевая гипотеза Н0: между двумя переменными нет никакой корреляции.
Т.е. корреляция равна нулю, если наклон равен нулю, и наоборот. При
выполнении статистического теста для корреляции используются те же
допущения, что и для линейной регрессии.
Для вычисления корреляции в Ехсеl предусмотрено несколько функций,
некоторые из них перечислены в табл.3.
Табл.6.1. Функции вычисления корреляции
Ранговый коэффициент корреляции Спирмана, как и многие другие
непараметрические тесты, менее чувствителен к наличию выбросов или
искривленной взаимосвязи и гораздо лучше характеризует нелинейную
взаимосвязь.
6.2. Матрица корреляции
При наличии нескольких переменных полезно вычислить корреляцию
между переменными. Таким образом, можно сразу же получить представление
о взаимосвязи между переменными, определяя пары переменных с сильной и
слабой связью. Один из способов анализа таких данных заключается в создании
матрицы корреляции, в которой значения корреляции (и соответствующие рзначения) располагаются в квадратной решетке.
Для создания матрицы корреляции используется меню StatPlus Multivariate Analysis - Correlation Matrix (StatPlus - Многовариантный анализ Матрица корреляции).
Рис. 6.2. Матрица корреляции
44
6.3. Матрица точечных диаграмм корреляций
Коэффициент корреляции Пирсона измеряет степень линейной
взаимосвязи между двумя переменными. Для просмотра и проверки наличия
линейности во взаимосвязях между несколькими переменными нужно создать
диаграмму для каждых двух переменных, т.е. всего 15 диаграмм в данном
примере. Для ускорения этого процесса можно построить матрицу точечных
диаграмм корреляций (scatterplot matrix – SPLOM). Просматривая эту матрицу,
можно проверить наличие линейности во взаимосвязях между несколькими
переменными.
Для создания матрицы точечных диаграмм корреляций:
команда меню StatPlus – Multi-variable charts – Scatterplot Matrix
(StatPlus – Диаграмма для нескольких переменных – Матрица точечных
диаграмм).
При наличии большого количества переменных матрица точечных
диаграмм корреляций может иметь очень большой размер, что затрудняет ее
просмотр на экране. В таком случае для более удобного просмотра попробуйте
изменить масштаб ее представления на экране с помощью инструментов
масштабирования. Например, матрицу точечных диаграмм корреляций можно
увеличить или уменьшить, выделив ее и перетащив один из угловых маркеров.
В строках матрицы показана взаимосвязь каждой из пяти переменных по
отношению к четырем другим.
Например, в первой строке переменная АСТ играет роль переменной у по
отношению к четырем другим переменным. Первая точечная диаграмма в
первой строке отображает взаимосвязь переменных АСТ и Алгебра_2год. С
другой стороны, первая диаграмма в первом столбце отображает взаимосвязь
переменных Алгебра_2год, которая играет роль переменной у, и АСТ, которая
играет роль переменной х. для экономии места в матрице не приводятся
масштабы осей. Для более тщательного изучения любой точечной диаграммы
можно повторно создать ее с помощью мастера диаграмм Ехсеl.
Рис. 6.3. Матрица точечных диаграмм корреляций
45
Вопросы для самоконтроля
1.
2.
3.
4.
5.
Дайте определение понятию «корреляция».
Что означает корреляция, равная нулю?
Приведите пример положительной и отрицательной корреляции.
Что такое матрица корреляции?
Как читается матрица точечных диаграмм корреляции?
46
7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
7.1. Уравнение множественной регрессии
Аппарат множественного регрессионного анализа предназначен для
получения прогнозных оценок исследуемого показателя и отражения
количественной характеристики влияния на него других факторов, а также
возможные последствия их изменения в будущем.
Множественная регрессия позволяет оценивать статистические отношения
между двумя и более переменными. Множественная регрессия также позволяет
составлять уравнения, в которых значение одной из переменных (зависимой
переменной) может быть предсказано на основе значений одной или
нескольких независимых переменных. Метод множественной регрессии
используется для прогнозирования значений любых числовых показателей
(например, цен, объемов продаж) на основе значений других числовых
показателей.
Отношения причинности между двумя или более переменными, в отличие
от статистических отношений, не оцениваются методом множественного
регрессионного анализа. Однако, можно установить наличие взаимосвязей
между двумя или более показателями.
Уравнение множественной регрессии записывается следующим образом:

Y

f
X
,X
,...,
X
1
2
n
где Y – зависимая переменная, значение которой может быть предсказано
Xn.
на основе значений независимых переменных X1,X2,...,
Для четырех независимых переменных уравнение множественной
регрессии записывается следующим образом:
    
y


X

X

X

X

0
1
1
2
2
3
3
4
4
,
0,
1
2,
3,
4 - неизвестные
Где коэффициенты 
параметры,
 - случайная ошибка с нормальным распределением со
средним 0 и дисперсией  2 .
Учтите, что предикторы могут быть функциями переменных, как в
показанных ниже примерах моделей множественной регрессии.


X

X

X

X

0
1
1
2
2
3
3
4
4
Полиномиальная: y








sin
x


cos
x


0
1
2
Тригонометрическая: y







log
x


log
x


0
1
1
2
2
Логарифмическая: y
Обратите внимание: все эти уравнения являются примерами линейных
моделей, даже несмотря на использование в них тригонометрических и
логарифмических функций.
Слово ―линейный‖ в определении линейная модель относится к
коэффициентам и случайной ошибке , т.е. данные уравнения линейны по
отношению к этим значениям. Например, можно создать новые переменные
    
47
l=sin(x) и k=cos(x), а затем еще одну модель на основе линейного уравнения
у=b0+b1l+b2k+.
После вычисления оценок для коэффициентов  i придется вставить их в
уравнение для предсказания значений переменной y. Тогда оценочная модель
регрессии выражается следующей формулой:
y

b

b
x

b
x

b
x

b
x
0
1
1
2
2
3
3
4
4
b
где i — оценки коэффициентов  i
, а остаток соответствует случайной
ошибке .
Одной из задач анализа регрессии является предсказание значений.
Допустим, что зависимая переменная — это цена дома с четырьмя
спальнями, а независимые переменные — это его площадь, возраст здания,
текущая рентная плата и уровень комфорта. С помощью этих переменных
можно проанализировать данные и найти недооцененный дом, который имеет
цену меньше предсказываемой. Например, в результате анализа регрессии
можно найти недооцененный дом, который по ряду причин срочно продается
по намеренно низкой цене.
Множественная регрессия может использоваться для просмотра влияния
нескольких переменных в целях предсказания зависимой переменной.
Насколько изменчивость зависимой переменной объясняется изменчивостью
предикторов? Кроме того, интерес могут представлять отдельные
коэффициенты корреляции: например, можно ли их использовать в уравнении
регрессии? Можно ли исключить некоторые предикторы без ущерба для
точности предсказания?
Таким образом, цель множественной регрессии: построить модель с
большим числом факторов, определив влияние каждого из них в отдельности, а
также совокупное их воздействие на моделируемый фактор.
Спецификация модели включает в себя два круга вопросов:
- отбор факторов;
- выбор вида уравнения регрессии.
Требования к включаемым факторам:
– количественно измеримы;
– не должны находиться в точной функциональной связи или быть
сильно коррелированы.
Для анализа регрессии используется инструменты модуля Пакет анализа
(Analysis ToolPak) - Регрессия.
48
Рис. 7.1. Вид диалогового окна Регрессия
Интерпретация полученных данных аналогична, как и при регрессии с
одной независимой переменной.
Рис. 7.2. Результат выполнения команды Регрессия для
множественной регрессии
7.2. Проверка допущений регрессии
Существует несколько способов проверки результатов множественной
линейной регрессии. Один из способов проверки – диаграммы оценки успеха
регрессии:
1. Диаграмма зависимой от предикторов переменной с отображением
соответствия линии регрессии и данных.
2. Диаграмма остатков от предикторов с отображением вертикального
разброса данных, что также позволяет проверить обоснованность
допущений модели. Искривленная форма распределения остатков
свидетельствует о несоответствии выбранной модели и данных. Если
вертикальный разброс на одной стороне диаграммы, то предполагается, что
дисперсия не является постоянной.
3. Диаграмма остатков от отдельных предикторов, которая позволяет легко
обнаружить проблемы, не очевидные на диаграмме остатков от
предикторов.
4. Диаграмма плотности вероятности остатков, которая позволяет оценить
обоснованность допущений о нормальном распределении остатков в
данной модели регрессии.
49
Для анализа допущения регрессии строятся точечные диаграммы
Для 1: по наблюдаемой и предсказанной оценкам (предсказываемая оценка
берется из результата операции Регрессия).
Для предсказываемой оценки 80 - наблюдаемые значения оценки лежат в
широком диапазоне — от 65 до 95. Разброс меньше, для которых
предсказывается оценка 90, так как для них наблюдаемые значения оценки
лежат в диапазоне от 80 до 90. Однако все наблюдаемые значения имеют
верхний предел 100, поэтому наличие такого барьера
может искусственно сузить разброс ошибок.
Рис. 7.3. Проверка зависимости предикторов
Для 2: Строится по результатам операции Регрессия по предсказанным
значениям и остаткам.
Дисперсия должна быть постоянной.
В Ехсеl это преобразование выполняется с помощью формулы:
где х — это значение или ссылка на ячейку с
преобразуемым значением.
Рис. 7.4. Проверка остатков
Для 3: Такие диаграммы создаются автоматически с помощью команды
Регрессия Пакета анализа
Дисперсия должна быть постоянна.
Рис. 7.5. Проверка остатков (от каждого предиктора)
Для 4: меню StatPlus – Single Variable Charts – Normal P-plots – выбирается
диапазон ―Остатков‖
Точки диаграммы должны располагаться на
прямой.
Рис. 7.6. Проверка плотности вероятности остатков
50
7.3. Пошаговая регрессия
Пошаговая регрессия – множественная регрессия, при которой
переменные одна за другой включаются в подмножество согласно
предварительно заданному критерию. Некоторая переменная может быть
заменена другой переменной, не входящей в набор, либо удалена из него.
Совокупность критериев, определяющих, какие переменные включать,
заменять и удалять, называется пошаговой процедурой.
С помощью пошаговой процедуры включается упорядоченный список
предикторов. Например, при p=5 список может иметь вид x2,x5,x1,x4,x3. Для
определения «наилучшего» подмножества из этого списка выбираются m <= p
первых переменных так, чтобы они возможно лучше предсказывали y и их
число m было по возможности меньше. Т.е., может быть составлен экономный
набор из переменных упорядоченного списка, которые имеют наиболее
высокую предсказывающую способность. Процедура определения числа m
называется правилом остановки.
Правила остановки:
1) Стандартная пошаговая процедура (F-метод)
Включение и удаление переменных осуществляется с помощью tкритерия. Вычисляется квадрат этой статистики, который имеет Fраспределение и называется либо F-включения, либо F-удаления.
2) Стандартная пошаговая процедура с заменой переменных
Эта процедура позволяет удалить некоторую переменную с помощью
правила F-удаления; заменить некоторую переменную из списка, не
входящую в список; добавить в список переменную, используя правило
F-включения.
3) Метод множественной корреляции (R-метод)
Предполагается: удаление переменных на основе правила R2
(множественного коэффициента корреляции); добавление переменных с
помощью правила F-включения.
4) Метод множественной корреляции с заменой переменных
Последовательность действий: удаление переменной с использованием
правила R2 (множественного коэффициента корреляции); замена
переменных по критерию возрастания R2; добавление новой переменной
с использованием правила F-включения.
7.4. Логистическая регрессия
Логистическая регрессия (Logistic regression) — метод построения
линейного
классификатора,
позволяющий
оценивать апостериорные
вероятности принадлежности объектов классам.
Логит модель:
p
еу
1 е
у
или p 
1
1  е у
,
где переменная y называется логитом.
51
y  k0  k1  x1  k2  x2    kn  xn
x – вектор параметров – факторов (предикторов)
y – зависимый фактор (регрессор)
p – вероятность возникновения данного события (изменятся от 0 до 1)
7.5. Нелинейная регрессия
Любая модель, вид которой не совпадает с уравнением линейной регрессии
y


X

X

X

X

0
1
1
2
2
3
3
4
4
, называется моделью нелинейной регрессии и
может быть представлена в виде

y
f
x
,...,
x
;

,...,


e
i
1
i
pi
1
i, i=1,…, n,
Где f( ) – нелинейная функция параметров 1 ,..., m ,
ei - некоррелированная ошибка.
Пример нелинейной функции

x

f
x

,

,




e
и др.
i;
1
2
3
1
2
    
m
3
i
Вопросы для самоконтроля
1. В чем особенность множественной регрессии?
2. Почему аппарат множественной регрессии может быть реализован в
экспертной системе?
3. Как проверить результаты множественной линейной регрессии?
4. Что такое пошаговая регрессия?
5. Какие правила остановки в пошаговой регрессии?
6. Что такое логит модель?
52
8. ДИСПЕРСИОННЫЙ АНАЛИЗ
8.1. Однофакторный дисперсионный анализ
Дисперсионный анализ (analysis of variance – ANOVA) позволяет проверить
гипотезу о равенстве средних для всех групп.
Используемая в дисперсионном анализе модель называется моделью
средних и выражается следующей формулой:
y  i   ,
где  i - среднее i-ой группы;
 - случайная ошибка, удовлетворяющая нормальному распределению со
средним 0 и дисперсией  2 .
При наличии P групп в модели средних используются следующие
формулировки нулевой и альтернативной гипотезы:
 Нулевая гипотеза Н0: 1  2  ...   P ;
 Альтернативная гипотеза На: не все  i равны.
Предположение в модели средних аналогичны следующим предположениям
в анализе регрессии:
 Ошибки нормально распределены;
 Ошибки независимы;
 Ошибки характеризуются постоянством дисперсии.
Для осуществления дисперсионного анализа необходимо воспользоваться
командой Дисперсионный анализ модуля Анализ данных. Для применения этого
инструмента данные каждой группы должны находиться в разных столбцах.
Если данные находятся в одном столбце и идентифицируются категориальной
переменной предварительно необходимо привести имеющиеся данные к
нужной структуре, т.е. создать отдельные столбцы с числовыми значениями для
каждой из категории. Для разбивки данных из разных групп по разным
столбцам необходимо выбрать команду меню StatPlus – Manipulate Columns –
Unstack Column.
Рис. 8.1. Рабочая книга «Услуги»
53
Рис.8.2. Диалоговое окно Unstack Column
После разбивки данных по разным столбцам с разными категориями они
будут выглядеть так, как на рис.8.3.
Рис. 8.3. Данные после разбивки по категориям
Для проведения дисперсионного анализа необходимо выполнить
следующее:
Анализ данных – Однофакторный дисперсионный анализ – Указывается
входной интервал, по которым производится анализ.
Рис.8.4. Результат дисперсионного анализа
Интерпретация результатов дисперсионного анализа
При выполнении дисперсионного анализа следует определить, какая часть
изменчивости объясняется случайностью, а какая — другими факторами. Для
этого сумма квадратов (т.е. сумма квадратов отклонений от среднего)
разбивается на две части: одна объясняется разницей между группами, а другая
— случайной ошибкой. Сначала следует напомнить формулу суммы квадратов
отклонений от среднего:
2
n
итоговая _ сумма _ SS   yi  y  ,
i 1
где n — общая сумма наблюдений;
y — среднее для всех наблюдений.
Итак, итоговая сумма квадратов отклонений от среднего равна 75 859,88
(она указана в ячейке В16), а среднее для всех наблюдений — 155,0625.
54
Попробуем выразить итоговую сумму квадратов отклонений от среднего в
другом виде. Для этого разобьем данные на группы. При наличии Р групп, где
i-я группа содержит ni наблюдений (группы не обязательно должны быть
одинакового размера), подсчитаем общую сумму квадратов отклонений от
среднего для каждой группы отдельно:
P
ni

итоговая _ сумма _ SS   yij  y
.
2
i 1 j 1
Здесь переменная уij обозначает j-е наблюдение в i-й группе (например, у23
обозначает третье наблюдение во второй группе). Обратите внимание, что сами
значения не изменились, а изменился только порядок вычисления общей
суммы. Сначала вычисляется сумма квадратов отклонений от среднего в первой
группе, затем сумма во второй группе и т.д., после чего суммы по каждой
группе складываются для получения общей суммы.
С помощью выборочных средних для групп можно вычислить общую
сумму квадратов внутри каждой группы. Она равна сумме квадратов
отклонений, где отклонение вычисляется как разница между средним для
группы и значением наблюдения. Сумма квадратов отклонений называется
суммой квадратов ошибок и выражается следующей формулой:
P
ni

SSE   yij  y
.
2
i 1 j 1
Эта сумма иногда называется внутригрупповой суммой квадратов, т.к. в
ней сумма квадратов подсчитывается отдельно внутри каждой группы.
Значение SSE в данном примере равно 54 714,50 (в ячейке B14).
Заключительной частью дисперсионного анализа является вычисление
суммы квадратов отклонений групповых средних от общего среднего. Эта
величина называется межгрупповой суммой квадратов или суммой квадратов
по условиям испытаний и выражается формулой:
P

SST   ni yi  y
.
2
i 1
Обратите внимание: здесь вычисляется квадрат разницы группового
среднего от общего среднего, который умножается на количество наблюдений в
группе. В данном примере каждая группа содержит восемь наблюдений, т.е.
n=8, а межгрупповая сумма квадратов равна 21 145,38 (в ячейке B13).
Заметьте также, что общая сумма квадратов равна внутригрупповой сумме
квадратов + межгрупповая сумма квадратов, так как 75 859,88 = 21 145,38 + 54
714,50, т.е.
итоговая сумма SS = SSE + SST.
Попытаемся объяснить смысл этой формулы на рассматриваемом
примере с разными услугами. Если средние цены на разные услуги существенно
отличаются, то межгрупповая сумма квадратов будет большой, а если они
практически одинаковы — будет близка к нулю. И наоборот: большая величина
55
межгрупповой суммы квадратов означает существенную разницу средних цен
на услуги, а малая величина — небольшую разницу.
Большая величина межгрупповой суммы квадратов также может
объясняться большим количеством групп, поэтому в таких случаях
рекомендуется настроить количество групп в наборе данных, т.е. количество
степеней свободы в столбце df (в ячейках С13:С16) в таблице Дисперсионный
анализ. Количество степеней свободы для фактора Услуга (который в данном
случае является условием разделения на группы) равняется количеству групп
минус 1, т.е. 4 — 1 = З (в ячейке С13). А количество степеней свободы для
общей суммы квадратов равняется общему количеству значения наблюдений
минус 1, т.е. 32 — 1 = 31 (в ячейке С16). Остальные степени свободы относятся
к ошибке и равны 31 — 3 = 28 (в ячейке С14).
В ячейках D13:D14 столбца MS (среднее квадратическое — МS)
приводятся значения суммы квадратов, деленной на количество степеней
свободы, которые можно рассматривать как дисперсии. Первое значение 7
048,458 (в ячейке D13) — это дисперсия цен разных услуг, а второе значение 1
954,089 (в ячейке D14) — дисперсия цен одной услуги. Среднее
внутригрупповой суммы квадратов также дает оценку  2 , т.е. дисперсии
ошибки , которая упоминается при описании модели средних.
Один из показателей дисперсионного анализа – величина достоверности
аппроксимации R2. Эта величина определяется как отношение межгрупповой
суммы квадратов отклонения к общей сумме квадратов. В данном примере
R2=21145,38/75859,88=0,2787. Т.о. около 27,9% изменчивости стоимости услуг
определяется особенностью самих услуг.
Дополнительный анализ при Дисперсионном анализе – это сравнение
средних. Осуществляется на основе матрицы парных разностей: меню StatPlus –
Multivariate Analysis – Means Matrix (StatPlus – Многовариантный анализ –
Матрица средних).
Рис.8.5. Разность значений для пар средних
Средняя цена на «Инт» на 16 единиц ниже, чем «МС». Наибольшая
разность наблюдается между стоимостью услуг «Инт» или «ПД» и «М» - почти
63 единицы.
56
8.2. Однофакторный дисперсионный анализ и анализ регрессии
Дисперсионный анализ можно представить как особую форму анализа
регрессии, но с дискретными, а не с непрерывными предикторами. С помощью
этой аналогии можно получить дополнительное представление о данных, но
для этого нужно переформулировать модель.
Ранее предлагалась модель средних
y  i  
для i-ой группы. Эквивалентный способ выражения этой взаимосвязи
представляет собой модель влияния:
y    i   ,
где  - среднее
 i - влияние i-ой группы;
 - случайная ошибка, удовлетворяющая нормальному распределению
со средним 0 и дисперсией  2 .
Для выполнения дисперсионного анализа с помощью анализа регрессии
можно создать переменные-индикаторы для данных. Переменные-индикаторы
принимают значения 1 или 0 в зависимости от того, относятся данные к
определенной группе или нет.
Для создания переменных-индикаторов необходимо:
Меню StatPlus – Manipulate Columns – Create Indicator Columns (StatPlus –
Операции со столбцами – Создать столбцы с индикаторами).
Рис. 8.6. Переменные индикаторы
Значения в столбце F «=» 1, если значение в строке относится к услуге Инт,
или 0 в противном случае и т.д.
Для подгонки модели влияния с помощью анализа регрессии необходимо:
Анализ данных – Регрессия – Входной интервал (анализируемая переменная) и
57
выходной интервалы (переменные-индикаторы с исключением одной из услуг
(«М»)).
Рис.8.7. Результат дисперсионного анализа
Таблица с результатами дисперсионного анализа (A11:F14) получена с
помощью регрессии, поэтому она эквивалентна таблица дисперсионного
анализа, представленной на рис.4, за исключением того, что прежняя строка
Между группами в данной таблице называется Регрессия, а прежняя строка
Внутри групп называется Остатки.
8.2. Двухфакторный дисперсионный анализ
В однофакторном дисперсионном анализе сравнивается несколько групп,
связанных с одной категориальной переменной или фактором. В
двухфакторном дисперсионном анализе сравнивается несколько групп,
связанных двумя категориальными переменными. Например, преподавателя —
влияние успеваемости и пола на быстроту обучения, а маркетолога — влияние
затрат на рекламу и используемого вида массовой информации (телевидение,
журналы и т.д.) на объем продаж рекламируемого товара.
Для двухфакторного дисперсионного анализа также можно применить
аналогичное уравнение модели средних:
yijk   ij   ijk
где уijk — переменная отклика;
 i — среднее на i-м уровне одного фактора и j-м уровне другого фактора.
Для каждой комбинации двух факторов может быть несколько наблюдений,
которые называются повторениями.
 ijk — это случайная ошибка на i-м уровне одного фактора и j-м уровне
другого фактора для k-го повторения, удовлетворяющая нормальному
распределению со средним 0 и дисперсией 2.
Обычно для двухфакторного дисперсионного анализа применяется
следующая модель влияния:
yijk     i   j   ij   ijk
Где уijk — переменная отклика;
 — общее среднее;
58
 i — влияние i-й обработки для одного фактора;
 j — влияние j-й обработки для другого фактора;
 ij — степень взаимодействия двух факторов, т.е. степень их взаимного
влияния. Например, разные средства массовой информации (телевидение,
ЖУРНЛЫ и т.д.) могут одинаково или по-разному влиять на объем продаж
рекламируемого товара. Если увеличение объема продаж не зависит от средства
массовой информации, то взаимодействие факторов равно 0, в противном
случае между факторами (затраты на рекламу и вид массовой информации) есть
взаимодействие.
В модуле Анализ данных программы Ехсеl предусмотрено два
инструмента для выполнения двухфакторного дисперсионного анализа. Один
предназначен для анализа данных без повторов комбинаций факторов, а другой
— с повторами. Анализ без повторов используется, если предполагается, что
тип одного из факторов в группе проверяется только один раз, если же
необходимо проверить это значение несколько раз, то используется
дисперсионный анализ с повторами. (Относительно базового объема услуг
разных поставщиков этих услуг для разных клиентов)
Рис.8.8. Двухфакторная таблица с данными поставщиков услуг
Данные с одинаковым количеством повторов в ячейках называются
сбалансированными данными.
Чтобы использовать двухфакторный дисперсионный анализ данных
модуля Анализ данных программы Ехсеl, нужно представить данные в виде
двухфакторной таблицы. В ней данные отформатированы таким образом, что
значения первого фактора располагаются по столбцам, а значения второго
фактора — по строкам. Повторы (наблюдения для шести компаний) занимают
шесть последовательно расположенных строк. Каждая ячейка в такой таблице
содержит объем услуг для каждой из 6 компаний. Эту таблицу можно создать с
помощью команды Two-Way Table (Создать двухфакторную таблицу) модуля
StatPlus.
Чтобы осуществить двухфакторный дисперсионный анализ, необходимо
Анализ данных – Двухфакторный дисперсионный анализ/ Двухфакторный
дисперсионный анализ с повторениями (в поле Число строк для выборки ввести
количество повторов).
59
Рис.8.9. Результат двухфакторного дисперсионного анализа
Интерпретация результатов двухфакторного дисперсионного анализа
Рис.8.10. Таблица с результатами
Для примера SST обозначает сумму квадратов для одного фактора (для
наименования фирмы), SSC – для другого фактора (для типов услуг), SSI – для
взаимодействия между факторами (типом услуг и фирмой), а SSE – для
случайной ошибки, тогда общая сумма
Общая сумма квадратов = SST + SSC + SSI + SSE.
Количество степеней свободы для каждого фактора равняется количеству
уровней фактора минус 1. Для двух фирм (Lo & Neo) количество степеней
свободы равно 1, а для четырех типов услуг (Инт.. М, МС, ПД) — 3. Для члена
взаимодействия между факторами (фирмами и типом услуг) количество
степеней свободы равно произведению степеней свободы для двух факторов,
т.е. 1*3 = 3. Наконец, существует n-1 или 47 степеней свободы для общей
суммы квадратов (всего 48 значений), а для ошибки остается 47 — (1 + 3 + 3) =
40 степеней свободы. Т.о. общее количество степеней свободы равно сумме
количеств степеней свободы для каждого члена модели. Иначе говоря, если
DFT обозначает количество степеней свободы для одного фактора (для
наименования фирмы), DFC— для другого фактора (для типов услуг), DFI—
для взаимодействия между маркой и типом, а DFE — для случайной ошибки, то
общей сумме квадратов будет соответствовать следующее выражение:
общее количество степеней свободы = DFT + DFC + DFI + DFE.
MS: приводятся среднеквадратические значения каждого фактора (т.е.
сумма квадратов, деленная на количество степеней свободы).
60
Эти значения представляют дисперсию объема услуг по отношению к
разным факторам. Наибольшей дисперсией характеризуется тип услуги, что
означает наибольший разброс объема услуг в зависимости от типа услуги.
F: приводятся значения отношения среднеквадратического значения
каждого фактора к среднеквадратическому значению члена ошибки. Эти
отношения удовлетворяют распределению F(m,n), где m — количество
степеней свободы фактора (типа, марки или взаимодействия), n — количество
степеней свободы для ошибки. Сравнивая эти значения с F-распределением,
Ехсеl вычисляет р-значения (в ячейках F25:F27) для всех трех членов влияния
модели.
Наконец, насколько изменчивость объема услуг объясняется моделью
данного двухфакторного дисперсионного анализа? Напомним, что
коэффициент R2 количественно определяет процентную долю общей суммы
квадратов, которая объясняется суммой квадратов разных факторов. В данном
примере значение коэффициента R2 определяется следующей формулой:
(1880,00 + 183750,50 + 4903,38)/264106,46 = 0,721. (Сумма по SS)
Таким образом, изменчивость объема услуг на 72% объясняется
различиями в типе услуг, фирм и взаимодействием между типом услуг и
фирмой, а на 28% — случайной ошибкой
Вопросы для самоконтроля
1.
2.
3.
4.
5.
Что такое дисперсионный анализ?
Назовите назначение переменных - индикаторов?
Какая связь между регрессионным и дисперсионным анализом?
Основные компоненты дисперсионного анализа?
Охарактеризуйте результат дисперсионного анализа?
61
9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ
9.1. Когнитивный анализ
Когнитивная карта ситуации – известные субъекту основные законы и
закономерности наблюдаемой ситуации в виде ориентированного знакового
графа, в котором вершины графа – это факторы (признаки, характеристики
ситуации), а дуги между факторами – причинно-следственные связи между
факторами.
Пример когнитивной карты некоторой экономической ситуации приведен
на рис. 9.1.
Рис.9.1 Пример когнитивной карты
Для отображения детального характера влияний или динамику изменения
влияния в зависимости от изменения ситуации требуется перехода на
следующий уровень структуризации информации, отображенной в когнитивной
карте, т.е. к когнитивной модели.
На этом уровне каждая связь между факторами когнитивной карты
раскрывается до соответствующего уравнения, которое может содержать как
количественные (измеряемые) переменные, так и качественные (не
измеряемые) переменные.
В когнитивной модели выделяют два типа причинно-следственных связей:
положительные и отрицательные.
Формально когнитивная модель ситуации может быть, как и когнитивная
карта, представлена графом, однако каждая дуга в этом графе представляет уже
некую функциональную зависимость между соответствующими базисными
факторами, т. е. когнитивная модель ситуации представляется функциональным
графом.
При анализе конкретной ситуации пользователь обычно знает или
предполагает, какие изменения базисных факторов являются для него
желательными. Факторы, представляющие наибольший интерес для
пользователя, называются целевыми. Это – выходные факторы когнитивной
модели. Задача выработки решений по управлению процессами в ситуации
состоит в том, чтобы обеспечить желательные изменения целевых факторов.
62
9.2. Методика когнитивного анализа сложных ситуаций
Когнитивный анализ сложной ситуации
1. Формулировка задачи и цели исследования;
2. Изучение процесса с позиций поставленной цели;
3. Сбор, систематизация, анализ существующей статистической и
качественной информации по проблеме;
4. Выделение основных характеристических признаков изучаемого
процесса и взаимосвязей, определение действия основных
объективных законов – это позволит выделить объективные
зависимости, тенденции в процессах;
5. Определение присущих исследуемой ситуации требований, условий и
ограничений;
6. Определение путей, механизмов действия – это позволит в
дальнейшем определить стратегии поведения и предотвращения
нежелательных последствий развития ситуации.
Моделирование
Моделирование – это средство получения теоретических и практических
знаний о проблеме и формулирования на этой основе практических выводов.
Моделирование представляет собой циклический процесс. Знания об
исследуемой проблеме расширяются и уточняются, а исходная модель
постоянно совершенствуется.
Цель когнитивного моделирования заключается в генерации и проверке
гипотез о функциональной структуре наблюдаемой ситуации до получения
функциональной структуры, способной объяснить поведение наблюдаемой
ситуации.
Основные требования к компьютерным системам когнитивного
моделирования – это открытость к любым возможным изменениям множества
факторов ситуации, причинно-следственных связей, получение и объяснение
качественных прогнозов развития ситуации (решение прямой задачи «Что
будет, если …»), получение советов и рекомендаций по управлению ситуацией
(решение обратной задачи «Что нужно, чтобы …»).
63
Рис. 9.2. Процесс моделирования





Этапы моделирования:
определение начальных условий, тенденций, характеризующих развитие
ситуации на данном этапе. Это необходимо для придания адекватности
модельного сценария реальной ситуации, что усиливает доверие к
результатам моделирования;
задание целевых, желаемых направлений (увеличение, уменьшение) и силы
(слабо, сильно) изменения тенденций процессов в ситуации;
выбор комплекса мероприятий (совокупности управляющих факторов),
определение их возможной и желаемой силы и направленности воздействия
на ситуацию;
выбор комплекса возможных воздействий (мероприятий, факторов) на
ситуацию, силу и направленность которых необходимо определить;
выбор наблюдаемых факторов (индикаторов), характеризующих развитие
ситуации, осуществляется в зависимости от целей анализа и желания
пользователя.
9.3. Регрессионно - когнитивный анализ
Взаимосвязи между различными факторами в когнитивной модели, как
правило, не очевидны, поэтому возникает вопрос: существуют ли скрытые
связи между различными факторами, какова «сила» этих связей и к чему
приведут возможные количественные изменения для определенного фактора.
Ответ на эти и подобные вопросы имеет вполне определенное практическое
значение, позволяющее предсказать различные количественные изменения и,
соответственно, экономические эффекты.
Для анализа и прогнозирования взаимовлияний факторов целесообразно
использовать методологию регрессионно-когнитивного моделирования,
которая дополняет когнитивный граф ситуации механизмами регрессионного
анализа. Весь процесс регрессионно-когнитивного моделирования можно
разделить на несколько этапов, представленных на рис.9.3.
64
1 этап
Определение факторов и конструирование
полносвязного графа когнитивной модели
2 этап
Определение коэффициентов взаимовлияния факторов
3 этап
Имитационное моделирование графа
4 этап
Прогнозирование факторов на основе полученной
РКМ
Рис. 9.3. Этапы регрессионно-когнитивного моделирования
На первом этапе регрессионно-когнитивного моделирования происходит
представление всех имеющихся факторов в виде когнитивной карты, которая
должна отражать общие представления о ситуации в виде определенных
семантических категорий, под которыми понимаются признаки, факты,
события, понятия, имеющие отношение к конкретной ситуации. На этом этапе
когнитивная карта моделируется в виде полносвязного графа, причем каждый
из имеющихся факторов оказывает влияние на все остальные. На этом этапе
необходимо обеспечить полноту и полносвязанность модели. Полнота
подразумевает целостность набора вершин графа – факторов модели.
Полносвязанность предполагает наличие всех возможных дуг графа (в том
числе в общем случае и петель).
На следующем этапе на основе имеющихся данных проводится
количественный анализ взаимных влияний в сконструированном полносвязном
графе. Для этого создается регрессионная модель для каждого из имеющегося
набора факторов. В (9.1) в качестве примера представлена линейная
регрессионная модель для n взаимовлияющих факторов: Ф1, Ф2, …, Фn.
Ф1  Ф1 б  k Ф2 Ф1  Ф2  k Ф3 Ф1  Ф3  ...  k Фn Ф1  Фn ;

Ф2  Ф2 б  k Ф1 Ф2  Ф1  k Ф3 Ф2  Ф3  ...  k Фn Ф2  Фn ;

Ф3  Ф3 б  k Ф1 Ф3  Ф1  k Ф2 Ф3  Ф2  ...  k Фn Ф3  Фn ;

...
Фn  Фn б  k Ф Ф  Ф1  k Ф Ф  Ф2  ...  k Ф Ф  Фn 1 .
1
n
2
3
n 1
n

(9.1)
Здесь Ф1б, Ф2б, …, Фnб – базовые значения (свободные члены регрессий),
k – коэффициенты влияния. Например, kФ1 Ф2 определяет влияние фактора Ф1
на фактор Ф2.
В более лаконичной форме (9.1) имеет вид:
 i i  1, n;  j j  1, n;


n
Фi  Фi б   kФ Ф  Ф j
j
i

j 1

j

i

exept i  j;
(9.2)
65
Базовые значения и значения коэффициентов могут быть вычислены
хорошо известными статистическими методами и в частности при помощи
специального модуля анализа данных системы MS Excel, которой позволяет
решать регрессионные уравнения различных видов (рассмотренный в п. 5, 9).
Такого рода регрессионно-когнитивная графовая модель не только
определяет связанную цепочку факторов, но и позволяет прогнозировать
значения факторов.
Вопросы для самоконтроля
Что такое когнитивная карта ситуации?
Что такое целевой фактор?
Как строится когнитивная карта?
Что такое когнитивная модель?
Чем когнитивная карта отличается от когнитивной модели?
Опишите методику когнитивного анализа сложных ситуаций.
Что такое моделирование?
Какой эффект дает совместное использование когнитивного моделирования
и регрессионного анализа?
9. В чем суть регрессионно -когнитивного моделирования?
1.
2.
3.
4.
5.
6.
7.
8.
66
10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
10.1. Системы аналитической обработки данных
Обнаружение знаний в базах данных (Knowledge Discovery in Databases,
KDD) – это последовательность действий, которую необходимо выполнить для
построения модели (извлечения знания).
На рис. 10.1 представлены этапы KDD. Это набор операций, комбинируя
которые, можно получить нужное решение. KDD включает в себя этапы
подготовки данных, выбора информативных признаков, очистки данных,
применения методов KDD, постобработки данных, интерпретации полученных
результатов. Сердцем всего этого процесса являются методы KDD,
позволяющие обнаруживать закономерности и знания.
Рис. 10.1. Этапы KDD
10.1.1. CRM – технология
CRM (Customer Relationship Management) – это бизнес-стратегия, в основе
которой лежит клиентоориентированный (customer-oriented) подход.
Стратегия CRM основана на использовании передовых управленческих и
информационных технологий, с помощью которых компания собирает
информацию о своих клиентах на всех стадиях его жизненного цикла
(привлечение, удержание, лояльность), извлекает из нее знания и использует
эти знания в интересах своего бизнеса путем выстраивания взаимовыгодных
отношений с ними.
Основная задача CRM – повышение эффективности бизнес-процессов,
направленных на привлечение и удержание клиентов, независимо от канала,
через который происходит контакт с клиентом.
Технологически, CRM-система – это совокупность программных
продуктов, связанных в единое целое и интегрируемых в информационную
среду компании.
CRM-приложения позволяют компании отслеживать историю развития
взаимоотношений с заказчиками, координировать многосторонние связи с
постоянными клиентами и централизованно управлять продажами и клиент ориентированным маркетингом, в том числе через Internet.
67
Любая CRM-система обладает следующими основными функциями:
- Сбор информации. Данные такого вида могут вводиться как самим
клиентом (Интернет-магазин), так и регистрироваться сотрудниками
компании. Как правило, в систему поступают все доступные реквизиты
сделки (описание купленного товара, цена, количество, цель покупки, вид
оплаты) и клиента (возраст, семейное положение, ежегодный доход,
имущество и так далее).
- Хранение, обработка информации и еѐ анализ для последующего
экспорта в соответствии с заданными критериями.
- Предоставление информации пользователям (текст, таблицы, графики,
рекомендации, напоминания).
Системы управления взаимоотношениями с клиентами по способу
использования подразделяются на три класса:
- Системы оперативного использования. Применяются для повседневных
управленческих целей.
- Аналитические системы. Используются маркетологами для обработки
больших объѐмов данных (как правило, о клиентах) с целью получения
новых знаний.
- Коллаборационные системы. Позволяют клиенту влиять на деятельность
компании в целом тем или иным образом (в том числе на процессы
разработки, производства, доставки и обслуживания товара или услуги).
CRM-системы наиболее эффективны в тех направлениях бизнеса, где есть
возможность накапливать большое количество полезной информации о каждом
клиенте.
Внедрение CRM-систем позволяет компаниям оградить себя от
воздействия факторов, влияющих на отток клиентов и их лояльность,
организовывая диалог с клиентом и учитывая его индивидуальные качества.
Один из самых полезных эффектов, который достигается оператором при
использовании CRM-системы, это осуществление задачи по «вычислению»
наиболее желанного и прибыльного клиента и, как следствие, его удержание в
компании, увеличивая его лояльность.
На российском рынке представлено множество CRM-систем, как
зарубежных, так и российских. Наиболее влиятельными зарубежными
представителями являются интегрированные решения от SAP и Oracle,
включающие CRM как один из блоков. Отличительная особенность систем
данных производителей в том, что они способны обрабатывать до 7000
клиентов и в дальнейшем это число планируют увеличить до 20000.
Одним из представителей российского рынка является продукт компании
«Парус», позволяющий подключать до 100 пользователей одновременно.
Кроме того, в системе данной компании встроены полнофункциональный
WEB-интерфейс и механизмы, позволяющие расширять и быстро адаптировать
программное обеспечение под конкретные нужды.
68
10.1.2. ERP – системы
Системы ERP (Enterprise Resource Planning – планирование ресурсов
предприятия, то есть системы управления ресурсами) предоставляют
возможность работать на интегрированном информационном поле множеству
удаленных пользователей, что обеспечивает максимальный эффект при
управлении крупными производствами и корпорациями.
Идея таких систем состоит в том, что элементы программного
обеспечения, предназначенные для поддержки разных функций предприятия,
должны непрерывно взаимодействовать между собой. Т.е. ERP-система
пытается «воспроизвести» бизнес-процессы в программном обеспечении.
ERP-система автоматизирует процедуры, образующие бизнес-процессы.
Сотрудники, работающие в разных подразделениях, видят одну информацию
и могут обновлять еѐ в своей части. Когда один департамент заканчивает
работу над заказом, заказ автоматически переадресовывается в другой
департамент внутри самой системы. Чтобы узнать, где находился заказ в
любой момент времени, необходимо только войти в систему и отследить
прохождение заказа. Поскольку весь процесс теперь прозрачен, то заказы
клиентов выполняются быстрее и с меньшим числом ошибок, чем раньше. То
же самое происходит с другими важными процессами, например, созданием
финансовых отчетов, начислением зарплаты и т.д.
Системы управления ресурсами способствуют переориентации
пользователей на анализ информации, реализуют интеграцию данных
различных подразделений, обеспечивая системное видение происходящих
процессов. Функции учѐта и отчѐтности переносятся непосредственно в
функциональные подсистемы, повышая оперативность обновления данных и
их достоверность. Кроме того, консолидируя данные компании, ERP-системы
облегчают реализацию функций тактического и стратегического
планирования, а ориентация на процессы и возможность их полного контроля
способствует повышению эффективности управления в компании.
10.1.3. OLAP – технология
OLAP (Оперативная система аналитической обработки данных) – это
сводные отчеты в разнообразных разрезах, создаваемых за считанные секунды
самим пользователем по мере надобности и имеющие наглядную форму
(таблицы, графики, диаграммы и т.д.). Например, если руководитель
телекоммуникационной компании хочет увидеть динамику подключений к сети
по времени года, то система покажет ему все данные о подключении по
месяцам и сезонам, а также зависимость изменения объемов подключений от
времени года или месяца и соответствие уровня подключений планам
компании.
Гиперкуб – это некая фигура в многомерном пространстве, число
измерений (осей) которого определяется факторами, важными для
69
деятельности предприятия. OLAP-системы позволяют накапливать в гиперкубе
всю информацию, которая может заинтересовать руководителя или аналитика.
При этом в качестве осей могут использоваться, например, категории услуг,
тарифы, география и объемы подключений, классы абонентов, время и т.д.
Рис. 10.2. Гиперкуб в OLAP
На сегодняшний день в состав мощных СУБД, например, в состав СУБД
Oracle Database, входят специальные компоненты технологии многомерного
анализа OLAP. Они позволяют хранить и обрабатывать многомерную
информацию на том же сервере баз данных, где находится реляционное
хранилище. По функциональным возможностям эта подсистема сравнима с
многомерной СУБД. Средства OLAP поддерживают в полном объеме основной
язык сервера Express (или DML – язык обработки многомерных данных).
Технология OLAP дает возможность быстро менять взгляд на данные в
зависимости от выбранных параметров и обеспечивает лицу, принимающему
решения, полный обзор ситуации в бизнесе с его собственной стратегической
точки зрения. Она принципиально отличается от традиционных технологий
поддержки принятия решений, чаще всего базируется на анализе большого
числа жестко структурированных отчетов. OLAP-системы позволяют
консолидировать информацию из различных баз данных и представить ее в
единых
сводных
таблицах.
Также
OLAP-системы
обеспечивают
непротиворечивость данных между отчетами: при детализации некоего итога
независимо от настроек аналитических разрезов итоговая сумма всегда
сходится.
10.2.
Интеллектуальный анализ данных (Data Mining)
Термин «Data Mining» переводится как «извлечение информации» или
«добыча данных». Цель Data Mining состоит в выявлении скрытых правил и
закономерностей в наборах данных. Результатом такого метода обработки
данных являются эмпирические модели, классификационные правила,
выделенные кластеры и т.д.
70
10.2.1. Этапы исследования данных с помощью методов Data Mining
Основные этапы, или шаги, которые, как правило, входят в любое
исследование данных с помощью методов Data Mining:
1. Приведение данные к форме, пригодной для применения конкретных
реализаций систем Data Mining. Выходом данного этапа должны быть
структурированные данные в виде прямоугольной таблицы, где каждая строка
представляет собой отдельный случай, объект или состояние изучаемого
объекта, а каждая колонка – параметры, свойства или признаки всех
исследуемых объектов. Строки подобной таблицы в теории Data Mining, как и в
теории баз данных принято называть записями, а колонки – полями.
2. Предварительная обработка данных с одинаковыми значениями для
всех колонок. Например, ―очистка‖ данных по столбцам и строкам таблицы по
признакам. Любая реальная база данных обычно содержит ошибки, очень
неточно определенные значения, записи, соответствующие каким-то редким,
исключительным ситуациям, и другие дефекты, которые могут резко понизить
эффективность методов Data Mining, применяемых на следующих этапах
анализа.
3. Применение методов Data Mining. Сценарии этого применения могут
быть самыми различными и включать сложную комбинацию разных методов,
особенно если используемые методы позволяют проанализировать данные с
разных точек зрения. Собственно этот этап исследования и принято называть
Data Mining (дословно, «разработка данных»).
4. Верификация и проверка получившихся результатов.
5. Интерпретация автоматически полученных знаний человеком в целях
их использования для принятия решений, добавление получившихся правил и
зависимостей в базы знаний и т.д.
10.2.2. Типы закономерностей
Выделяют пять стандартных типов закономерностей:
1. Классификация. Она позволяет выявить признаки, характеризующие
однотипные группы объектов – классы, чтобы по известным значениям этих
характеристик можно было отнести новый объект к тому или иному классу.
Ключевым моментом выполнения этой задачи является анализ множества
классифицированных объектов. Наиболее типичным примером использования
классификации – конкурентная борьба между поставщиками товаров и услуг за
определенные группы клиентов.
2. Кластеризация. Логически продолжает идею классификации на более
сложный случай, когда сами классы не определены.
3. Выявление ассоциаций. Имеет место между двумя или несколькими
одновременно наступающими событиями. При этом производимые правила
71
указывают на то, что при наступлении одного события с той или иной степенью
вероятности наступает другое.
4. Выявление
последовательностей.
Подобно
ассоциациям,
последовательности имеют место между двумя событиями, но наступающими
не одновременно, а с некоторым определенным разрывом во времени. Таким
образом, ассоциация есть частный случай последовательности с нулевым
временным шагом.
5. Прогнозирование. Это особая форма предсказания, которая на основе
особенностей поведения из текущих и исторических данных оценивает
будущие значения определенных численных показателей.
10.2.3. Методы Data Mining
1) Кластеризация
Позволяет разделить изучаемую совокупность объектов на группы
«схожих» объектов, разнести записи в различные группы, или сегменты.
К недостаткам кластеризации следует отнести зависимость результатов от
выбранного метода кластеризации и методы кластерного анализа не дают
какого-либо способа для проверки достоверности разбиения на кластеры.
(Предметно-ориентированные аналитические системы, к.п., $300 –
$1000).
2) Ассоциация
Ассоциация, или метод «корзины покупателя», является одним из
вариантов кластеризации, используемым для поиска групп характеристик,
наблюдаемых одновременно. Анализ ассоциации имеет смысл в том случае,
если несколько событий связаны друг с другом.
имеют форму:
если {условие}, то {результат}.
Примером такого правила, служит утверждение, что абонент,
использующий услугу А, будет использовать услугу Б.
система WizWhy (WizSoft) (стоимость системы около $4000).
3) Деревья решений
При данном методе правила представляются в виде последовательной
иерархической структуры, называемой деревом решений, при которой каждый
уровень дерева включает проверку (test) определѐнной независимой
переменной.
Иерархические структуры деревьев решений весьма наглядны. Их
выразительная мощность в значительной степени определяется множеством, в
котором ищутся критерии расщепления узлов.
Самыми известными являются See5/C5.0 (Австралия), Clementine (Integral
Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS
72
(Information Discovery, США), Knowledge SEEKER (ANGOSS, Канада).
Стоимость этих систем варьируется от $1000 до $10000.
4) Метод «ближайших соседей»
Цель данного метода заключается в том, чтобы предсказать значение
зависимой переменной для некоторой записи из определенного массива, для
которого известны значения как зависимой, так и независимой переменных.
Для этого в этом массиве записей, выбирается запись, наиболее «близкая» к
той, для которой необходимо сделать предсказание, и она интерпретируется как
искомая зависимая переменная.
Примеры систем, использующих данный метод, – КАТЕ tools (Acknosoft,
Франция), Pattern Recognition Workbench (Unica, США).
5) Нейронные сети
Нейронная сеть представляет из себя структуру, состоящую из узлов и
связей между ними. Причем, для того чтобы данную сеть можно было бы
применять в дальнейшем, еѐ прежде надо «настроить» с использованием
полученных ранее данных, содержащих значения входных и выходных
параметров (правильные ответы). Настройка состоит в подборе весов
межнейронных связей, обеспечивающих наибольшую близость ответов сети к
известным правильным ответам.
Основной недостаток, сдерживающий использование нейронных сетей для
извлечения знаний – их «непрозрачность». Построенная модель, как правило,
не имеет четкой интерпретации (концепции «черного ящика»).
Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward
Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500
– $8000.
6)
Нечеткая логика
Нечеткая логика] применяется для анализа таких наборов данных, когда
невозможно причислить данные к какой-либо группе и возникает
необходимость манипулировать категорией «может быть» в дополнении к «да»
и «нет».
7)
Генетические алгоритмы
Генетические алгоритмы обладают ярко выраженным свойством создания
нового знания. Интуитивный анализ генетического алгоритма помогает
выявить аналогии между искусственной генетической системой и
свойственными человеческому интеллекту процессами, обычно называемыми
творческими и инновационными (направленными на создание новшеств).
Одним из недостатком данного метода заключается в том, что критерий
отбора хромосом и используемые процедуры являются эвристическими и
далеко не гарантируют нахождения «лучшего» решения. Это становится
73
особенно заметным при решении высокоразмерных задач со сложными
внутренними связями.
Примером может служить система GeneHunter (Ward Systems Group). Еѐ
стоимость – около $1000.
8) Эволюционное программирование
Основная идея этого метода состоит в формировании гипотез о
зависимости целевой переменной от других переменных в виде автоматически
синтезируемых
программ,
выраженных
на
внутреннем
языке
программирования. Использование универсального языка программирования
позволяет выразить практически любую зависимость или алгоритм.
PolyAnalyst [20], Стоимость системы около $10000.
NeuroShell. Стоимость системы до $5000.
9)
Визуализация (когнитивная графика)
Графическое представление результатов работы систем Data Mining может
значительно облегчить процесс восприятия и интерпретации нового знания
человеком.
Визуализация позволяет рассматривать многомерные данные с разных
точек зрения, непосредственно видеть, что происходит с моделью при
добавлении новых переменных или, наоборот, при удалении одной или
нескольких переменных. Визуализация позволяет уменьшать или, наоборот,
увеличивать степень детальности модели, наблюдать естественные изменения,
происходящие, например, с классификационным деревом решений при
изменении порога отсечения малозначимых ветвей.
DataMiner 3D (Dimension5), стоимость которой может достигать
нескольких сотен долларов.
Вопросы для самоконтроля
1.
2.
3.
4.
5.
6.
7.
8.
9.
Что такое Knowledge Discovery in Databases?
Поясните этапы Knowledge Discovery in Databases.
Каковы основные задачи CRM-технологии?
Виды CRM-систем.
Поясните назначение ERP – системы?
Что такое гиперкуб?
Что такое Data Mining?
Опишите основе этапы Data Mining.
Поясните основные методы Data Mining.
74
Документ
Категория
Без категории
Просмотров
2
Размер файла
2 154 Кб
Теги
konspekt, analiz, dannye, lekcii
1/--страниц
Пожаловаться на содержимое документа