close

Вход

Забыли?

вход по аккаунту

?

Методы добычи данных

код для вставкиСкачать
Data Mining
Фролов Тимофей. БИ-1102
Добыча данных это процесс аналитического исследования больших массивов
информации (обычно экономического характера) с целью выявления определенных
закономерностей и систематических взаимосвязей между переменными, которые
затем можно применить к новым совокупностям данных. Этот процесс включает три
основных этапа: исследование, построение модели или структуры и ее проверку. В
идеальном случае, при достаточном количестве данных можно организовать
итеративную процедуру для построения устойчивой модели. В то же время, в
реальной ситуации практически невозможно проверить экономическую модель на
стадии анализа и поэтому начальные результаты имеют характер эвристик, которые
можно использовать в процессе принятия решения (например, "Имеющиеся данные
свиделельствуют о том, что у женщин частота приема снотворных средств
увеличивается с возрастом быстрее, чем у мужчин.").
Методы Data Mining приобретают все большую популярность в качестве инструмента для анализа
экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся
данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в
последнее время возрос интерес к разработке новых методов анализа данных, специально
предназначенных для сферы бизнеса (например, Деревья классификации), в целом системы Data
Mining по-прежнему основываются на классических принципах
разведочного анализа
данных(РАД) и построения моделей и используют те же подходы и методы.
Имеется, однако, важное отличие процедуры Data Mining от классического разведочного анализа
данных (РАД) : системы Data Mining в большей степени ориентированы на практическое приложение
полученных результатов, чем на выяснение природы явления. Иными словами, при Data Mining нас
не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы
участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей
между переменными не является главной целью этой процедуры. Основное внимание уделяется
поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом,
в области Data Mining принят такой подход к анализу данных и извлечению знаний, который иногда
характеризуют словами "черный ящик". При этом используются не только классические
приемы разведочного анализа данных, но и такие методы, как нейронные сети , которые позволяют
строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой
прогноз основан.
Очень часто Data Mining трактуется как "смесь статистики, методов искуственного интеллекта
(ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась
полноценной областью интереса для специалистов по статистике, а порой ее даже
называли "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой
практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой
интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические
результаты (см. например, материалы ежегодно проводимой Международной конференции по поиску
знаний и Data Mining (International Conferences on Knowledge Discovery and Data Mining), одним из
организаторов которой в 1997 году стала Американская статистическая ассоциация - American
Statistical Association).
хранилище данных это место хранения больших многомерных массивов данных,
которое позволяет легко извлекать и использовать информацию в процедурах
анализа.
Эффективная архитектура хранилища данных должна быть организована таким
образом, чтобы быть составной частью информационной системы управления
предприятием (или по крайней мере иметь связь со всеми доступными данными).
При этом необходимо использовать специальные технологии работы с
корпоративными базами данных (например, Oracle, Sybase, MS SQL Server).
Высокопроизводительная технология хранилищ данных, позволяющая пользователям
организовать и эффективно использовать базу данных предприятия практически
неограниченной сложности, разработана компанией StatSoft enterprise systems и
называется SENS [STATISTICA Enterprise System] и SEWSS [STATISTICA EnterpriseWide SPC System]).
Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации)
обозначает методы, которые дают возможность пользователям многомерных баз данных в
реальном времени генерировать описательные и сравнительные сводки ("views") данных и
получать ответы на различные другие аналитические запросы. Обратите внимание, что
несмотря на свое название, этот метод не подразумевает интерактивную обработку данных
(в режиме реального времени); он означает процесс анализа многомерных баз данных
(которые, в частности, могут содержать и динамически обновляемую информацию) путем
составления эффективных "многомерных" запросов к данным различных
типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия)
системы баз данных и позволяют аналитикам и менеджерам следить за ходом и
результативностью своего бизнеса или рынка в целом (например, за различными сторонами
производственного процесса или количеством и категориями совершенных сделок по
разным регионам). Анализ, проводимый методами OLAP может быть как простым
(например, таблицы частот, описательные статистики, простые таблицы), так и достаточно
сложным (например, он может включать сезонные поправки, удаление выбросов и другие
способы очистки данных). Хотя методы Data Mining можно применять к любой,
предварительно не обработанной и даже неструктурированной информации, их можно
также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью
более углубленного исследования, как правило, в более высоких размерностях. В этом
смысле методы Data Mining можно рассматривать как альтернативный аналитический
подход (служащий иным целям, нежели OLAP) или как аналитическое расширение
систем OLAP.
РАД и проверка гипотез
В отличие от традиционной проверки гипотез, предназначенной для
проверки априорных предположений, касающихся связей между переменными
(например, "Имеется положительная корреляция между возрастом человека и его/ее
нежеланием рисковать"), разведочный анализ данных (РАД) применяется для
нахождения связей между переменными в ситуациях, когда отсутствуют (или
недостаточны) априорные представления о природе этих связей. Как правило, при
разведочном анализе учитывается и сравнивается большое число переменных, а для
поиска закономерностей используются самые разные методы.
Вычислительные методы РАД
Вычислительные методы разведочного анализа данных включают основные
статистические методы, а также более сложные, специально разработанные методы
многомерного анализа, предназначенные для отыскания закономерностей в
многомерных данных.
Основные методы разведочного статистического анализа. К основным методам
разведочного статистического анализа относится процедура анализа распределений
переменных (например, чтобы выявить переменные с несимметричным или
негауссовым распределением, в том числе и бимодальные),
просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих
по величине определенные пороговые значения (см. предыдущий пример), или
анализ многовходовых таблиц частот (например, "послойный" последовательный
просмотр комбинаций уровней управляющих переменных).
Методы многомерного разведочного анализа. Методы многомерного
разведочного анализа специально разработаны для поиска закономерностей
в многомерных данных (или последовательностях одномерных данных). К
ним относятся: кластерный анализ, факторный анализ, анализ
лискриминантных функций, многомерное шкалирование, логлинейный
анализ,канонические корреляции, пошаговая линейная и нелинейная
(например, логит) регрессия, анализ соответствий, анализ временных рядов.
Нейронные сети. Этот класс аналитических методов основан на идее
воспроизведения процессов обучения мыслящих существ (как они
представляются исследователям) и функций нервных клеток. Нейронные
сети могут прогнозировать будущие значения переменных по уже
имеющимся значениям этих же или других переменных, предварительно
осуществив процесс так называемого обучения на основе имеющихся
данных.
Предварительное исследование данных может служить
лишь первым этапом в процессе их анализа, и пока
результаты не подтверждены (методами кросс-проверки)
на других фрагментах базы данных или на независимом
множестве данных, их можно воспринимать самое
большее как гипотезу. Если результаты разведочного
анализа говорят в пользу некоторой модели, то ее
правильность можно затем проверить, применив ее к
новым данных и определив степень ее согласованности с
данными (проверка "способности к прогнозированию").
Для быстрого выделения различных подмножеств
данных (например, для очистки, проверки и пр.) и
оценки надежности результатов удобно пользоваться
условиями выбора наблюдений.
Документ
Категория
Презентации
Просмотров
190
Размер файла
271 Кб
Теги
данных, методы, добычи, презентация
1/--страниц
Пожаловаться на содержимое документа