close

Вход

Забыли?

вход по аккаунту

?

Сравнение алгоритмов кластерного анализа на случайном наборе данных.

код для вставкиСкачать
Информационные технологии
УДК 004.9
СРАВНЕНИЕ АЛГОРИТМОВ КЛАСТЕРНОГО АНАЛИЗА НА СЛУЧАЙНОМ
НАБОРЕ ДАННЫХ
Е.С. Подвальный, А.В. Плотников, А.М. Белянин
Рассмотрены особенности применения методов кластерного анализа в системе диагностики. Описано подробно
алгоритмы кластерного анализа Kmeans и DBSCAN. Изложению результаты исследования алгоритмов кластерного
анализа на случайном наборе данных
Ключевые слова: кластерный анализ, оценка качества кластеризации, Kmeans алгоритм, DBSCAN алгоритм
Введение. Кластерный анализ – это общее
название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры», т.е. группы очень похожих
объектов. Более точно, кластерный метод - это
многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные
группы[1].
Различные приложения кластерного анализа можно свести к основным задачам:
1) Разработка типологии или классификации;
2) Исследование полезных концептуальных схем группирования объектов;
3) Порождение гипотез на основе исследования данных;
4) Проверка гипотез или исследование для
определения, действительно ли типы(группы),
выделенные тем или иным способом, присутствуют в имеющихся данных.
Как правило, кластерный анализ используется для создания классификаций, но в большинстве случаев прикладного анализа данных в
основе исследования лежит комбинация этих
задач.
Недостатки кластерного анализа:
1) Многие методы кластерного анализа –
довольно простые процедуры, которые, как
правило, не имеют достаточного статистического обоснования. Т.е. большинство методов
кластерного анализа являются эвристическими.
2) Методы кластерного анализа разрабатываются для многих научных дисциплин, а
Подвальный Евгений Семенович - ВГТУ, д-р техн. наук,
профессор, тел. (473) 247-74-04
Плотников Александр Владимирович - ВГТУ, аспирант,
тел. 8 (908) 138-57-31
Белянин Алексей Михайлович – ВГТУ, аспирант,
тел. 8 (960) 122-91-06
4
потому несут на себе отпечатки специфики
этих дисциплин.
3) Разные кластерные методы могут порождать и порождают различные решения для
одного и тех же данных.
Общепринятой классификации методов
кластеризации не существует. Однако, Если
обобщить различные классификации методов
кластеризации, то можно выделить ряд групп.
1) Вероятностный подход
2) Подходы на основе систем искусственного интеллекта.
3) Логический подход.
4) Теоретико-графовый подход.
5) Иерархический подход.
6) Другие алгоритмы
Оценки качества кластеризации. Оценить качество кластеризации можно с помощью внутренних и внешних оценок. Если результат кластеризации оценивается на основе
данных, которые разбивались на кластеры, то
такая оценка называется внутренней. Эти методы обычно назначают лучший результат для
алгоритма, который производит кластеров с
высоким сходством внутри кластера и низкий
сходство между кластерами. Один из недостатков использования внутренних критериев
оценки кластера является то, что высокие баллы внутренней оценки не обязательно приведут
к эффективному разбиению информации.
Во внешней оценки результатов кластеризации, оцениваются на основе данных, который
не был использован для кластеризации. Такие
критерии состоят из множества предварительных секретных пунктов, и эти наборы часто создаются человеком (экспертом).
Одной из внутренних ошибок является индекс Дэвис-Боулдин (Davies–Bouldin index). Его
можно вычислить по следующей формуле:
где – число кластеров;
– центр тяжести
кластера ;
– среднее расстояние всех элементов кластера
от центра тяжести
;
- расстояние между центрами тяжести
и .
Алгоритм, который будет иметь наименьший индекс Дэвис-Боулдина, будет считаться
лучим.
K-means алгоритм. Рассмотрим, некоторые алгоритмы кластерного анализа.
K-means алгоритм относится к не - иерархическим алгоритмам. Кластеры представлены
в виде центройдов, являющихся ’центром массы’ всех документов, входящих в кластер.
В основном, алгоритмы k - кластеризации
берут на вход множество S и число k. И на выход отдают разделение множества S на подмножества S1, S2, ..., Sk. Наиболее общий k алгоритм это алгоритм оптимизации (оптимизационный алгоритм).
Алгоритм K-means имеет ряд проблем: результат зависит от выбора исходных центров
кластеров, их оптимальный выбор неизвестен;
число кластеров надо знать заранее.
DBSCAN алгоритм. Алгоритм DBSCAN
(Density Based Spatial Clustering of Applications
with Noise), плотностный алгоритм для кластеризации пространственных данных с присутствием шума, был предложен Мартином Эстер,
Гансом-Питером Кригель и коллегами в 1996
году как решение проблемы разбиения (изначально пространственных) данных на кластеры
произвольной формы. Большинство алгоритмов, производящих плоское разбиение, создают
кластеры по форме близкие к сферическим, так
как минимизируют расстояние документов до
центра кластера[3].
Авторы DBSCAN экспериментально показали, что их алгоритм способен распознать кластеры различной формы.
Идея, положенная в основу алгоритма, заключается в том, что внутри каждого кластера
наблюдается типичная плотность точек (объектов), которая заметно выше, чем плотность
снаружи кластера, а так же плотность в областях с шумом ниже плотности любого из кластеров. Ещё точнее, что для каждой точки кластера её соседство заданного радиуса должно содержать не менее некоторого числа точек,
это число точек задаётся пороговым значением.
-соседство точки , обозначаемое как
, определяется как множество документов, находящихся от точки на расстояния
не более
:
.
Поиска точек, чьё
содержит хотя бы
минимальное число точек (
) недостаточно, так как точки бывают двух видов: ядровые
и граничные.
Точка
непосредственно
плотнодостижима из точки
(при заданных
и
), если
и
.
Точка
плотно-достижима из точки
(при заданных
и
), если существует
последовательность
точек
непосредственно
плотно-достижимы из . Это отношение транзитивно, но несимметрично в общем случае,
однако симметрично для двух ядровых точек.
Точка плотно-связана сточкой (при заданных
и
), если существует точка
и плотно-достижимы из (при заданных
и
).
Кластер
(при заданных
и
)–
это не пустое подмножество документов, удовлетворяющее следующих условиям:
1)
: если
и
плотнодостижима из (при заданных
и
),
то
;
2)
:
плотно-связана с (при
заданных
и
).
И так, кластер – это множество плотносвязанных точек. В каждом кластере содержится хотя бы
документов.
Эвристический подход к заданию начальных параметров. Для некоторого значения k,
построить график, на котором каждому документу коллекции поставить в соответствие значение k-dist – расстояние до его k-ого соседа,
при этом документы должны быть отсортированы по убыванию значения k-dist. Тогда полученный график может породить догадки
о распределении плотности в массиве документов. Ищем пороговую очку p на графике с наибольшим значением k-dist для «самого разреженного» кластера: предполагаем, то
это первая точка первой «равнины». Точки, расположенные левее, предположительно
считаются
шумовыми,
а
правее–
принадлежащими одному из кластеров. Тогда
значения параметров Eps = k-dist(p)и MinPt=k.
Результаты эксперимента. Задачей эксперимента было сравнить алгоритмы кластеризации Kmeans и DBSAN по индексу ДэвисБоулдина на случайном наборе данных. Число
данных в используемом тестовом наборе равно
5
669 (Рис. 1). Число кластеров, на которые нужно разбить данные равно 3.
Рис. 3. Результат работы алгоритма DBSCAN
Рис. 1. Исходные данные на плоскости
Результаты работы алгоритмов представлены на рисунке 2 и рисунке 3.
Индекс Дэвис-Боулдина для алгоритма
Kmeans равен 0,075. Индекс Дэвис-Боулдина
для алгоритма DBSCAN равен 0,05.
Вывод. Оценить результаты эксперимента
можно двояко: с одной стороны алгоритм
DBSCAN дал лучший результат по индексу Дэвис-Боулдина. Однако, анализируя Рисунков 2
и 3, можно придти к выводу, что алгоритм
Kmeans разбил данные геометрически более
верно.
Можно сделать вывод, что для выбора метода кластеризации нужно руководствоваться
эвристическим подходом. Для разного набора
данных оптимальный алгоритм может быть
разным.
Кластерный анализ предполагается включить в общую программу комбинированной диагностики [2] для анализа кровотока мозгового
кровообращения
Рис. 2. Результат работы алгоритма Kmeans
Литература
1. Ким Дж.-О., Мьюллер Ч.У. и др. Факторный, дискриминантный и кластерный анализы. Москва: Финансы и
статистика, 1989.
2. СВИДЕТЕЛЬСТВО о государственной регистрации программы № 2010611265 с приоритетом от 18 декабря 2009 г.
3. Henrik Bäcklund, Anders Hedblom, Niklas Neijman
A Density-Based Spatial Clustering of Application with Noise.
– Linköpings Universitet. – 2011
Воронежский государственный технический университет
COMPARISON OF CLUSTER ANALYSIS OF ALGORITHMS RANDOM SET OF DATA
E.S. Podvalny, A.V. Plotnikov, A.M. Belyanin
The features of application of cluster analysis in the diagnosis. We describe in detail the algorithm of cluster analysis
Kmeans and DBSCAN. Presentation of research results of cluster analysis algorithms on random data set
Key words: cluster analysis, evaluation of the quality of clustering, Kmeans algorithm, DBSCAN algorithm
6
Документ
Категория
Без категории
Просмотров
9
Размер файла
152 Кб
Теги
анализа, данных, алгоритм, кластерной, сравнение, случайное, набор
1/--страниц
Пожаловаться на содержимое документа