close

Вход

Забыли?

вход по аккаунту

?

Кластеризация данных для искусственных нейронных сетей..pdf

код для вставкиСкачать
Управление качеством, стандартизация и метрология
Pantyukhin Oleg Viktorovich, candidate of technical sciences, docent, The Head of
Publishing House, ntomach@tsu.tula.ru, Russia, Tula, Tula State University
УДК 658.562
КЛАСТЕРИЗАЦИЯ ДАННЫХ
ДЛЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
О.В. Пантюхин
Рассмотрена процедура кластеризации данных для построения искусственных нейронных сетей.
Ключевые слова: искусственная нейронная сеть, кластеризация, дендрограмма.
Процедуре решения задачи регрессии и построения искусственной
нейронной сети (ИНС) предшествует подготовка данных, которая осуществляется с помощью кластерного анализа [1,2]. Он необходим для разбиения всего массива данных на отдельные группы (кластеры), внутри которых функция зависимости выходных параметров от входных является непрерывной. Только в этом случае для каждой полученной группы данных
мож построить искусственную нейронную сеть, позволяющую с высокой
степенью точности прогнозировать значения выходных параметров. Сравнение между группами осуществляется с помощью количественной меры евклидова расстояния, которое вычисляется как корень из суммы квадратов покоординатных разностей. Необходимо учесть также, что различные
независимые переменные измеряются в разных шкалах с различными диапазонами. Это может привести к тому, что вклад одних переменных в евклидово расстояние будет пренебрежительно малым, а других – излишне
большим. Чтобы избежать этого, проводят процедуру стандартизации переменных. Результатом стандартизации является приведение всех переменных к единой шкале: данные изменяются в диапазоне ±3, причем
большая часть всех значений будет принадлежать интервалу (-1, 1). Процедура стандартизации не изменяет структуру взаимодействий между переменными и не влияет на структуру кластеров. Стандартизацию можно
провести в одной из статистических программ, например, в программе
Statistica. На рис.1 показаны стандартизованные данные. В качестве исходных данных в расчете использовались измеренные значения параметров
качества гильзы патрона спортивно-охотничьего калибра 7,62х39 мм на
161
Известия ТулГУ. Технические науки. 2013. Вып. 1
операциях второй и четвертой вытяжек (разностенность у дна, разностенность у обреза, диаметр полуфабриката вытяжки).
Рис. 1. Результат стандартизации данных
Далее с применением инструментов программы Statistica проведем
иерархический кластерный анализ на стандартизованных данных. В результате анализа получим вертикальную дендрограмму (рис.2), из которой
визуально определим количество кластеров, на которые можно разбить
измеренные данные.
Визуальный анализ дендрограммы показывает, что количество кластеров можно принять равным четырем.
Далее определим, какой объект к какому кластеру принадлежит.
Для этого воспользуемся итеративной процедурой - методом К-средних.
Метод заключается в том, что процесс классификации начинается с задания начальных условий. В данном случае это количество образуемых кластеров и центры этих кластеров. Далее каждое многомерное наблюдение
совокупности относится к тому кластеру, центр которого ближе всех к
этому наблюдению. Затем выполняется проверка на устойчивость класси162
Управление качеством, стандартизация и метрология
фикации. Если классификация устойчива, процесс останавливается. В противном случае происходит очередная процедура разбиения объектов по
кластерам. Метод K-средних был выполнен на стандартизованных данных
в программе Statistica. В результате расчетов каждый объект (строка данных) был отнесен к одному из кластеров (таблица). Таким образом, в результате кластеризации все множество данных было разбито на три класса.
Рис. 2. Дендрограмма наблюдений параметров вытяжки
Результаты кластеризации данных
Диаметр
заготовки
после 2-й
вытяжки
12,401
12,386
12,397
12,394
12,411
12,401
12,396
12,394
12,401
Разностенность у дна
после 2-й
вытяжки
0,05
0,03
0,03
0,06
0,05
0,06
0,08
0,05
0,08
Разностенность у обреза после 2-й
вытяжки
0,14
0,12
0,12
0,11
0,12
0,12
0,12
0,14
0,08
Диаметр
заготовки
после 4-й
вытяжки
11,121
11,116
11,118
11,116
11,118
11,114
11,119
11,111
11,111
163
Разностенность у дна
после 4-й
вытяжки
0,07
0,12
0,08
0,16
0,16
0,07
0,16
0,16
0,15
Разностенность
у обреза после
4-й вытяжки
№
кластера
0,04
0,07
0,07
0,07
0,04
0,06
0,07
0,07
0,07
1
1
1
1
1
1
1
1
1
Известия ТулГУ. Технические науки. 2013. Вып. 1
Окончание
Диаметр
заготовки
после 2-й
вытяжки
Разностенность у дна
после 2-й
вытяжки
Разностенность у обреза после 2-й
вытяжки
Диаметр
заготовки
после 4-й
вытяжки
Разностенность у дна
после 4-й
вытяжки
Разностенность
у обреза после
4-й вытяжки
кластера
12,402
0,13
0,08
11,119
0,07
0,05
2
12,403
0,12
0,07
11,115
0,15
0,04
2
12,414
0,05
0,06
11,112
0,05
0,03
2
12,404
0,07
0,11
11,115
0,15
0,03
2
12,411
0,12
0,12
11,122
0,04
0,04
2
12,404
0,12
0,07
11,114
0,16
0,03
2
12,413
0,13
0,11
11,115
0,15
0,07
2
12,401
0,12
0,09
11,112
0,16
0,04
2
12,406
0,12
0,07
11,121
0,12
0,05
2
12,412
0,07
0,11
11,119
0,16
0,07
2
12,401
0,12
0,08
11,114
0,12
0,03
2
12,412
0,06
0,08
11,114
0,05
0,07
2
12,412
0,12
0,08
11,121
0,05
0,04
2
12,413
0,12
0,12
11,117
0,15
0,07
2
12,386
0,06
0,07
11,115
0,09
0,06
3
12,393
0,03
0,11
11,132
0,14
0,04
3
12,397
0,03
0,07
11,118
0,11
0,02
3
12,388
0,12
0,08
11,123
0,11
0,03
3
12,403
0,08
0,11
11,126
0,05
0,03
3
12,386
0,08
0,06
11,111
0,14
0,03
3
12,392
0,06
0,09
11,117
0,16
0,04
3
12,396
0,06
0,12
11,122
0,12
0,02
3
12,386
0,08
0,09
11,121
0,15
0,07
3
12,394
0,07
0,07
11,122
0,15
0,02
3
12,392
0,06
0,07
11,116
0,16
0,03
3
12,386
0,06
0,07
11,125
0,16
0,02
3
12,386
0,09
0,07
11,124
0,05
0,07
3
12,386
0,07
0,12
11,119
0,16
0,04
3
12,395
0,07
0,11
11,117
0,16
0,03
3
12,391
0,05
0,11
11,115
0,04
0,02
3
12,402
0,05
0,12
11,123
0,12
0,03
3
№
Внутри кластеров данные однородны, а функция зависимости выходных параметров от входных непрерывна.
Список литературы
1. Галушкин А.И. Теория нейронных сетей: в 2 кн. Кн. 1. Нейро164
Управление качеством, стандартизация и метрология
комьютеры и их применение: учеб. пособие для вузов / общая ред. А.И.
Галушкина. М.: ИПРЖР, 2000. 416 с.
2. Заенцев И.В. Нейронные сети. Основные модели. Воронеж: ВГУ,
1999. 76 с.
Пантюхин Олег Викторович, канд. техн. наук, доц., директор издательства,
ntomach@tsu.tula.ru, Россия, Тула, Тульский государственный университет
CLUSTERING OF DATA FOR ARTIFICIAL NEURAL NETWORKS
O.V. Pantyukhin
A procedure for the clustering of data for artificial neural networks is considered.
Key words: artificial neural networks, clustering, dendrogram.
Pantyukhin Oleg Viktorovich, candidate of technical sciences, docent, The Head of
Publishing House, ntomach@tsu.tula.ru, Russia, Tula, Tula State University
165
Документ
Категория
Без категории
Просмотров
6
Размер файла
398 Кб
Теги
нейронные, данных, искусственные, pdf, сетей, кластеризацию
1/--страниц
Пожаловаться на содержимое документа