close

Вход

Забыли?

вход по аккаунту

?

Презентация (PPT, 0.3MB)

код для вставкиСкачать
Технология извлечения знаний
из использования Интернет
Определение
Извлечение знаний – поиск
нетривиальных потенциально
полезных знаний в больших
объёмах данных.
Основные области применения
•
•
•
•
•
Финансы
Страхование
Медицина
Биология
Интернет
OLAP/Data mining
Аналитик
Знания
OLAP
Статистические
пакеты
Data
mining
Данные
Хранилища
данных
Базы
данных
Структура web mining
W eb m in in g
И з вл еч ен и е з н ан и й и з И н т ерн ет
W eb u sage m in in g
И з вл еч ен и е з н ан и й и з
и спол ь з ован и я И н т ерн ет
W eb con ten t m in in g
И з вл еч ен и е з н ан и й и з
н апол н ен и я И н т ерн ет
Структура web content mining
W e b co nte nt m ining
И звле ч е ние зна ний из
на по лне ния И нте р не т
П о д хо д С У Б Д
М но го ур о вне вы е Б Д
П о д хо д
инте лле к туа ль ны х а ге нто в
С истем ы запросов
Web usage mining
Извлечение знаний из
использования Интернет – поиск
нетривиальных потенциально
полезных знаний в деятельности
пользователей Интернет.
Применения Web usage mining
•
•
•
•
Персонификация контента
Улучшение работы сети
Модификация сайтов
Исследования сети
Этапы Web usage mining
• Сбор данных
• Обработка данных
• Применение методов Data mining
• Кластеризация
• Поиск ассоциативных правил
• Поиск наиболее частых
подпоследовательностей
Сбор информации
Обработка данных
• Очистка данных
• Заполнение пути
• Выделение пользовательских
сессий
Ассоциативные правила
• Правила вида:
• A=>b. Где А - ДНФ
• Поддержка – отношение тех
элементов где A к общему числу
• Уверенность – отношение
элементов, где выполняется
правило к элементам с А
Цель кластеризации
• Уменьшение размерности (выбор
представителей)
• Генерация гипотез
• Проверка гипотез
• Прогнозные модели
Методы кластеризации
•
•
•
•
Иерархические
Алгоритмы оптимизации
Основанные на плотности
Нечёткие методы
Иерархические методы
• N кластеров
• На каждом шаге объединение
двух самых «близких» кластеров
• Расстояние: по наиболее
близкими или наиболее
удалённым точкам, по центрам.
Нечёткий c-medoids метод
• Jm(V;X) =
Минимизируется это значение
• Только 30 элементов с наибольшей
вероятностью используются для
пересчёта центров.
Верификация кластеризации
Кластеризация
Статистическая
верификация
Поиск
ассоциативных
правил в
кластере
Поиск
ассоциативных
правил в
кластере
Выделенные кластеры
Поиск
ассоциативных
правил в
кластере
Семантическая
верификация
Методы верификации
• Сопоставление эталонного
разбиения и кластеров
• Статистические
• Связанные с нечётким
разбиением
• Комбинированные методы
Предлагаемый метод
• Сессии представлены как
численные векторы
• Используюется расстояние
редактирования
• Расстояние модифицируется с
учётом положения страниц
• Нечёткий C-Medoids метод
Данные Sigla.ru
•
•
•
•
•
70000 посещений в день
1300 сессий в день
50 страниц
Данные за три дня
Сессии с длинной от 3 до 40
визитов
Расстояние Евклида
• Каждая сессия это вектор
vi = {x1,..xn}
• xj = 1 если страница j входит в
сессию.
• xj = 0 иначе.
Расстояние редактирования
Примеры строк: ‘cat’, ‘cash’
CAT -> CAS -> CASH
Общее расстояние 3.
Модификация расстояния
• dir11/dir12/pagename1
• dir21/dir22/pagename2
Если совпадают dir 11 и dir 21 то
уменьшается стоимость замены
Если совпадают dir 21 и dir 22 то
стоимость снижается еще больше
Индекс Беждека
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Proposed
2
3
4
5
6
7
Euclidian
8
9
10
Edit
11
12
Энтропия разбиения
3
2,5
2
1,5
1
Proposed
0,5
Euclidian
Edit
0
2
3
4
5
6
7
8
9
10
11
12
Предлагаемая верификация
• Подсчёт уникальных
ассоциативных правил
• Индекс = количество уникальных
правил/количество кластеров
Предлагаемый метод
140
30
proposed metric
euclidian
120
proposed metric
euclidian
25
100
20
80
15
60
10
40
5
20
0
0
23
Спасибо!
Ваши вопросы?..
Документ
Категория
Презентации
Просмотров
14
Размер файла
324 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа