close

Вход

Забыли?

вход по аккаунту

?

Как найти и исключить дубликаты? (подходы к решению)

код для вставки
Описаны основные подходы к решению задачи писка и объединения дублирующихся записей о клиентах. Презентация раскрывает основные этапы работ которые должны быть выполнены в рамках проекта по исключению дублирующихся клиентских записей. Презентация мо
Поиск дубликатов. Подходы и решения.
Как найти и объединить дубликаты? Подходы и решения
Поиск дубликатов. Подходы и решения.
Содержание
?Состав работ
?Оценка качества данных
?Очистка данных
?Поиск и слияние похожих записей
?Компоненты системы поиска дубликатов
Поиск дубликатов. Подходы и решения.
Состав работ
Анализ Данных Оценка текущего качества данных
Приведение форматов, добавление недостающих данных,
исправление ошибок
Очистка данных
Поиск дубликатов
Слияние записей Управление правилами объединения записей
Исключение
дубликатов
Поиск дубликатов. Подходы и решения.
Оценка качества данных
?Простая статистика
?Частотный анализ
?Соответствие форматам
?Ссылочная целостность
Поиск дубликатов. Подходы и решения.
Простая статистика для набора ключевых атрибутов
Количество записей
Количество наборов данных
Количество дублирующихся наборов данных
Количество уникальных наборов данных
Ключевые атрибуты = {Фамилия, Имя, Отчество, Пол, Почтовый адрес}
192 983
(100%)
163 088
(84%)
156 870
(81%)
6 218
(3%)
Поиск дубликатов. Подходы и решения.
Простая статистика для атрибута
Количество Фамилий
Количество уникальных
фамилий
Количество повторяющихся фамилий
Атрибут = {Фамилия}
3 091
2 196
895
Количество Пустых
Значений
285
Поиск дубликатов. Подходы и решения.
Частотный анализ данных
Иванов
Атрибут = {Фамилия}
Козлов КовалевЖук Новик
Новиков Иванова
Мороз
Зайцев
Страхователь
1 818 записей
Поиск дубликатов. Подходы и решения.
Соответствие формату
Атрибут = {Номер паспорта}
10,20%
89,80%
Номер паспорта должен содержать 7 цифр Поиск дубликатов. Подходы и решения.
Оценка ссылочной целостности
Клиенты
Атрибут = {Фамилия}
Адреса
20,26%
79,74%
100 %
20,26% или 39 093 записей о клиентах не имеют данных о почтовом адресе Поиск дубликатов. Подходы и решения.
Результаты проверки данных
ИмяФамилияОтчествоПолСерияНомерАдрес
МаксимОстарховНиколаевичMMP1234567Ул. Ленина, 5
МаксимОстарховНиколаевичMMP1234567
Страхователь
?1
HP7654321Ул. Маркса,6
Максим
Николаевич
Остархов
МMP1234567
Поиск дубликатов. Подходы и решения.
Очистка данных
?Приведение форматов
?Добавление недостающих данных
?Корректировка ошибок
Поиск дубликатов. Подходы и решения.
Приведение форматов
Имя
Петров Петр Петрович
ИМЯ
ОТЧЕСТВО
ФАМИЛИЯ
Петр
Петрович
Серия
Номер
1234567
Петров
MP
Разделение полей
Результирующие данные
Исходные данные
Отчество
Фамилия
Серия
MP1234567
Номер
Поиск дубликатов. Подходы и решения.
Внешние справочники
Справочник Имен
Добавление недостающих данных
Имя
Петр
ИМЯ
ОТЧЕСТВО
ФАМИЛИЯ
Петр
Петрович
Пол
Петров
МУЖСКОЙ
Результирующие данные
Исходные данные
Отчество
Фамилия
Пол
Петрович
Петров
Тип имени
Мужское
Петр
Имя
Поиск дубликатов. Подходы и решения.
Кириллица ?>
латиница
Корректировка ошибок
Имя
Петр Петрович
Имя
Отчество
Фамилия
Петр
Петрович
Серия
Номер
1234567
Петров
MP
Результирующие данные
Исходные данные
Отчество
Фамилия
Серия
MP
Номер
1234567
Петрович
Петров
Поиск дубликатов. Подходы и решения.
Результаты проверки данных
ИмяФамилияОтчествоПолСерияНомерАдрес
МаксимОстарховНиколаевичMMP1234567Ул. Ленина, 5
МаксимОстаховНиколавичMMP1234576Ул.Ленина, 5
Страхователь
?1
HP7654321Ул. Маркса,6
МаксимОстарховНиколаевичМMP1234567Ул. Ленина, 5
Поиск дубликатов. Подходы и решения.
Исключение дубликатов
?Поиск дубликатов
?Слияние данных
?Работа над ошибками
Поиск дубликатов. Подходы и решения.
Алгоритм поиска дубликатов
Идентифицирующие атрибуты
Имя
Отчество
Фамилия
Паспорт
Метод
сравнения
Jaro?Winkler
Jaro?Winkler
Jaro?Winkler
Jaro?Winkler
Весовой коэффициент
10
10
15
20
Источник 1
Петр
Петр
Петров
MP1234567
Источник 2
Петр
Петр
Питров
MP 1234567
Дистанция
1
1
0,89
1
?N
1
(Дистанция хВесовой коэффициент )
?1
1
Весовой коэффициент
=
Результат
сравнения
10*1+10*1+0,89*15+20*1
10+10+15+20
=
0,97
=
=
=
=
Нижний порог0,75
Верхний порог0,95
0,97
Дубликат
Новый
РЕЗУЛЬТАТ
<
>
Дубликат
Поиск дубликатов. Подходы и решения.
Блокировки
Имя
Иван
Андрей
Андрей
Петр
Фамилия
Иванов
Петров
Сидоров
Сидоров
? Паспорта
1234567
7654321
1237645
Иванович
Отчество
Петрович
Николаевич
Николаевич
Город
Витебск
Витебск
Минск
Минск
1237654
ИИИ123Витебск
ППП765Витебск
САН123Минск
САН123Минск
Код похожести
Записи подлежащие сравнению
1 000 записей о клиентах = 1 000 000
операций сравнения
1 000 000 записей о клиентах = 1 000 000 000 0000
операций сравнения
Поиск дубликатов. Подходы и решения.
Результаты поиска
S <= 0,75
Уникальные
записи
0,75 < S < 0,97
S >= 0,97
Подозрительные
записи
Дубликаты
S = Индекс похожести
Поиск дубликатов. Подходы и решения.
Объединение записей
Формирование итоговой записи
Имя
Максим
Запись 2
Запись 1
Отчество
Фамилия
Серия
MP
Номер
1234576
Николаевич
Астархов
Имя
Максим
Отчество
Фамилия
Серия
MP
Номер
1234567
Николаевич
Остархов
Имя
Максим
Отчество
Фамилия
Серия
MP
Номер
1234567
Николаевич
Остархов
Итоговая запись
Поиск дубликатов. Подходы и решения.
Работа над ошибками
Разделение записи и восстановление исходной информации
Имя
Максим
Запись 2 (до слияния)
Запись 1 (до слияния)
Отчество
Фамилия
Серия
MP
Номер
1234576
Николаевич
Астархов
Имя
Максим
Отчество
Фамилия
Серия
MP
Номер
1234567
Николаевич
Остархов
Имя
Максим
Отчество
Фамилия
Серия
MP
Номер
1234567
Николаевич
Остархов
Итоговая запись
Поиск дубликатов. Подходы и решения.
Компоненты системы поиска дубликатов
МЕХАНИЗМЫ РАЗДЕЛЕНИЯ ЗАПИСЕЙ
ИС
ДАННЫЕ О КЛИЕНТАХ
МЕХАНИЗМЫ ОЧИСТКИ ДАННЫХ
АВТОМАТИЗИРОВАННЫЕ
В РУЧНУЮ
БИБЛИОТЕКА ПРАВИЛ
МЕХАНИЗМ ОЦЕНКИ КАЧЕСТВА ДАННЫХ
ОТЧЕТНОСТЬ
МЕХАНИЗМЫ ПОИСКА ДУБЛИКАТОВ
МЕХАНИЗМЫ ОБЪЕДИНЕНИЯ ЗАПИСЕЙ
АВТОМАТИЗИРОВАННЫЕ
В РУЧНУЮ
Поиск дубликатов. Подходы и решения.
Демонстрация
Talend Open Profiler +
MS SQL Server 2008 R2
Эффективное средство оценки качества данных
Поиск дубликатов. Подходы и решения.
За кадром
?Интервальный анализ
?Анализ дат
?Корреляционный анализ
?Анализ текстовых значений
?Отчетность
Поиск дубликатов. Подходы и решения.
Спасибо за внимание!
?Максим ОСТАРХОВ
Директор по развитию бизнеса в СНГ
Тел.: +7 495 641 0206
Моб.: + 7 915 400 8031
Skype: m.ostarhov
E?mail: m.ostarhov@itransition.com
Web: www.itransition.ru
Документ
Категория
Буклеты, брошюры
Просмотров
284
Размер файла
942 Кб
Теги
"customer management", "data linkage", "data management", "data matching", "dublication", "talend", microsoft
1/--страниц
Пожаловаться на содержимое документа