close

Вход

Забыли?

вход по аккаунту

?

Процесс извлечения данных из разнотипных источников.

код для вставкиСкачать
Приволжский научный вестник
УДК 004.623
Р.В. Троценко
канд. техн. наук, доцент,
кафедра математического обеспечения
и применения ЭВМ,
Институт компьютерных технологий
и информационной безопасности,
ФГАОУ ВПО «Южный федеральный университет»,
г. Ростов-на-Дону
М.В. Болотов
ассистент, кафедра математического
обеспечения и применения ЭВМ,
Институт компьютерных технологий
и информационной безопасности,
ФГАОУ ВПО «Южный федеральный университет»,
г. Ростов-на-Дону
ПРОЦЕСС ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ РАЗНОТИПНЫХ ИСТОЧНИКОВ
Аннотация. В статье рассмотрены проблемы построения систем извлечения данных из разнотипных
источников для их последующего использования в аналитических системах обработки данных. Операция извлечения и очистки данных является одной из наиболее востребованный и сложных для реализации в силу большого разнообразия имеющихся форм представления информации. Несмотря на наличие большого количества
специализированных программных средств, данная задача в полном объеме не решена и по сей день. Поэтому
требуется адаптация существующих алгоритмов и методов для каждого конкретного случая.
Ключевые слова: извлечение данных, ETL, большие данные.
R.V. Trotsenko, Southern Federal University, Rostov-on-Don
M.V. Bolotov, Southern Federal University, Rostov-on-Don
DATA EXTRACTION PROCESS FOR HETEROGENEOUS SOURCES
Abstract. Article describes problematic field of data extraction systems for heterogeneous sources for further
usage with analytical data processing solutions. The operation of data extraction and transformation is one of the most
needed and complex to implement because of significant variaty of data formats. Although there are a lot of specialized
software created for this event the task is not solved entirely so far. Therefore the existing algorithms and methods have
to be adapted for each specific case of their use.
Keywords: data extraction, ETL, big data.
В современном мире накопление данных в цифровой форме идет небывалыми темпами. Так, за последние несколько лет было собрано больше данных, чем за всю историю человечества до 2008 года [1]. Очевидно, что обработка подобных объемов информации невозможна без использования современных аналитических комплексов, позволяющих извлекать новые
знания из больших массивов данных. Следует отметить, что накопленные сведения имеют
крайне разнородную структуру и не могут быть напрямую использованы для автоматизированной обработки. Ввиду этого обстоятельства современные аналитические системы включают
обширные подсистемы, предназначенные для извлечения данных из разнотипных источников
для дальнейшей обработки.
Исследователи выделяют ряд проблем, связанных с процессом извлечения данных с
целью переноса их в хранилища информации для дальнейшей аналитической обработки. Среди таких проблем можно отметить следующие [2]:
– данные в источниках, как правило, представлены в разнообразных форматах, кодировках и формах, при этом решение аналитических задач предполагает использование единого, универсального формата, который будет поддерживаться хранилищем данных и аналитическими приложениями;
– для излишне детализированных данных, которые, как правило, содержатся в источ-
52
№ 12-1 (40) – 2014
Приволжский научный вестник
никах, требуется очистка и обобщение. При этом методы и алгоритмы, которые для этого предназначены, зачастую сложнее непосредственно алгоритмов анализа;
– материалы могут быть рассчитаны только на их восприятие человеком, но при этом
содержать ценную информацию (например, популярная в настоящее время инфографика [3]);
– структура хранения материалов в источнике может препятствовать их автоматическому извлечению (проверка на присутствие человека, временные ограничения и пр.).
Наличие указанных выше проблем обуславливает необходимость использования специального инструментария для извлечения данных из источников различного формата, их преобразования, очистки, обобщения и размещения в хранилище данных. Такой комплекс программных средств получил обобщенное название ETL (от англ. extraction, transformation, loading
– «извлечение», «преобразование», «загрузка»). Сам процесс переноса данных и связанные с
ним действия называются ETL-процессом, а соответствующие программные средства – ETLсистемами [4].
Как было обозначено ранее, основной задачей ETL-приложений является извлечение
информации из одного или нескольких источников и преобразование ее в формат, необходимый для сохранения в хранилище данных. Исторически ETL-системы использовались для переноса данных из ранних версий информационных систем в новые, однако в настоящее время
они все более часто применяются в их обобщенном смысле для извлечения данных из различных типов источников. Как правило, ETL-системы разрабатываются с учетом особенностей используемых хранилищ, которые могут поддерживать различные модели данных. При этом стараются сохранить универсальность ETL-системы, т.е. возможность извлечения данных из как
можно большего числа форматов.
Как правило, выделяют следующие разновидности источников данных для ETL-систем.
– Базы данных. Основной характеристикой данного вида источников является заданная
структура данных, соответствующая определенным стандартам, а также наличие средств контроля за целостностью информации. Это обуславливает сравнительную простоту в работе с
подобными источниками данных в ETL-системах. Как правило, сложности с этим видом источников возникают при необходимости глубокой трансформации данных.
– Структурированные файлы различных форматов (например, Excel, CSV-файлы,
HTML-документы и т.д.). Несмотря на наличие определенной структуры данных, использование
этого вида источников, как правило, вызывает больше проблем, так как в подобных файлах
редко присутствуют средства контроля целостности и непротиворечивости. Это обстоятельство
требует использования дополнительных средств контроля и очистки, что, очевидно, осложняет
процесс их извлечения.
– Неструктурированные источники. Использование этого вида источников, как правило,
сопряжено с большим объемом подготовительной работы. Для успешной загрузки данных из
неструктурированного источника требуется их структурирование в соответствии со структурой
данных хранилища. Этот процесс может происходить как вручную (для источников небольшого
объема), так и в автоматическом режиме. При этом требуется дополнительная разработка программных средств для успешной обработки информации из подобного источника. Существуют
также готовые программные системы, ориентированные на работу с неструктурированными
источниками данных. Однако, подобные программные системы предполагают большой объем
настройки и адаптации под конкретный источник данных, а также задание правил по преобразованию извлеченной информации в структурированный формат.
Следует отметить, что качество информации не определяется типом источника. Так,
«грязные» данные можно встретить как в хорошо структурированных реляционных хранилищах,
так и в неструктурированных источниках информации. При этом проблема очистки данных является одной из важнейших и трудно формализуемых в контексте аналитических технологий.
№ 12-1 (40) – 2014
53
Приволжский научный вестник
Очистка данных может быть осуществлена как непосредственно перед загрузкой в хранилище, так и в процессе аналитической обработки. Причем зачастую имеет смысл использовать очистку на всех этапах обработки. Это обусловлено рядом причин.
– Дополнительная обработка и анализ данных могут потребоваться, в случае если
«сырые» данные из источников не позволяют выполнить их загрузку в хранилище напрямую.
– Данные, извлекаемые из неструктурированных источников, могут содержать большое
количество «лишней» информации, которая была добавлена для улучшения восприятия ее человеком (вводные тексты, речевые обороты, иллюстрации и т.п.). В этом случае необходима
очистка и структуризация извлекаемой информации.
– Очистка данных при помощи аналитической системы может потребоваться, в случае
если в них присутствуют аномальные значения, но их структура при этом соответствует необходимым стандартам.
На текущий момент на рынке представлено огромное количество программных систем,
предназначенных для организации процесса ETL. Тем не менее, универсальных средств, способных успешно решать все описанные выше проблемы в настоящее время не существует. Это
обстоятельство, с одной стороны, приводит к необходимости поиска и выбора комплекса решений для отдельных аналитических задач, а с другой стороны, побуждает дальнейшее развитие
существующих программных систем. Следует отметить, что при текущих темпах роста объема
накапливаемых данных, задача разработки новых средств извлечения структурированной информации для последующего анализа еще долгое время будет одной из наиболее актуальных
для современных систем обработки и анализа данных.
Список литературы:
1. Найдич А. Big Data: проблема, технология, рынок [Электронный ресурс]. URL:
http://compress.ru/article.aspx?id=22725 (дата обращения: 20.09.2014).
2. Паклин Н.Б. Бизнес-аналитика: от данных к знаниям / Н.Б. Паклин, В.И. Орешков.
СПб.: Питер, 2009. 624 с.: ил.
3. Инфографика [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/
%D0%98%D0%BD%D1%84%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D0%BA%D0
%B0 (дата обращения: 20.09.2014).
4. ETL [Электронный ресурс] / Википедия. URL: https://ru.wikipedia.org/wiki/ETL (дата обращения: 20.09.2014).
54
№ 12-1 (40) – 2014
Документ
Категория
Без категории
Просмотров
23
Размер файла
116 Кб
Теги
данных, извлечения, процесс, источников, разнотипных
1/--страниц
Пожаловаться на содержимое документа