ETL: обзор и роль в развитии компаний | Статья в сборнике международной научной конференции

Автор:

Рубрика: 1. Информатика и кибернетика

Опубликовано в

VII международная научная конференция «Технические науки в России и за рубежом» (Москва, ноябрь 2017)

Дата публикации: 27.10.2017

Статья просмотрена: 295 раз

Библиографическое описание:

Коновалов М. В. ETL: обзор и роль в развитии компаний [Текст] // Технические науки в России и за рубежом: материалы VII Междунар. науч. конф. (г. Москва, ноябрь 2017 г.). — М.: Буки-Веди, 2017. — С. 31-34. — URL https://moluch.ru/conf/tech/archive/286/13149/ (дата обращения: 24.06.2018).



В статье рассматриваются понятия ETL, ETL-инструмент, а также OLTP и OLAP. Проводится краткий обзор ETL-инструментов от крупнейших мировых компаний разработчиков их роль в современном мире и развитии бизнеса крупных компаний.

Ключевые слова: ETL, ETL-инструменты, хранилище данных, ХД, DWH, OLTP, OLAP, анализ, бизнес-процесс, бизнес-анализ, ИТ

Введение

Последние десятилетия технологии и ИТ-индустрия в частности развиваются по экспоненте, оказывая влияние не только на смежные, но и, пожалуй, на все виды деятельности человека. В геометрической прогрессии растут объемы обрабатываемых данных, разнообразие инструментариев для создания и усовершенствования систем и приложений, используемых в промышленных целях.

Разнообразие программного обеспечения направлено, с одной стороны на упрощение ручного труда, автоматизацию бизнес-процессов, сокращение издержек и расходов компаний, но, вместе с этим значительно усложняется ИТ-инфраструктура и архитектура системного ландшафта в организациях. Это бросает вызовы ИТ-персоналу и требует все более высокой квалификации от специалистов, ответственных за информационные системы компании.

Вместе с тем растет количество источников и потребителей данных. Это обусловлено не только тенденциями внутри компании, но и увеличением количества внешних провайдеров информации, таких как, например, web-ресурсы государственных органов или коммерческих организаций, агрегирующих и предоставляющих справочные данные юридическим лицам.

Понятие ETL

Данные, загружаемые из каких-либо источников, как правило, требуется не просто хранить внутри одной системы, а передавать для обработки и анализа в другие системы. Для этого существуют, так называемые, хранилища данных (ХД или DWH — Data Warehouse). ХД — это базы данных для сбора и обработки различной информации, разработанные и ориентированные специально для подготовки отчетов и бизнес-анализа, с целью поддержки принятия решений на предприятии. [1]

Из-за множества используемых технологий, различий в системах с точки зрения архитектуры и структуры данных, при передаче информации в системы потребители, ее необходимо преобразовывать.

Таким образом, учитывая вышесказанное, можно выделить три этапа в процессе работы с данными:

  1. Извлечение (Extract),
  2. Преобразование (Transform),
  3. Загрузка (Load).

Эти три этапа и составляют аббревиатуру ETL — одного из основных процессов в управлении данными при получении их из множества систем источников и загрузки в ХД, с целью получения достоверной информации (см. Рис.1).

Рис.1. ETL-процесс

Рассмотрим подробнее выделенные этапы:

  1. Извлечение. На этом этапе данные извлекаются из систем источников без преобразований (как есть, произвольного качества) и загружаются в промежуточную область.
  2. Преобразование. Данные группируются, преобразуются к формату, соответствующему структуре хранилища данных. Выполняются очистка, проверка данных на полноту, формируются отчеты об ошибках для дальнейшего исправления.
  3. Загрузка. Данные загружаются из промежуточной области в хранилище данных. Причем загружается не вся информация, а только новая или измененная части, с поддержкой версионности. Это необходимо для возможности получить актуальную версию записи на произвольную дату.

Часто ETL является промежуточным слоем между OLTP системами и OLAP системой или хранилищем данных.

OLTP (Online Transaction Processing) — понятие относится к транзакционным системам сравнительно небольшого размера, обрабатывающих большие потоки данных в реальном времени.

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа.

Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Таблица 1

Сравнительные ихарактеристики OLTP иOLAP [2]

Характеристика

OLTP

OLAP

1

Источник данных

Деятельность компании

Внутренние и внешние данные

2

Объем данных

Как правило, необходимо за последние несколько месяцев

На порядки больше, чем для OLTP-систем. Необходимо, как правило, за несколько лет.

3

Качество данных

Эквивалентная информация может быть в разных форматах, и даже противоречивая

Единообразная, согласованная и очищенная информация.

4

Набор запросов

Для конкретных задач и выборки относительно небольшого объема данных. Набор может быть заранее известен.

Заранее предсказать набор невозможно (нерегламентированные запросы). Выбираются большие объемы данных.

5

Изменчивость

Сильная изменчивость, данные не упорядочены

Малая изменчивость, упорядоченность данных

6

Защита

Защита на уровне таблиц

Большая грануляция защиты из-за большой критичности для компании

ETL-инструменты

Вообще, для реализации ETL-процесса можно использовать большинство современных языков программирования. Но, если требуется не просто выполнить разовую конвертацию данных, а речь идет о реализации постоянного процесса интеграции данных из нескольких разнородных источников, то имеет смысл рассмотреть использование специализированных инструментов, облегчающих автоматизацию типовых операций, поддержку основных используемых форматов и наиболее распространенных информационных систем. При этом следует принимать во внимание параметры масштабируемости, скорости и расширяемости таких инструментов.

Наиболее распространенными разработчиками ETL-инструментов на сегодняшний день можно назвать Oracle, Informatica и IBM. Как правило, системы таких производителей перекрывают потребности бизнеса настолько, что большинство клиентов не используют и половины имеющегося функционала. Поэтому имеет смысл выбирать ETL-инструменты, основываясь на требуемых задачах решения и имеющейся платформе предприятия.

К примеру, если в компании доминируют системы от компании IBM — то можно рассмотреть решение Data Stage от IBM. С приобретением в 2008 году канадской компании Cognos, у IBM появилось и второе решение Data Manager, к одному из достоинств которого можно отнести наличие OLAP, чего нет у ряда других систем. Это позволяет обходиться без построения сложных ХД, что сильно экономит средства компании.

При использовании Unix/Linux подобных операционных систем часто используются решения от Informatica или Oracle. К преимуществам решений PowerCenter и PowerMart от Informatica можно отнести следование за новыми технологиями, регулярные релизы и, как следствие, наибольший набор инструментов для интеграции данных. Гибкости системе добавляет возможность программировать на языке разработки Java. [3,4] Для Oracle Data Integrator характерна возможность масштабирования от небольшой организации до целого предприятия, наличие специальных технологии для манипулирования большими объемами данных. Также для поддержки разработчиков в системе имеются специальные модули знаний для многих других систем, содержащие шаблоны кода. [5]

Если в компании преобладают системы от компании Microsoft, то ETL могут быть построены на продукте SSIS от Microsoft. Данный продукт имеет развитый пользовательский интерфейс, предоставляет широкую библиотеку стандартных компонентов потоков данных. В дополнении к ним, SSIS предоставляет инфраструктуру для создания пользовательских компонентов. Это позволяет компаниям разрабатывать узкоспециализированные высокоэффективные компоненты обработки данных. Но продукт не является кроссплатформенным и ориентирован на взаимодействие с продуктами Miscosoft. [6]

Заключение

Сегодня ETL-системы рассматриваются не только как инструмент для создания отчетов или исправления ошибок, которые могут возникать на уровне ввода, переноса данных, по причине системных ошибок или различий в данных между смежными ИТ-системами. Эти задачи действительно крайне важны для бизнеса, т. к. при наличии огромного количества различных систем в компании с противоречивыми данными, критичной является возможность получать достоверные и качественные данные, приведенные к единой системе значений и детализации. Но в понятие ETL-система сегодня вкладывается значительно больший смысл, т. к. решаемые задачи стали одними из наиболее приоритетных для компаний. Бизнес осознал необходимость внедрения подобных интеллектуальных систем для принятия своевременных решений и успешного ведения конкурентной борьбы. А это значит, что разработчики и интеграторы подобных решений и впредь должны все больше стремиться к тому, чтобы предлагать бизнесу новые инновационные решения с еще более развитым и интеллектуальным функционалом.

Литература:

  1. Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. — John Wiley & Sons, 2004.
  2. Проектирование баз данных: Распределенные базы и хранилища данных. Лекция 2: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (дата обращения: 23.10.2017).
  3. PowerCenter // DIS Group. URL: http://www.dis-group.ru/products/informatica/powercenter/ (дата обращения: 23.10.2017)
  4. Informatica Basic Features- Power Centre,Power Mart // DATAWAREHOUSE CONCEPTS. URL: http://dwhlaureate.blogspot.ru/2012/08/informatica-basic-features.html (дата обращения: 23.10.2017).
  5. Oracle Data Integrator Enterprise Edition // ORACLE. URL: http://www.oracle.com/us/products/middleware/data-integration/odi-ee-11g-ds-168065.pdf (Дата обращения: 23.10.2017).
  6. Бергер А. Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А. Б., Горбач И. В., Меломед Э. Л., Щербинин В. А., Степаненко В. П. / Под общ. Ред. А. Б. Бергера, И. В. Горбач. — СПб.: БХВ-Петербург, 2007.
  7. Основные функции ETL-систем // Хабрахабр. URL: https://habrahabr.ru/post/248231/ (Дата обращения: 23.10.2017).
Основные термины (генерируются автоматически): OLAP, OLTP, ETL, IBM, система, DWH, данные, SSIS, хранилище данных, компания.

Ключевые слова

анализ, бизнес-процесс, ИТ, хранилище данных, бизнес-анализ, ETL, ETL-инструменты, ХД, DWH, OLTP, OLAP

Обсуждение

Социальные комментарии Cackle
Задать вопрос