ETL: обзор и роль в развитии компаний | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: 1. Информатика и кибернетика

Опубликовано в

VII международная научная конференция «Технические науки в России и за рубежом» (Москва, ноябрь 2017)

Дата публикации: 27.10.2017

Статья просмотрена: 6543 раза

Библиографическое описание:

Коновалов, М. В. ETL: обзор и роль в развитии компаний / М. В. Коновалов. — Текст : непосредственный // Технические науки в России и за рубежом : материалы VII Междунар. науч. конф. (г. Москва, ноябрь 2017 г.). — Москва : Буки-Веди, 2017. — С. 31-34. — URL: https://moluch.ru/conf/tech/archive/286/13149/ (дата обращения: 25.04.2024).



В статье рассматриваются понятия ETL, ETL-инструмент, а также OLTP и OLAP. Проводится краткий обзор ETL-инструментов от крупнейших мировых компаний разработчиков их роль в современном мире и развитии бизнеса крупных компаний.

Ключевые слова: ETL, ETL-инструменты, хранилище данных, ХД, DWH, OLTP, OLAP, анализ, бизнес-процесс, бизнес-анализ, ИТ

Введение

Последние десятилетия технологии и ИТ-индустрия в частности развиваются по экспоненте, оказывая влияние не только на смежные, но и, пожалуй, на все виды деятельности человека. В геометрической прогрессии растут объемы обрабатываемых данных, разнообразие инструментариев для создания и усовершенствования систем и приложений, используемых в промышленных целях.

Разнообразие программного обеспечения направлено, с одной стороны на упрощение ручного труда, автоматизацию бизнес-процессов, сокращение издержек и расходов компаний, но, вместе с этим значительно усложняется ИТ-инфраструктура и архитектура системного ландшафта в организациях. Это бросает вызовы ИТ-персоналу и требует все более высокой квалификации от специалистов, ответственных за информационные системы компании.

Вместе с тем растет количество источников и потребителей данных. Это обусловлено не только тенденциями внутри компании, но и увеличением количества внешних провайдеров информации, таких как, например, web-ресурсы государственных органов или коммерческих организаций, агрегирующих и предоставляющих справочные данные юридическим лицам.

Понятие ETL

Данные, загружаемые из каких-либо источников, как правило, требуется не просто хранить внутри одной системы, а передавать для обработки и анализа в другие системы. Для этого существуют, так называемые, хранилища данных (ХД или DWH — Data Warehouse). ХД — это базы данных для сбора и обработки различной информации, разработанные и ориентированные специально для подготовки отчетов и бизнес-анализа, с целью поддержки принятия решений на предприятии. [1]

Из-за множества используемых технологий, различий в системах с точки зрения архитектуры и структуры данных, при передаче информации в системы потребители, ее необходимо преобразовывать.

Таким образом, учитывая вышесказанное, можно выделить три этапа в процессе работы с данными:

  1. Извлечение (Extract),
  2. Преобразование (Transform),
  3. Загрузка (Load).

Эти три этапа и составляют аббревиатуру ETL — одного из основных процессов в управлении данными при получении их из множества систем источников и загрузки в ХД, с целью получения достоверной информации (см. Рис.1).

Рис.1. ETL-процесс

Рассмотрим подробнее выделенные этапы:

  1. Извлечение. На этом этапе данные извлекаются из систем источников без преобразований (как есть, произвольного качества) и загружаются в промежуточную область.
  2. Преобразование. Данные группируются, преобразуются к формату, соответствующему структуре хранилища данных. Выполняются очистка, проверка данных на полноту, формируются отчеты об ошибках для дальнейшего исправления.
  3. Загрузка. Данные загружаются из промежуточной области в хранилище данных. Причем загружается не вся информация, а только новая или измененная части, с поддержкой версионности. Это необходимо для возможности получить актуальную версию записи на произвольную дату.

Часто ETL является промежуточным слоем между OLTP системами и OLAP системой или хранилищем данных.

OLTP (Online Transaction Processing) — понятие относится к транзакционным системам сравнительно небольшого размера, обрабатывающих большие потоки данных в реальном времени.

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа.

Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Таблица 1

Сравнительные ихарактеристики OLTP иOLAP [2]

Характеристика

OLTP

OLAP

1

Источник данных

Деятельность компании

Внутренние и внешние данные

2

Объем данных

Как правило, необходимо за последние несколько месяцев

На порядки больше, чем для OLTP-систем. Необходимо, как правило, за несколько лет.

3

Качество данных

Эквивалентная информация может быть в разных форматах, и даже противоречивая

Единообразная, согласованная и очищенная информация.

4

Набор запросов

Для конкретных задач и выборки относительно небольшого объема данных. Набор может быть заранее известен.

Заранее предсказать набор невозможно (нерегламентированные запросы). Выбираются большие объемы данных.

5

Изменчивость

Сильная изменчивость, данные не упорядочены

Малая изменчивость, упорядоченность данных

6

Защита

Защита на уровне таблиц

Большая грануляция защиты из-за большой критичности для компании

ETL-инструменты

Вообще, для реализации ETL-процесса можно использовать большинство современных языков программирования. Но, если требуется не просто выполнить разовую конвертацию данных, а речь идет о реализации постоянного процесса интеграции данных из нескольких разнородных источников, то имеет смысл рассмотреть использование специализированных инструментов, облегчающих автоматизацию типовых операций, поддержку основных используемых форматов и наиболее распространенных информационных систем. При этом следует принимать во внимание параметры масштабируемости, скорости и расширяемости таких инструментов.

Наиболее распространенными разработчиками ETL-инструментов на сегодняшний день можно назвать Oracle, Informatica и IBM. Как правило, системы таких производителей перекрывают потребности бизнеса настолько, что большинство клиентов не используют и половины имеющегося функционала. Поэтому имеет смысл выбирать ETL-инструменты, основываясь на требуемых задачах решения и имеющейся платформе предприятия.

К примеру, если в компании доминируют системы от компании IBM — то можно рассмотреть решение Data Stage от IBM. С приобретением в 2008 году канадской компании Cognos, у IBM появилось и второе решение Data Manager, к одному из достоинств которого можно отнести наличие OLAP, чего нет у ряда других систем. Это позволяет обходиться без построения сложных ХД, что сильно экономит средства компании.

При использовании Unix/Linux подобных операционных систем часто используются решения от Informatica или Oracle. К преимуществам решений PowerCenter и PowerMart от Informatica можно отнести следование за новыми технологиями, регулярные релизы и, как следствие, наибольший набор инструментов для интеграции данных. Гибкости системе добавляет возможность программировать на языке разработки Java. [3,4] Для Oracle Data Integrator характерна возможность масштабирования от небольшой организации до целого предприятия, наличие специальных технологии для манипулирования большими объемами данных. Также для поддержки разработчиков в системе имеются специальные модули знаний для многих других систем, содержащие шаблоны кода. [5]

Если в компании преобладают системы от компании Microsoft, то ETL могут быть построены на продукте SSIS от Microsoft. Данный продукт имеет развитый пользовательский интерфейс, предоставляет широкую библиотеку стандартных компонентов потоков данных. В дополнении к ним, SSIS предоставляет инфраструктуру для создания пользовательских компонентов. Это позволяет компаниям разрабатывать узкоспециализированные высокоэффективные компоненты обработки данных. Но продукт не является кроссплатформенным и ориентирован на взаимодействие с продуктами Miscosoft. [6]

Заключение

Сегодня ETL-системы рассматриваются не только как инструмент для создания отчетов или исправления ошибок, которые могут возникать на уровне ввода, переноса данных, по причине системных ошибок или различий в данных между смежными ИТ-системами. Эти задачи действительно крайне важны для бизнеса, т. к. при наличии огромного количества различных систем в компании с противоречивыми данными, критичной является возможность получать достоверные и качественные данные, приведенные к единой системе значений и детализации. Но в понятие ETL-система сегодня вкладывается значительно больший смысл, т. к. решаемые задачи стали одними из наиболее приоритетных для компаний. Бизнес осознал необходимость внедрения подобных интеллектуальных систем для принятия своевременных решений и успешного ведения конкурентной борьбы. А это значит, что разработчики и интеграторы подобных решений и впредь должны все больше стремиться к тому, чтобы предлагать бизнесу новые инновационные решения с еще более развитым и интеллектуальным функционалом.

Литература:

  1. Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. — John Wiley & Sons, 2004.
  2. Проектирование баз данных: Распределенные базы и хранилища данных. Лекция 2: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (дата обращения: 23.10.2017).
  3. PowerCenter // DIS Group. URL: http://www.dis-group.ru/products/informatica/powercenter/ (дата обращения: 23.10.2017)
  4. Informatica Basic Features- Power Centre,Power Mart // DATAWAREHOUSE CONCEPTS. URL: http://dwhlaureate.blogspot.ru/2012/08/informatica-basic-features.html (дата обращения: 23.10.2017).
  5. Oracle Data Integrator Enterprise Edition // ORACLE. URL: http://www.oracle.com/us/products/middleware/data-integration/odi-ee-11g-ds-168065.pdf (Дата обращения: 23.10.2017).
  6. Бергер А. Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А. Б., Горбач И. В., Меломед Э. Л., Щербинин В. А., Степаненко В. П. / Под общ. Ред. А. Б. Бергера, И. В. Горбач. — СПб.: БХВ-Петербург, 2007.
  7. Основные функции ETL-систем // Хабрахабр. URL: https://habrahabr.ru/post/248231/ (Дата обращения: 23.10.2017).
Основные термины (генерируются автоматически): OLAP, OLTP, ETL, IBM, система, DWH, SSIS, данные, хранилище данных, компания.

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ...

SQL, IBM, данные, хранилище данных, решение, OLAP, баз данных, DBMS, база данных, объем данных. база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис...

Реализация хранилищ данных в системах поддержки принятия...

Системы OLAP(online analytical processing) — системы аналитической обработки в реальном времени [3]. Целью создания системы является анализ огромных объемов данных

ETLExtractTransformLoad») — один из основных процессов в управлении хранилищами...

Компьютерная технология автоматизирования информационной...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис, бизнес-приложение, ПО, ИС, ИТ. О способе интеграции системы обнаружения аномалий в SQL...

Разработка бизнес-аналитики с использованием SQL SERVER...

Хранение данных осуществляется в системах оперативной обработки транзакцийOLTP-системах.

OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Введение в BI-технологии | Статья в журнале «Молодой ученый»

OLTP-системаOnline Transaction Processing») — обработка транзакций в реальном режиме.

ETLExtractTransformLoad») — один из основных процессов в управлении хранилищами данных, включающий извлечение данных, их преобразование и очистку, а...

Выбор платформы интеллектуального анализа данных для...

Достоинствами системы являются визуализация процесса анализа данных и представления результатов, так же возможна загрузка и сохранение данных в

Репозиторий — это хранилище данных, создаваемое на диске средой и содержащее в себе все данные и процессы.

Автоматизация системы управления с использованием Deductor...

Реализация хранилищ данных в системах поддержки принятия... Очевидно, что принятие решений должно основываться на

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online transaction processingOLTP)...

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлами.

Системы поддержки приятия решений для мониторинга работы ЛВС

Системы OLAP(online analytical processing) — системы аналитической обработки в реальном времени [3]. Целью создания системы является

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не...

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ...

SQL, IBM, данные, хранилище данных, решение, OLAP, баз данных, DBMS, база данных, объем данных. база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис...

Реализация хранилищ данных в системах поддержки принятия...

Системы OLAP(online analytical processing) — системы аналитической обработки в реальном времени [3]. Целью создания системы является анализ огромных объемов данных

ETLExtractTransformLoad») — один из основных процессов в управлении хранилищами...

Компьютерная технология автоматизирования информационной...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис, бизнес-приложение, ПО, ИС, ИТ. О способе интеграции системы обнаружения аномалий в SQL...

Разработка бизнес-аналитики с использованием SQL SERVER...

Хранение данных осуществляется в системах оперативной обработки транзакцийOLTP-системах.

OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Введение в BI-технологии | Статья в журнале «Молодой ученый»

OLTP-системаOnline Transaction Processing») — обработка транзакций в реальном режиме.

ETLExtractTransformLoad») — один из основных процессов в управлении хранилищами данных, включающий извлечение данных, их преобразование и очистку, а...

Выбор платформы интеллектуального анализа данных для...

Достоинствами системы являются визуализация процесса анализа данных и представления результатов, так же возможна загрузка и сохранение данных в

Репозиторий — это хранилище данных, создаваемое на диске средой и содержащее в себе все данные и процессы.

Автоматизация системы управления с использованием Deductor...

Реализация хранилищ данных в системах поддержки принятия... Очевидно, что принятие решений должно основываться на

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online transaction processingOLTP)...

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлами.

Системы поддержки приятия решений для мониторинга работы ЛВС

Системы OLAP(online analytical processing) — системы аналитической обработки в реальном времени [3]. Целью создания системы является

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не...