ETL: обзор инструментов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 29 января, печатный экземпляр отправим 2 февраля.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №1 (239) январь 2019 г.

Дата публикации: 07.01.2019

Статья просмотрена: 7291 раз

Библиографическое описание:

Черняев, А. С. ETL: обзор инструментов / А. С. Черняев, М. А. Балова. — Текст : непосредственный // Молодой ученый. — 2019. — № 1 (239). — С. 23-26. — URL: https://moluch.ru/archive/239/55368/ (дата обращения: 19.01.2022).



В статье рассматриваются понятия ETL, OLTP и OLAP. Проводится обзор ETL-инструментов от ведущих разработчиков и перспективы их применения в бизнесе.

Ключевые слова: ETL, ETL-инструмент, хранилище данных, ХД, DWH, OLTP, OLAP, ИТ.

Последние несколько десятилетий характеризуются экспоненциальным ростом мирового технологического развития в общем и ИТ-сферы, в частности. Подобное явление оказывает сильное влияние на все виды деятельности.

Такими же большими темпами растёт и объём обрабатываемых данных, что ведёт к количественному и качественному улучшению арсенала средств создания и совершенствования информационных систем и приложений. С одной стороны, широкий выбор ПО позволяет упростить рутинные действия, автоматизировать бизнес-процессы, а также способствует сокращению издержек предприятия, однако, в то же время, обратной стороной медали является усложнение ИТ-инфраструктуры архитектуры системного ландшафта компании.

Как следствие, сложившаяся ситуация ведёт к повышению необходимого уровня квалификации ИТ-персонала. Параллельно увеличивается и численность потребителей и источников данных. Причинами этого, на ряду с внутренними изменениями в самой компании, является рост числа внешних провайдеров информации, например, государственные или частные интернет-ресурсы, являющиеся агрегаторами полезной справочной информации.

Понятие ETL

В большинстве случаев, при загрузке данных из источников возникает необходимость хранения этих данных в одной системе и их передачи в другую систему для дальнейшей обработки и анализа. С целью осуществления этого процесса создаются хранилища данных (ХД или DWH — Data Warehouse). Хранилище данных представляет собой базу данных для сбора и обработки информации, поступающей из различных источников. Спецификой хранилищ данных является ориентированность на подготовку отчётов с целью поддержки принятия решений в организациях [1].

Поскольку в данное время существует большое количество технологий и систем, различных по своей по структуре данных и архитектуре, данные при передаче из одной системы в другую, нуждаются в преобразовании. Основываясь на вышесказанном, можно выделить три последовательных этапа процесса работы с данными:

1. Извлечение (Extract)

2. Преобразование (Transform)

3. Загрузка (Load)

Эти этапы принято обозначать аббревиатурой ETL, которая описывает один из основных процессов управления данными при их извлечении из источников и последующей загрузки в хранилище данных с целью получения достоверной информации (Рис. 1.).

F:\Users\Admin\Desktop\ETL.bmp

Рис. 1. ETL-процесс

Остановимся на более подробном рассмотрении вышеуказанных этапов.

Извлечение данных. Этап заключается в извлечении данных из источников, при этом данные не изменяются независимо от их качества и загружаются в промежуточную область.

Преобразование данных. В процессе преобразования, данные подергаются группировке, а также преобразуются в нужный формат, согласно структуре хранилища данных. Также выполняется очистка данных, проверка на полноту, и формируются отчёты для дальнейшего исправления ошибок.

Загрузка данных. На данном этапе осуществляется загрузка трансформированных данных из промежуточной области в хранилище данных. Стоит отметить, что загрузке подвергаются не все данные, а только те, которые являются новыми или были изменены. В процессе загрузки поддерживается версионность. Это является необходимым условием получения актуальной версии записи на произвольную дату.

Довольно часто ETL становится промежуточным слоем между системами класса OLTP и хранилищем данных или OLAP-системой.

Online Transaction Processing (OLTP) — относительные небольшие транзакционные системы, обрабатывающие большие потоки данных в реальном времени.

Online analytical processing (OLAP) — системы динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа.

Инструменты ETL

Вообще, для осуществления ETL-процесса допустимо использовать почти любой современный язык программирования. Однако, если требуется не разовая конвертация, а постоянно выполнять интеграцию данных, то целесообразно рассмотреть специализированное ПО. При этом стоит учитывать скорость, расширяемость и масштабируемость выбранного инструмента. Среди лидеров на рынке ETL-инструментов выделяются Oracle, Informatica и IBM. Обычно системы, созданные указанными компаниями, перекрывают потребности большинства компаний в области ETL. Исходя их этого, целесообразно выбирать ETL-инструмент основываясь на поставленных задачах, а также существующей платформе компании.

В случае преобладания продуктов IBM, стоит обратить внимание на решение Data Stage и Data Manager. Отличительной особенностью является наличие OLAP, что позволяет не строить сложные хранилища данных.

При преобладании Unix операционных систем, целесообразны решения PowerCenter и PowerMart от Informatica. Стоит отметить возможность разработки на языке Java [2,3].

При преобладании продуктов Microsoft, целесообразно применение SSIS от Microsoft. Указанный продукт располагает развитым пользовательским интерфейсом, однако не является кроссплатформенным [4].

Заключение

Сейчас системы, которые относятся к ETL, являются не только решением проблем, возникающих при вводе данных, их переносе, возникающих при появлении системных ошибок или различиях между информационными системами, которые являются источниками и потребителями данных. Стоит отметить, что указанные задачи очень важны для бизнеса, поскольку в случае наличия в компании большого количества различных ИС вероятно возникновение ошибок при передаче данных между системами, что приводит к снижению качества и достоверности данных. ETL-системы со временем стали включат в себя более широкий смысл, поскольку решаемые такими системами задачи получили высоки приоритет в компаниях. В конечном итоге бизнес пришёл к выводу о важности внедрения подобных информационных систем с целью повышения скорости принятия решений и ведения успешного конкурентного противостояния. Резюмируя вышесказанное, можно сделать вывод о том, что разработчики описанных систем должны стремиться к совершенствованию разрабатываемых систем и повышению распространённости таких систем на рынке.

Литература:

  1. Проектирование баз данных: Распределенные базы и хранилища данных. Лекция 2: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (дата обращения: 04.01.2019).
  2. PowerCenter // DIS Group. URL: http://www.dis-group.ru/products/informatica/powercenter/ (дата обращения: 23.10.2017) Informatica Basic Features- Power Centre,Power Mart // DATAWAREHOUSE CONCEPTS. URL: http://dwhlaureate.blogspot.ru/2012/08/informatica-basic-features.html (дата обращения: 04.01.2019).
  3. Oracle Data Integrator Enterprise Edition // ORACLE. URL: http://www.oracle.com/us/products/middleware/data-integration/odi-ee-11g-ds-168065.pdf (Дата обращения: 04.01.2019).
  4. Бергер А. Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А. Б., Горбач И. В., Меломед Э. Л., Щербинин В. А., Степаненко В. П. / Под общ. Ред. А. Б. Бергера, И. В. Горбач. — СПб.: БХВ-Петербург, 2007.
  5. Основные функции ETL-систем // Хабрахабр. URL: https://habrahabr.ru/post/248231/ (Дата обращения: 04.01.2019).
Основные термины (генерируются автоматически): ETL, OLAP, OLTP, хранилище данных, система, DWH, IBM, данные, SSIS, промежуточная область.


Ключевые слова

ИТ, хранилище данных, ETL, ХД, DWH, OLTP, OLAP, ETL-инструмент

Похожие статьи

ETL: обзор и роль в развитии компаний | Статья в сборнике...

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа. Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Обзор и сравнительный анализ промышленных хранилищ...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис

Понятия база данных и хранилище данных. Когда возникает потребность хранить и обрабатывать большие объемы данных, как правило, в...

Реализация хранилищ данных в системах поддержки принятия...

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа. Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Разработка бизнес-аналитики с использованием SQL SERVER...

Хранение данных осуществляется в системах оперативной обработки транзакций

В витрине данных могут содержаться сразу несколько OLTP-систем, что позволяет вычислять сложные

OLAP-системы проектируются для предоставления пользователям простого и быстрого...

Системы поддержки приятия решений для мониторинга работы ЛВС

Развитие компьютерных технологий и достижение в области нейрофизиологии сделали

Системы OLAP(online analytical processing) — системы аналитической обработки в

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении...

Методы интеллектуального анализа данных | Статья в журнале...

Разнообразие: большие данные могут относиться к любому структурированному или неструктурированному типу, представляя собой текст

В настоящее время доступны новые системы и инструменты, такие как комбинированные системы хранения и обработки данных.

Компьютерная идентификация и современные системы...

Сырые данные могут быть полностью либо частично структурированными и потому эти системы должны работать как с реляционными, так и с другими

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP...

О способе интеграции системы обнаружения аномалий в SQL...

Одним из вариантов добавления функции проверки данных, возвращаемых из хранилища данных, может быть экранирование

Данный объект становиться посредником между модулями системы и хранилищем данных. Так все запросы, адресованные хранилищу...

Компьютерная технология автоматизирования информационной...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис

О способе интеграции системы обнаружения аномалий в SQL... Основные термины (генерируются автоматически): баз данных, клиентское...

Big Data. Особенности и роль в современном бизнесе

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не

- процесс обработки данных в информацию и получения знаний для принятия решений. Данные из OLTP-системы копируются в хранилище...

Похожие статьи

ETL: обзор и роль в развитии компаний | Статья в сборнике...

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа. Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Обзор и сравнительный анализ промышленных хранилищ...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис

Понятия база данных и хранилище данных. Когда возникает потребность хранить и обрабатывать большие объемы данных, как правило, в...

Реализация хранилищ данных в системах поддержки принятия...

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа. Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Разработка бизнес-аналитики с использованием SQL SERVER...

Хранение данных осуществляется в системах оперативной обработки транзакций

В витрине данных могут содержаться сразу несколько OLTP-систем, что позволяет вычислять сложные

OLAP-системы проектируются для предоставления пользователям простого и быстрого...

Системы поддержки приятия решений для мониторинга работы ЛВС

Развитие компьютерных технологий и достижение в области нейрофизиологии сделали

Системы OLAP(online analytical processing) — системы аналитической обработки в

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении...

Методы интеллектуального анализа данных | Статья в журнале...

Разнообразие: большие данные могут относиться к любому структурированному или неструктурированному типу, представляя собой текст

В настоящее время доступны новые системы и инструменты, такие как комбинированные системы хранения и обработки данных.

Компьютерная идентификация и современные системы...

Сырые данные могут быть полностью либо частично структурированными и потому эти системы должны работать как с реляционными, так и с другими

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP...

О способе интеграции системы обнаружения аномалий в SQL...

Одним из вариантов добавления функции проверки данных, возвращаемых из хранилища данных, может быть экранирование

Данный объект становиться посредником между модулями системы и хранилищем данных. Так все запросы, адресованные хранилищу...

Компьютерная технология автоматизирования информационной...

Ключевые слова: база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис

О способе интеграции системы обнаружения аномалий в SQL... Основные термины (генерируются автоматически): баз данных, клиентское...

Big Data. Особенности и роль в современном бизнесе

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не

- процесс обработки данных в информацию и получения знаний для принятия решений. Данные из OLTP-системы копируются в хранилище...

Задать вопрос