ETL: обзор и роль в развитии компаний
Автор: Коновалов Михаил Владимирович
Рубрика: 1. Информатика и кибернетика
Опубликовано в
Дата публикации: 27.10.2017
Статья просмотрена: 6591 раз
Библиографическое описание:
Коновалов, М. В. ETL: обзор и роль в развитии компаний / М. В. Коновалов. — Текст : непосредственный // Технические науки в России и за рубежом : материалы VII Междунар. науч. конф. (г. Москва, ноябрь 2017 г.). — Москва : Буки-Веди, 2017. — С. 31-34. — URL: https://moluch.ru/conf/tech/archive/286/13149/ (дата обращения: 15.11.2024).
В статье рассматриваются понятия ETL, ETL-инструмент, а также OLTP и OLAP. Проводится краткий обзор ETL-инструментов от крупнейших мировых компаний разработчиков их роль в современном мире и развитии бизнеса крупных компаний.
Ключевые слова: ETL, ETL-инструменты, хранилище данных, ХД, DWH, OLTP, OLAP, анализ, бизнес-процесс, бизнес-анализ, ИТ
Введение
Последние десятилетия технологии и ИТ-индустрия в частности развиваются по экспоненте, оказывая влияние не только на смежные, но и, пожалуй, на все виды деятельности человека. В геометрической прогрессии растут объемы обрабатываемых данных, разнообразие инструментариев для создания и усовершенствования систем и приложений, используемых в промышленных целях.
Разнообразие программного обеспечения направлено, с одной стороны на упрощение ручного труда, автоматизацию бизнес-процессов, сокращение издержек и расходов компаний, но, вместе с этим значительно усложняется ИТ-инфраструктура и архитектура системного ландшафта в организациях. Это бросает вызовы ИТ-персоналу и требует все более высокой квалификации от специалистов, ответственных за информационные системы компании.
Вместе с тем растет количество источников и потребителей данных. Это обусловлено не только тенденциями внутри компании, но и увеличением количества внешних провайдеров информации, таких как, например, web-ресурсы государственных органов или коммерческих организаций, агрегирующих и предоставляющих справочные данные юридическим лицам.
Понятие ETL
Данные, загружаемые из каких-либо источников, как правило, требуется не просто хранить внутри одной системы, а передавать для обработки и анализа в другие системы. Для этого существуют, так называемые, хранилища данных (ХД или DWH — Data Warehouse). ХД — это базы данных для сбора и обработки различной информации, разработанные и ориентированные специально для подготовки отчетов и бизнес-анализа, с целью поддержки принятия решений на предприятии. [1]
Из-за множества используемых технологий, различий в системах с точки зрения архитектуры и структуры данных, при передаче информации в системы потребители, ее необходимо преобразовывать.
Таким образом, учитывая вышесказанное, можно выделить три этапа в процессе работы с данными:
- Извлечение (Extract),
- Преобразование (Transform),
- Загрузка (Load).
Эти три этапа и составляют аббревиатуру ETL — одного из основных процессов в управлении данными при получении их из множества систем источников и загрузки в ХД, с целью получения достоверной информации (см. Рис.1).
Рис.1. ETL-процесс
Рассмотрим подробнее выделенные этапы:
- Извлечение. На этом этапе данные извлекаются из систем источников без преобразований (как есть, произвольного качества) и загружаются в промежуточную область.
- Преобразование. Данные группируются, преобразуются к формату, соответствующему структуре хранилища данных. Выполняются очистка, проверка данных на полноту, формируются отчеты об ошибках для дальнейшего исправления.
- Загрузка. Данные загружаются из промежуточной области в хранилище данных. Причем загружается не вся информация, а только новая или измененная части, с поддержкой версионности. Это необходимо для возможности получить актуальную версию записи на произвольную дату.
Часто ETL является промежуточным слоем между OLTP системами и OLAP системой или хранилищем данных.
OLTP (Online Transaction Processing) — понятие относится к транзакционным системам сравнительно небольшого размера, обрабатывающих большие потоки данных в реальном времени.
OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа.
Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.
Таблица 1
Сравнительные ихарактеристики OLTP иOLAP [2]
№ |
Характеристика |
OLTP |
OLAP |
1 |
Источник данных |
Деятельность компании |
Внутренние и внешние данные |
2 |
Объем данных |
Как правило, необходимо за последние несколько месяцев |
На порядки больше, чем для OLTP-систем. Необходимо, как правило, за несколько лет. |
3 |
Качество данных |
Эквивалентная информация может быть в разных форматах, и даже противоречивая |
Единообразная, согласованная и очищенная информация. |
4 |
Набор запросов |
Для конкретных задач и выборки относительно небольшого объема данных. Набор может быть заранее известен. |
Заранее предсказать набор невозможно (нерегламентированные запросы). Выбираются большие объемы данных. |
5 |
Изменчивость |
Сильная изменчивость, данные не упорядочены |
Малая изменчивость, упорядоченность данных |
6 |
Защита |
Защита на уровне таблиц |
Большая грануляция защиты из-за большой критичности для компании |
ETL-инструменты
Вообще, для реализации ETL-процесса можно использовать большинство современных языков программирования. Но, если требуется не просто выполнить разовую конвертацию данных, а речь идет о реализации постоянного процесса интеграции данных из нескольких разнородных источников, то имеет смысл рассмотреть использование специализированных инструментов, облегчающих автоматизацию типовых операций, поддержку основных используемых форматов и наиболее распространенных информационных систем. При этом следует принимать во внимание параметры масштабируемости, скорости и расширяемости таких инструментов.
Наиболее распространенными разработчиками ETL-инструментов на сегодняшний день можно назвать Oracle, Informatica и IBM. Как правило, системы таких производителей перекрывают потребности бизнеса настолько, что большинство клиентов не используют и половины имеющегося функционала. Поэтому имеет смысл выбирать ETL-инструменты, основываясь на требуемых задачах решения и имеющейся платформе предприятия.
К примеру, если в компании доминируют системы от компании IBM — то можно рассмотреть решение Data Stage от IBM. С приобретением в 2008 году канадской компании Cognos, у IBM появилось и второе решение Data Manager, к одному из достоинств которого можно отнести наличие OLAP, чего нет у ряда других систем. Это позволяет обходиться без построения сложных ХД, что сильно экономит средства компании.
При использовании Unix/Linux подобных операционных систем часто используются решения от Informatica или Oracle. К преимуществам решений PowerCenter и PowerMart от Informatica можно отнести следование за новыми технологиями, регулярные релизы и, как следствие, наибольший набор инструментов для интеграции данных. Гибкости системе добавляет возможность программировать на языке разработки Java. [3,4] Для Oracle Data Integrator характерна возможность масштабирования от небольшой организации до целого предприятия, наличие специальных технологии для манипулирования большими объемами данных. Также для поддержки разработчиков в системе имеются специальные модули знаний для многих других систем, содержащие шаблоны кода. [5]
Если в компании преобладают системы от компании Microsoft, то ETL могут быть построены на продукте SSIS от Microsoft. Данный продукт имеет развитый пользовательский интерфейс, предоставляет широкую библиотеку стандартных компонентов потоков данных. В дополнении к ним, SSIS предоставляет инфраструктуру для создания пользовательских компонентов. Это позволяет компаниям разрабатывать узкоспециализированные высокоэффективные компоненты обработки данных. Но продукт не является кроссплатформенным и ориентирован на взаимодействие с продуктами Miscosoft. [6]
Заключение
Сегодня ETL-системы рассматриваются не только как инструмент для создания отчетов или исправления ошибок, которые могут возникать на уровне ввода, переноса данных, по причине системных ошибок или различий в данных между смежными ИТ-системами. Эти задачи действительно крайне важны для бизнеса, т. к. при наличии огромного количества различных систем в компании с противоречивыми данными, критичной является возможность получать достоверные и качественные данные, приведенные к единой системе значений и детализации. Но в понятие ETL-система сегодня вкладывается значительно больший смысл, т. к. решаемые задачи стали одними из наиболее приоритетных для компаний. Бизнес осознал необходимость внедрения подобных интеллектуальных систем для принятия своевременных решений и успешного ведения конкурентной борьбы. А это значит, что разработчики и интеграторы подобных решений и впредь должны все больше стремиться к тому, чтобы предлагать бизнесу новые инновационные решения с еще более развитым и интеллектуальным функционалом.
Литература:
- Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. — John Wiley & Sons, 2004.
- Проектирование баз данных: Распределенные базы и хранилища данных. Лекция 2: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (дата обращения: 23.10.2017).
- PowerCenter // DIS Group. URL: http://www.dis-group.ru/products/informatica/powercenter/ (дата обращения: 23.10.2017)
- Informatica Basic Features- Power Centre,Power Mart // DATAWAREHOUSE CONCEPTS. URL: http://dwhlaureate.blogspot.ru/2012/08/informatica-basic-features.html (дата обращения: 23.10.2017).
- Oracle Data Integrator Enterprise Edition // ORACLE. URL: http://www.oracle.com/us/products/middleware/data-integration/odi-ee-11g-ds-168065.pdf (Дата обращения: 23.10.2017).
- Бергер А. Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А. Б., Горбач И. В., Меломед Э. Л., Щербинин В. А., Степаненко В. П. / Под общ. Ред. А. Б. Бергера, И. В. Горбач. — СПб.: БХВ-Петербург, 2007.
- Основные функции ETL-систем // Хабрахабр. URL: https://habrahabr.ru/post/248231/ (Дата обращения: 23.10.2017).
Ключевые слова
анализ, бизнес-процесс, ИТ, хранилище данных, бизнес-анализ, ETL, ETL-инструменты, ХД, DWH, OLTP, OLAPПохожие статьи
Обзор и сравнительный анализ промышленных хранилищ данных и баз данных
В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...
Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения
В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Big Data. Особенности и роль в современном бизнесе
В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...
Определение классов информационных систем электронного бизнеса в логистических процессах и использование стандартов GS1 в цепях поставок
В статье определены классы информационных систем электронного бизнеса в логистических процессах, описаны их ключевые особенности, рассмотрен стандарт GS1, применяемый в цепях поставок и представлена классификация стандартов, входящих в GS1.
Исследование проблем инфраструктурных цифровых платформ
В статье рассматривается модель данных, которая является структурированным форматом данных для описания объекта или явления. Модель данных используется в цифровых платформах для обработки, анализа и поиска информации. Каждый элемент информации размещ...
Особенности проектирования и разновидности хранилищ данных
Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...
Моделирование бизнес-процессов в условиях антикризисного управления
В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...
Методы обработки видеоизображений с помощью языка программирования Python
В статье рассматриваются современные методы обработки видеоизображений с использованием языка программирования Python. Описываются ключевые библиотеки, такие как OpenCV и scikit-image, а также их применение для выполнения задач, включая распознавание...
Похожие статьи
Обзор и сравнительный анализ промышленных хранилищ данных и баз данных
В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...
Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения
В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Big Data. Особенности и роль в современном бизнесе
В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...
Определение классов информационных систем электронного бизнеса в логистических процессах и использование стандартов GS1 в цепях поставок
В статье определены классы информационных систем электронного бизнеса в логистических процессах, описаны их ключевые особенности, рассмотрен стандарт GS1, применяемый в цепях поставок и представлена классификация стандартов, входящих в GS1.
Исследование проблем инфраструктурных цифровых платформ
В статье рассматривается модель данных, которая является структурированным форматом данных для описания объекта или явления. Модель данных используется в цифровых платформах для обработки, анализа и поиска информации. Каждый элемент информации размещ...
Особенности проектирования и разновидности хранилищ данных
Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...
Моделирование бизнес-процессов в условиях антикризисного управления
В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...
Методы обработки видеоизображений с помощью языка программирования Python
В статье рассматриваются современные методы обработки видеоизображений с использованием языка программирования Python. Описываются ключевые библиотеки, такие как OpenCV и scikit-image, а также их применение для выполнения задач, включая распознавание...