Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям

Шихвеледова Татьяна Абдулманафовна; Саидбегова Асият Гусейновна; Сеферова Зарина Агабалаевна

В этой статье основное внимание будет уделено тому, какое хранилище больших данных является наиболее подходящим для крупномасштабных оперативных сценариев использования в режиме реального времени — фабрика данных (Date Fabric) или озеро данных (Date Lake). Также будут рассмотрены хранилища данных, а также реляционные и нереляционные системы управления базами данных.

Ключевые слова: хранилища данных, реляционные базы данных, фабрика данных, озеро данных, СУБД.

Предприятия, интенсивно использующие данные, сталкиваются с широким спектром сценариев использования в реальном времени, требующих масштабной и высокоскоростной архитектуры данных, способной поддерживать миллионы одновременных транзакций. Например:

— 360-градусный обзор клиента из множества различных устаревших систем;

— прогноз оттока;

— кредитный скоринг (используемая банками система оценки клиентов, в основе которой заложены статистические методы. Как правило, это компьютерная программа, куда вводятся данные потенциального заемщика. В ответ выдается результат — стоит ли предоставлять ему кредит);

— предотвращение мошенничества;

— безопасность транзакций по платежным картам и многое другое.

Для оперативных вариантов использования требуется платформа больших данных, способная выполнять сложные запросы данных за миллисекунды при работе с:

— оперативными данными, которые постоянно обновляются из операционных систем (миллионы или миллиарды обновлений каждый день);

— терабайтами фрагментированных данных, охватывающих множество разных баз данных или таблиц, обычно в разных форматах и технологиях;

— конкретными экземплярами бизнес-объекта, например, отдельный клиент, продукт, местоположение и т. д.;

— высоким параллелизмом, представляющим тысячи запросов в секунду.

Сегодня наиболее часто применяемые варианты хранения, которым доверяют команды обработки данных, это:

Озеро данных(Date Lake)

Озеро данных — это набор экземпляров хранилища различных активов данных. Эти активы хранятся и поддерживаются как точная или почти точная копия структурированного или неструктурированного исходного формата — в дополнение к исходным хранилищам данных. Озера данных становятся все более жизнеспособным решением для извлечения нужной, ценной информации из больших данных на уровне предприятия. Гибкость, оперативность и безопасность, связанные со структурированными, неструктурированными и историческими данными, которые в свободном доступе в отдельных логических зонах, предоставляют компаниям массу возможностей для модификации.

Хранилища данных (ХДД)

Хранилище данных имеет отношение к архитектуре хранилища, предназначенной для хранения данных, извлеченных из оперативных хранилищ данных, систем транзакций и внешних источников. Оно объединяет данные в агрегированную форму, пригодную для анализа данных и отчетности в масштабах всего предприятия.

Системы управления базами данных (СУБД)

Система управления базами данных хранит и организует данные в определенных форматах и структурах. СУБД классифицируется по своей базовой структуре и по способу использования или развертывания.

— Реляционная СУБД, которая обычно включает в себя интерфейс программирования приложений языка структурированных запросов (SQL), основана и доступна через отношения между объектами данных.

— Нереляционная (NoSQL) СУБД часто применяется в больших данных и веб-приложениях реального времени. Даже учитывая, то что неструктурированная база данных оптимизирована для крупномасштабного использования, она не может обеспечивать связь между объектами данных.

Фабрика данных

Фабрика данных (Data Fabric) может быть определена как интегрированный уровень связанных данных, который принимается и нормализуется из источников данных предприятия — независимо от формата данных, технологии или исходной системы. Он хранит обработанные данные в своем собственном хранилище данных, доставляя их в хранилища больших данных, приложениям-потребителям и механизмам принятия решений AI/ML/в реальном времени — по запросу. Data Fabric возникла на фоне активного применения данных крупными предприятиями в условиях стандартных ограничений, касающихся управленческих процессов.

Современные Data Fabric позволяют эффективно справляться с основными задачами в плане хранения и обработки невзаимосвязанной информации. При помощи Data Fabric такую информацию стало легче искать, обрабатывать, структурировать и интегрировать с другими системами IT-инфраструктуры.

Далее приведены сильные и слабые стороны фабрики данных по сравнению с озером данных, а также реляционными и нереляционными базами данных.

Озеро данных

Сильные стороны: поддержка сложных запросов данных для структурированных и неструктурированных данных.

Слабые стороны: нет поддержки запросов с одним объектом, что приводит к медленному времени отклика; нет поддержки оперативных данных, поэтому данные, которые необходимо постоянно обновлять, ненадежны или доставляются с неприемлемо медленным временем отклика.

Реляционная база данных

Сильные стороны : поддержка SQL, широкое внедрение и простота использования.

Слабые стороны: нелинейная масштабируемость, требующая дорогостоящего оборудования для выполнения сложных запросов к терабайтам данных почти в реальном времени; высокая степень параллелизма, что приводит к неприемлемо медленному времени отклика.

База данных NoSQL

Сильные стороны: распределенная архитектура хранилища данных с поддержкой линейной масштабируемости.

Слабые стороны: нет поддержки SQL, нужны специальные навыки; чтобы поддерживать запросы данных, необходимо предопределить индексы или внедрить сложную логику приложения, что затрудняет гибкость разработки и сокращает время выхода на рынок.

Фабрика данных

Сильные стороны: полная поддержка SQL; распределенная архитектура хранилища данных с поддержкой линейной масштабируемости; поддержка высокого параллелизма с высокой производительностью; поддержка сложных запросов для отдельных бизнес-объектов.

Слабые стороны: нет встроенной поддержки запросов к нескольким микробазам данных, но Elasticsearch (высокомасштабируемая распределенная поисковая система полнотекстового поиска и анализа данных с веб-интерфейсом) удовлетворительно решает эту проблему.

Выводы

При сравнении фабрики данных и озера данных очевидно, что предпочтительной архитектурой для оперативных сценариев использования в реальном времени является фабрика данных. Но решения фабрики данных и озера данных в действительности дополняют друг друга в том смысле, что фабрика данных может подготавливать достоверные данные для озер данных, а озера данных могут предоставлять оперативную аналитику фабрике данных для незамедлительного использования.

Литература:

Элис Лаплант. Data Fabric as Modern Data Architecture // O’Reilly Media, 2021, С.40.
Джон Келлехер, Брендан Тирни. Наука о данных: базовый курс. // Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020, С.19.
Data Fabric: что это такое и зачем вам это нужно?// https://dzone.com/
Благирев А. Big data простым языком //А. Благирев — «Издательство АСТ», 2019 — (Бизнес-бук), С.38.
Алан Р. Саймон. Data Lakes For Dummies // Издательство Wiley, 2021, С.327.

Молодой учёный

Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям

Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям

Молодой учёный