Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 18 мая, печатный экземпляр отправим 22 мая.

Опубликовать статью в журнале

Авторы: , ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №17 (412) апрель 2022 г.

Дата публикации: 30.04.2022

Статья просмотрена: 50 раз

Библиографическое описание:

Шихвеледова, Т. А. Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям / Т. А. Шихвеледова, А. Г. Саидбегова, З. А. Сеферова. — Текст : непосредственный // Молодой ученый. — 2022. — № 17 (412). — С. 375-377. — URL: https://moluch.ru/archive/412/90978/ (дата обращения: 05.05.2024).



В этой статье основное внимание будет уделено тому, какое хранилище больших данных является наиболее подходящим для крупномасштабных оперативных сценариев использования в режиме реального времени — фабрика данных (Date Fabric) или озеро данных (Date Lake). Также будут рассмотрены хранилища данных, а также реляционные и нереляционные системы управления базами данных.

Ключевые слова: хранилища данных, реляционные базы данных, фабрика данных, озеро данных, СУБД.

Предприятия, интенсивно использующие данные, сталкиваются с широким спектром сценариев использования в реальном времени, требующих масштабной и высокоскоростной архитектуры данных, способной поддерживать миллионы одновременных транзакций. Например:

— 360-градусный обзор клиента из множества различных устаревших систем;

— прогноз оттока;

— кредитный скоринг (используемая банками система оценки клиентов, в основе которой заложены статистические методы. Как правило, это компьютерная программа, куда вводятся данные потенциального заемщика. В ответ выдается результат — стоит ли предоставлять ему кредит);

— предотвращение мошенничества;

— безопасность транзакций по платежным картам и многое другое.

Для оперативных вариантов использования требуется платформа больших данных, способная выполнять сложные запросы данных за миллисекунды при работе с:

— оперативными данными, которые постоянно обновляются из операционных систем (миллионы или миллиарды обновлений каждый день);

— терабайтами фрагментированных данных, охватывающих множество разных баз данных или таблиц, обычно в разных форматах и технологиях;

— конкретными экземплярами бизнес-объекта, например, отдельный клиент, продукт, местоположение и т. д.;

— высоким параллелизмом, представляющим тысячи запросов в секунду.

Сегодня наиболее часто применяемые варианты хранения, которым доверяют команды обработки данных, это:

  1. Озеро данных(Date Lake)

Озеро данных — это набор экземпляров хранилища различных активов данных. Эти активы хранятся и поддерживаются как точная или почти точная копия структурированного или неструктурированного исходного формата — в дополнение к исходным хранилищам данных. Озера данных становятся все более жизнеспособным решением для извлечения нужной, ценной информации из больших данных на уровне предприятия. Гибкость, оперативность и безопасность, связанные со структурированными, неструктурированными и историческими данными, которые в свободном доступе в отдельных логических зонах, предоставляют компаниям массу возможностей для модификации.

  1. Хранилища данных (ХДД)

Хранилище данных имеет отношение к архитектуре хранилища, предназначенной для хранения данных, извлеченных из оперативных хранилищ данных, систем транзакций и внешних источников. Оно объединяет данные в агрегированную форму, пригодную для анализа данных и отчетности в масштабах всего предприятия.

  1. Системы управления базами данных (СУБД)

Система управления базами данных хранит и организует данные в определенных форматах и структурах. СУБД классифицируется по своей базовой структуре и по способу использования или развертывания.

— Реляционная СУБД, которая обычно включает в себя интерфейс программирования приложений языка структурированных запросов (SQL), основана и доступна через отношения между объектами данных.

— Нереляционная (NoSQL) СУБД часто применяется в больших данных и веб-приложениях реального времени. Даже учитывая, то что неструктурированная база данных оптимизирована для крупномасштабного использования, она не может обеспечивать связь между объектами данных.

  1. Фабрика данных

Фабрика данных (Data Fabric) может быть определена как интегрированный уровень связанных данных, который принимается и нормализуется из источников данных предприятия — независимо от формата данных, технологии или исходной системы. Он хранит обработанные данные в своем собственном хранилище данных, доставляя их в хранилища больших данных, приложениям-потребителям и механизмам принятия решений AI/ML/в реальном времени — по запросу. Data Fabric возникла на фоне активного применения данных крупными предприятиями в условиях стандартных ограничений, касающихся управленческих процессов.

Современные Data Fabric позволяют эффективно справляться с основными задачами в плане хранения и обработки невзаимосвязанной информации. При помощи Data Fabric такую информацию стало легче искать, обрабатывать, структурировать и интегрировать с другими системами IT-инфраструктуры.

Далее приведены сильные и слабые стороны фабрики данных по сравнению с озером данных, а также реляционными и нереляционными базами данных.

  1. Озеро данных

Сильные стороны: поддержка сложных запросов данных для структурированных и неструктурированных данных.

Слабые стороны: нет поддержки запросов с одним объектом, что приводит к медленному времени отклика; нет поддержки оперативных данных, поэтому данные, которые необходимо постоянно обновлять, ненадежны или доставляются с неприемлемо медленным временем отклика.

  1. Реляционная база данных

Сильные стороны : поддержка SQL, широкое внедрение и простота использования.

Слабые стороны: нелинейная масштабируемость, требующая дорогостоящего оборудования для выполнения сложных запросов к терабайтам данных почти в реальном времени; высокая степень параллелизма, что приводит к неприемлемо медленному времени отклика.

  1. База данных NoSQL

Сильные стороны: распределенная архитектура хранилища данных с поддержкой линейной масштабируемости.

Слабые стороны: нет поддержки SQL, нужны специальные навыки; чтобы поддерживать запросы данных, необходимо предопределить индексы или внедрить сложную логику приложения, что затрудняет гибкость разработки и сокращает время выхода на рынок.

  1. Фабрика данных

Сильные стороны: полная поддержка SQL; распределенная архитектура хранилища данных с поддержкой линейной масштабируемости; поддержка высокого параллелизма с высокой производительностью; поддержка сложных запросов для отдельных бизнес-объектов.

Слабые стороны: нет встроенной поддержки запросов к нескольким микробазам данных, но Elasticsearch (высокомасштабируемая распределенная поисковая система полнотекстового поиска и анализа данных с веб-интерфейсом) удовлетворительно решает эту проблему.

Выводы

При сравнении фабрики данных и озера данных очевидно, что предпочтительной архитектурой для оперативных сценариев использования в реальном времени является фабрика данных. Но решения фабрики данных и озера данных в действительности дополняют друг друга в том смысле, что фабрика данных может подготавливать достоверные данные для озер данных, а озера данных могут предоставлять оперативную аналитику фабрике данных для незамедлительного использования.

Литература:

  1. Элис Лаплант. Data Fabric as Modern Data Architecture // O’Reilly Media, 2021, С.40.
  2. Джон Келлехер, Брендан Тирни. Наука о данных: базовый курс. // Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020, С.19.
  3. Data Fabric: что это такое и зачем вам это нужно?// https://dzone.com/
  4. Благирев А. Big data простым языком //А. Благирев — «Издательство АСТ», 2019 — (Бизнес-бук), С.38.
  5. Алан Р. Саймон. Data Lakes For Dummies // Издательство Wiley, 2021, С.327.
Основные термины (генерируются автоматически): озеро данных, SQL, фабрика данных, данные, реальное время, баз данных, хранилище данных, медленное время отклика, поддержка, сторона.


Ключевые слова

СУБД, реляционные базы данных, хранилища данных, фабрика данных, озеро данных

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений от...

Основы разработки баз данных реального времени

Базы данных реального времени — это обычные базы данных с дополнительными мощностями, которые могут обеспечить надежные ответы. Используются постоянные времени, которые составляют определенный диапазон значений времени...

Введение в BI-технологии | Статья в журнале «Молодой ученый»

Data Warehouse (хранилище данных) — предметно-ориентированная информационная БД, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа для поддержки принятия решений в организации. Данные из OLTP-системы копируются в...

Термин Big Data и способы его применения | Статья в журнале...

Под терминами «BigData», «Большие данные» или просто «биг дата» скрывается огромный набор информации, чьи масштабы

Однако это вовсе не значит, что в ближайшее время потребности в анализе больших данных у них не возникнет; это может произойти несколько...

Разработка мобильного приложения для таксатора

Data sources — источники данных для базы данных (БД). Data Warehouse (хранилище данных) — предметно-ориентированная информационная БД, специально. Новая технология BAM сочетает в себе интеграцию приложений реального времени с возможностями BI.

Исследование производительности ASP.NET-приложений

− Оптимизация баз данных. Следует подумать о том, каким образом должна происходить работа клиента с базой данных на сервере. После открытия соединения с БД и выполнения необходимой операции следует незамедлительно закрывать соединение и не держать его...

Введение в Big Data | Статья в журнале «Молодой ученый»

Структура базы данных — принцип или порядок организации записей в базе данных и связей между ними.

Горизонтальная масштабируемость: так как данных может быть много, то и система, в которой они хранятся должна быть расширяемой.

База данных: база данных хранения, используемая...

Необходимо изучить потоки данных в Java для того, чтоб обработать результат запроса с помощью http-клиента.

Для последующий записи и хранения полученных данных потребуется создать локальную БД SQLite, для взаимодействия с которой необходимы знания языка SQL.

ETL: обзор инструментов | Статья в журнале «Молодой ученый»

Хранилище данных представляет собой базу данных для сбора и обработки информации, поступающей из различных источников.

Поскольку в данное время существует большое количество технологий и систем, различных по своей по структуре данных и архитектуре...

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений от...

Основы разработки баз данных реального времени

Базы данных реального времени — это обычные базы данных с дополнительными мощностями, которые могут обеспечить надежные ответы. Используются постоянные времени, которые составляют определенный диапазон значений времени...

Введение в BI-технологии | Статья в журнале «Молодой ученый»

Data Warehouse (хранилище данных) — предметно-ориентированная информационная БД, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа для поддержки принятия решений в организации. Данные из OLTP-системы копируются в...

Термин Big Data и способы его применения | Статья в журнале...

Под терминами «BigData», «Большие данные» или просто «биг дата» скрывается огромный набор информации, чьи масштабы

Однако это вовсе не значит, что в ближайшее время потребности в анализе больших данных у них не возникнет; это может произойти несколько...

Разработка мобильного приложения для таксатора

Data sources — источники данных для базы данных (БД). Data Warehouse (хранилище данных) — предметно-ориентированная информационная БД, специально. Новая технология BAM сочетает в себе интеграцию приложений реального времени с возможностями BI.

Исследование производительности ASP.NET-приложений

− Оптимизация баз данных. Следует подумать о том, каким образом должна происходить работа клиента с базой данных на сервере. После открытия соединения с БД и выполнения необходимой операции следует незамедлительно закрывать соединение и не держать его...

Введение в Big Data | Статья в журнале «Молодой ученый»

Структура базы данных — принцип или порядок организации записей в базе данных и связей между ними.

Горизонтальная масштабируемость: так как данных может быть много, то и система, в которой они хранятся должна быть расширяемой.

База данных: база данных хранения, используемая...

Необходимо изучить потоки данных в Java для того, чтоб обработать результат запроса с помощью http-клиента.

Для последующий записи и хранения полученных данных потребуется создать локальную БД SQLite, для взаимодействия с которой необходимы знания языка SQL.

ETL: обзор инструментов | Статья в журнале «Молодой ученый»

Хранилище данных представляет собой базу данных для сбора и обработки информации, поступающей из различных источников.

Поскольку в данное время существует большое количество технологий и систем, различных по своей по структуре данных и архитектуре...

Задать вопрос