Что такое Big Data? Основные проблемы: хранение и управление данными | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 29 января, печатный экземпляр отправим 2 февраля.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №28 (214) июль 2018 г.

Дата публикации: 13.07.2018

Статья просмотрена: 985 раз

Библиографическое описание:

Шилина, Н. В. Что такое Big Data? Основные проблемы: хранение и управление данными / Н. В. Шилина. — Текст : непосредственный // Молодой ученый. — 2018. — № 28 (214). — С. 1-3. — URL: https://moluch.ru/archive/214/52028/ (дата обращения: 21.01.2022).



Ключевые слова: данные, Big Data, Data Mining, распределенная система, обработка данных, процесс, система.

Информационные технологии окружают нас везде. Все сервисы, помогающие нам, генерируют огромное количество данных. Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги до прогнозирования необходимого количества специалистов в той или иной области.

Данных много, среди них очень много полезных сведений, которые могут помочь эффективнее решать различные задачи, как коммерческим компаниям, так и органам государственного управления и учёным. Но существует проблема — эти данные не получится просто «взять и использовать» по двум причинам: данных очень много, и очень часто эти данные не структурированы. Объём информации, доступной для анализа, может занимать сотни, тысячи, даже десятки тысяч терабайт! Для обработки таких объёмов информации требуются новое оборудование и новый подход к анализу. Вторая проблема заключается в том, что данные зачастую не имеют общей структуры, так как они сформированы в различных системах, которые не связаны между собой. Так же, эти данные могут быть представлены в виде фотографий, аудиофайлов, рисунков, текстов.

Необходимость обработки огромного количества данных, которые зачастую неструктурированные, породила новый термин в информационных технологиях — Big Data.

Введение термина «Big Data» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных

Где используется термин «Big Data»? Там, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве. В настоящее время одновременно со стремительным накоплением данных также стремительно развиваются и технологии их анализа и обработки.

Какие же задачи решаются с помощью Big Data? Это глубокий анализ данных, так называемый Data Mining, заключающийся в поиске нетривиальных закономерностей в данных для описательного или предсказательного моделирования. Например, проанализировав данные билинга, а также анкетные данные абонента, можно сделать вывод о том, что абонент вскоре перестанет пользоваться услугами связи оператора, и перейдёт к конкуренту, соответственно, можно провести к таким абонентам мероприятия по их удержанию. Используется так называемое «машинное обучение», которое основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

Несмотря на схожесть задач при работе с обычными данными и Big Dаta, существуют огромные проблемы: хранение, подготовка и обработка данных большого объёма, так как при традиционном подходе реализация таких мероприятий связана с огромными материальными и временными затратами. Если материальные затраты можно частично компенсировать за счёт новых технологий и удешевления удельной стоимости хранения, то временные затраты компенсировать невозможно, потому что со временем информация теряет актуальность и становится устаревшей.

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. Кроме того, в случае с Big Data, традиционные подходы к организации хранения и обработки данных займут количество времени, несопоставимое с актуальностью знаний, которые из этих данных можно извлечь. Big Data обычно хранятся и обрабатываются в распределенных файловых системах.

Под распределённой системой понимают совокупность взаимосвязанных автономных компьютеров или процессоров. Это совокупность независимых процессов, взаимодействующих посредством передачи сообщений для обмена данными и координации своих действий.

В последнее время распределённые сети достигли нового витка эволюции — облачных сетей, обеспечивающие облачные вычисления. Облако может означать как программное обеспечение, так и инфраструктуру. Оно может быть приложением, доступ к которому предоставляется через Web, или сервером.

В распределённой системе каждый процесс имеет свое собственное состояние, представляемое набором данных, включающим текущие значения счетчика команд, регистров и переменных, к которым процесс может обращаться и которые может изменять. Состояние каждого процесса является полностью закрытым для других процессов.

Скорости выполнения операций разных процессов в распределенной системе различны и заранее неизвестны, а доставка отправленных сообщений может занимать непредсказуемое время. В большинстве случаев в распределенной системе содержится несколько процессоров, взаимосвязанных друг с другом при помощи средств коммуникации.

Создание и поддержка хранилищ объемом в терабайты и более стали возможны благодаря технологии организации распределенных вычислительных систем. В распределенных системах вместо хранения данных в одной файловой системе данные сохраняются и индексируются на нескольких (сотнях и даже тысячах) жестких дисках и серверах.

Зачастую на практике анализ Big Data заключается не в том, чтобы производить вычисления на всём объёме, а в возможности разделения данных на микросегменты, а затем, уже с помощью методов Data Mining и прогнозного моделирования, строить большое число описательных и предсказательных моделей для небольших групп.

Литература:

  1. Леонид Черняк. Большие данные — новая теория и практика (рус.) // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028–7493
  2. Косяков М. С. Введение в распределенные вычисления.– СПб НИУ ИТМО, 2014
  3. Риз Д. Облачные вычисления. СПб: БХВ-Петербург, 2011.
Основные термины (генерируются автоматически): данные, распределенная система, обработка данных, объем данных, процесс, система.


Похожие статьи

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлами.

BigData: анализ больших данных сегодня | Статья в журнале...

Локальность данных: в больших системах данные распределены на большом количестве машин. Если данные находятся на одной машине, а обрабатываются на другой, то расходы на передачу этих данных могут и вовсе превысить расходы на обработку.

Технологии обработки больших данных | Статья в журнале...

Проблема хранения неструктурированных данных решается при помощи хранения первичных данных в виде файлов в специальной распределенной файловой системе (например, HDFS) или не реляционных базах данных (например, древовидных или сетевых).

Введение в Big Data | Статья в журнале «Молодой ученый»

Локальность данных. При использовании больших распределенных систем требуется

Так как объем информации столь велик, что обработка больших объемов данных.

Для организации процесса продаж требуются входные данные со склада и данные заказа.

Оптимизация размещения данных по узлам...

узел, файл, распределенная база данных, объем, распределенная обработка информации, централизованная организация, узел сети, баз данных, информационно-вычислительная сеть, система.

Реализация хранилищ данных в системах поддержки принятия...

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online

Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей.

Проблемы распределённых СУБД | Статья в журнале...

В распределенной системе системный каталог включает не только обычные для каталога данные, касающиеся базовых переменных отношения, представлений, ограничений целостности, полномочий и т. д...

Обзор надежности систем загрузки журнальных записей в Big Data

Nimbus контролирует рабочие процессы системы.

распределенной файловой системе (например, HDFS) или не реляционных базах данных (например...

Kafka — инновационная система для обработки больших объемов данных.

Проектирование базы данных. Роль процесса в создании...

А уже после того, как выработана общая схема базы данных, происходит процесс определения архитектуры будущей информационной системы. Так, решаются вопросы о том, какой будет база данных (централизованной или распределенной)...

Похожие статьи

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлами.

BigData: анализ больших данных сегодня | Статья в журнале...

Локальность данных: в больших системах данные распределены на большом количестве машин. Если данные находятся на одной машине, а обрабатываются на другой, то расходы на передачу этих данных могут и вовсе превысить расходы на обработку.

Технологии обработки больших данных | Статья в журнале...

Проблема хранения неструктурированных данных решается при помощи хранения первичных данных в виде файлов в специальной распределенной файловой системе (например, HDFS) или не реляционных базах данных (например, древовидных или сетевых).

Введение в Big Data | Статья в журнале «Молодой ученый»

Локальность данных. При использовании больших распределенных систем требуется

Так как объем информации столь велик, что обработка больших объемов данных.

Для организации процесса продаж требуются входные данные со склада и данные заказа.

Оптимизация размещения данных по узлам...

узел, файл, распределенная база данных, объем, распределенная обработка информации, централизованная организация, узел сети, баз данных, информационно-вычислительная сеть, система.

Реализация хранилищ данных в системах поддержки принятия...

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online

Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей.

Проблемы распределённых СУБД | Статья в журнале...

В распределенной системе системный каталог включает не только обычные для каталога данные, касающиеся базовых переменных отношения, представлений, ограничений целостности, полномочий и т. д...

Обзор надежности систем загрузки журнальных записей в Big Data

Nimbus контролирует рабочие процессы системы.

распределенной файловой системе (например, HDFS) или не реляционных базах данных (например...

Kafka — инновационная система для обработки больших объемов данных.

Проектирование базы данных. Роль процесса в создании...

А уже после того, как выработана общая схема базы данных, происходит процесс определения архитектуры будущей информационной системы. Так, решаются вопросы о том, какой будет база данных (централизованной или распределенной)...

Задать вопрос