Обзор технологий для работы с BigData | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 2 ноября, печатный экземпляр отправим 6 ноября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №9 (299) февраль 2020 г.

Дата публикации: 01.03.2020

Статья просмотрена: 114 раз

Библиографическое описание:

Васильев, В. И. Обзор технологий для работы с BigData / В. И. Васильев. — Текст : непосредственный // Молодой ученый. — 2020. — № 9 (299). — С. 13-14. — URL: https://moluch.ru/archive/299/67818/ (дата обращения: 19.10.2024).



В последнее время термин Big Data очень часто встречается в жизни многих людей, но не все люди знают. что это такое. В этой статье рассматриваются технологии для работы с BigData. Также в статье рассматриваются свойства больших данных и сферы, где применяются технологии работы с BigData.

Ключевые слова: BigData, технологии, большие данные, NoSQL, Hadoop, MapReduce.

Большие данные (Big Data) — это обозначение структурированных и неструктурированных быстро поступающих данных огромных объёмов и значительного многообразия, а также методы их обработки, которые позволяют распределенно обрабатывать получаемую информацию.

Термин Big Data появился в 2008 году. Впервые его употребил редактор журнала Nature Клиффорд Линч. Он рассказывал про взрывной рост объемов мировой информации и отмечал, что освоить их помогут новые инструменты и более развитые технологии. Рост объема памяти в устройствах с течением времени показан на рисунке 1.

https://upload.wikimedia.org/wikipedia/commons/7/7c/Hilbert_InfoGrowth.png

Рис. 1. Эволюция объема памяти в устройствах

Когда говорят о Big Data, упоминают правило 3V — это три свойства, которыми должны обладать большие данные:

  1. Объем (Volume) — данные измеряются по величине физического объема документов.
  2. Скорость (Velocity) — данные регулярно обновляются, что требует их постоянной обработки.
  3. Разнообразие (Variety) — разнообразные данные могут иметь неоднородные форматы, быть неструктурированными или структурированными частично.

Следуя из свойств, описывающих Big Data, программистам необходимо разрабатывать информационные системы для работы с большими данными обладающими следующими характеристиками [1]:

  1. Горизонтальной масштабируемостью — базовым принципом обработки больших данных. В основе этого принципа лежит необходимость в увеличении вычислительной мощности для распределения обрабатываемой информации без ухудшения производительности всей системы.
  2. Локальностью данных — принципом, который гарантирует, что данные будут обработаны на той же машине, на которой они и хранятся.
  3. Отказоустойчивостью — принципом, который гарантирует что при выходе из строя одного или нескольких вычислительных узлов вся система продолжит работать без сбоев и ухудшения производительности.

В современных системах также могут рассматриваться два дополнительных свойства, которыми могут обладать большие данные [2]:

− Изменчивость (Variability) — потоки данных могут иметь пики и спады, сезонности, периодичность. Всплески неструктурированной информации сложны в управлении, требует мощных технологий обработки.

− Значение данных (Value) — информация может иметь разную сложность для восприятия и переработки, что затрудняет работу интеллектуальным системам. Например, массив сообщений из соцсетей — это один уровень данных, а транзакционные операции — другой. Задача машин определить степень важности поступающей информации, чтобы быстро структурировать.

На сегодняшний день существует множество технологий для работы с Big Data.

MapReduce — это технология представлена компанией Google. Принцип данной технологии сводится к разделению приложения на большое количество простых заданий, которые выполняются на узлах вычислительной системы. После обработки выполнения простых заданий полученные данные сводятся в итоговый результат.

NoSQL — это общий термин обозначающий ряд подходов, направленных на реализацию систем управления базами данных. NoSQL хорошо подходит, когда требуются производительные, гибкие, масштабируемые базы данных с широкими функциональными возможностями.

Hadoop — это набор утилит, библиотек и фреймворков для разработки и выполнения распределённых программ.

Big Data внедряется и используется во многих различных областях, например, в ритейле Big Data используется для анализа действий клиентов, и построения на основе этих данных будущей стратегии компании. Или же в здравоохранении для аналитики истории болезней пациентов, планов лечений, клинических анализов, генетических исследований. Так же Big Data используется в банковском секторе для минимизации кредитных рисков.

На сегодняшний день работа с Big Data не очень распространена среди людей из-за дороговизны проектов. Средняя стоимость проекта составляет около 8 миллионов долларов. Поэтому не каждое предприятие может позволить себе использовать такие дорогостоящие инвестиции. Но технологии и вычислительные мощности необходимые для работы с BigData развиваются и дешевеют и это означает что в скором будущем человечество все больше будет опираться на работу с большими данными.

Литература:

  1. Uplab [Электронный ресурс]: — Режим доступа: https://www.uplab.ru/blog/big-data-technologies/, свободный (дата обращения: 28.1.2020). — Загл. с экрана.;
  2. Itenterprice [Электронный ресурс]: — Режим доступа: https://www.it.ua/ru/knowledge-base/technology-innovation/big-data-bolshie-dannye, свободный (дата обращения: 28.1.2020). — Загл. с экрана.
Основные термины (генерируются автоматически): данные, работа, система, ухудшение производительности.


Ключевые слова

технологии, Большие данные, NoSQL, MapReduce, BigData, Hadoop

Похожие статьи

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Определение кратчайшего пути между двумя объектами с помощью программы QGIS с использованием модуля Road Graph

В этой статье представлена информация о модуле Road Graph в программе QGIS и пример того, как этот модуль работает. Модуль Road Graph работает на алгоритме Дейкстры, определяющем кратчайшие расстояния между двумя объектами (адресами).

Технические инновации и их значение для экономики

В статье приводится понятие, общая характеристика инновационных разработок в сфере экономики. Обосновывается преимущества использования технологии Блокчейн, раскрывается содержание этого понятия. Аргументировано, что применение децентрализованной баз...

Big Data. Особенности и роль в современном бизнесе

В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...

Использование случайного леса для классификации данных

В последние десятилетия алгоритмы машинного обучения стали важным инструментом в различных областях науки и техники. Одним из наиболее популярных и эффективных методов является случайный лес (Random Forest). Этот метод используется для решения задач ...

Обработка больших данных с помощью инструментов Python

В статье описывается популярный и простой в использовании язык программирования Python, используемый для обработки больших данных, и его основные библиотеки для обработки данных. Функции Python делают его идеальным для анализа данных, он прост в осво...

Интеллектуальная система выявления фейков на фотографии

В данной статье вводится понятие фейковых фотографий и рассматривается роль интеллектуальных систем в выявлении фейков на фотографиях. Описываются основные методы и подходы с использованием машинного обучения и нейронных сетей. Приведены примеры испо...

Мобильные приложения и их роль в потреблении и экономии энергии

В этой статье представлен обзор аналогичных решений по сокращению энергопотребления в жилых домах с помощью мобильных приложений. В быстро развивающемся мире мы все чаще выбираем технологические решения для достижения лучших результатов. В статье пок...

Блокчейн: влияние на будущее технологий

В статье автор рассмотрел такое понятие, как «блокчейн», и выявил, как технологии блокчейна будут влиять на будущее. Также автор выявил преимущества и недостатки блокчейна и рассмотрел спектр отраслей, в которых он может применяться.

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Похожие статьи

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Определение кратчайшего пути между двумя объектами с помощью программы QGIS с использованием модуля Road Graph

В этой статье представлена информация о модуле Road Graph в программе QGIS и пример того, как этот модуль работает. Модуль Road Graph работает на алгоритме Дейкстры, определяющем кратчайшие расстояния между двумя объектами (адресами).

Технические инновации и их значение для экономики

В статье приводится понятие, общая характеристика инновационных разработок в сфере экономики. Обосновывается преимущества использования технологии Блокчейн, раскрывается содержание этого понятия. Аргументировано, что применение децентрализованной баз...

Big Data. Особенности и роль в современном бизнесе

В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...

Использование случайного леса для классификации данных

В последние десятилетия алгоритмы машинного обучения стали важным инструментом в различных областях науки и техники. Одним из наиболее популярных и эффективных методов является случайный лес (Random Forest). Этот метод используется для решения задач ...

Обработка больших данных с помощью инструментов Python

В статье описывается популярный и простой в использовании язык программирования Python, используемый для обработки больших данных, и его основные библиотеки для обработки данных. Функции Python делают его идеальным для анализа данных, он прост в осво...

Интеллектуальная система выявления фейков на фотографии

В данной статье вводится понятие фейковых фотографий и рассматривается роль интеллектуальных систем в выявлении фейков на фотографиях. Описываются основные методы и подходы с использованием машинного обучения и нейронных сетей. Приведены примеры испо...

Мобильные приложения и их роль в потреблении и экономии энергии

В этой статье представлен обзор аналогичных решений по сокращению энергопотребления в жилых домах с помощью мобильных приложений. В быстро развивающемся мире мы все чаще выбираем технологические решения для достижения лучших результатов. В статье пок...

Блокчейн: влияние на будущее технологий

В статье автор рассмотрел такое понятие, как «блокчейн», и выявил, как технологии блокчейна будут влиять на будущее. Также автор выявил преимущества и недостатки блокчейна и рассмотрел спектр отраслей, в которых он может применяться.

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Задать вопрос