Обработка больших данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №8 (298) февраль 2020 г.

Дата публикации: 24.02.2020

Статья просмотрена: 442 раза

Библиографическое описание:

Билуха, И. Н. Обработка больших данных / И. Н. Билуха. — Текст : непосредственный // Молодой ученый. — 2020. — № 8 (298). — С. 7-9. — URL: https://moluch.ru/archive/298/67678/ (дата обращения: 24.04.2024).



В статье рассмотрены основные понятия, актуальность, проблемы и цели обработки больших данных. Также приведена важность обработки больших данных для производства.

Ключевые слова: большие данные, анализ, прогнозирование.

The article discusses the main concepts, relevance, problems and goals of big data processing. The importance of big data processing for production is also shown.

Keywords: big data, analysis, forecasting.

Большие данные — это широкое понятие для наборов данных, настолько объемных и сложных, что традиционные приложения для обработки данных не способны справиться с ними. Проблемы включают в себя анализ, хранение данных, поиск, совместное использование, хранение, передачу, визуализацию и конфиденциальность информации.

Понятие часто относится к использованию прогностической аналитики или других определенных передовых методов для извлечения ценности из данных, и редко к определенному размеру набора данных. Точность в больших данных может привести к более уверенному принятию решений. А лучшие решения могут означать большую операционную эффективность, снижение затрат и снижение риска.

Анализ наборов данных позволяет находить новые корреляции, выявлять тенденции развития бизнеса, предотвращать заболевания, бороться с преступностью и так далее [2]. Ученые, специалисты в области средств массовой информации и рекламы, а также правительства регулярно сталкиваются с трудностями при работе с большими массивами данных в таких областях, как поиск в Интернете, финансы и бизнес-аналитика. Ученые сталкиваются с ограничениями в обработке информации, включая метеорологию, сложные физические симуляции, биологические и экологические исследования.

Наборы данных увеличиваются в размерах отчасти потому, что они все чаще собираются дешевыми и многочисленными мобильными устройствами для сбора информации, антеннами (дистанционное зондирование), программными журналами, камерами, микрофонами, считывателями радиочастотной идентификации и беспроводными сенсорными сетями. С 1980-х годов технологический потенциал хранения информации на душу населения в мире примерно удваивался каждые 40 месяцев.

Большинство анализов данных — это анализ данных, которые обрабатываются на персональном компьютере или ноутбуке. Системы управления реляционными базами данных, а также пакеты статистики и визуализации для настольных компьютеров часто испытывают трудности с обработкой больших данных. Вместо этого работа требует массового параллельного программного обеспечения, работающего на десятках, сотнях или даже тысячах серверов. То, что считается большими данными, варьируется в зависимости от возможностей пользователей и их инструментов, а расширяющиеся возможности делают большие данные движущейся целью. Таким образом, то, что считается «большим» в один год, станет обычным в последующие годы. Для некоторых организаций, впервые столкнувшихся с сотнями гигабайт данных, может возникнуть необходимость пересмотреть варианты управления данными. Для других это может занять десятки или сотни терабайт, прежде чем размер данных станет существенным фактором.

  1. Характеристики

Большие данные могут быть описаны следующими характеристиками [2]:

– Объем — количество генерируемых данных очень важно в этом контексте. Именно размер данных определяет ценность и потенциал рассматриваемых данных, а также то, могут ли они фактически рассматриваться как большие данные или нет. Само название «Большие данные» содержит термин, который связан с размером и, следовательно, характеристикой.

– Разнообразие. Следующим аспектом больших данных является их разнообразие. Это означает, что категория, к которой относятся большие данные, также является очень важным фактом, который должен знать аналитик данных. Это помогает людям, которые тщательно анализируют данные и связаны с ними, эффективно использовать данные в своих интересах и, таким образом, отстаивать важность больших данных.

– Скорость — в данном контексте относится к скорости генерации данных и обработки данных для удовлетворения потребностей и задач, стоящих на пути роста и развития.

– Изменчивость — это фактор, который может стать проблемой для тех, кто анализирует данные. Это относится к несогласованности, которая может иногда проявляться в данных, что затрудняет процесс эффективного управления данными и их обработки.

– Достоверность — качество собираемых данных может сильно отличаться. Точность анализа зависит от достоверности исходных данных.

– Сложность — управление данными может стать очень сложным процессом, особенно когда большие объемы данных поступают из нескольких источников. Эти данные должны быть связаны, чтобы иметь возможность понять информацию, которая, как предполагается, передается этими данными. Поэтому эта ситуация называется «сложностью» больших данных.

  1. Большие данные впроизводстве

Основываясь на исследованиях о важности больших данных [1], становится понятно, что главным преимуществом обработки больших данных для производства становится улучшение планирования поставок и качества продукции. Большие данные обеспечивают инфраструктуру для прозрачности в обрабатывающей промышленности, которая заключается в способности устранять такие неопределенности, как несоответствие производительности компонентов и доступности. Прогнозное производство как применимый подход к почти нулевому времени простоя и прозрачности требует огромного объема данных и передовых инструментов прогнозирования для систематического процесса преобразования данных в полезную информацию. Концептуальная основа прогнозного производства начинается со сбора данных, где доступны различные типы сенсорных данных, таких как акустика, вибрация, давление, ток, напряжение и данные контроллера. Огромное количество сенсорных данных в дополнение к историческим данным создают большие данные в производстве. Сгенерированные большие данные выступают в качестве входных данных для инструментов прогнозирования и превентивных стратегий, таких как прогнозирование и управление качеством.

Литература:

1. Аналитика больших данных: опрос — SpringerOpen [Электронный ресурс]. — Режим доступа: https://journalofbigdata.springeropen.com/articles/10.1186/s40537–015–0030–3 (дата обращения: 31.01.2020)

2. Большие данные на практике — BernardMarr [Электронный ресурс]. — Режим доступа: https://www.bernardmarr.com/default.asp?contentID=1076 (дата обращения: 31.01.2020)

3. Что такое большие данные? — Oracle [Электронный ресурс]. — Режим доступа: https://www.oracle.com/ru/big-data/guide/what-is-big-data.html (дата обращения: 31.01.2020)

Основные термины (генерируются автоматически): данные, набор данных, обработка данных, прогнозное производство, размер данных.


Похожие статьи

Анализ и предварительная обработка данных для решения задач...

Система здравоохранения — важный социальный институт, который является совокупностью организаций, ресурсов и учреждений, направленных на оказание медицинской помощи. Такая система основана на трех базовых принципах: лечение заболеваний...

Использование прогнозной аналитики...

В контексте обработки больших наборов данных (традиционно используемых в методах прогнозной аналитики) наиболее привлекательным является автоматизированное получение т. н. отрытых данных (Open Data).

Термин Big Data и способы его применения | Статья в журнале...

Рост количества информации спровоцировал появление новых технологий и методов для обработки данных. Ключевые слова: Большие Данные, информация, анализ. Определение Big Data.

BigData: анализ больших данных сегодня | Статья в журнале...

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития. Ключевые слова: big data, BigData, ИТ, информация, обработка, анализ, данные, систематизация, развитие. В текущее время объемы информации растут по экспоненте.

Компьютерная идентификация и современные системы...

Решение задачи идентификации представляет собой, по существу, интеллектуальный процесс обработки данных с получением новых знаний в виде математической модели. Проблема разработки методов и алгоритмов интеллектуального анализа и извлечения данных...

Обзор и сравнительный анализ промышленных хранилищ данных...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации.

Атрибуты представления набора данных. Название атрибута.

Метод определения весов параметров из набора входящих данных с применением возможностей алгоритма C4.5.

Существует несколько подходов к решению проблемы прогнозирования при отсутствующих значениях в наборах входящих данных [5]. Самый...

Технологии обработки больших данных | Статья в журнале...

Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. И если само понятие возникло сравнительно давно, то понимание что это такое оформилось недавно. Оказалось, это не объёмы хранимых данных, точнее не только объемы.

Применение статистики на уроках информатики | Статья в журнале...

Математическая статистика — это наука, изучающая количественные показатели развития общества и общественного производства. Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и...

Формирование структуры базы данных процесса...

Рис. 1. Структура базы данных процесса прогнозирования материалоемкости новой модели

Предложенный способ кодирования разработан для условий производства на конкретном

База данных процесса прогнозирования материалоемкости разработана с применением...

Похожие статьи

Анализ и предварительная обработка данных для решения задач...

Система здравоохранения — важный социальный институт, который является совокупностью организаций, ресурсов и учреждений, направленных на оказание медицинской помощи. Такая система основана на трех базовых принципах: лечение заболеваний...

Использование прогнозной аналитики...

В контексте обработки больших наборов данных (традиционно используемых в методах прогнозной аналитики) наиболее привлекательным является автоматизированное получение т. н. отрытых данных (Open Data).

Термин Big Data и способы его применения | Статья в журнале...

Рост количества информации спровоцировал появление новых технологий и методов для обработки данных. Ключевые слова: Большие Данные, информация, анализ. Определение Big Data.

BigData: анализ больших данных сегодня | Статья в журнале...

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития. Ключевые слова: big data, BigData, ИТ, информация, обработка, анализ, данные, систематизация, развитие. В текущее время объемы информации растут по экспоненте.

Компьютерная идентификация и современные системы...

Решение задачи идентификации представляет собой, по существу, интеллектуальный процесс обработки данных с получением новых знаний в виде математической модели. Проблема разработки методов и алгоритмов интеллектуального анализа и извлечения данных...

Обзор и сравнительный анализ промышленных хранилищ данных...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации.

Атрибуты представления набора данных. Название атрибута.

Метод определения весов параметров из набора входящих данных с применением возможностей алгоритма C4.5.

Существует несколько подходов к решению проблемы прогнозирования при отсутствующих значениях в наборах входящих данных [5]. Самый...

Технологии обработки больших данных | Статья в журнале...

Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. И если само понятие возникло сравнительно давно, то понимание что это такое оформилось недавно. Оказалось, это не объёмы хранимых данных, точнее не только объемы.

Применение статистики на уроках информатики | Статья в журнале...

Математическая статистика — это наука, изучающая количественные показатели развития общества и общественного производства. Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и...

Формирование структуры базы данных процесса...

Рис. 1. Структура базы данных процесса прогнозирования материалоемкости новой модели

Предложенный способ кодирования разработан для условий производства на конкретном

База данных процесса прогнозирования материалоемкости разработана с применением...

Задать вопрос