Разнообразие структур данных в современной информации | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №23 (261) июнь 2019 г.

Дата публикации: 10.06.2019

Статья просмотрена: 1578 раз

Библиографическое описание:

Николаев, А. А. Разнообразие структур данных в современной информации / А. А. Николаев. — Текст : непосредственный // Молодой ученый. — 2019. — № 23 (261). — С. 21-23. — URL: https://moluch.ru/archive/261/60410/ (дата обращения: 26.04.2024).



Одна из проблем современной информации это разнообразие современных данных. Под разнообразием понимается не только различные форматы данных, от текстовых файлов до файлов мультимедиа, но и различие в структуре такой информации. Именно структура данных требует нового подхода к обработке для получения полезных знаний из огромного потока данных. Рассмотрим какие данные называются структурированными и неструктурированными и обозначим проблему перехода между этими данными.

Структурированные данные — это информация, упорядоченная определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или автоматизированного анализа). Такие данные находятся в фиксированном формате записи, понятной для машины. Классической моделью хранения структурированных данных является таблица. В ней все данные упорядочиваются в двумерную структуру, состоящую из столбцов и строк. В ячейках такой таблицы содержатся элементы данных определенного формата: символы, числа, логические значения. [1]

Сделаем выводы о важных особенностях структурированных данных исходя из определения. Важнейшим является то, что структурированные данные — это информация, уже подготовленная к анализу и уже содержащая конкретные знания. Такая информация не требует обработки для получения из них каких-либо необходимых данных. Они отражают отдельные факты предметной области, основная форма представления данных в классических реляционных базах данных. Методов и средств хранения и обработки такой информации огромное множество и все они эффективно исполняют свою задачу.

Другим типом современных данных являются неструктурированные и слабоструктурированные данные. Дадим определение понятию неструктурированные данные, обозначим что относят к неструктурированным данным и изучим почему такие данные называются неструктурированными.

Неструктурированные данные — это информация, которая либо не имеет заранее определенной структуры данных, либо не организована в установленном порядке, понятного для машины. Неструктурированные данные непригодны для обработки напрямую методами анализа данных, поэтому такие данные подвергаются специальным приемам структуризации, причем сам характер данных в процессе структуризации может существенно измениться. [2]

Термин «неструктурированные данные» может считаться неточным по нескольким причинам:

– Структура, даже если она не определена формально, может подразумеваться.

– Данные, обладающие структурой некоторой формы, могут по-прежнему характеризоваться как неструктурированные, если их структура не предназначена для машинной обработки.

– Неструктурированная информация может иметь некоторую структуру или даже быть хорошо структурированной, но теми способами, которые являются неочевидными без предварительного согласования.

К неструктурированным данным относят данные на естественном языке, машинные, графовые, потоковые, аудио, видео и графические данные.

В качестве примера неструктурированных данных рассмотрим электронное письмо.

Электронное письмо обычно содержит дату отправления, имена отправителя и получателя, тело письма. То есть оно имеет структуру в привычном человеку понимании. Однако без структуризации и использования средств хранения и анализа с такими данными невозможно работать и получить какие-либо конкретные необходимые знания. Так же стоит заметить, что информация, содержащаяся в электронном письме в зависимости от контекста и задачи нужна разная, например, для одной задачи нам нужна дата, для другой содержание письма в отношении какого-либо слова. То есть такие данные нужно хранить в первоначальном виде и с помощью специальных средств извлекать из него нужное в понятный для машины формат, то есть привести неструктурированные данные к структурированному формату.

Теперь обозначим понятие слабоструктурированные данные. Оно детализирует термин «неструктурированные данные» и корректирует его неточности.

Слабоструктурированные данные — это данные, понятные для машинного распознавания, но все еще требующие неких преобразований для получения конкретной информации из неё. Если в примере с электронным письмом, пользователю этой информации сначала нужно понять какова структура письма и что в нем содержится, то слабоструктурированные данные имеют специальную строгую понятную машине структуру. Однако такие данные все еще не являются структурированными относительно термина, так как они не имеют привычный для использования формат таблицы.

В качестве примера рассмотрим файл формата JSON — текстовый формат обмена данными, основанный на JavaScript. На рисунке 1 представлен пример структуры JSON-массива данных:

json-introduction

Рис. 1. JSON — массив

На рисунке видно, что у массива есть структура данных и он может быть легко прочитан как человеком, так и машиной. Однако, такой массив все еще не поддается анализу классическими методами реляционных баз данных и средств анализа. Поэтому прочтение слабоструктурированного массива и извлечение данных оттуда является основной задачей конечного перехода от неструктурированного к структурированному типу данных. Обычно в контексте обработки информации, слабоструктурированное состояние является неким промежутком между неструктурированными и неструктурированными данными.

Как вывод можно обозначить, что проблема разнообразия современной информации заключается в реализации перехода из неструктурированных и слабоструктурированных данных к структурированной информации для её дальнейшего использования. Если речь идет об неструктурированной информации, то необходимо определить содержимое неструктурированного массива данных. Понять, как извлечь такие данные. После извлечения необходимого содержимого нужно преобразовать необходимую часть неструктурированной информации из неструктурированного объекта в структурированный вид, и загрузить преобразованные данные в привычные средства хранения и анализа. Для дальнейшего использования. Для слабоструктурированных данных использования похожий, но обычно минуется этап извлечения данных, так как они имеет понятный машине вид.

Литература:

  1. Типы данных в data science [Электронный ресурс]. — Режим доступа: http://soc-research.info/blog/index_files/bdtd.html. — Заглавие с экрана. — (Дата обращения: 26.04.2019).
  2. Неструктурированные данные 2.0 [Электронный ресурс]. — Режим доступа: https://www.osp.ru/os/2012/04/13015772/– Заглавие с экрана. — (Дата обращения: 10.05.2019).
Основные термины (генерируются автоматически): данные, JSON, электронное письмо, информация, неструктурированная информация, структура данных, дальнейшее использование, машина, реляционная база данных, современная информация.


Похожие статьи

Технологии обработки больших данных | Статья в журнале...

Оказалось, это не объёмы хранимых данных, точнее не только объемы. Это не те данные, с которыми привык работать опытный аналитик. Они скорее всего не будут вписываться в строки и столбцы таблицы Excel или строки таблицы реляционной базы данных.

Использование современных СУБД в информационных...

В различных сферах человеческой деятельности широкое распространение получили технологии, использующие базы данных для систематизации и хранения производственной информации.

Особенности проектирования и разновидности хранилищ данных

Создание ХД подразумевает ненормализованную структуру данных, в которой возможна избыточность. Т. е. это реляционная БД, обладающая избыточностью в следствии агрегированности. Рассмотрим подробнее, в чем заключается эта избыточность...

BigData: анализ больших данных сегодня | Статья в журнале...

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития. Ключевые слова: big data, BigData, ИТ, информация, обработка, анализ, данные, систематизация, развитие. В текущее время объемы информации растут по экспоненте.

Обзор и сравнительный анализ промышленных хранилищ данных...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений от...

Интеграция Java-приложения с базой данных MongoDB

Все большую популярность получают так называемые NoSQL базы данных, прекрасно подходящие для решения задач связанных с Big Data и распределенным хранением информации.

Создание современной интеллектуальной информационной...

Во-вторых, данные технологии способствуют повышению уровня интеллектуальной и информационной поддержки специалистов.

Использование данных подходов позволяет решить следующие задачи

‒ извлечь нужных данных из неструктурированных документов

Основные термины (генерируются автоматически): данные...

Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.

Проблемы идентификации объектов в базах данных

Анализируя данные, полученные из открытых источников и научных публикаций, можно выделить основные виды потерь, возникающие вследствие ошибок и искажений информации в базах данных: 1. Потери вследствие неверного, плохого оказания услуг («брак» в информации).

Похожие статьи

Технологии обработки больших данных | Статья в журнале...

Оказалось, это не объёмы хранимых данных, точнее не только объемы. Это не те данные, с которыми привык работать опытный аналитик. Они скорее всего не будут вписываться в строки и столбцы таблицы Excel или строки таблицы реляционной базы данных.

Использование современных СУБД в информационных...

В различных сферах человеческой деятельности широкое распространение получили технологии, использующие базы данных для систематизации и хранения производственной информации.

Особенности проектирования и разновидности хранилищ данных

Создание ХД подразумевает ненормализованную структуру данных, в которой возможна избыточность. Т. е. это реляционная БД, обладающая избыточностью в следствии агрегированности. Рассмотрим подробнее, в чем заключается эта избыточность...

BigData: анализ больших данных сегодня | Статья в журнале...

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития. Ключевые слова: big data, BigData, ИТ, информация, обработка, анализ, данные, систематизация, развитие. В текущее время объемы информации растут по экспоненте.

Обзор и сравнительный анализ промышленных хранилищ данных...

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений от...

Интеграция Java-приложения с базой данных MongoDB

Все большую популярность получают так называемые NoSQL базы данных, прекрасно подходящие для решения задач связанных с Big Data и распределенным хранением информации.

Создание современной интеллектуальной информационной...

Во-вторых, данные технологии способствуют повышению уровня интеллектуальной и информационной поддержки специалистов.

Использование данных подходов позволяет решить следующие задачи

‒ извлечь нужных данных из неструктурированных документов

Основные термины (генерируются автоматически): данные...

Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.

Проблемы идентификации объектов в базах данных

Анализируя данные, полученные из открытых источников и научных публикаций, можно выделить основные виды потерь, возникающие вследствие ошибок и искажений информации в базах данных: 1. Потери вследствие неверного, плохого оказания услуг («брак» в информации).

Задать вопрос