Организация и подготовка данных для аналитики | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №30 (477) июль 2023 г.

Дата публикации: 26.07.2023

Статья просмотрена: 20 раз

Библиографическое описание:

Фирсова, П. Е. Организация и подготовка данных для аналитики / П. Е. Фирсова. — Текст : непосредственный // Молодой ученый. — 2023. — № 30 (477). — С. 5-7. — URL: https://moluch.ru/archive/477/105085/ (дата обращения: 27.04.2024).



В статье проведен анализ литературы на предмет описания проблем качества данных и предлагаемых решений.

Ключевые слова : качество данных, аналитика, подготовка данных.

На сегодняшний день компании обладают огромными массивами данных, содержащими в себе сведения о сотрудниках, клиентах, операциях, товарах и предоставляемых услугах, экономических результатах. Организации, которые имеют представление о том, как обрабатывать такие данные и управлять ими, обладают существенными конкурентными преимуществами, среди которых эффективное использование ресурсов компании, обоснованное принятие управленческих и стратегических решений, видение портрета своего клиента и сегментов потребителей, способность быстро адаптироваться к изменениям рынка и т. д.

Но, хоть и всё больше компаний понимают ценность данных и их анализа для своей деятельности, ещё далеко не все начинают заниматься аналитикой. Прохождение полного жизненного цикла бизнес-аналитики, основанного на данных и технологиях, дает компаниям возможность разбираться с тем, что было сделано, к чему это привело и что делать в будущем. Организации, понимающие это, полагаются исключительно на анализ данных для принятия решений, которые помогут им получить конкурентное преимущество. Проблема в том, что все труднее становится извлекать ценность из данных, ведь их многообразие и сложность постоянно растут. Учитывая эти тренды, нужно уделять достаточно времени и внимания подготовке данных для аналитики.

В рамках работы была поставлена задача узнать, анонсируются ли выявленные проблемы и описаны ли подходы к их решению в стандартах, сводах знаний и лучших практиках.

Методология CRISP-DM является наиболее популярной и распространенной среди методологий по исследованию данных . Data mining по стандарту включает следующие фазы: осмысление бизнеса, осмысление данных, подготовка данных, моделирование, оценка результатов, внедрение. Цель осмысления данных — понять слабые и сильные стороны имеющихся данных, определить их достаточность и уровень качества, предложить идеи, как их использовать, и лучше понять процессы заказчика. Для этого строятся графики, делаются выборки и рассчитываются ключевые статистики. Подготовка данных — обычно наиболее длительный этап проекта. В него входит отбор данных, очистка, генерация новых, интеграция и форматирование. Как примеры ошибок приводятся пропуски, ошибки в данных, несоответствие кодировок и отсутствующие или неверные метаданные. К генерации новых данных относится: агрегация атрибутов, генерация кейсов, конвертация типов данных для использования в разных моделях, нормализация атрибутов, заполнение пропущенных данных. В результате интеграции должна появиться единая аналитическая таблица, пригодная для поставки в аналитическое ПО. Под форматированием подразумевается приведение данных к необходимому формату или порядку (например, сортировка).

В статье «The data preparation process in real estate: guidance and review» журнала «Journal of Real Estate Practice and Education» даются рекомендации по подготовке данных о недвижимости, используемых в количественном анализе. Первый шаг, идентификация выбросов, может быть выполнен с помощью визуальных методов, статистических методов или даже методов нечеткой кластеризации. После выявления выбросов и/или ошибок исследователь должен решить, как действовать дальше: удалить, исправить или отложить до этапа анализа. Для работы с недостающими данными важно определить, действительно ли данные отсутствуют, или пустое поле в данном наблюдении просто означает отсутствие положительного значения. Случаи пропусков могут быть непростыми, и исследователь должен проявлять осторожность при интерпретации отсутствующих данных.

В своде знаний по управлению данными DAMA-DMBOK в главе «Качество данных», основными аспектами качества данных являются: полнота, правильность, непротиворечивость, актуальность, доступность, возможность использования, безопасность. К проблемам качества данных авторы относят: дублирующие записи, противоречия, логические несоответствия, орфографические ошибки.

В результате анализа выделены проблемы, упоминаемые в литературе, а также варианты их решения (таблица 1).

Таблица 1

Результаты анализа

Проблема

Варианты решения

Источник

Ошибки

Удалить, исправить или отложить до этапа анализа

[3], [1], [2]

Выбросы

[3]

Недостающие данные (пропуски)

Восполнение отсутствующих данных или удаление наблюдений

[3], [1]

Необходимость получения данных из большого количества таблиц

Денормализация, использование представлений

[4]

Несоответствие кодировок

Единая система кодирования

[1]

Отсутствующие или неверные метаданные

Ручная проверка и исправление

[1]

Необходимость изменения наименований полей

Использование представлений

[4]

Разный формат данных

Шаблон с единым форматом на входе

[4]

Логические несоответствия

Автоматическое исправление (в средах с детально проработанными стандартами)

[2], [4]

Вывод

Для малого бизнеса существует достаточное количество доступных инструментов для выявления и решения проблем качества данных. Для решения ряда проблем предлагается несколько подходов, на что необходимо обращать внимание. При реализации ряда предложенных подходов могут возникнуть сложности, такие как отсутствие проработанных стандартов, высокая себестоимость разработки, большая трудоемкость.

Литература:

  1. IBM SPSS Modeler CRISP-DM Guide. — Текст: электронный // IBM: [сайт]. — URL: https://www.ibm.com/docs/en/spss-modeler/SaaS?topic=guide-introduction-crisp-dm (дата обращения: 13.04.2023).
  2. Ильяшенко, О. Ю. Роль BI-систем в совершенствовании процессов обработки и анализа бизнес-информации / О. Ю. Ильяшенко, И. В. Ильин, Д. Д. Болобонов // Наука и бизнес: пути развития. — 2017. — № 6(72). — С. 124–131. — URL: https://proxy.library.spbu.ru:3693/item.asp?id=29861563 (дата обращения: 02.04.2023).
  3. Krause A., Clifford A. L. The Data Preparation Process in Real Estate: Guidance and Review / A. Krause, A. L. Clifford. — Текст: непосредственный // Journal of Real Estate Practice and Education. — 2016. — Vol. 19, No. 1. — С. 15–42.
  4. DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International [пер. с англ. Г. Агафонова]. — Москва: Олимп–Бизнес, 2020. — 828 с.: ил.
  5. Data Modeling. — Текст: электронный // IBM Cloud Education: [сайт]. — URL: https://www.ibm.com/cloud/learn/data-modeling (дата обращения: 03.04.2023).
  6. Rahm E., Do H. H. Data Cleaning: Problems and Current Approaches / E. Rahm, H. H. Do— Текст: непосредственный // Bulletin of the Technical Committee on Data Engineering. — 2001. — № 23:4. — С. 3–13.
  7. ISO 4217. — Текст: электронный // ISO: [сайт]. — URL: https://www.iso.org/ru/iso-4217-currency-codes.html (дата обращения: 06.05.2023).
Основные термины (генерируются автоматически): подготовка данных, данные, CRISP-DM, DAMA-DMBOK, использование представлений, несоответствие кодировок, осмысление данных, результат анализа, свод знаний, этап анализа.


Ключевые слова

аналитика, подготовка данных, качество данных

Похожие статьи

Современные программные продукты для анализа данных

Другим распространенным инструментом для анализа данных является Python. Python-это интерпретируемый, интерактивный, и высокоуровневый язык программирования общего назначения, который был создан Гвидо ван Россумом в 1985–1990 годах.

Использование методов и основных алгоритмов в технологии...

Обе технологии дополняют друг друга в процессе осуществления DM-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта.

Визуализация результатов учебной деятельности пользователей...

В качестве примера анализа данных результатов учебной деятельности пользователей в СДО Moodle были выбраны 3 задачи: Оценка качества обучения – проводится на основе двух параметров: оценка за тест и время прохождения теста.

Методика построения информационно-аналитических систем

Так же необходимо заметить, что анализ данных подразумевает не только выявление определенных тенденций на будущее, но и обеспечивает поддержку принятия решений и выдачу различных отчетов, на основе существующих данных. Определим основные требования к ИАС.

Статический и динамический анализ исходного кода

Хотя статический и динамический анализ можно выполнять вручную, они также могут быть автоматизированы. При грамотном использовании автоматизированные инструменты могут значительно повысить отдачу от инвестиций в тестирование.

Кодирование категориальных данных для использования...

В статье описаны основные алгоритмы кодирования категориальных данных для использования в моделях машинного обучения и продемонстрированы ситуации в которых их стоит применять.

Применение интеллектуальных технологий для анализа...

В статье рассматривается способ применения интеллектуальных нейросетевых технологий для анализа многомерных данных в пакете Matlab.

Сравнительный анализ методологий проектирования хранилищ...

Для сравнения подходов проектирования хранилищ данных, сформулированы следующие критерии: 1) Сложность ETL — количество ETL процессов для полной трансформации данных от стадии загрузки из источника до формирования витрин данных.

Анализ больших данных как эффективное средство управления...

Западные компании, начиная с начала 21 века, осознали необходимость анализа имеющихся данных для повышения прибыли и приступили к внедрению и использованию средств анализа больших данных, в том числе, в целях анализа потребительского поведения.

Похожие статьи

Современные программные продукты для анализа данных

Другим распространенным инструментом для анализа данных является Python. Python-это интерпретируемый, интерактивный, и высокоуровневый язык программирования общего назначения, который был создан Гвидо ван Россумом в 1985–1990 годах.

Использование методов и основных алгоритмов в технологии...

Обе технологии дополняют друг друга в процессе осуществления DM-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта.

Визуализация результатов учебной деятельности пользователей...

В качестве примера анализа данных результатов учебной деятельности пользователей в СДО Moodle были выбраны 3 задачи: Оценка качества обучения – проводится на основе двух параметров: оценка за тест и время прохождения теста.

Методика построения информационно-аналитических систем

Так же необходимо заметить, что анализ данных подразумевает не только выявление определенных тенденций на будущее, но и обеспечивает поддержку принятия решений и выдачу различных отчетов, на основе существующих данных. Определим основные требования к ИАС.

Статический и динамический анализ исходного кода

Хотя статический и динамический анализ можно выполнять вручную, они также могут быть автоматизированы. При грамотном использовании автоматизированные инструменты могут значительно повысить отдачу от инвестиций в тестирование.

Кодирование категориальных данных для использования...

В статье описаны основные алгоритмы кодирования категориальных данных для использования в моделях машинного обучения и продемонстрированы ситуации в которых их стоит применять.

Применение интеллектуальных технологий для анализа...

В статье рассматривается способ применения интеллектуальных нейросетевых технологий для анализа многомерных данных в пакете Matlab.

Сравнительный анализ методологий проектирования хранилищ...

Для сравнения подходов проектирования хранилищ данных, сформулированы следующие критерии: 1) Сложность ETL — количество ETL процессов для полной трансформации данных от стадии загрузки из источника до формирования витрин данных.

Анализ больших данных как эффективное средство управления...

Западные компании, начиная с начала 21 века, осознали необходимость анализа имеющихся данных для повышения прибыли и приступили к внедрению и использованию средств анализа больших данных, в том числе, в целях анализа потребительского поведения.

Задать вопрос