Организация и подготовка данных для аналитики | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №30 (477) июль 2023 г.

Дата публикации: 26.07.2023

Статья просмотрена: 61 раз

Библиографическое описание:

Фирсова, П. Е. Организация и подготовка данных для аналитики / П. Е. Фирсова. — Текст : непосредственный // Молодой ученый. — 2023. — № 30 (477). — С. 5-7. — URL: https://moluch.ru/archive/477/105085/ (дата обращения: 19.12.2024).



В статье проведен анализ литературы на предмет описания проблем качества данных и предлагаемых решений.

Ключевые слова : качество данных, аналитика, подготовка данных.

На сегодняшний день компании обладают огромными массивами данных, содержащими в себе сведения о сотрудниках, клиентах, операциях, товарах и предоставляемых услугах, экономических результатах. Организации, которые имеют представление о том, как обрабатывать такие данные и управлять ими, обладают существенными конкурентными преимуществами, среди которых эффективное использование ресурсов компании, обоснованное принятие управленческих и стратегических решений, видение портрета своего клиента и сегментов потребителей, способность быстро адаптироваться к изменениям рынка и т. д.

Но, хоть и всё больше компаний понимают ценность данных и их анализа для своей деятельности, ещё далеко не все начинают заниматься аналитикой. Прохождение полного жизненного цикла бизнес-аналитики, основанного на данных и технологиях, дает компаниям возможность разбираться с тем, что было сделано, к чему это привело и что делать в будущем. Организации, понимающие это, полагаются исключительно на анализ данных для принятия решений, которые помогут им получить конкурентное преимущество. Проблема в том, что все труднее становится извлекать ценность из данных, ведь их многообразие и сложность постоянно растут. Учитывая эти тренды, нужно уделять достаточно времени и внимания подготовке данных для аналитики.

В рамках работы была поставлена задача узнать, анонсируются ли выявленные проблемы и описаны ли подходы к их решению в стандартах, сводах знаний и лучших практиках.

Методология CRISP-DM является наиболее популярной и распространенной среди методологий по исследованию данных . Data mining по стандарту включает следующие фазы: осмысление бизнеса, осмысление данных, подготовка данных, моделирование, оценка результатов, внедрение. Цель осмысления данных — понять слабые и сильные стороны имеющихся данных, определить их достаточность и уровень качества, предложить идеи, как их использовать, и лучше понять процессы заказчика. Для этого строятся графики, делаются выборки и рассчитываются ключевые статистики. Подготовка данных — обычно наиболее длительный этап проекта. В него входит отбор данных, очистка, генерация новых, интеграция и форматирование. Как примеры ошибок приводятся пропуски, ошибки в данных, несоответствие кодировок и отсутствующие или неверные метаданные. К генерации новых данных относится: агрегация атрибутов, генерация кейсов, конвертация типов данных для использования в разных моделях, нормализация атрибутов, заполнение пропущенных данных. В результате интеграции должна появиться единая аналитическая таблица, пригодная для поставки в аналитическое ПО. Под форматированием подразумевается приведение данных к необходимому формату или порядку (например, сортировка).

В статье «The data preparation process in real estate: guidance and review» журнала «Journal of Real Estate Practice and Education» даются рекомендации по подготовке данных о недвижимости, используемых в количественном анализе. Первый шаг, идентификация выбросов, может быть выполнен с помощью визуальных методов, статистических методов или даже методов нечеткой кластеризации. После выявления выбросов и/или ошибок исследователь должен решить, как действовать дальше: удалить, исправить или отложить до этапа анализа. Для работы с недостающими данными важно определить, действительно ли данные отсутствуют, или пустое поле в данном наблюдении просто означает отсутствие положительного значения. Случаи пропусков могут быть непростыми, и исследователь должен проявлять осторожность при интерпретации отсутствующих данных.

В своде знаний по управлению данными DAMA-DMBOK в главе «Качество данных», основными аспектами качества данных являются: полнота, правильность, непротиворечивость, актуальность, доступность, возможность использования, безопасность. К проблемам качества данных авторы относят: дублирующие записи, противоречия, логические несоответствия, орфографические ошибки.

В результате анализа выделены проблемы, упоминаемые в литературе, а также варианты их решения (таблица 1).

Таблица 1

Результаты анализа

Проблема

Варианты решения

Источник

Ошибки

Удалить, исправить или отложить до этапа анализа

[3], [1], [2]

Выбросы

[3]

Недостающие данные (пропуски)

Восполнение отсутствующих данных или удаление наблюдений

[3], [1]

Необходимость получения данных из большого количества таблиц

Денормализация, использование представлений

[4]

Несоответствие кодировок

Единая система кодирования

[1]

Отсутствующие или неверные метаданные

Ручная проверка и исправление

[1]

Необходимость изменения наименований полей

Использование представлений

[4]

Разный формат данных

Шаблон с единым форматом на входе

[4]

Логические несоответствия

Автоматическое исправление (в средах с детально проработанными стандартами)

[2], [4]

Вывод

Для малого бизнеса существует достаточное количество доступных инструментов для выявления и решения проблем качества данных. Для решения ряда проблем предлагается несколько подходов, на что необходимо обращать внимание. При реализации ряда предложенных подходов могут возникнуть сложности, такие как отсутствие проработанных стандартов, высокая себестоимость разработки, большая трудоемкость.

Литература:

  1. IBM SPSS Modeler CRISP-DM Guide. — Текст: электронный // IBM: [сайт]. — URL: https://www.ibm.com/docs/en/spss-modeler/SaaS?topic=guide-introduction-crisp-dm (дата обращения: 13.04.2023).
  2. Ильяшенко, О. Ю. Роль BI-систем в совершенствовании процессов обработки и анализа бизнес-информации / О. Ю. Ильяшенко, И. В. Ильин, Д. Д. Болобонов // Наука и бизнес: пути развития. — 2017. — № 6(72). — С. 124–131. — URL: https://proxy.library.spbu.ru:3693/item.asp?id=29861563 (дата обращения: 02.04.2023).
  3. Krause A., Clifford A. L. The Data Preparation Process in Real Estate: Guidance and Review / A. Krause, A. L. Clifford. — Текст: непосредственный // Journal of Real Estate Practice and Education. — 2016. — Vol. 19, No. 1. — С. 15–42.
  4. DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International [пер. с англ. Г. Агафонова]. — Москва: Олимп–Бизнес, 2020. — 828 с.: ил.
  5. Data Modeling. — Текст: электронный // IBM Cloud Education: [сайт]. — URL: https://www.ibm.com/cloud/learn/data-modeling (дата обращения: 03.04.2023).
  6. Rahm E., Do H. H. Data Cleaning: Problems and Current Approaches / E. Rahm, H. H. Do— Текст: непосредственный // Bulletin of the Technical Committee on Data Engineering. — 2001. — № 23:4. — С. 3–13.
  7. ISO 4217. — Текст: электронный // ISO: [сайт]. — URL: https://www.iso.org/ru/iso-4217-currency-codes.html (дата обращения: 06.05.2023).
Основные термины (генерируются автоматически): подготовка данных, данные, CRISP-DM, DAMA-DMBOK, использование представлений, несоответствие кодировок, осмысление данных, результат анализа, свод знаний, этап анализа.


Похожие статьи

Анализ данных бизнес-аналитики для организаций в современном мире

Аналитика данных в современном мире для крупных компаний играет важную роль для их конкурентоспособности на рынке, чтобы принимать решения относительно текущих и будущих потребностей своей организации.

Методы анализа маркетинговой логистики

Целью данной статьи является рассмотрение методов анализа маркетинговой логистики. В результате написания был определен ряд методов анализа маркетинговой логистики и определено влияние описанных методов на деятельность предприятия.

Применение Data mining для поддержания конкурентоспособности организаций

В статье исследуются особенности технологии интеллектуального анализа данных, описываются управленческие задачи, в решении которых целесообразно использовать данную технологию. Уделено отдельное внимание использованию интеллектуального анализа данных...

Современные аналитические методы защиты информации корпоративных систем

В статье рассматриваются основные проблемы поддержания актуальности систем защиты информации предприятия, для чего необходим анализ защищенности системы, а так же приведены направления для аналитической деятельности в организации.

Определение HR-аналитики и ее соотношение с бизнес-аналитикой

В статье авторы выделяют определения HR-аналитики и ее соотношение с бизнес-аналитикой.

Применение информационных технологий в анализе эффективности инвестиционной деятельности

В статье автор сделан обзор основных программ для анализа эффективности инвестиционной деятельности.

Направления повышения эффективности складской деятельности коммерческого предприятия

В статье рассмотрены проблемы складской деятельности коммерческой организации, ранжированные с помощью метода экспертных оценок. Для наиболее значимых проблем предложены направления и алгоритмы решения, позволяющие повысить эффективность складских пр...

Анализ подготовки и принятия управленческих решений в практике: к вопросу выбора оптимального метода

В статье рассмотрены возможности применения методов анализа в процессе подготовки, принятия и реализации управленческих решений в организации.

Принципы выбора ключевых показателей для эффективного экономического анализа

В статье автор исследует принципы выбора ключевых показателей для эффективного экономического анализа.

Стратегический анализ внутренней среды организации

В статье рассматривается анализ внутренней среды организации с помощью метода SNW как способ влияния на формирование стратегии, а также формулируются рекомендации по повышению эффективности управления процессами выбора внешних ресурсов на основе анал...

Похожие статьи

Анализ данных бизнес-аналитики для организаций в современном мире

Аналитика данных в современном мире для крупных компаний играет важную роль для их конкурентоспособности на рынке, чтобы принимать решения относительно текущих и будущих потребностей своей организации.

Методы анализа маркетинговой логистики

Целью данной статьи является рассмотрение методов анализа маркетинговой логистики. В результате написания был определен ряд методов анализа маркетинговой логистики и определено влияние описанных методов на деятельность предприятия.

Применение Data mining для поддержания конкурентоспособности организаций

В статье исследуются особенности технологии интеллектуального анализа данных, описываются управленческие задачи, в решении которых целесообразно использовать данную технологию. Уделено отдельное внимание использованию интеллектуального анализа данных...

Современные аналитические методы защиты информации корпоративных систем

В статье рассматриваются основные проблемы поддержания актуальности систем защиты информации предприятия, для чего необходим анализ защищенности системы, а так же приведены направления для аналитической деятельности в организации.

Определение HR-аналитики и ее соотношение с бизнес-аналитикой

В статье авторы выделяют определения HR-аналитики и ее соотношение с бизнес-аналитикой.

Применение информационных технологий в анализе эффективности инвестиционной деятельности

В статье автор сделан обзор основных программ для анализа эффективности инвестиционной деятельности.

Направления повышения эффективности складской деятельности коммерческого предприятия

В статье рассмотрены проблемы складской деятельности коммерческой организации, ранжированные с помощью метода экспертных оценок. Для наиболее значимых проблем предложены направления и алгоритмы решения, позволяющие повысить эффективность складских пр...

Анализ подготовки и принятия управленческих решений в практике: к вопросу выбора оптимального метода

В статье рассмотрены возможности применения методов анализа в процессе подготовки, принятия и реализации управленческих решений в организации.

Принципы выбора ключевых показателей для эффективного экономического анализа

В статье автор исследует принципы выбора ключевых показателей для эффективного экономического анализа.

Стратегический анализ внутренней среды организации

В статье рассматривается анализ внутренней среды организации с помощью метода SNW как способ влияния на формирование стратегии, а также формулируются рекомендации по повышению эффективности управления процессами выбора внешних ресурсов на основе анал...

Задать вопрос