В статье проведен анализ литературы на предмет описания проблем качества данных и предлагаемых решений.
Ключевые слова : качество данных, аналитика, подготовка данных.
На сегодняшний день компании обладают огромными массивами данных, содержащими в себе сведения о сотрудниках, клиентах, операциях, товарах и предоставляемых услугах, экономических результатах. Организации, которые имеют представление о том, как обрабатывать такие данные и управлять ими, обладают существенными конкурентными преимуществами, среди которых эффективное использование ресурсов компании, обоснованное принятие управленческих и стратегических решений, видение портрета своего клиента и сегментов потребителей, способность быстро адаптироваться к изменениям рынка и т. д.
Но, хоть и всё больше компаний понимают ценность данных и их анализа для своей деятельности, ещё далеко не все начинают заниматься аналитикой. Прохождение полного жизненного цикла бизнес-аналитики, основанного на данных и технологиях, дает компаниям возможность разбираться с тем, что было сделано, к чему это привело и что делать в будущем. Организации, понимающие это, полагаются исключительно на анализ данных для принятия решений, которые помогут им получить конкурентное преимущество. Проблема в том, что все труднее становится извлекать ценность из данных, ведь их многообразие и сложность постоянно растут. Учитывая эти тренды, нужно уделять достаточно времени и внимания подготовке данных для аналитики.
В рамках работы была поставлена задача узнать, анонсируются ли выявленные проблемы и описаны ли подходы к их решению в стандартах, сводах знаний и лучших практиках.
Методология CRISP-DM является наиболее популярной и распространенной среди методологий по исследованию данных . Data mining по стандарту включает следующие фазы: осмысление бизнеса, осмысление данных, подготовка данных, моделирование, оценка результатов, внедрение. Цель осмысления данных — понять слабые и сильные стороны имеющихся данных, определить их достаточность и уровень качества, предложить идеи, как их использовать, и лучше понять процессы заказчика. Для этого строятся графики, делаются выборки и рассчитываются ключевые статистики. Подготовка данных — обычно наиболее длительный этап проекта. В него входит отбор данных, очистка, генерация новых, интеграция и форматирование. Как примеры ошибок приводятся пропуски, ошибки в данных, несоответствие кодировок и отсутствующие или неверные метаданные. К генерации новых данных относится: агрегация атрибутов, генерация кейсов, конвертация типов данных для использования в разных моделях, нормализация атрибутов, заполнение пропущенных данных. В результате интеграции должна появиться единая аналитическая таблица, пригодная для поставки в аналитическое ПО. Под форматированием подразумевается приведение данных к необходимому формату или порядку (например, сортировка).
В статье «The data preparation process in real estate: guidance and review» журнала «Journal of Real Estate Practice and Education» даются рекомендации по подготовке данных о недвижимости, используемых в количественном анализе. Первый шаг, идентификация выбросов, может быть выполнен с помощью визуальных методов, статистических методов или даже методов нечеткой кластеризации. После выявления выбросов и/или ошибок исследователь должен решить, как действовать дальше: удалить, исправить или отложить до этапа анализа. Для работы с недостающими данными важно определить, действительно ли данные отсутствуют, или пустое поле в данном наблюдении просто означает отсутствие положительного значения. Случаи пропусков могут быть непростыми, и исследователь должен проявлять осторожность при интерпретации отсутствующих данных.
В своде знаний по управлению данными DAMA-DMBOK в главе «Качество данных», основными аспектами качества данных являются: полнота, правильность, непротиворечивость, актуальность, доступность, возможность использования, безопасность. К проблемам качества данных авторы относят: дублирующие записи, противоречия, логические несоответствия, орфографические ошибки.
В результате анализа выделены проблемы, упоминаемые в литературе, а также варианты их решения (таблица 1).
Таблица 1
Результаты анализа
Проблема |
Варианты решения |
Источник |
Ошибки |
Удалить, исправить или отложить до этапа анализа |
[3], [1], [2] |
Выбросы |
[3] |
|
Недостающие данные (пропуски) |
Восполнение отсутствующих данных или удаление наблюдений |
[3], [1] |
Необходимость получения данных из большого количества таблиц |
Денормализация, использование представлений |
[4] |
Несоответствие кодировок |
Единая система кодирования |
[1] |
Отсутствующие или неверные метаданные |
Ручная проверка и исправление |
[1] |
Необходимость изменения наименований полей |
Использование представлений |
[4] |
Разный формат данных |
Шаблон с единым форматом на входе |
[4] |
Логические несоответствия |
Автоматическое исправление (в средах с детально проработанными стандартами) |
[2], [4] |
Вывод
Для малого бизнеса существует достаточное количество доступных инструментов для выявления и решения проблем качества данных. Для решения ряда проблем предлагается несколько подходов, на что необходимо обращать внимание. При реализации ряда предложенных подходов могут возникнуть сложности, такие как отсутствие проработанных стандартов, высокая себестоимость разработки, большая трудоемкость.
Литература:
- IBM SPSS Modeler CRISP-DM Guide. — Текст: электронный // IBM: [сайт]. — URL: https://www.ibm.com/docs/en/spss-modeler/SaaS?topic=guide-introduction-crisp-dm (дата обращения: 13.04.2023).
- Ильяшенко, О. Ю. Роль BI-систем в совершенствовании процессов обработки и анализа бизнес-информации / О. Ю. Ильяшенко, И. В. Ильин, Д. Д. Болобонов // Наука и бизнес: пути развития. — 2017. — № 6(72). — С. 124–131. — URL: https://proxy.library.spbu.ru:3693/item.asp?id=29861563 (дата обращения: 02.04.2023).
- Krause A., Clifford A. L. The Data Preparation Process in Real Estate: Guidance and Review / A. Krause, A. L. Clifford. — Текст: непосредственный // Journal of Real Estate Practice and Education. — 2016. — Vol. 19, No. 1. — С. 15–42.
- DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International [пер. с англ. Г. Агафонова]. — Москва: Олимп–Бизнес, 2020. — 828 с.: ил.
- Data Modeling. — Текст: электронный // IBM Cloud Education: [сайт]. — URL: https://www.ibm.com/cloud/learn/data-modeling (дата обращения: 03.04.2023).
- Rahm E., Do H. H. Data Cleaning: Problems and Current Approaches / E. Rahm, H. H. Do— Текст: непосредственный // Bulletin of the Technical Committee on Data Engineering. — 2001. — № 23:4. — С. 3–13.
- ISO 4217. — Текст: электронный // ISO: [сайт]. — URL: https://www.iso.org/ru/iso-4217-currency-codes.html (дата обращения: 06.05.2023).