В статье анализируются современные инструменты Data Mining. Дается подробная характеристика каждому инструменту Data Mining. Рассмотрены принципы работы данных инструментов, представлены основные критерии для сравнения. Указаны плюсы и минусы каждого инструмента Data Mining. В заключение делаются выводы об эффективности инструмента DMST для аналитических проектов.
Ключевые слова: DMST, интеллектуальная обработка, Data Mining, математические пакеты, бизнес-аналитика, анализ данных, Mat Package
Так как объем данных постоянно продолжает расти, то это приводит к тому, что задачи анализа становятся все сложнее. Для решения задач, которые делятся на общие и частные, необходим постоянный поиск новых, нестандартных и доступных знаний для анализа.
Важнейшим инструментом поиска таких знаний является глубокий и всесторонний анализ данных, описывающих процессы и явления, протекающие в аналитических системах, с использованием современных информационных технологий. В данный момент Data Mining является самым многообещающих направлением информационных технологий. Так что же такое Data Mining?
Мы знаем следующее определение: «Набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1, с. 15].
Дня эффективной организации поиска знаний, необходимых для поддержки принятия решений в аналитических системах, наиболее эффективным подходом является реализация комплексных DM-проектов с глубокой интеграцией аналитических инструментов в рабочие процессы. Используемые для этих целей системы интеллектуального анализа должны удовлетворять следующим требованиям:
- Поддержка экспорта/импорта данных. Поддержка выгрузки/загрузки данных из разных исходных областей. Объединение данных в хранилище данных;
- Поддержка технологии «клиент — сервер» для обработки данных на удаленных серверах;
- Поддержка/создание различных отчетов;
- Поддержка различных алгоритмов и методов интеллектуальной обработки данных (методы математической статистики, алгоритмы бизнес-анализа, машинное обучение и т. д.).
- «Дружественный», удобный графический интерфейс, который будет пригоден для целого сектора пользователей.
- Поддержка мощных средств визуализации данных. Система должна содержать широкий набор визуализаторов исходных данных, промежуточных и конечных результатов, а также структуру построенных моделей.
Под данные требования подходят 6 групп инструментов Data Mining:
- Инструменты DM (DMFT — Data Mining Field Tools) — данные инструменты направлены на особую прикладную область.
- Инструменты для бизнес-аналитики (DMBT — Data Mining Business Tools) — не ориентированы на работу с задачами Data Mining, но поддерживают методы интеллектуальной обработки данных (например, алгоритмы кластеризации, классификации для бизнес анализа).
- Инструменты DM (RDMT — Research Data Mining Tools) — данные инструменты используются для разработки новых экспериментальных алгоритмов и методов интеллектуальной разработки данных.
- Математические пакеты (DMMP — Data Mining Mat Package) — данные пакеты не были ориентированы для Data Mining, но они содержат огромное количество алгоритмов и методов, которые позволяют осуществлять функции интеллектуального анализа данных [2, с. 45].
- Инструменты DM (SDMT — Specialties Data Mining Tools) — данные инструменты используются для определенных видов или методов интеллектуальной обработки данных.
- Интеграционные пакеты (IDMT- Integration Data Mining Tool) — наборы алгоритмов, образующих либо отдельные программные средства, либо пакеты расширения.
- «Наборы» интеллектуальной обработки данных (DMST — Data Mining Suite Tools) — поддерживают целый спектр алгоритмов и методов интеллектуальной обработки данных. Ориентированы на работу с различными данными (многомерные данные, структурированные данные и неструктурированные данные).
Для более доступного восприятия данной информации сделана таблица 1, в которой произведен сравнительный анализ инструментов интеллектуальной обработки данных для реализации аналитических DM-проектов. На основе данных, указанных в таблице, можно сделать вывод, что сформулированные нами ранее требования соответствуют «наборам» инструментов DMST.
Таблица 1
Сравнительная характеристика инструментов DM
Инструменты DM |
Экспорт/Импорт |
Поддержка клиент-сервер |
Наличие отчетов |
Поддержка различных алгоритмов |
ГИП |
Визуализация |
DMFT |
да |
нет |
нет |
нет |
да |
да |
DMBT |
да |
да |
да |
нет |
да |
нет |
RDMT |
нет |
нет |
нет |
да |
нет |
нет |
DMMP |
да |
нет |
нет |
да |
нет |
нет |
SDMT |
да |
нет |
нет |
нет |
да |
да |
IDMP |
нет |
нет |
нет |
да |
да |
нет |
DMST |
да |
да |
да |
да |
да |
да |
В заключение мы приходим к следующему выводу, что для комплексной реализации аналитических проектов нужно использовать инструменты Data Mining Suit Tools, так как DMST дают возможность использовать полный набор средств интеллектуального анализа данных. Они организуют эффективный поиск знаний в базах данных, поддерживают технологию «клиент-сервер», которая позволят проводить эффективный поиск знаний в базах данных (в локальных, удаленных). К минусам можно отнести высокую стоимость данных инструментов.
Литература:
- Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С.И Анализ данных и процессов 3-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. — 512 с.
- Курейчик, В. М. Об интеллектуальном анализе баз данных для экспертной системы / В. М. Курейчик, H. A. Полковникова. // Информатика, вычислительная техника и инженерное образование. — 2013. — 2. — С. 39–50.
- Паклин Н. Б., Орешков В.И Бизнес-аналитика от данных к знаниям — СПб.: Питер ISBN, 2016. — 706 с.