Сравнительный анализ современных инструментов Data Mining | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №1 (239) январь 2019 г.

Дата публикации: 07.01.2019

Статья просмотрена: 1459 раз

Библиографическое описание:

Мулюкова, К. В. Сравнительный анализ современных инструментов Data Mining / К. В. Мулюкова. — Текст : непосредственный // Молодой ученый. — 2019. — № 1 (239). — С. 19-21. — URL: https://moluch.ru/archive/239/55393/ (дата обращения: 25.04.2024).



В статье анализируются современные инструменты Data Mining. Дается подробная характеристика каждому инструменту Data Mining. Рассмотрены принципы работы данных инструментов, представлены основные критерии для сравнения. Указаны плюсы и минусы каждого инструмента Data Mining. В заключение делаются выводы об эффективности инструмента DMST для аналитических проектов.

Ключевые слова: DMST, интеллектуальная обработка, Data Mining, математические пакеты, бизнес-аналитика, анализ данных, Mat Package

Так как объем данных постоянно продолжает расти, то это приводит к тому, что задачи анализа становятся все сложнее. Для решения задач, которые делятся на общие и частные, необходим постоянный поиск новых, нестандартных и доступных знаний для анализа.

Важнейшим инструментом поиска таких знаний является глубокий и всесторонний анализ данных, описывающих процессы и явления, протекающие в аналитических системах, с использованием современных информационных технологий. В данный момент Data Mining является самым многообещающих направлением информационных технологий. Так что же такое Data Mining?

Мы знаем следующее определение: «Набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1, с. 15].

Дня эффективной организации поиска знаний, необходимых для поддержки принятия решений в аналитических системах, наиболее эффективным подходом является реализация комплексных DM-проектов с глубокой интеграцией аналитических инструментов в рабочие процессы. Используемые для этих целей системы интеллектуального анализа должны удовлетворять следующим требованиям:

  1. Поддержка экспорта/импорта данных. Поддержка выгрузки/загрузки данных из разных исходных областей. Объединение данных в хранилище данных;
  2. Поддержка технологии «клиент — сервер» для обработки данных на удаленных серверах;
  3. Поддержка/создание различных отчетов;
  4. Поддержка различных алгоритмов и методов интеллектуальной обработки данных (методы математической статистики, алгоритмы бизнес-анализа, машинное обучение и т. д.).
  5. «Дружественный», удобный графический интерфейс, который будет пригоден для целого сектора пользователей.
  6. Поддержка мощных средств визуализации данных. Система должна содержать широкий набор визуализаторов исходных данных, промежуточных и конечных результатов, а также структуру построенных моделей.

Под данные требования подходят 6 групп инструментов Data Mining:

  1. Инструменты DM (DMFT — Data Mining Field Tools) — данные инструменты направлены на особую прикладную область.
  2. Инструменты для бизнес-аналитики (DMBT — Data Mining Business Tools) — не ориентированы на работу с задачами Data Mining, но поддерживают методы интеллектуальной обработки данных (например, алгоритмы кластеризации, классификации для бизнес анализа).
  3. Инструменты DM (RDMT — Research Data Mining Tools) — данные инструменты используются для разработки новых экспериментальных алгоритмов и методов интеллектуальной разработки данных.
  4. Математические пакеты (DMMP — Data Mining Mat Package) — данные пакеты не были ориентированы для Data Mining, но они содержат огромное количество алгоритмов и методов, которые позволяют осуществлять функции интеллектуального анализа данных [2, с. 45].
  5. Инструменты DM (SDMT — Specialties Data Mining Tools) — данные инструменты используются для определенных видов или методов интеллектуальной обработки данных.
  6. Интеграционные пакеты (IDMT- Integration Data Mining Tool) — наборы алгоритмов, образующих либо отдельные программные средства, либо пакеты расширения.
  7. «Наборы» интеллектуальной обработки данных (DMST — Data Mining Suite Tools) — поддерживают целый спектр алгоритмов и методов интеллектуальной обработки данных. Ориентированы на работу с различными данными (многомерные данные, структурированные данные и неструктурированные данные).

Для более доступного восприятия данной информации сделана таблица 1, в которой произведен сравнительный анализ инструментов интеллектуальной обработки данных для реализации аналитических DM-проектов. На основе данных, указанных в таблице, можно сделать вывод, что сформулированные нами ранее требования соответствуют «наборам» инструментов DMST.

Таблица 1

Сравнительная характеристика инструментов DM

Инструменты DM

Экспорт/Импорт

Поддержка клиент-сервер

Наличие отчетов

Поддержка различных алгоритмов

ГИП

Визуализация

DMFT

да

нет

нет

нет

да

да

DMBT

да

да

да

нет

да

нет

RDMT

нет

нет

нет

да

нет

нет

DMMP

да

нет

нет

да

нет

нет

SDMT

да

нет

нет

нет

да

да

IDMP

нет

нет

нет

да

да

нет

DMST

да

да

да

да

да

да

В заключение мы приходим к следующему выводу, что для комплексной реализации аналитических проектов нужно использовать инструменты Data Mining Suit Tools, так как DMST дают возможность использовать полный набор средств интеллектуального анализа данных. Они организуют эффективный поиск знаний в базах данных, поддерживают технологию «клиент-сервер», которая позволят проводить эффективный поиск знаний в базах данных (в локальных, удаленных). К минусам можно отнести высокую стоимость данных инструментов.

Литература:

  1. Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С.И Анализ данных и процессов 3-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. — 512 с.
  2. Курейчик, В. М. Об интеллектуальном анализе баз данных для экспертной системы / В. М. Курейчик, H. A. Полковникова. // Информатика, вычислительная техника и инженерное образование. — 2013. — 2. — С. 39–50.
  3. Паклин Н. Б., Орешков В.И Бизнес-аналитика от данных к знаниям — СПб.: Питер ISBN, 2016. — 706 с.
Основные термины (генерируются автоматически): DMST, нет, интеллектуальная обработка данных, DMBT, DMFT, DMMP, RDMT, SDMT, данные, инструмент.


Ключевые слова

анализ данных, Бизнес-аналитика, Data Mining, DMST, интеллектуальная обработка, математические пакеты, Mat Package

Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

Под интеллектуальным анализом данных понимают обработку информации и выявление в ней тенденции, которая помогает принимать решения.

И это не преувеличение: бизнес-анализ+ — только малая часть сферы применения этого мощнейшего инструмента.

Разработка программного модуля по реализации функции...

Целью разработки программного модуля является повышение эффективности обработки данных в системе 1С-Битрикс путем внедрения технологии интеллектуальной обработки данных. Такой инструмент позволит эффективнее использовать информацию, находящуюся в...

Выбор платформы интеллектуального анализа данных для...

В статье произведен обзор возможностей программной среды RapidMiner для интеллектуального анализа данных. А также сравнительный анализ инструментов для аналитической обработки данных.

Технологии обработки больших данных | Статья в журнале...

Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. И если само понятие возникло сравнительно давно, то понимание что это такое оформилось недавно. Оказалось, это не объёмы хранимых данных, точнее не только объемы.

Методы интеллектуального анализа данных в диагностировании...

Интеллектуальный анализ данных в медицине, применяемый для построения медицинских диагностических систем, предназначен для того, чтобы помочь врачу, в частности, малоопытному специалисту, свести к минимуму диагностические ошибки и ускорить процесс...

Разработка программного модуля тестирования баз данных

Базы данных являются незаменимым инструментом в разработке программного обеспечения. Любая деятельность в информационном обществе так или иначе опирается на хранение данных и их обработку.

Чтобы выбрать, какую технологию использовать для хранения данных...

Разработка методики выявления сетевых атак с помощью Data...

В статье изложен опыт применения инструментов Data Mining при разработке методики обнаружения атак типа «отказ в обслуживании». Ключевые слова: обнаружение вторжений, Data Mining, дерево решений, аномальная активность, DoS-атака.

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

Применение машинного обучения для обнаружения сетевых...

Исходные данные должны быть типичными для системы, которая должна быть смоделирована, (например, данные пакета из сети).

Машинное обучение может построить необходимую модель автоматически на основе некоторых обучающих данных.

Методологии проектирования мультиагентных систем

В данной статье рассмотрены методологии проектирования мультиагентных систем, в том числе, применительно к созданию искусственного интеллекта. Приведен анализ популярных подходов к разработке информационных систем на всех этапах создания.

Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

Под интеллектуальным анализом данных понимают обработку информации и выявление в ней тенденции, которая помогает принимать решения.

И это не преувеличение: бизнес-анализ+ — только малая часть сферы применения этого мощнейшего инструмента.

Разработка программного модуля по реализации функции...

Целью разработки программного модуля является повышение эффективности обработки данных в системе 1С-Битрикс путем внедрения технологии интеллектуальной обработки данных. Такой инструмент позволит эффективнее использовать информацию, находящуюся в...

Выбор платформы интеллектуального анализа данных для...

В статье произведен обзор возможностей программной среды RapidMiner для интеллектуального анализа данных. А также сравнительный анализ инструментов для аналитической обработки данных.

Технологии обработки больших данных | Статья в журнале...

Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. И если само понятие возникло сравнительно давно, то понимание что это такое оформилось недавно. Оказалось, это не объёмы хранимых данных, точнее не только объемы.

Методы интеллектуального анализа данных в диагностировании...

Интеллектуальный анализ данных в медицине, применяемый для построения медицинских диагностических систем, предназначен для того, чтобы помочь врачу, в частности, малоопытному специалисту, свести к минимуму диагностические ошибки и ускорить процесс...

Разработка программного модуля тестирования баз данных

Базы данных являются незаменимым инструментом в разработке программного обеспечения. Любая деятельность в информационном обществе так или иначе опирается на хранение данных и их обработку.

Чтобы выбрать, какую технологию использовать для хранения данных...

Разработка методики выявления сетевых атак с помощью Data...

В статье изложен опыт применения инструментов Data Mining при разработке методики обнаружения атак типа «отказ в обслуживании». Ключевые слова: обнаружение вторжений, Data Mining, дерево решений, аномальная активность, DoS-атака.

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

Применение машинного обучения для обнаружения сетевых...

Исходные данные должны быть типичными для системы, которая должна быть смоделирована, (например, данные пакета из сети).

Машинное обучение может построить необходимую модель автоматически на основе некоторых обучающих данных.

Методологии проектирования мультиагентных систем

В данной статье рассмотрены методологии проектирования мультиагентных систем, в том числе, применительно к созданию искусственного интеллекта. Приведен анализ популярных подходов к разработке информационных систем на всех этапах создания.

Задать вопрос