Сравнительный анализ современных инструментов Data Mining | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №1 (239) январь 2019 г.

Дата публикации: 07.01.2019

Статья просмотрена: 1736 раз

Библиографическое описание:

Мулюкова, К. В. Сравнительный анализ современных инструментов Data Mining / К. В. Мулюкова. — Текст : непосредственный // Молодой ученый. — 2019. — № 1 (239). — С. 19-21. — URL: https://moluch.ru/archive/239/55393/ (дата обращения: 19.12.2024).



В статье анализируются современные инструменты Data Mining. Дается подробная характеристика каждому инструменту Data Mining. Рассмотрены принципы работы данных инструментов, представлены основные критерии для сравнения. Указаны плюсы и минусы каждого инструмента Data Mining. В заключение делаются выводы об эффективности инструмента DMST для аналитических проектов.

Ключевые слова: DMST, интеллектуальная обработка, Data Mining, математические пакеты, бизнес-аналитика, анализ данных, Mat Package

Так как объем данных постоянно продолжает расти, то это приводит к тому, что задачи анализа становятся все сложнее. Для решения задач, которые делятся на общие и частные, необходим постоянный поиск новых, нестандартных и доступных знаний для анализа.

Важнейшим инструментом поиска таких знаний является глубокий и всесторонний анализ данных, описывающих процессы и явления, протекающие в аналитических системах, с использованием современных информационных технологий. В данный момент Data Mining является самым многообещающих направлением информационных технологий. Так что же такое Data Mining?

Мы знаем следующее определение: «Набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1, с. 15].

Дня эффективной организации поиска знаний, необходимых для поддержки принятия решений в аналитических системах, наиболее эффективным подходом является реализация комплексных DM-проектов с глубокой интеграцией аналитических инструментов в рабочие процессы. Используемые для этих целей системы интеллектуального анализа должны удовлетворять следующим требованиям:

  1. Поддержка экспорта/импорта данных. Поддержка выгрузки/загрузки данных из разных исходных областей. Объединение данных в хранилище данных;
  2. Поддержка технологии «клиент — сервер» для обработки данных на удаленных серверах;
  3. Поддержка/создание различных отчетов;
  4. Поддержка различных алгоритмов и методов интеллектуальной обработки данных (методы математической статистики, алгоритмы бизнес-анализа, машинное обучение и т. д.).
  5. «Дружественный», удобный графический интерфейс, который будет пригоден для целого сектора пользователей.
  6. Поддержка мощных средств визуализации данных. Система должна содержать широкий набор визуализаторов исходных данных, промежуточных и конечных результатов, а также структуру построенных моделей.

Под данные требования подходят 6 групп инструментов Data Mining:

  1. Инструменты DM (DMFT — Data Mining Field Tools) — данные инструменты направлены на особую прикладную область.
  2. Инструменты для бизнес-аналитики (DMBT — Data Mining Business Tools) — не ориентированы на работу с задачами Data Mining, но поддерживают методы интеллектуальной обработки данных (например, алгоритмы кластеризации, классификации для бизнес анализа).
  3. Инструменты DM (RDMT — Research Data Mining Tools) — данные инструменты используются для разработки новых экспериментальных алгоритмов и методов интеллектуальной разработки данных.
  4. Математические пакеты (DMMP — Data Mining Mat Package) — данные пакеты не были ориентированы для Data Mining, но они содержат огромное количество алгоритмов и методов, которые позволяют осуществлять функции интеллектуального анализа данных [2, с. 45].
  5. Инструменты DM (SDMT — Specialties Data Mining Tools) — данные инструменты используются для определенных видов или методов интеллектуальной обработки данных.
  6. Интеграционные пакеты (IDMT- Integration Data Mining Tool) — наборы алгоритмов, образующих либо отдельные программные средства, либо пакеты расширения.
  7. «Наборы» интеллектуальной обработки данных (DMST — Data Mining Suite Tools) — поддерживают целый спектр алгоритмов и методов интеллектуальной обработки данных. Ориентированы на работу с различными данными (многомерные данные, структурированные данные и неструктурированные данные).

Для более доступного восприятия данной информации сделана таблица 1, в которой произведен сравнительный анализ инструментов интеллектуальной обработки данных для реализации аналитических DM-проектов. На основе данных, указанных в таблице, можно сделать вывод, что сформулированные нами ранее требования соответствуют «наборам» инструментов DMST.

Таблица 1

Сравнительная характеристика инструментов DM

Инструменты DM

Экспорт/Импорт

Поддержка клиент-сервер

Наличие отчетов

Поддержка различных алгоритмов

ГИП

Визуализация

DMFT

да

нет

нет

нет

да

да

DMBT

да

да

да

нет

да

нет

RDMT

нет

нет

нет

да

нет

нет

DMMP

да

нет

нет

да

нет

нет

SDMT

да

нет

нет

нет

да

да

IDMP

нет

нет

нет

да

да

нет

DMST

да

да

да

да

да

да

В заключение мы приходим к следующему выводу, что для комплексной реализации аналитических проектов нужно использовать инструменты Data Mining Suit Tools, так как DMST дают возможность использовать полный набор средств интеллектуального анализа данных. Они организуют эффективный поиск знаний в базах данных, поддерживают технологию «клиент-сервер», которая позволят проводить эффективный поиск знаний в базах данных (в локальных, удаленных). К минусам можно отнести высокую стоимость данных инструментов.

Литература:

  1. Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С.И Анализ данных и процессов 3-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. — 512 с.
  2. Курейчик, В. М. Об интеллектуальном анализе баз данных для экспертной системы / В. М. Курейчик, H. A. Полковникова. // Информатика, вычислительная техника и инженерное образование. — 2013. — 2. — С. 39–50.
  3. Паклин Н. Б., Орешков В.И Бизнес-аналитика от данных к знаниям — СПб.: Питер ISBN, 2016. — 706 с.
Основные термины (генерируются автоматически): DMST, нет, интеллектуальная обработка данных, DMBT, DMFT, DMMP, RDMT, SDMT, данные, инструмент.


Ключевые слова

анализ данных, Бизнес-аналитика, Data Mining, DMST, интеллектуальная обработка, математические пакеты, Mat Package

Похожие статьи

Сравнительный обзор сетевых интерфейсов для коммутации испытательной стендовой базы динамического полунатурного моделирования

Данная статья посвящена исследованию проблемы коммутации испытательной стендовой базы динамического моделирования. В статье проанализированы существующие на данный момент сетевые протоколы, применимые для решения данной задачи. Рассмотрены их основны...

Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения

В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...

Применение CVP-анализа для объяснения оперативных управленческих решений в бизнес-анализе

В статье рассмотрены основные механизмы CVP-анализа, даны главные определения технологии CVP-анализа, а также определены условия применения CVP-анализа для объяснения оперативных управленческих решений, выявлены и перечислены основные задачи метода, ...

Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных

В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...

Моделирование бизнес-процессов в условиях антикризисного управления

В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...

К вопросу о предварительном исследовании объекта анализа в рамках методологии FMEA

Статья рассматривает первый этап методологии FMEA, одного из наиболее востребованных в настоящее время инструментов. Данная стадия представляет собой предварительный анализ объекта исследования и оценку факторов, которые могут оказать влияние или ста...

Оценка конкурентоспособности лесной промышленности: теоретические и эмпирические аспекты

В статье анализируются теоретические основы конкурентоспособности с точки зрения двух основных подходов: сравнительных и конкурентных преимуществ. Основным новым результатом этой работы является всесторонний обзор эмпирических оценок конкурентоспособ...

Ставка дисконтирования как ключевой элемент в оценке эффективности инвестиционных проектов

В данной статье систематизированы основные подходы к определению ставки дисконтирования для оценки эффективности инвестиционных проектов. По каждому методу представлена его подробная характеристика, описаны его преимущества и недостатки, а также возм...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Визуализация исторических данных

Представленное в работе исследование носит научно-практический и историко-хронологический характер. В работе дается обзор программного обеспечения, создающего хронологические срезы, аналитическую и графическую части для исторической научно- исследова...

Похожие статьи

Сравнительный обзор сетевых интерфейсов для коммутации испытательной стендовой базы динамического полунатурного моделирования

Данная статья посвящена исследованию проблемы коммутации испытательной стендовой базы динамического моделирования. В статье проанализированы существующие на данный момент сетевые протоколы, применимые для решения данной задачи. Рассмотрены их основны...

Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения

В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...

Применение CVP-анализа для объяснения оперативных управленческих решений в бизнес-анализе

В статье рассмотрены основные механизмы CVP-анализа, даны главные определения технологии CVP-анализа, а также определены условия применения CVP-анализа для объяснения оперативных управленческих решений, выявлены и перечислены основные задачи метода, ...

Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных

В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...

Моделирование бизнес-процессов в условиях антикризисного управления

В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...

К вопросу о предварительном исследовании объекта анализа в рамках методологии FMEA

Статья рассматривает первый этап методологии FMEA, одного из наиболее востребованных в настоящее время инструментов. Данная стадия представляет собой предварительный анализ объекта исследования и оценку факторов, которые могут оказать влияние или ста...

Оценка конкурентоспособности лесной промышленности: теоретические и эмпирические аспекты

В статье анализируются теоретические основы конкурентоспособности с точки зрения двух основных подходов: сравнительных и конкурентных преимуществ. Основным новым результатом этой работы является всесторонний обзор эмпирических оценок конкурентоспособ...

Ставка дисконтирования как ключевой элемент в оценке эффективности инвестиционных проектов

В данной статье систематизированы основные подходы к определению ставки дисконтирования для оценки эффективности инвестиционных проектов. По каждому методу представлена его подробная характеристика, описаны его преимущества и недостатки, а также возм...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Визуализация исторических данных

Представленное в работе исследование носит научно-практический и историко-хронологический характер. В работе дается обзор программного обеспечения, создающего хронологические срезы, аналитическую и графическую части для исторической научно- исследова...

Задать вопрос