Выбор платформы интеллектуального анализа данных для применения в академических целях | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №22 (102) ноябрь-2 2015 г.

Дата публикации: 17.11.2015

Статья просмотрена: 1192 раза

Библиографическое описание:

Гремякина, О. А. Выбор платформы интеллектуального анализа данных для применения в академических целях / О. А. Гремякина. — Текст : непосредственный // Молодой ученый. — 2015. — № 22 (102). — С. 26-29. — URL: https://moluch.ru/archive/102/23473/ (дата обращения: 19.04.2024).

 

 

В статье произведен обзор возможностей программной среды RapidMiner для интеллектуального анализа данных. А также сравнительный анализ инструментов для аналитической обработки данных. Сделаны выводы относительно применения в академических целях.

Ключевые слова: интеллектуальный анализ данных; RapidMiner.

 

Программная платформа RapidMiner для интеллектуального анализа данных

RapidMiner, ранее известный как YALE (Yet Another Learning Environment), является программной платформой, которая обеспечивает интегрированную среду для машинного обучения, интеллектуального анализа данных, анализа текста, прогностической аналитики и бизнес-аналитики. Эта среда используется для деловых и промышленных приложений, а также для научных исследований, образования, профессиональной подготовки, быстрого прототипирования и разработки приложений и поддерживает все этапы процесса добычи данных, включая результаты визуализации, проверки и оптимизации. RapidMiner является системой с открытым программным кодом, система написана на языке Java и в настоящее время распространяется по лицензии GNU Affero General Public License. В зависимости от конфигурации системы имеются свободно распространяемые и коммерческие лицензии (рис.1).

Функции, реализованные в RapidMiner, позволяют работать с операторами системы WEKA, выполнять предобработку данных, фильтровать признаки, оценивать качество. Так же есть встроенный язык сценариев, который позволяет выполнять большие серии экспериментов. Достоинствами системы являются визуализация процесса анализа данных и представления результатов, так же возможна загрузка и сохранение данных в специальных форматах (arff, C4.5, csv, bibtex, базы данных и т.д.).

 Возможности среды RapidMiner

Все задачи, связанные с хранением данных, моделей и результатов анализа, в RapidMiner решаются при помощи единого репозитория. Репозиторий — это хранилище данных, создаваемое на диске средой и содержащее в себе все данные и процессы. Использование репозитория дает пользователю целый ряд преимуществ:

        данные, процессы, результаты и отчеты размещены и упорядочены;

Рис. 1. Конфигурации RapidMiner (https://rapidminer.com/products/comparison/#)

 

        открытие или загрузка файлов не требует дальнейшей настройки;

        входные, выходные данные, промежуточные результаты сопровождаются метаинформацией, обеспечивая связность и целостность данных и облегчая разработку процесса на начальном этапе;

        репозиторий может размещаться на кластерной файловой системе или на удаленном сервере RapidMiner (RapidAnalytics).

На рис.2 приведены элементы интерфейса RapidMiner. Основным рабочим элементом в среде RapidMiner является процесс. В основе успешной работы лежит правильный выбор и настройка отдельных компонентов процесса, которые в RapidMiner называются операторами. Операторы, доступные в среде, расположены во вкладке Operators и разбиты на группы в зависимости от назначения:

        контроль процесса (process control) включает в себя операторы для выбора оптимального числа параметров, создания и управления подпроцессами и группами объектов, сохранения и извлечения состояния процесса, обработки исключений, цикла;

        утилиты (utility) для использования макросов и журналов действий, работы с файлами, генерации наборов данных, добавления аннотации и другие;

        доступ к хранилищу данных (Repository Access)  чтение, сохранение, перемещение, копирование, переименование хранилищ данных;

Рис. 2. Элементы интерфейса RapidMiner (1.Панель быстрого доступа; 2.Вкладка Process;3. Вкладки Repositories и Operators; 4. Вкладка Parameters; 5. Вкладка Help)

 

        импорт (Import)  чтение данных из различных форматов хранения (CSV, Excel, XML, SAS, Access, AML, ARFF, XRFF, Database, SPSS, Stata, Sparse, dBase, C4.5, BibTeX, DasyLab, URL), моделей, атрибутов, параметров, методов и результатов;

        экспорт (Export)  запись и обновление данных в различные форматы хранения (CSV, Excel, Access, ARFF, XRFF, Database и специальный формат), моделей, атрибутов, параметров, методов и результатов;

        преобразование данных (Data Transformation): переименование и модификация ролей, преобразование типа данных, преобразование атрибутов, изменение значений, очистка данных, фильтрация, сортировка, агрегация данных, операции над множествами данных (объединение, пересечение и др.);

        оценка обработки данных (Evaluation)  измерение производительности, значимости, точности вычислений;

        модели (Modeling), реализованные с использованием алгоритмов:

1)     классификации и регрессии (модель по требованию, байесовская, в виде дерева, логическая и др.),

2)     взвешивания атрибутов,

3)     кластеризации и сегментации (модель k-Means и ее модификации, разбиения по плотности на основе пространственной кластеризации, максимизации математического ожидания, случайного разбиения, кластеризации сверху вниз, агломеративной кластеризации и др.),

4)     ассоциации,

5)     корреляции и вычисления зависимостей,

6)     сходства вычислений.

Операторы имеют входы и выходы, называемые портами, через которые они связываются друг с другом и с рабочей областью процесса. Параметры каждого оператора настраиваются во вкладке Parameters.

Во вкладке Process размещена рабочая область среды, в которой происходит построение модели обработки данных. Вкладки Problems и Log помогают пользователю обнаружить и исправить ошибки, возникающие в ходе работы.

После запуска процесса и в случае его успешного окончания RapidMiner направляет пользователя в режим просмотра результатов. Выбрав соответствующую опцию на вкладке ExampleSet, можно различным образом изучить набор выходных данных, полученных в результате выполнения процесса, установить связи или закономерности между атрибутами. Раздел Data View представляет собой таблицу, содержащую значения всех атрибутов каждого экземпляра данных, количество этих экземпляров, информацию о количестве атрибутов с разной ролью. Раздел Plot View позволяет, используя графические средства RapidMiner, увидеть визуальное изображение данных в среде.

В системе RapidMiner реализовано огромное число различных способов визуализации данных. Способ визуализации выбирается в разделе Plot View кнопкой Plotter. Перечислим некоторые виды визуализации, реализованные в системе:

        Scatter –2-х и 3-х мерные проекции точек;

        Bubble — каждый объект изображается кругом, радиус которого соответствует значению одного из признаков;

        Parallels — каждый объект изображается линией, которая проходит через точки, соответствующие значениям признаков,

        Series — изображение рядов;

        SOM — карты Кохонена;

        Block — объекты изображаются прямоугольниками;

        Density — изображение плотности;

        Pie, Ring — секторные диаграммы типа «пирог».

 Сравнительный анализ инструментов для аналитической обработки данных

Сравнительный анализ инструментов для аналитической обработки данных приведен в таблице 1.

Таблица 1

Сравнение инструментов для обработки данных

Предметы сравнения

WEKA

RapidMiner

MATLAB

Обработка больших объёмов данных

+

+

-

Обучение с учителем

+

+

-

Обучение без учителя

+

+

+

Работа с локальными файлами

-

+

+

Наличие собственного скриптового языка

-

+

+

Визуализация процесса

-

+

-

Справочная система

-

+

+

Интеграция с приложениями

JAVA

JAVA

JAVA и C++

Лицензия и распространение

GNU GPL

бесплатно

GNUAGPL

Версии 5.3 — бесплатно;

Версии выше 6.0 платная или пробная версия 30 дней

The MathWorks, Inc.

Пробная версия по запросу для студентов

 

RapidMiner и Weka хорошо подходят для академических целей. Преимуществом RapidMiner является визуализация процесса анализа данных, которая помогает лучше ознакомиться с его задачами и этапами.

 

Литература:

 

  1.                F. Akthar, C. Hahne, RapidMiner 5 Operator Reference, by Rapid-I GmbH, 2012, URL: https://rapidminer.com/wp-content/uploads/2013/10/RapidMiner_OperatorReference_en.pdf
  2.                RapidMiner Studio Manual by RapidMiner, 2014, URL: https://rapidminer.com/wp-content/uploads/2014/10/RapidMiner-v6-user-manual.pdf
  3.                Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab. МГУ, 2010, стр. 278
  4.                Электронный ресурс университета Вайкато, URL: http://www.cs.waikato.ac.nz/ml/weka/
Основные термины (генерируются автоматически): JAVA, ARFF, CSV, GNU, WEKA, XRFF, интеллектуальный анализ данных, аналитическая обработка данных, вкладка, пробная версия.


Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

Скачать электронную версию.

Под интеллектуальным анализом данных понимают обработку информации и выявление в ней тенденции, которая помогает принимать решения.

Применение библиотеки AForge.NET и ее расширения Accord.NET...

Представлены способы использования данных компонент для решения задачи

Диапазон средств, применяемых библиотекой достаточно разнообразен: обработка

Исходный код проекта доступен на условиях Gnu Lesser Public License, версия 2.1. в репозитории на GitHub.

Метод автоматизированного анализа электронных документов...

В качестве наглядного примера рассмотрим задачу анализа данных о план-графиках закупок (ПГЗ), предоставляемых Единой информационной системой (ЕИС, www.zakupki.gov.ru).

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Скачать электронную версию.

Интеллектуального анализа данных (Data Mining) представляет собой сочетание обширного математического инструментария и последних достижений в сфере информационных технологий.

Использование прогнозной аналитики...

Первая цель — это интеллектуальный, автоматизированный анализ данных, извлекающий скрытые зависимости и правила.

Open-source системы, которые можно использовать для предикативного анализа: R, KNIME, RapidMiner, Weka.

Intellektual tahlil masalalari uchun weka dasturiy ta’minoti haqida

Weka quyidagi afzalliklarga ega:  GNU General Public Licence litsenziyasi asosida bepul.  Qulaylik, U to’liq Java dasturlash tilida yaratilgan va shuning

Attribute Relationship File Format (ARFF) tekst formatidagi fayl bo’lib Wekada ma’lumotlarni ma’lumotlar bazasida saqlash uchun uchun foydalaniladi.

Разработка программного модуля по реализации функции...

В настоящее время технологии интеллектуальной обработки данных (ИОД) приобретают все

В настоящее время реализована альфа-версия программного модуля, пройдены этапы отладки и тестирования.

Разработка модуля анализа данных в интеллектуальных системах.

Оптимизация взаимодействия web-приложения с базой данных...

Анализ текущей версии ИИС «Шлаковые расплавы» (версия 6.0).

Схема обработки данных находится в конфигурационном файле sitemap.xmap.

XSP представляет собой динамический язык разметки, который позволяет внедрять директивы Java-кода внутрь XML-разметки.

Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

Скачать электронную версию.

Под интеллектуальным анализом данных понимают обработку информации и выявление в ней тенденции, которая помогает принимать решения.

Применение библиотеки AForge.NET и ее расширения Accord.NET...

Представлены способы использования данных компонент для решения задачи

Диапазон средств, применяемых библиотекой достаточно разнообразен: обработка

Исходный код проекта доступен на условиях Gnu Lesser Public License, версия 2.1. в репозитории на GitHub.

Метод автоматизированного анализа электронных документов...

В качестве наглядного примера рассмотрим задачу анализа данных о план-графиках закупок (ПГЗ), предоставляемых Единой информационной системой (ЕИС, www.zakupki.gov.ru).

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Скачать электронную версию.

Интеллектуального анализа данных (Data Mining) представляет собой сочетание обширного математического инструментария и последних достижений в сфере информационных технологий.

Использование прогнозной аналитики...

Первая цель — это интеллектуальный, автоматизированный анализ данных, извлекающий скрытые зависимости и правила.

Open-source системы, которые можно использовать для предикативного анализа: R, KNIME, RapidMiner, Weka.

Intellektual tahlil masalalari uchun weka dasturiy ta’minoti haqida

Weka quyidagi afzalliklarga ega:  GNU General Public Licence litsenziyasi asosida bepul.  Qulaylik, U to’liq Java dasturlash tilida yaratilgan va shuning

Attribute Relationship File Format (ARFF) tekst formatidagi fayl bo’lib Wekada ma’lumotlarni ma’lumotlar bazasida saqlash uchun uchun foydalaniladi.

Разработка программного модуля по реализации функции...

В настоящее время технологии интеллектуальной обработки данных (ИОД) приобретают все

В настоящее время реализована альфа-версия программного модуля, пройдены этапы отладки и тестирования.

Разработка модуля анализа данных в интеллектуальных системах.

Оптимизация взаимодействия web-приложения с базой данных...

Анализ текущей версии ИИС «Шлаковые расплавы» (версия 6.0).

Схема обработки данных находится в конфигурационном файле sitemap.xmap.

XSP представляет собой динамический язык разметки, который позволяет внедрять директивы Java-кода внутрь XML-разметки.

Задать вопрос