Использование методов и основных алгоритмов в технологии Data Mining | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 17 августа, печатный экземпляр отправим 21 августа.

Опубликовать статью в журнале

Библиографическое описание:

Кубегенова А. Д., Искаков К. Т. Использование методов и основных алгоритмов в технологии Data Mining [Текст] // Исследования молодых ученых: материалы IV Междунар. науч. конф. (г. Казань, ноябрь 2019 г.). — Казань: Молодой ученый, 2019. — С. 8-11. — URL https://moluch.ru/conf/stud/archive/350/15375/ (дата обращения: 21.11.2019).



В данное время математика и вычислительная техника не стоят на месте. Создаются новые алгоритмы, позволяющие не обращать внимание на характер распределения данных, методы для анализа информации даже в условиях нелинейной зависимости признаков.

Современная техника легко обрабатывает огромные массивы данных, выбирая из сотни признаков наиболее информативные. Доказательство того, что отобранные признаки достоверны, проводится с помощью алгоритмов перебора многих тысяч возможных вариантов. Это стало реальным благодаря колоссальному быстродействию новых машин.

Возникло целое направление в информатике, называемое Data Mining в переводе «интеллектуальный анализ информации (данных)». Это технология выявления скрытых взаимосвязей внутри больших данных. В основу Data Mining положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений данных. Приложение Data Mining успешно применяются довольно широко в различных областях, в бизнесе и маркетинге, позволяют компаниям добывать информацию. В медицине с их помощью построены экспертные системы для постановки диагнозов на основе правил, описывающих сочетания различных симптомов разных заболеваний.

Data Mining анализ призван помогать в принятии решений. Для чего нужны не факты сами по себе, а знания о закономерностях в наблюдаемых процессах. Чем специфичнее информация, тем полезнее она для принятия решений.

Таким образом, Data Mining (DM) есть процесс обнаружения подобного рода полезных знаний. Причем необходимым данным требованием является обнаружение в сырых данных: ранее известных, нетривиальных, практических полезных, доступных интерпретации знаний, полезных для принятия решений в различных сферах человеческой деятельности. Методы Data Mining играют ведущую роль в областях со сложной системной организацией, данные с которым имеет дело(DM)-анализ, могут быть неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью. Такие данные называют также «сырыми данными» (raw data) и знания, выявляемые из них, — «скрытыми знаниями»(hidden knowledge).

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных — это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных –это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных — это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Типы закономерностей, которые позволяют выявлять методы Data Mining:

− ассоциация (выявление связи нескольких событий и оценка результативности воздействия на наборы параметров);

− последовательность (выявление временной связи между параметрами);

− классификация (выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы);

− кластеризация (самостоятельно выявляются однородные группы данных)

− прогнозирование (создание шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядом базы данных).

В основе подходов Data Mining лежат две технологии: машинное обучение и визуализация.

Обе технологии дополняют друг друга в процессе осуществления DM-анализа.

Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте

Визуализация — это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения. В результате использования визуализации создается графический образ данных. Применение визуализации помогает в процессе анализа данных увидеть аномалии, структуры, тренды.

Качество визуализации определяется возможностями графического отображения значений данных путем изменения цветов, форм и других элементов, что упрощает выявление скрытых зависимостей.

Машинное обучение позволяет исследовать большее количество взаимосвязей данных, чем может человек, за счет использования различных методов.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, искусственного интеллекта, теории баз данных.

Машинное обучение предполагает использовать основные алгоритмы Data Mining:

Ассоциативные правила — выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>».Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).

Деревья решений иАлгоритмы классификации — определяют естественные «разбивки» в данных, основанные на целевых переменных. С начала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART).

Искусственные нейронные сети — здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров.

Генетические алгоритмы — этот метод использует итеративный процесс эволюции и последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности»(fitness function) Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако их можно использовать и самостоятельно для моделирования.

Вывод путем сопоставления (Memory-basedreasoning,MBR) или вывод, основанный на прецентах (Case-basedReasoning,CBR) — эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия).

Кластерный анализ — подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

Каждый из методов имеет свои преимущества и недостатки. Преимущества деревьев решений и ассоциативных правил состоит в их читабельности — они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение).Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток — в сложности интерпретации.

Литература:

  1. ДюкВ., СамойленкоА. «Data Mining: учебный курс». — СПб.: «Питер»,2001
  2. ДюкВ. Обработка данных на ПК в примерах. — СПб.:«Питер»,1997. — 240с.
  3. А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод Методы и модели анализа данных: OLAP и Data Mining
  4. Нейский И. М. Характеристика технологий и процессов интеллектуального Анализа данных
  5. Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных. — Казанский Государственный Университет им. В. И. Ульянова-Ленина, 2008.
  6. Mining of Massive Datasets Stanford University. //The Stanford InfoLab. URL: http://i.stanford.edu/~ullman/mmds/book.pdf
  7. An Introduction to Information Retrieval — Cambridge University. // The Stanford Natural Language Processing Group. URL: http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата обращения: 20.11.2012)
  8. P. IndiraPriya, Dr. D. K. Ghosh A Survey on Different Clustering Algorithms in Data Mining Technique, International Journal of Modern Engineering Research (IJMER) www.ijmer.com Vol.3, Issue.1, Jan-Feb. 2013 pp-267–274
Основные термины (генерируются автоматически): данные, машинное обучение, принятие решений, CART, CBR, MBR, алгоритм, дерево решений, правило.

Похожие статьи

Деревья решения для задач построения рейтинга коммерческих...

интеллектуальный анализ данных, нейронная сеть, дерево решений, алгоритм, дерево принятия решений, параметр, SQL, гендерная

Набор данных для обучения, который предоставляет Университет Джонса Хопкинса. Похожие статьи. Деревья решения для задач...

Анализ эффективности применения методов классификации

Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Среди прочих методов ИАД, метод дерева принятия решений имеет несколько достоинств: прост в понимании и интерпретации...

Метод определения весов параметров из набора входящих...

Деревья принятия решений применяются во многих сферах деятельности.

Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и

дерево, машинное обучение, параметр, дерево решений, случайный лес, набор данных, CART...

Реализация метода дерева в моделировании процесса принятия...

Ключевые слова: принятие решений, модели принятия решений, дерево решений, оптимальное решение, методы принятия решений

Метод принятия решений на основе дерева решений относится к группе методов, позволяющих выполнять анализ данных ( Data...

Сравнительный анализ алгоритмов нейронной сети и деревьев...

К алгоритмам интеллектуального анализа данных относятся: байесовские сети, деревья решений, нейронные сети, метод ближайшего

В данной статье производится сравнительный анализ двух алгоритмов (нейронной сети и деревьев принятия решений) интеллектуального...

Использование прогнозной аналитики...

В современных условиях лавинообразного роста информации использование интеллектуальных методов анализа данных в системах поддержки принятия решений является очевидным и закономерным шагом.

Роль больших данных в глубинном обучении | Статья в журнале...

Решения на основе глубинного обучения представили превосходные результаты в различных сферах применения машинного обучения

Процессы добычи и извлечения что-либо значащих наборов данных из огромных входных данных для принятия решений, предсказаний, и...

Контролируемые методы машинного обучения как средство...

Дерево решений может быть использовано для классификации точки данных, начиная с корня дерева и перемещаясь вниз, пока лист узла не

Для решения этой задачи часто применяется метод машинного обучения — актуальной и интенсивно развивающейся области знаний...

Предсказание уходов пользователей сервиса с помощью...

Метод решающих деревьев — средство поддержки принятия решений

Подобные деревья решений широко используются в интеллектуальном анализе данных.

Метод случайного леса — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер...

Применение модели градиентного бустинга для прогнозирования...

Алгоритм градиентного бустинга (Gradient Boosting) используется в задачах обучения с

Рассмотрим работу модели CART на примере классификации того, насколько каждый из

Модель CART отличается от модели, построенной на основе решающих деревьев тем, что в...

Похожие статьи

Деревья решения для задач построения рейтинга коммерческих...

интеллектуальный анализ данных, нейронная сеть, дерево решений, алгоритм, дерево принятия решений, параметр, SQL, гендерная

Набор данных для обучения, который предоставляет Университет Джонса Хопкинса. Похожие статьи. Деревья решения для задач...

Анализ эффективности применения методов классификации

Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Среди прочих методов ИАД, метод дерева принятия решений имеет несколько достоинств: прост в понимании и интерпретации...

Метод определения весов параметров из набора входящих...

Деревья принятия решений применяются во многих сферах деятельности.

Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и

дерево, машинное обучение, параметр, дерево решений, случайный лес, набор данных, CART...

Реализация метода дерева в моделировании процесса принятия...

Ключевые слова: принятие решений, модели принятия решений, дерево решений, оптимальное решение, методы принятия решений

Метод принятия решений на основе дерева решений относится к группе методов, позволяющих выполнять анализ данных ( Data...

Сравнительный анализ алгоритмов нейронной сети и деревьев...

К алгоритмам интеллектуального анализа данных относятся: байесовские сети, деревья решений, нейронные сети, метод ближайшего

В данной статье производится сравнительный анализ двух алгоритмов (нейронной сети и деревьев принятия решений) интеллектуального...

Использование прогнозной аналитики...

В современных условиях лавинообразного роста информации использование интеллектуальных методов анализа данных в системах поддержки принятия решений является очевидным и закономерным шагом.

Роль больших данных в глубинном обучении | Статья в журнале...

Решения на основе глубинного обучения представили превосходные результаты в различных сферах применения машинного обучения

Процессы добычи и извлечения что-либо значащих наборов данных из огромных входных данных для принятия решений, предсказаний, и...

Контролируемые методы машинного обучения как средство...

Дерево решений может быть использовано для классификации точки данных, начиная с корня дерева и перемещаясь вниз, пока лист узла не

Для решения этой задачи часто применяется метод машинного обучения — актуальной и интенсивно развивающейся области знаний...

Предсказание уходов пользователей сервиса с помощью...

Метод решающих деревьев — средство поддержки принятия решений

Подобные деревья решений широко используются в интеллектуальном анализе данных.

Метод случайного леса — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер...

Применение модели градиентного бустинга для прогнозирования...

Алгоритм градиентного бустинга (Gradient Boosting) используется в задачах обучения с

Рассмотрим работу модели CART на примере классификации того, насколько каждый из

Модель CART отличается от модели, построенной на основе решающих деревьев тем, что в...