Использование методов и основных алгоритмов в технологии Data Mining
Авторы: Кубегенова Айгуль Даулетовна, Искаков Казизат Такуадинович
Рубрика: 4. Информатика
Опубликовано в
IV международная научная конференция «Исследования молодых ученых» (Казань, ноябрь 2019)
Дата публикации: 05.11.2019
Статья просмотрена: 533 раза
Библиографическое описание:
Кубегенова, А. Д. Использование методов и основных алгоритмов в технологии Data Mining / А. Д. Кубегенова, К. Т. Искаков. — Текст : непосредственный // Исследования молодых ученых : материалы IV Междунар. науч. конф. (г. Казань, ноябрь 2019 г.). — Казань : Молодой ученый, 2019. — С. 8-11. — URL: https://moluch.ru/conf/stud/archive/350/15375/ (дата обращения: 16.11.2024).
В данное время математика и вычислительная техника не стоят на месте. Создаются новые алгоритмы, позволяющие не обращать внимание на характер распределения данных, методы для анализа информации даже в условиях нелинейной зависимости признаков.
Современная техника легко обрабатывает огромные массивы данных, выбирая из сотни признаков наиболее информативные. Доказательство того, что отобранные признаки достоверны, проводится с помощью алгоритмов перебора многих тысяч возможных вариантов. Это стало реальным благодаря колоссальному быстродействию новых машин.
Возникло целое направление в информатике, называемое Data Mining в переводе «интеллектуальный анализ информации (данных)». Это технология выявления скрытых взаимосвязей внутри больших данных. В основу Data Mining положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений данных. Приложение Data Mining успешно применяются довольно широко в различных областях, в бизнесе и маркетинге, позволяют компаниям добывать информацию. В медицине с их помощью построены экспертные системы для постановки диагнозов на основе правил, описывающих сочетания различных симптомов разных заболеваний.
Data Mining анализ призван помогать в принятии решений. Для чего нужны не факты сами по себе, а знания о закономерностях в наблюдаемых процессах. Чем специфичнее информация, тем полезнее она для принятия решений.
Таким образом, Data Mining (DM) есть процесс обнаружения подобного рода полезных знаний. Причем необходимым данным требованием является обнаружение в сырых данных: ранее известных, нетривиальных, практических полезных, доступных интерпретации знаний, полезных для принятия решений в различных сферах человеческой деятельности. Методы Data Mining играют ведущую роль в областях со сложной системной организацией, данные с которым имеет дело(DM)-анализ, могут быть неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью. Такие данные называют также «сырыми данными» (raw data) и знания, выявляемые из них, — «скрытыми знаниями»(hidden knowledge).
Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Неочевидных — это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.
Объективных –это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.
Практически полезных — это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.
Типы закономерностей, которые позволяют выявлять методы Data Mining:
− ассоциация (выявление связи нескольких событий и оценка результативности воздействия на наборы параметров);
− последовательность (выявление временной связи между параметрами);
− классификация (выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы);
− кластеризация (самостоятельно выявляются однородные группы данных)
− прогнозирование (создание шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядом базы данных).
В основе подходов Data Mining лежат две технологии: машинное обучение и визуализация.
Обе технологии дополняют друг друга в процессе осуществления DM-анализа.
Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте
Визуализация — это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения. В результате использования визуализации создается графический образ данных. Применение визуализации помогает в процессе анализа данных увидеть аномалии, структуры, тренды.
Качество визуализации определяется возможностями графического отображения значений данных путем изменения цветов, форм и других элементов, что упрощает выявление скрытых зависимостей.
Машинное обучение позволяет исследовать большее количество взаимосвязей данных, чем может человек, за счет использования различных методов.
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, искусственного интеллекта, теории баз данных.
Машинное обучение предполагает использовать основные алгоритмы Data Mining:
Ассоциативные правила — выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>».Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).
Деревья решений иАлгоритмы классификации — определяют естественные «разбивки» в данных, основанные на целевых переменных. С начала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART).
Искусственные нейронные сети — здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров.
Генетические алгоритмы — этот метод использует итеративный процесс эволюции и последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности»(fitness function) Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако их можно использовать и самостоятельно для моделирования.
Вывод путем сопоставления (Memory-basedreasoning,MBR) или вывод, основанный на прецентах (Case-basedReasoning,CBR) — эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия).
Кластерный анализ — подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.
Каждый из методов имеет свои преимущества и недостатки. Преимущества деревьев решений и ассоциативных правил состоит в их читабельности — они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение).Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток — в сложности интерпретации.
Литература:
- ДюкВ., СамойленкоА. «Data Mining: учебный курс». — СПб.: «Питер»,2001
- ДюкВ. Обработка данных на ПК в примерах. — СПб.:«Питер»,1997. — 240с.
- А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод Методы и модели анализа данных: OLAP и Data Mining
- Нейский И. М. Характеристика технологий и процессов интеллектуального Анализа данных
- Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных. — Казанский Государственный Университет им. В. И. Ульянова-Ленина, 2008.
- Mining of Massive Datasets Stanford University. //The Stanford InfoLab. URL: http://i.stanford.edu/~ullman/mmds/book.pdf
- An Introduction to Information Retrieval — Cambridge University. // The Stanford Natural Language Processing Group. URL: http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата обращения: 20.11.2012)
- P. IndiraPriya, Dr. D. K. Ghosh A Survey on Different Clustering Algorithms in Data Mining Technique, International Journal of Modern Engineering Research (IJMER) www.ijmer.com Vol.3, Issue.1, Jan-Feb. 2013 pp-267–274