Использование методов и основных алгоритмов в технологии Data Mining

Кубегенова Айгуль Даулетовна; Искаков Казизат Такуадинович

В данное время математика и вычислительная техника не стоят на месте. Создаются новые алгоритмы, позволяющие не обращать внимание на характер распределения данных, методы для анализа информации даже в условиях нелинейной зависимости признаков.

Современная техника легко обрабатывает огромные массивы данных, выбирая из сотни признаков наиболее информативные. Доказательство того, что отобранные признаки достоверны, проводится с помощью алгоритмов перебора многих тысяч возможных вариантов. Это стало реальным благодаря колоссальному быстродействию новых машин.

Возникло целое направление в информатике, называемое Data Mining в переводе «интеллектуальный анализ информации (данных)». Это технология выявления скрытых взаимосвязей внутри больших данных. В основу Data Mining положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений данных. Приложение Data Mining успешно применяются довольно широко в различных областях, в бизнесе и маркетинге, позволяют компаниям добывать информацию. В медицине с их помощью построены экспертные системы для постановки диагнозов на основе правил, описывающих сочетания различных симптомов разных заболеваний.

Data Mining анализ призван помогать в принятии решений. Для чего нужны не факты сами по себе, а знания о закономерностях в наблюдаемых процессах. Чем специфичнее информация, тем полезнее она для принятия решений.

Таким образом, Data Mining (DM) есть процесс обнаружения подобного рода полезных знаний. Причем необходимым данным требованием является обнаружение в сырых данных: ранее известных, нетривиальных, практических полезных, доступных интерпретации знаний, полезных для принятия решений в различных сферах человеческой деятельности. Методы Data Mining играют ведущую роль в областях со сложной системной организацией, данные с которым имеет дело(DM)-анализ, могут быть неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью. Такие данные называют также «сырыми данными» (raw data) и знания, выявляемые из них, — «скрытыми знаниями»(hidden knowledge).

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных — это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных –это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных — это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Типы закономерностей, которые позволяют выявлять методы Data Mining:

− ассоциация (выявление связи нескольких событий и оценка результативности воздействия на наборы параметров);

− последовательность (выявление временной связи между параметрами);

− классификация (выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы);

− кластеризация (самостоятельно выявляются однородные группы данных)

− прогнозирование (создание шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядом базы данных).

В основе подходов Data Mining лежат две технологии: машинное обучение и визуализация.

Обе технологии дополняют друг друга в процессе осуществления DM-анализа.

Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте

Визуализация — это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения. В результате использования визуализации создается графический образ данных. Применение визуализации помогает в процессе анализа данных увидеть аномалии, структуры, тренды.

Качество визуализации определяется возможностями графического отображения значений данных путем изменения цветов, форм и других элементов, что упрощает выявление скрытых зависимостей.

Машинное обучение позволяет исследовать большее количество взаимосвязей данных, чем может человек, за счет использования различных методов.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, искусственного интеллекта, теории баз данных.

Машинное обучение предполагает использовать основные алгоритмы Data Mining:

Ассоциативные правила — выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>».Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).

Деревья решений иАлгоритмы классификации — определяют естественные «разбивки» в данных, основанные на целевых переменных. С начала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART).

Искусственные нейронные сети — здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров.

Генетические алгоритмы — этот метод использует итеративный процесс эволюции и последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности»(fitness function) Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако их можно использовать и самостоятельно для моделирования.

Вывод путем сопоставления (Memory-basedreasoning,MBR) или вывод, основанный на прецентах (Case-basedReasoning,CBR) — эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия).

Кластерный анализ — подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

Каждый из методов имеет свои преимущества и недостатки. Преимущества деревьев решений и ассоциативных правил состоит в их читабельности — они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение).Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток — в сложности интерпретации.

Литература:

ДюкВ., СамойленкоА. «Data Mining: учебный курс». — СПб.: «Питер»,2001
ДюкВ. Обработка данных на ПК в примерах. — СПб.:«Питер»,1997. — 240с.
А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод Методы и модели анализа данных: OLAP и Data Mining
Нейский И. М. Характеристика технологий и процессов интеллектуального Анализа данных
Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных. — Казанский Государственный Университет им. В. И. Ульянова-Ленина, 2008.
Mining of Massive Datasets Stanford University. //The Stanford InfoLab. URL: http://i.stanford.edu/~ullman/mmds/book.pdf
An Introduction to Information Retrieval — Cambridge University. // The Stanford Natural Language Processing Group. URL: http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата обращения: 20.11.2012)
P. IndiraPriya, Dr. D. K. Ghosh A Survey on Different Clustering Algorithms in Data Mining Technique, International Journal of Modern Engineering Research (IJMER) www.ijmer.com Vol.3, Issue.1, Jan-Feb. 2013 pp-267–274

Молодой учёный

Использование методов и основных алгоритмов в технологии Data Mining

Использование методов и основных алгоритмов в технологии Data Mining

Молодой учёный