Анализ эффективности применения методов классификации

Классификация – системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.

Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).

Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.

Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.

Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.

На сегодняшний день имеется большое количество методов для классификации объектов.

Наивный байесовский классификатор может быть, как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности. Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.

Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач. Чаще всего он используется либо как примитивный эталон для сравнения различных моделей алгоритмов, либо как элементарный строительный блок в алгоритмических композициях [1].

Дерево принятия решений — средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Среди прочих методов ИАД, метод дерева принятия решений имеет несколько достоинств: прост в понимании и интерпретации, позволяет оценить модель при помощи статистических тестов, является надежным методом.

Недостатки метода:

 Проблема получения оптимального дерева решений является NP-полной с точки зрения некоторых аспектов оптимальности даже для простых задач [2,3].

 Изучающие метод дерева принятия решений, могут создавать слишком сложные конструкции, которые недостаточно полно представляют данные. Данная проблема называется переобучением [4].

 Для данных, которые включают категориальные переменные с большим набором уровней (закрытий), больший информационный вес присваивается тем атрибутам, которые имеют большее количество уровней [5].

K-ближайших соседей – это метрический алгоритм классификации, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки [6].

Классификацию, проведенную данным алгоритмом, легко интерпретировать путём предъявления пользователю нескольких ближайших объектов. Поиск ближайшего соседа предполагает сравнение классифицируемого объекта со всеми объектами выборки, что требует линейного по длине выборки числа операций [7].

Машина опорных векторов — является одной из наиболее популярных методологий обучения по прецедентам, предложенной В. Н. Вапником и известной в англоязычной литературе под названием SVM (Support Vector Machine). Это наиболее быстрый метод нахождения решающих функций. Метод сводится к решению задачи квадратичного программирования в выпуклой области, которая всегда имеет единственное решение. Не существует общего подхода к автоматическому выбору ядра в случае линейной неразделимости классов.

Random forest (случайный лес) — алгоритм машинного обучения, заключающийся в использовании ансамбля решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана и метод случайных подпространств. Алгоритм применяется для задач классификации, регрессии и кластеризации.

Высокое качество получаемых моделей, сравнимое с SVM и бустингом, и лучшее, чем у нейронных сетей [8]. Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах [9].

Методы	легкость интерпретации	простота реализации	низкие вычислительные затраты	скорость при вычислении	надежность и устойчивость к шумам	легкость при расширении алгоритма
Наивный Байес	высокая	высокая	Да	высокая	Низкая	низкая
Дерево принятия решений	Низкая	высокая	Нет	зависит от объема данных	Низкая	низкая
K-ближайших соседей	Низкая	средняя	Нет	зависит от объема данных	Среднее	высокая
Машина опорных векторов	высокая	низкая	Да	высокая	Высокая	высокая
Случайный лес	Средняя	средняя	Нет	высокая	Низкая	низкая

Таблица 1. Предварительный анализ качеств методов классификации.

Из рассмотренных 5 методов классификации следует выделить 2 из них, результаты которых показали относительно неплохие результаты.

Метод «Дерево принятия решений» показывает самый высокий результат при наименьшим объеме тестовых данных. Из этого следует, что данный метод возможно интегрировать в системы поддержки принятия решений имея уже сформулированную обученную модель с большим объемом данных.

Во втором случае, метод «Машина опорных векторов» показывает довольно средний результат, однако обладает большой устойчивостью к шумам вне зависимости от объемов тестовых данных. Можно утверждать, что данный метод обладает наибольшим потенциалом для внедрения в экспертные системы. Также положительной чертой данного метода является легкость расширения или переработки алгоритмов, что при правильном подходе может повысить качество выходного результата.

Литература:

https://ru.wikipedia.org/wiki/Задача_классификации
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5
Hyafil, Laurent; Rivest, RL (1976). «Constructing Optimal Binary Decision Trees is NP-complete». Information Processing Letters 5 (1): 15-17. DOI:10.1016/0020-0190(76)90095-8.
Murthy S. (1998). Automatic construction of decision trees from data: A multidisciplinary survey. Data Mining and Knowledge Discovery
Principles of Data Mining. 2007. DOI:10.1007/978-1-84628-766-4. ISBN 978-1-84628-765-7.
Deng,H.; Runger, G.; Tuv, E. (2011). «Bias of importance measures for multi-valued attributes and solutions». Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293—300.
Bishop C. - Pattern Recognition and Machine Learning (Springer, 2006)
К. В. Воронцов, Лекции по метрическим алгоритмам классификации
Caruana R., Niculescu-Mizil A., An Empirical Comparison of Supervised Learning Algorithms Using Different Performance Metrics

Молодой учёный

Анализ эффективности применения методов классификации

Молодой учёный