В статье раскрывается понятие классификации текстовых документов для автоматического обнаружения категорий по текстам. Проводится сравнительный анализ двух самых главных алгоритмов, которыми являются методы наивного Байеса и SVM. Делается вывод, что при совмещении данных алгоритмов, процесс автоматического классифицирования работает точнее и быстрее.
Ключевые слова: метод наивного Байеса, SVM алгоритм, классификация текстовых документов.
В этой статье мы в основном сравниваем две техники, два основных алгоритма, которые берутся как основа классификации документов. Это алгоритмы SVM и метод наивного Байеса соответственно. В различных статьях приводятся данные о том, что SVM-алгоритм работает лучше в задачах классификации, тогда как во многих статьях было сказано, что метод Наивного Байеса показывает лучшие результаты в текстовой категоризации.
Методы классификации текстовых документов
Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который можно рассматривать как частный случай байесовских сетевых классификаторов. Он помогает нам вычислить условные вероятности возникновения двух событий на основе вероятностей возникновения каждого отдельного события. Это означает, что любой вектор представляющий текст, должен будет содержать информацию о вероятностях появления слов текста в текстах данной категории, чтобы алгоритм мог вычислить вероятность принадлежности этого текста к какой-либо категории. В общем, байесовская сеть классификаторов сначала моделирует совместное распределение p (x, y) измеренных атрибутов “x” и метки класса “y” разлагаются в виде p (x | y) p (y), а затем запоминаются параметры модели через максимизацию вероятности, заданной p (x | y) p (y) [1]. Есть фундаментальное предположение, что атрибуты являются условно независимыми, учитывая целевой класс, наивный байесовский классификатор фактически изучает параметры модели путем максимизации вероятности, заданной p (y) ∏j p (xj | y). Одним из основных преимуществ данного метода является то, что можно получить хорошие результаты, когда доступных данных не так много (несколько тысяч), а вычислительные ресурсы ограничены. Поскольку наивные байесовские классификаторы оптимизируют модель в целом и способны к обучению даже при наличии некоторых пропущенных значений. Кроме того, наивный байесовский классификатор является стабильным, и его результат классификации не претерпел существенных изменений из-за помех или искаженных данных.
Машины опорных векторов (SVM) — это только один из многих алгоритмов, которые мы можем выбирать при классификации текста. Данный алгоритм схож с Наивным Байесовским алгоритмом тем, что обоим алгоритмам не нужно много тренировочных данных, чтобы начать давать точные результаты. При этом, SVM алгоритм требует больше вычислительных ресурсов, чем для наивного Байеса, так-как он может достичь более точных результатов. При работе SVM-алгоритма, рисуется линия, которая делит пространство на два подпространства: одно подпространство содержит векторы, принадлежащие группе, тогда как другое подпространство содержит векторы, которые не принадлежат этой группе [2]. Эти векторы представляют собой учебные тексты, а группа является тегом, которым помечаем свои тексты. Классификатор SVM отличается от генеративного классификатора (метод Наивного Байеса) тем что он фокусируется на том, насколько хорошо они могут отделить положительные негативы, и не пытается понять основную информацию личности классы. Классификатор SVM сначала отображает экземпляр x в обучающем наборе в высокое размерное пространство через функцию Φ, то вычисляет решающую функцию вида f (x) =
Заключение. Как можно понять из названия заявленной темы, производился сравнительный анализ двух популярных методов по классификации текстовых документов, которыми являются методы Наивная Байесовская Классификация и SVM-алгоритм. Наивный байесовский классификатор (NBC) и метод опорных векторов (SVM) имеют различные параметры, включая выбор функции ядра для каждого из них. Оба алгоритма очень чувствительны к оптимизации параметров, то есть выбор различных параметров может существенно изменить их выход. Итак, если результат показывает, что NBC работает лучше, чем SVM, то это верно только для выбранных параметров. Тем не менее, при других параметрах можно обнаружить, что SVM работает лучше.
В целом, если предположение о независимости в NBC удовлетворяется переменными набора данных и степень перекрытия классов мала (то есть потенциальная линейная граница принятия решения), то скорее всего NBC достигнет хороших результатов. К примеру, при классификации другие алгоритмы могут показать результат не хуже NBC, но выиграть конкуренцию из-за их оболочек. Если другие алгоритмы достигнут сопоставимой производительности с NBC, всё равно классификатор Наивного Байеса будет более желательным из-за его высокой скорости обработки.
Таким образом, по мнению авторов, не обязательно отдавать предпочтение какому-либо методу классификации, если он превосходит другие алгоритмы в одном направлении, так как он может потерпеть неудачу по другому аспекту. Обязательно нужно рассматривать несколько видов классификаторов для сравнительного исследования по классификации текстовых данных, так как учитывая свойства данных, можно будет максимально точно отдавать предпочтение некоторым методам. Однако самый целесообразный способ, если это возможно, – провести эксперименты со всеми алгоритмами классификации.
Литература:
- Klopotek M. and Woch M., “Very Large Bayesian Networks in Text Classification”, ICCS 2003, LNCS 2657, 2003, pp. 397–406
- V. Tampakas, Text Classification Using Machine Learning Techniques. 2005 URL: https://www.researchgate.net/publication/228084521_Text_Classification_Using_Machine_Learning_Techniques