Сравнительный анализ методов Наивного Байеса и SVM алгоритмов при классификации текстовых документов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №29 (267) июль 2019 г.

Дата публикации: 19.07.2019

Статья просмотрена: 768 раз

Библиографическое описание:

Акбархужаев, С. А. Сравнительный анализ методов Наивного Байеса и SVM алгоритмов при классификации текстовых документов / С. А. Акбархужаев, Н. Н. Абдурахманова. — Текст : непосредственный // Молодой ученый. — 2019. — № 29 (267). — С. 8-10. — URL: https://moluch.ru/archive/267/61568/ (дата обращения: 16.12.2024).



В статье раскрывается понятие классификации текстовых документов для автоматического обнаружения категорий по текстам. Проводится сравнительный анализ двух самых главных алгоритмов, которыми являются методы наивного Байеса и SVM. Делается вывод, что при совмещении данных алгоритмов, процесс автоматического классифицирования работает точнее и быстрее.

Ключевые слова: метод наивного Байеса, SVM алгоритм, классификация текстовых документов.

В этой статье мы в основном сравниваем две техники, два основных алгоритма, которые берутся как основа классификации документов. Это алгоритмы SVM и метод наивного Байеса соответственно. В различных статьях приводятся данные о том, что SVM-алгоритм работает лучше в задачах классификации, тогда как во многих статьях было сказано, что метод Наивного Байеса показывает лучшие результаты в текстовой категоризации.

Методы классификации текстовых документов

Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который можно рассматривать как частный случай байесовских сетевых классификаторов. Он помогает нам вычислить условные вероятности возникновения двух событий на основе вероятностей возникновения каждого отдельного события. Это означает, что любой вектор представляющий текст, должен будет содержать информацию о вероятностях появления слов текста в текстах данной категории, чтобы алгоритм мог вычислить вероятность принадлежности этого текста к какой-либо категории. В общем, байесовская сеть классификаторов сначала моделирует совместное распределение p (x, y) измеренных атрибутов “x” и метки класса “y” разлагаются в виде p (x | y) p (y), а затем запоминаются параметры модели через максимизацию вероятности, заданной p (x | y) p (y) [1]. Есть фундаментальное предположение, что атрибуты являются условно независимыми, учитывая целевой класс, наивный байесовский классификатор фактически изучает параметры модели путем максимизации вероятности, заданной p (y) ∏j p (xj | y). Одним из основных преимуществ данного метода является то, что можно получить хорошие результаты, когда доступных данных не так много (несколько тысяч), а вычислительные ресурсы ограничены. Поскольку наивные байесовские классификаторы оптимизируют модель в целом и способны к обучению даже при наличии некоторых пропущенных значений. Кроме того, наивный байесовский классификатор является стабильным, и его результат классификации не претерпел существенных изменений из-за помех или искаженных данных.

Машины опорных векторов (SVM) — это только один из многих алгоритмов, которые мы можем выбирать при классификации текста. Данный алгоритм схож с Наивным Байесовским алгоритмом тем, что обоим алгоритмам не нужно много тренировочных данных, чтобы начать давать точные результаты. При этом, SVM алгоритм требует больше вычислительных ресурсов, чем для наивного Байеса, так-как он может достичь более точных результатов. При работе SVM-алгоритма, рисуется линия, которая делит пространство на два подпространства: одно подпространство содержит векторы, принадлежащие группе, тогда как другое подпространство содержит векторы, которые не принадлежат этой группе [2]. Эти векторы представляют собой учебные тексты, а группа является тегом, которым помечаем свои тексты. Классификатор SVM отличается от генеративного классификатора (метод Наивного Байеса) тем что он фокусируется на том, насколько хорошо они могут отделить положительные негативы, и не пытается понять основную информацию личности классы. Классификатор SVM сначала отображает экземпляр x в обучающем наборе в высокое размерное пространство через функцию Φ, то вычисляет решающую функцию вида f (x) = + b путем максимизации расстояния между множеством точек Φ (x) до гиперплоскости или набор гиперплоскостей, параметризованных (w, b), будучи согласованными на тренировочный набор [1]. Классификатор SVM создает единую модель для всех классов и, следовательно, требует одновременного рассмотрения всех других классов.

Заключение. Как можно понять из названия заявленной темы, производился сравнительный анализ двух популярных методов по классификации текстовых документов, которыми являются методы Наивная Байесовская Классификация и SVM-алгоритм. Наивный байесовский классификатор (NBC) и метод опорных векторов (SVM) имеют различные параметры, включая выбор функции ядра для каждого из них. Оба алгоритма очень чувствительны к оптимизации параметров, то есть выбор различных параметров может существенно изменить их выход. Итак, если результат показывает, что NBC работает лучше, чем SVM, то это верно только для выбранных параметров. Тем не менее, при других параметрах можно обнаружить, что SVM работает лучше.

В целом, если предположение о независимости в NBC удовлетворяется переменными набора данных и степень перекрытия классов мала (то есть потенциальная линейная граница принятия решения), то скорее всего NBC достигнет хороших результатов. К примеру, при классификации другие алгоритмы могут показать результат не хуже NBC, но выиграть конкуренцию из-за их оболочек. Если другие алгоритмы достигнут сопоставимой производительности с NBC, всё равно классификатор Наивного Байеса будет более желательным из-за его высокой скорости обработки.

Таким образом, по мнению авторов, не обязательно отдавать предпочтение какому-либо методу классификации, если он превосходит другие алгоритмы в одном направлении, так как он может потерпеть неудачу по другому аспекту. Обязательно нужно рассматривать несколько видов классификаторов для сравнительного исследования по классификации текстовых данных, так как учитывая свойства данных, можно будет максимально точно отдавать предпочтение некоторым методам. Однако самый целесообразный способ, если это возможно, – провести эксперименты со всеми алгоритмами классификации.

Литература:

  1. Klopotek M. and Woch M., “Very Large Bayesian Networks in Text Classification”, ICCS 2003, LNCS 2657, 2003, pp. 397–406
  2. V. Tampakas, Text Classification Using Machine Learning Techniques. 2005 URL: https://www.researchgate.net/publication/228084521_Text_Classification_Using_Machine_Learning_Techniques
Основные термины (генерируются автоматически): SVM, NBC, алгоритм, наивный байесовский классификатор, вектор, данные, классификация текста, максимизация вероятности, параметр модели, сравнительный анализ.


Ключевые слова

метод наивного Байеса, SVM алгоритм, классификация текстовых документов

Похожие статьи

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи, приводятся алгоритмы с их последующей реализацией и...

Метод извлечения SAO-структур из текстовых источников

В данной работе предлагается метод для извлечения SAO структур из текстовых данных на основе семантических правил. Предложен алгоритм, который адаптирован для русского языка.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Применение метода «наивного Байеса» для решения задачи классификации в Python

В данной статье на основе набора данных об донорах приводится пример применения классификации объектов методом «наивного Байеса». При помощи данного метода по признакам объекта, определяется к какой из двух групп он относится (к донорам или не донора...

Анализ тональности высказываний в Twitter

В данной работе рассматривается применение методов машинного обучения с учителем к анализу тональности русскоязычных высказываний в социальной сети Twitter. Подробно разбираются методы предварительной обработки текста, описываются способы анализа тон...

Анализ нечетких методов сравнения при работе с несколькими источниками данных

При сопоставлении данных, собранных из различных источников, появляется сложность, связанная с возможными различиями формообразования в наименованиях и возникающих ошибках при ручном вводе данных. Были рассмотрены методы нечёткого сравнения строк.

Сравнительный анализ методов поиска особых точек и дескрипторов при группировке изображений по схожему содержанию

В данной работе проводится сравнительный анализ методов ORB, BRISK, AKAZE, обнаруживающих особые точки и описывающих их дескрипторы на изображении. Разработан алгоритм, который на основе работы данных методов группирует фотографии по степени сходства...

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Метод последовательных и парных сравнений, классический метод экспертных оценок Дельфи

В статье автор рассматривает два метода экспертных оценок — последовательные и парные сравнения и классический метод Дельфи, и в заключении делает вывод о том, какой из методов является более предпочтительным.

Шаблон Excel для проверки законов распределения данных наблюдений по критерию согласия Пирсона

В статье рассматривается процедура создания шаблона Excel и опыт его применения для автоматического построения гистограмм и кривых Гаусса по результатам данных экспериментальных наблюдений с одновременной оценкой согласия по критерию Пирсона в учебно...

Похожие статьи

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи, приводятся алгоритмы с их последующей реализацией и...

Метод извлечения SAO-структур из текстовых источников

В данной работе предлагается метод для извлечения SAO структур из текстовых данных на основе семантических правил. Предложен алгоритм, который адаптирован для русского языка.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Применение метода «наивного Байеса» для решения задачи классификации в Python

В данной статье на основе набора данных об донорах приводится пример применения классификации объектов методом «наивного Байеса». При помощи данного метода по признакам объекта, определяется к какой из двух групп он относится (к донорам или не донора...

Анализ тональности высказываний в Twitter

В данной работе рассматривается применение методов машинного обучения с учителем к анализу тональности русскоязычных высказываний в социальной сети Twitter. Подробно разбираются методы предварительной обработки текста, описываются способы анализа тон...

Анализ нечетких методов сравнения при работе с несколькими источниками данных

При сопоставлении данных, собранных из различных источников, появляется сложность, связанная с возможными различиями формообразования в наименованиях и возникающих ошибках при ручном вводе данных. Были рассмотрены методы нечёткого сравнения строк.

Сравнительный анализ методов поиска особых точек и дескрипторов при группировке изображений по схожему содержанию

В данной работе проводится сравнительный анализ методов ORB, BRISK, AKAZE, обнаруживающих особые точки и описывающих их дескрипторы на изображении. Разработан алгоритм, который на основе работы данных методов группирует фотографии по степени сходства...

Анализ эффективности алгоритмов сортировки и вcтроенных реализаций на примере языка программирования Java

В данной статье показана значительная роль проведения анализа работы алгоритмов сортировки на массивах данных различной размерности. Рассмотрены актуальные алгоритмы и стандартные реализации сортировки в языке программирования Java.

Метод последовательных и парных сравнений, классический метод экспертных оценок Дельфи

В статье автор рассматривает два метода экспертных оценок — последовательные и парные сравнения и классический метод Дельфи, и в заключении делает вывод о том, какой из методов является более предпочтительным.

Шаблон Excel для проверки законов распределения данных наблюдений по критерию согласия Пирсона

В статье рассматривается процедура создания шаблона Excel и опыт его применения для автоматического построения гистограмм и кривых Гаусса по результатам данных экспериментальных наблюдений с одновременной оценкой согласия по критерию Пирсона в учебно...

Задать вопрос