Текстовая классификация документов на основе текстовой сегментации | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 1 мая, печатный экземпляр отправим 5 мая.

Опубликовать статью в журнале

Библиографическое описание:

Акбархужаев, С. А. Текстовая классификация документов на основе текстовой сегментации / С. А. Акбархужаев, В. О. Пак. — Текст : непосредственный // Исследования молодых ученых : материалы IX Междунар. науч. конф. (г. Казань, апрель 2020 г.). — Казань : Молодой ученый, 2020. — С. 1-3. — URL: https://moluch.ru/conf/stud/archive/368/15714/ (дата обращения: 21.04.2021).



Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые части статей (заголовок, аннотация, введение и заключение) важнее других для классификации сегментов текста. Результат эксперимента показывает, что выбор признаков на основе сегментации текста является эффективным.

Ключевые слова: текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение.

Во многих областях исследований каждый год публикуется множество статей. Когда исследователи ищут документы с помощью поисковой системы, извлекаются не весь текст целиком, а лишь некоторые из его фрагментов, которые могут не иметь отношения к теме исследований, интересующей конкретного пользователя. Поэтому обзор исследований сложен в нахождении релевантной информации. Автоматическая идентификация темы исследования технического документа является более информативной для поискового запроса, так как относится к проблеме классификации текста. Целью нашего исследования являлась разработка эффективной модели с использованием обработки естественного языка, которая бы определяла, к какой именно категории подходит исследуемый текстовый документ. При этом, обучаются и комбинируются несколько моделей с разными наборами функций из разных сегментов.

Текстовая классификация имеет долгую историю. Многие методы используются для повышения производительности. Обычно используемое текстовое представление — определенный набор слов. При поиске иногда используются не конкретные слова, а фразы, последовательности слов или N-граммы. Большинство поисковых методов сосредоточены на поиске слов или N-грамм, извлеченных из всего документа с помощью выбора признаков или схемы взвешивания признаков. Некоторые из предыдущих работ были направлены на интеграцию содержания документа и структуры цитирования. Номото [1] рассматривает структуру документа следующим образом: ядро появляется в начале текста, за которым следует любое количество дополнений. При этом ключевые слова для классификации текста извлекаются только из этого ядра. Идентификация ядра и его дополнений — это своего рода сегментация текста, которая более подходит для технических документов. Ларки [3] предложил метод извлечения слов только из заголовка, аннотации, первых двадцати строк вводной части и раздела, содержащего сведения о новизне заявки на категоризацию патента. Наше исследование повторяет некоторые из его методик, которые больше применимы к классифицикации патентных, а не технических документов.

Тильва и Жаин [6] использовали три алгоритма классификации текста (Naive Bayes, VSM для классификации текста и конкретно новый инструмент Stanford Tagger) по двум различным наборам данных (20 групп новостей и новый набор новостей для пяти категорий). По сравнению с вышеупомянутыми стратегиями классификации, наивный байесовский классификатор потенциально хорош в качестве модели классификации текста благодаря своей простоте. Гогои и Сарма подчеркнули эффективность использования наивного байесовского метода в классификации документов.

Болай и Говилкар [5] представили обзор методов категоризации текста для региональных языков Индии и доказали, что наивные байесовские алгоритмы, метод k-ближайших соседей и метод опорных векторов являются наиболее подходящими методами для классификации документов, написанных на языках, используемых в Индии. Джайн и Сайни использовали статистический подход для классификации текста на индийских языках. Они успешно внедрили и испытали наивный байесовский классификатор, который достиг удовлетворительных результатов при классификации документов.

Далал и Завери [4] представили общую стратегию автоматической классификации текста, которая включает в себя такие этапы, как предварительная обработка, выбор признаков, использование семантических или статистических методов и выбор подходящих методов машинного обучения (наивный байесовский классификатор, дерево решений, гибридные методы, метод опорных векторов). Эти исследователи также затронули некоторые из ключевых вопросов, связанных с классификацией текста, такие как обработка большого количества функций, работа с неструктурированным текстом, работа с отсутствующими метаданными и выбор подходящей техники машинного обучения для обучения классификатора текста.

Существует много подходов для классификации по нескольким меткам. Однако их можно разделить на две группы: преобразование проблемы и адаптация алгоритма. Первая группа основана на любых алгоритмах классификации по одной метке. Они преобразуют задачу классификации с несколькими метками в одну или несколько классификаций с одной меткой. С другой стороны, последняя группа расширяет традиционные алгоритмы обучения для непосредственной работы с данными с несколькими метками.

В качестве предварительной обработки классификации текста автоматически идентифицируются следующие сегменты в документе: название, информация об авторе (имена авторов, филиалы, адреса электронной почты и т. д.), аннотация, введение, заключение и справочные материалы. Метки присваиваются к аннотации, ключевым словам, введению, заключению и справочным разделам.

Таким образом, в данной работе мы затронули проблему классификации на основе частичной сегментации текстовых документов, рассматривая класс помеченных (положительных) документов и набор смешанных документов. Теоретически, положительные и немаркированные данные являются достаточными для построения точных классификаторов. Наш алгоритм использует алгоритм EM с наивным байесовским методом классификации. Мы повторно запускаем алгоритм EM после нескольких просмотров документа, используя положительные документы и наиболее вероятные негативные документы из смешанного набора. Затем мы используем оценку ошибки классификации в порядке выбора хорошего классификатора из классификаторов, произведенных итерацией алгоритма EM. Экспериментальная часть наших исследований показывает, что предлагаемая методика выдает достаточно точные классификаторы.

Литература:

  1. Nomoto, T., Matsumoto, Y. (1996): Exploiting text structure for topic identification. In: Proceedings of the 4th Workshop on Very Large Corpora, pp. 101–112
  2. Nguyen T. H., Shirai K. (2013) Text Classification of Technical Papers Based on Text Segmentation. In: Métais E., Meziane F., Saraee M., Sugumaran V., Vadera S. (eds) Natural Language Processing and Information Systems. NLDB 2013. Lecture Notes in Computer Science, vol 7934. Springer, Berlin, Heidelberg
  3. Larkey, L.S. (1999): A patent search and classification system. In: Proceedings of the Fourth ACM Conference on Digital Libraries, DL 1999, pp. 179–187. ACM, New York
  4. Dalal MK, Zaveri MA (2011) Automatic Text Classification: A Technical Review. Int J Comp App 28:
  5. Bolaj P., Govilkar S. (2016) A Survey on Text Categorization Techniques for Indian Regional Languages. Int J Comp Sci Inform Technol 7: 480–483.
  6. Tilve AKS, Jain SN (2017) Text Classification using Naive Bayes, VSM and POS Tagger. Int J Ethics in Engineering & Management Education 4.
Основные термины (генерируются автоматически): документ, классификация текста, классификация документов, наивный байесовский классификатор, VSM, выбор признаков, машинное обучение, наивный байесовский метод, сегментация текста, текстовая классификация.

Ключевые слова

текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение

Похожие статьи

Сравнительный анализ методов Наивного Байеса и SVM...

Методы классификации текстовых документов. Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который...

Сравнение методов оценки тональности текста

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Анализ тональности высказываний в Twitter | Статья в журнале...

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.

Анализ эффективности применения методов классификации

Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.

Классификация заявок пользователей с помощью нейросети

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.

Применение байесовского подхода в измерениях аналитических...

В большей степени простым вариантом метода, использующего байесовскую классификацию, является «наивная» классификация или, иными словами, наивно-байесовский подход. С использованием данного подхода решаются задачи классификации.

Распознавание сарказма в задаче определения тональности...

Наивный байесовский алгоритм — это алгоритм классификации, основанный на теореме Байеса с

Проблема определения сарказма в предложении требует обучения другого классификатора.

Ключевые слова:классификация текста, машинное обучение, обработка...

Классификация документов в системе электронного...

В статье описывается методика классификации документов в системе электронного документооборота, основанная на теории алгебры конечных предикатов. Применение предикатов позволяет ускорить процесс отнесения документа к определенному делу в...

Методы интеллектуального анализа данных в диагностировании...

Индуктивные методы обучения, такие как наивный байесовский классификатор, имеют большой успех в построении классификационных моделей с целью минимизации ошибок классификации. В качестве модификации алгоритма многие предыдущие исследования...

Похожие статьи

Сравнительный анализ методов Наивного Байеса и SVM...

Методы классификации текстовых документов. Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который...

Сравнение методов оценки тональности текста

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Анализ тональности высказываний в Twitter | Статья в журнале...

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.

Анализ эффективности применения методов классификации

Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.

Классификация заявок пользователей с помощью нейросети

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.

Применение байесовского подхода в измерениях аналитических...

В большей степени простым вариантом метода, использующего байесовскую классификацию, является «наивная» классификация или, иными словами, наивно-байесовский подход. С использованием данного подхода решаются задачи классификации.

Распознавание сарказма в задаче определения тональности...

Наивный байесовский алгоритм — это алгоритм классификации, основанный на теореме Байеса с

Проблема определения сарказма в предложении требует обучения другого классификатора.

Ключевые слова:классификация текста, машинное обучение, обработка...

Классификация документов в системе электронного...

В статье описывается методика классификации документов в системе электронного документооборота, основанная на теории алгебры конечных предикатов. Применение предикатов позволяет ускорить процесс отнесения документа к определенному делу в...

Методы интеллектуального анализа данных в диагностировании...

Индуктивные методы обучения, такие как наивный байесовский классификатор, имеют большой успех в построении классификационных моделей с целью минимизации ошибок классификации. В качестве модификации алгоритма многие предыдущие исследования...