Текстовая классификация документов на основе текстовой сегментации | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Несмотря на коронавирус, электронный вариант журнала выйдет 11 апреля.

Опубликовать статью в журнале

Библиографическое описание:

Акбархужаев С. А., Пак В. О. Текстовая классификация документов на основе текстовой сегментации [Текст] // Исследования молодых ученых: материалы IX Междунар. науч. конф. (г. Казань, апрель 2020 г.). — Казань: Молодой ученый, 2020. — URL https://moluch.ru/conf/stud/archive/368/15714/ (дата обращения: 01.04.2020).

Препринт статьи



Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые части статей (заголовок, аннотация, введение и заключение) важнее других для классификации сегментов текста. Результат эксперимента показывает, что выбор признаков на основе сегментации текста является эффективным.

Ключевые слова: текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение.

Во многих областях исследований каждый год публикуется множество статей. Когда исследователи ищут документы с помощью поисковой системы, извлекаются не весь текст целиком, а лишь некоторые из его фрагментов, которые могут не иметь отношения к теме исследований, интересующей конкретного пользователя. Поэтому обзор исследований сложен в нахождении релевантной информации. Автоматическая идентификация темы исследования технического документа является более информативной для поискового запроса, так как относится к проблеме классификации текста. Целью нашего исследования являлась разработка эффективной модели с использованием обработки естественного языка, которая бы определяла, к какой именно категории подходит исследуемый текстовый документ. При этом, обучаются и комбинируются несколько моделей с разными наборами функций из разных сегментов.

Текстовая классификация имеет долгую историю. Многие методы используются для повышения производительности. Обычно используемое текстовое представление — определенный набор слов. При поиске иногда используются не конкретные слова, а фразы, последовательности слов или N-граммы. Большинство поисковых методов сосредоточены на поиске слов или N-грамм, извлеченных из всего документа с помощью выбора признаков или схемы взвешивания признаков. Некоторые из предыдущих работ были направлены на интеграцию содержания документа и структуры цитирования. Номото [1] рассматривает структуру документа следующим образом: ядро появляется в начале текста, за которым следует любое количество дополнений. При этом ключевые слова для классификации текста извлекаются только из этого ядра. Идентификация ядра и его дополнений — это своего рода сегментация текста, которая более подходит для технических документов. Ларки [3] предложил метод извлечения слов только из заголовка, аннотации, первых двадцати строк вводной части и раздела, содержащего сведения о новизне заявки на категоризацию патента. Наше исследование повторяет некоторые из его методик, которые больше применимы к классифицикации патентных, а не технических документов.

Тильва и Жаин [6] использовали три алгоритма классификации текста (Naive Bayes, VSM для классификации текста и конкретно новый инструмент Stanford Tagger) по двум различным наборам данных (20 групп новостей и новый набор новостей для пяти категорий). По сравнению с вышеупомянутыми стратегиями классификации, наивный байесовский классификатор потенциально хорош в качестве модели классификации текста благодаря своей простоте. Гогои и Сарма подчеркнули эффективность использования наивного байесовского метода в классификации документов.

Болай и Говилкар [5] представили обзор методов категоризации текста для региональных языков Индии и доказали, что наивные байесовские алгоритмы, метод k-ближайших соседей и метод опорных векторов являются наиболее подходящими методами для классификации документов, написанных на языках, используемых в Индии. Джайн и Сайни использовали статистический подход для классификации текста на индийских языках. Они успешно внедрили и испытали наивный байесовский классификатор, который достиг удовлетворительных результатов при классификации документов.

Далал и Завери [4] представили общую стратегию автоматической классификации текста, которая включает в себя такие этапы, как предварительная обработка, выбор признаков, использование семантических или статистических методов и выбор подходящих методов машинного обучения (наивный байесовский классификатор, дерево решений, гибридные методы, метод опорных векторов). Эти исследователи также затронули некоторые из ключевых вопросов, связанных с классификацией текста, такие как обработка большого количества функций, работа с неструктурированным текстом, работа с отсутствующими метаданными и выбор подходящей техники машинного обучения для обучения классификатора текста.

Существует много подходов для классификации по нескольким меткам. Однако их можно разделить на две группы: преобразование проблемы и адаптация алгоритма. Первая группа основана на любых алгоритмах классификации по одной метке. Они преобразуют задачу классификации с несколькими метками в одну или несколько классификаций с одной меткой. С другой стороны, последняя группа расширяет традиционные алгоритмы обучения для непосредственной работы с данными с несколькими метками.

В качестве предварительной обработки классификации текста автоматически идентифицируются следующие сегменты в документе: название, информация об авторе (имена авторов, филиалы, адреса электронной почты и т. д.), аннотация, введение, заключение и справочные материалы. Метки присваиваются к аннотации, ключевым словам, введению, заключению и справочным разделам.

Таким образом, в данной работе мы затронули проблему классификации на основе частичной сегментации текстовых документов, рассматривая класс помеченных (положительных) документов и набор смешанных документов. Теоретически, положительные и немаркированные данные являются достаточными для построения точных классификаторов. Наш алгоритм использует алгоритм EM с наивным байесовским методом классификации. Мы повторно запускаем алгоритм EM после нескольких просмотров документа, используя положительные документы и наиболее вероятные негативные документы из смешанного набора. Затем мы используем оценку ошибки классификации в порядке выбора хорошего классификатора из классификаторов, произведенных итерацией алгоритма EM. Экспериментальная часть наших исследований показывает, что предлагаемая методика выдает достаточно точные классификаторы.

Литература:

  1. Nomoto, T., Matsumoto, Y. (1996): Exploiting text structure for topic identification. In: Proceedings of the 4th Workshop on Very Large Corpora, pp. 101–112
  2. Nguyen T. H., Shirai K. (2013) Text Classification of Technical Papers Based on Text Segmentation. In: Métais E., Meziane F., Saraee M., Sugumaran V., Vadera S. (eds) Natural Language Processing and Information Systems. NLDB 2013. Lecture Notes in Computer Science, vol 7934. Springer, Berlin, Heidelberg
  3. Larkey, L.S. (1999): A patent search and classification system. In: Proceedings of the Fourth ACM Conference on Digital Libraries, DL 1999, pp. 179–187. ACM, New York
  4. Dalal MK, Zaveri MA (2011) Automatic Text Classification: A Technical Review. Int J Comp App 28:
  5. Bolaj P., Govilkar S. (2016) A Survey on Text Categorization Techniques for Indian Regional Languages. Int J Comp Sci Inform Technol 7: 480–483.
  6. Tilve AKS, Jain SN (2017) Text Classification using Naive Bayes, VSM and POS Tagger. Int J Ethics in Engineering & Management Education 4.