Текстовая классификация документов на основе текстовой сегментации | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Библиографическое описание:

Акбархужаев, С. А. Текстовая классификация документов на основе текстовой сегментации / С. А. Акбархужаев, В. О. Пак. — Текст : непосредственный // Исследования молодых ученых : материалы IX Междунар. науч. конф. (г. Казань, апрель 2020 г.). — Казань : Молодой ученый, 2020. — С. 1-3. — URL: https://moluch.ru/conf/stud/archive/368/15714/ (дата обращения: 17.12.2024).



Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые части статей (заголовок, аннотация, введение и заключение) важнее других для классификации сегментов текста. Результат эксперимента показывает, что выбор признаков на основе сегментации текста является эффективным.

Ключевые слова: текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение.

Во многих областях исследований каждый год публикуется множество статей. Когда исследователи ищут документы с помощью поисковой системы, извлекаются не весь текст целиком, а лишь некоторые из его фрагментов, которые могут не иметь отношения к теме исследований, интересующей конкретного пользователя. Поэтому обзор исследований сложен в нахождении релевантной информации. Автоматическая идентификация темы исследования технического документа является более информативной для поискового запроса, так как относится к проблеме классификации текста. Целью нашего исследования являлась разработка эффективной модели с использованием обработки естественного языка, которая бы определяла, к какой именно категории подходит исследуемый текстовый документ. При этом, обучаются и комбинируются несколько моделей с разными наборами функций из разных сегментов.

Текстовая классификация имеет долгую историю. Многие методы используются для повышения производительности. Обычно используемое текстовое представление — определенный набор слов. При поиске иногда используются не конкретные слова, а фразы, последовательности слов или N-граммы. Большинство поисковых методов сосредоточены на поиске слов или N-грамм, извлеченных из всего документа с помощью выбора признаков или схемы взвешивания признаков. Некоторые из предыдущих работ были направлены на интеграцию содержания документа и структуры цитирования. Номото [1] рассматривает структуру документа следующим образом: ядро появляется в начале текста, за которым следует любое количество дополнений. При этом ключевые слова для классификации текста извлекаются только из этого ядра. Идентификация ядра и его дополнений — это своего рода сегментация текста, которая более подходит для технических документов. Ларки [3] предложил метод извлечения слов только из заголовка, аннотации, первых двадцати строк вводной части и раздела, содержащего сведения о новизне заявки на категоризацию патента. Наше исследование повторяет некоторые из его методик, которые больше применимы к классифицикации патентных, а не технических документов.

Тильва и Жаин [6] использовали три алгоритма классификации текста (Naive Bayes, VSM для классификации текста и конкретно новый инструмент Stanford Tagger) по двум различным наборам данных (20 групп новостей и новый набор новостей для пяти категорий). По сравнению с вышеупомянутыми стратегиями классификации, наивный байесовский классификатор потенциально хорош в качестве модели классификации текста благодаря своей простоте. Гогои и Сарма подчеркнули эффективность использования наивного байесовского метода в классификации документов.

Болай и Говилкар [5] представили обзор методов категоризации текста для региональных языков Индии и доказали, что наивные байесовские алгоритмы, метод k-ближайших соседей и метод опорных векторов являются наиболее подходящими методами для классификации документов, написанных на языках, используемых в Индии. Джайн и Сайни использовали статистический подход для классификации текста на индийских языках. Они успешно внедрили и испытали наивный байесовский классификатор, который достиг удовлетворительных результатов при классификации документов.

Далал и Завери [4] представили общую стратегию автоматической классификации текста, которая включает в себя такие этапы, как предварительная обработка, выбор признаков, использование семантических или статистических методов и выбор подходящих методов машинного обучения (наивный байесовский классификатор, дерево решений, гибридные методы, метод опорных векторов). Эти исследователи также затронули некоторые из ключевых вопросов, связанных с классификацией текста, такие как обработка большого количества функций, работа с неструктурированным текстом, работа с отсутствующими метаданными и выбор подходящей техники машинного обучения для обучения классификатора текста.

Существует много подходов для классификации по нескольким меткам. Однако их можно разделить на две группы: преобразование проблемы и адаптация алгоритма. Первая группа основана на любых алгоритмах классификации по одной метке. Они преобразуют задачу классификации с несколькими метками в одну или несколько классификаций с одной меткой. С другой стороны, последняя группа расширяет традиционные алгоритмы обучения для непосредственной работы с данными с несколькими метками.

В качестве предварительной обработки классификации текста автоматически идентифицируются следующие сегменты в документе: название, информация об авторе (имена авторов, филиалы, адреса электронной почты и т. д.), аннотация, введение, заключение и справочные материалы. Метки присваиваются к аннотации, ключевым словам, введению, заключению и справочным разделам.

Таким образом, в данной работе мы затронули проблему классификации на основе частичной сегментации текстовых документов, рассматривая класс помеченных (положительных) документов и набор смешанных документов. Теоретически, положительные и немаркированные данные являются достаточными для построения точных классификаторов. Наш алгоритм использует алгоритм EM с наивным байесовским методом классификации. Мы повторно запускаем алгоритм EM после нескольких просмотров документа, используя положительные документы и наиболее вероятные негативные документы из смешанного набора. Затем мы используем оценку ошибки классификации в порядке выбора хорошего классификатора из классификаторов, произведенных итерацией алгоритма EM. Экспериментальная часть наших исследований показывает, что предлагаемая методика выдает достаточно точные классификаторы.

Литература:

  1. Nomoto, T., Matsumoto, Y. (1996): Exploiting text structure for topic identification. In: Proceedings of the 4th Workshop on Very Large Corpora, pp. 101–112
  2. Nguyen T. H., Shirai K. (2013) Text Classification of Technical Papers Based on Text Segmentation. In: Métais E., Meziane F., Saraee M., Sugumaran V., Vadera S. (eds) Natural Language Processing and Information Systems. NLDB 2013. Lecture Notes in Computer Science, vol 7934. Springer, Berlin, Heidelberg
  3. Larkey, L.S. (1999): A patent search and classification system. In: Proceedings of the Fourth ACM Conference on Digital Libraries, DL 1999, pp. 179–187. ACM, New York
  4. Dalal MK, Zaveri MA (2011) Automatic Text Classification: A Technical Review. Int J Comp App 28:
  5. Bolaj P., Govilkar S. (2016) A Survey on Text Categorization Techniques for Indian Regional Languages. Int J Comp Sci Inform Technol 7: 480–483.
  6. Tilve AKS, Jain SN (2017) Text Classification using Naive Bayes, VSM and POS Tagger. Int J Ethics in Engineering & Management Education 4.
Основные термины (генерируются автоматически): документ, классификация текста, классификация документов, наивный байесовский классификатор, VSM, выбор признаков, машинное обучение, наивный байесовский метод, сегментация текста, текстовая классификация.

Ключевые слова

текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение

Похожие статьи

Как представить лексику в языковой школе в коммуникативной форме

Цель данной статьи состоит в том, чтобы указать на некоторые теоретические аспекты, связанныес обучением лексики, которые могли бы быть большим подспорьем для преподавателей иностранных языков, рекомендации для всех уровней квалификации и возраста, р...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Обзор современных генетических алгоритмов и их применение на практике

В статье рассматривается основные понятия генетического алгоритма и его составляющие. Рассмотрены такие процессы как выбор кроссовер и мутация. Кроме того, приводиться обзор работ учёных, где активно применяется возможности генетических алгоритмов. В...

Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление

Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...

Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных

В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Опытно-экспериментальная работа для проверки эффективности структуры критериального оценивания учебных достижений учениками начальной школы с использованием заданий с дескрипторами

Автор статьи, используя практику критериального оценивания, рассматривает правила составления формативных и суммативных работ учащихся, опираясь на учебные цели. Из этой работы вытекают дескрипторы, которые наглядно объясняют выставление баллов за уч...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Построение векторного пространства текста, составленного на естественном языке

Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информ...

Похожие статьи

Как представить лексику в языковой школе в коммуникативной форме

Цель данной статьи состоит в том, чтобы указать на некоторые теоретические аспекты, связанныес обучением лексики, которые могли бы быть большим подспорьем для преподавателей иностранных языков, рекомендации для всех уровней квалификации и возраста, р...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Обзор современных генетических алгоритмов и их применение на практике

В статье рассматривается основные понятия генетического алгоритма и его составляющие. Рассмотрены такие процессы как выбор кроссовер и мутация. Кроме того, приводиться обзор работ учёных, где активно применяется возможности генетических алгоритмов. В...

Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление

Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...

Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных

В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Опытно-экспериментальная работа для проверки эффективности структуры критериального оценивания учебных достижений учениками начальной школы с использованием заданий с дескрипторами

Автор статьи, используя практику критериального оценивания, рассматривает правила составления формативных и суммативных работ учащихся, опираясь на учебные цели. Из этой работы вытекают дескрипторы, которые наглядно объясняют выставление баллов за уч...

Исследование методов сентимент-анализа русскоязычных текстов

В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...

Построение векторного пространства текста, составленного на естественном языке

Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информ...