Текстовая классификация документов на основе текстовой сегментации
Авторы: Акбархужаев Султонхужа Акбархужа угли, Пак Виталий Олегович
Рубрика: 4. Информатика
Опубликовано в
IX международная научная конференция «Исследования молодых ученых» (Казань, апрель 2020)
Дата публикации: 19.03.2020
Статья просмотрена: 277 раз
Библиографическое описание:
Акбархужаев, С. А. Текстовая классификация документов на основе текстовой сегментации / С. А. Акбархужаев, В. О. Пак. — Текст : непосредственный // Исследования молодых ученых : материалы IX Междунар. науч. конф. (г. Казань, апрель 2020 г.). — Казань : Молодой ученый, 2020. — С. 1-3. — URL: https://moluch.ru/conf/stud/archive/368/15714/ (дата обращения: 16.01.2025).
Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые части статей (заголовок, аннотация, введение и заключение) важнее других для классификации сегментов текста. Результат эксперимента показывает, что выбор признаков на основе сегментации текста является эффективным.
Ключевые слова: текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение.
Во многих областях исследований каждый год публикуется множество статей. Когда исследователи ищут документы с помощью поисковой системы, извлекаются не весь текст целиком, а лишь некоторые из его фрагментов, которые могут не иметь отношения к теме исследований, интересующей конкретного пользователя. Поэтому обзор исследований сложен в нахождении релевантной информации. Автоматическая идентификация темы исследования технического документа является более информативной для поискового запроса, так как относится к проблеме классификации текста. Целью нашего исследования являлась разработка эффективной модели с использованием обработки естественного языка, которая бы определяла, к какой именно категории подходит исследуемый текстовый документ. При этом, обучаются и комбинируются несколько моделей с разными наборами функций из разных сегментов.
Текстовая классификация имеет долгую историю. Многие методы используются для повышения производительности. Обычно используемое текстовое представление — определенный набор слов. При поиске иногда используются не конкретные слова, а фразы, последовательности слов или N-граммы. Большинство поисковых методов сосредоточены на поиске слов или N-грамм, извлеченных из всего документа с помощью выбора признаков или схемы взвешивания признаков. Некоторые из предыдущих работ были направлены на интеграцию содержания документа и структуры цитирования. Номото [1] рассматривает структуру документа следующим образом: ядро появляется в начале текста, за которым следует любое количество дополнений. При этом ключевые слова для классификации текста извлекаются только из этого ядра. Идентификация ядра и его дополнений — это своего рода сегментация текста, которая более подходит для технических документов. Ларки [3] предложил метод извлечения слов только из заголовка, аннотации, первых двадцати строк вводной части и раздела, содержащего сведения о новизне заявки на категоризацию патента. Наше исследование повторяет некоторые из его методик, которые больше применимы к классифицикации патентных, а не технических документов.
Тильва и Жаин [6] использовали три алгоритма классификации текста (Naive Bayes, VSM для классификации текста и конкретно новый инструмент Stanford Tagger) по двум различным наборам данных (20 групп новостей и новый набор новостей для пяти категорий). По сравнению с вышеупомянутыми стратегиями классификации, наивный байесовский классификатор потенциально хорош в качестве модели классификации текста благодаря своей простоте. Гогои и Сарма подчеркнули эффективность использования наивного байесовского метода в классификации документов.
Болай и Говилкар [5] представили обзор методов категоризации текста для региональных языков Индии и доказали, что наивные байесовские алгоритмы, метод k-ближайших соседей и метод опорных векторов являются наиболее подходящими методами для классификации документов, написанных на языках, используемых в Индии. Джайн и Сайни использовали статистический подход для классификации текста на индийских языках. Они успешно внедрили и испытали наивный байесовский классификатор, который достиг удовлетворительных результатов при классификации документов.
Далал и Завери [4] представили общую стратегию автоматической классификации текста, которая включает в себя такие этапы, как предварительная обработка, выбор признаков, использование семантических или статистических методов и выбор подходящих методов машинного обучения (наивный байесовский классификатор, дерево решений, гибридные методы, метод опорных векторов). Эти исследователи также затронули некоторые из ключевых вопросов, связанных с классификацией текста, такие как обработка большого количества функций, работа с неструктурированным текстом, работа с отсутствующими метаданными и выбор подходящей техники машинного обучения для обучения классификатора текста.
Существует много подходов для классификации по нескольким меткам. Однако их можно разделить на две группы: преобразование проблемы и адаптация алгоритма. Первая группа основана на любых алгоритмах классификации по одной метке. Они преобразуют задачу классификации с несколькими метками в одну или несколько классификаций с одной меткой. С другой стороны, последняя группа расширяет традиционные алгоритмы обучения для непосредственной работы с данными с несколькими метками.
В качестве предварительной обработки классификации текста автоматически идентифицируются следующие сегменты в документе: название, информация об авторе (имена авторов, филиалы, адреса электронной почты и т. д.), аннотация, введение, заключение и справочные материалы. Метки присваиваются к аннотации, ключевым словам, введению, заключению и справочным разделам.
Таким образом, в данной работе мы затронули проблему классификации на основе частичной сегментации текстовых документов, рассматривая класс помеченных (положительных) документов и набор смешанных документов. Теоретически, положительные и немаркированные данные являются достаточными для построения точных классификаторов. Наш алгоритм использует алгоритм EM с наивным байесовским методом классификации. Мы повторно запускаем алгоритм EM после нескольких просмотров документа, используя положительные документы и наиболее вероятные негативные документы из смешанного набора. Затем мы используем оценку ошибки классификации в порядке выбора хорошего классификатора из классификаторов, произведенных итерацией алгоритма EM. Экспериментальная часть наших исследований показывает, что предлагаемая методика выдает достаточно точные классификаторы.
Литература:
- Nomoto, T., Matsumoto, Y. (1996): Exploiting text structure for topic identification. In: Proceedings of the 4th Workshop on Very Large Corpora, pp. 101–112
- Nguyen T. H., Shirai K. (2013) Text Classification of Technical Papers Based on Text Segmentation. In: Métais E., Meziane F., Saraee M., Sugumaran V., Vadera S. (eds) Natural Language Processing and Information Systems. NLDB 2013. Lecture Notes in Computer Science, vol 7934. Springer, Berlin, Heidelberg
- Larkey, L.S. (1999): A patent search and classification system. In: Proceedings of the Fourth ACM Conference on Digital Libraries, DL 1999, pp. 179–187. ACM, New York
- Dalal MK, Zaveri MA (2011) Automatic Text Classification: A Technical Review. Int J Comp App 28:
- Bolaj P., Govilkar S. (2016) A Survey on Text Categorization Techniques for Indian Regional Languages. Int J Comp Sci Inform Technol 7: 480–483.
- Tilve AKS, Jain SN (2017) Text Classification using Naive Bayes, VSM and POS Tagger. Int J Ethics in Engineering & Management Education 4.
Ключевые слова
текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучениеПохожие статьи
Как представить лексику в языковой школе в коммуникативной форме
Цель данной статьи состоит в том, чтобы указать на некоторые теоретические аспекты, связанныес обучением лексики, которые могли бы быть большим подспорьем для преподавателей иностранных языков, рекомендации для всех уровней квалификации и возраста, р...
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Обзор современных генетических алгоритмов и их применение на практике
В статье рассматривается основные понятия генетического алгоритма и его составляющие. Рассмотрены такие процессы как выбор кроссовер и мутация. Кроме того, приводиться обзор работ учёных, где активно применяется возможности генетических алгоритмов. В...
Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление
Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...
Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных
В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...
Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг
В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...
Опытно-экспериментальная работа для проверки эффективности структуры критериального оценивания учебных достижений учениками начальной школы с использованием заданий с дескрипторами
Автор статьи, используя практику критериального оценивания, рассматривает правила составления формативных и суммативных работ учащихся, опираясь на учебные цели. Из этой работы вытекают дескрипторы, которые наглядно объясняют выставление баллов за уч...
Исследование методов сентимент-анализа русскоязычных текстов
В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...
Построение векторного пространства текста, составленного на естественном языке
Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информ...
Похожие статьи
Как представить лексику в языковой школе в коммуникативной форме
Цель данной статьи состоит в том, чтобы указать на некоторые теоретические аспекты, связанныес обучением лексики, которые могли бы быть большим подспорьем для преподавателей иностранных языков, рекомендации для всех уровней квалификации и возраста, р...
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Обзор современных генетических алгоритмов и их применение на практике
В статье рассматривается основные понятия генетического алгоритма и его составляющие. Рассмотрены такие процессы как выбор кроссовер и мутация. Кроме того, приводиться обзор работ учёных, где активно применяется возможности генетических алгоритмов. В...
Современные подходы в обучении грамматике неродного языка: сравнение и сопоставление
Статья посвящена сравнению и сопоставлению своевременных подходов к обучению грамматике неродного языка. В статье рассматривается структура каждого отдельного подхода, выделяются и сравниваются их основные особенности, а также анализируются возможнос...
Системный подход к выбору моделей для предсказания разрушения деталей на основе статистических данных
В статье описана методика работы с результатами испытаний деталей. С помощью методов машинного обучения удалось научиться предсказывать максимальное значение силы на растяжение, которую выдерживает деталь перед полным разрушением. Лучшую модель из ис...
Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг
В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...
Опытно-экспериментальная работа для проверки эффективности структуры критериального оценивания учебных достижений учениками начальной школы с использованием заданий с дескрипторами
Автор статьи, используя практику критериального оценивания, рассматривает правила составления формативных и суммативных работ учащихся, опираясь на учебные цели. Из этой работы вытекают дескрипторы, которые наглядно объясняют выставление баллов за уч...
Исследование методов сентимент-анализа русскоязычных текстов
В статье рассматриваются методы анализа тональности текста (сентимент анализа), необходимые для автоматического определения отношения автора к упомянутой теме. Сентимент анализ — область компьютерной лингвистики, является одной из проблем обработки е...
Построение векторного пространства текста, составленного на естественном языке
Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информ...