Текстовая классификация документов на основе текстовой сегментации
Авторы: Акбархужаев Султонхужа Акбархужа угли, Пак Виталий Олегович
Рубрика: 4. Информатика
Опубликовано в
IX международная научная конференция «Исследования молодых ученых» (Казань, апрель 2020)
Дата публикации: 19.03.2020
Статья просмотрена: 217 раз
Библиографическое описание:
Акбархужаев, С. А. Текстовая классификация документов на основе текстовой сегментации / С. А. Акбархужаев, В. О. Пак. — Текст : непосредственный // Исследования молодых ученых : материалы IX Междунар. науч. конф. (г. Казань, апрель 2020 г.). — Казань : Молодой ученый, 2020. — С. 1-3. — URL: https://moluch.ru/conf/stud/archive/368/15714/ (дата обращения: 25.04.2024).
Целью данного исследования является разработка модели классификации текстовых документов с несколькими метками. Вкратце рассмотрены основые работы по данной проблематике. Основываясь на том, что текстовые документы хорошо организованы, некоторые части статей (заголовок, аннотация, введение и заключение) важнее других для классификации сегментов текста. Результат эксперимента показывает, что выбор признаков на основе сегментации текста является эффективным.
Ключевые слова: текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучение.
Во многих областях исследований каждый год публикуется множество статей. Когда исследователи ищут документы с помощью поисковой системы, извлекаются не весь текст целиком, а лишь некоторые из его фрагментов, которые могут не иметь отношения к теме исследований, интересующей конкретного пользователя. Поэтому обзор исследований сложен в нахождении релевантной информации. Автоматическая идентификация темы исследования технического документа является более информативной для поискового запроса, так как относится к проблеме классификации текста. Целью нашего исследования являлась разработка эффективной модели с использованием обработки естественного языка, которая бы определяла, к какой именно категории подходит исследуемый текстовый документ. При этом, обучаются и комбинируются несколько моделей с разными наборами функций из разных сегментов.
Текстовая классификация имеет долгую историю. Многие методы используются для повышения производительности. Обычно используемое текстовое представление — определенный набор слов. При поиске иногда используются не конкретные слова, а фразы, последовательности слов или N-граммы. Большинство поисковых методов сосредоточены на поиске слов или N-грамм, извлеченных из всего документа с помощью выбора признаков или схемы взвешивания признаков. Некоторые из предыдущих работ были направлены на интеграцию содержания документа и структуры цитирования. Номото [1] рассматривает структуру документа следующим образом: ядро появляется в начале текста, за которым следует любое количество дополнений. При этом ключевые слова для классификации текста извлекаются только из этого ядра. Идентификация ядра и его дополнений — это своего рода сегментация текста, которая более подходит для технических документов. Ларки [3] предложил метод извлечения слов только из заголовка, аннотации, первых двадцати строк вводной части и раздела, содержащего сведения о новизне заявки на категоризацию патента. Наше исследование повторяет некоторые из его методик, которые больше применимы к классифицикации патентных, а не технических документов.
Тильва и Жаин [6] использовали три алгоритма классификации текста (Naive Bayes, VSM для классификации текста и конкретно новый инструмент Stanford Tagger) по двум различным наборам данных (20 групп новостей и новый набор новостей для пяти категорий). По сравнению с вышеупомянутыми стратегиями классификации, наивный байесовский классификатор потенциально хорош в качестве модели классификации текста благодаря своей простоте. Гогои и Сарма подчеркнули эффективность использования наивного байесовского метода в классификации документов.
Болай и Говилкар [5] представили обзор методов категоризации текста для региональных языков Индии и доказали, что наивные байесовские алгоритмы, метод k-ближайших соседей и метод опорных векторов являются наиболее подходящими методами для классификации документов, написанных на языках, используемых в Индии. Джайн и Сайни использовали статистический подход для классификации текста на индийских языках. Они успешно внедрили и испытали наивный байесовский классификатор, который достиг удовлетворительных результатов при классификации документов.
Далал и Завери [4] представили общую стратегию автоматической классификации текста, которая включает в себя такие этапы, как предварительная обработка, выбор признаков, использование семантических или статистических методов и выбор подходящих методов машинного обучения (наивный байесовский классификатор, дерево решений, гибридные методы, метод опорных векторов). Эти исследователи также затронули некоторые из ключевых вопросов, связанных с классификацией текста, такие как обработка большого количества функций, работа с неструктурированным текстом, работа с отсутствующими метаданными и выбор подходящей техники машинного обучения для обучения классификатора текста.
Существует много подходов для классификации по нескольким меткам. Однако их можно разделить на две группы: преобразование проблемы и адаптация алгоритма. Первая группа основана на любых алгоритмах классификации по одной метке. Они преобразуют задачу классификации с несколькими метками в одну или несколько классификаций с одной меткой. С другой стороны, последняя группа расширяет традиционные алгоритмы обучения для непосредственной работы с данными с несколькими метками.
В качестве предварительной обработки классификации текста автоматически идентифицируются следующие сегменты в документе: название, информация об авторе (имена авторов, филиалы, адреса электронной почты и т. д.), аннотация, введение, заключение и справочные материалы. Метки присваиваются к аннотации, ключевым словам, введению, заключению и справочным разделам.
Таким образом, в данной работе мы затронули проблему классификации на основе частичной сегментации текстовых документов, рассматривая класс помеченных (положительных) документов и набор смешанных документов. Теоретически, положительные и немаркированные данные являются достаточными для построения точных классификаторов. Наш алгоритм использует алгоритм EM с наивным байесовским методом классификации. Мы повторно запускаем алгоритм EM после нескольких просмотров документа, используя положительные документы и наиболее вероятные негативные документы из смешанного набора. Затем мы используем оценку ошибки классификации в порядке выбора хорошего классификатора из классификаторов, произведенных итерацией алгоритма EM. Экспериментальная часть наших исследований показывает, что предлагаемая методика выдает достаточно точные классификаторы.
Литература:
- Nomoto, T., Matsumoto, Y. (1996): Exploiting text structure for topic identification. In: Proceedings of the 4th Workshop on Very Large Corpora, pp. 101–112
- Nguyen T. H., Shirai K. (2013) Text Classification of Technical Papers Based on Text Segmentation. In: Métais E., Meziane F., Saraee M., Sugumaran V., Vadera S. (eds) Natural Language Processing and Information Systems. NLDB 2013. Lecture Notes in Computer Science, vol 7934. Springer, Berlin, Heidelberg
- Larkey, L.S. (1999): A patent search and classification system. In: Proceedings of the Fourth ACM Conference on Digital Libraries, DL 1999, pp. 179–187. ACM, New York
- Dalal MK, Zaveri MA (2011) Automatic Text Classification: A Technical Review. Int J Comp App 28:
- Bolaj P., Govilkar S. (2016) A Survey on Text Categorization Techniques for Indian Regional Languages. Int J Comp Sci Inform Technol 7: 480–483.
- Tilve AKS, Jain SN (2017) Text Classification using Naive Bayes, VSM and POS Tagger. Int J Ethics in Engineering & Management Education 4.
Ключевые слова
текстовая классификация, многокомпонентная классификация, сегментация текста, контролируемое обучениеПохожие статьи
Сравнительный анализ методов Наивного Байеса и SVM...
Методы классификации текстовых документов. Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который...
Сравнение методов оценки тональности текста
Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.
Анализ тональности высказываний в Twitter | Статья в журнале...
Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.
Анализ эффективности применения методов классификации
Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.
Классификация заявок пользователей с помощью нейросети
Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.
Применение байесовского подхода в измерениях аналитических...
В большей степени простым вариантом метода, использующего байесовскую классификацию, является «наивная» классификация или, иными словами, наивно-байесовский подход. С использованием данного подхода решаются задачи классификации.
Распознавание сарказма в задаче определения тональности...
Наивный байесовский алгоритм — это алгоритм классификации, основанный на теореме Байеса с
Проблема определения сарказма в предложении требует обучения другого классификатора.
Ключевые слова:классификация текста, машинное обучение, обработка...
Классификация документов в системе электронного...
В статье описывается методика классификации документов в системе электронного документооборота, основанная на теории алгебры конечных предикатов. Применение предикатов позволяет ускорить процесс отнесения документа к определенному делу в...
Методы интеллектуального анализа данных в диагностировании...
Индуктивные методы обучения, такие как наивный байесовский классификатор, имеют большой успех в построении классификационных моделей с целью минимизации ошибок классификации. В качестве модификации алгоритма многие предыдущие исследования...
Похожие статьи
Сравнительный анализ методов Наивного Байеса и SVM...
Методы классификации текстовых документов. Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который...
Сравнение методов оценки тональности текста
Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.
Анализ тональности высказываний в Twitter | Статья в журнале...
Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.
Анализ эффективности применения методов классификации
Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы, наивный байесовский классификатор оптимален.
Классификация заявок пользователей с помощью нейросети
Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким образом получается Наивный Байесовский классификатор: где количество признаков в обучающем корпусе данных, количество встретившихся признаков в документе d.
Применение байесовского подхода в измерениях аналитических...
В большей степени простым вариантом метода, использующего байесовскую классификацию, является «наивная» классификация или, иными словами, наивно-байесовский подход. С использованием данного подхода решаются задачи классификации.
Распознавание сарказма в задаче определения тональности...
Наивный байесовский алгоритм — это алгоритм классификации, основанный на теореме Байеса с
Проблема определения сарказма в предложении требует обучения другого классификатора.
Ключевые слова:классификация текста, машинное обучение, обработка...
Классификация документов в системе электронного...
В статье описывается методика классификации документов в системе электронного документооборота, основанная на теории алгебры конечных предикатов. Применение предикатов позволяет ускорить процесс отнесения документа к определенному делу в...
Методы интеллектуального анализа данных в диагностировании...
Индуктивные методы обучения, такие как наивный байесовский классификатор, имеют большой успех в построении классификационных моделей с целью минимизации ошибок классификации. В качестве модификации алгоритма многие предыдущие исследования...