Классификация новостей сайта правительства Российской Федерации | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 3 октября, печатный экземпляр отправим 7 октября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №22 (156) июнь 2017 г.

Дата публикации: 05.06.2017

Статья просмотрена: 354 раза

Библиографическое описание:

Чуриков, Н. С. Классификация новостей сайта правительства Российской Федерации / Н. С. Чуриков. — Текст : непосредственный // Молодой ученый. — 2017. — № 22 (156). — С. 145-148. — URL: https://moluch.ru/archive/156/43957/ (дата обращения: 21.09.2020).



В данной работе рассматриваются подходы для классификации новостей с сайта правительства government.ru. Для этого были загружены документы за все года, с момента создания сайта. Так как у каждого документа может быть несколько категорий, то задача классификации является «множественной классификацией меток» (mutilabel calssification). Нами рассмотрены различные методы представления текстовой информации и классификации.

Ключевые слова: машинное обучение, классификация, правительство

Введение

Классификация текстовых документов является классической задачей в машинном обучении. Люди классифицируют объекты для облегчения ежедневных задач: нахождения книги по жанру, новостей по интересующим тематикам, документов по категориям и т. п. Существует несколько вариантов, как могут быть представлены данные перед построением модели: они могут быть размечены экспертом и, зная эти категории, можно построить обучающую модель. В таком случае у каждого документа может быть одна категория (muliclass classification) [1], может быть несколько категорий (mutilabel classification) [1]. Также данные могут не иметь проставленных меток. В таком случае могут быть применены методы кластеризации или тематического моделирования [2]. Документы, представленные на сайте правительства РФ [3] имеют проставленные метки и при этом, один документ может иметь несколько категорий. Поэтому перед нами стоит задача множественной классификации (mutilabel calssification).

Постановка задачи

Дан набор текстовых документов D с проставленными метками Y для каждого из них. Необходимо построить модель α: d’ → ŷ, где d’ — некоторый новый текстовый документ, а ŷ — предсказанный набор категорий.

Анализ данных

Рассмотрим документы, которые представлены на сайте правительства. Каждый документ имеет заголовок, краткое описание и приложенный текстовый файл. Также у него может быть от 1 до 5 категорий. Нами были выгружены документы с 2013 по 2016 года. Всего было получено 4606 документов. С полученным датасетом можно ознакомиться по ссылке [4]. Рассмотрим, сколько документов имеет различное количество категорий на Таблице 1.

Таблица 1

Количество документов иколичество категорий

Документы/категории

1

2

3

4

5

Документы

4606

456

24

4

3

В датасете представлены 34 категории, которые имеются в датасете, и сколько раз они встречаются в различных документах. Нами были выбраны категории, которые встречаются больше 100 раз, поскольку раньше этого числа, как правило, категории имеющие слишком локальный характер, например «Оперативный штаб по урегулированию вопросов, связанных с временным приостановлением авиационного сообщения с Арабской Республикой Египет (до 12.12.2015)». Поэтому на Рис. 1 представлено распределение выбранных 24 категорий.

Рис. 1. Распределение категорий

Предобработка текстовой информации

Во-первых, важно исключить все возможные стоп-слова из рассмотрения, вроде «а, ты, мы, они» и т. п. Во-вторых, исключим все слова, частота которых по документам ниже 5 и выше 80 %. В третьих, лемматизируем их с помощью алгоритма snowball из библиотеки nltk [link].

В итоге получим частоты лемм слов по документам. Затем найдем представление слов в виде векторов с помощью технологии word2vec [5] и отдельно нормализуем матрицу частот с помощью инвертированной частоты слов по документам (idf) [6].

Реализацию word2vec возьмем из библиотеки gensim [7], а предобратоку через idf возьмем sklearn [8].

Классификация

Существует несколько подходов для работы с множественными категориями:

  1. Свести задачу множественной классификации к многоклассовой. Для этого, необходимо для каждой категории документа выделить отдельный документ, продублировав его.
  2. Построить бинарную матрицу Y из множества категорий размерности [n ⨉ k], где n — количество документов, а k — количество категорий. Соответственно каждый элемент матрицы будет означать наличие категории у документа (значение 1) или отсутствие (значение 0). Используя такую матрицу можно построить множество классификаторов по правилу один против всех (one-vs-rest) [1]. Этот подход предусматривает отсутствие связи между категориями.
  3. Построить бинарную матрицу по правилу из пункта 2, однако для классификации воспользоваться правилом цепочки (chain rule) [9]. При построении классификатора по такому правилу учитывается то, насколько коррелируют друг с другом категории. В таком случае добавляется информация о том, насколько связаны категории, встречающиеся вместе.

Нами будут применены все три подхода. Для сравнения эффективности алгоритмов воспользуемся стандартными метриками: точностью (precision), полнотой (recall) и F1 мерой [6].

В качестве базового алгоритма классификации, воспользуемся алгоритмом Random Forest.

Реализацию one-vs-rest и Random Forest возьмем из библиотеки sklearn [10]. А правило цепочки из skmultilearn [11].

Результаты

После применения классификаторов к полученным данным, получается картина, представленная в Таблице 2. На ней введены следующие обозначения:

‒ Тип классификатора — по какому правилу был построен классификатор:

  • OVR — один против всех;
  • CHAIN — по правилу цепочки;
  • SINGLE — задача сведена к многоклассовой классификации.

‒ Тип подготовки данных — как были подготовлены текстовые данные:

  • TFIDF — нормализованные частоты слов;
  • W2V — вектора слов полученные, с помощью word2vec, а для каждого документа суммируем все полученные вектора.

• precision — точность. Определяет, сколько раз был найден релевантный документ среди всех найденных;

• recall — полнота. Определяет, сколько раз был найден релевантный документ среди всех релевантных;

• f1 — среднее гармоническое между двумя величинами.

Таблица 2

Результаты классификации

Тип классификатора

Тип подготовки данных

precision

recall

f1

OVR

TFIDF

0.89

0.40

0.53

CHAIN

TFIDF

0.90

0.38

0.51

OVR

W2V

0.83

0.22

0.33

CHAIN

W2V

0.84

0.23

0.34

SINGLE

TFIDF

0.61

0.61

0.60

SINGLE

W2V

0.45

0.44

0.44

Как видно в Таблице 2, самые точные результаты получаются с помощью цепного правила и применением преобразованием текстов с помощью tfidf. При этом, CHAIN уступает OVR по полноте выдаваемых результатов, наиболее полные результаты получаются при сведении задачи к многоклассовой классификации. Также видно, что представление слов в виде векторов не повышает точности классификации.

Выводы

По полученным результатам можно судить, что категории являются независимыми, поскольку точность классификации возрастает, при использовании более продвинутого подхода — цепного правила, однако полнота падает. Также можно сделать такой вывод, поскольку полнота, полученная при многоклассовой классификации, является значительно выше полноты из множественной классификации.

Применение продутых технологий, вроде word2vec также не повышает точности, что может означать, что полученные вектора слов не отражают категории слов.

Заключение

По полученным данным, получается, что если требуется получить наиболее точные результаты классификации документов, то лучше всего справляется представление слов через tfidf и построение классификатора с помощью цепного правила. Если требуется получать как можно более разнообразные категории, то лучше всего с этой задачей справляется сведение задачи множественной классификации к многоклассовой.

Литература:

  1. Многоклассовая и множественная классификации на sklearn [Интерент ресурс]: http://scikit-learn.org/stable/modules/multiclass.html (дата обращения: 29.05.2017)
  2. Document Clustering with Python [Интерент ресурс]: http://brandonrose.org/clustering (дата обращения: 29.05.2017)
  3. Сайт правительства РФ [Интернет ресурс]: http://government.ru (дата обращения: 29.05.2017)
  4. Выгруженные данные с http://government.ru и обувная word2vec модель [Интернет ресурс]: https://yadi.sk/d/dOGUKF9R3Hs9WT (дата обращения: 29.05.2017)
  5. Mikolov, T., Sutskever, I., Chen, K., Greg S. C., Dean, J. Distributed Representations of Words
  6. Manning C.\:D., Raghavan P. and Schutze H. Introduction to Information Retrieval // Cambridge University Press 2008.
  7. Radim R., Sojka P. Software Framework for Topic Modelling with Large Corpora // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. Valletta, Malta: ELRA, 2010. С. 45–50.
  8. TfidfVectorizer [Интернет ресурс]: http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer (дата обращения: 29.05.2017)
  9. Read, J., Pfahringer, B., Holmes, G. et al. Mach Learn (2011) 85: 333.
  10. Random Forest classifier [Интерент ресурс]: http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html (дата обращения: 29.05.2017)
  11. Szyma P., Kajdanowicz, T. A scikit-based Python environment for performing multi-label classification // ArXiv e-prints. 2017.
Основные термины (генерируются автоматически): CHAIN, OVR, TFIDF, документ, категория, SINGLE, множественная классификация, правило цепочки, представление слов, цепное правило.


Похожие статьи

Этапы и методы автоматического извлечения ключевых слов

Основные термины (генерируются автоматически): слово, TF-IDF, документ, словосочетание, признак, машинное обучение, общий случай, выделение признаков, выбор алгоритма извлечения, KEA.

Правила оформления статей.

Метод автоматической классификации документов в задаче...

Под классификацией текстовых документов подразумевается процедура присвоения текстам соответствующей тематической категории [6, c. 13]. Задача методов классификации состоит в том, чтобы наилучшим образом выбрать отличительные признаки и сформулировать правила...

Применение методов text mining для классификации информации...

Ключевые слова, как правило, выдаются в усеченном виде квази-основ.

Из рассмотренных алгоритмов для задачи сравнения двух документов подходят MD5, TF, TF*IDF, TF*RIDF, Megashingles и Log Shingles.

Сравнение методов оценки тональности текста | Статья в журнале...

Существует множество методов классификации текстовых документов.

Для этого используется модель TFIDF, описанная ниже. Иногда слова могут встречаться во многих

Обучение состоит в выборе общей формы классифицирующего правила с множеством...

Классификация основного контента телеканалов по...

Признавая, что нет жестких, строго зафиксированных правил определения данного понятия, они

Далее обратимся к значению слов ПЕРЕДАЧА и ПРОГРАММА. Одним из значений слова

Типологические классификации англоязычного резюме как основного документа при...

Классификация IDS | Статья в журнале «Молодой ученый»

Протокольные СОВ используются для отслеживания трафика, нарушающего правила определенных протоколов либо синтаксис языка (например, SQL).

Классификация документов в системе электронного документооборота.

Проблемы реализации стратегического преобразования

Ключевые слова: реализация стратеги, сопротивление изменениям, причины возникновения сопротивлений.

Рассмотрим классификацию причин, разработанную разными учеными.

Правила оформления статей.

Первичная обработка сигналов вейвлетами на примере подготовки...

Как правило, первичная обработка вейвлетами позволяет произвести выбор некоторого числа значащих вейвлетных коэффициентов, к которым в дальнейшем применяются стандартные методы

Сначала определим различие между алгоритмом классификации и кластеризации.

Этапы и методы автоматического извлечения ключевых слов

Основные термины (генерируются автоматически): слово, TF-IDF, документ, словосочетание, признак, машинное обучение, общий случай, выделение признаков, выбор алгоритма извлечения, KEA.

Правила оформления статей.

Метод автоматической классификации документов в задаче...

Под классификацией текстовых документов подразумевается процедура присвоения текстам соответствующей тематической категории [6, c. 13]. Задача методов классификации состоит в том, чтобы наилучшим образом выбрать отличительные признаки и сформулировать правила...

Применение методов text mining для классификации информации...

Ключевые слова, как правило, выдаются в усеченном виде квази-основ.

Из рассмотренных алгоритмов для задачи сравнения двух документов подходят MD5, TF, TF*IDF, TF*RIDF, Megashingles и Log Shingles.

Сравнение методов оценки тональности текста | Статья в журнале...

Существует множество методов классификации текстовых документов.

Для этого используется модель TFIDF, описанная ниже. Иногда слова могут встречаться во многих

Обучение состоит в выборе общей формы классифицирующего правила с множеством...

Классификация основного контента телеканалов по...

Признавая, что нет жестких, строго зафиксированных правил определения данного понятия, они

Далее обратимся к значению слов ПЕРЕДАЧА и ПРОГРАММА. Одним из значений слова

Типологические классификации англоязычного резюме как основного документа при...

Классификация IDS | Статья в журнале «Молодой ученый»

Протокольные СОВ используются для отслеживания трафика, нарушающего правила определенных протоколов либо синтаксис языка (например, SQL).

Классификация документов в системе электронного документооборота.

Проблемы реализации стратегического преобразования

Ключевые слова: реализация стратеги, сопротивление изменениям, причины возникновения сопротивлений.

Рассмотрим классификацию причин, разработанную разными учеными.

Правила оформления статей.

Первичная обработка сигналов вейвлетами на примере подготовки...

Как правило, первичная обработка вейвлетами позволяет произвести выбор некоторого числа значащих вейвлетных коэффициентов, к которым в дальнейшем применяются стандартные методы

Сначала определим различие между алгоритмом классификации и кластеризации.

Похожие статьи

Этапы и методы автоматического извлечения ключевых слов

Основные термины (генерируются автоматически): слово, TF-IDF, документ, словосочетание, признак, машинное обучение, общий случай, выделение признаков, выбор алгоритма извлечения, KEA.

Правила оформления статей.

Метод автоматической классификации документов в задаче...

Под классификацией текстовых документов подразумевается процедура присвоения текстам соответствующей тематической категории [6, c. 13]. Задача методов классификации состоит в том, чтобы наилучшим образом выбрать отличительные признаки и сформулировать правила...

Применение методов text mining для классификации информации...

Ключевые слова, как правило, выдаются в усеченном виде квази-основ.

Из рассмотренных алгоритмов для задачи сравнения двух документов подходят MD5, TF, TF*IDF, TF*RIDF, Megashingles и Log Shingles.

Сравнение методов оценки тональности текста | Статья в журнале...

Существует множество методов классификации текстовых документов.

Для этого используется модель TFIDF, описанная ниже. Иногда слова могут встречаться во многих

Обучение состоит в выборе общей формы классифицирующего правила с множеством...

Классификация основного контента телеканалов по...

Признавая, что нет жестких, строго зафиксированных правил определения данного понятия, они

Далее обратимся к значению слов ПЕРЕДАЧА и ПРОГРАММА. Одним из значений слова

Типологические классификации англоязычного резюме как основного документа при...

Классификация IDS | Статья в журнале «Молодой ученый»

Протокольные СОВ используются для отслеживания трафика, нарушающего правила определенных протоколов либо синтаксис языка (например, SQL).

Классификация документов в системе электронного документооборота.

Проблемы реализации стратегического преобразования

Ключевые слова: реализация стратеги, сопротивление изменениям, причины возникновения сопротивлений.

Рассмотрим классификацию причин, разработанную разными учеными.

Правила оформления статей.

Первичная обработка сигналов вейвлетами на примере подготовки...

Как правило, первичная обработка вейвлетами позволяет произвести выбор некоторого числа значащих вейвлетных коэффициентов, к которым в дальнейшем применяются стандартные методы

Сначала определим различие между алгоритмом классификации и кластеризации.

Этапы и методы автоматического извлечения ключевых слов

Основные термины (генерируются автоматически): слово, TF-IDF, документ, словосочетание, признак, машинное обучение, общий случай, выделение признаков, выбор алгоритма извлечения, KEA.

Правила оформления статей.

Метод автоматической классификации документов в задаче...

Под классификацией текстовых документов подразумевается процедура присвоения текстам соответствующей тематической категории [6, c. 13]. Задача методов классификации состоит в том, чтобы наилучшим образом выбрать отличительные признаки и сформулировать правила...

Применение методов text mining для классификации информации...

Ключевые слова, как правило, выдаются в усеченном виде квази-основ.

Из рассмотренных алгоритмов для задачи сравнения двух документов подходят MD5, TF, TF*IDF, TF*RIDF, Megashingles и Log Shingles.

Сравнение методов оценки тональности текста | Статья в журнале...

Существует множество методов классификации текстовых документов.

Для этого используется модель TFIDF, описанная ниже. Иногда слова могут встречаться во многих

Обучение состоит в выборе общей формы классифицирующего правила с множеством...

Классификация основного контента телеканалов по...

Признавая, что нет жестких, строго зафиксированных правил определения данного понятия, они

Далее обратимся к значению слов ПЕРЕДАЧА и ПРОГРАММА. Одним из значений слова

Типологические классификации англоязычного резюме как основного документа при...

Классификация IDS | Статья в журнале «Молодой ученый»

Протокольные СОВ используются для отслеживания трафика, нарушающего правила определенных протоколов либо синтаксис языка (например, SQL).

Классификация документов в системе электронного документооборота.

Проблемы реализации стратегического преобразования

Ключевые слова: реализация стратеги, сопротивление изменениям, причины возникновения сопротивлений.

Рассмотрим классификацию причин, разработанную разными учеными.

Правила оформления статей.

Первичная обработка сигналов вейвлетами на примере подготовки...

Как правило, первичная обработка вейвлетами позволяет произвести выбор некоторого числа значащих вейвлетных коэффициентов, к которым в дальнейшем применяются стандартные методы

Сначала определим различие между алгоритмом классификации и кластеризации.

Задать вопрос