Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 15 августа, печатный экземпляр отправим 2 сентября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №26 (316) июнь 2020 г.

Дата публикации: 26.06.2020

Статья просмотрена: 8 раз

Библиографическое описание:

Калинина, А. В. Сравнительный анализ моделей векторного представления слов в задаче текстовой классификации / А. В. Калинина. — Текст : непосредственный // Молодой ученый. — 2020. — № 26 (316). — С. 28-30. — URL: https://moluch.ru/archive/316/72121/ (дата обращения: 07.08.2020).



Ключевые слова: обработка естественного языка, компьютерная лингвистика, интеллектуальный анализ данных, модели векторизации слов.

Впоследние десятилетия разительно увеличились объемы накопленной текстовой информации и возросли потребности практической реализации эффективных средствах ее анализа. При этом наибольший прирост наблюдается в области научно-технических данных. С целью структурирования массивов текстовых документов и сокращения информационной нагрузки на пользователя возобновились работы по созданию алгоритма классификации текстовых данных, способного обеспечивать высокоточную классификацию документов по заданным классам. Немаловажную роль здесь играет выбор оптимальной модели векторного представления слов. Несмотря на интенсификацию работ в этом направлении, попытки создать универсальные методы обработки документов не увенчались успехом, ведь результаты классификации во многом зависят от конкретной задачи, в частности, объема обучающих выборок, количества классов, размера текстов, предметной области.

Изучение и сравнительный анализ существующих моделей векторного представления данных представляют собой достаточно сложную задачу, поскольку результат напрямую зависит от количества и качества входного потока данных. Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала.

  1. Формализация задачи. Текстовая классификация — это отнесение текстовых документов к одной или нескольким заранее заданным категориям (классам, рубрикам) по определенным признакам [1]. Существует набор размеченных данных, содержащий 10000 записей о научных исследованиях с охватом всех мировых журналов. Для обучения и тестовых испытаний модели классификатора необходимо перевести текстовое содержимое в числовой вектор признаков.
  2. Обзор моделей векторного представления. Вданном разделе приводится обзор некоторых алгоритмов для построения распределенных векторных представлений слов естественного языка с учетом последних разработок в данном направлении.

Данные методы базируются на дистрибутивной гипотезе, которая утверждает, что лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения [2].

Word2Vec: В данной модели для получения хороших векторов используется машинное обучение. Одним из популярных методов является построение искусственных нейронных сетей. Изначально задается размерность векторов, которые заполняются случайными величинами. Во время обучения вектор каждого слова будет максимально схож с векторами типичных соседей, и максимально отличаться от векторов слов, которые соседями данному слову не являются. Но и здесь не все так гладко, при обучении нейронных сетей требуется очень много времени и огромные вычислительные затраты.

В 2013 Tomas Mikolov вместе с соавторами опубликовал статью «Efficient Estimation of Word Representations in Vector Space» [3], а позже выложил код утилиты Word2Vec, которая позволяет тренировать нейронные языковые модели на больших словарях. Word2Vec обучается на порядок быстрее, чем нейронные языковые модели до него.

Каждому слову ставится в соответствие ровно один уникальный вектор (one-hot-encoding, биекция между лексиконом и входным слоем). Модель строит векторные представления в процессе прохода по словам входного корпуса скользящим окном и максимизации своей целевой функции. Авторы модели определяют размер скользящего окна динамическим, а именно: равновероятно принимает целые значения из отрезка , где — параметр модели, определяющий максимальный размер окна. Скорость обучения моделей (learning rate) линейно уменьшается в процессе обучения до нуля.

Основные свойства данных моделей:

– простая архитектура;

– устойчивость к входным данным;

– высокое качество выходных представлений;

– большое количество гиперпараметров.

На рис. 1 представлены архитектуры модели Word2Vec. Архитектура CBOW аналогична нейронной сети прямого распространения, где нелинейный скрытый слой удаляют, а проекция слоя является общей для всех слов, таким образом, все слова находятся в одинаковом положении. Задача архитектуры при обучении модели — предсказать слово по имеющемуся контексту.

Архитектуры модели Word2Vec: CBOW и Skip-gram

Рис. 1. Архитектуры модели Word2Vec: CBOW и Skip-gram

Далее приводится детальная характеристика CBOW и Skip-gram.

Continuous Bag-of-Words: Continuous Bag-of-Words — предсказывает слово по его контексту .

Обучение сети заключается в минимизации штрафной функции следующего вида:

Архитектура представленной нейронной сети (рис. 2) состоит из 3-х полносвязных слоев, которые называются input, projection(hidden) и output слои соответственно. В синаптических весах input-слоя размера заключены векторные представления слов входного корпуса. Projection-слой размера предназначен для усреднения распределенных векторов, соответствующих словам контекста. Output-слой имеет размер V×N и реализует softmax с целью получения распределения вероятности каждого слова в контексте рассматриваемого.

Архитектура Continuous Bag-of-Words

Рис. 2. Архитектура Continuous Bag-of-Words

Skip-gram : вторая представленная модель называется Skipgram и отличается от ContinuousBag-of-Words тем, что предсказывает контекст по слову , а не наоборот (рис. 3).

Архитектура Skip-gram

Рис. 3. Архитектура Skip-gram

Hidden-слой архитектуры нейронной сети представляет из себя копию строки input-слоя, которая соответствует рассматриваемому слову. Ключевое отличие в том, что слово предсказывается столько раз, сколько слов содержится во всех его контекстах, на основе только одного из слов в текущем контексте.

Выводы. Сравнительный анализ существующих моделей векторного представления помог выяснить, что в задаче тестовой классификации с учетом объема записей в наборе данных и различных приемов предварительной обработки оптимальным вариантом является модель Continuous Bag-of-Words.

Литература:

  1. Sebastiani, F. Machine learning in automated text categorization / F. Sebastiani. ACM Computing Surveys, 34 (1), 2002. — Pp. 1–47.
  2. Harris, Z. Distributional structure. 1954
  3. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at International Conference on Learning Representations (ICLP) — 2013.
  4. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Distributed representations of words and phrases and their compositionality. 27th Annual Conference on Neural Information Processing Systems 2013. Proceedings of a meeting held December 5–8, 2013, Lake Tahoe, Nevada, United States., pages 3111–3119.
Основные термины (генерируются автоматически): CBOW, слово, векторное представление слов, векторное представление, входной корпус, естественный язык, нейронная сеть, сравнительный анализ, архитектура модели, скользящее окно.


Похожие статьи

Построение векторного пространства текста, составленного на...

Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты...

Виды архитектур нейронных сетей | Статья в журнале...

Такой моделью является искусственная нейронная сеть, некоторые из архитектур которой будут освещены в данной статье.

Все искусственные нейронные сети состоят из так называемых нейронов — модели, представляющей из себя пороговую величину, и связей...

Разработка вопросно-ответной системы с использованием...

Обоснована задача создания автоматизированной вопросно-ответной системы. Рассмотрены возможные подходы к решению задачи: метод векторного представления слов и метод синтаксических деревьев.

Роль больших данных в глубинном обучении | Статья в журнале...

Сравнительный анализ алгоритмов нейронной сети и деревьев... Прогресс в информационной сфере, а именно, развитие обработки данных приводят к огромному объему информации. В результате анализа значительных объемов информации возникает проблема представления...

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи...

Визуализация пространственных отношений | Статья в журнале...

CBOW, слово, вопросно-ответная система, синтаксическое дерево, машинное обучение, векторная модель, векторное представление

Затем обучается вероятностная модель для обнаружения связей между извлеченными. Архитектура синтеза ответов показана на рисунке...

Использование Join-layer neural networks для решения задачи...

Ключевые слова:обработка естественного языка, нейронные сети, ключевые слова, ключевые фразы.

Рекуррентная нейронная сеть с совмещёнными слоями (Joint-layer

В данной работе в качестве таких значений используются векторные представления слов...

Анализ средств для реализации нейронных сетей на языке...

представление в конструкциях языка архитектуры сети: связи между слоями, их количество и тип

Для функционирования нейронной сети необходимо использование функции активации, которая

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Похожие статьи

Построение векторного пространства текста, составленного на...

Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты...

Виды архитектур нейронных сетей | Статья в журнале...

Такой моделью является искусственная нейронная сеть, некоторые из архитектур которой будут освещены в данной статье.

Все искусственные нейронные сети состоят из так называемых нейронов — модели, представляющей из себя пороговую величину, и связей...

Разработка вопросно-ответной системы с использованием...

Обоснована задача создания автоматизированной вопросно-ответной системы. Рассмотрены возможные подходы к решению задачи: метод векторного представления слов и метод синтаксических деревьев.

Роль больших данных в глубинном обучении | Статья в журнале...

Сравнительный анализ алгоритмов нейронной сети и деревьев... Прогресс в информационной сфере, а именно, развитие обработки данных приводят к огромному объему информации. В результате анализа значительных объемов информации возникает проблема представления...

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Применение векторизации слов для нечеткого поиска

В этой статье рассматриваются вопросы выполнения нечеткого поиска, извлечение семантики слов и применение векторной модели для расширения поиска. Изложены общие идеи при решении поставленной задачи...

Визуализация пространственных отношений | Статья в журнале...

CBOW, слово, вопросно-ответная система, синтаксическое дерево, машинное обучение, векторная модель, векторное представление

Затем обучается вероятностная модель для обнаружения связей между извлеченными. Архитектура синтеза ответов показана на рисунке...

Использование Join-layer neural networks для решения задачи...

Ключевые слова:обработка естественного языка, нейронные сети, ключевые слова, ключевые фразы.

Рекуррентная нейронная сеть с совмещёнными слоями (Joint-layer

В данной работе в качестве таких значений используются векторные представления слов...

Анализ средств для реализации нейронных сетей на языке...

представление в конструкциях языка архитектуры сети: связи между слоями, их количество и тип

Для функционирования нейронной сети необходимо использование функции активации, которая

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Задать вопрос