Построение векторного пространства текста, составленного на естественном языке | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 15 августа, печатный экземпляр отправим 2 сентября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №49 (287) декабрь 2019 г.

Дата публикации: 06.12.2019

Статья просмотрена: 39 раз

Библиографическое описание:

Долбин, А. В. Построение векторного пространства текста, составленного на естественном языке / А. В. Долбин. — Текст : непосредственный // Молодой ученый. — 2019. — № 49 (287). — С. 19-22. — URL: https://moluch.ru/archive/287/64831/ (дата обращения: 06.08.2020).



Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информационного поиска обоих методов. В ходе исследования выяснилось, что использование только одного метода не дает высокой точности при распознавании. Построенное векторное пространство в дальнейшем может быть использовано для извлечения фактов из сформированной информационной модели.

Ключевые слова: латентно-семантический анализ, латентное размещение Дирихле, text mining

Введение. Распознавание именованных сущностей относится к категории задач информационного поиска. На данный момент существует большое число методов для извлечения знаний из текста.

Несмотря на то, что подобная задача появилась относительно недавно, она уже является одним из самых важных направлений в сфере компьютерных технологий. Благодаря извлеченным знаниям возможно получение дополнительной информации об объекте исследования, о которой в тексте явно не написано. К примеру, если из текста извлечь информацию, относящуюся к элементам внешнего вида человека, то можно сделать выводы о его профессиональной деятельности или привычках. В связи с этим, данное направление является очень перспективным для дальнейших исследований. [1]

В рамках данной статьи рассматривается исключительно анализ теста на русском языке. Но стоит принять во внимание тот факт, что методы анализа текста, описанные в статье, могут быть адаптированы и под другие языке при использовании соответствующих корпусов текста или словарей. [2]

Эта статья представляет собой результат исследования методов построения векторного пространства текста для информационной модели внешнего вида человека. Человек является одной из самых сложных именованных сущностей для нахождения в тексте на естественном языке. Конечно, у личности есть ряд отличительных признаков, по которым можно ее распознать. Если в тексте явно указана фамилия или отчество, то для программы для распознавания сущностей данный случай не составит никаких проблем. Однако, такие идеальные случаи встречаются крайне редко. Разработанная информационная модель представлена на рисунке 1. [3]

Рис. 1. Информационная модель внешнего вида человека

Латентное размещение Дирихле. Латентное размещение Дирихле используется для автоматической идентификации одной или более тем, которые содержат документы. Данный метод принимает на вход 3 параметра:

  1. количество итераций,
  2. количество тем для классификации,
  3. анализируемый текст.

Латентное размещение Дирихле представляет из себя набор тем, которые формируют слова с определенной вероятностью. Таким образом, данный метод не учитывает семантику предложения, а просто работает с «мешком слов».

Алгоритм работы данного метода следующий:

  1. задание списка ключевых слов,
  2. для каждого слова в каждом документа назначить тему случайно или основываясь на каких-либо признаках,
  3. для каждого слова в документе вычислить процентное соотношение слов, относящихся к данной теме в текущем документе и процентное соотношение того, что текущее слово относится к данной теме в пространстве всех документов,
  4. повторить предыдущий шаг заданное число итераций.

С одной стороны, латентное размещение Дирихле дает информацию о том, с какой вероятностью каждое ключевое слово может относиться к каждой из потенциальных тем. С другой стороны, на выходе также получаем вероятность того, насколько документ может относиться к одной из тем. [4]

Латентно-семантический анализ. Латентно-семантический анализ — это метод обработки текстовой информации, который анализирует связь между заданной коллекцией терминов и документов. Главная цель данного метода — найти документы, векторное пространство которых максимально близко к векторному пространству поискового слова. [5]

Латентно-семантический анализ работает по следующему принципу:

  1. выделить ключевые слова предметной области,
  2. составить частотную матрицу (для входного текста посчитать количество вхождений каждого ключевого слова в каждый документ),
  3. для того, чтобы результаты были наиболее релевантными преобразовать частотную матрицу методом TF-IDF,
  4. над полученной матрицей нужно применить операцию сингулярного разложения матрицы, в результате которой будут получены матрицы пространства документов (U), пространства слов (Vt) и диагональная матрица (S),
  5. в результате сингулярного разложения можно отбросить из матрицы Vt строки с индексом больше определенного значения и столбцы из матрицы U,
  6. с использованием матриц U и Vt определить, какие документы или предложения расположены максимально близко к поисковому запросу.

Проведение тестовых испытаний. Была реализована программа на языке Python3 для построения информационной модели внешнего вида человека. Также был использован корпус русского языка “OpenCorpora”, который насчитывает около полутора миллионов словоупотреблений.

Пусть N — общее число элементов внешнего вида человека в документе, а Nr число найденных элементов. Полнота информационного поиска оценивалась как отношение числа найденных элементов к общему числу элементов внешнего вида человека в документе:

(1)

Результаты проведенного эксперимента представлены в таблице 1. Тексты на русском языке, используемые в данном эксперименте, были взяты из следующих областей: художественная литература, блоги, юридические тексты. Таблица 1 показывает, что если поиск выполняется только на отрывках текста с упоминание человека, то точность распознавания с использованием метода латентно-семантического анализа показывает более высокую точность по сравнению с латентным размещением Дирихле, хотя прирост является незначительным. [6]

При проведении эксперимента на более больших объемах данных или иной предметной области результаты могут незначительно отличаться из-за определенных особенностей.

Таблица 1

Результаты сравнения методов построения векторного пространства текста

Количество документов

Число слов вдокументе

ЛСА

ЛДА

5

200

0.69

0.67

7

200

0.67

0.65

10

500

0.65

0.62

12

500

0.64

0.62

15

500

0.64

0.61

Заключение. Было проведено исследование на предмет извлечения элементов внешнего вида человека из текста на естественном языке с использованием методов латентно-семантического анализа и латентного размещения Дирихле. В качестве критерия эффективности для сравнения указанных методов была выбрана полнота информационного поиска. Оба метода показали хорошие результаты по результатам эксперимента. Однако стоит отметить, что ЛСА показал более высокий показатель полноты информационного поиска по сравнению с ЛДА.

Литература:

  1. Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. Тверь: ЗАО НИИ ЦПС, 2016. № 4. C. 45–57.
  2. Методы и модели анализа данных OLAP и Data Mining / А. А. Баргесян [и др.]. — Спб.: БХВ-Петербург, 2004. — 336 с.
  3. Processing of Spatial and Temporal Information in the Text / А. С. Дмитриев, А. В. Заболеева-Зотова, Ю. А. Орлова, В. Л. Розалиев // World Applied Sciences Journal (WASJ). — 2013. — Vol. 24, Spec. Issue 24: Information Technologies in Modern Industry, Education & Society. — C. 133–137.
  4. Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, Х. Шютце; пер. с англ. под ред. П. И. Браславского, Д. А. Клюшина, И. В. Сегаловича. — Москва.: И. Д. Вильямс, 2011. — 528 с.
  5. Латентно-семантический метод извлечения информации из интернет ресурсов / А. А. Стенин [и др.] // Восточно-Европейский журнал передовых технологий. Автоматика. Вычислительная техника. — 2013. — Вып. 9, Том 4. — С. 19–22.
  6. A. Sysoev, I. Andrianov, Named Entity Recognition in Russian: the Power of Wiki-Based Approach, Proceedings of the International Conference “Dialogue 2016”, 2016.
Основные термины (генерируются автоматически): латентное размещение, латентно-семантический анализ, внешний вид человека, информационный поиск, документ, естественный язык, информационная модель, русский язык, векторное пространство текста, текст.


Похожие статьи

Анализ методов тематического моделирования текстов на...

Векторная модель текстов — это способ представления коллекции документов в виде векторов из

Латентное размещение Дирихле — применяемая в информационном поиске

6. Методы понижения размерности пространства (латентно-семантический анализ, метод...

Распознавание сарказма в задаче определения тональности...

Анализ тональности текста относится к задачам информационного поиска.

Прежде всего, требовалось разработать информационную модель внешнего вида человека.

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания...

Использование алгоритма вероятностного...

В работе рассматриваются использование алгоритма вЛСА для построения тематической модели коллекции текстов, написанных на естественном языке. Ключевые слова: тематическое моделирование, векторная модель...

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Семантическая организация текста | Статья в журнале...

Пространство текста как индивидуальная субъективная модель мира обусловлена семиотическим пространством

Семантическая организация текста. Семантическая деривация номинативных единиц.

Семантический (смысловой) анализ текста – одна из...

Применение векторизации слов для нечеткого поиска

Рубрика: Информационные технологии.

Применение векторной модели не ограничивается поиску с учетом синонимов и модификации предложений.

Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Сравнение методов извлечения сущностей для создания...

Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка...

Метод автоматической классификации документов в задаче...

6. Методы понижения размерности пространства (латентно-семантический анализ, метод

Латентно-семантический анализ основан на идее, что совокупность всех контекстов, в

Совершенствование метода латентно-семантического анализа применительно к решению...

Семантика в задачах автоматической обработки данных

Ключевые слова: семантика, естественный язык, обработка текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи

Семантический ( смысловой ) анализ текста – одна из ключевых проблем как теории создания...

Похожие статьи

Анализ методов тематического моделирования текстов на...

Векторная модель текстов — это способ представления коллекции документов в виде векторов из

Латентное размещение Дирихле — применяемая в информационном поиске

6. Методы понижения размерности пространства (латентно-семантический анализ, метод...

Распознавание сарказма в задаче определения тональности...

Анализ тональности текста относится к задачам информационного поиска.

Прежде всего, требовалось разработать информационную модель внешнего вида человека.

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания...

Использование алгоритма вероятностного...

В работе рассматриваются использование алгоритма вЛСА для построения тематической модели коллекции текстов, написанных на естественном языке. Ключевые слова: тематическое моделирование, векторная модель...

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Семантическая организация текста | Статья в журнале...

Пространство текста как индивидуальная субъективная модель мира обусловлена семиотическим пространством

Семантическая организация текста. Семантическая деривация номинативных единиц.

Семантический (смысловой) анализ текста – одна из...

Применение векторизации слов для нечеткого поиска

Рубрика: Информационные технологии.

Применение векторной модели не ограничивается поиску с учетом синонимов и модификации предложений.

Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Сравнение методов извлечения сущностей для создания...

Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка...

Метод автоматической классификации документов в задаче...

6. Методы понижения размерности пространства (латентно-семантический анализ, метод

Латентно-семантический анализ основан на идее, что совокупность всех контекстов, в

Совершенствование метода латентно-семантического анализа применительно к решению...

Семантика в задачах автоматической обработки данных

Ключевые слова: семантика, естественный язык, обработка текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи

Семантический ( смысловой ) анализ текста – одна из ключевых проблем как теории создания...

Задать вопрос