Данная работа посвящена двум распространенным методам построения векторного пространства текста на естественном языке: латентное размещение Дирихле и латентно-семантический анализ. Основной целью исследовательской работы было сравнение полноты информационного поиска обоих методов. В ходе исследования выяснилось, что использование только одного метода не дает высокой точности при распознавании. Построенное векторное пространство в дальнейшем может быть использовано для извлечения фактов из сформированной информационной модели.
Ключевые слова: латентно-семантический анализ, латентное размещение Дирихле, text mining
Введение. Распознавание именованных сущностей относится к категории задач информационного поиска. На данный момент существует большое число методов для извлечения знаний из текста.
Несмотря на то, что подобная задача появилась относительно недавно, она уже является одним из самых важных направлений в сфере компьютерных технологий. Благодаря извлеченным знаниям возможно получение дополнительной информации об объекте исследования, о которой в тексте явно не написано. К примеру, если из текста извлечь информацию, относящуюся к элементам внешнего вида человека, то можно сделать выводы о его профессиональной деятельности или привычках. В связи с этим, данное направление является очень перспективным для дальнейших исследований. [1]
В рамках данной статьи рассматривается исключительно анализ теста на русском языке. Но стоит принять во внимание тот факт, что методы анализа текста, описанные в статье, могут быть адаптированы и под другие языке при использовании соответствующих корпусов текста или словарей. [2]
Эта статья представляет собой результат исследования методов построения векторного пространства текста для информационной модели внешнего вида человека. Человек является одной из самых сложных именованных сущностей для нахождения в тексте на естественном языке. Конечно, у личности есть ряд отличительных признаков, по которым можно ее распознать. Если в тексте явно указана фамилия или отчество, то для программы для распознавания сущностей данный случай не составит никаких проблем. Однако, такие идеальные случаи встречаются крайне редко. Разработанная информационная модель представлена на рисунке 1. [3]
Рис. 1. Информационная модель внешнего вида человека
Латентное размещение Дирихле. Латентное размещение Дирихле используется для автоматической идентификации одной или более тем, которые содержат документы. Данный метод принимает на вход 3 параметра:
- количество итераций,
- количество тем для классификации,
- анализируемый текст.
Латентное размещение Дирихле представляет из себя набор тем, которые формируют слова с определенной вероятностью. Таким образом, данный метод не учитывает семантику предложения, а просто работает с «мешком слов».
Алгоритм работы данного метода следующий:
- задание списка ключевых слов,
- для каждого слова в каждом документа назначить тему случайно или основываясь на каких-либо признаках,
- для каждого слова в документе вычислить процентное соотношение слов, относящихся к данной теме в текущем документе и процентное соотношение того, что текущее слово относится к данной теме в пространстве всех документов,
- повторить предыдущий шаг заданное число итераций.
С одной стороны, латентное размещение Дирихле дает информацию о том, с какой вероятностью каждое ключевое слово может относиться к каждой из потенциальных тем. С другой стороны, на выходе также получаем вероятность того, насколько документ может относиться к одной из тем. [4]
Латентно-семантический анализ. Латентно-семантический анализ — это метод обработки текстовой информации, который анализирует связь между заданной коллекцией терминов и документов. Главная цель данного метода — найти документы, векторное пространство которых максимально близко к векторному пространству поискового слова. [5]
Латентно-семантический анализ работает по следующему принципу:
- выделить ключевые слова предметной области,
- составить частотную матрицу (для входного текста посчитать количество вхождений каждого ключевого слова в каждый документ),
- для того, чтобы результаты были наиболее релевантными преобразовать частотную матрицу методом TF-IDF,
- над полученной матрицей нужно применить операцию сингулярного разложения матрицы, в результате которой будут получены матрицы пространства документов (U), пространства слов (Vt) и диагональная матрица (S),
- в результате сингулярного разложения можно отбросить из матрицы Vt строки с индексом больше определенного значения и столбцы из матрицы U,
- с использованием матриц U и Vt определить, какие документы или предложения расположены максимально близко к поисковому запросу.
Проведение тестовых испытаний. Была реализована программа на языке Python3 для построения информационной модели внешнего вида человека. Также был использован корпус русского языка “OpenCorpora”, который насчитывает около полутора миллионов словоупотреблений.
Пусть N — общее число элементов внешнего вида человека в документе, а Nr число найденных элементов. Полнота информационного поиска оценивалась как отношение числа найденных элементов к общему числу элементов внешнего вида человека в документе:
(1)
Результаты проведенного эксперимента представлены в таблице 1. Тексты на русском языке, используемые в данном эксперименте, были взяты из следующих областей: художественная литература, блоги, юридические тексты. Таблица 1 показывает, что если поиск выполняется только на отрывках текста с упоминание человека, то точность распознавания с использованием метода латентно-семантического анализа показывает более высокую точность по сравнению с латентным размещением Дирихле, хотя прирост является незначительным. [6]
При проведении эксперимента на более больших объемах данных или иной предметной области результаты могут незначительно отличаться из-за определенных особенностей.
Таблица 1
Результаты сравнения методов построения векторного пространства текста
Количество документов |
Число слов вдокументе |
ЛСА |
ЛДА |
5 |
200 |
0.69 |
0.67 |
7 |
200 |
0.67 |
0.65 |
10 |
500 |
0.65 |
0.62 |
12 |
500 |
0.64 |
0.62 |
15 |
500 |
0.64 |
0.61 |
Заключение. Было проведено исследование на предмет извлечения элементов внешнего вида человека из текста на естественном языке с использованием методов латентно-семантического анализа и латентного размещения Дирихле. В качестве критерия эффективности для сравнения указанных методов была выбрана полнота информационного поиска. Оба метода показали хорошие результаты по результатам эксперимента. Однако стоит отметить, что ЛСА показал более высокий показатель полноты информационного поиска по сравнению с ЛДА.
Литература:
- Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. Тверь: ЗАО НИИ ЦПС, 2016. № 4. C. 45–57.
- Методы и модели анализа данных OLAP и Data Mining / А. А. Баргесян [и др.]. — Спб.: БХВ-Петербург, 2004. — 336 с.
- Processing of Spatial and Temporal Information in the Text / А. С. Дмитриев, А. В. Заболеева-Зотова, Ю. А. Орлова, В. Л. Розалиев // World Applied Sciences Journal (WASJ). — 2013. — Vol. 24, Spec. Issue 24: Information Technologies in Modern Industry, Education & Society. — C. 133–137.
- Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, Х. Шютце; пер. с англ. под ред. П. И. Браславского, Д. А. Клюшина, И. В. Сегаловича. — Москва.: И. Д. Вильямс, 2011. — 528 с.
- Латентно-семантический метод извлечения информации из интернет ресурсов / А. А. Стенин [и др.] // Восточно-Европейский журнал передовых технологий. Автоматика. Вычислительная техника. — 2013. — Вып. 9, Том 4. — С. 19–22.
- A. Sysoev, I. Andrianov, Named Entity Recognition in Russian: the Power of Wiki-Based Approach, Proceedings of the International Conference “Dialogue 2016”, 2016.