Метод извлечения SAO-структур из текстовых источников

Фоменкова Марина Александровна

В данной работе предлагается метод для извлечения SAO структур из текстовых данных на основе семантических правил. Предложен алгоритм, который адаптирован для русского языка.

Ключевые слова: SAO-структура, сжатие термов, семантический анализ, семантические деревья.

1. Введение

SAO (субъект, объект, действие) структура — это семантическая структура, которая может быть извлечена из текстовых данных. Объекты и субъекты — это слова или фразы, которые связаны с тематикой текста. Действия — это глаголы, связывающие субъекты и объекты. В данной статье предлагается подход к извлечению SAO структур из текстовых данных, основанный на семантических правилах. Предложен алгоритм для русского языка.

2. Методика идентификации SАО структур

Методика идентификации SАО структур состоит из следующих шагов:

− извлечение основных компонентов SАО на основе алгоритма смежности слов и сжатия термов;

− извлечение SАО на основе древовидной структуры;

− модель взвешивания SАО для ранжирования САО структур.

2.1 Извлечение основных компонентов SАО

Процесс извлечения компонент SАО включает три шага:

− Сжатие термов;

− Ранжирование результатов шага 1, в основе лежит алгоритм смежности слов;

− Комбинирование основных результатов с ключевыми словами.

Сжатие термов

Сжатие термов представляет собой алгоритм для группировки и очистки большого количества слов в документах. Этот алгоритм описан в статье [2]. Ниже приведены основные шаги:

− Удаление тегов, общих слов и т. д., не имеющие ценности.

− Удаление однокоренных слов, названий и т. д.

− Комбинирование связанных слов в отдельные фразы.

− Удаление редких слов.

− Использование метода главных компонент для сжатия текста.

Ранжирование результатов шага сжатия термов на основе алгоритма смежности слов

Данный алгоритм подсчитывает частоту встречаемости слова вместе с ключевыми словами документа и считает его важность. Например, если слово или фраза редко встречаются в документе, но встречается часто с ключевым словом, то мера важности этого слова повышается.

,

t — терм, полученный при шаге сжатия термов, ;

— вес терма t, определяющий его меру важности;

— общее количество экземпляра терма t в наборе;

— набор ключевых слов;

— частота появления терма t и ключевого слова k.

Комбинирование основных результатов группировки и ранжирования термов с ключевыми словами.

Комбинирования результатов:

Sc = Sk + {t | t — первые x из St, проранжированных по мере Wt}.

St — набор термов из результатов группировки.

Sc — набор ключевых компонентов SАО.

В конце происходит проверка результатов и удаление ненужных термов и фраз вручную.

2.2 Извлечение SАО на основе древовидной структуры

Модель извлечения SАО структур, предложенная в [1] является иерархической и основана на определенных синтаксических правилах.

Согласно алгоритму, сначала выбираются объекты в предложении согласно синтаксическим деревьям. Действия комбинируются с объектами в фразу объект-действие. После этого выделяются субъекты, которые комбинируются с полученными результатами в структуру SAO. Из полученных SАО с помощью словаря соответствия удаляются общие и ненужные.

2.3 Модель взвешивания SАО для ранжирования SАО структур

Модель взвешивания необходима для отбора важных структур SAO и их ранжирования [2].

Вес САО структуры рассчитывается по формуле:

— вес САО;

— вес субъекта;

— вес объекта;

— вес действия;

— начальный вес САО.

Is — кол-во появлений субъекта;

Rs — кол-во документов, содержащий субъект.

Iо — кол-во появлений объекта;

Rsо — кол-во документов, содержащий объект.

Isao — кол-во SАО в документах.

Rsao — кол-во документов, содержащих SАО. N — общее кол-во документов.

Подсчет Ws, Wo, IWsao базируется на TFIDF.

Для идентификации веса Действия привлекаются эксперты. Wa определяется на основе статистики.

Заключение

В данной работе представлен подход к извлечению SAO структур из текстовых документов. Предоставлен пример для извлечения SAO структуры из русскоязычного текстового документа из поля описания патентного документа. Также был предложен подход к «очистке» текста для фильтрации от малозначащих слов, словосочетаний и комбинирования фраз.

Литература:

SAO Semantic Information Identification for Text Mining (PDF Download Available). Available from: https://www.researchgate.net/publication/312619671_SAO_Semantic_Information_Identification_for_Text_Mining [accessed May 14, 2017].
Y. Zhang, A. L. Porter, Z. Hu, Y. Guo, N. C. Newman, “Term clumping” for technical intelligence: a case study on dye-sensitized solar cells, Technological Forecasting and Social Change. 85 (2014) 26–39.
Y. Kim, Y. Tian, Y. Jeong, R. Jihee, S.-H. Myaeng, Automatic discovery of technology trends from patent text. 2009 ACM Symposium on Applied Computing. (ACM, Honolulu, Hawaii, 2009), 1480–1487.
A multy-stage algorithm for text documents filtering based on physical knowledge / Korobkin D. M., Fomenkov S. A., Kolesnikov S. G., Orlova Y. A. // World Applied Sciences Journal. — 2013. — V. 24. № 24. P. 91–97.

Молодой учёный

Метод извлечения SAO-структур из текстовых источников

Метод извлечения SAO-структур из текстовых источников

Молодой учёный