Данная статья содержит описание методов извлечения ответов на простые вопросы и процесс логического вывода, который содержит действительность и контекстный охват ответа на вопросы со сложной структурой, путем доступа к богатой семантической структуре текста. Обработка сложных вопросов включает в себя выявление нескольких форм комплексных семантических структур. Извлечение ответа осуществляется путем распознавания взаимосвязей нескольких событий и синтезируя предложения и тексты, используя априорные знания.
Ключевые слова: извлечение ответов, логический вывод, семантическая структура.
Введение. Современные вопросно-ответные системы извлекают ответы из больших текстов путем (1) классификации вопросов по типу ожидаемых ответов; (2) с помощью ключевых слов или шаблонов на вопросы для выявления релевантного отрывка текста и (3) ранжирование вариантов ответов для выявления куска текста, содержащего ответ. Некоторые системы основаны на логике предикатов первого порядка. Такой метод ограничивается предположением, что ответ может быть найден, потому что он в нем используются слова из вопроса. Во многих случаях это работает, но данное предположение не распространяется на большинство случаев, когда информативный ответ отсутствует из-за того, что его выявление требует более сложной семантической обработки, чем извлечение именованных сущностей и определение типа ожидаемого ответа. Поэтому доступ к богатым семантическим структурам, полученных из вопросов и ответов позволит извлекать более точные ответы, а также более точный процесс вывода, который содержит действительность и контекстный охват ответа.
Существует несколько этапов семантической обработки. Первых этап включает в себя семантические парсеры или идентификаторы структур предикатных аргументов. Обработка сложных вопросов состоит из следующих шагов:
- синтаксическая обработка вопроса и сбор текстов
- выявление именованных сущностей
- выявления структур предикат-аргумент
- определение типа ответа, это скорее не простая структура, а сложная концептуальная структура
- определение ключевых слов, для поиска релевантного отрывка текста
Обработка документа осуществляется индексированием и извлечением трех форм семантической информации:
- классы именованных сущностей
- структуры предикат-аргумент
- онтологии возможных типов ответов
Кроме того, чем сложнее смысловая структура текста, распознанная ответом на вопрос, тем жестче осуществляется индексация и извлечение информация, учитывая концептуальные схемы и тематические модели, так как для ответа, возможно, потребуется слияние информации с различных источников.
Обработка вопроса используя различные семантические ресурсы.
Учитывая размер сегодняшних хранилищ документов, можно ожидать, что информация на любую сложную тему будет найдена и рассмотрена с различных точек зрения. Это осуществляется путем различных техник разложения вопроса, которые генерируют набор из нескольких вопросов для того, чтобы покрыть все возможные интерпретации сложной темы. Тем не менее, набор разложившихся вопросов может в конечном итоге привести к потенциально противоречивым наборам ответов. Для того, чтобы вопросно-ответные системы могли использовать этот набор ответов с пользой, слияние должно быть выполнено для того, чтобы определить единственный, уникальный, и адекватный ответ.
Рассмотрим синтезирование ответов пошагово. Сначала, формируется шаблон ответа на основе структуры предикат-аргумент. Затем обучается вероятностная модель для обнаружения связей между извлеченными шаблонами. Последним шагом является построение объединенного ответа используя операторы для слияния набора шаблонов. Архитектура синтеза ответов показана на рисунке 1. На рисунке 2, продемонстрирован пример.
Вопрос 1: Когда был утвержден первый президент Франции? Вопрос 2: Из какой страны Россия импортирует мясо? Вопрос 3: Что способствовало программе Казахстан 2050? |
В вопросе 1, ключевое слово «когда» означает, что тип ответа является временным блоком, что в конечном итоге выражается в виде даты. Чтобы найти ответ, важно опознание слова “Франции” и других именованных сущностей. Определение именованных сущностей также является ключевым во втором вопросе, так как не только “России” должно быть распознана как страна, но и другие названия стран нужно определить для ответа на вопрос. Для обработки второго вопроса, потребуется дополнительная семантическая информация в виде структуры предикат-аргумент, которая определит ответ гораздо лучше, вместо того, чтобы искать все страны которые экспортируют мясо или страны у которых Россия импортирует продукты питания. Это возможно путем трансформации вопроса 2 в следующую структуру.
Предикат: импорт Арг 0: (роль = импортер): Россия Арг 1: (роль = товар): мясо Арг 2: (роль = экспортер): ОТВЕТ |
Рис. 1. Структура предикат-аргумент на вопрос 2
Предикат-аргумент структура также необходима для обработки вопроса 3, так как вопрос является довольно размытым. Ключевое слово «что» и именованная сущность «Казахстан» может относиться к широкому диапазону событий и сущностей.
Предикат: способствовать Арг 0: (роль = агент): ОТВЕТ (часть 1) Арг 1: (роль = событие): Казахстан 2050 Арг 2: (роль = инструмент): ОТВЕТ (часть 2) |
Рис. 2. Структура предикат-аргумент на вопрос 3
Структура предикат-аргумент показанная на рисунке 2 показывает, что ответ может содержать роли “агент” или даже роль “инструмент”.
Вопрос 4: Как можно обнаружить применение биологического оружия? |
Ответ: Применение противником биологического оружия может быть обнаружено по следующим видимым внешним признакам: образование аэрозольного облака после взрыва боеприпасов или при срабатывании генераторов; обнаружение остатков специальных контейнеров, боеприпасов и других видов вооружения; наличие большого количества насекомых, клещей, грызунов, неизвестных для данной местности, и т. п. |
Рис. 3. Сложный вопрос и ответ на него взят с Википедии
Для ответа на вопрос 4 недостаточно ключевого слова “как”, чтобы определить шаги обнаружения, и даже использование структуры предикат-аргумент (рисунок 4) нам не поможет. В данном случае потребуется более сложная семантическая обработка: тематическое моделирование.
Вопрос 4: Как можно обнаружить применение биологического оружия? |
||||
|
Рис. 4. Обработка вопроса 4 различными способами
Нахождение ответа, основанное на семантической обработке.
В базовой архитектуре для нахождения ответа используется тип ожидаемого ответа или структура предикат-аргумент. Ответы на вопросы со сложной структурой, находятся путем заполнения их семантической информацией, взятой из коллекций текстов. Ответ на вопрос 4 извлечен следующим путем: (1) найден текст содержащий ответ (2) семантическая структура ответа извлечена из текста (3) заполняются указатели, ссылающиеся на пустые места в семантической структуре ответа и источником текста. Такие указатели могут быть дополнены пошаговыми действиями дедуктивного процесса.
В данной статье описано, что на текущий момент был достигнут значительный прогресс в анализе естественного языка, но до сих пор существует множество проблем с предоставлением знаний и оперированием ими для передовых вопросно-ответных систем. Показан метод обработки сложных вопросов, которые включает в себя идентификацию нескольких форм комплексных смысловых структур и применяя мощную семантическую грамматику.
Литература:
1. Sanda Harabagiu, Dan Moldovan, Christine Clark, Mitchell Bowden, John Williams and Jeremy Bensley. Answer Mining by Combining Extraction Techniques with Abductive Reasoning, 2003
2. Dragomir R. Radev and Kathleen McKeown. Generating natural languages summaries from multiple online sources, 1998