Обзор средств автоматизированного извлечения знаний и их применение в электронных архивах документов

Харин Максим Алексеевич

Приведен обзор существующих средств извлечения знаний из баз данных, а также приведена модель данных электронного архива для адаптации методов извлечения знаний.

An overview of the existing tools for extracting knowledge from databases and a data model of an electronic archive for adaptation of extracting knowledge methods are proposed.

Ключевые слова: извлечение знаний из баз данных, электронный архив документов, модель данных

Key words: Data Mining, discovering knowledge in databases, electronic archive, data model

В настоящее время распространены системы электронных архивов документов, обеспечивающие надежность хранения, конфиденциальность и разграничение прав доступа, отслеживание истории изменений, быстрый и удобный поиск. Для системы «Электронный архив», разрабатываемой в ОАО «Электроцентромонтаж» используется следующая схема наполнения архива. После потокового сканирования и распознавания документы предстают в виде объектов, имеющих определенный набор атрибутов. Разные документы могут иметь разный тип и соответственно разный набор атрибутов, для задания типов документов используется система настройки архива. В системе настройки создается список всех доступных атрибутов в документах. Доступные типы атрибутов:

· Целое число

· Вещественное число

· Строка символов

· Дата/время

· Логическое значение

· Файл

· Ссылка на документ

Далее для каждого типа из общего набора атрибутов создается отдельный список атрибутов типа. Например, для документа типа "Договор выполнения работ по заказу" набор атрибутов включает в себя текстовые поля "Агент" и "Контрагент", числовое поле "Сумма договора"; для типа "Счет-фактура" – текстовые поля "Продавец", "Покупатель", "Грузоотправитель", "Грузополучатель", логическое поле "Входящий документ", числовые поля "Итого", "Итого НДС", "Итого с НДС". Для всех типов документов определены общие системные поля "Наименование", "Дата регистрации", "Регистрационный номер", "Полный текст документа", "Файл для печати", "Файл предпросмотра". Также имеется возможность объединять типы в группы, например, "Бухгалтерские документы" (акты, счета, накладные и др.), "Договоры" (договоры аренды, договоры поставок, договоры страхования и др.), "Корреспонденция" (входящие письма, исходящие письма).

Документы загружаются в архив путем сканирования бумажных экземпляров и распознавания полученных электронных образов. Распознавание осуществляется с помощью программного продукта FlexiCapture фирмы ABBYY, но точность распознавания не всегда является стопроцентной. Проверка правильности распознанных документов (верификация) производится человеком, однако, при большом потоке документов увеличивается число ошибок. С другой стороны, многие документы могут иметь одинаковые атрибуты, например, организации, их адреса, банковские счета, ИНН, КПП и другие. Таким образом, актуальной является задача извлечения знаний из подобных архивов для повышения точности и скорости верификации документов. Программное средство извлечения знаний должно выполнять следующие функции и удовлетворять условиям:

· анализ и поиск закономерностей в архиве

· автоматизированное извлечение знаний

· возможность интеграции с электронным архивом и программами сканирования и верификации

Для извлечения знаний могут быть применены методы Data Mining – “добыча данных”, “интеллектуальный анализ данных”. Эти методы позволяют выявлять стандартные типы закономерностей, такие как:

· ассоциация;

· последовательность;

· классификация;

· кластеризация;

· прогнозирование. [1]

Системы Data Mining можно разделить по ключевой компоненте, используемой для анализа. Основные классы систем:

1. Предметно-ориентированные аналитические системы

2. Алгоритмы ограниченного перебора

3. Статистические пакеты

4. Системы рассуждений на основе аналогичных случаев

5. Деревья решений

6. Эволюционное программирование

7. Нейронные сети

8. Генетические алгоритмы

9. Системы для визуализации многомерных данных

Рассмотрим основные системы извлечения знаний. Среди российских разработок в данной области выделим следующие:

· комплекс АТ-Технология [2]. Данный комплекс позволяет создавать интегрированные экспертные системы на основе баз знаний. Получение знаний происходит в виде диалога эксперта и компьютерной системы. Далее знания используются так называемым нечетким решателем, осуществляющим нечеткий вывод на знаниях при поступлении запросов. В данном случае получение знаний в виде диалога является недостатком, так как участие человека требуется только при проверке выявленных закономерностей.

· аналитическая платформа Deductor, разрабатываемая фирмой Base Group Labs (http://basegroup.ru). Данная платформа позволяет создавать системы поддержки принятия решений, используя методики OLAP, Knowledge Discovery in Databases, Data Mining. В число решаемых проблем входят: анализ тенденций и закономерностей, планирование, ранжирование, прогнозирование, управление рисками. Система может работать с большинством популярных баз данных (Oracle, MS SQL, Postgres SQL и др.), однако возможность использования полученных знаний в системах сканирования неизвестна.

· система Deep Data Diver™ (http://datadiver.nw.ru). В системе используется технология, основанная на представлениях специальной локальной геометрии [3]. Она позволяет находить в данных высокоточные ассоциации элементов исходного множества транзакций с заданным элементом. Система применяется как инструмент медицинской диагностики и прогностики. В основном, работа производится с таблицами Microsoft Excel, либо с базами данных, используя интерфейс ODBC.

· система PolyAnalyst™ компании Megaputer Intelligence (http://megaputer.ru). Данная система позволяет производить анализ анкет, жалоб, результатов рекламной кампании, страховых случаев, коммерческих предложений, рисков, составлять представительскую отчетность. Система позволяет искать знания в текстовых документах, конкретные базы данных для работы не упоминаются.

Из зарубежных разработок отметим следующие:

· аналитический модуль AnswerTree фирмы международной компании SPSS Inc. (http://spss.ru/). Данный модуль также использует деревья решений в своей работе и позволяет проводить маркетинговые исследования, биомедицинские исследования, исследования в учебных заведениях и другие.

· система WizWhy предприятия WizSoft (http://wizsoft.com). Данная система обнаруживает математические и логические закономерности в базах данных и позволяет составлять прогнозы недостающих параметров. Однако для данной системы была предложена тестовая задача, которую система не смогла решить [1]. Система может работать с базами данных Oracle, MS SQL, MS Access, а также с другими базами данных через интерфейс ODBC.

· система See5/C5.0 фирмы RuleQuest (http://rulequest.com). Система строит деревья решений для поиска if-then правил. Ориентирована на работу с файлами.

Результаты сравнения продуктов представим в следующей таблице (табл. 1), где столбцы соответствуют условиям, а строки - системам:

Таблица 1. Результаты сравнения продуктов

	Анализ и поиск закономерностей	Автоматизированное извлечение знаний	Ориентация на конкретную предметную область	Возможность интеграции с программами сканирования и верификации
АТ-Технология	-	-	-	-
Deductor	+	+	-	-
Deep Data Diver™	+	+	+	-
PolyAnalyst™	+	+	-	-
AnswerTree	+	+	+	-
WizWhy	+	+	-	-
See5/C5.0	+	+	-	-

Как видно, большинство систем удовлетворяют условиям анализа и поиска закономерностей и автоматизированного получения знаний, однако возможность интеграции с программами сканирования и верификации не поддерживается. Также некоторые системы применяются для решения задач в специфических областях, таких как медицина или маркетинговые исследования.

Таким образом использовать готовую систему не представляется возможным. Необходимо разработать специализированную систему, предназначенную для работы с текстовыми документами различной структуры, полученными из бумажных оригиналов путем сканирования и распознавания. В основу системы должна быть положена модель представления знаний в электронном архиве. За базовую возьмем следующую модель [4]. Основными базовыми элементами поля знаний являются объекты и правила, следующего вида:

Объект (IO, NameO, L),

где IO — порядковый номер объекта;

NameO — имя объекта;

L — список атрибутов, причем атрибут объекта имеет вид:

Атрибут (IA, NameA, Type),

где IA — порядковый номер атрибута;

NameA — имя атрибута;

Type — тип атрибута, который имеет вид:

Тип (IT, NameT, U),

где IT — номер типа атрибута;

NameT — имя типа атрибута;

U — множество возможных значений атрибута, которое может быть представлено либо списком конкретных значений атрибута в случае, когда атрибут принимает значения из счетного множества, либо диапазоном (интервалом) значений в случае, когда атрибут принимает числовые значения.

Правило (IR, Ins, Cons),

где IR — порядковый номер правила;

Inc — посылка правила, которая содержит список пар типа "атрибут-значение", связанных между собой логическими отношениями конъюнкции и дизъюнкции,

Cons — действие правила, которое содержит список атрибутов с присваиваемыми им значениями.

При анализе электронного архива документов с использованием модели такого класса в качестве объекта выступает документ с его набором атрибутов. Однако для автоматизации извлечения знаний следует использовать не диалог с пользователем, а такие методы анализа как деревья решений и методы ограниченного перебора. Также для оптимальной реализации методов анализа их следует модифицировать с учетом конфигурации архива и наложения соответствующих ограничений. Например, при создании справочника организаций необходимо задавать типы документов для поиска (например, только бухгалтерские), задавать список атрибутов справочника (например, наименование организации, ее адрес, ИНН и КПП).

Литература:

1. Дюк В.А. Data Mining - интеллектуальный анализ данных. – Режим доступа: http://www.olap.ru/basic/dm2.asp, свободный.

2. Рыбина Г. В., Левин Д. Е., Смирнов В. В., Душкин Р. В., Рудаковский А. М., Демидов Д. В., Татарников А. В. Инструментальный комплекс АТ-ТЕХНОЛОГИЯ для поддержки разработки интегрированных экспертных систем. В кн.: Научная сессия МИФИ-2002. Сборник научных трудов. В 14 томах. Т. 10. М.: МИФИ, 2002.

3. М.Г. Асеев, М.Ф. Баллюзек, В.А. Дюк. Разработка медицинских экспертных систем средствами технологий Data Mining. – Режим доступа: http://www.olap.ru/home.asp?artId=153, свободный.

4. Рыбина Г. В., Душкин Р. В., Козлов Д. А., Левин Д. Е., Смирнов В. В., Файбисович М. Л. Вопросы извлечения и представления неточных и недоопределенных знаний при автоматизированном построении баз знаний для интегрированных экспертных систем. В кн.: Третья международная летняя школа-семинар по искусственному интеллекту для студентов и аспирантов (Браславская школа — 1999). Сборник научных трудов. Мн.: БГУИР, 1999, с. 191-198.

Молодой учёный

Обзор средств автоматизированного извлечения знаний и их применение в электронных архивах документов

Обзор средств автоматизированного извлечения знаний и их применение в электронных архивах документов

Молодой учёный