Библиографическое описание:

Вохминцев А. В. Фактографический поиск в гетерогенных базах данных // Молодой ученый. — 2008. — №1. — С. 56-59.

            На современном уровне развития информационных технологий предъявляются все более высокие требования к хранилищам данных, которые являются основой для построения систем поддержки принятий решений. При постоянном росте размеров хранилищ данных для эффективной аналитической обработки становиться не достаточно существующих методов поиска в реляционных, полнотекстовых и мультимедийных базах данных, требуются новые средства организации доступа к информации, многие из которых должны быть отнесены к задачам искусственного интеллекта. Основной недостаток существующих методов связан с тем, что при поиске информации не учитывается смысловая характеристика, которую несет информация. Вследствие чего поиск по реляционным атрибутам, вхождению слов (тем) в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя, так как необходимо точно знать предметную область, терминологию и четко определить границы своих интересов [1].

            Для организации поиска по хранилищу данных, который бы учитывал семантику отношений между объектами и атрибутами, требуется:

§  создать хранилище метаданных - хранилище, описывающее все информационные ресурсы организации, хранящуюся в них информацию и способы доступа к ней.

§  унифицировать структуру объектов и их атрибутов в хранилище данных.

            В основу хранилища метаданных положена модель семантической сети, вершинами которой являются объекты предметной области, а связями различные отношения между данными объектами. Атрибуты содержат различные характеристики объектов и сведения о ресурсах хранилища данных [2].

            При построении хранилища метаданных отношения между объектами и связями должны быть представлены на естественном языке, что позволит избежать указанных ранее недостатков при поиске информации. Для организации эффективного поиска в хранилище метаданных целесообразно применять фактографический анализ информации

Основными элементами фактографического анализа являются следующие сущности:

§  факты, описания которых ищут в тексте;

§  объекты мониторинга для сбора фактов;

§  атрибуты объектов, к которым относятся факты;

§  досье, где собирается информация обо всех найденных фактах.

            Модель факта задается множеством лингвистических описаний - шаблонов, каждый из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому способу описания ситуации в тексте. Основными элементами лингвистических описаний являются:

§  целевые фигуранты – узлы сети, которые соответствуют интересующим сущностям, выделенным в тексте;

§  вспомогательные фигуранты – узлы сети с заданными ограничениями на атрибуты, которые позволяют распознать присутствие описания ситуации в тексте;

§  схема ситуации – набор связей между фигурантами и вспомогательными элементами с заданными ограничениями на атрибуты связей.

            Поиск факта есть поиск в семантической сети текста такой подсети, которая изоморфна одному из шаблонов. Если подсеть найдена, факт считается установленным, после чего производится извлечение сущностей и их маркировка ролями, заданными в соответствующих узлах лингвистических описаний [4].

            Текстовой метаинформацией следует снабжать следующие типы источников информации в хранилище данных:

§  агрегированную информацию в витринах данных, материализованных представлениях и.т.д.;

§  полнотекстовые базы (для формирования целевой выборки информации, по которой гораздо эффективнее устраивать поиск);

§  мультимедиа информацию (при отсутствии инструментов распознавания речи и изображения поиск по данной информации может быть организован только по метаданным);

§  реляционные базы данных, содержащие презентативную информацию о физических и юридических лицах (БД кредитных историй, БД CRM-систем, БД налоговой инспекции и таможни) [3].

            Метаданными не целесообразно снабжать базы данных OLTP систем, особенно БД типа трафика: телефонный биллинг, IP-траффик, финансовые транзакции. Одной из основных проблем, с которой сталкиваются разработчики хранилища данных при организации фактографического поиска является выбор естественного языка, на котором описываются метаданные. Во-первых, необходимо выбрать: будет ли это естественный язык, на котором представлена информация в хранилище данных или это будет язык мирового общения, например английский. Во-вторых, требуется определить степень “естественности языка”, так как очевидно, что при введении ограничений на синтаксис используемых конструкций в метаданных результат фактографического поиска будет более конкретен. В-третьих, необходимо решить, как поступать, если в хранилище данных представлена информация на разных естественных языках.

            Для организации эффективного поиска в хранилище метаинформации требуются специализированные поисковые системы и системы визуализации информации. Для визуализации результатов могут использоваться различные системы, от простейших с растровой графики до полнофункциональных систем визуализации информации, к которым следует отнести i2 Analyst’s Notebook [5] и VisuaLinks [6]. Данные системы обладают рядом встроенных поисковых возможностей, однако с помощью них нельзя строить сложные аналитические запросы по хранилищу метаданных. Поэтому требуется использование стороннего программного обеспечения для проведения сложных аналитических операций с целью актуализации и сборки их результатов в перечисленных системах визуализации информации.

            В рамках научно-исследовательских работ, которые проводятся в лаборатории прикладного программирования университета по данной тематике, получены следующие результаты:

§  разработан лингвистический процессор на основе поисковой машины Oracle Text и ПО Russian Context Optimizer;

§  разработана модель фактов для проведения аналитических исследований об физических и юридических лицах.

§  разработан “Конструктор аналитических запросов” для организации фактографического поиска по хранилищу данных и метаданных.

§  система i2 Analyst’ s Notebook применена для визуализации результатов фактографического поиска.

Список литературы

1.    А.В. Вохминцев, А.В. Мельников “Интеграция гетерогенных информационных ресурсов на основе семантических сетей”, Вычислительная техника и новые информационные технологии. Уфа, 2007.

2.    А.В. Вохминцев, “Применение семантических сетей для организации фактографического поиска в гетерогенных хранилищах данных”, Информационно-математические технологии в экономике, технике и образовании”, Екатеринбург, 2007

3.    A.V. Voxmitsev, A.V. Melnikov “Fact-based search technology in data warehouse with heterogeneous structure”, International Workshop on Computer Science and Information Technologies CSIT’2007, Ufa, Russia, 2007.

4.    Ермаков А.Е., Плешко В.В. Доклад на 3-ей конференции «Конкурентная разведка в металлургии»., Москва, 2005 г.

5.    Analyst’s Notebook 6: User Guide//i2 Limited.–Cambridge, June 2005.–Version 6.0;

6.    www.visualanalytics.com/

Обсуждение

Социальные комментарии Cackle