Автор: Вохминцев Александр Владиславович

Рубрика: Информатика

Опубликовано в Молодой учёный №1 (1) декабрь 2008 г.

Статья просмотрена: 58 раз

Библиографическое описание:

Вохминцев А. В. Фактографический поиск в гетерогенных базах данных // Молодой ученый. — 2008. — №1. — С. 56-59.

            На современном уровне развития информационных технологий предъявляются все более высокие требования к хранилищам данных, которые являются основой для построения систем поддержки принятий решений. При постоянном росте размеров хранилищ данных для эффективной аналитической обработки становиться не достаточно существующих методов поиска в реляционных, полнотекстовых и мультимедийных базах данных, требуются новые средства организации доступа к информации, многие из которых должны быть отнесены к задачам искусственного интеллекта. Основной недостаток существующих методов связан с тем, что при поиске информации не учитывается смысловая характеристика, которую несет информация. Вследствие чего поиск по реляционным атрибутам, вхождению слов (тем) в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя, так как необходимо точно знать предметную область, терминологию и четко определить границы своих интересов [1].

            Для организации поиска по хранилищу данных, который бы учитывал семантику отношений между объектами и атрибутами, требуется:

§  создать хранилище метаданных - хранилище, описывающее все информационные ресурсы организации, хранящуюся в них информацию и способы доступа к ней.

§  унифицировать структуру объектов и их атрибутов в хранилище данных.

            В основу хранилища метаданных положена модель семантической сети, вершинами которой являются объекты предметной области, а связями различные отношения между данными объектами. Атрибуты содержат различные характеристики объектов и сведения о ресурсах хранилища данных [2].

            При построении хранилища метаданных отношения между объектами и связями должны быть представлены на естественном языке, что позволит избежать указанных ранее недостатков при поиске информации. Для организации эффективного поиска в хранилище метаданных целесообразно применять фактографический анализ информации

Основными элементами фактографического анализа являются следующие сущности:

§  факты, описания которых ищут в тексте;

§  объекты мониторинга для сбора фактов;

§  атрибуты объектов, к которым относятся факты;

§  досье, где собирается информация обо всех найденных фактах.

            Модель факта задается множеством лингвистических описаний - шаблонов, каждый из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому способу описания ситуации в тексте. Основными элементами лингвистических описаний являются:

§  целевые фигуранты – узлы сети, которые соответствуют интересующим сущностям, выделенным в тексте;

§  вспомогательные фигуранты – узлы сети с заданными ограничениями на атрибуты, которые позволяют распознать присутствие описания ситуации в тексте;

§  схема ситуации – набор связей между фигурантами и вспомогательными элементами с заданными ограничениями на атрибуты связей.

            Поиск факта есть поиск в семантической сети текста такой подсети, которая изоморфна одному из шаблонов. Если подсеть найдена, факт считается установленным, после чего производится извлечение сущностей и их маркировка ролями, заданными в соответствующих узлах лингвистических описаний [4].

            Текстовой метаинформацией следует снабжать следующие типы источников информации в хранилище данных:

§  агрегированную информацию в витринах данных, материализованных представлениях и.т.д.;

§  полнотекстовые базы (для формирования целевой выборки информации, по которой гораздо эффективнее устраивать поиск);

§  мультимедиа информацию (при отсутствии инструментов распознавания речи и изображения поиск по данной информации может быть организован только по метаданным);

§  реляционные базы данных, содержащие презентативную информацию о физических и юридических лицах (БД кредитных историй, БД CRM-систем, БД налоговой инспекции и таможни) [3].

            Метаданными не целесообразно снабжать базы данных OLTP систем, особенно БД типа трафика: телефонный биллинг, IP-траффик, финансовые транзакции. Одной из основных проблем, с которой сталкиваются разработчики хранилища данных при организации фактографического поиска является выбор естественного языка, на котором описываются метаданные. Во-первых, необходимо выбрать: будет ли это естественный язык, на котором представлена информация в хранилище данных или это будет язык мирового общения, например английский. Во-вторых, требуется определить степень “естественности языка”, так как очевидно, что при введении ограничений на синтаксис используемых конструкций в метаданных результат фактографического поиска будет более конкретен. В-третьих, необходимо решить, как поступать, если в хранилище данных представлена информация на разных естественных языках.

            Для организации эффективного поиска в хранилище метаинформации требуются специализированные поисковые системы и системы визуализации информации. Для визуализации результатов могут использоваться различные системы, от простейших с растровой графики до полнофункциональных систем визуализации информации, к которым следует отнести i2 Analyst’s Notebook [5] и VisuaLinks [6]. Данные системы обладают рядом встроенных поисковых возможностей, однако с помощью них нельзя строить сложные аналитические запросы по хранилищу метаданных. Поэтому требуется использование стороннего программного обеспечения для проведения сложных аналитических операций с целью актуализации и сборки их результатов в перечисленных системах визуализации информации.

            В рамках научно-исследовательских работ, которые проводятся в лаборатории прикладного программирования университета по данной тематике, получены следующие результаты:

§  разработан лингвистический процессор на основе поисковой машины Oracle Text и ПО Russian Context Optimizer;

§  разработана модель фактов для проведения аналитических исследований об физических и юридических лицах.

§  разработан “Конструктор аналитических запросов” для организации фактографического поиска по хранилищу данных и метаданных.

§  система i2 Analyst’ s Notebook применена для визуализации результатов фактографического поиска.

Список литературы

1.    А.В. Вохминцев, А.В. Мельников “Интеграция гетерогенных информационных ресурсов на основе семантических сетей”, Вычислительная техника и новые информационные технологии. Уфа, 2007.

2.    А.В. Вохминцев, “Применение семантических сетей для организации фактографического поиска в гетерогенных хранилищах данных”, Информационно-математические технологии в экономике, технике и образовании”, Екатеринбург, 2007

3.    A.V. Voxmitsev, A.V. Melnikov “Fact-based search technology in data warehouse with heterogeneous structure”, International Workshop on Computer Science and Information Technologies CSIT’2007, Ufa, Russia, 2007.

4.    Ермаков А.Е., Плешко В.В. Доклад на 3-ей конференции «Конкурентная разведка в металлургии»., Москва, 2005 г.

5.    Analyst’s Notebook 6: User Guide//i2 Limited.–Cambridge, June 2005.–Version 6.0;

6.    www.visualanalytics.com/

Основные термины (генерируются автоматически): хранилище данных, фактографического поиска, организации фактографического поиска, базах данных, хранилище метаданных, Похожая статья, организации эффективного поиска, лингвистических описаний, хранилища метаданных, семантических сетей, хранилищу данных, хранилище метаданных целесообразно, хранилища данных, визуализации информации, гетерогенных базах данных, построении хранилища метаданных, мультимедийных базах данных, основу хранилища метаданных, §  атрибуты объектов, базы данных.

Обсуждение

Социальные комментарии Cackle
Задать вопрос