Библиографическое описание:

Теленик С. Ф., Жук С. В., Лыско В. Т., Ефремов К. В. Каталогизация и интеграция разнородных информационных ресурсов // Молодой ученый. — 2013. — №5. — С. 176-179.

Предложен подход к каталогизации и интеграции данных на основе онтологий, позволяющий структурировать источники данных, не внося изменений в них, и обеспечить доступ к ним по принципу «единого окна».

Ключевые слова: интеграция данных, онтология, Semantic web, база данных, онтология, классификация данных.

Введение. Существующие центры данных Мировой системы данных (МСД, ICSU World Data System) [1] предоставляют пользователям доступ к накопленным за более чем пятидесятилетний период времени неоднородным данным. Однако пользователи испытывают затруднения при попытке получения нужных данных, т. к. они, как правило, распределены по нескольким независимым источникам и систематизированы должным образом только в рамках ресурсов отдельных Центров, а не всей МСД в целом.

Центры данных и проблема интеграции. Доступ к ресурсам Мировых центров данных МСД (информация в БД, доступ к которой обеспечивают сервера БД, функциональные возможности по обработке информации приложениями, которые предоставляются через сервера приложений) требует учета разных форм хранения данных, программных и аппаратных платформ и технологий. Таким образом, существуют формально не связанные между собой источники данных, которыми могут быть традиционные системы баз данных, поддерживающие различные модели данных (реляционные, объектные, объектно-реляционные, графовые и т. п.), разнообразные унаследованные системы, репозитории, веб-сайты, файлы структурированных данных [2].

Для тех групп ученых, которые решают комплексные задачи (например, проблемы устойчивого развития [3]), особенно важным становится доступ к междисциплинарным данным. Чтобы получить такие данные — чаще всего необходимо пользоваться большим количеством специфичного программного обеспечения, знать языки запросов к данным и их семантику. Однако ученые, будучи специалистами в своих предметных областях, испытывают серьезные затруднения в работе с такими сложными программными продуктами. В таких условиях искусственно сдерживаются научные исследования — заказчики получают нужную информацию с опозданием, или избыточным расходом времени и сил, возникает нехватка данных.

Обзор существующих решений. Вне системы МСД существует ряд проектов (см., например, [5] и [6]), которые в той или иной мере решали вопросы интеграции данных с учетом их семантики. При этом их авторами предлагался в целом эффективный подход для конкретных задач бизнеса или науки, но мало внимания уделялось организации иерархии большого количества подключенных источников данных, которые функционируют автономно, и могут быть как связаны, так и не связаны между собой.

С другой стороны, примером подхода к интеграции и каталогизации в МСД может быть информационная система Pangaea (Германия) [7], которая функционирует как библиотека с открытым доступом. Большая часть данных предоставляется через веб-сервисы, доступен полнотекстовый поиск и поиск по ключевым словам. В то же время, система не предоставляет возможностей для сопоставления нескольких множеств данных и манипуляций над ними.

Таким образом, существующие информационные системы не в состоянии решить проблему интеграции данных в контексте удобства их получения из единого сервиса и их классификации.

Постановка проблемы. Необходимо, не внося изменений в уже существующие структуры источников данных, сделать их данные доступными для пользователя по принципу «единого окна» (в некоторых источниках его называют «виртуализацией»). В то же время, необходимо предложить возможность выделения семантически связанных наборов данных и подход к их классификации. Соответственно, важной задачей является возможность семантической «окраски» существующих данных, что сделает их пригодными для машинной обработки и более эффективного поиска.

Предложенный подход. Для описания спецификации семантики источников данных авторам выбраны описательные (дискрипционные) логики (англ. Description logics). Как инструмент представления таких обобщенных спецификаций можно выбрать онтологические спецификации. Обозначим далее в тексте онтологический класс и свойство в контексте семантики как С-класс и С-свойство соответственно.

Для решения поставленной задачи в стеке технологий Semantic Web (Семантическая паутина, SW) применена абстрактная модель данных в виде ориентированных графов «субъект-предикат-объект» — RDF [9] и язык описания онтологий OWL [10].

Рис. 1. Общая структура предложенного решения

Авторами предложено создать центральную онтологию-классификатор для высокоуровневого описания доступных в системе предметных областей. Она состоит из иерархии С-классов и не зависит от каких-либо источников данных. Наличие такой центральной онтологии является обязательным, в то же время она может быть сколько угодно расширена другими онтологиями такой же структуры или парами онтология-отображение. Каждая такая пара обеспечивает подключение для конкретного источника данных — онтология описывает структуру его С-классов, а отображение указывает соотношение его С-классов и С-свойств к реальной структуре источника данных, а также параметры подключения к нему. Таким образом, запрос к источнику данных может формироваться в терминах онтологий и их свойств.

Несмотря на свою разнородность, интегрируемые источники данных могут иметь общие С-свойства, потому предлагается создать дополнительную онтологию для указания связи между такими С-свойствами с помощью стандартных предикатов OWL. Назовем такую онтологию связывающей.

Выполнение запросов к источникам данных, описанным с помощью онтологий, производится с помощью программных компонентов, которые будут детально описаны ниже. В целом, такое решение можно отнести к семейству mediator-based (медиаторных) систем [11]. На стороне клиента выбор данных в каталоге, формирование запроса к источникам данных, а также получение ответа на него выполняется через веб-приложение. Сам медиатор, являющийся загруженным в память сервера приложением, содержит построенное дерево С-классов из онтологических спецификаций, их связи с отображениями на реальные источники данных, а также, опционально, полученные из онтологических спецификаций и опроса источников данных ограничения на допустимые диапазоны значений данных в этих источниках.

«Стыкование» онтологий на уровне приложения производится путём установления связей их С-классов по унифицированному идентификатору ресурса (Uniform Resource Identifier, URI), который уникален для каждого С-класса, кроме случая, когда имеется в виду один и тот же С-класс.

Требования к структуре онтологии для классификатора включают только определение иерархизированной структуры предметной области.

Требования к структуре онтологии для расширения классификатора состоят в необходимости вложения у базового С-класса только одного подкласса, URI которого будет совпадать с URI класса, к которому производится подсоединение, все другие классы онтологии являются подклассами этого класса. Таким же является требование и если текущая онтология будет расширять другую онтологию с целью расширения классификатора. Фактически, нет ограничений на количество расширяющих классификацию онтологий, кроме уникальности имён С-классов и их свойств, а так же ограничений на размер выделяемой памяти для приложения, которое будет их обрабатывать.

Требования к структуре онтологии для подключаемого источника данных определяют, что у базового С-класса подклассами являются только два С-класса. URI первого из этих двух С-классов совпадает с URI С-класса, к которому производится присоединение в дереве классификатора. Второй С-класс имеет оговоренный URI, указывающий на то, что все его подклассы будут нести в себе метаданные об источнике данных, на которые могут ссылаться другие С-классы — подклассы первого С-класса. Такими метаданными, например, могут быть единицы измерений. С другой стороны, для описания каждого конкретного С-класса онтология может включать в себя дополнительные атрибуты для метаданных, записанные в ней как константы.

Реализация программного продукта. С точки зрения разработки программного продукта, для интеграции семантики предметной области с источником данных, необходимо реализовать механизм отображения концептов онтологии соответствующим сущностям источника данных посредством описания их отображения, иногда еще называемого маппингом (англ. mapping). Для этого выбрана библиотека D2RQ [12], которая обеспечивает доступ к данным через SPARQL-запросы [13] и связь с источником данных через JDBC драйвер, который позволяет использовать в качестве источника практически любой ресурс — от СУБД до плоских файлов и HTML-таблиц, а при необходимости можно реализовать и свой специфичный драйвер.

Роль носителя семантики предметной области играет сама онтология для источника данных, записанная в формате OWL. Создание файла описания отображения и настройка параметров подключения к источнику данных происходит согласно документации [12] и является частично автоматизированным — после генерации средствами D2RQ он требует сопоставления идентификаторов URI с соответствующей онтологией, которая создается в отдельном редакторе, например, Protégé 4.2. При этом сам файл описания отображения сохраняется в виде RDF-документа в формате N3, в то время как для сохранения файлов онтологий может использоваться как формат N3, так и RDF/XML.

При выполнении запросов манипулирование RDF-графами, построенными в памяти, осуществляется с помощью библиотеки Jena [14], в качестве машины логического вывода на базе существующего графа используется Pellet [15]. Такое решение делает возможным выполнять SPARQL-запросы к данным в файлах онтологий классификатора, которые не имеют за собой конкретного источника данных.

В настоящее время авторами разрабатывается веб-приложение, которое реализует предложенный подход. Оно построено на базе стека технологий Java EE 6, использован сервер приложений JBoss 7, функционирование веб-интерфейса обеспечивается фреймворком Java Server Faces.

Заключение. Предложенный подход позволяет структурировать источники данных и установить связи между ними, не внося изменений в собственно данные, структуры их хранения и механизмы сопровождения.

Решение основано на сопоставлении структур источников данных с семантикой предметной области и является легко расширяемым. При этом возможно установление связей между данными из нескольких источников и контроль формируемых пользователем запросов на соответствие допустимым диапазонам или формату конкретного источника данных.

Дальнейшие исследования могут вестись в направлении интеграции сервисов-обработчиков информации из источников данных, например, последовательного выполнения вычислений на данных из нескольких источников.

Литература:

1.                  M. Z. Zgurovsky, A. D. Gvishiani, K. V. Yefremov, A. M. Pasichny. Integration of the Ukrainian science into the world data system // Cybernetics and Systems Analysis: Volume 46, Issue 2 (2010). — P. 211.

2.                  Когаловский М. Р. Методы интеграции данных в информационных системах [Электронный ресурс]. — Режим доступа: http://www.cemi.rssi.ru/mei//articles/kogalov10–05.pdf — Название с экрана.

3.                  Шаповалова С. И., Ефремов К. В., Глуханик А. И. Организация интегрированного доступа к информационным ресурсам [Текст] / С. И. Шаповалова, К. В. Ефремов, А. И. Глуханик / — Сборник трудов конференции ИАИ-2011–2011. — С.102–108

4.                  Павлов А. А., Теленик С. Ф. Информационные технологии и алгоритмизация в управлении. — К.: Техника, 2002.

5.                  Langegger A., Wöß W., Blöchl M. SemWIQ — Semantic Web Integrator and Query Engine, — München: Informatik 2008 Beherrschbare Systeme dank Informatik, 2008. — c. 718–722.

6.                  Quilitz B., Leser U. Querying Distributed RDF Data Sources with SPARQL — Berlin: Lecture Notes in Computer Science vol. 5021, «Springer Berlin Heidelberg», 2008., — c. 524–538.

7.                  Pangaea Data Publisher for Earth & Environmental Science [Электронный ресурс]: Режим доступа: http://pangaea.de/ — Название с экрана.

8.                  Бездушный А. А. Математическая модель системы интеграции данных на основе онтологий // Вестн. НГУ: Сер. Информационные технологии. Новосибирск, 2008. Т. 6. Вып. 2. С. 15–40.

9.                  RDF Primer W3C Recommendation [Электронный ресурс]: Режим доступа: http://www.w3.org/TR/rdf-primer/ — Название с экрана.

10.              OWL Web Ontology Language W3C Recommendation [Электронный ресурс]: Режим доступа: http://www.w3.org/TR/owl-features/ — Название с экрана.

11.              Kossmann D. The state of the art in distributed query processing — New York: ACM Computing Surveys vol.32, «ACM», 2000. — с. 422–469.

12.              The D2RQ Plattform: Accessing Relational Databases as Virtual RDF Graphs [Электронный ресурс]. Режим доступа: http://d2rq.org/ — Название с экрана.

13.              SPARQL Query Language for RDF [Электронный ресурс]: Режим доступа: http://www.w3.org/TR/rdf-sparql-query/ — Название с экрана.

14.              Jena Toolkit For Semantic Web Applications [Электронный ресурс]. Режим доступа: http://jena.apache.org/ — Название с экрана.

15.              Evren Sirin, Bijan Parsia and oth. Pellet: A practical OWL-DL reasoner — Web Semantics: Science, Services and Agents on the World Wide Web, Volume 5, Issue 2, June, 2007, P. 51–53

Обсуждение

Социальные комментарии Cackle