Представление и интеграция данных по свойствам веществ в рамках технологий Linked Open Data

Еркимбаев Адильбек Омирбекович; Зицерман Владимир Юрьевич; Кобзев Георгий Анатольевич; Трахтенгерц Михаил Самойлович

В последнее десятилетие возникла новая тенденция в технологии хранения и распространения научной информации — переход от изолированных баз данных (БД) к международной информационной инфраструктуре, способной обеспечить глобальный доступ к ресурсам в сочетании со стандартизацией понятийного аппарата, терминологии и форматов. Предпринят ряд инициативных проектов, в частности, проект GRDI20 (Global Research Infrastructure Data), с целью выработки единых концептуальных и организационных решений по интеграции научных исследований на базе единой информационной платформы. Сводку докладов, подготовленных в рамках проекта, можно найти в дорожной карте [http://bit.ly/18kLWFw] и работах [1, 2]. Один из основных выводов, полученных экспертами, работавшими в рамках проекта — необходимость главного акцента в обозримом будущем на создании предметно-ориентированных (domain-specific) структур, унифицирующих практики и технологии работы с данными.

Теплофизика, с этой точки зрения, представляется идеальным полигоном для отработки соответствующих средств. Данные по теплофизическим свойствам веществ являются широко востребованным продуктом научной деятельности, притом, что их логическая структура заведомо проще, чем даже в сопредельных областях, скажем, в молекулярной физике или физике твердого тела. Несколько упрощая картину, можно сказать, что структура данных по свойствам сводится к трем базовым элементам: вещество, свойство и сам набор данных, типовая форма которого есть таблица значений нескольких функций и нескольких констант. Именно эта простота позволила нам предложить достаточно универсальную онтологию теплофизических свойств [3], которая предназначена для использования в рамках Semantic Web, которая является более сложной разновидности Интернет. Она обеспечивает публикацию в сети структурированных документов и их включение в глобальное пространство данных. Хотя Semantic Web далеко не единственный подход к созданию научной инфраструктуры, опыт последних лет показал его богатый потенциал для естественных наук [4]. Предполагается, что примерно к 2020 году ученый сможет совершать в глобальном пространстве свободный поиск релевантных наборов данных так же, как сегодня проводится поиск публикаций. Существенный элемент этой технологии — представление данных в машинно-читаемой форме с явным определением семантики, что обеспечивает автоматизм и эффективность интеграции тематически родственных данных.

Здесь мы кратко рассмотрим, применительно к теплофизике, возможности технологии связывания данных (Linked Open Data, LOD), являющейся порождением и развитием концепций Semantic Web. T.Berners-Lee, выдвинувший идею LOD [5], предложил четыре базовых принципа, на основе которых генерируются и распространяются эти данные в сети: 1) каждая сущность (вещество, абстрактное понятие типа свойство и т. п.), однозначно определяется уникальным идентификатором, так называемым URI (Uniform Resource Identifiers); 2) доступ к этой сущности в сети обеспечивает обращение HTTP URI; 3) полезная информация при обращении по URI извлекается за счет использования стандарта RDF (resource definition framework); 4) ссылки на другие URI позволяют находить родственную информацию по тематике исходного документа.

Согласно третьему принципу, в качестве единой модели связанных данных предлагается RDF, состоящая из пригодных для машинной обработки утверждений, каждое из которых имеет формальный вид «субъект — предикат — объект» и называется триплетом. RDF обеспечивает построение моделей данных, не касаясь самой семантики, отсылая за интерпретацией смысла данных к имеющимся в сети словарям и онтологиям. Подробнее использование RDF для формализации научных данных, включая данные о свойствах вещества, обсуждается в работах [4, 6]. Указанные принципы требуют идентификации каждого ресурса посредством URI, который служит не только его идентификатором, но и обеспечивает представление структурированных данных. С помощью идентификаторов устанавливаются гиперссылки между сущностями в различных документах LOD. Тем самым происходит связывание данных в сетевом пространстве, что позволяет LOD приложениям обнаруживать новые источники данных, неизвестные авторам на момент публикации.

Таким образом, ключевой момент в использовании технологии LOD — запись намеченных к публикации данных в формате RDF. В руководстве [7], применимость которого существенно шире медико-биологической тематики, для работы с которой оно исходно предназначалось, обсуждается несколько путей трансформации данных. В качестве наиболее эффективного авторы [7] рассматривают способ конверсии в RDF первичных реляционных данных (хранимых в реляционных БД), хотя в принципе имеются инструменты конверсии из других форматов, например XML, CSV, BibTex. Более того, при работе с исходно неструктурированными документами технология включает предварительную разработку схемы данных и основанной на ней БД с тем, чтобы импортировать документы в БД с последующей их конверсией в RDF-формат. Сущности, представленные в научных БД, как правило, подвержены сложным соотношениям — логическим ограничениям, математическим связям типа равенств энергии Гиббса в сосуществующих фазах, и т. п. Именно эта технология принята здесь, причем первичное хранение документов в БД позволяет обеспечить выполнение логических и математических связей между понятиями. Соответствующие процедуры логического контроля используемых данных на предмет отсутствия физических и логических несоответствий предложены в дипломной работе [8].

Для конверсии данных из реляционной БД в RDF\XML вид выбран D2R сервер, как наиболее простое некоммерческое средство, поддерживающее дереференсирование HTTP URI ресурсов [9]. Файлы отображения, необходимые для работы D2R сервера, генерируются им автоматически и затем обрабатываются вручную для совместимости с онтологией.

В полуавтоматическом режиме сгенерированы связи набора публикуемых данных с внешними наборами данных. На первом этапе определен целевой набор данных для поиска связей и вручную создан файл конфигурации связывания. Файл записан с использованием декларативного языка Silk — Link Specification Language (Silk-LSL), который является элементом Silk Link Discovery Framework [10]. Это приложение позволяет определить, какие типы RDF линков следует установить между источниками данных и каким условиям должны удовлетворять элементы данных, чтобы быть связанными с исходным набором. Приложение содержит сведения о доступе к внешнему набору данных и правила связывания, состоящие из путей к сравниваемым свойствам в RDF-документе и метрикам, по которым оценивается близость значений заданных свойств. Приложение запускается вручную и при помощи Silk Link Discovery Framework генерирует прямые связи между нашим набором данных о веществах и их свойствах и заданным внешним набором данных.

Затем приложение траверсирует RDF представления внешних ресурсов, то есть находит связи owl:sameAs, rdf:seeAlso и skos:closeMatch сранее связанными ресурсами, связи следующих порядков. Связи группируются по внешним наборам данных, которые идентифицируются при помощи их VOID-дескрипторов, обеспечивающих RDF наборы метаданными [11]. Глубина поиска задается в конфигурации. Найденные связи сохраняются в реляционной БД, откуда затем публикуются при помощи D2R сервера. За счет связи собственного набора данных с наборами данных, которые являются центрами кластеров предметно-ориентированных данных (в данном случае, данных по физическим свойствам) в пространстве LOD, удалось получить цепочки связей, ведущих от оригинальных данных к данным из других областей.

Для решения задач семантической интеграции публикуемых в LOD данных о свойствах веществ, ключевую роль играют словари и онтологии, позволяющие отразить базовые понятия. Первая из онтологий, которая выбрана для представления понятий, связанных со свойствами вещества, QUDT — Quantities, Units, Dimensions and Data Types in OWL and XML [http://qudt.org/]. Семантика QUDT основана на анализе размерностей, записанном на языке OWL. Здесь же конкретизируется семантика величин и единиц измерения. Спецификация QUDT обеспечивает интероперабельность и обмен данными за счет доступности в машинно-читаемой форме.

Наиболее полный словарь химических форм, то есть названий веществ, стандартизованных в международной практике, включен в ChemSpider [www.chemspider.com/], открытую в сети БД, поддерживаемую Королевским химическим обществом (RSC) Великобритании. Он содержит данные для более, чем 30 млн. соединений примерно из 400 источников записей. Используется как платформа для аннотирования и сопровождения существующих данных. БД рассматривается как полезный источник сведений о веществе, особенно при отображении его названий. В частности, БД позволяет провести отображение между ChemSpider identifiers (CSIDs) иоригинальным источником данных. Например, при поиске в БД вещества под названием “hydrogen” БД выдает его уникальный номер и соответствующий URI, CSID:762 [http://www.chemspider.com/Chemical-Structure.762.html]. По запросу ChemSpider выдает подробную запись, включая перечень названий-синонимов, данные о свойствах, источниках и т. п., причем название вещества в запросе ChemSpider меняет на рекомендованное-“dihydrogen”.

Наряду с этими специализированными источниками, полезным оказался и универсальный в плане тематики ресурс DBpedia [http://dbpedia.org]. В этом ресурсе можно найти сведения различной полноты практически для всех физических свойств наиболее распространенных веществ, причем для последних используются различные синонимы. Преимущества ресурса: охват множества предметных областей; согласованные действия сообщества; автоматическое отслеживание изменений в исходном ресурсе Википедия; поддержка множества языков. Как следствие, использование ссылок на DBpedia позволяет достаточно адекватно и всестороннее отражать содержание публикуемого в LOD документа. При дальнейшей работе предполагается использовать общий список доступных словарей и онтологий LOV [12]. Этот ресурс может рассматриваться как исходная точка при поиске в постоянно расширяющемся множестве RDFS словарей или онтологий, классифицируемых посредством метаданных и взаимно связанных посредством спецификации VOAF [http://purl.org/vocommons/voaf], идентифицирующих словари, используемые в Linked Data Cloud [13].

Таким образом, нам удалось отработать достаточно универсальную и хорошо адаптированную к предметной области технологию представления и связывания (по сути, интеграции) численных данных по теплофизическим свойствам. Тем самым обеспечена принципиальная возможность глобального распространения публикуемых в LOD данных при унификации, за счет доступных словарей и онтологий, всей необходимой терминологии, единиц измерения и прочих элементов.

Литература:

1. Thanos C. A Vision for global research data infrastructures, Data Science Journal, 2013, Volume 12, 71–90

2. Karagiannis F., Keramida D., Ioannidis Y., et al. Technological and organizational aspects of global research data infrastructures towards year 2020. Data Science Journal, 2013, Volume 12, GRDI1- GRDI5

3. О. М. Атаева, А. О. Еркимбаев, В. Ю. Зицерман, Г. А. Кобзев, В. А. Серебряков, К. Б. Теймуразов, Р.И. Хайруллин. Интеграция данных по теплофизическим свойствам веществ методами онтологического моделирования. В сборнике: Электронные библиотеки: перспективные методы и технологии, электронные коллекции. XV Всероссийская научная конференция. Ярославль, Россия, 14-17 октября 2013 года. – Ярославль: ЯрГУ, 2013.- 422 с. ISBN 978-5-8397-1004-7. Доступно по ссылке http ://rcdl 2013.uniyar .ac .ru /doc /full _text /rcdl _ataeva _i _dr .pdf

4. А. О. Еркимбаев, В. Ю. Зицерман, Г. А. Кобзев, В. А. Серебряков, К. Б. Теймуразов. Технология научных публикаций в среде «Открытых связанных данных». Научно-техническая информация. Серия 1. 2013, № 12, стр. 1–11.

5. T. Berners-Lee. Design Issues: Linked Data. Доступно по ссылке: www.w3.org/DesignIssues/LinkedData.html.

6. И. А. Радченко Использование открытых данных в научных исследованиях. Информационное общество, 2013, вып. 1–2, стр. 93–101

7. Health Care and Life Science (HCLS) Linked Data Guide. Доступно по ссылке: www.w3.org/2001/sw/hcls/notes/hcls-rdf-guide/

8. Устинова Е. С. Дипломная работа «Интеграция данных по свойствам веществ в специализированное пространство связанных данных». МГУ им. М. В. Ломоносова. Факультет вычислительной математики и кибернетики. Кафедра системного программирования. 2014.

9. Satya S. Sahoo et al. A Survey of Current Approaches for Mapping of Relational Databases to RDF. W3C RDB2RDF Incubator Group January 08 2009. Доступно по ссылке: http://www.w3.org/2005/Incubator/rdb2rdf/RDB2RDF_SurveyReport.pdf

10. Volz, J. et al. Silk — A Link Discovery Framework for the Web of Data. Proceedings of the 2nd Workshop on Linked Data on the Web. (LDOW2009).

11. Keith Alexander (Talis) et al. Describing Linked Datasets with the VoID Vocabulary. W3C Interest Group Note 03 March 2011. Доступно по ссылке version: ttp://www.w3.org/TR/void/

12. Linked Open Vocabularies, Доступно по ссылке http://lov.okfn.org/dataset/lov/.

13. The Linking Open Data cloud diagram, Доступно по ссылке http://lod-cloud.net

[1] Работа выполнена при поддержке РФФИ, проект № 13–07–00218.

Молодой учёный

Представление и интеграция данных по свойствам веществ в рамках технологий Linked Open Data

Представление и интеграция данных по свойствам веществ в рамках технологий Linked Open Data

Молодой учёный