Метод преобразования текстового документа OpenDocument в заданный XML-формат

Чернышов Александр Викторович; Евдокимова Елена Юрьевна

На ежегодной пресс-конференции от 17 декабря 2015 года Президент России В. В. Путин в очередной раз подчеркнул необходимость импортозамещения в стратегически важных отраслях народного хозяйства. Несмотря на то, что с юридической точки зрения в данный момент импортозамещение в сфере IT напрямую относится только к государственным закупкам программного обеспечения (ПО), в свете сложившейся нестабильной ситуации с иностранными производителями многие частные компании заинтересованы в переходе на ПО, возможность использования которого не будет зависеть от межгосударственных или иных ограничений.

В связи с указанными обстоятельствами в настоящее время актуален круг вопросов, связанных с переходом к использованию ПО с открытым исходным кодом, открытых форматов представления данных, а также разработкой собственного ПО, предполагающего использование таких форматов.

Одной из областей, для которых характерно в настоящее время активное внедрение информационных технологий, является музейное дело. Реализован ряд проектов перевода в цифровой формат широкого круга традиционных источников информации (рукописей, архивных документов, фотоматериалов и т. д.); разрабатываются информационные системы (ИС), предназначенные для организации работы исследователей текстовых исторических источников [1, 2, 3, 4]. Федеральным архивным агентством в рамках ведомственной Программы информатизации ведутся работы по формированию методических материалов, направленных на стандартизацию процессов создания, хранения, учета и использования электронного фонда копий архивных документов на бумажных носителях [5]. При этом специалисты в области информатизации учетно-фондовой работы музеев констатируют тот факт, что, хотя уже достаточно очевидна ведущая роль информационных технологий и цифрового контента в этой сфере, бесспорные и общепризнанные подходы к организации хранения оцифрованных исторических документов еще только предстоит выработать или найти [6]. То же самое касается и адекватных методов работы историков с оцифрованными документами. На данный момент типичный подход к организации ИС музея выражается в следующей схеме работы:

 документы и рукописи проходят стадию оцифровки и распознавания текста с помощью некоторой OCR-системы;

 затем наступает стадия, которую условно назовем «специальной обработкой»; характер этой обработки зависит от специфики конкретной ИС и принятых в музее процедур работы;

 в результате специальной обработки документ приводится к требуемому формату хранения, после чего помещается в базу данных (БД) ИС;

 из БД документ может извлекаться запросом по разным критериям.

Такой подход применен, например, в [7]. Однако следует заметить, что авторы данной разработки предлагают для специальной обработки оцифрованных документов использовать «…любой xml- или стандартный текстовый редактор», что весьма затрудняет привлечение к этой обработке профессиональных историков, которые не являются специалистами в области IT. Кроме этого, авторы разработки ограничились общепринятой задачей — созданием ИС, позволяющей по определенным запросам извлекать и предоставлять для изучения электронные копии определенных документов.

На самом деле современные информационные технологии позволяют ставить задачу оцифровки архивов бумажных документов значительно шире. Известно, что большое количество хранящихся в архивах документов никогда не было опубликовано. Публикация таких документов в виде тематических сборников позволила бы решить задачу ввода их в научный оборот. Оцифровка архивных документов позволяет не только поместить их электронные копии в БД ИС, но и сильно упрощает процесс подготовки их к публикации — фактически предоставляет уже набранный материал, готовый для вёрстки.

Однако здесь кроется неочевидная на первый взгляд проблема. Сборник опубликованных документов лишь тогда имеет научную ценность, когда он снабжён необходимыми указателями (мест, событий, персоналий и т. п.). А формирование таких указателей — сложный процесс, требующий вычитки уже составленного сборника специалистом историком.

Таким образом, при реализации процесса оцифровки документов, в частности, на этапе специальной обработки, должна быть поставлена задача выделения в тексте документов специальными командами разметки не только логических частей документов (заголовков, абзацев и т. п.), но и потенциально интересных ссылочных объектов (географических мест, событий, имён персоналий и т. п.), что в дальнейшем позволит автоматизировать процесс формирования указателей при составлении сборников документов, а это в свою очередь позволит минимизировать трудозатраты на подготовку таких сборников к печати. И поскольку такая работа граничит с научным описанием исторических документов, такую работу очевидно должен выполнять не технический специалист IT, а специалист историк, которому должен быть предоставлен удобный инструментарий, требующий минимальных усилий на изучение и освоение.

Таким образом, для решения описанной задачи необходимо следующее:

 разработать формат разметки XML, в котором документы будут храниться в БД. Этот формат должен иметь команды разметки как логических частей документа, так и потенциальных ссылочных объектов;

 разработать метод специальной обработки (разметки) документов в привычном оператору — не профессионалу в области IT, — редакторе. Метод должен позволить рядовому уверенному пользователю редактора простыми стандартными средствами редактора выполнять разметку элементов текста, предусмотренных в предыдущем пункте. Составной частью метода должна также являться программа для преобразования формата разметки документа, сформированного редактором, в формат разметки БД;

 разработать метод автоматизированного формирования сборника.

Настоящая статья посвящена разработке метода специальной обработки (разметки) документов как до сих пор не имеющему удовлетворительного решения и наиболее критичному, поскольку именно этот метод должен позволить привлечь к работе специалистов историков.

Авторам представляется, что наиболее удобным подходом к решению задачи является использование для целей специальной обработки программы текстового процессора одного из распространённых офисных пакетов, который позволяет сохранять результаты своей работы в формате, имеющем в основе XML. Большинство современных пользователей компьютеров, включая специалистов гуманитарных профессий, к которым относятся и историки, на сегодняшний день уже являются более или менее уверенными пользователями офисных программ, то есть для них такая рабочая среда является привычной. Получить же из документа в формате XML офисного пакета документ в формате XML БД ИС возможно автоматическим способом методом XSLT-преобразования по однажды разработанной программе.

В качестве офисного пакета авторы выбрали LibreOffice, формат документов которого odt (OpenDocument) [8, 9] построен на базе XML, хорошо документирован и является на сегодня международным стандартом.

Оператор, освоивший базовые методы ввода и редактирования текста в редакторе LibreOffice Writer, без труда сможет выполнить необходимые манипуляции:

 по коррекции ошибок оцифровки, выявляемые при сверке исходного бумажного документа и его оцифрованной копии;

 по выделению в тексте заголовков, абзацев, иллюстраций с подписями и других логических элементов текста.

Для разметки объектов, представляющих потенциальный интерес в качестве ссылок из сводных указателей, авторы предлагают использовать метод выделения соответствующих элементов текста цветовыми маркерами, что не должно вызвать каких-либо проблем у операторов даже базового уровня подготовки.

Анализ научных изданий выявил следующие типы сводных указателей, которые потенциально возможны и для автоматического формирования которых требуется наличие соответствующей разметки в текстах документов:

 указатель имён;

 указатель событий;

 указатель организаций и учреждений;

 указатель географических объектов и адресов;

 указатель автографов.

Проведённые эксперименты показали, что наиболее удобна для операторов при разметке и для дальнейшего автоматического преобразования XSLT-программой следующая схема:

 указатель на имя выделяется в тексте желтым маркером;

 указатель на событие — красным;

 на организацию (учреждение) — синим;

 на географические объекты (адреса) — зеленым;

 на автограф — фиолетовым.

Критерий выбора цветов здесь — простота их визуальной дифференциации (оператор должен легко различать цвета «на глаз» — это облегчит запоминание системы обозначений и ускорит работу оператора в дальнейшем).

Для исключения ошибок разметки используются возможности текстового редактора LibreOffice Writer в части настойки пользовательского интерфейса:

 «лишние» цвета маркера убираются из поля зрения оператора путем настройки панели форматирования текстового редактора;

 «нужные» цвета переименовываются согласно описанной выше схеме.

Таким образом, после настройки среды работы оператор видит в палитре лишь пять цветов, необходимых для разметки, названных, соответственно, «имя», «событие», «организация», «географический объект», «автограф».

Достигается это исправлением файла конфигурации стандартной палитры LibreOffice Writer standard.soc, который находится в директории ~/.config/libreoffice/4/user/config (в debian-подобных ОС). Файл standard.soc содержит описание цветов палитры в формате XML. Каждому цвету соответствует узел XML с атрибутами draw:name (название цвета, каким его видит пользователь в палитре) и draw:color (код цвета в hex-формате).

Для переноса настроек LibreOffice Writer на другую машину требуется просто скопировать исправленный файл конфигурации либо загрузить его из меню редактора Сервис — Параметры — LibreOffice — Цвета.

Аналогично, посредством редактирования и переноса конфигурационных файлов LibreOffice, выполняется полная настройка среды работы оператора с тем, чтобы оставить в поле зрения только необходимые для разметки элементы пользовательского интерфейса (стили абзацев, заголовков, изображений и т.д.).

В результате выполнения разметки получается документ в формате odt, который не теряет своей читабельности, может быть легко проверен на корректность другим оператором, а при необходимости исправлен и доработан.

Документ в формате odt продставляет собой пакет XML-файлов [9]. С точки зрения задач данной работы интерес представляют:

 файлы content.xml и styles.xml;

 директория архива odt /Pictures.

content.xml включает содержательную часть текстового документа, а также информацию о непосредственном форматировании. Так, когда оператор выделяет в тексте красным маркером указатель на событие, генерируется следующий фрагмент файла content.xml:

Выделенные в исходном документе индексируемые участки текста в результате применения к ним предусмотренного данным методом XSLT-преобразования заключаются в результирующем документе в теги … с атрибутом «type», содержащем информацию о принадлежности выделенного слова (словосочетания) к определенной категории указателей.

styles.xml — это описание так называемых общих стилей — т. е. тех, что пользователь текстового редактора видит в разделе «Стили и форматирование», например, «Заголовок1», «Основной текст» и т.п.

Директория Pictures содержит все изображения документа в случае наличия таковых. Изображения именуются уникальным именем. На это имя ссылается файл content.xml там, где требуется внедрить изображение. Разработанный метод позволяет отразить связь текстового документа с внедренными изображениями в формате хранения.

Предложенный метод специальной обработки оцифрованных документов позволяет привлечь к работе по разметке документов перед их размещением в БД ИС специалистов историков, являющихся уверенными пользователями офисного пакета программ, но не являющихся специалистами в сфере IT. Привлекаемым специалистам не требуется наличие каких-либо специальных знаний из области IT. В частности, им нет необходимости знакомиться с методами разметки документов в формате XML.

Как следствие, появляется возможность ставить при специальной обработке документов задачи более сложные, чем просто разметка документов для их размещения в БД ИС. В частности, появляется возможность выделения (специалистами) в документах объектов, представляющих исторический интерес при их последующем изучении.

Литература:

Варфоломеев А. Г., Кравцов И. В., Филатов В. О. SVG-визуализация в цифровых библиотеках рукописных документов [Электронный ресурс] // Труды 9-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL’2007. Переславль-Залесский, 2007. — URL: http://rcdl.ru/doc/2007/paper_51_v2.pdf (дата обращения: 01.10.2015).
Варфоломеев А. Г., Кравцов И. В., Филатов В. О. Информационная система для работы с полнотекстовыми базами данных исторических документов на основе технологии XML. [Электронный ресурс] // Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции. — URL: http://rcdl.ru/doc/2006/paper_34_v1.pdf (дата обращения: 20.04.2015).
Филатов В. О. Специализированный XML–редактор для создания полнотекстовых баз данных на основе изображений исторических источников // Информационный бюллетень Ассоциации История и компьютер. — 2006. — № 34. — С. 67-69.
XML и компьютерное источниковедение. [Электронный ресурс] // Информационный бюллетень Ассоциации «История и компьютер». — 2006. — № 34. — URL: http://aik-sng.ru/node/242 (дата обращения: 01.10.2015).
Методические рекомендации по электронному копированию архивных документов и управлению полученным информационным массивом / Ю. Ю. Юмашева. — М.: ВНИИДАД, 2012. — с. 125.
Юмашева Ю. Ю. Архивы будущего начинаются сегодня [Электронный ресурс] // Вестн. Перм. ун-та. Сер.: История. — 2011. — № 2 (16). — С. 69-78. — URL: http://cyberleninka.ru/article/n/arhivy-buduschego-nachinayutsya-segodnya (дата обращения: 20.12.2015).
Замоздра Г. Н., Сапожников А. И. Источниковедческий анализ духовных грамот московских князей XIV века: опыт применения технологий XML // Вестник Челябинского государственного университета. — 2009. — № 41 (179). — Вып.38 . — с. 154-161.
Информационная технология. Формат Open Document для офисных приложений V1.0. ГОСТ Р ИСО/МЭК 26300-2010 [Электронный ресурс] // Федеральное агентство по техническому регулированию и метрологии (РОССТАНДАРТ). — URL: http://protect.gost.ru/v.aspx?control=8&baseC=-1&page=0&month=-1&year=-1&search=&RegNum=1&DocOnPageCount=15&id=169179&pageK=458EB0E2-955A-4260-9F44-9B6BBB5392AE (дата обращения: 17.05.2015).
2 OpenDocument Documents, Consumers and Producers // OASIS Open Document Format for Office Applications (OpenDocument) Version 1.2. URL: http://docs.oasis-open.org/office/v1.2/os/OpenDocument-v1.2-os-part1.html#__RefHeading__440346_826425813 (дата обращения: 25.03.2016).
Мангано С. XSLT. Сборник рецептов. — М.: ДМК Пресс, 2008. — 864 с.

Молодой учёный

Метод преобразования текстового документа OpenDocument в заданный XML-формат

Метод преобразования текстового документа OpenDocument в заданный XML-формат

Молодой учёный