Информационно-поисковые тезаурусы: основные понятия, назначение и методика разработки. Отраслевой рыболовный тезаурус

Лафтими, Имад

Составление тезауруса считается одним из сложнейших видов человеческой деятельности, которая требует участия различных специалистов, в том числе лингвистов, специалистов по информационной технологии, специалистов данной отрасли науки и технологии и т.д.

Термин «тезаурус» употребляется по отношению к различным лингвистическим ресурсам и словарям:

1). Во-первых, тезаурусом называется особый вид словарей – идеографический, лексика в которых организуется по тематическому принципу. Первым такого рода словарем явился знаменитый Тезаурус Роже, созданный в 19 веке. Основное назначение таких словарей – помощь в подборе синонимов и близких по смыслу слов при написании текста.

2). Второй тип тезаурусов – информационно-поисковые тезаурусы, описывающие отношения между терминами предметной области. Такие словари создаются экспертами в некоторой предметной области и предназначены для помощи при информационном поиске.

3). Тезаурусами также называют относительно недавно появившиеся лингвистические ресурсы типа WordNet и EuroWordNet, описывающие отношения между лексическими значениями естественного языка как иерархическую систему групп синонимов – синсетов.

4) Ассоциативные тезаурусы, которые используют материалы двух принципиально разных ресурсов.

С одной стороны, ассоциативным тезаурусом называется словарь, описывающий психологические ассоциации между словами, возникающие у людей. Таким словарем, например, является Русский ассоциативный словарь.

Кроме того, термин «ассоциативный тезаурус» употребляется для ссылки на ресурсы, создаваемые автоматически на основе обработки текстовых коллекций и показывающие совместную встречаемость пар слов в документах.

Между всеми этими употреблениями термина «тезаурус» есть существенное сходство. Никитина С.Е. определяет тезаурус как словарь с концептуальным входом и фиксированными семантическими связями между его единицами. Она подчеркивает, что для определения тезауруса существенны оба указанных независимых признака. В частности, существуют словари, обеспечивающие концептуальный вход, например, по набору синонимов, при этом отношения между словами описывают традиционными толкованиями.

Далее рассматривается методика построения информационно-поискового тезауруса, основные понятия и назначение.

Под информационно-поисковым тезаурусом (ИПТ) понимается словарь лексических единиц информационно-поискового языка, в котором заданы парадигматические (базисные) смысловые отношения между этими единицами [3, с. 5-7].

Информационно-поисковый язык, ИПЯ: Формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска [4].

Информационно-поисковые тезаурусы строятся для описания лексики дескрипторных ИПЯ, лексическими единицами которых являются дескрипторы.

Лексическая единица информационно-поискового языка (ЛЕ). Обозначение отдельного понятия, принятое в информационно-поисковом языке и неделимое в этой функции.

Примечание – лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка, например коды классов классификационной системы [4].

Дескриптор – это ключевое слово, выбранное из группы условно эквивалентных ключевых слов и представляющее данную группу при индексировании и поиске информации. Дескриптор также описывается как смысловая доминанта, или основное понятие с относящимся к нему словом, подобно заголовочному слову в толковом словаре. В роли дескрипторов выступают термины, обозначающие отдельные понятия некоторой предметной области и удовлетворяющие принципам общеупотребительности, распространенности, краткости и терминологической точности.

Ключевое слово (КС) – отдельное слово или словосочетание естественного языка, выделяемое из текста информационного документа и отражающее его основное содержание при индексировании.

Группа условно эквивалентных КС объединяет не только те слова и словосочетания, которые признаются синонимами в естественном языке, но и такие, которые можно считать условно равнозначными с точки зрения информационного поиска, т. е. в рамках данного ИПЯ.

Парадигматические (базисные, аналитические, ассоциативные) отношения выражают постоянные семантические (смысловые) связи между ЛЕ ИПЯ, не зависящие от текста. Таковыми признаются отношения «род – вид», «целое – часть» и т. п. Они являются стабильными для каждой предметной области и могут быть зафиксированы в словаре.

Например, судак, лещ, сибас, форель относятся к семантической категории «Рыбы», т.е. отношение «род-вид» между дескрипторами рыбы – судак являются контекстуально не зависимыми. Это парадигматическое отношение.

В ИПТ обычно фиксируются следующие парадигматические отношения: родо–видовые, отношения эквивалентности, ассоциативные отношения.

Отношение «род – вид» связывает два дескриптора, если объем понятия, соответствующий одному из дескрипторов, включает в себя объем понятия другого дескриптора, например, рыба – форель, рыболовные снасти – удочка, способы ловли рыбы – спиннинг.

Отношение синонимии означает, что поиск по одному из условных или истинных синонимов позволит найти в базе данных автоматизированной информационной системы (АИС) те документы, которым приписаны в качестве ключевых слов остальные.

Например, рыболовство = рыбная ловля = рыбный промысел.

Ассоциативные отношения устанавливаются между КС, принадлежащими к одной и той же или разным смысловым категориям и произвольным уровням иерархии. Они аналогичны ассоциативным связям в сознании человека, когда возникающее представление об одном объекте вызывает представления о других.

Например, при поиске по дескриптору Рыболовство пользователю АИС можно предложить провести дополнительные поиски по дескрипторам: отрасль промышленности, сырьевые ресурсы Мирового океана, водохранилища, виды рыб, млекопитающие, моллюски, способы рыбной ловли, снасти и т.д.

Ассоциативные связи, как правило, не различают в ИПТ по их семантике. Однако имеет смысл упомянуть следующие виды ассоциаций: «целое – часть»;

«причина – следствие», «близость в пространстве или во времени», «антонимия», «предмет – обычая область его применения» и т.д. [3, с. 5-7].

В соответствии с определениями стандартов, информационно-поисковый тезаурус – это нормативный словарь, точно указывающий отношения между терминами и предназначенный для описания содержания документов и поисковых запросов.

Основными целями разработки информационно-поисковых тезаурусов являются следующие:

Обеспечение перевода документов и запросов пользователей на один и тот же словарь, используемый для индексирования и поиска. Таким образом, различия в лексическом составе документа и запроса пользователя сводятся к одним и тем же единицам тезауруса.
Обеспечение последовательного использования единиц индексирования.
Обеспечение отношений между терминами – отношения между единицами тезауруса позволяют найти оптимальный термин для описания документа или запроса.
Использование как поискового средства при поиске документов.

Информационно-поисковые тезаурусы создавались как инструмент для ручного описания документов специалистами-индексаторами. Поисковый запрос также предполагалось формулировать на основе единиц тезауруса.

Итак, при разработке информационно-поисковых тезаурусов первой задачей является отбор терминов для включения в тезаурус. Существует несколько возможных источников терминов для разработки информационно-поисковых тезаурусов.

Прежде всего, должны быть изучены существующие тезаурусы в близких предметных областях. Они могут содержать значительное количество полезных терминов для нового тезауруса. Термины – кандидаты на внесение в тезаурус – могут быть предложены экспертами предметной области. Кроме того, термины тезауруса могут быть получены из текстов предметной области применением автоматизированных методов или ручной обработки документов. При ручной обработке документов сначала некоторое время индексаторы индексируют поступающие документы наиболее релевантными ключевыми словами, которые затем сводятся в единый список, способный служить основой для тезауруса [1, с. 24-32].

После того, как список терминов-кандидатов получен, из него исключаются слишком частотные термины, поскольку предполагается, что они являются малоинформативными для различения отдельных документов. Относительно малочастотные термины могут быть удалены из списка или представлены как аскрипторы более общих или более частотных понятий.

Герд предлагает исключать некоторые конкретные термины, так как тезаурус, в котором много уровней иерархии, труден в использовании: возрастает субъективность индексирования, т. к. индексаторы могут использовать для индексирования документов дескрипторы разного уровня [7].

Если в списке обнаруживается несколько близких по смыслу терминов, то из них выделяется наиболее частотный термин, остальные термины могут быть исключены и переведены в аскрипторы [1, с. 24-32].

Разработчики тезауруса LIV Исследовательской службы Конгресса США (LIV, 1994) описывают правила включения терминов в тезаурус следующим образом:

Термины тезауруса должны представлять понятия, которые реально упоминаются в литературе, и должны отбираться из соображений эффективности их использования в поиске документов.
Важным фактором включения термина является частотность его упоминания в текстах, которую необходимо периодически проверять.
Включение новых терминов в тезаурус должно происходить с учетом уже включенных тезаурусных терминов. Термины-кандидаты должны проверяться на предмет соответствия их общности / специфичности к другим терминам тезауруса. Также должно проверяться, представляет ли термин-кандидат отдельное понятие, которому нет соответствий среди существующих терминов тезауруса. Необходимо избегать включения терминов, чьи значения пересекаются со значениями уже существующих тезаурусных терминов настолько, что индексаторам и пользователям будет трудно различать их [6, с. 157].

Таким образом, для разработки актуального и хорошего информационно-поискового тезауруса, необходимо соблюдать следующие основыне критерии:

набор дескрипторов тезауруса должен быть достаточен для описания произвольного документа предметной области, в частности, "Рыболовство";
количество дескрипторов не должно быть слишком большим.

Литература:

Архангельская В.А., Базарнова С.В. Информационно-поисковый тезаурус по экономике и демографии [Текст] /В.А. Архангельская, С.В. Базарнова – 2001, с. 24-32.
Лавренова О.А. Моделирование семантической текстов научно-технического содержания в связи с автоматизацией информационных процессов. Диссертация кандидата филологических наук: 10.02.21
Лавренова О.А Методика разработки информационно-поискового тезауруса [Текст] / О.А. Лавренова – Москва, 2001-с.5-7.
ГОСТ 7.74-96 СИБИД. Информационно-поисковые языки. Термины и определения.
СИБИД. Тезаурус информационно-поисковый одноязычный: Правила разработки: структура, состав и форма представления: Межгосударственный стандарт 7.25. – Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001.
Соловьев В.Д., Добров Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы: Учебное пособие [Текст] / В.Д. Соловьев, Б.В. Добров, Н.В. Лукашевич – Казань, Москва, 2006-с.157.
ANSI/NISO Z39.19-2005, “Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies”, http://www.niso.org/standards/resources/Z39-19-2005.pdf
http://like-money.ru/stati/124-osnovnye-princzipy-razrabotki-tezaurusov-chast-1.

Информационно-поисковые тезаурусы: основные понятия, назначение и методика разработки. Отраслевой рыболовный тезаурус

Библиографическое описание:

Похожие статьи

Проблема построения информационно-поискового тезауруса

Общая характеристика и критерии классификации словаря...

Внедрение современных методов автоматизированного тезауруса...

Формирование и ведение словарей в корпусе тувинского языка

Понятийно-терминологический тезаурус проблемы...

Агрономическая терминология: некоторые особенности перевода