Библиографическое описание:

Лафтими И. Общая характеристика и критерии классификации словаря тезаурусного типа // Молодой ученый. — 2011. — №12. Т.1. — С. 252-255.

В статье представлена краткая характеристика словаря тезаурусного типа, специфика словаря. Рассматриваются категории классификации тезаурусов с точки зрения различных подходов. Далее представляются некоторые существующие специальные информационно-поисковые тезаурусы в русском и арабском языках.

Ключевые слова: тезаурус, лексическая единица, информационно-поисковый язык, дескриптор, аскриптор, классификация тезаурусов, идеографический тезаурус, учебный идеографический словарь, аналогический словарь, общеязыковые тезаурусы, информационно-поисковые тезаурусы.

Тезаурус (от греческого слова θησαυρός — сокровище) в современном смысле означает «всю сумму накопленных знаний». Голландский лингвист П.В. Стеркенбург в книге «A Practical Guide to Lexicography» представляет три различных определения тезауруса:

  • толковый словарь, составленный с целью представления всего словарного состава языка;

  • словарь синонимов;

  • тематический словарь, который "представляет значения слов и словосочетаний, расположенных по тематическим категориям" [9,с.142-143].

Ю.Н. Караулов определяет тезаурус как «словарь, который в явном виде фиксирует семантические отношения между составляющими его единицами <…>.» [1,с.148] Единицей тезауруса или лексической единицей (далее – ЛЕ) информационно-поискового языка (ИПЯ) является слово, словосочетание или лексически значимый компонент сложного слова естественного языка, термины, представленные словами или словосочетаниями, включенные в тезаурус в качестве дескриптора или аскриптора (стандарт ГОСТ 7.25.2001, п. 3.1. «СИБИД. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления»).

Тезаурусы можно классифицировать по следущим критериям:
  • тип смысловых связей между единицами словника;

  • объем словника;

  • генерализованность словника;

  • разработка значения лексем;

  • грамматико-стилистическая квалификация лексем;

  • демонстрация функционирования лексем;

  • количество представленных языков;

  • тип семиотических средств, используемых для семантизации лексем.

При рассмотрении общих методологических принципов классификации понятий, В.В. Морковкин выделяет три типа идеографических словарей: 1) идеографический тезаурус; 2) учебный идеографический (тематический) словарь; 3) аналогический словарь:



При этом главной задачей составителя словаря первого типа является идентификация и последующая рациональная классификация понятийных групп, реально представленных в лексике языка. Цель составления аналогических словарей - это представление тематической организации лексики, не отказываясь от принципа алфавита. При создании учебных тематических словарей главной является задача отбора тем, актуальных для учебных целей [4,с. 22].

По стандартам группы ISO, которая в основном рассматривает информационно-поисковые тезаурусы, тезаурусы классифицируются по двум основаниям - применение и количество языков. Следующая схема демонстрирует Основные типы тезаурусов.

В отличие от В.В. Морковкина, Ю.Н. Караулов рассматривает два основных типа тезаурусов: 1) общеязыковые и 2) информационно-поисковые. На самом деле, он отмечает что, «принципиальной разницы между общеязыковым и информационно-поисковым тезаурусом нет: тезаурус является лексическим инструментом информационно-поисковых систем. Он состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи» [1,с.148]. При этом целью общеязыковых тезаурусов является полное описание и лексическое представление некоторой области объективной действительности, а информационно-поисковые имеют целью анализ и логически непротиворечивое представление существующей и общепринятой терминологии данной отрасли [1,с.156]. В результате главным отличием информационно-поисковых тезаурусов от общеязыковых следует считать предмет их действия, т.е. различие между термином и словом. Далее Ю.Н. Караулов пишет: «Отсюда становится понятными, во-первых, невозможность такой детализации дескрипторов в терминологических словарях, (…), а во-вторых, появление в классификационных схемах общеязыковых тезаурусов наряду с полноправными, так сказать, дескрипторами, и ключевых слов, которое оправдывается здесь стремлением равномерно, без лакун заполнить лексикой данную дескрипторную область и которое на основе подобной предпосылки было бы недопустимым в терминологическом тезаурусе» [1,с.156].

Общеязыковые тезаурусы, как правило, входят в число ономасиологических словарей, т.е. в отличие от алфавитных словарей, которые посвящены словам как единицам речи, они представляют связь от понятия к слову, размещая слова по их смысловой близости, облегчают достижение ближайшей к намеренному смыслу лексики. С этой точки зрения нет существенных различий между тезаурусом и идеографическим словарём [7, с.13]. Таким образом, общеязыковой тезаурус, опираясь на типологию В.В. Морковкина, можно рассматривать как любой из типов идеографических словарей, или как общий тип идеографических словарей. Так, отмечает В.В. Морковкин, разработка идеографического тезауруса, начатая в глубокой древности и основывающаяся на логической рубрикации всего понятийного содержания лексики, привела к созданию Идеографического словаря английского языка П. М. Роже [4,с.12].

Специальный информационно-поисковый тезаурус, как правило, имеет большое применение в информационном поиске в различных областях науки и техники: «По инструкции ЮНЕСКО (1970 г.) тезаурус является совокупностью нормализованных и развивающихся терминов специальной области науки, которые связанны друг с другом семантическим способом» [8,с. 19].

ИПТ служит:

• средством перевода с естественного языка на ИПЯ при инде­ксировании информационных документов и запросов;

источником сведений о полезных для поиска отношениях ме­жду дескрипторами:

терминологическим пособием при решении различных науч­но-информационных задач (в частности, предоставляет ин­формацию о составе лексики, используемой при индексиро­вании документов).

Стандарт группы ISO классифицируют информационно-поисковые тезаурусы на основе двух критериев – применения и количества языков. В информационно-поисковой системе тезаурус применяется в двух процессах хранения и поиска информации. Иерархические отношения, отношение эквивалентности и другие семантические отношения, управляющие на структуре тезауруса, облегчают поиск информации.

Тезаурус может быть одноязычным и многоязычным. Основное применение тезауруса – это извлечением данных. Оно реализуется либо в виде индексации базы данных (вручную или автоматически), либо поиска информации в данной базе [6,с. 5].

В одноязычном тезаурусе, как правило, дескрипторы, или ключевые слова и ограничительные пометы даются на одном языке. Но в Стандарте подчёркивается, что представление терминов в двух языках или более не делает тезаурус многоязычным. Многоязычный тезаурус представляет не только эквиваленты дескрипторов, но и их семантические отношения в различных языках [8,с. 29].

Далее представлены некоторые существуюшие специальные информационно-поисковые тезаурусы в русском и арабском языках.

В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотраслевой Тезаурус научно-технических терминов (Шемакин Ю.И. Москва, 1972). Тезаурус состоит из четырех разделов: лексико-семантическое собрание терминов; систематический указатель дескрипторов; указатель иерархических отношений дескрипторов; пермутационный указатель терминов. Систематический указатель дескрипторов включает 33 дескрипторных области. Тезаурус принадлежит военной технологии и большинство дескрипторных областей военных, например: Авиация; Автобронетанковая техника; Артиллерия; Военная медицина и т.д.; а каждая область включает тематические группы. Перечень дескрипторов по группам, организован по алфавитному порядку и обеспечивает доступ к дескрипторам по тематической группировке.

Тезаурус по атомной науке и технике, лексико-семантический указатель (Семенова В.Ф., Москва, Атомиздат, 1975) сосредоточивает внимание на терминах атомной технологии и науки. Тезаурус состоит из лексико-семантического и систематического указателей. Систематический указатель включает и английские эквиваленты. Тезаурусные отношения, включая родовые дескрипторы, дескрипторы первого и второго подчинения, т.е. видовые термины, иерархические и ассоциативные дескрипторы, представлены и в указателях: указательная, или информационно-поисковая информация содержится в отдельных томах.

Среди арабских специальных тезаурусов, Тезаурус Аль Жамиа (Тезаурус центра документации и информации секретариата Лиги арабских государств, Тунис, 1987). Данный тезаурус трехъязычный, включает в себя арабский, английский и французский языки. Он создан на базе ЮНБИС.

Тезаурус AGROVOC, тезаурус сельскохозяйственных терминов (Продовольственная и сельскохозяйственная организация объединенных наций, Рим, 1993). Этот тезаурус является самым большим из существующих до настоящего времени в арабском варианте. Он включает в себя 14714 дескрипторов.

Тезаурус по образованию, ЮНЕСКО, трехъязычный (арабский, английский, французский) (Бейрут, 2009) достаточно хорошо показывает структуру многоязычного тезауруса. В его создании было использовано множество научных арабских и иностранных источников, специализирующихся в этой области, включая тезаурус Аль Жамиа. Тезаурус состоит из четырех частей и включает в себя 3226 дескрипторов. Он затрагивает сферы образования, управления и администрации на различных этапах и уровнях; психологии образования, педагогики; биржи труда в области образования (преподавателей, профессоров, студентов разных классов и степеней); географии. Были использованы Стандарты группы ISO 2788:1986 и ISO 5964:1985. Объем тезауруса достиг таких размеров, что затрагивает 272 области.

Заключение.

Таким образом, тезаурус определяется как средство управления словарным составом языка в целях облегчения поиска данных. При этом обще структура тезауруса определяется на основе его главной задачи и схемы, хотя принципиальной разницы между общеязыковым и информационно-поисковым тезаурусом нет.

Общеязыковые тезаурусы основываются на логической рубрикации всего понятийного содержания лексики, но в терминологических словарях така детализация дескрипторов становится невозможной, т. к. термины каждой отрасли науки и технологии приобретают свое особенное значение исключительно в рамках данной отрасли. При этом в последние десятилетие тезаурусы разрабатывались практически для всех отраслей деятельности, а также было создано достаточно большое количество специализированных тематических тезаурусов.


Литература:

  1. Караулов, Ю.Н. Лингвистическое конструирование и тезаурус литературного языка [Текст] / Ю.Н. Караулов - Наука, Москва, 1981.- с.148-150.

  2. Караулов, Ю.Н. Русский семантический словарь. Опыт автоматического построения тезауруса / Ю.Н. Караулов - Москва, 1982.

  3. Кобозева, И.М. Лингвистическая семантика [Текст] / И.М. Кобозева - УРСС, Москва, 2004.- с.125.

  4. Морковкин В. В. Идеографические словари [Текст] / В.В. Морковкин -Москва, 1970-с.12-22.

  5. Шемакин, Ю.И. Тезаурус научно-технических терминов / Ю.И.Шемакин - Военное издательство Министерства обороны СССР, Москва, 1972.

  6. Aitchison J. Thesaurus Construction and Use: a Practical Manual [Текст] / J. Aitchison-Iran, 2000-с 5.

  7. Hüllen, W. English Dictionaries 800-1700: The Topical Tradition / W. Hüllen - Oxford Clarendon Press, UK, 1999.

  8. Mohammedi. F. The process of creating a thesaurus [Текст] / F. Mohammedi-Iran, 2007- 19,29.

  9. Sterkenburg, P.V. Onomasiological Specifications and a Concise History of Onomasiological Dictionaries, A Practical Guide to Lexicography [Текст] / P. V. Sterkenburg John Benjamin’s Publishing Company, Amsterdam /Philadelphia, 2003. - с.142-143.

  10. ГОСТ 7.25-2001 "СИБИД, Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления"

  11. http://gsnti-norms.ru/norms/common/doc.asp?0&/norms/stands/7_25.htm

  12. СИБИД, Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению" ГОСТ 7.24-90.

  13. http://gsnti-norms.ru/norms/common/doc.asp?0&/norms/stands/7_24.htm

Обсуждение

Социальные комментарии Cackle