Внедрение современных методов автоматизированного тезауруса в учебно-информационный процесс | Статья в журнале «Молодой ученый»

Автор:

Рубрика: Спецвыпуск

Опубликовано в Молодой учёный №6 (86) март-2 2015 г.

Дата публикации: 19.03.2015

Статья просмотрена: 58 раз

Библиографическое описание:

Актаев Е. К. Внедрение современных методов автоматизированного тезауруса в учебно-информационный процесс // Молодой ученый. — 2015. — №6.2. — С. 3-6. — URL https://moluch.ru/archive/86/16526/ (дата обращения: 21.10.2018).

В основе создания учебно-информационных материалов, который предполагает поиск и обработку больших объемов информации связано с ростом развития и усовершенствования современных информационных методов обучения. Важным и необходимым условием внедрения данных методов является подготовка и создание инновационных проектов и обучающих информационно-поисковых программ. Обширное развитие обучающих методов данного научного течения подводит к изучению инновационных процессов и созданию новых автоматизированных информационно-поисковых систем. Для получения действующего решения и получения впечатляющих результатов данных исследований новые компьютерные технологии дают возможность применять обычные информационно-поисковые системы (ИПС) для поименнованного поиска научно-технической информации.

Любую предметную область учебно-информационной деятельности, можно описать иерархическим словарем понятий этой области — тезаурусом. Более того, для большинства предметных областей такие тезаурусы давно составлены.

Тезаурус представляет собой дерево понятий для данной предметной области, начиная с верхних, самых общих, и кончая нижними, самыми конкретными, узкими понятиями. Слова (термины) в тезаурусе обычно связаны отношениями "общее-частное", "целое-часть" и т.п.

В более расширенном смысле Тезаурус интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей. Этот носитель может выполнять функции приёмника дополнительной информации, вследствие чего изменяется и его Тезаурус, а исходный Тезаурус определяет при этом возможности приёмника при получении им семантической информации.

Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Информационно-поисковый тезаурус – это составленный по определенным правилам словарь терминов и словосочетаний, для определенной предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

В сфере применения информационно-поисковых тезаурусов различают два основных направления это индексирование документов с использованием определенных правил использующие смысловое значение текста и использование иерархических, ассоциативных и синонимичных связей при обработке поисковых запросов пользователя. Кроме этого, семантические связи между дескрипторами могут быть использованы для классификации и рубрикации документов, составлении списка связанных с запросом слов и некоторых других задачах информационного поиска. На следующем рисунке изображен пример использования тезауруса в информационно-поисковой системе:

Рис. 1. Пример использования тезауруса в информационно-поисковой системе

Тезаурус состоит из концептов, которые обычно содержат один или несколько дескрипторов связанных отношением синонимии. Дескрипторы представляют собой слова и словосочетания, отражающие основные понятия предметной области. При этом, концепты могут быть связаны ассоциативными, иерархическими и некоторыми другими типами отношений.

Рассмотрим процесс автоматизации выделения терминов предметной области из текста при наличии тезауруса.

Допустим нам дается общий тезаурус предметной области. Тогда все термины, определяющие понятия этого тезауруса, изображаны ввиде множества Хo, Y — множество терминов, находящиеся в тексте Z. Перед нами поставлена задача нахождения

F=ХoY

При этом допускаем, что исходный тезаурус полон, т.е. множество его терминов должно включать все терминологические словосочетания, используемые в тексте. Для практического выполнения данного метода достаточно наличие большинства терминов в тезаурусе. Точное значение параметра коэффициента присутствия терминов текста в тезаурусе по отношению к общему количеству терминов в тексте не удастся определить, так как на сегодняшний день отнесение или не отнесение термина к предметной области является экспертным решением.

Проблемы выделения терминологии в текстах на естественном языке как одно из ограничений, накладываемых на возможность использования метода.

Наибольшая сложность на этапе выделения терминологии предметной области из текста не в определении пересечения множеств, а в определении самих множеств Хo и Y.

И если все термины тезауруса, являясь терминологической составляющей тезауруса, изначально при построении тезауруса должны быть выделены в отдельную базу данных, то выделение множества терминов в самом тексте Z представляется более проблематичным в силу ряда особенностей естественно-языкового описания предметной области. Естественно-языковому описанию любой предметной области характерны некоторые конструкции, которые используются для свертки текста, такие как однородные члены, анафористические и эллиптические свертки. Дополнительную проблему создает омонимия. Часть проблем, связанных с однородными членами, анафористическими и эллиптическими свертками могут достаточно эффективно быть решены путем ввода в исходный тезаурус широкой базы синонимов, проблемы с разрешением вопросов омонимии могут быть эффективно решены только с помощью статистического анализа текста ближайшего окружения термина, подозрительного на омонимию. К тому или другому синонимическому узлу тезаурусного графа термин может быть отнесен исходя из наибольшего количества терминов, найденных в этом окружении, совпадающих с ближайшими терминами подозрительного на омонимию из тезауруса. В качестве ближайших терминов тезауруса, то есть близости, радиуса 1, выбираются термины, связанные с подозрительным любыми типами связей. Если этого недостаточно, можно расширять как отрезок текста, подвергаемый анализу, на котором встречается термин, подозрительный на омонимию, так и радиус окружения термина из тезауруса.

 

Рис. 2. Тезаурусный радиус для термина

 

Рисунок 2 иллюстрирует правила выделения в общем тезаурусе терминов для проведения анализа, целью которого является снятие омонимии.

Метод успешно применялся в системах машинного перевода с той разницей, что для всех возможных значений омонимов составлялся отдельный список возможных слов окружения. И эффективность метода доходила до 98%. В случае использования семантического тезауруса такая база для любого термина может генерироваться на основании самого тезауруса описанным выше методом. Однако, статистическими методами полностью преодолеть трудности выделения терминологии, связанные с естественно-языковыми свертками и омонимией не удается. В этой особенности проявляется одно из ограничений использования предлагаемых методик по автоматизации проектирования гипертекста на основе текста с использованием семантического тезауруса. Для решения таких проблем обычно пользуются методами контент-анализа, что эффективно, но дорого и долго.

 

Литература:

1.    Черный А. И., Общая методика построения тезаурусов, «Научно-техническая информация. Сер. 2», 1968, №5; Варга Д., Методика подготовки информационных тезаурусов, пер. [с венг.], М., 1970; Шрейдер Ю. А., Тезаурусы в информатике и теоретической семантике, «Научно-техническая информация. Сер. 2», 1971, № З.

2.    Холодова С.А. Некоторые принципы и методики автоматизации проектирования электронных изданий на основе печатных текстов по предметной области. — В «Интеллектуальные технологии и системы. Вып.3. — М., МГУП, 2001.

Основные термины (генерируются автоматически): предметная область, тезаурус, термин, исходный тезаурус, омонимия, использование тезауруса, семантический тезаурус, информационный поиск, текст, информационно-поисковая система.


Похожие статьи

Информационно-поисковые тезаурусы: основные понятия...

Основные термины (генерируются автоматически): предметная область, тезаурус, отношение, термин, информационно-поисковый язык, LIV, естественный язык, информационно-поисковый тезаурус, термин тезауруса, дескриптор.

Проблема построения информационно-поискового тезауруса

Построение информационно-поискового тезауруса. Тезаурусы разрабатываются для отдельных отраслей.

Основные термины (генерируются автоматически): информационно-поисковый тезаурус, предметная область, XML, словарь, термин...

Общая характеристика и критерии классификации словаря...

В информационно-поисковой системе тезаурус применяется в двух процессах хранения и поиска информации. Иерархические отношения, отношение эквивалентности и другие семантические отношения, управляющие на структуре тезауруса, облегчают поиск...

Понятийный тезаурус лингвистического анализа текста

Основные термины (генерируются автоматически): текст анализа, группа, тематическая группа, текст ЛАТ, терминологический тезаурус ЛАТ, содержательно-смысловой план текста, связь, терминологический тезаурус, удельный вес, часть речи.

Формирование и ведение словарей в корпусе тувинского языка

Под корпусом понимается информационно-справочная система

и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.

Использование интернет-ресурсов на уроках английского языка.

Агрономическая терминология: некоторые особенности перевода

Терминосистема адекватно изображает реальную систему научно-технических понятий данной предметной области [5, с.1–3].

2. Борисова Л. И. Лексические особенности англо-русского научно-технического перевода. — м.: нви-тезаурус, 2002.

Понятийно-терминологический тезаурус проблемы...

Понятийно-терминологический тезаурус проблемы профессионально-коммуникативных деформаций включает следующие основные

2) неправильный выбор языковых средств (терминологическая загруженность текста, использование языкового кода, незнакомого...

Использование учебного многоязычного терминологического...

Терминология в широком понимании соотносится с областью всех терминов естественного языка, а в

2) поиск основного и вспомогательных текстов по заданной тематике

Кроме того, работа над словарем с применением информационно-коммуникационных технологий...

Обсуждение

Социальные комментарии Cackle

Похожие статьи

Информационно-поисковые тезаурусы: основные понятия...

Основные термины (генерируются автоматически): предметная область, тезаурус, отношение, термин, информационно-поисковый язык, LIV, естественный язык, информационно-поисковый тезаурус, термин тезауруса, дескриптор.

Проблема построения информационно-поискового тезауруса

Построение информационно-поискового тезауруса. Тезаурусы разрабатываются для отдельных отраслей.

Основные термины (генерируются автоматически): информационно-поисковый тезаурус, предметная область, XML, словарь, термин...

Общая характеристика и критерии классификации словаря...

В информационно-поисковой системе тезаурус применяется в двух процессах хранения и поиска информации. Иерархические отношения, отношение эквивалентности и другие семантические отношения, управляющие на структуре тезауруса, облегчают поиск...

Понятийный тезаурус лингвистического анализа текста

Основные термины (генерируются автоматически): текст анализа, группа, тематическая группа, текст ЛАТ, терминологический тезаурус ЛАТ, содержательно-смысловой план текста, связь, терминологический тезаурус, удельный вес, часть речи.

Формирование и ведение словарей в корпусе тувинского языка

Под корпусом понимается информационно-справочная система

и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.

Использование интернет-ресурсов на уроках английского языка.

Агрономическая терминология: некоторые особенности перевода

Терминосистема адекватно изображает реальную систему научно-технических понятий данной предметной области [5, с.1–3].

2. Борисова Л. И. Лексические особенности англо-русского научно-технического перевода. — м.: нви-тезаурус, 2002.

Понятийно-терминологический тезаурус проблемы...

Понятийно-терминологический тезаурус проблемы профессионально-коммуникативных деформаций включает следующие основные

2) неправильный выбор языковых средств (терминологическая загруженность текста, использование языкового кода, незнакомого...

Использование учебного многоязычного терминологического...

Терминология в широком понимании соотносится с областью всех терминов естественного языка, а в

2) поиск основного и вспомогательных текстов по заданной тематике

Кроме того, работа над словарем с применением информационно-коммуникационных технологий...

Задать вопрос