Использование тезаурусов для автоматизации построения поисковых запросов в интернете

Ходикян Роберт Арменович

Актуальность выбранной темы обусловлена необходимостью использования тезауруса для упрощения поиска в сети и разновидных системных областях.

Ключевые слова: тезаурус, поиск, интернет, автоматизация.

The relevance of the chosen topic is due to the need to use a thesaurus to simplify the search in the network and not only.

Keywords: thesaurus, search, internet, automation.

Современный этап развития человеческой цивилизации характеризуется стремительным переходом от индустриального общества к информационному. Одним из важнейших явлений этого процесса является появление и развитие глобальной информационной компьютерной сети.

В девяностых годах прошлого столетия, с появлением Интернета общество получило доступ к огромному количеству информации из самых разных областей науки, развлечениям и многому другому — несчётное множество документов, которые находятся на разных компьютерах по всему миру. Сегодня интернет — это неструктурированный, распределенный репозиторий динамической информации немыслимых размеров, в который постоянно идет огромный поток новой различной информации, а устаревшие файлы редактируются или удаляются. Громадный и постоянно растущий объем данных приводит к тому, что обеспечить поиск в интернете становится очень важной задачей. Однако без соответствующих инструментов, проблема поиска необходимых данных или информации в настоящее время становится практически неразрешимой.

Появление поисковых систем в глобальной сети интернета стало новым этапом в развитии поиска информации. Сегодня информационно-поисковые системы (IPS) интернета эффективно используются методами поиска информации, которые разрабатывались долгие годы. И один из важных аспектов является структурный компонент IPS информационно-поисковый язык.

Бурный рост и динамичное развитие информационных ресурсов требует, чтобы каждый обладал различными продвинутыми навыками поиска. Умение быстро и правильно находить нужное в глобальной сети означает экономить время, владеть надежной и актуальной информацией и, следовательно, принимать верные решения и делать правильные выводы. Так же в связи с увеличением объема потока данных, который нужен для принятия решений, и перспективами, которые предоставляют компьютерные технологии, автоматизированные тезаурусы стали обширно использоваться во всевозможных областях человеческой деятельности. Осуществление быстрого и продуктивного поиска данных становится все более сложно решаемой проблемой. Цель поиска информации — найти и выдать данные или их описания, отвечающие запросу конечного пользователя.

Обычные информационно-поисковые системы используются для поиска различных данных в огромных библиотеках, всевозможных технических центрах, архивах. Из этого следует, что область применения технологии поиска данных представляется довольно обширной.

При автоматизации поиска документа наиболее важной задачей является детерминированное содержание файла и запроса. В таком случае поиск происходит по всему тексту документа или по его поисковому изображению, и в качестве запроса чаще всего используются отдельные ключевые слова или их логические сочетания. Именно по такому принципу основан информационно-поисковый тезаурус.

Компьютерная лексикография была свидетелем многочисленных попыток автоматического создания тезауруса. В настоящее время невозможно избежать участия эксперта в процессе создания тезауруса, однако существует множество работ, направленных на частичную автоматизацию всего процесса или его отдельных этапов.

В этой статье не используется терминологическая кластеризация, но определяется связь между терминами на основе анализа словосочетаний.

Кластерный анализ или кластеризация — это задача группирования набора объектов таким образом, чтобы объекты в одной и той же группе (называемой кластером) были более похожи (в некотором смысле) друг на друга, чем объекты в других группах (кластерах). Это основная задача интеллектуального анализа данных и общий метод статистического анализа данных, используемый во многих областях, включая машинное обучение, распознавание образов, анализ изображений, поиск информации, биоинформатику, сжатие данных и компьютерную графику.

Терминологический тезаурус можно рассматривать как доменную модель. В связи с этим в процессе его построения могут использоваться не только корпуса на естественном языке, но и семантически структурированные ресурсы, такие как словари, энциклопедии, патенты, технические или нормативные документы. В статье представлена автоматизированная система общего назначения.

Одним из ключевых моментов является использование синонимических отношений, извлеченных из словарей для термического извлечения. Следует отметить, что синонимия является особенно важным понятием для неспециализированных тезаурусов, которые менее важны для специализированных терминологических терминов, основанных, главным образом, на гиперных-гипонимных отношениях.

Гиперо-гипонимические отношения — это один из классов отношений парадигматического типа, среди которых также обозначаются синонимия, антонимия и др., образующий лексико-семантические поля и группы.

Гипер-гипонимные отношения извлекаются с использованием шаблонов (например, «A, такой как B»). Взаимосвязи между терминами устанавливаются с использованием комбинации методов машинного перевода и анализа цитирования. Обзор существующих подходов к решению проблемы автоматизации построения тезауруса позволяет выявить используемые методы и алгоритмы. Стоит отметить, что большая часть усилий в существующих работах сосредоточена на инициальном удалении терминов и определении отношений между терминами, тогда как автоматизация кластеризации терминов изучена недостаточно. Между тем, разнообразие существующих методов кластеризации делает исследования в этой области многообещающими.

Для автоматического построения терминологического тезауруса, который основан на алгоритме выбора словарных статей, по ключевым словам, (морфемам) и алгоритме кластеризации. Первый используется для создания корпуса тезауруса, а второй позволяет формировать семантические кластеры. Эффективность подхода была подтверждена путем создания тезауруса для кардиологического выражения. Следует отметить, что даже самый завершенный словарь не содержит новейшей терминологии, которая должна быть дополнительно извлечена из текстовых документов. Однако обращение к проверенному словарю создает эффективную основу для построения терминологического тезауруса. В нашем случае вариант кластеризации был удобен для создания иерархических отношений в тезаурусе. Слова в отдельном кластере были либо связаны непосредственно с одним кластером, они были легко разделены на группы, связанные с различными кластерами. Такой эффект, обусловлен морфологической однородностью терминов внутри целевого домена. Это должно сделать предлагаемый подход применимым для построения тезауруса в других профессиональных областях.

Литература:

Клещев А. С., Шалфеева Е. А. Классификация свойств онтологий. Онтологии и их классификации. НТИ сер. 1, 2005 N 9, стр 16–22.
Кустова Г. И. Типы производных значений и механизмы языкового расширения. Изд. Языки Славянской Культуры, 2004.
Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы. — М., Издательский центр «Академия», 2006. — 304 с.

Молодой учёный

Использование тезаурусов для автоматизации построения поисковых запросов в интернете

Использование тезаурусов для автоматизации построения поисковых запросов в интернете

Молодой учёный