Использование тезаурусов для автоматизации построения поисковых запросов в интернете | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 21 декабря, печатный экземпляр отправим 25 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №24 (262) июнь 2019 г.

Дата публикации: 17.06.2019

Статья просмотрена: 17 раз

Библиографическое описание:

Ходикян Р. А. Использование тезаурусов для автоматизации построения поисковых запросов в интернете // Молодой ученый. — 2019. — №24. — С. 118-120. — URL https://moluch.ru/archive/262/60760/ (дата обращения: 10.12.2019).



Актуальность выбранной темы обусловлена необходимостью использования тезауруса для упрощения поиска в сети и разновидных системных областях.

Ключевые слова: тезаурус, поиск, интернет, автоматизация.

The relevance of the chosen topic is due to the need to use a thesaurus to simplify the search in the network and not only.

Keywords: thesaurus, search, internet, automation.

Современный этап развития человеческой цивилизации характеризуется стремительным переходом от индустриального общества к информационному. Одним из важнейших явлений этого процесса является появление и развитие глобальной информационной компьютерной сети.

В девяностых годах прошлого столетия, с появлением Интернета общество получило доступ к огромному количеству информации из самых разных областей науки, развлечениям и многому другому — несчётное множество документов, которые находятся на разных компьютерах по всему миру. Сегодня интернет — это неструктурированный, распределенный репозиторий динамической информации немыслимых размеров, в который постоянно идет огромный поток новой различной информации, а устаревшие файлы редактируются или удаляются. Громадный и постоянно растущий объем данных приводит к тому, что обеспечить поиск в интернете становится очень важной задачей. Однако без соответствующих инструментов, проблема поиска необходимых данных или информации в настоящее время становится практически неразрешимой.

Появление поисковых систем в глобальной сети интернета стало новым этапом в развитии поиска информации. Сегодня информационно-поисковые системы (IPS) интернета эффективно используются методами поиска информации, которые разрабатывались долгие годы. И один из важных аспектов является структурный компонент IPS информационно-поисковый язык.

Бурный рост и динамичное развитие информационных ресурсов требует, чтобы каждый обладал различными продвинутыми навыками поиска. Умение быстро и правильно находить нужное в глобальной сети означает экономить время, владеть надежной и актуальной информацией и, следовательно, принимать верные решения и делать правильные выводы. Так же в связи с увеличением объема потока данных, который нужен для принятия решений, и перспективами, которые предоставляют компьютерные технологии, автоматизированные тезаурусы стали обширно использоваться во всевозможных областях человеческой деятельности. Осуществление быстрого и продуктивного поиска данных становится все более сложно решаемой проблемой. Цель поиска информации — найти и выдать данные или их описания, отвечающие запросу конечного пользователя.

Обычные информационно-поисковые системы используются для поиска различных данных в огромных библиотеках, всевозможных технических центрах, архивах. Из этого следует, что область применения технологии поиска данных представляется довольно обширной.

При автоматизации поиска документа наиболее важной задачей является детерминированное содержание файла и запроса. В таком случае поиск происходит по всему тексту документа или по его поисковому изображению, и в качестве запроса чаще всего используются отдельные ключевые слова или их логические сочетания. Именно по такому принципу основан информационно-поисковый тезаурус.

Компьютерная лексикография была свидетелем многочисленных попыток автоматического создания тезауруса. В настоящее время невозможно избежать участия эксперта в процессе создания тезауруса, однако существует множество работ, направленных на частичную автоматизацию всего процесса или его отдельных этапов.

В этой статье не используется терминологическая кластеризация, но определяется связь между терминами на основе анализа словосочетаний.

Кластерный анализ или кластеризация — это задача группирования набора объектов таким образом, чтобы объекты в одной и той же группе (называемой кластером) были более похожи (в некотором смысле) друг на друга, чем объекты в других группах (кластерах). Это основная задача интеллектуального анализа данных и общий метод статистического анализа данных, используемый во многих областях, включая машинное обучение, распознавание образов, анализ изображений, поиск информации, биоинформатику, сжатие данных и компьютерную графику.

Терминологический тезаурус можно рассматривать как доменную модель. В связи с этим в процессе его построения могут использоваться не только корпуса на естественном языке, но и семантически структурированные ресурсы, такие как словари, энциклопедии, патенты, технические или нормативные документы. В статье представлена автоматизированная система общего назначения.

Одним из ключевых моментов является использование синонимических отношений, извлеченных из словарей для термического извлечения. Следует отметить, что синонимия является особенно важным понятием для неспециализированных тезаурусов, которые менее важны для специализированных терминологических терминов, основанных, главным образом, на гиперных-гипонимных отношениях.

Гиперо-гипонимические отношения — это один из классов отношений парадигматического типа, среди которых также обозначаются синонимия, антонимия и др., образующий лексико-семантические поля и группы.

Гипер-гипонимные отношения извлекаются с использованием шаблонов (например, «A, такой как B»). Взаимосвязи между терминами устанавливаются с использованием комбинации методов машинного перевода и анализа цитирования. Обзор существующих подходов к решению проблемы автоматизации построения тезауруса позволяет выявить используемые методы и алгоритмы. Стоит отметить, что большая часть усилий в существующих работах сосредоточена на инициальном удалении терминов и определении отношений между терминами, тогда как автоматизация кластеризации терминов изучена недостаточно. Между тем, разнообразие существующих методов кластеризации делает исследования в этой области многообещающими.

Для автоматического построения терминологического тезауруса, который основан на алгоритме выбора словарных статей, по ключевым словам, (морфемам) и алгоритме кластеризации. Первый используется для создания корпуса тезауруса, а второй позволяет формировать семантические кластеры. Эффективность подхода была подтверждена путем создания тезауруса для кардиологического выражения. Следует отметить, что даже самый завершенный словарь не содержит новейшей терминологии, которая должна быть дополнительно извлечена из текстовых документов. Однако обращение к проверенному словарю создает эффективную основу для построения терминологического тезауруса. В нашем случае вариант кластеризации был удобен для создания иерархических отношений в тезаурусе. Слова в отдельном кластере были либо связаны непосредственно с одним кластером, они были легко разделены на группы, связанные с различными кластерами. Такой эффект, обусловлен морфологической однородностью терминов внутри целевого домена. Это должно сделать предлагаемый подход применимым для построения тезауруса в других профессиональных областях.

Литература:

  1. Клещев А. С., Шалфеева Е. А. Классификация свойств онтологий. Онтологии и их классификации. НТИ сер. 1, 2005 N 9, стр 16–22.
  2. Кустова Г. И. Типы производных значений и механизмы языкового расширения. Изд. Языки Славянской Культуры, 2004.
  3. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы. — М., Издательский центр «Академия», 2006. — 304 с.
Основные термины (генерируются автоматически): IPS, терминологический тезаурус, отношение, область, кластер, поиск информации.


Похожие статьи

Информационно-поисковые тезаурусы: основные понятия...

Составление тезауруса считается одним из сложнейших видов человеческой деятельности, которая требует участия различных специалистов, в том числе лингвистов, специалистов по информационной технологии...

Проблема построения информационно-поискового тезауруса

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу...

Внедрение современных методов автоматизированного тезауруса...

В основе создания учебно-информационных материалов, который предполагает поиск и обработку больших объемов информации связано с ростом развития и усовершенствования современных информационных методов обучения.

Общая характеристика и критерии классификации словаря...

Иерархические отношения, отношение эквивалентности и другие семантические отношения, управляющие на структуре тезауруса, облегчают поиск информации. Тезаурус может быть одноязычным и многоязычным. Основное применение тезауруса – это извлечением данных.

Понятийно-терминологический тезаурус проблемы...

Понятийно-терминологический тезаурус проблемы профессионально-коммуникативных деформаций включает следующие основные понятия

Они содержательно размыты и в смысловом отношении интерферируют, перекрывают друг друга, что затрудняет...

Определение параметров терминологического справочника на...

Библиографическое описание: Будкова С. С. Определение параметров терминологического справочника на основе анализа словарных

Характерной особенностью представленной информации в микроструктуре словарей, является дефинитивность и экземплификация.

Вторичные тексты как предмет изучения терминологии предметной...

Описание терминологии какой-либо сферы деятельности и отражение ее в специальных терминологических словарях является важным как для развития самой терминологии, так и рассматриваемой области знания. Радиационные и плазменные технологии (РиПТ)...

Понятийный тезаурус лингвистического анализа текста

Поиск.

В каждом тексте ЛАТ выделен тот терминологический тезаурус, который использует исследователь в рамках своего изучения того или иного произведения.

Далее терминологический тезаурус тектов анализа объединен в 17 тематических групп: «анализ»...

Агрономическая терминология: некоторые особенности перевода

Поиск.

Сельское хозяйство является одной из важнейшей областью экономики, которая обеспечивает жизнедеятельность общества.

Немаловажную роль играют терминологические системы в лексической системе естественного языка и его функционирования разновидностей.

Похожие статьи

Информационно-поисковые тезаурусы: основные понятия...

Составление тезауруса считается одним из сложнейших видов человеческой деятельности, которая требует участия различных специалистов, в том числе лингвистов, специалистов по информационной технологии...

Проблема построения информационно-поискового тезауруса

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу...

Внедрение современных методов автоматизированного тезауруса...

В основе создания учебно-информационных материалов, который предполагает поиск и обработку больших объемов информации связано с ростом развития и усовершенствования современных информационных методов обучения.

Общая характеристика и критерии классификации словаря...

Иерархические отношения, отношение эквивалентности и другие семантические отношения, управляющие на структуре тезауруса, облегчают поиск информации. Тезаурус может быть одноязычным и многоязычным. Основное применение тезауруса – это извлечением данных.

Понятийно-терминологический тезаурус проблемы...

Понятийно-терминологический тезаурус проблемы профессионально-коммуникативных деформаций включает следующие основные понятия

Они содержательно размыты и в смысловом отношении интерферируют, перекрывают друг друга, что затрудняет...

Определение параметров терминологического справочника на...

Библиографическое описание: Будкова С. С. Определение параметров терминологического справочника на основе анализа словарных

Характерной особенностью представленной информации в микроструктуре словарей, является дефинитивность и экземплификация.

Вторичные тексты как предмет изучения терминологии предметной...

Описание терминологии какой-либо сферы деятельности и отражение ее в специальных терминологических словарях является важным как для развития самой терминологии, так и рассматриваемой области знания. Радиационные и плазменные технологии (РиПТ)...

Понятийный тезаурус лингвистического анализа текста

Поиск.

В каждом тексте ЛАТ выделен тот терминологический тезаурус, который использует исследователь в рамках своего изучения того или иного произведения.

Далее терминологический тезаурус тектов анализа объединен в 17 тематических групп: «анализ»...

Агрономическая терминология: некоторые особенности перевода

Поиск.

Сельское хозяйство является одной из важнейшей областью экономики, которая обеспечивает жизнедеятельность общества.

Немаловажную роль играют терминологические системы в лексической системе естественного языка и его функционирования разновидностей.

Задать вопрос