Использование тезаурусов для автоматизации построения поисковых запросов в интернете | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №24 (262) июнь 2019 г.

Дата публикации: 17.06.2019

Статья просмотрена: 192 раза

Библиографическое описание:

Ходикян, Р. А. Использование тезаурусов для автоматизации построения поисковых запросов в интернете / Р. А. Ходикян. — Текст : непосредственный // Молодой ученый. — 2019. — № 24 (262). — С. 118-120. — URL: https://moluch.ru/archive/262/60760/ (дата обращения: 16.12.2024).



Актуальность выбранной темы обусловлена необходимостью использования тезауруса для упрощения поиска в сети и разновидных системных областях.

Ключевые слова: тезаурус, поиск, интернет, автоматизация.

The relevance of the chosen topic is due to the need to use a thesaurus to simplify the search in the network and not only.

Keywords: thesaurus, search, internet, automation.

Современный этап развития человеческой цивилизации характеризуется стремительным переходом от индустриального общества к информационному. Одним из важнейших явлений этого процесса является появление и развитие глобальной информационной компьютерной сети.

В девяностых годах прошлого столетия, с появлением Интернета общество получило доступ к огромному количеству информации из самых разных областей науки, развлечениям и многому другому — несчётное множество документов, которые находятся на разных компьютерах по всему миру. Сегодня интернет — это неструктурированный, распределенный репозиторий динамической информации немыслимых размеров, в который постоянно идет огромный поток новой различной информации, а устаревшие файлы редактируются или удаляются. Громадный и постоянно растущий объем данных приводит к тому, что обеспечить поиск в интернете становится очень важной задачей. Однако без соответствующих инструментов, проблема поиска необходимых данных или информации в настоящее время становится практически неразрешимой.

Появление поисковых систем в глобальной сети интернета стало новым этапом в развитии поиска информации. Сегодня информационно-поисковые системы (IPS) интернета эффективно используются методами поиска информации, которые разрабатывались долгие годы. И один из важных аспектов является структурный компонент IPS информационно-поисковый язык.

Бурный рост и динамичное развитие информационных ресурсов требует, чтобы каждый обладал различными продвинутыми навыками поиска. Умение быстро и правильно находить нужное в глобальной сети означает экономить время, владеть надежной и актуальной информацией и, следовательно, принимать верные решения и делать правильные выводы. Так же в связи с увеличением объема потока данных, который нужен для принятия решений, и перспективами, которые предоставляют компьютерные технологии, автоматизированные тезаурусы стали обширно использоваться во всевозможных областях человеческой деятельности. Осуществление быстрого и продуктивного поиска данных становится все более сложно решаемой проблемой. Цель поиска информации — найти и выдать данные или их описания, отвечающие запросу конечного пользователя.

Обычные информационно-поисковые системы используются для поиска различных данных в огромных библиотеках, всевозможных технических центрах, архивах. Из этого следует, что область применения технологии поиска данных представляется довольно обширной.

При автоматизации поиска документа наиболее важной задачей является детерминированное содержание файла и запроса. В таком случае поиск происходит по всему тексту документа или по его поисковому изображению, и в качестве запроса чаще всего используются отдельные ключевые слова или их логические сочетания. Именно по такому принципу основан информационно-поисковый тезаурус.

Компьютерная лексикография была свидетелем многочисленных попыток автоматического создания тезауруса. В настоящее время невозможно избежать участия эксперта в процессе создания тезауруса, однако существует множество работ, направленных на частичную автоматизацию всего процесса или его отдельных этапов.

В этой статье не используется терминологическая кластеризация, но определяется связь между терминами на основе анализа словосочетаний.

Кластерный анализ или кластеризация — это задача группирования набора объектов таким образом, чтобы объекты в одной и той же группе (называемой кластером) были более похожи (в некотором смысле) друг на друга, чем объекты в других группах (кластерах). Это основная задача интеллектуального анализа данных и общий метод статистического анализа данных, используемый во многих областях, включая машинное обучение, распознавание образов, анализ изображений, поиск информации, биоинформатику, сжатие данных и компьютерную графику.

Терминологический тезаурус можно рассматривать как доменную модель. В связи с этим в процессе его построения могут использоваться не только корпуса на естественном языке, но и семантически структурированные ресурсы, такие как словари, энциклопедии, патенты, технические или нормативные документы. В статье представлена автоматизированная система общего назначения.

Одним из ключевых моментов является использование синонимических отношений, извлеченных из словарей для термического извлечения. Следует отметить, что синонимия является особенно важным понятием для неспециализированных тезаурусов, которые менее важны для специализированных терминологических терминов, основанных, главным образом, на гиперных-гипонимных отношениях.

Гиперо-гипонимические отношения — это один из классов отношений парадигматического типа, среди которых также обозначаются синонимия, антонимия и др., образующий лексико-семантические поля и группы.

Гипер-гипонимные отношения извлекаются с использованием шаблонов (например, «A, такой как B»). Взаимосвязи между терминами устанавливаются с использованием комбинации методов машинного перевода и анализа цитирования. Обзор существующих подходов к решению проблемы автоматизации построения тезауруса позволяет выявить используемые методы и алгоритмы. Стоит отметить, что большая часть усилий в существующих работах сосредоточена на инициальном удалении терминов и определении отношений между терминами, тогда как автоматизация кластеризации терминов изучена недостаточно. Между тем, разнообразие существующих методов кластеризации делает исследования в этой области многообещающими.

Для автоматического построения терминологического тезауруса, который основан на алгоритме выбора словарных статей, по ключевым словам, (морфемам) и алгоритме кластеризации. Первый используется для создания корпуса тезауруса, а второй позволяет формировать семантические кластеры. Эффективность подхода была подтверждена путем создания тезауруса для кардиологического выражения. Следует отметить, что даже самый завершенный словарь не содержит новейшей терминологии, которая должна быть дополнительно извлечена из текстовых документов. Однако обращение к проверенному словарю создает эффективную основу для построения терминологического тезауруса. В нашем случае вариант кластеризации был удобен для создания иерархических отношений в тезаурусе. Слова в отдельном кластере были либо связаны непосредственно с одним кластером, они были легко разделены на группы, связанные с различными кластерами. Такой эффект, обусловлен морфологической однородностью терминов внутри целевого домена. Это должно сделать предлагаемый подход применимым для построения тезауруса в других профессиональных областях.

Литература:

  1. Клещев А. С., Шалфеева Е. А. Классификация свойств онтологий. Онтологии и их классификации. НТИ сер. 1, 2005 N 9, стр 16–22.
  2. Кустова Г. И. Типы производных значений и механизмы языкового расширения. Изд. Языки Славянской Культуры, 2004.
  3. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы. — М., Издательский центр «Академия», 2006. — 304 с.
Основные термины (генерируются автоматически): IPS, терминологический тезаурус, кластер, область, отношение, поиск информации.


Похожие статьи

Разработка программного модуля клиентской части интернет-магазина продажи спортивных товаров

В статье автор исследует современные способы разработки интернет-магазинов с целью повышения эффективности работы бизнеса розничной торговли, за счет современных веб-технологий.

Контейнеризация в системах обработки данных

В статье рассматривается использование технологии контейнеризации в процессах обработки данных. Обосновывается необходимость выбора этой технологии, проводится анализ актуального программного обеспечения и сравнение с другими инструментами обработки ...

Цифровой контент предприятия

В статье рассматривается применение цифрового контента предприятия на базе системы электронного документооборота (СЭД). Представлена методика выбора предпочтительного решения на основе метода анализа иерархий, а также оценка экономии средств предприя...

Разработка мобильных приложений с использованием облачных баз данных

В статье рассмотрены особенности разработки мобильных приложений с использованием облачных баз данных. Отдельное внимание уделено контейнерам, микросервисам, а также их композициям. Особый акцент сделан на целесообразности применения архитектурного ш...

Разработка веб-сервиса для интерактивного создания чат-ботов

В статье рассмотрены роль и проблемы совершенствования веб-сервисов на основе создания и внедрения интерактивного конструктора чат-ботов, позволяющего существенно повысить качество и эффективность взаимодействия пользователей, не владеющих профессион...

Концептуальная модель масштабируемого сервиса социальной сети

В статье анализируются возможности влияния архитектуры сервиса социальной сети на способности сервиса к масштабированию и адаптации в контексте постоянно меняющихся условий и бизнес-процессов. Актуальность темы обусловлена возрастающей значимостью со...

Разработка интеллектуальных средств поддержки веб-порталов и веб-сервисов

С развитием бизнес-сектора и сферы веб-разработки постепенно растут и требования к современным порталам. В связи с этим повышается сложность их разработки и поддержки, а также ими становится все труднее управлять. В данной работе предлагается решение...

Способы отслеживания нежелательного контента и их автоматизация

В данной статье рассматриваются способы модерации контента, создаваемого пользователями, предлагается способ автоматизации данного процесса с целью выявления нежелательного контента в социальных сетях и форумах.

Сравнительный анализ инструментов визуализации данных в соответствии с потребностями ИТ-рынка

Статья посвящена анализу инструментов визуализации данных для дальнейшего рассмотрения возможности перехода на российский продукт в условиях санкций со стороны крупнейших поставщиков ПО и оборудования.

Справочник ресурсов для размещения на корпоративном сайте

В статье рассматривается пример программной части справочника ресурсов с применением интернет-технологий. Приведены диаграммы вариантов использования, последовательностей и блоков. Рассмотрены особенности функционирования справочника ресурсов. Описан...

Похожие статьи

Разработка программного модуля клиентской части интернет-магазина продажи спортивных товаров

В статье автор исследует современные способы разработки интернет-магазинов с целью повышения эффективности работы бизнеса розничной торговли, за счет современных веб-технологий.

Контейнеризация в системах обработки данных

В статье рассматривается использование технологии контейнеризации в процессах обработки данных. Обосновывается необходимость выбора этой технологии, проводится анализ актуального программного обеспечения и сравнение с другими инструментами обработки ...

Цифровой контент предприятия

В статье рассматривается применение цифрового контента предприятия на базе системы электронного документооборота (СЭД). Представлена методика выбора предпочтительного решения на основе метода анализа иерархий, а также оценка экономии средств предприя...

Разработка мобильных приложений с использованием облачных баз данных

В статье рассмотрены особенности разработки мобильных приложений с использованием облачных баз данных. Отдельное внимание уделено контейнерам, микросервисам, а также их композициям. Особый акцент сделан на целесообразности применения архитектурного ш...

Разработка веб-сервиса для интерактивного создания чат-ботов

В статье рассмотрены роль и проблемы совершенствования веб-сервисов на основе создания и внедрения интерактивного конструктора чат-ботов, позволяющего существенно повысить качество и эффективность взаимодействия пользователей, не владеющих профессион...

Концептуальная модель масштабируемого сервиса социальной сети

В статье анализируются возможности влияния архитектуры сервиса социальной сети на способности сервиса к масштабированию и адаптации в контексте постоянно меняющихся условий и бизнес-процессов. Актуальность темы обусловлена возрастающей значимостью со...

Разработка интеллектуальных средств поддержки веб-порталов и веб-сервисов

С развитием бизнес-сектора и сферы веб-разработки постепенно растут и требования к современным порталам. В связи с этим повышается сложность их разработки и поддержки, а также ими становится все труднее управлять. В данной работе предлагается решение...

Способы отслеживания нежелательного контента и их автоматизация

В данной статье рассматриваются способы модерации контента, создаваемого пользователями, предлагается способ автоматизации данного процесса с целью выявления нежелательного контента в социальных сетях и форумах.

Сравнительный анализ инструментов визуализации данных в соответствии с потребностями ИТ-рынка

Статья посвящена анализу инструментов визуализации данных для дальнейшего рассмотрения возможности перехода на российский продукт в условиях санкций со стороны крупнейших поставщиков ПО и оборудования.

Справочник ресурсов для размещения на корпоративном сайте

В статье рассматривается пример программной части справочника ресурсов с применением интернет-технологий. Приведены диаграммы вариантов использования, последовательностей и блоков. Рассмотрены особенности функционирования справочника ресурсов. Описан...

Задать вопрос