Создание инструментов для анализа текстов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Библиографическое описание:

Создание инструментов для анализа текстов / А. О. Иванов, Я. П. Горожанкин, А. А. Миронов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 26 (264). — С. 33-35. — URL: https://moluch.ru/archive/264/61167/ (дата обращения: 19.04.2024).



В статье описывается сравнение и выбор информационно-поискового сервиса и описание подходов, улучшающих метрики информационного поиска.

Ключевые слова: информационный поиск, информационно-поисковые сервисы, solr.

Задача поиска подходящего инструмента для хранения и поиска данных — является важной частью разработки любого программного продукта. В данной работе рассмотрены популярные библиотеки и архитектурные подходы, описаны основные характеристики и особенности, а также рассмотрены преимущества и недостатки. На основе этого принято решение, какое программное обеспечение для хранения и поиска информации использовать и как улучшить качество информационного поиска.

Для выбора наилучшего способа хранения информации необходимо провести качественный анализ библиотек и СУБД, имеющих функцию полнотекстового поиска. С этой целью были выбраны самые популярные open source поисковые платформы по версии db-engines.com — Elasticsearch, Solr, Sphinx, а также реляционная СУБД PostgreSQL. По результатам исследования был сделан вывод, что Sphinx обладает весьма ограниченным функционалом для обработки текста в отличии от программных продуктов на базе Lucene, а также низкой скоростью обновления данных. PostgreSQL Fulltext Search требует большое количество памяти для хранения инвертированного индекса и не подходит для частого обновления полей документа. Полнотекстовый поиск в PostgreSQL весьма гибок, для него можно писать библиотеки при помощи официального API клиента на С++. То есть доработка функционала, который есть по умолчанию в других программных продуктах полнотекстового поиска, возможна, но это очень трудозатратно, а как следствие — трудно поддерживаем. В статье «Об эффективности поиска данных в веб-приложениях» сравнивалась эффективность выполнения полнотекстовых запросов с ранжированием в СУБД MySQL, PostgreSQL и Oracle. По результатам исследования были сделаны следующие выводы:

– При малом количестве данных рассматриваемые СУБД характеризуются схожими временными затратами при выполнении поисковых запросов.

– СУБД PostgreSQL незначительно уступает СУБД Oracle и имеет большое преимущество перед СУБД MySQL.

В статье «An Analysis on the Comparison of the Performance and Configuration Features of Big Data Tools Solr and Elasticsearch» 2016 года исследуются и анализируются различия между Solr и Elasticsearch, а также обсуждаются результаты производительности этих инструментов. Критериями анализа являются их скорости запросов и индексирования, простота и сложность использования, конфигурационные формы и архитектура. По результату тестирования были сделаны следующие выводы:

– Solr и Elasticsearch являются аналогичными инструментами с точки зрения технических характеристик.

– Solr использует меньше дискового пространства, учитывая размер данных после индексирования.

– Что касается продолжительности индексирования, Elasticsearch показал лучшую производительность в коротких данных, в то время как Solr лучше показал себя на длинных данных.

– Близкие результаты работы были получены во многих различных исследованиях

– Solr и Elasticsearch могут иметь совершенно разные характеристики производительности в определенных случаях.

– Скорость QPS (query per second) может варьироваться в зависимости от типа данных.

– Довольно трудно предсказать, какой инструмент будет иметь более высокую производительность.

Одно из сравнений Solr и ElasticSearch было проведено независимым Java консультантом Kelvin Tan, который рекомендует использовать Solr в случае, если поиск является центральной частью продукта и UX, а также если приложение имеет конкретные и нюансные требования к релевантности поиска. Основываясь на вышеуказанных статьях, можно сделать вывод, что Solr и ElasticSearch являются лучшими программными продуктами для хранения и поиска информации. Непосредственный выбор зависит от архитектуры и накладываемых к информационно-поисковому сервису ограничений и требований.

Предлагаемое решение по улучшению качества поиска

Результат работы поисковой системы может оцениваться по-разному. Исторически основными метриками оценки качества информационного поиска являются полнота и точность. Полнота — отношение числа найденных релевантных документов, к общему числу релевантных документов в базе. Точность определяется как отношение числа найденных релевантных документов, к общему числу найденных документов

Для того чтобы добиться баланса между этими метриками необходимо разработать дополнительную функциональность вместо обычного полнотекстового поиска — проверка орфографии, применение концептного поиска и поэтапного поиска.

Концептный поиск является одним из методов интеллектуального анализа текста, который используется для извлечения слов, которые могут быть важны с точки зрения описания содержания документа. Это могут быть как ссылки на другие юридические документы, название суда, географических мест, а также другие термины предметной области. Задача концептного поиска состоит в том, чтобы наиболее точно выделять по заданному слову категорию, к которой оно относится, и как следствие поле, в котором можно это слово найти. Данный подход, повышающий метрику точности поискового запроса, был впервые описан в докладе «Concept Search for eCommerce with Solr» Михаила Хлуднева на конференции «Lucene/Solr Revolution 2013» и за последнее время получил широкое распространение среди крупных E-Commerce платформ.

Даже с учетом проверки орфографии и других средств анализа текста может возникнуть ситуация, когда пользовательский запрос настолько сложный, что нет документов, которые удовлетворяли бы всем ограничениям, введенными пользователем. В этом случае применим поэтапный поиск, который используется для улучшения метрики полноты. Основной задачей поэтапного поиска является вернуть пользователю хотя бы один или несколько документов (в зависимости от ограничений на минимальное количество возвращаемых документов поискового сервиса). Чтобы достичь этой цели необходимо разделить поиск на несколько этапов:

  1. Обычный поиск
  2. Поиск с проверкой орфографии
  3. Поиск с исключением каких-то слов

Литература:

  1. Mustafa Ali AKCA, Tuncay AYDOĞAN, Muhammer İLKUÇAR. «An Analysis on the Comparison of the Performance and Configuration Features of Big Data Tools Solr and Elasticsearch» 2016 URL: https://www.researchgate.net/publication/311916747_An_Analysis_on_the_Comparison_of_the_Performance_and_Configuration_Features_of_Big_Data_Tools_Solr_and_Elasticsearch.
Основные термины (генерируются автоматически): информационный поиск, документ, полнотекстовый поиск, поэтапный поиск, API, QPS, общее число, отношение числа, поиск информации, проверка орфографии.


Ключевые слова

информационный поиск, информационно-поисковые сервисы, solr

Похожие статьи

Анализ поисковых алгоритмов при решении задач идентификации...

Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех

Довольно часто, в основном в программах проверки орфографии, применяют метод

В случае неудачи поиск возвращает термин словаря, совпадающий с искомым образцом в наибольшем...

Разработка алгоритма нечеткого поиска на основе хэширования

Общая проблематика нечеткого поиска. Под нечетким поиском понимается поиск по ключевым словам с учётом возможных произвольных ошибок в написании ключевого слова или, напротив, ошибок написания слова в целевом запросе. Ключевым моментом построения грамотного...

Использование алгоритмов нечеткого поиска при решении задачи...

В статье описан алгоритм устранения дубликатов записей в базе данных при наличии нескольких источников информации и ошибок операторского ввода. Предложен алгоритм вычисления функции релевантности на основании метода N-gram. Ключевые слова.

Семантический анализ текстов. Основные положения

Поиск. Бесплатный звонок.

Консорциум WWW (W3C) разрабатывает RDF (Resource Description Framework), язык кодирования знаний на веб-страницах, для того, чтобы сделать их понятными для электронных агентов, которые осуществляют поиск информации.

Модели данных для реализации поиска и прав доступа...

Далее рассмотрим подмодель поиска документов. Эта модель должна обеспечивать

Для полнотекстового поиска, поиска по синонимам и фразе используются поисковые

Здесь R – релевантность, W – весовой коэффициент, F – число найденных слов, N – общее число слов...

Обзор некоторых алгоритмов нестрогого сопоставления записей...

В данной работе мы рассматриваем нестрогий поиск. Нестрогий поиск является методом поиска строк, которые соответствуют шаблону приблизительно, а неточно, что позволяет находить строки с ошибками. Рассмотрим следующие алгоритмы нестрогого поиска

Применение методов text mining для классификации информации...

Далее проведем поиск сообщений по ключевым словам и фразам.

Чем выше , тем ниже вероятность существования такого отношения.

Необходимо отфильтровать полученные данные и получить документы с высокой степенью повторения искомой информации.

Адаптивный поиск информации в Internet | Статья в сборнике...

Первая — автоматический поиск информации в документах Сети — Web content mining. Вторая — обнаружение и обработка информации, касающейся работы пользователей с сервером, — Web usage mining. В рамках данной статьи нас будет интересовать вторая часть...

Проверка сложности выпускных работ учащихся и студентов на...

Меню. Поиск.

Устинова Л. В., Адекенова А. Н., Литвинова О. В. Проверка сложности выпускных работ учащихся и студентов на основе

В ходе создания макропакета были проанализированы существующие программы поиска и анализа текстовой информации...

Похожие статьи

Анализ поисковых алгоритмов при решении задач идентификации...

Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех

Довольно часто, в основном в программах проверки орфографии, применяют метод

В случае неудачи поиск возвращает термин словаря, совпадающий с искомым образцом в наибольшем...

Разработка алгоритма нечеткого поиска на основе хэширования

Общая проблематика нечеткого поиска. Под нечетким поиском понимается поиск по ключевым словам с учётом возможных произвольных ошибок в написании ключевого слова или, напротив, ошибок написания слова в целевом запросе. Ключевым моментом построения грамотного...

Использование алгоритмов нечеткого поиска при решении задачи...

В статье описан алгоритм устранения дубликатов записей в базе данных при наличии нескольких источников информации и ошибок операторского ввода. Предложен алгоритм вычисления функции релевантности на основании метода N-gram. Ключевые слова.

Семантический анализ текстов. Основные положения

Поиск. Бесплатный звонок.

Консорциум WWW (W3C) разрабатывает RDF (Resource Description Framework), язык кодирования знаний на веб-страницах, для того, чтобы сделать их понятными для электронных агентов, которые осуществляют поиск информации.

Модели данных для реализации поиска и прав доступа...

Далее рассмотрим подмодель поиска документов. Эта модель должна обеспечивать

Для полнотекстового поиска, поиска по синонимам и фразе используются поисковые

Здесь R – релевантность, W – весовой коэффициент, F – число найденных слов, N – общее число слов...

Обзор некоторых алгоритмов нестрогого сопоставления записей...

В данной работе мы рассматриваем нестрогий поиск. Нестрогий поиск является методом поиска строк, которые соответствуют шаблону приблизительно, а неточно, что позволяет находить строки с ошибками. Рассмотрим следующие алгоритмы нестрогого поиска

Применение методов text mining для классификации информации...

Далее проведем поиск сообщений по ключевым словам и фразам.

Чем выше , тем ниже вероятность существования такого отношения.

Необходимо отфильтровать полученные данные и получить документы с высокой степенью повторения искомой информации.

Адаптивный поиск информации в Internet | Статья в сборнике...

Первая — автоматический поиск информации в документах Сети — Web content mining. Вторая — обнаружение и обработка информации, касающейся работы пользователей с сервером, — Web usage mining. В рамках данной статьи нас будет интересовать вторая часть...

Проверка сложности выпускных работ учащихся и студентов на...

Меню. Поиск.

Устинова Л. В., Адекенова А. Н., Литвинова О. В. Проверка сложности выпускных работ учащихся и студентов на основе

В ходе создания макропакета были проанализированы существующие программы поиска и анализа текстовой информации...

Задать вопрос