В последние года пользователи чаще воспринимают знания, новости, обучающие материалы и развлекательный контент в формате видео, ориентируясь на быстрый доступ и минимальные затраты времени на поиск. Поиск по видео материалам используется на образовательных платформах, в социальных сетях, новостных сервисах, электронных библиотеках, а также в маркетинге. Однако на практике пользователи сталкиваются с некачественной поисковой выдачей из-за того, что существующие решения опираются на текстовое описание, которое зачастую не является надежным представлением фактического содержания ролика. Причины этого разнообразны: авторы могут сознательно использовать привлекающие внимание, но вводящие в заблуждение заголовки, использовать неполное или шаблонное описание, либо часть контента публикуется без содержательных метаданных. В результате пользователь, формируя запрос, получает выдачу, которая формально соответствует текстовым полям, но не соответствует содержанию видео. В таких условиях задача эффективного поиска по видеоконтенту является важной функцией в условиях растущего объема информации и потребностей пользователей.
Медиаконтент существенно отличается от традиционных текстовых документов как по структуре, так и по способам извлечения смысловой информации. Если текстовый документ изначально представлен в форме, пригодной для индексирования и сопоставления с запросом, то видео является многомодальным объектом, содержащим одновременно несколько каналов информации: визуальный ряд, аудиодорожку, текстовые элементы внутри кадров, а также внешнюю метаинформацию. Это приводит к тому, что задача текстового поиска по видеоконтенту не может быть полностью решена методами классического информационного поиска без предварительного преобразования контента в набор признаков, доступных для индексации.
На сегодняшний день большинство существующих средств, которые дают пользователю возможность искать видео по текстовому запросу, используют один или несколько данных:
- Метаданные: название, описание, теги, автор, дата.
- ASR: автоматическое распознавание речи в аудиодорожке видео и построение текстовой транскрипции.
- OCR: распознавание текста в кадрах.
- Субтитры: если у видео есть загруженные или автоматически созданные субтитры, они индексируются как текст.
Таким образом, рассматриваемые средства решают задачу поиска по содержанию преимущественно через текстовую модальность, то есть фактически реализуют поиск по производным представлениям видео в виде текста. При такой архитектуре релевантность результата определяется тем, что написано и что произнесено в аудиодорожке, тогда как соответствие запросу по визуальному содержанию видеоряда не учитывается вовсе. Это особенно важно для сценариев, в которых пользователь ожидает увидеть определённое действие или сцену, а не просто услышать обсуждение темы.
Следовательно, для повышения точности поисковой выдачи и приближения результатов с ожиданиями пользователя целесообразно применять гибридный подход, объединяющий несколько источников релевантности. В рамках гибридного поиска текстовые признаки обеспечивают высокую полноту и покрытие запросов, а признаки, извлеченные из визуального содержимого, позволяют реализовать сопоставление запроса с тем, что действительно присутствует в кадре. Такое объединение поможет улучшить релевантность поиска.
Предлагаемое решение основано на мультимодальном сопоставлении текста и визуального контента в едином векторном пространстве и включает этапы подготовки данных, построения векторного индекса и выполнения поиска ближайших векторов.
В качестве модели, выбрана мультимодальная модель RuCLIP, из архитектуры семейства CLIP, способная преобразовывать текст и изображение (кадр видео) в сопоставимые векторные представления. Данная модель включает два энкодера:
– текстовый энкодер, формирующий эмбеддинг запроса;
– визуальный энкодер, формирующий эмбеддинг изображения/кадра.
Модель обучена таким образом, что семантически соответствующие пары «текст–изображение» имеют близкие векторы в общем пространстве признаков. В рамках русскоязычной постановки целесообразно использовать RuCLIP, так как она лучше обрабатывает запросы на русском языке и снижает потери качества, связанные с языковым смещением.
В качестве поискового движка выбирается Elasticsearch, поскольку он обеспечивает промышленный полнотекстовый поиск и поддерживает поиск по плотным векторам kNN, что позволяет хранить метаданные и векторные признаки в одном индексе и выполнять поиск по ним в единой инфраструктуре.
Алгоритма работы текстового поиска по медиаконтенту заключается в следующем:
После получения пользовательского запроса
На рисунке 1 представлена диаграмма последовательности алгоритма работы поиска
Рис. 1. Диаграмма последовательностей методики работы поиска
Следующим этапом является определение полей для поиска и режима обработки запроса. Выбираются поля индекса, по которым будет выполняться поиск: по текстовым описаниям или гибридный подход. Если выбран режим гибридный поиск, выполняется векторизация запроса: запрос
Заключительным этапом является формирование ответа: выполняется постобработка результатов и формирование выдачи возвращается в интерфейс Top-10 релевантных видео и отображается пользователю.
Таким образом, алгоритм обеспечивает последовательную обработку запроса и формирование итоговой выдачи, учитывающей как текстовые признаки, так и признаки, характеризующие визуальное содержание видеоряда через мультимодальные эмбеддинги.
При тестировании полученных результатов разработанный подход к текстового поиска по медиаконтенту с использованием гибридного подхода, включающего как текстовый, так и векторный подход показал улучшение качества релевантности поисковой выдачи на 23 % по сравнению с рассматриваемыми аналогами, что подтверждает практическую применимость и устойчивость результатов.
Литература:
- Документация CLIP. — Текст: электронный // openai.com: [сайт]. — URL: https://openai.com/index/clip/ (дата обращения: 18.05.2026).
- Емельянов, А. А. Мультимодальная модель для русского языка / А. А. Емельянов. — Текст: электронный // habr.com: [сайт]. — URL: https://habr.com/ru/companies/sberdevices/articles/564440/ (дата обращения: 18.05.2026).

