Введение
В последнее десятилетие беспилотные летательные аппараты (БПЛА) получили широкое распространение как в военной, так и в гражданской сферах. Ключевым условием их автономной работы является точное и надёжное позиционирование. Традиционные методы навигации, основанные на использовании глобальных навигационных спутниковых систем (ГНСС), таких как GPS и ГЛОНАСС, обеспечивают точность в пределах 1–5 метров в открытом пространстве [1]. Однако в реальных условиях эксплуатации сигнал ГНСС может быть недоступен вследствие целенаправленного радиоэлектронного подавления, работы в закрытых помещениях или в условиях плотной городской застройки [2].
В данном контексте активно исследуются альтернативные методы навигации, не зависящие от внешних сигналов. Одним из наиболее перспективных является визуальная навигация по карте местности, предполагающая сопоставление снимка, получаемого с камеры БПЛА, с заранее подготовленной геопривязанной картой [3]. Центральной задачей такого подхода является эффективный и точный алгоритм сопоставления изображений, устойчивый к изменениям масштаба, угла съёмки, условий освещения и сезонным изменениям ландшафта.
Цель данной статьи — провести сравнительный анализ существующих методов сопоставления изображений применительно к задаче навигации БПЛА и обосновать выбор оптимального подхода.
1. Постановка задачи
Задача визуальной навигации по аэрофотоснимку формулируется следующим образом: имея изображение местности, полученное с камеры БПЛА в произвольный момент времени, и заранее подготовленную геопривязанную растровую карту той же местности, необходимо определить координаты (широту и долготу) точки съёмки с погрешностью не более заданного порога.
Задача сопоставления изображений при этом сводится к нахождению геометрического преобразования, связывающего систему координат снимка с системой координат карты [4]. На практике это реализуется путём поиска соответствующих точек (ключевых точек) на двух изображениях, вычисления матрицы гомографии и последующего определения координат центра снимка на карте.
Данная задача осложняется рядом факторов, типичных для аэрофотосъёмки:
— значительный диапазон высот съёмки (30–500 м), влекущий изменение масштаба изображения в десятки раз;
— сезонные изменения ландшафта (листва, снег, затопление), приводящие к существенному изменению внешнего вида объектов;
— различие условий освещения между снимком БПЛА и картой (время суток, облачность);
— временной разрыв между созданием карты и моментом съёмки, в течение которого может измениться облик местности.
Перечисленные факторы определяют требования к алгоритму сопоставления: инвариантность к масштабу, повороту и аффинным искажениям; устойчивость к фотометрическим изменениям; высокая скорость работы для возможности применения в режиме, близком к реальному времени.
2. Классические алгоритмы сопоставления изображений
Традиционные методы сопоставления изображений основаны на выделении ключевых точек — особых областей изображения, характеризующихся локальной уникальностью, — и вычислении их дескрипторов — числовых векторов, описывающих окрестность каждой точки.
Алгоритм SIFT (Scale-Invariant Feature Transform), предложенный Лоу в 2004 году, строит пирамиду Гауссовых пространств масштабов для обнаружения стабильных ключевых точек и вычисляет 128-мерный дескриптор на основе градиентных гистограмм [5]. SIFT обеспечивает высокую инвариантность к изменениям масштаба и поворота, а также относительную устойчивость к изменениям освещённости. Главным недостатком является высокая вычислительная сложность: время извлечения признаков на изображении типичного разрешения составляет от 1 до 5 секунд на процессоре средней производительности, что существенно ограничивает применимость алгоритма в задачах реального времени [6].
Алгоритм ORB (Oriented FAST and Rotated BRIEF) разработан как вычислительно эффективная альтернатива SIFT [7]. Для детектирования ключевых точек используется алгоритм FAST, а дескриптор вычисляется методом BRIEF с учётом ориентации точки, что обеспечивает инвариантность к повороту. ORB работает примерно в 100 раз быстрее SIFT и не имеет патентных ограничений. Однако ORB уступает SIFT по инвариантности к масштабу и демонстрирует значительное снижение качества при больших изменениях высоты съёмки — критическом условии для БПЛА, работающих в диапазоне высот 30–500 м.
Оба алгоритма плохо справляются с задачей в условиях существенных сезонных изменений ландшафта: дескрипторы, построенные на основе градиентов интенсивности пикселей, оказываются нестабильными при кардинальном изменении текстуры поверхности (например, при смене летнего вида на зимний) [3].
3. Нейросетевые методы сопоставления
Развитие глубокого обучения в последнее десятилетие открыло новые возможности для задачи сопоставления изображений. Нейросетевые подходы позволяют обучать признаковые представления непосредственно под целевую задачу, обеспечивая устойчивость к тем вариациям входных данных, которые представлены в обучающей выборке.
SuperPoint — полностью свёрточная нейронная сеть для одновременного детектирования ключевых точек и вычисления их дескрипторов [8]. Архитектура содержит общий энкодер и два декодера: один для предсказания карты ключевых точек, другой — для вычисления дескрипторного тензора. Сеть обучается самостоятельно с помощью процедуры гомографической адаптации на синтетических данных с последующей дообучкой на реальных изображениях. SuperPoint демонстрирует конкурентоспособную точность при скорости обработки, приближающейся к ORB при использовании GPU. Вместе с тем для работы без существенной потери производительности требуется аппаратное ускорение, что может являться ограничением для встроенных систем с ограниченным энергопотреблением.
Сиамские нейронные сети представляют собой архитектуру, в которой два идентичных энкодера (с общими весами) обрабатывают два входных изображения и формируют их эмбеддинги в общем признаковом пространстве [9]. Степень сходства двух изображений определяется как мера близости соответствующих эмбеддингов. Такой подход, изначально применявшийся в задачах верификации лиц, был успешно адаптирован для сопоставления аэрофотоснимков с картографическими данными.
Ключевым преимуществом сиамских архитектур является способность обучаться непосредственно на задаче сопоставления пар изображений, а не на промежуточной задаче детектирования ключевых точек. Это позволяет модели усваивать высокоуровневые семантические признаки, инвариантные к поверхностным изменениям текстуры — в том числе к сезонным изменениям ландшафта, что особенно важно для навигации БПЛА [10].
Для задачи геолокализации аэрофотоснимков сиамская сеть обучается на парах (фрагмент аэрофотоснимка, фрагмент карты того же района) с метками «совпадает» / «не совпадает». На этапе инференса производится поиск наиболее похожего фрагмента карты методом скользящего окна или иерархического поиска. По результатам опубликованных исследований, сиамские сети превосходят классические алгоритмы по метрике точности геолокализации при существенных изменениях условий съёмки [3, 9].
4. Сравнительный анализ
На основе анализа литературы и результатов экспериментов, проведённых в рамках разработки программного модуля позиционирования объекта по аэрофотоснимку (ПМ ПОАФ), составлена сравнительная таблица рассмотренных методов по основным критериям, значимым для задачи навигации БПЛА (таблица 1).
Таблица 1
Сравнение методов сопоставления изображений
|
Критерий |
SIFT |
ORB |
SuperPoint |
Сиамская НС |
|
Инвариантность к масштабу |
Высокая |
Средняя |
Высокая |
Высокая |
|
Инвариантность к повороту |
Высокая |
Высокая |
Высокая |
Высокая |
|
Устойчивость к сезонным изм. |
Низкая |
Низкая |
Средняя |
Высокая |
|
Скорость обработки |
Медленная |
Быстрая |
Быстрая |
Средняя |
|
Точность позиционирования |
Средняя |
Низкая |
Высокая |
Высокая |
|
Работа без GPU |
Да |
Да |
Возможно |
Нет |
Анализ таблицы 1 позволяет сформулировать следующие выводы. Классические алгоритмы SIFT и ORB не удовлетворяют требованиям задачи в части устойчивости к сезонным изменениям и диапазону высот: SIFT обеспечивает приемлемую точность только при высотах до 80–100 м, ORB теряет качество уже при изменении высоты более чем в 2–3 раза [6]. Алгоритм SuperPoint существенно превосходит классические методы по точности и устойчивости, однако требует GPU для работы в режиме реального времени, что усложняет интеграцию в бортовые системы с ограниченными ресурсами.
Сиамские нейронные сети демонстрируют наилучший результат по ключевым критериям — точности позиционирования и устойчивости к сезонным изменениям — при приемлемой скорости работы на современных процессорах (0,35–0,5 с на кадр для Intel Core i7). Основным недостатком является необходимость GPU для существенного ускорения обработки и значительный объём обучающих данных, необходимых для достижения высокого качества [3].
5. Практическая реализация
На основании проведённого анализа в рамках разработки ПМ ПОАФ была выбрана архитектура на основе сиамской нейронной сети. Реализация выполнена на языке Python 3.10 с использованием библиотек TensorFlow/Keras и OpenCV. Входными данными являются: аэрофотоснимок, полученный с камеры БПЛА в формате JPEG или PNG, и фрагмент геопривязанной растровой карты, загруженный в оперативную память.
Архитектура включает два идентичных энкодера на базе свёрточной нейронной сети (backbone — облегчённая версия ResNet-34), принимающих на вход изображения размером 224×224 пикселя и формирующих 512-мерные эмбеддинги. Мера сходства вычисляется как косинусное расстояние между эмбеддингами. Поиск позиции осуществляется методом многомасштабного скользящего окна по карте с шагом, адаптивно зависящим от оценки высоты съёмки.
Обучение модели производилось на синтетически сформированном датасете, включающем фрагменты спутниковых снимков Яндекс.Карт для различных времён года и диапазона высот 30–500 м. Аугментация включала случайные повороты, изменение яркости и контраста, добавление гауссовского шума — для имитации реальных условий съёмки с БПЛА.
По результатам испытаний на тестовой выборке средняя ошибка позиционирования составила 4,7 м при высоте съёмки 100 м и 18,3 м при высоте 400 м, что соответствует угловой точности порядка 0,003° и отвечает установленным требованиям к системе. Среднее время обработки одного кадра на процессоре Intel Core i7–12700H составило 0,42 с [11].
Заключение
В статье проведён сравнительный анализ методов сопоставления изображений применительно к задаче навигации беспилотных летательных аппаратов в условиях недоступности спутниковых навигационных систем. Рассмотрены классические алгоритмы SIFT и ORB, нейросетевой детектор SuperPoint и архитектура на основе сиамских нейронных сетей.
Установлено, что классические алгоритмы не обеспечивают требуемой точности и устойчивости в условиях широкого диапазона высот и сезонных изменений ландшафта. Нейросетевые методы, в частности сиамские нейронные сети, демонстрируют существенное преимущество по ключевым критериям и являются наиболее перспективным направлением для решения поставленной задачи.
Практическая реализация на базе сиамской нейронной сети подтвердила работоспособность выбранного подхода: средняя ошибка позиционирования составила менее 5 м при высоте съёмки 100 м, а время обработки кадра не превысило 0,5 с. В дальнейшем планируется аппаратная реализация на инференс-устройствах, основанных на традиционных нейропроцессорах (КМОП-технология [12]), или с применением элементной базы на новых физических принципах.
Литература:
- Кулешов С. В., Кваснов А. В., Зайцева А. А., Ронжин А. Л. Комплексный подход к визуальной навигации по естественным ориентирам для БПЛА, работающих в условиях недоступности ГНСС // Известия ЮФУ. Технические науки. 2025. № 2 (244). URL: https://cyberleninka.ru/article/n/kompleksnyy-podhod-k-vizualnoy-navigatsii-po-estestvennym-orientiram-dlya-bpla-rabotayuschih-v-usloviyah-nedostupnosti-gnss (дата обращения: 01.04.2026).
- Злобин С. Е. Развитие систем визуальной навигации для беспилотных летательных аппаратов в условиях отсутствия GPS-сигнала // Интеллектуальные технологии на транспорте. 2025. № 4 (44). URL: https://cyberleninka.ru/article/n/razvitie-sistem-vizualnoy-navigatsii-dlya-bespilotnyh-letatelnyh-apparatov-v-usloviyah-otsutstviya-gps-signala (дата обращения: 01.04.2026).
- Rublee E. et al. ORB: An efficient alternative to SIFT or SURF // Proceedings of IEEE ICCV. 2011. P. 2564–2571.
- DeTone D., Malisiewicz T., Rabinovich A. SuperPoint: Self-supervised interest point detection and description // Proceedings of CVPR Workshops. 2018. P. 224–236.
- Bromley J. et al. Signature verification using a 'Siamese' time delay neural network // Advances in Neural Information Processing Systems. 1994. Vol. 6. P. 737–744.
- Hu H. et al. Recurrent neural network for remote sensing image classification // IEEE Transactions on Geoscience and Remote Sensing. 2015. Vol. 53. No. 3. P. 1373–1384.
- He K. et al. Deep residual learning for image recognition // Proceedings of CVPR. 2016. P. 770–778.
- Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An Efficient Alternative to SIFT or SURF // Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2011. P. 2564–2571. DOI: 10.1109/ICCV.2011.
- Поляк Б. Т. Введение в оптимизацию. М.: Наука, 1983
- Koch G., Zemel R., Salakhutdinov R. Siamese Neural Networks for One-shot Image Recognition // ICML Deep Learning Workshop. 2015.
- Bertinetto L., Valmadre J., Henriques J. F., Vedaldi A., Torr P. H. S. Fully-Convolutional Siamese Networks for Object Tracking // Computer Vision — ECCV 2016 Workshops. Springer, Cham, 2016. P. 850–865. DOI: 10.1007/978–3–319–48881–3_56
- Красников Г. Я., Горнев Е. С., Матюшкин И. В. Общая теория технологий и микроэлектроника. М.: Техносфера, 2020. 434 с. ISBN: 978–5–94836–611–1 EDN: YEVRRQ

