Исследовано влияние масштабирования изображения объекта на вероятность правильного распознавания нейронной сетью YOLOv3. Получена оценка минимально допустимого размера объекта на изображении.
Ключевые слова: нейронная сеть, распознавание, изображение, масштабирование.
Системы обнаружения малых беспилотных летательных аппаратов (БПЛА) [1] сейчас становятся важными системами безопасности. В таких системах кроме прочих датчиков могут быть применены видеокамеры и средства обработки видео. Для распознавания класса обнаруженного объекта (самолет/дрон/птица и т. д.) все более успешно применяют искусственные нейронные сети [2]. Однако в доступной литературе недостаточно информации по некоторым вопросам, актуальным для построения системы. Например, очень важно знать минимально допустимый размер объекта на изображении, при котором нейронная сеть еще способна правильно распознать этот объект. Поэтому целью данной работы была оценка минимально допустимого размера изображения объекта.
Исследование проводилось для нейронной сети с архитектурой YOLOv3 [3]. Она считается сейчас одной из самых быстрых и мало требовательных к ресурсам, что может облегчить ее использование во встраиваемых применениях. На сайте библиотеки ImageAI [4] существует ее предварительно обученная свободная реализация. Эта реализация обучена распознаванию 80 классов объектов, в том числе airplane (самолет) и bird (птица). Для экспериментов были выбраны несколько исходных изображений самолетов и созданы их масштабированные (уменьшенные) варианты с различными размерами, по 60 вариантов для каждого из исходных изображений. Для генерации таких наборов данных был создан плагин к графическому редактору GIMP. На рис. 1–3 приведены примеры масштабированных изображений.
Рис. 1. Изображения из набора A1 с размерами объекта 190, 95, 48 пикселей
Рис. 2. Изображения из набора A2 с размерами объекта 128, 64, 32 пикселей
Рис. 3. Изображения из набора A3 с размерами объекта 152, 76, 38 пикселей
Нейронная сеть запускалась в облачной среде Google Colab. Результаты обработки этих наборов данных приведены на рис. 4–6.
Рис. 4. Результаты распознавания набора A1
Рис. 5. Результаты распознавания набора A2
Рис. 6. Результаты распознавания набора A3
Видно, что вероятность правильного распознавания > 0,9 обеспечивается только если размер объекта на изображении превышает некоторое минимально допустимое значение порядка 25...40 пикселей (таблица 1).
Таблица 1
Минимальный размер объекта для нейронной сети ImageAI YOLOv3
Набор изображений |
Минимальный размер объекта, пикселей |
A1 |
40 |
A2 |
35 |
A3 |
25 |
Отсюда можно сделать вывод, что при разработке структуры системы обнаружения БПЛА нужно добиваться того, чтобы видеокамеры и блоки предварительной обработки передавали только такие изображения на вход нейронной сети, в которых обеспечивается не меньший размер объектов. В развитие данной работы предполагается исследовать влияние поворота изображения объекта.
Литература:
1. Макаренко С. И. Противодействие беспилотным летательным аппаратам. — СПб.: Наукоемкие технологии, 2020. — 204 c.
2. Samaras S. et al. Deep learning on multi sensor data for counter UAV applications—A systematic review //Sensors. — 2019. — Т. 19. — №. 22. — С. 4837.
3. Redmon J., Farhadi A. Yolov3: An incremental improvement. — Текст: электронный // arXiv: [сайт]. — URL: https://arxiv.org/pdf/1804.02767.pdf (дата обращения: 25.05.2021).
4. Official English Documentation for ImageAI!. — Текст: электронный // Moses Olafenwa and John Olafenwa: [сайт]. — URL: https://imageai.readthedocs.io/en/latest/ (дата обращения: 25.05.2021).