Показано, что обученная реализация нейронной сети YOLOv3 на ресурсе ImageAI не обладает устойчивостью к поворотам изображения.
Ключевые слова: нейронная сеть, распознавание, поворот изображения.
Искусственные нейронные сети в настоящее время применяются в самых различных областях, в том числе в системах обеспечения безопасности для распознавания объектов [1]. Нейронная сеть с архитектурой YOLOv3 [2] отличается высокой производительностью. Для исследования возможностей применения нейронных сетей можно использовать библиотеку с открытым исходным кодом ImageAI [3]. Ресурс ImageAI предоставляет также обученную реализацию YOLOv3.
Цель данной работы состояла в том, чтобы определить, насколько будут влиять повороты изображения объекта на вероятность его правильного распознавания нейронной сетью. Это важно во многих применениях, например, для систем обнаружения летательных аппаратов.
Для этого исследования были сформированы 9 наборов данных, каждый из которых содержал по 60 изображений одного и того же объекта с шагом поворота 6 градусов (примеры показаны на рис. 1–3). Нейронная сеть ImageAI YOLOv3 запускалась в облачной среде Google Colab и обрабатывала эти наборы данных.
Результаты обработки приведены на рис. 4–6. Рассмотрение диаграмм позволяет сделать следующие выводы.
Рис. 1. Изображения набора A1 100 с углами поворота –36, 0 и +36 градусов
Рис. 2. Изображения набора A2 100 с углами поворота –72, 0 и +48 градусов
Рис. 3. Изображения набора A3 100 с углами поворота –42, 0 и +72 градусов
- Устойчивость этой обученной реализации нейронной сети к поворотам изображения оказалась низкой. Можно предположить, что в обучающих наборах были только изображения с наиболее типичными углами поворота, например изображения самолетов в горизонтальном полете.
- Для всех исследованных наборов данных существует сравнительно небольшой диапазон углов поворота около 0 градусов, в котором нейронная сеть дает вероятность правильного распознавания > 0,9 (таблица 1).
Рис. 4. Результаты распознавания наборов A1
Рис. 5. Результаты распознавания наборов A2
Рис. 6. Результаты распознавания наборов A3
Таблица 1
Допустимый диапазон углов поворота изображения
Набор изображений |
Размер объекта, пикселей |
Диапазон углов поворота, градусов |
A1 max |
380 |
–15...+30 |
A2 max |
128 |
–50...+50 |
A3 max |
304 |
–10...+50 |
A1 100 |
100 |
–40...+40 |
A2 100 |
100 |
–70...+50 |
A3 100 |
100 |
–40...+70 |
A1 min |
40 |
–20...+20 |
A2 min |
35 |
–5...+40 |
A3 min |
25 |
–90...+10 |
- Наилучшую устойчивость к повороту показало распознавание изображений с не очень малыми размерами объектов, но и с не очень большими (что также можно видеть в табл. 1).
Дальнейшие исследования будут связаны с влиянием изменения контраста изображения.
Литература:
1. Samaras S. et al. Deep learning on multi sensor data for counter UAV applications—A systematic review //Sensors. — 2019. — Т. 19. — №. 22. — С. 4837.
2. Redmon J., Farhadi A. Yolov3: An incremental improvement. — Текст: электронный // arXiv: [сайт]. — URL: https://arxiv.org/pdf/1804.02767.pdf (дата обращения: 25.05.2021).
3. Official English Documentation for ImageAI!. — Текст: электронный // Moses Olafenwa and John Olafenwa: [сайт]. — URL: https://imageai.readthedocs.io/en/latest/ (дата обращения: 25.05.2021).