Показано, что для распознавания изображений с помощью нейронной сети YOLOv3 желательно поддерживать контраст не менее 0,3 и отношение сигнал/шум не ниже 15 дБ, иначе вероятность правильного распознавания может оказаться ниже 0,9.
Ключевые слова: нейронная сеть, распознавание изображения, контраст, аддитивный нормальный шум.
Применение искусственных нейронных сетей для решения практических задач становится все более широким [1]. Нейронная сеть YOLOv3 [2] для распознавания объектов на изображениях получила популярность в связи с ее высокой производительностью. Однако, в некоторых применениях, например, в системах обнаружения дронов [3], нужно знать те особенности и характеристики сети, которые мало представлены в доступных источниках. В частности, нужно знать, как сеть будет реагировать на условия плохого освещения, что приводит к низкому контрасту и зашумленности входных изображений.
В связи с этим цель данной работы состояла в том, чтобы получить зависимости вероятности правильного распознавания от контраста и отношения сигнал/шум на изображениях.
Контраст (контрастность) K вычислялся как отношение:
,
где:
– W — яркость наиболее светлого пикселя;
– B — яркость наиболее темного пикселя.
Были созданы три набора данных, которые содержали по 60 изображений с различным контрастом (примеры приведены на рис. 1).
Рис. 1. Изображения из наборов A1C (слева), A2C (посредине) и A3C (справа) с контрастом 1 (вверху) и 0,33 (внизу)
Изображения распознавались с помощью нейронной сети ImageAI YOLOv3, которая запускалась в облачной среде Google Colab. Результаты обработки приведены на рис. 2.
Рис. 2. Влияние контраста на вероятность правильного распознавания
Из них видно, что снижение контраста менее значения 0,3 нежелательно, так как легко может привести к падению вероятности правильного распознавания ниже 0,9.
Воздействие аддитивного шума моделировалось путем его сложения с исходным изображением контраста 0,33. Программная модель создавала нормальный некоррелированный шум. Были созданы три набора данных по 60 изображений с различным уровнем шума. Примеры из набора A1N приведены на рис. 3.
Рис. 3. Изображения с отношениями сигнал/шум 30 дБ, 20 дБ и 10 дБ
Отношение сигнал/шум в децибелах (дБ) вычислялось через логарифм отношения размаха полезного видеосигнала к среднеквадратичному значению шума:
,
где:
– SNR — отношение сигнал/шум, дБ;
– W — яркость наиболее светлого пикселя до внесения шума;
– B — яркость наиболее темного пикселя до внесения шума;
– N — среднеквадратическое отклонение шума яркости пикселей.
Результаты обработки приведены на рис. 4. По ним видно, что ухудшение отношения сигнал/шум ниже 15 дБ вполне может снизить вероятность правильного распознавания ниже 0,9. Можно также предположить, что чем меньше площадь объекта на изображении при прочих равных условиях, тем значительнее влияние шума.
Рис. 4. Влияние шума на вероятность правильного распознавания
Например, объекты на изображениях наборов A1N, A2N и A3N имели одинаковые линейные размеры около 100 пикселей, но разную площадь, в A1N — наименьшую, в A3N — наибольшую. Соответственно, на A1N шум оказал наибольшее влияние, на A3N — наименьшее.
В целом можно сделать вывод, что при работе с нейронной сетью YOLOv3 желательно поддерживать контраст не менее 0,3 и отношение сигнал/шум не ниже 15 дБ.
В ходе дальнейшей работы предполагается провести аналогичные исследования для нейронных сетей TinyYOLOv3 и RetinaNet.
Литература:
1. Official English Documentation for ImageAI!. — Текст: электронный // Moses Olafenwa and John Olafenwa: [сайт]. — URL: https://imageai.readthedocs.io/en/latest/ (дата обращения: 25.05.2021).
2. Redmon J., Farhadi A. Yolov3: An incremental improvement. — Текст: электронный // arXiv: [сайт]. — URL: https://arxiv.org/pdf/1804.02767.pdf (дата обращения: 25.05.2021).
3. Samaras S. et al. Deep learning on multi sensor data for counter UAV applications—A systematic review //Sensors. — 2019. — Т. 19. — №. 22. — С. 4837.