В статье проанализированы потенциальные возможности мультиспектральных нейронных сетей для обнаружения объектов, также рассмотрены подходы к обнаружению мультиспектральных объектов реализуемые различными моделями мультиспектральных сверточных нейросетей.
Ключевые слова: нейронные сети, CNN, R-CNN, Fast R-CNN, Mask R-CNN, RetinaNet, мультиспектральные объекты, детектирование объектов, мультиспектральные нейронные сети.
На момент проводимого исследования, наиболее действенным методом обнаружения различных классов объектов на изображениях является использование нейросети при анализе цифровых изображений или видео потока. Т. к. выполнение анализа при помощи математических моделей и использование жестких алгоритмов обработки изображений весьма ресурсоемко из-за необходимости длительной отладки и тестирования конечного программного продукта, по причине множества нечетких требований, зависящих о конкретной ситуации или особенностей изображения. Использование нейросетевых моделей оправдывает себя как с точки зрения открытых интеллектуальных ресурсов, единой терминологии, большей научной базы, возможности обучения и переобучения, легкой передачи моделей между различными платформами, легкой настройке и масштабирования для решения множества аналитических задач имеющих размытые (неявно сформулированные, или имеющие большие погрешности) исходные данные через закладывание этих требований формированием набора данных для обучения модели. Открытость технологии обеспечило создание множества открытых программных решений. Решение задачи классификации изображений используя сверточные нейронных сетей (Convolutional neural network CNN), дало возможность детектировать объекты на изображениях отделяя их от остальных данных используя Mask R-CNN (Mask Region-based CNN).
Стандартные камеры имеют зависимость от уровня освещенности, они хорошо подходят для использования в условиях достаточной освещённости, однако теряют эффективность при её понижении. Поэтому следует выполнять объединение данных полученных от различного типа камер, например от камеры фиксирующей данные от видимого светового диапазона с данными получаемыми от камер работающих в длинноволновом инфракрасном диапазоне (LWIR), которые исключают необходимость во внешнем источнике света и менее зависимы от погодных факторов. В свою очередь инфракрасные камеры имеют низкую точность в случае повышенной температуры окружающей среды в дневное время. Объединение данных от обоих типов камер, нивелирует их недостатки обеспечивая увеличение средней точности получаемых данных по детектированию объектов.
Исследования [1] указали на существующий дополнительный потенциал, за счет снижения ошибочных срабатываний при анализе данных от двух каналов. В таблице 1 показаны результаты тестирования двух отдельно обученных нейросетей с использованием только цветных, или только тепловых наборов данных на основе FasterR-CNN-C (цветная) и FasterR-CNN-T (тепловая).
Таблица 1
Результаты тестирования нейросетей обученных на разных наборах данных [по данным источника 1]
Время суток |
GT |
TP(C,T) |
TP(C) |
TP(T) |
|||
ед. |
ед. |
% |
ед. |
% |
ед. |
% |
|
Всего |
2757,00 |
924,00 |
33,51 |
390,00 |
14,15 |
397,00 |
14,40 |
Днем |
2003,00 |
720,00 |
35,95 |
346,00 |
17,27 |
176,00 |
8,79 |
Ночью |
754,00 |
204,00 |
27,06 |
44,00 |
5,84 |
221,00 |
29,31 |
GT |
FP(C,T) |
FP(C) |
FP(T) |
||||
ед. |
ед. |
% |
ед. |
% |
ед. |
% |
|
Всего |
2757,00 |
345,00 |
12,51 |
1169,00 |
42,40 |
1158,00 |
42,00 |
Днем |
2003,00 |
303,00 |
15,13 |
745,00 |
37,19 |
827,00 |
41,29 |
Ночью |
754,00 |
42,00 |
5,57 |
424,00 |
56,23 |
331,00 |
43,90 |
TP (true positives) — правильные срабатывания; FP (false positives) — ошибочные срабатывания; С — RGB изображение; Т –инфракрасное изображение; GT (ground truth) — обнаружения объектов где коэффициент доверия выше 0,5. |
|||||||
Исходя из данных таблицы 1, днем FasterR-CNN-C имеет большее количество правильных срабатываний (17,27 % против 8,79 %), тогда как на изображениях полученных в темное время суток ситуация противоположная (5,84 % против 29,31 %). Тогда можно сделать вывод, что существует возможность снижения FP (false positives) за счет использования двух каналов изображения.
Для эффективного использования нескольких спектров изображений основная техническая задача заключается в объединении получаемых данных с каждого из спектров.
Методы обнаружения многоспектральных объектов с помощью мультиспектральных сверточных нейросетей различаются по тому когда и каким образом выполняется объединение данных мультиспектральных характеристик [2]. Как правило, все разработанные методики можно классифицировать на три группы, по признаку «когда» происходит объединение (рисунок 1) — слияния функций на раннем этапе (Early Fusion), среднем этапе (Halfway Fusion) и позднее слияние (Late Fusion).
Рис. 1. Разделение методик объединения цветных и тепловых изображений для мультиспектрального обнаружения объектов [1]
Подходы реализующие «ранее» и «среднее» объединение требуют наличия полного набора данных применяемого при обучении мультиспектральной нейрсети. В то время как «позднее» слияние позволяет разделять обучение модели, поэтапно обучая на каждый необходимый спектр. Однако, так называемое, «среднее» слияние дает наилучшую точность конечной модели, при одинаковом наборе данных.
Описание некоторых подходов (по параметру «каким образом») обеспечивающих слияние двух изображений объектов представлено в таблице 2.
Таблица 2
Методы слияния двух изображений применяемые в мультиспектральных CNN
Подход |
Сущность |
Используя объединенный двухсторонний фильтр |
используется низкоуровневое объединение пикселей изображений. С помощью двустороннего фильтра, который выполняет объединение данных о границах силуэтов на цветном изображении и «нагретой» области на тепловом изображении [3]. |
Слияние на уровне характеристик, через расширение детектора |
используется набор данных, представляющий объединения множества цветных-тепловых данных полученных из изображений, снятых с использованием специального оборудования имеющего в своем составе светоделители, что значительно уменьшает средний уровень ошибок на 15 % [4]. |
Применяется дополнительный процесс объединения данных перед принятием решения о детектировании. |
– изображения синхронизируются, калибруются по температуре, затем геометрически корректируются; – группируются по кадрам, отдельно для видео, и отдельно для тепловых изображений, затем алгоритм слияния выполнит обнаружение объектов; – Объектам присваиваются определенные критерии, как по форме так и по температуре [5]. |
В зависимости от требований к реализации модели, будь то скорость обучения, или точность результатов, или необходимость объединить уже имеющиеся модели выбираются различные подходы. Тем не менее, на сегодняшний момент ни одна модель не достигает 100 % точности.
Литература:
- Ross Girshick Fast R-CNN / Girshick Ross // IEEE International Conference on Computer Vision (ICCV), 2015. — URL: https://arxiv.org/pdf/1504.08083.pdf (date of the application 12.04.2021). — Text: electronic.
- Jingjing Liu, Shaoting Zhang, Shu Wang, and Dimitris N. Metaxas, “Multispectral deep neural networks for pedestrian detection,” in Proceedings of the British Machine Vision Conference 2016, BMVC 2016, York, UK, September 19–22, 2016. — URL: http://www.bmva.org/bmvc/2016/papers/paper073/paper073.pdf (date of the application 12.04.2021). — Text: electronic.
- E.-J. Choi and D.-J. Park. Human detection using image fusion of thermal and visible image with new joint bilateral filter / Choi E.-J. and Park D.-J. // In ICCIT, pp. 882–885, 2010. — URL: https://ieeexplore.ieee.org/document/5711182 (date of the application 19.04.2021). — Text: electronic.
- S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon. Multispectral pedestrian detection / Hwang S., Park J., Kim N., Choi Y., and Kweon I. S. // Benchmark dataset and baseline. In CVPR, 2015. — URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/app/1A_113.pdf (date of the application 01.05.2021). — Text: electronic.
- H. Torresan, B. Turgeon, C. Ibarra-castanedo, P. H´ebert, and X. Maldague. Advanced surveillance systems: Combining video and thermal imagery for pedestrian detection / Torresan H., Turgeon B., Ibarra-castanedo C., H´ebert P., and Maldague X. // In In Proc. of SPIE, Thermosense XXVI, volume 5405 of SPIE, pp. 506–515, 2004. — URL: https://ui.adsabs.harvard.edu/abs/2004SPIE.5405..506T/abstract (date of the application 20.04.2021). — Text: electronic.