Реализация мультиспектральных нейронных сетей для решения задач обнаружения объектов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №23 (365) июнь 2021 г.

Дата публикации: 07.06.2021

Статья просмотрена: 35 раз

Библиографическое описание:

Кулакова, Н. С. Реализация мультиспектральных нейронных сетей для решения задач обнаружения объектов / Н. С. Кулакова, А. Н. Иванов. — Текст : непосредственный // Молодой ученый. — 2021. — № 23 (365). — С. 95-97. — URL: https://moluch.ru/archive/365/82089/ (дата обращения: 25.04.2024).



В статье проанализированы потенциальные возможности мультиспектральных нейронных сетей для обнаружения объектов, также рассмотрены подходы к обнаружению мультиспектральных объектов реализуемые различными моделями мультиспектральных сверточных нейросетей.

Ключевые слова: нейронные сети, CNN, R-CNN, Fast R-CNN, Mask R-CNN, RetinaNet, мультиспектральные объекты, детектирование объектов, мультиспектральные нейронные сети.

На момент проводимого исследования, наиболее действенным методом обнаружения различных классов объектов на изображениях является использование нейросети при анализе цифровых изображений или видео потока. Т. к. выполнение анализа при помощи математических моделей и использование жестких алгоритмов обработки изображений весьма ресурсоемко из-за необходимости длительной отладки и тестирования конечного программного продукта, по причине множества нечетких требований, зависящих о конкретной ситуации или особенностей изображения. Использование нейросетевых моделей оправдывает себя как с точки зрения открытых интеллектуальных ресурсов, единой терминологии, большей научной базы, возможности обучения и переобучения, легкой передачи моделей между различными платформами, легкой настройке и масштабирования для решения множества аналитических задач имеющих размытые (неявно сформулированные, или имеющие большие погрешности) исходные данные через закладывание этих требований формированием набора данных для обучения модели. Открытость технологии обеспечило создание множества открытых программных решений. Решение задачи классификации изображений используя сверточные нейронных сетей (Convolutional neural network CNN), дало возможность детектировать объекты на изображениях отделяя их от остальных данных используя Mask R-CNN (Mask Region-based CNN).

Стандартные камеры имеют зависимость от уровня освещенности, они хорошо подходят для использования в условиях достаточной освещённости, однако теряют эффективность при её понижении. Поэтому следует выполнять объединение данных полученных от различного типа камер, например от камеры фиксирующей данные от видимого светового диапазона с данными получаемыми от камер работающих в длинноволновом инфракрасном диапазоне (LWIR), которые исключают необходимость во внешнем источнике света и менее зависимы от погодных факторов. В свою очередь инфракрасные камеры имеют низкую точность в случае повышенной температуры окружающей среды в дневное время. Объединение данных от обоих типов камер, нивелирует их недостатки обеспечивая увеличение средней точности получаемых данных по детектированию объектов.

Исследования [1] указали на существующий дополнительный потенциал, за счет снижения ошибочных срабатываний при анализе данных от двух каналов. В таблице 1 показаны результаты тестирования двух отдельно обученных нейросетей с использованием только цветных, или только тепловых наборов данных на основе FasterR-CNN-C (цветная) и FasterR-CNN-T (тепловая).

Таблица 1

Результаты тестирования нейросетей обученных на разных наборах данных [по данным источника 1]

Время суток

GT

TP(C,T)

TP(C)

TP(T)

ед.

ед.

%

ед.

%

ед.

%

Всего

2757,00

924,00

33,51

390,00

14,15

397,00

14,40

Днем

2003,00

720,00

35,95

346,00

17,27

176,00

8,79

Ночью

754,00

204,00

27,06

44,00

5,84

221,00

29,31

GT

FP(C,T)

FP(C)

FP(T)

ед.

ед.

%

ед.

%

ед.

%

Всего

2757,00

345,00

12,51

1169,00

42,40

1158,00

42,00

Днем

2003,00

303,00

15,13

745,00

37,19

827,00

41,29

Ночью

754,00

42,00

5,57

424,00

56,23

331,00

43,90

TP (true positives) — правильные срабатывания;

FP (false positives) — ошибочные срабатывания;

С — RGB изображение; Т –инфракрасное изображение;

GT (ground truth) — обнаружения объектов где коэффициент доверия выше 0,5.

Исходя из данных таблицы 1, днем FasterR-CNN-C имеет большее количество правильных срабатываний (17,27 % против 8,79 %), тогда как на изображениях полученных в темное время суток ситуация противоположная (5,84 % против 29,31 %). Тогда можно сделать вывод, что существует возможность снижения FP (false positives) за счет использования двух каналов изображения.

Для эффективного использования нескольких спектров изображений основная техническая задача заключается в объединении получаемых данных с каждого из спектров.

Методы обнаружения многоспектральных объектов с помощью мультиспектральных сверточных нейросетей различаются по тому когда и каким образом выполняется объединение данных мультиспектральных характеристик [2]. Как правило, все разработанные методики можно классифицировать на три группы, по признаку «когда» происходит объединение (рисунок 1) — слияния функций на раннем этапе (Early Fusion), среднем этапе (Halfway Fusion) и позднее слияние (Late Fusion).

Разделение методик объединения цветных и тепловых изображений для мультиспектрального обнаружения объектов [1]

Рис. 1. Разделение методик объединения цветных и тепловых изображений для мультиспектрального обнаружения объектов [1]

Подходы реализующие «ранее» и «среднее» объединение требуют наличия полного набора данных применяемого при обучении мультиспектральной нейрсети. В то время как «позднее» слияние позволяет разделять обучение модели, поэтапно обучая на каждый необходимый спектр. Однако, так называемое, «среднее» слияние дает наилучшую точность конечной модели, при одинаковом наборе данных.

Описание некоторых подходов (по параметру «каким образом») обеспечивающих слияние двух изображений объектов представлено в таблице 2.

Таблица 2

Методы слияния двух изображений применяемые в мультиспектральных CNN

Подход

Сущность

Используя объединенный двухсторонний фильтр

используется низкоуровневое объединение пикселей изображений. С помощью двустороннего фильтра, который выполняет объединение данных о границах силуэтов на цветном изображении и «нагретой» области на тепловом изображении [3].

Слияние на уровне характеристик, через расширение детектора

используется набор данных, представляющий объединения множества цветных-тепловых данных полученных из изображений, снятых с использованием специального оборудования имеющего в своем составе светоделители, что значительно уменьшает средний уровень ошибок на 15 % [4].

Применяется дополнительный процесс объединения данных перед принятием решения о детектировании.

– изображения синхронизируются, калибруются по температуре, затем геометрически корректируются;

– группируются по кадрам, отдельно для видео, и отдельно для тепловых изображений, затем алгоритм слияния выполнит обнаружение объектов;

– Объектам присваиваются определенные критерии, как по форме так и по температуре [5].

В зависимости от требований к реализации модели, будь то скорость обучения, или точность результатов, или необходимость объединить уже имеющиеся модели выбираются различные подходы. Тем не менее, на сегодняшний момент ни одна модель не достигает 100 % точности.

Литература:

  1. Ross Girshick Fast R-CNN / Girshick Ross // IEEE International Conference on Computer Vision (ICCV), 2015. — URL: https://arxiv.org/pdf/1504.08083.pdf (date of the application 12.04.2021). — Text: electronic.
  2. Jingjing Liu, Shaoting Zhang, Shu Wang, and Dimitris N. Metaxas, “Multispectral deep neural networks for pedestrian detection,” in Proceedings of the British Machine Vision Conference 2016, BMVC 2016, York, UK, September 19–22, 2016. — URL: http://www.bmva.org/bmvc/2016/papers/paper073/paper073.pdf (date of the application 12.04.2021). — Text: electronic.
  3. E.-J. Choi and D.-J. Park. Human detection using image fusion of thermal and visible image with new joint bilateral filter / Choi E.-J. and Park D.-J. // In ICCIT, pp. 882–885, 2010. — URL: https://ieeexplore.ieee.org/document/5711182 (date of the application 19.04.2021). — Text: electronic.
  4. S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon. Multispectral pedestrian detection / Hwang S., Park J., Kim N., Choi Y., and Kweon I. S. // Benchmark dataset and baseline. In CVPR, 2015. — URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/app/1A_113.pdf (date of the application 01.05.2021). — Text: electronic.
  5. H. Torresan, B. Turgeon, C. Ibarra-castanedo, P. H´ebert, and X. Maldague. Advanced surveillance systems: Combining video and thermal imagery for pedestrian detection / Torresan H., Turgeon B., Ibarra-castanedo C., H´ebert P., and Maldague X. // In In Proc. of SPIE, Thermosense XXVI, volume 5405 of SPIE, pp. 506–515, 2004. — URL: https://ui.adsabs.harvard.edu/abs/2004SPIE.5405..506T/abstract (date of the application 20.04.2021). — Text: electronic.
Основные термины (генерируются автоматически): CNN, R-CNN, изображение, объединение данных, данные, набор данных, LWIR, RGB, модель, обучение модели.


Ключевые слова

нейронные сети, CNN, R-CNN, Fast R-CNN, Mask R-CNN, RetinaNet, мультиспектральные объекты, детектирование объектов, мультиспектральные нейронные сети

Похожие статьи

GRU и LSTM: современные рекуррентные нейронные сети

Рекуррентные нейронные сети (Recurrent Neural Network, RNN) — класс моделей машинного обучения, основанный на

Такие сети удобно применять в тех случаях, когда входные данные задачи представляют собой нефиксированную...

Ключевые моменты в развитии сверточных нейронных сетей

Ключевые слова: сверточные нейронные сети, CNN, ReLu-функции, свертка

В последние несколько лет в области распознавания изображений достигнуты существенные успехи.

В задачах машинного обучения оценка точности производится на двух наборах данных...

Использование нейронных сетей в задаче...

Для определения закономерностей в данных по продажам и построения прогноза

Они устойчивы в разумных пределах к помехам во входных данных и могут даже поддерживать обучение и прогнозирование при наличии пропущенных значений.

Рекуррентные нейронные сети (RNN), называются рекуррентными, потому что они

Таким образом, модель становится лучше в определении правильной информации...

Искусственный интеллект и большие данные

Большие данные — топливо ИИ. Это и то, что обучает ИИ, становится все более и более мощным, и то, к чему в

Комбинируя создание этих данных с достижениями в области глубокого обучения для распознавания изображений и речи, все больше...

Механизмы работы нейронных сетей | Статья в журнале...

Описание предлагаемой модели. Модель сопоставления слов получает вопрос и нормализованный ответ в качестве входных данных, и из этих данных он генерирует согласованный ответ, содержащий такое же количество слов...

Модель математической нейронной сети | Статья...

‒ Классификация — распределение данных по параметрам. Например, на вход дается набор людей и нужно решить, кому из

Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / Учебник.

Анализ применения гомоморфных схем шифрования...

Исходные данные и результат работы могут быть доступны только клиенту, отправляющему запрос, а модель получения

Наиболее перспективным методом шифрования в схемах машинного обучения является гомоморфное шифрование.

Необходимость создания единой структуры цифровой...

Основой для представления данных для ГИС являются цифровые модели. Под цифровой моделью географического объекта понимается определенная форма представления исходных данных и способ их структурного описания, позволяющий...

Похожие статьи

GRU и LSTM: современные рекуррентные нейронные сети

Рекуррентные нейронные сети (Recurrent Neural Network, RNN) — класс моделей машинного обучения, основанный на

Такие сети удобно применять в тех случаях, когда входные данные задачи представляют собой нефиксированную...

Ключевые моменты в развитии сверточных нейронных сетей

Ключевые слова: сверточные нейронные сети, CNN, ReLu-функции, свертка

В последние несколько лет в области распознавания изображений достигнуты существенные успехи.

В задачах машинного обучения оценка точности производится на двух наборах данных...

Использование нейронных сетей в задаче...

Для определения закономерностей в данных по продажам и построения прогноза

Они устойчивы в разумных пределах к помехам во входных данных и могут даже поддерживать обучение и прогнозирование при наличии пропущенных значений.

Рекуррентные нейронные сети (RNN), называются рекуррентными, потому что они

Таким образом, модель становится лучше в определении правильной информации...

Искусственный интеллект и большие данные

Большие данные — топливо ИИ. Это и то, что обучает ИИ, становится все более и более мощным, и то, к чему в

Комбинируя создание этих данных с достижениями в области глубокого обучения для распознавания изображений и речи, все больше...

Механизмы работы нейронных сетей | Статья в журнале...

Описание предлагаемой модели. Модель сопоставления слов получает вопрос и нормализованный ответ в качестве входных данных, и из этих данных он генерирует согласованный ответ, содержащий такое же количество слов...

Модель математической нейронной сети | Статья...

‒ Классификация — распределение данных по параметрам. Например, на вход дается набор людей и нужно решить, кому из

Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / Учебник.

Анализ применения гомоморфных схем шифрования...

Исходные данные и результат работы могут быть доступны только клиенту, отправляющему запрос, а модель получения

Наиболее перспективным методом шифрования в схемах машинного обучения является гомоморфное шифрование.

Необходимость создания единой структуры цифровой...

Основой для представления данных для ГИС являются цифровые модели. Под цифровой моделью географического объекта понимается определенная форма представления исходных данных и способ их структурного описания, позволяющий...

Задать вопрос