Реализация мультиспектральных нейронных сетей для решения задач обнаружения объектов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 2 ноября, печатный экземпляр отправим 6 ноября.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №23 (365) июнь 2021 г.

Дата публикации: 07.06.2021

Статья просмотрена: 61 раз

Библиографическое описание:

Кулакова, Н. С. Реализация мультиспектральных нейронных сетей для решения задач обнаружения объектов / Н. С. Кулакова, А. Н. Иванов. — Текст : непосредственный // Молодой ученый. — 2021. — № 23 (365). — С. 95-97. — URL: https://moluch.ru/archive/365/82089/ (дата обращения: 19.10.2024).



В статье проанализированы потенциальные возможности мультиспектральных нейронных сетей для обнаружения объектов, также рассмотрены подходы к обнаружению мультиспектральных объектов реализуемые различными моделями мультиспектральных сверточных нейросетей.

Ключевые слова: нейронные сети, CNN, R-CNN, Fast R-CNN, Mask R-CNN, RetinaNet, мультиспектральные объекты, детектирование объектов, мультиспектральные нейронные сети.

На момент проводимого исследования, наиболее действенным методом обнаружения различных классов объектов на изображениях является использование нейросети при анализе цифровых изображений или видео потока. Т. к. выполнение анализа при помощи математических моделей и использование жестких алгоритмов обработки изображений весьма ресурсоемко из-за необходимости длительной отладки и тестирования конечного программного продукта, по причине множества нечетких требований, зависящих о конкретной ситуации или особенностей изображения. Использование нейросетевых моделей оправдывает себя как с точки зрения открытых интеллектуальных ресурсов, единой терминологии, большей научной базы, возможности обучения и переобучения, легкой передачи моделей между различными платформами, легкой настройке и масштабирования для решения множества аналитических задач имеющих размытые (неявно сформулированные, или имеющие большие погрешности) исходные данные через закладывание этих требований формированием набора данных для обучения модели. Открытость технологии обеспечило создание множества открытых программных решений. Решение задачи классификации изображений используя сверточные нейронных сетей (Convolutional neural network CNN), дало возможность детектировать объекты на изображениях отделяя их от остальных данных используя Mask R-CNN (Mask Region-based CNN).

Стандартные камеры имеют зависимость от уровня освещенности, они хорошо подходят для использования в условиях достаточной освещённости, однако теряют эффективность при её понижении. Поэтому следует выполнять объединение данных полученных от различного типа камер, например от камеры фиксирующей данные от видимого светового диапазона с данными получаемыми от камер работающих в длинноволновом инфракрасном диапазоне (LWIR), которые исключают необходимость во внешнем источнике света и менее зависимы от погодных факторов. В свою очередь инфракрасные камеры имеют низкую точность в случае повышенной температуры окружающей среды в дневное время. Объединение данных от обоих типов камер, нивелирует их недостатки обеспечивая увеличение средней точности получаемых данных по детектированию объектов.

Исследования [1] указали на существующий дополнительный потенциал, за счет снижения ошибочных срабатываний при анализе данных от двух каналов. В таблице 1 показаны результаты тестирования двух отдельно обученных нейросетей с использованием только цветных, или только тепловых наборов данных на основе FasterR-CNN-C (цветная) и FasterR-CNN-T (тепловая).

Таблица 1

Результаты тестирования нейросетей обученных на разных наборах данных [по данным источника 1]

Время суток

GT

TP(C,T)

TP(C)

TP(T)

ед.

ед.

%

ед.

%

ед.

%

Всего

2757,00

924,00

33,51

390,00

14,15

397,00

14,40

Днем

2003,00

720,00

35,95

346,00

17,27

176,00

8,79

Ночью

754,00

204,00

27,06

44,00

5,84

221,00

29,31

GT

FP(C,T)

FP(C)

FP(T)

ед.

ед.

%

ед.

%

ед.

%

Всего

2757,00

345,00

12,51

1169,00

42,40

1158,00

42,00

Днем

2003,00

303,00

15,13

745,00

37,19

827,00

41,29

Ночью

754,00

42,00

5,57

424,00

56,23

331,00

43,90

TP (true positives) — правильные срабатывания;

FP (false positives) — ошибочные срабатывания;

С — RGB изображение; Т –инфракрасное изображение;

GT (ground truth) — обнаружения объектов где коэффициент доверия выше 0,5.

Исходя из данных таблицы 1, днем FasterR-CNN-C имеет большее количество правильных срабатываний (17,27 % против 8,79 %), тогда как на изображениях полученных в темное время суток ситуация противоположная (5,84 % против 29,31 %). Тогда можно сделать вывод, что существует возможность снижения FP (false positives) за счет использования двух каналов изображения.

Для эффективного использования нескольких спектров изображений основная техническая задача заключается в объединении получаемых данных с каждого из спектров.

Методы обнаружения многоспектральных объектов с помощью мультиспектральных сверточных нейросетей различаются по тому когда и каким образом выполняется объединение данных мультиспектральных характеристик [2]. Как правило, все разработанные методики можно классифицировать на три группы, по признаку «когда» происходит объединение (рисунок 1) — слияния функций на раннем этапе (Early Fusion), среднем этапе (Halfway Fusion) и позднее слияние (Late Fusion).

Разделение методик объединения цветных и тепловых изображений для мультиспектрального обнаружения объектов [1]

Рис. 1. Разделение методик объединения цветных и тепловых изображений для мультиспектрального обнаружения объектов [1]

Подходы реализующие «ранее» и «среднее» объединение требуют наличия полного набора данных применяемого при обучении мультиспектральной нейрсети. В то время как «позднее» слияние позволяет разделять обучение модели, поэтапно обучая на каждый необходимый спектр. Однако, так называемое, «среднее» слияние дает наилучшую точность конечной модели, при одинаковом наборе данных.

Описание некоторых подходов (по параметру «каким образом») обеспечивающих слияние двух изображений объектов представлено в таблице 2.

Таблица 2

Методы слияния двух изображений применяемые в мультиспектральных CNN

Подход

Сущность

Используя объединенный двухсторонний фильтр

используется низкоуровневое объединение пикселей изображений. С помощью двустороннего фильтра, который выполняет объединение данных о границах силуэтов на цветном изображении и «нагретой» области на тепловом изображении [3].

Слияние на уровне характеристик, через расширение детектора

используется набор данных, представляющий объединения множества цветных-тепловых данных полученных из изображений, снятых с использованием специального оборудования имеющего в своем составе светоделители, что значительно уменьшает средний уровень ошибок на 15 % [4].

Применяется дополнительный процесс объединения данных перед принятием решения о детектировании.

– изображения синхронизируются, калибруются по температуре, затем геометрически корректируются;

– группируются по кадрам, отдельно для видео, и отдельно для тепловых изображений, затем алгоритм слияния выполнит обнаружение объектов;

– Объектам присваиваются определенные критерии, как по форме так и по температуре [5].

В зависимости от требований к реализации модели, будь то скорость обучения, или точность результатов, или необходимость объединить уже имеющиеся модели выбираются различные подходы. Тем не менее, на сегодняшний момент ни одна модель не достигает 100 % точности.

Литература:

  1. Ross Girshick Fast R-CNN / Girshick Ross // IEEE International Conference on Computer Vision (ICCV), 2015. — URL: https://arxiv.org/pdf/1504.08083.pdf (date of the application 12.04.2021). — Text: electronic.
  2. Jingjing Liu, Shaoting Zhang, Shu Wang, and Dimitris N. Metaxas, “Multispectral deep neural networks for pedestrian detection,” in Proceedings of the British Machine Vision Conference 2016, BMVC 2016, York, UK, September 19–22, 2016. — URL: http://www.bmva.org/bmvc/2016/papers/paper073/paper073.pdf (date of the application 12.04.2021). — Text: electronic.
  3. E.-J. Choi and D.-J. Park. Human detection using image fusion of thermal and visible image with new joint bilateral filter / Choi E.-J. and Park D.-J. // In ICCIT, pp. 882–885, 2010. — URL: https://ieeexplore.ieee.org/document/5711182 (date of the application 19.04.2021). — Text: electronic.
  4. S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon. Multispectral pedestrian detection / Hwang S., Park J., Kim N., Choi Y., and Kweon I. S. // Benchmark dataset and baseline. In CVPR, 2015. — URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/app/1A_113.pdf (date of the application 01.05.2021). — Text: electronic.
  5. H. Torresan, B. Turgeon, C. Ibarra-castanedo, P. H´ebert, and X. Maldague. Advanced surveillance systems: Combining video and thermal imagery for pedestrian detection / Torresan H., Turgeon B., Ibarra-castanedo C., H´ebert P., and Maldague X. // In In Proc. of SPIE, Thermosense XXVI, volume 5405 of SPIE, pp. 506–515, 2004. — URL: https://ui.adsabs.harvard.edu/abs/2004SPIE.5405..506T/abstract (date of the application 20.04.2021). — Text: electronic.
Основные термины (генерируются автоматически): CNN, R-CNN, изображение, объединение данных, данные, набор данных, LWIR, RGB, модель, обучение модели.


Ключевые слова

нейронные сети, CNN, R-CNN, Fast R-CNN, Mask R-CNN, RetinaNet, мультиспектральные объекты, детектирование объектов, мультиспектральные нейронные сети

Похожие статьи

Интеллектуальная система выявления фейков на фотографии

В данной статье вводится понятие фейковых фотографий и рассматривается роль интеллектуальных систем в выявлении фейков на фотографиях. Описываются основные методы и подходы с использованием машинного обучения и нейронных сетей. Приведены примеры испо...

Решение задач классификации методами машинного обучения

В данной работе проанализирована актуальность методов машинного обучения для решения задач классификации, определены понятия машинного обучения, нейронной сети. Выявлена необходимая информация для анализа машинного обучения. Определены понятия класси...

Применение графических процессоров с технологией CUDA в высокопроизводительных системах с искусственными нейронными сетями

В статье рассматривается проблема больших вычислений при обучении искусственных нейронных сетей в высокопроизводительных системах. В частности, разбираются важные аспекты внутреннего устройства современных графических процессоров, а также технологии ...

Построение программного комплекса для генерации звуков барабанов с использованием GAN сетей

В статье рассматривается построение программного комплекса для генерации звуков барабанов с использованием GAN сетей. Программный комплекс работает на клиент-сервер архитектуре и использует нейронные сети WaveGAN для генерации звуков. Результаты, пол...

Основы разработки модулярных нейрокомпьютеров для обработки сигналов

В статье рассмотрен один из подходов решения задач повышения уровня параллелизма вычислительных систем обработки сигналов. Одним из возможных способов решения этой проблемы является внедрение в производство нейросетевых технологий, которые рассмотрен...

Разработка веб-сервиса для генерации музыкальной последовательности по изображению

В данной работе описан процесс проектирования и разработки веб-сервиса для автоматизированной генерации звуков по изображению. Также описан основной метод для с синтеза музыки изображению, который основывается на совместном использовании нейронных се...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Использование сверточных нейронных сетей для определения кровного родства по фотографии

Определение родства по фотографии — довольно молодая область компьютерного зрения, и своим развитием она во многом обязана другим областям, таким как распознавание лица и верификация личности. В статье приводится архитектура сверточной нейронной сети...

Разработка программного модуля для проведения оценки тяжести поражения легких при COVID-19 по данным компьютерной томографии

В статье автор демонстрирует результаты, достигнутые в проводимом им исследовании, связанным с разработкой алгоритма, решающего задачу оценивания степени поражения легких при COVID-19 по данным компьютерной томографии с использованием нейронных сетей...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Похожие статьи

Интеллектуальная система выявления фейков на фотографии

В данной статье вводится понятие фейковых фотографий и рассматривается роль интеллектуальных систем в выявлении фейков на фотографиях. Описываются основные методы и подходы с использованием машинного обучения и нейронных сетей. Приведены примеры испо...

Решение задач классификации методами машинного обучения

В данной работе проанализирована актуальность методов машинного обучения для решения задач классификации, определены понятия машинного обучения, нейронной сети. Выявлена необходимая информация для анализа машинного обучения. Определены понятия класси...

Применение графических процессоров с технологией CUDA в высокопроизводительных системах с искусственными нейронными сетями

В статье рассматривается проблема больших вычислений при обучении искусственных нейронных сетей в высокопроизводительных системах. В частности, разбираются важные аспекты внутреннего устройства современных графических процессоров, а также технологии ...

Построение программного комплекса для генерации звуков барабанов с использованием GAN сетей

В статье рассматривается построение программного комплекса для генерации звуков барабанов с использованием GAN сетей. Программный комплекс работает на клиент-сервер архитектуре и использует нейронные сети WaveGAN для генерации звуков. Результаты, пол...

Основы разработки модулярных нейрокомпьютеров для обработки сигналов

В статье рассмотрен один из подходов решения задач повышения уровня параллелизма вычислительных систем обработки сигналов. Одним из возможных способов решения этой проблемы является внедрение в производство нейросетевых технологий, которые рассмотрен...

Разработка веб-сервиса для генерации музыкальной последовательности по изображению

В данной работе описан процесс проектирования и разработки веб-сервиса для автоматизированной генерации звуков по изображению. Также описан основной метод для с синтеза музыки изображению, который основывается на совместном использовании нейронных се...

Аналитическое сравнение рекуррентных моделей в задаче прогнозирования динамики ценных бумаг

В данной статье рассматриваются подходы машинного обучения в задаче анализа и прогнозирования рынка ценных бумаг. В работе сравниваются такие аспекты, как количество занимаемой памяти, число параметров, а также величина затраченного на обучение модел...

Использование сверточных нейронных сетей для определения кровного родства по фотографии

Определение родства по фотографии — довольно молодая область компьютерного зрения, и своим развитием она во многом обязана другим областям, таким как распознавание лица и верификация личности. В статье приводится архитектура сверточной нейронной сети...

Разработка программного модуля для проведения оценки тяжести поражения легких при COVID-19 по данным компьютерной томографии

В статье автор демонстрирует результаты, достигнутые в проводимом им исследовании, связанным с разработкой алгоритма, решающего задачу оценивания степени поражения легких при COVID-19 по данным компьютерной томографии с использованием нейронных сетей...

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

В данной статье приводится математическая модель системы распознавания изображений, содержащих текстовую информацию или использующих такую информацию при своей генерации. Предполагается, что рассматриваемые системы будет основаны на возможностях нейр...

Задать вопрос