Сравнение архитектур нейронных сетей в задаче сегментации фигуры человека | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 25 января, печатный экземпляр отправим 29 января.

Опубликовать статью в журнале

Библиографическое описание:

Сравнение архитектур нейронных сетей в задаче сегментации фигуры человека / Ф. В. Ежов, Г. В. Можайский, А. Д. Мищенко [и др.]. — Текст : непосредственный // Молодой ученый. — 2020. — № 28 (318). — С. 6-8. — URL: https://moluch.ru/archive/318/72493/ (дата обращения: 15.01.2025).



Статья посвящена сравнению архитектур нейронных сетей на примере задачи сегментации фигуры человека. Семантическая сегментация — важная область в сфере Computer Vision. Задачи сегментации решаются в таких проектах как: автономный транспорт, умный магазин и других. Смысл задачи состоит в нахождении множества пикселей, принадлежащих к интересующему объекту, на изображении. Лучше всего с этой задачей справляются сверточные нейронные сети. В статье подробно рассматриваются 3 предобученные сверточные нейронные сети, способные решать задачу семантической сегментации, а также сравнивает качество работы нейронных сетей между собой. Для каждой нейронной сети считается метрика “Pixel Accuracy” на тестовом датасете, состоящим из 100 изображений.

Ключевые слова: сверточные нейронные сети, Computer Vision (CV), сегментация.

Введение

Семантическая сегментация — очень важная и интересная задача в области CV. В рамках данной задачи алгоритму требуется найти так называемую “маску” объекта на изображении, то есть нужно выделить только те пиксели, которые принадлежат интересующему нас объекту, для дальнейшего оперирования ими. Данную задачу решают в таких проектах, как автоматического управления транспортом, обводки контуром фигуры человека на камерах слежения, замены фона за человеком на фотографии или видео и других. В статье представлено сравнение работы разных нейронных сетей в рамках решения задачи сегментации фигуры человека.

Нейронные сети

В сравнение использовались следующие нейронные сети: FCN-8s [1], DeepLabV3 [2], DeepLabV3 Plus [3]. Все нейронные сети были предобученны на датесете PascalVOC [4], в качестве функции потерь используется попиксельная кросс-энтропия.

FCN-8s [1] — полностью сверточная сеть, разработанная в 2015 году. Несмотря на свой возраст, все еще показывает хорошие результаты в задаче семантической сегментации. Преимуществом этой сети является использование информации, полученной на более ранних этапах свертки, это помогает лучше аккумулировать глобальную информацию.

DeepLabV3 [2] — сеть, использующая слой Atrous Convolution, появилась в 2016 году. Еще одним ее преимуществом является Atrous Spatial Pyramid Pooling(ASPP). ASPP помогает увеличить точность распознавания объектов одного класса при их разных размерах на изображении

DeepLabV3 Plus [3] — усовершенствованный вариант DeepLabV3 [2].

Данная сеть использует архитектуру encoder-decoder [5, 6], что повышает точность масок на границах объектов. В качестве encoder выступает сеть DeepLabV3 [2].

Датасет

В качестве тестового датасета использовался набор из 100 пар изображений и масок, взятых из тестового датасета COCO [7]. На всех тестовых масках был размечен только класс “человек”.

Метрика

Для оценки качества работы модели в задаче сегментации в обычно используют метрики Pixel Accuracy или mean IoU.

Pixel Accuracy — интуитивно понятная метрика. Состоит в том, чтобы просто сообщить процент пикселей в изображении, которые были правильно классифицированы. Считается она похожим образом, как и accuracy в классическом ML.

Mean Intersection over Union (mIoU) — измеряет общее количество пикселей между целевой и прогнозной масками, деленное на общее количество пикселей, присутствующих в обеих масках. IoU высчитывается для каждого класса отдельно, далее полученные результаты усредняются, так и получается метрика mean IoU.

Далее для сравнения нейронных сетей будет использоваться только метрика Pixel Accuracy, так как в тестовом датасете всего одна категория — “человек”.

Результаты

Таблица 1

Neural Networks

Pixel Accuracy

FCN

93.8

DeepLabV3

94.0

DeepLabV3 Plus

97.6

Пример 1.

Рис. 1. Пример 1.

Пример 2.

Рис. 2. Пример 2.

Пример 3.

Рис. 3. Пример 3.

Как видно по таблице и на примерах, наилучший результат показывает DeepLabV3 Plus [3]. Данная нейросеть выдает наиболее чистые маски без фона и контуров. FCN [1] и DeepLabV3 [2] показывают себя примерно одинаково, что также видно по метрике Pixel Accuracy. Обе нейронные сети выдают грубую, но все же достаточно точную маску. На маске может присутствовать фон. Очень часто в маске можно увидеть контур у объекта.

Выводы

Как видно из проведенного исследования, нейронные сети хорошо справляются с задачей сегментации. Все модели в работе показали приемлемое качество работы. Также DeepLabV3 Plus [3] показал удивительную точность в построении масок, что ставит эту модель на первое место среди рассмотренных в данной статье.

Литература:

  1. Jonathan Long,Evan Shelhamer,Trevor Darrell.Fully Convolutional Networks for Semantic Segmentation. In: CVPR, 2015.
  2. Liang-Chieh Chen,George Papandreou,Florian Schroff, Hartwig Adam. Rethinking Atrous Convolution for Semantic Image Segmentation. arXiv preprint arXiv: 1706.05587, 2017.
  3. Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff, Hartwig Adam.Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. arXiv preprint arXiv: 1802.02611, 2018.
  4. Mark Everingham, S. M. Ali Eslami, Luc Van Gool, Christopher K. I. Williams, John Winn, Andrew Zisserman. The PASCAL Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision, 2015.
  5. Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: MICCAI, 2015.
  6. Badrinarayanan, V., Kendall, A., Cipolla, R.: Segnet: A deep convolutional encoder-decoder architecture for image segmentation. PAMI, 2017.
  7. Tsung-Yi Lin,Michael Maire,Serge Belongie,Lubomir Bourdev,Ross Girshick,JamesHays,Pietro Perona,Deva Ramanan,C. Lawrence Zitnick,Piotr Dollár.Microsoft COCO: Common Objects in Context. In: ECCV, 2014.
Основные термины (генерируются автоматически): сеть, ASPP, FCN, семантическая сегментация, задача сегментации, COCO, задача, изображение, маска, метрика.


Ключевые слова

сегментация, свёрточные нейронные сети, Computer Vision (CV)

Похожие статьи

Разработка и исследование методов для распознавания и анализа объектов на изображении с помощью нейронной сети

Методы машинного обучения с использованием нейронных сетей широко используются в самых различных областях человеческой деятельности. Нейронные сети вошли в практику везде, где нужно решать задачи распознавания, прогнозирования, классификации или упра...

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Алгоритм обновления биометрического шаблона с применением нейронной сети

Биометрическое распознавание человека является очень актуальной темой в современном мире. Существует множество уникальных характеристик человека, по которым можно проводить распознавание. Такими характеристиками, например, являются лицо, радужная обо...

Ключевые моменты в развитии сверточных нейронных сетей

В данной работе рассматривается архитектуры сети с обходными путями. При этом ключевые моменты исследуются отдельно. И в итоге на основании полученных знаний делается вывод об эффективности использования данного алгоритма.

Распознавание эмоций в реальном времени

В данной работе представлена свёрточная нейронная сеть, которая может найти лицо человека и классифицировать эмоцию на лице в реальном времени на Raspbery Pi 3. Цель работы получить как можно хороший результат имея ограничение в виде слабого процессо...

Исследование эффективности гибридной нейросетевой архитектуры в контексте прогностического анализа энергопотребления в зданиях коммерческого назначения

Точное предсказание энергопотребления зданий играет важную роль в оптимизации планирования энергетических систем объектов. Энергопотребление зданий подвержено воздействию различных факторов и характеризуется как нелинейное, так и нестационарное явлен...

Применение нейронных сетей в создании цифрового двойника колонны фракционирования

В современном мире анализ и изучение физических объектов с помощью цифровых технологий имеют высокую актуальность из-за относительной дешевизны и простоты процесса. Одним из ключевых направлений использования цифровых технологий в сфере нефтехимическ...

Искусственные нейронные сети. Нейросетевые технологии

В данной статье рассматриваются основные концепции и технологии, лежащие в основе искусственных нейронных сетей (ИНС). Исследование фокусируется на архитектуре нейронных сетей, их обучении и применении в различных областях, таких как распознавание об...

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Разработка подсистемы распределенных вычислений для экосистемы научных исследований

В данной статье предметом исследования является проектирования микросервисной архитектуры в подсистемы распределенных вычислений. Эта архитектура представляет собой ключевой компонент, обеспечивающий эффективное выполнение вычислительных задач в расп...

Похожие статьи

Разработка и исследование методов для распознавания и анализа объектов на изображении с помощью нейронной сети

Методы машинного обучения с использованием нейронных сетей широко используются в самых различных областях человеческой деятельности. Нейронные сети вошли в практику везде, где нужно решать задачи распознавания, прогнозирования, классификации или упра...

Классификация изображений с помощью сверточных нейронных сетей

В статье автор исследует использование сверточных сетей для детектирования изображений.

Алгоритм обновления биометрического шаблона с применением нейронной сети

Биометрическое распознавание человека является очень актуальной темой в современном мире. Существует множество уникальных характеристик человека, по которым можно проводить распознавание. Такими характеристиками, например, являются лицо, радужная обо...

Ключевые моменты в развитии сверточных нейронных сетей

В данной работе рассматривается архитектуры сети с обходными путями. При этом ключевые моменты исследуются отдельно. И в итоге на основании полученных знаний делается вывод об эффективности использования данного алгоритма.

Распознавание эмоций в реальном времени

В данной работе представлена свёрточная нейронная сеть, которая может найти лицо человека и классифицировать эмоцию на лице в реальном времени на Raspbery Pi 3. Цель работы получить как можно хороший результат имея ограничение в виде слабого процессо...

Исследование эффективности гибридной нейросетевой архитектуры в контексте прогностического анализа энергопотребления в зданиях коммерческого назначения

Точное предсказание энергопотребления зданий играет важную роль в оптимизации планирования энергетических систем объектов. Энергопотребление зданий подвержено воздействию различных факторов и характеризуется как нелинейное, так и нестационарное явлен...

Применение нейронных сетей в создании цифрового двойника колонны фракционирования

В современном мире анализ и изучение физических объектов с помощью цифровых технологий имеют высокую актуальность из-за относительной дешевизны и простоты процесса. Одним из ключевых направлений использования цифровых технологий в сфере нефтехимическ...

Искусственные нейронные сети. Нейросетевые технологии

В данной статье рассматриваются основные концепции и технологии, лежащие в основе искусственных нейронных сетей (ИНС). Исследование фокусируется на архитектуре нейронных сетей, их обучении и применении в различных областях, таких как распознавание об...

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Разработка подсистемы распределенных вычислений для экосистемы научных исследований

В данной статье предметом исследования является проектирования микросервисной архитектуры в подсистемы распределенных вычислений. Эта архитектура представляет собой ключевой компонент, обеспечивающий эффективное выполнение вычислительных задач в расп...

Задать вопрос