Распознавание и извлечение 3D-моделей по двумерным изображениям | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 2 ноября, печатный экземпляр отправим 6 ноября.

Опубликовать статью в журнале

Библиографическое описание:

Распознавание и извлечение 3D-моделей по двумерным изображениям / Я. В. Ахремчик, Я. П. Горожанкин, А. О. Иванов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 26 (264). — С. 25-28. — URL: https://moluch.ru/archive/264/61169/ (дата обращения: 19.10.2024).



В статье представлен подход к решению проблемы по извлечению трехмерных объектов из двумерных изображений, при условии, что таких объектов может быть несколько.

Ключевые слова:реконструкция трёхмерных изображений, нейронные сети.

Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаимодействовать с всеми различными типами объектов, современные роботизированные системы весьма ограничены в этом плане. У роботизированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограничивается область применения конкретной системы. Умение же анализировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.

Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих решений не реализует принцип, позволяющий извлекать несколько трёхмерных моделей из одного изображения реального мира.

Обзор существующих подходов

Решение, выполняющее поставленную задачу должно включать в себя две составляющие:

– Решение, позволяющее производить детектирование и извлечение интересующих объектов из изображений реального мира

– Решение, реконструирующее трёхмерную модель из извлечённого изображения

Детектирование объектов

Для оценки качественной работы алгоритмов будет использоваться метрика средней точности (Average Precision, AP), где точность вычисляется как

Precision =

TP — истинно-положительное решение

FP — ложно-положительное решение

Faster R-CNN [1] (Region-based Convolutional Neural Networks)

Faster R-CNN представляет собой усовершенствованную версию

архитектуры R-CNN.

R-CNN

Суть заключается в предсказании регионов, используя процесс, называемый выборочный поиск (Selective search). Данный процесс “смотрит” на изображение через “окна” разных размеров и для каждых размеров пытается сгруппировать пиксели, основываясь на цвете, интенсивности, текстуре для того, чтобы идентифицировать объект.

AP архитектуры Faster R-CNN на датасете COCO составил 36.2

Реконструкция трёхмерной модели

Для оценки качества работы алгоритмов по извлечению трёхмерной модели будет использоваться за метрику будет взято Chamfer distance, которое характеризует схожесть двух облаков точек P1, P2 ⊂ R

В своём большинстве подходы представляют Т-образные архитектуры типа (encoder-decoder) для обучения моделей и L-образные архитектуры для их тестирования.

Во время обучения происходит процесс минимизации двух функций потерь, одна функция отвечает за соответствие трёхмерной модели её скрытому представлению, другая функция отвечает за соответствие скрытого представления трёхмерной модели скрытому представлению, полученному из двумерного изображения.

AtlasNet [2]: APapier-Mache Approach to Learning 3D Surface Generation

Алгоритм, главных особенностей данного подхода является представление объекта не в виде набора вокселей, а в виде полигональной сетки(меша), что упрощает восприятие формы глазом, а также является более продвинутым подходом. Авторы алгоритма представляют поверхность как топологическое пространство, которое локально напоминает Евклидову поверхность. Попыткой подхода является локальная аппроксимация целевой поверхности, путём отображения на неё множества прямоугольных элементов. Использование множества таких элементов позволяет моделировать сложные поверхности. Подобный подход применяется в технологии папье-маше, откуда и название у алгоритма.

Значение метрики Chamfer Distance при использовании данного подхода на датасете Pix3D [3] составило 0.126

Подход

В связи с меньшим значением метрики (меньше-лучше), а также более прогрессивным подходом к реконструкции модели объекта, было решено выбрать архитектуру AtlasNet, в качестве решения для SVR (Single View Reconstruction). Так же AtlasNet использует архитектуру ResNet в качестве энкодера для изображения, что будет полезным в дальнейшем.

В качестве детектора был выбран Faster-RCNN, а в качестве решения для SVR был выбран AtlasNet. Для реализации поставленного плана достаточно взять L-образную часть сети с весами, натренированными на необходимых данных. На вход же этой сети подать набор изображений, являющимися вырезанными участками исходного изображения, предоставленные детектором.

Такой подход является полностью рабочим, однако крайне затратным в плане вычислений и не оптимальным в архитектурном плане. Так как участки интересов (regions of interests, ROI) кодируются два раза. В первый раз энкодером Faster-RCNN (в составе целого изображения), а затем энкодером Atlasnet (как отдельные куски изображения). Принимая во внимание тот факт, что в обоих случаях используется архитектура ResNet, предобученная на ImageNet [4], то и особенности (features) извлекаются одни и те же на каждом этапе. Решением проблемы является отсечение энкодера в L-образной части и передача регионов интересов вместе с выделенными особенностями напрямую в декодер L-образной части.

Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а также к пересечениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитектурных особенностях сети AtlasNet, а также в типе данных, на которых эта сеть обучалась. Изображения, подаваемые на вход при обучении, были «идеальной версией» трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы является модификация принципа генерации двумерных представлений трёхмерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а также внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестирования, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.

Литература:

  1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun // CoRR. –– 2015. –– Vol. abs/1506.01497. –– 1506.01497.
  2. AtlasNet: A Papier-Mâché Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // CoRR. –– 2018. –– Vol. Abs/1802.05384. –– 1802.05384.
  3. Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling / Xingyuan Sun, Jiajun Wu, Xiuming Zhang et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). –– 2018.
  4. ImageNet: A Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher et al. // CVPR09. –– 2009.
Основные термины (генерируются автоматически): R-CNN, трехмерная модель, SVR, реальный мир, изображение, скрытое представление, COCO, L-образной часть, ROI, качество решения.


Ключевые слова

нейронные сети, реконструкция трёхмерных изображений

Похожие статьи

Сравнительный анализ нейронных сетей для генерации изображений высокого качества

В статье проводится сравнительный анализ нейронных сетей для генерации изображений высокого качества в условиях ограниченных вычислительных мощностей.

Программа генерации авторегрессионных случайных полей

В настоящей статье описан разработанный для генерации изображений программный модуль. Данный модуль позволяет формировать различные случайные поля яркости и может быть использован для получения различных по своим статистическим свойствам изображений.

Применение многоуровневой фрактальной модели для задач тематической обработки данных

Рассмотрено применение метода покрытий многоуровневой фрактальной модели при анализе текстур изображений для задач тематической обработки данных, при этом выявлено, что оценка фрактальной размерности определяется наклоном, порождаемым первым и послед...

Частые ошибки при построении CSG-моделей

Рассмотрены основные ошибки при построении CSG-моделей алгоритмом, работающим с полигональными объектами, а также предложены методы их решения.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Исследование технологии многокадрового сверхразрешения по зашумлённым изображениям

В статье автор исследует методы построения многокадрового сверхразрешения по набору зашумленных изображений.

Моделирование туманных вычислений с iFogSim

С помощью моделирования системы туманной обработки видео от камер наблюдения получена оценка оптимального количества камер.

Программное обеспечение и математическая реализация фрактального распознавания искусственных и природных объектов

Использование фрактальных сигнатур для задач обнаружения и идентификации различных целей является основой перспективных методов. Предложен адаптивный алгоритм для фрактального распознавания искусственных объектов, основанный на концепции сглаживания ...

Использование искусственных нейронных сетей для параметрической идентификации объектов

В статье рассматриваются методы и общая математическая модель параметрической идентификации объектов, а также описывается теоретическая возможность использования искусственных нейронных сетей в рамках решения данной задачи.

Метод извлечения SAO-структур из текстовых источников

В данной работе предлагается метод для извлечения SAO структур из текстовых данных на основе семантических правил. Предложен алгоритм, который адаптирован для русского языка.

Похожие статьи

Сравнительный анализ нейронных сетей для генерации изображений высокого качества

В статье проводится сравнительный анализ нейронных сетей для генерации изображений высокого качества в условиях ограниченных вычислительных мощностей.

Программа генерации авторегрессионных случайных полей

В настоящей статье описан разработанный для генерации изображений программный модуль. Данный модуль позволяет формировать различные случайные поля яркости и может быть использован для получения различных по своим статистическим свойствам изображений.

Применение многоуровневой фрактальной модели для задач тематической обработки данных

Рассмотрено применение метода покрытий многоуровневой фрактальной модели при анализе текстур изображений для задач тематической обработки данных, при этом выявлено, что оценка фрактальной размерности определяется наклоном, порождаемым первым и послед...

Частые ошибки при построении CSG-моделей

Рассмотрены основные ошибки при построении CSG-моделей алгоритмом, работающим с полигональными объектами, а также предложены методы их решения.

Характеристические подходы при распознавании изображений

В данной работе рассматриваются характеристические методы идентификации. Они применяются в распознавании изображений, что является актуальным на сегодняшний день.

Исследование технологии многокадрового сверхразрешения по зашумлённым изображениям

В статье автор исследует методы построения многокадрового сверхразрешения по набору зашумленных изображений.

Моделирование туманных вычислений с iFogSim

С помощью моделирования системы туманной обработки видео от камер наблюдения получена оценка оптимального количества камер.

Программное обеспечение и математическая реализация фрактального распознавания искусственных и природных объектов

Использование фрактальных сигнатур для задач обнаружения и идентификации различных целей является основой перспективных методов. Предложен адаптивный алгоритм для фрактального распознавания искусственных объектов, основанный на концепции сглаживания ...

Использование искусственных нейронных сетей для параметрической идентификации объектов

В статье рассматриваются методы и общая математическая модель параметрической идентификации объектов, а также описывается теоретическая возможность использования искусственных нейронных сетей в рамках решения данной задачи.

Метод извлечения SAO-структур из текстовых источников

В данной работе предлагается метод для извлечения SAO структур из текстовых данных на основе семантических правил. Предложен алгоритм, который адаптирован для русского языка.

Задать вопрос