Распознавание и извлечение 3D-моделей по двумерным изображениям | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Библиографическое описание:

Распознавание и извлечение 3D-моделей по двумерным изображениям / Я. В. Ахремчик, Я. П. Горожанкин, А. О. Иванов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 26 (264). — С. 25-28. — URL: https://moluch.ru/archive/264/61169/ (дата обращения: 02.05.2024).



В статье представлен подход к решению проблемы по извлечению трехмерных объектов из двумерных изображений, при условии, что таких объектов может быть несколько.

Ключевые слова:реконструкция трёхмерных изображений, нейронные сети.

Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаимодействовать с всеми различными типами объектов, современные роботизированные системы весьма ограничены в этом плане. У роботизированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограничивается область применения конкретной системы. Умение же анализировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.

Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих решений не реализует принцип, позволяющий извлекать несколько трёхмерных моделей из одного изображения реального мира.

Обзор существующих подходов

Решение, выполняющее поставленную задачу должно включать в себя две составляющие:

– Решение, позволяющее производить детектирование и извлечение интересующих объектов из изображений реального мира

– Решение, реконструирующее трёхмерную модель из извлечённого изображения

Детектирование объектов

Для оценки качественной работы алгоритмов будет использоваться метрика средней точности (Average Precision, AP), где точность вычисляется как

Precision =

TP — истинно-положительное решение

FP — ложно-положительное решение

Faster R-CNN [1] (Region-based Convolutional Neural Networks)

Faster R-CNN представляет собой усовершенствованную версию

архитектуры R-CNN.

R-CNN

Суть заключается в предсказании регионов, используя процесс, называемый выборочный поиск (Selective search). Данный процесс “смотрит” на изображение через “окна” разных размеров и для каждых размеров пытается сгруппировать пиксели, основываясь на цвете, интенсивности, текстуре для того, чтобы идентифицировать объект.

AP архитектуры Faster R-CNN на датасете COCO составил 36.2

Реконструкция трёхмерной модели

Для оценки качества работы алгоритмов по извлечению трёхмерной модели будет использоваться за метрику будет взято Chamfer distance, которое характеризует схожесть двух облаков точек P1, P2 ⊂ R

В своём большинстве подходы представляют Т-образные архитектуры типа (encoder-decoder) для обучения моделей и L-образные архитектуры для их тестирования.

Во время обучения происходит процесс минимизации двух функций потерь, одна функция отвечает за соответствие трёхмерной модели её скрытому представлению, другая функция отвечает за соответствие скрытого представления трёхмерной модели скрытому представлению, полученному из двумерного изображения.

AtlasNet [2]: APapier-Mache Approach to Learning 3D Surface Generation

Алгоритм, главных особенностей данного подхода является представление объекта не в виде набора вокселей, а в виде полигональной сетки(меша), что упрощает восприятие формы глазом, а также является более продвинутым подходом. Авторы алгоритма представляют поверхность как топологическое пространство, которое локально напоминает Евклидову поверхность. Попыткой подхода является локальная аппроксимация целевой поверхности, путём отображения на неё множества прямоугольных элементов. Использование множества таких элементов позволяет моделировать сложные поверхности. Подобный подход применяется в технологии папье-маше, откуда и название у алгоритма.

Значение метрики Chamfer Distance при использовании данного подхода на датасете Pix3D [3] составило 0.126

Подход

В связи с меньшим значением метрики (меньше-лучше), а также более прогрессивным подходом к реконструкции модели объекта, было решено выбрать архитектуру AtlasNet, в качестве решения для SVR (Single View Reconstruction). Так же AtlasNet использует архитектуру ResNet в качестве энкодера для изображения, что будет полезным в дальнейшем.

В качестве детектора был выбран Faster-RCNN, а в качестве решения для SVR был выбран AtlasNet. Для реализации поставленного плана достаточно взять L-образную часть сети с весами, натренированными на необходимых данных. На вход же этой сети подать набор изображений, являющимися вырезанными участками исходного изображения, предоставленные детектором.

Такой подход является полностью рабочим, однако крайне затратным в плане вычислений и не оптимальным в архитектурном плане. Так как участки интересов (regions of interests, ROI) кодируются два раза. В первый раз энкодером Faster-RCNN (в составе целого изображения), а затем энкодером Atlasnet (как отдельные куски изображения). Принимая во внимание тот факт, что в обоих случаях используется архитектура ResNet, предобученная на ImageNet [4], то и особенности (features) извлекаются одни и те же на каждом этапе. Решением проблемы является отсечение энкодера в L-образной части и передача регионов интересов вместе с выделенными особенностями напрямую в декодер L-образной части.

Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а также к пересечениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитектурных особенностях сети AtlasNet, а также в типе данных, на которых эта сеть обучалась. Изображения, подаваемые на вход при обучении, были «идеальной версией» трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы является модификация принципа генерации двумерных представлений трёхмерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а также внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестирования, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.

Литература:

  1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun // CoRR. –– 2015. –– Vol. abs/1506.01497. –– 1506.01497.
  2. AtlasNet: A Papier-Mâché Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // CoRR. –– 2018. –– Vol. Abs/1802.05384. –– 1802.05384.
  3. Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling / Xingyuan Sun, Jiajun Wu, Xiuming Zhang et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). –– 2018.
  4. ImageNet: A Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher et al. // CVPR09. –– 2009.
Основные термины (генерируются автоматически): R-CNN, трехмерная модель, SVR, реальный мир, изображение, скрытое представление, COCO, L-образной часть, ROI, качество решения.


Ключевые слова

нейронные сети, реконструкция трёхмерных изображений

Похожие статьи

Методы определения объектов на изображении

‒ Использование изображения в интегральном представлении. (интегральное представление изображения — это матрица, размерность которой совпадает с размерами исходного изображения), что позволяет быстро вычислить необходимые объекты.

Трехмерная визуализация результатов томографического контроля

Анализ существующих средств трехмерной визуализации.

Изображение трехмерного объекта обычно представляется в виде куба, на грани которого накладываются изображение, поэтому необходимо определить какая текстура будет накладываться на каждую грань.

Трехмерная реконструкция объектов из последовательности...

Реконструкция – процесс восстановления трехмерной поверхности из двумерной поверхности. Двумерная проекция – это плоское изображение (фотография) какого-либо объекта или поверхности, не содержащее в себе никакой явной информации о глубине сцены.

Распознавание объектов на основе видеосигнала, полученного...

На основе этой информации робот выбирает модель поведения.

Захват видеоизображения. Преобразование цветного изображения в черно — белое.

Для решения задач обнаружения препятствий и распознавания образов необходимо наличие неискаженного изображения.

Анализ методов обнаружения лиц на изображении

Ключевые слова: обнаружение лиц, компьютерное зрение. Задача обнаружения лица на изображении часто является первым шагом в процессе решения задачи более высокого уровня — распознавания лица, деталей лица или его мимики.

3D-моделирование | Статья в журнале «Молодой ученый»

Современный мир находится в постоянном движении и развитии.

3D-моделирование состоит в процессе создания трёхмерного графического объекта, с целью его дальнейшего

3D-модель может стать опорой для создания какого-либо предмета или копирование уже имеющегося.

Алгоритмы распознавания объектов | Статья в сборнике...

Главными критериями качества признаков для решения широкого спектра задач связанных с

Эффективность классификатора — сила, это качество решения поставленной задачи

Алгоритмы, использующие такое представление называются пиксельными алгоритмами...

Модель реконструкции 3D-сцен с учетом эпиполярных ограничений

Работа посвящена задаче реконструкции трехмерных сцен по стереоизображениям. Предложена модель сопоставления изображений с учетом эпиполярных ограничений, которая позволяет избежать процедуры ректификации, вносящей дополнительные искажения.

Методы распознавания образов | Статья в журнале...

С математической точки зрения изображение является двумерной матрицей значений яркости.

Методы сегментации находят своё применение на медицинских, инфракрасных изображений, спутниковых снимках, в машинном зрении, в распознавании образов.

Похожие статьи

Методы определения объектов на изображении

‒ Использование изображения в интегральном представлении. (интегральное представление изображения — это матрица, размерность которой совпадает с размерами исходного изображения), что позволяет быстро вычислить необходимые объекты.

Трехмерная визуализация результатов томографического контроля

Анализ существующих средств трехмерной визуализации.

Изображение трехмерного объекта обычно представляется в виде куба, на грани которого накладываются изображение, поэтому необходимо определить какая текстура будет накладываться на каждую грань.

Трехмерная реконструкция объектов из последовательности...

Реконструкция – процесс восстановления трехмерной поверхности из двумерной поверхности. Двумерная проекция – это плоское изображение (фотография) какого-либо объекта или поверхности, не содержащее в себе никакой явной информации о глубине сцены.

Распознавание объектов на основе видеосигнала, полученного...

На основе этой информации робот выбирает модель поведения.

Захват видеоизображения. Преобразование цветного изображения в черно — белое.

Для решения задач обнаружения препятствий и распознавания образов необходимо наличие неискаженного изображения.

Анализ методов обнаружения лиц на изображении

Ключевые слова: обнаружение лиц, компьютерное зрение. Задача обнаружения лица на изображении часто является первым шагом в процессе решения задачи более высокого уровня — распознавания лица, деталей лица или его мимики.

3D-моделирование | Статья в журнале «Молодой ученый»

Современный мир находится в постоянном движении и развитии.

3D-моделирование состоит в процессе создания трёхмерного графического объекта, с целью его дальнейшего

3D-модель может стать опорой для создания какого-либо предмета или копирование уже имеющегося.

Алгоритмы распознавания объектов | Статья в сборнике...

Главными критериями качества признаков для решения широкого спектра задач связанных с

Эффективность классификатора — сила, это качество решения поставленной задачи

Алгоритмы, использующие такое представление называются пиксельными алгоритмами...

Модель реконструкции 3D-сцен с учетом эпиполярных ограничений

Работа посвящена задаче реконструкции трехмерных сцен по стереоизображениям. Предложена модель сопоставления изображений с учетом эпиполярных ограничений, которая позволяет избежать процедуры ректификации, вносящей дополнительные искажения.

Методы распознавания образов | Статья в журнале...

С математической точки зрения изображение является двумерной матрицей значений яркости.

Методы сегментации находят своё применение на медицинских, инфракрасных изображений, спутниковых снимках, в машинном зрении, в распознавании образов.

Задать вопрос