Реализация системы распознавания и отслеживания лиц

Кононыхин Иван Александрович; Ежов Федор Валерьевич; Мартынюк Роман Анатольевич; Мищенко Анастасия Дмитриевна; Можайский Глеб Вадимович

С целью повышения уровня общественной безопасности, ежегодно устанавливаются дополнительные камеры общественного видеонаблюдения. Благодаря интеграции систем распознавания лиц, задержание преступников и поиск видеодоказательств совершенного преступления стал в разы эффективнее. Однако на практике встречаются ситуации, при которых возможна идентификация личности лишь на небольшом участке области обзора камеры, вследствие чего информация о передвижении человека при исчезновении его лица из кадра теряется и дальнейшее идентифицирование его личности возможно только с использованием человеческих ресурсов. В данной статье представлено теоретическое описание системы распознавания и отслеживания лиц. С помощью эталонных фотографий выбранных личностей, система запоминает их лица. В случае появления во входном видеопотоке знакомых лиц, система распознает соответствующих людей и продолжает отслеживание даже в случае исчезновения лица из кадра. Для реализации описанной системы были рассмотрены такие задачи, как детекция объектов, идентификация личности, отслеживание перемещений и современные подходы в их решении.

Ключевые слова: обнаружение, распознавание, отслеживание.

Введение

В наши дни алгоритмы искусственного интеллекта в сфере компьютерного зрения занимают ключевое место в сфере безопасности и применяются не только частными компаниями, но и государственными организациями. В технически развитых городах-миллионниках благодаря камерам общественного видеонаблюдения, эффективность выполнения задач общественной безопасности возросла на порядок. Так, например, с внедрением системы распознавания лиц в Московском метро, ежемесячно задерживаются от пяти до десяти разыскиваемых преступников.

В данной работе представлено теоретическое описание и процесс разработки системы распознавания и отслеживания лиц, которая актуальна для следующих задач:

– Идентификация и отслеживание преступников.

– Поддержка и ускорение расследований

– Поиск пропавших детей и дезориентированных взрослых.

Для достижения данной цели были поставлены следующие задачи:

– Изучение современных технологий, лежащих в основе решения.

– Извлечение кадра из входного видеопотока.

– Детектирование областей, в которых находятся люди.

– Идентификация личностей обнаруженных людей по биометрическим данным.

– Соотношение идентификационной информации с областью, содержащей человека.

– Отслеживание передвижения людей от кадра к кадру.

В открытом доступе находятся множество подходов к решению поставленных задач по отдельности, но не было найдено ни одного открытого решения, которое бы реализовало описанную цель.

Задача детекции

Детектирование людей на изображениях, как и детектирование лиц являются частными задачами более общей — детектирования объектов. В этой статье для детекции людей на изображении используется самая известная модель детекции объектов — YOLOv3 [4]. С концепцией архитектуры энкодера-декодера и одностадийным подходом, данная сеть работает в три раза быстрее, чем SSD [8], и показывает точность, сравнимую с Faster-RCNN [7].

YOLOv3 (You Only Look Once) [4] — многоклассовый детектор объектов. Данная модель использует в качестве основы (backbone) сеть Darknet-53, состоящую из 53 сверточных слоев для извлечения признаков из изображения и применяет в своей архитектуре такие известные практики, как:

− Residual blocks with shortcut-connections. Как и в сетях семейства ResNet [5], такие блоки предотвращают затухание градиентов при обучении нейронных сетей, что позволяет использовать более глубокие архитектуры без потери качества их выразительности.

− Upsampling with concatenations of feature maps. Данный метод позволяет получить более значимую семантическую информацию из апсемплированных признаков и более точную информацию из ранних карт признаков.

RetinaFace

Для распознавания лиц на изображениях используется нейронная сеть RetinaFace. Несмотря на то, что обнаружение лиц является частным случаем задачи детекции объектов, было разработано множество решений, одним из которых является модель RetinaFace [3]. Данная нейронная сеть является устойчивым одностадийным детектором, предоставляющим попиксельную локализацию для лиц разного масштаба и показывающим наилучшую точность среди всех современных моделей на момент публикации в 2019 году. Принимая на вход изображение, данная модель выводит позитивные шаблоны, состоящие из векторов, содержащих вероятность принадлежности области к области лица, границы области лица, пять лицевых ориентиров и плотные 3D грани лица, спроецированные на плоскость изображения.

Идентификация личностей

Идентификация личности по биометрическим данным — самая обсуждаемая область компьютерного зрения последних нескольких лет. В рамках данной работы, в качестве биометрических данных будем рассматривать человеческие лица и подход, основанный на вычислении эмбеддингов.

В задаче идентификации личности одним из ключевых шагов является очистка изображения от лишней информации. Выделяя области, содержащие человеческие лица, мы оставляем все необходимое данные для вычисления признаков средствами сверточных нейронных сетей, которые и будут составлять наши эмбеддинги. Одной из моделей идентификации личности является FaceNet [2] — модель компании Google, представленная в 2015 году. Данная нейронная сеть обучена отображать область изображения, содержащую человеческое лицо в точку многомерного пространства, где расстояние между этими точками напрямую соответствует мере сходства лица. В статье [2] представлены особенности обучения данной сети, сравнение нескольких глубоких архитектур, их результаты и тестирование размерностей выходных векторов.

Отслеживание объектов

Задача отслеживания объектов в видеопотоке заключается в:

– Обнаружении заданных объектов на входном видеопотоке.

– Присвоении уникальных меток каждой области с объектом.

– Сопоставлении одних и тех же областей от кадра к кадру.

Одним из самых популярных и точных подходов к задаче отслеживания является алгоритм DeepSort [6]. Данный алгоритм представлен в 2017 году и является улучшением алгоритма SORT [1]. Используя сверточную нейронную сеть для интегрирования информации о внешнем виде, DeepSort показывает снижение в переключении идентификаторов на 45 % по сравнению со своим предшественником.

Общая структура

При реализации системы распознавания и отслеживания лиц, были выделены следующие этапы:

Детектирование людей.
Присвоение уникальных меток обнаруженным людям в соответствии с детекциями и уникальными метками на прошлом кадре (этап отслеживания).
Детекция лиц.
Идентификация личности.
Соотношение лиц и людей на видеокадре.
Соотношение идентификационной информации с уникальными метками.

Считывая новый кадр из видеопотока, первым делом YOLOv3 [4] определяет ограничивающие прямоугольники, в которых содержатся люди (1), после чего, DeepSort [6] присваивает этим областям уникальные метки

(2). Далее, подавая на вход весь кадр, RetinaFace [3] определяет границы области со всеми присутствующими лицами (3). Все эти области изображения подаются на вход модели FaceNet [2], которая выводит 128-мерные векторы признаков к каждой области.

Определение областей (1) и (3) происходит отдельно по всему кадру в силу архитектур используемых моделей. Такой подход предполагает более высокую скорость работы, в отличии от подачи на вход сети RetinaFace отдельных областей (1) изображения.

Для того, чтобы идентифицировать человека по его лицу с помощью эмбеддингов, нам нужны эталонные значения. Подготовив несколько изображений каждого человека, которого надо идентифицировать, мы считаем такие же векторы по каждой области лица, усредняем их и принимаем в качестве эталонных. Данный этап подготовки происходит до извлечения первого кадра из видеоряда.

После получения векторов по каждой области лица на текущем кадре, мы считаем l2-расстояние между эталонными и новыми, на основании чего делаем вывод, известен ли системе этот человек или нет, и если известен, то кто это, сохраняя полученные идентификационные метки (4), вместе с расстоянием в качестве значения уверенности.

Сохранив соотношения (1) с (2) и (3) с (4), мы соотносим (1) с (3) и с (4) следующим образом. Находим координаты середины ограничивающего лицо прямоугольника и смотрим, находится ли он в рассматриваемой области человека. Если находится, то запоминаем данное соотношение и переходим к следующему лицу.

После получения такого соотношения, мы сравниваем значение уверенности идентификационной информации (4) с соотношением, полученным на предыдущем кадре. Если расстояние между эмбеддингами меньше, то мы обновляем идентификационную информацию рассматриваемой области, в противном случае используем соотношение, вычисленное ранее.

Выводы

В работе исследованы и применены на практике современные нейросетевые подходы к решению поставленной задачи, в результате чего была разработана система определения и отслеживания людей. В ходе ее разработки были решены следующие практические задачи:

– Извлечение кадра из видеопотока.

– Детектирование областей, в которых находятся люди.

– Идентификация личности по биометрическим данным.

– Соотношение идентификационной информации с областью, содержащей человека.

– Отслеживание передвижения людей от кадра к кадру.

Литература:

A. Bewley, G. Zongyuan, F. Ramos, and B. Upcroft. Simple online and realtime tracking. In ICIP, 2016, pp. 3464–3468.
F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.
I. Krasin, T. Duerig, N. Alldrin, V. Ferrari, S. Abu-El-Haija, A. Kuznetsova, H. Rom, J. Uijlings, S. Popov, A. Veit, S. Belongie, V. Gomes, A. Gupta, C. Sun, G. Chechik, D. Cai, Z. Feng, D. Narayanan, K. Murphy. Openimages: A public dataset for large-scale multi-label and multi-class image classification. URL — https://storage.googleapis.com/openimages/web/index.html
J. Deng, J. Guo, Y. Zhou, J. Yu, I. Kotsia, S. Zafeiriou. RetinaFace: Single-stage Dense Face Localisation in the Wild. arXiv eprint arXiv:1905.00641, 2019.
K. Bernardin and R. Stiefelhagen, “Evaluating multiple object tracking performance: The CLEAR MOT metrics,” EURASIP J. Image Video Process, vol. 2008, 2008.
L. Zheng, Z. Bie, Y. Sun, J. Wang, C. Su, S. Wang, and Q. Tian, “MARS: A video benchmark for large-scale person re-identification,” in ECCV, 2016.
Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. In FG, 2018.
T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.

Молодой учёный

Реализация системы распознавания и отслеживания лиц

Реализация системы распознавания и отслеживания лиц

Молодой учёный