Применение компьютерного зрения на КПП во время пандемии

Смыцко, Михаил Владимирович

В этой статье мы разрабатываем новый метод определения условий ношения лицевых масок путем объединения сетей сверхвысокого разрешения изображений и классификации (SRCNet).

Ключевые слова : распознавание лиц, сверхточная нейронная сеть, сверхвысокое разрешение изображения, состояние ношения лицевой маски.

До пандемии проблемы компьютерного зрения, связанные с замаскированными лицами, привлекали лишь ограниченное внимание со стороны научного сообщества. Для обеспечения общей безопасности во время пандемии были предложены способы отслеживания наличия защитных медицинских масок на лицах людей с помощью компьютерного зрения. Чтобы ограничить распространение болезни, обязательные правила использования маски для лица в настоящее время становятся обычным явлением в общественных местах по всему миру. Большинство государственных организаций предоставляющие услуги требуют, чтобы клиенты носили маски в соответствии с заранее определенными правилами (например, закрывали рот и нос). Данные рекомендации вызвали интерес к исследованиям автоматических методов обнаружения лицевых масок, основанных на компьютерном зрении, которые могут помочь контролировать общественное поведение и способствовать сдерживанию пандемии COVID-19. Существующие исследования в этой области привели к появлению эффективных методов обнаружения маски на лице, современные детекторы лиц обеспечивают не только наличие маски на лице, но и корректное ее расположение, закрывающее дыхательные пути. В данной статье будут проанализированы методы обнаружения маски на лице, насколько технология оказывается безошибочна, получается ли определить правильное расположение маски, в соответствии требованиям и в какой степени полезны существующие методы мониторинга во время пандемии.

Одним из популярных наборов данных для обучения систем обнаружения масок является MAFA (MaskedFaces-Net), он в свою очередь был основан отчасти на наборе данных изображений Flickr-Faces-HQ (FFHQ). Набор MAFA содержит двоичные метки, указывающие, присутствуют ли маски на изображениях или нет. Как показано на рисунке 1, представленные изображения лиц в таких наборах данных обычно делятся на две группы: лица с правильно надетыми масками (отмечены зеленым) и лица с неправильно надетыми масками (отмечены красным). Так как наличие маски еще не является достаточным условием для определения корректной защиты согласной с рекомендациями.

Набор фотографий от MAFA

Рис. 1. Набор фотографий от MAFA

Основные этапы подхода к редактированию изображений, применяемые для создания набора данных MaskedFace-Net представлены на рисунке 2.

Алгоритм создания набора данных MAFA

Рис. 2. Алгоритм создания набора данных MAFA

Для каждого изображения лица FFHQ применяются каскадные классификаторы Хаара для обнаружения интересующей области (обнаружение прямоугольника лица). Затем детектор конкретных ключевых точек (68 лицевых ориентиров). В качестве эталонного изображения защитной маски была выбрана одноразовая синяя маска. Для наслоения медицинской маски вручную были выделены 12 ключевых точек, образующие область маски.

На более поздних версиях алгоритма были определены четыре типа сопоставления маски с лицом для частных случаев, из которого три случая неправильного ношения маски. А именно маска, закрывающая нос, рот и подбородок (т. е. маска правильно надетая), маска, закрывающая только нос и рот; маска, закрывающая только рот и подбородок, и маска подо ртом. Для каждого типа сопоставления маски с лицом сохраняется подмножество из 12 ключевых точек лица из 68 автоматически обнаруженных ориентиров; затем сопоставлены с 12 ключевыми точками маски. Таким образом, маска может соответствовать определенным участкам лица для каждого частного случая. Следовательно, для создания MaskedFace-Net была создана деформируемая модель «маска на лице». Более того, каждый частный случай может иметь до 2 ключевых точек маски (среди 12 ключевых точек), местоположения которых случайным образом смещены по ограниченному периметру. В частности, этот допуск позволяет воздействовать на высоту маски на лице, который позволяет генерировать более реалистичные случаи ношения маски, приближая набор данных к реальности. Таким образом, MaskedFace-Net также содержит большое количество позиционируемых масок. Наконец, преобразование гомографии, основанное на заданном двухточечном соответствии ориентиров между изображением маски и изображением лица, применяется для отображения пикселей маски на целевые области лица.

При использовании ручной фильтрации были удалены изображений лиц, маска которых была неправильно отображена из-за неудачного обнаружения ориентира. Ошибочное обнаружение ориентира происходит, когда видимость контуров лица ограничена (например, для лиц расположенных в профиль). Тем не менее, обнаружение и редактирование изображений, связанных с лицами, применяемые к набору данных FFHQ, оказались очень эффективными, поскольку более 95 % изображений FFHQ использовались для создания классов замаскированных лиц. В частности, некоторые лица FFHQ не были обработаны, поскольку из-за окклюзии лица (например, руки) обнаружение лица не удалось (прямоугольник лица был не обнаружен).

За последнее время было опубликовано множество решений для обнаружения изображений лиц с масками. Одним из детекторов лиц является RetinaFace, данная система использует небольшую эффективную сверхточную нейронную сеть MobileNet и может определять замаскированные лица, основная (высокоточная) модель использует магистраль ResNet. Модель тестируется на выбранных подмножествах из наборов данных MAFA и Wider Face.

Один из подходов для классификации ношения лицевых масок SRCNet. Подход включает в себя модель сверхвысокого разрешения изображения, которая позволяет обрабатывать лица с низким разрешением, и сеть классификации, которая предсказывает, замаскированы ли лица, без масок или если маски надеты неправильно. Сообщается, что точность предложенной модели составляет 98 %. Но данный метод эффективно решает проблему, исключительно на лицах с низким разрешением.

За последнее десятилетие технология обнаружение лиц достигла значительного прогресса, в основном благодаря достижениям в области глубокого обучения и сверхточных нейронных сетей (CNN). В результате большинство существующих современных методов обнаружения лиц (SOTA) основаны на CNN и сегодня способны эффективно обнаруживать лица со сложными характеристиками и вариабельностью по позе, масштабу, освещению, от низкокачественных данных и при наличии различных других мешающих факторов. Хотя обнаружение лиц изучается для лиц с различными окклюзиями, не было проведено достаточное количество исследований, посвященных изучению характеристик обнаружения конкретно с маскированными лицами. Также целесообразно разработать алгоритм, который мог бы различать различные типы защитных масок для лица. Существующие методы достаточно хорошо себя проявили на автоматизированных контрольно-пропускных пунктах, где лицо человека фиксируется камерой на определенном установленном расстоянии и угле поворота.

Литература:

Mathematical Modeling of the Effectiveness of Facemasks in Reducing the Spread of Novel Influenza A / S. M. Tracht. — Текст: электронный // PLOS ONE: [сайт]. — URL: https://journals.plos.org/plosone/article?id=10.1371/ journal. pone. 0009018 (дата обращения: 05.06.2021).
Sim, S. W. The use of facemasks to prevent respiratory infection: a literature review in the context of the Health Belief Model / S. W. Sim. — Текст: электронный // PMC: [сайт]. — URL: https://www.ncbi.nlm.nih.gov/pmc /articles/PMC4293989/ (дата обращения: 05.06.2021).
Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks / K. Zhang. — Текст: электронный // IEEE Xplore: [сайт]. — URL: https://ieeexplore.ieee.org/abstract/document/7553523 (дата обращения: 05.06.2021).
Thomas, R. Fractional Bat and Multi-Kernel-Based Spherical SVM for Low Resolution Face Recognition / R. Thomas. — Текст: электронный // World Scientific: [сайт]. — URL: https://www.worldscientific.com/doi/abs/ 10.1142 /S0218001417560146 (дата обращения: 05.06.2021).
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications / A. G. Howard. — Текст: электронный // Cornell University: [сайт]. — URL: https://arxiv.org/abs/1704.04861 (дата обращения: 05.06.2021).

Применение компьютерного зрения на КПП во время пандемии

Библиографическое описание:

Ключевые слова

Похожие статьи

Анализ методов обнаружения лиц на изображении

Разработка моделей процесса обнаружения объекта на...

Реализация мультиспектральных нейронных сетей для решения...

Характеристические подходы при распознавании изображений

Разработка программного обеспечения для промышленной видео...

Распознавание и извлечение 3D-моделей по двумерным...

Распознавание ключевых точек лица на изображении человека

Распознавание личности по цифровому изображению