Анализ скорости обнаружения лица в сложных условиях: MobileNetV2, InceptionV3 и EfficientNetV2M | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №36 (483) сентябрь 2023 г.

Дата публикации: 06.09.2023

Статья просмотрена: 14 раз

Библиографическое описание:

Беркасов, П. Ю. Анализ скорости обнаружения лица в сложных условиях: MobileNetV2, InceptionV3 и EfficientNetV2M / П. Ю. Беркасов. — Текст : непосредственный // Молодой ученый. — 2023. — № 36 (483). — С. 9-11. — URL: https://moluch.ru/archive/483/105782/ (дата обращения: 30.04.2024).



В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и EfficientNetV2M [3]. Эти модели получили широкое распространение среди задач компьютерного зрения благодаря своей эффективности. Полученные результаты позволяют оценить пригодность предлагаемых моделей для решения реальных задач, где решающее значение имеет надежное и быстрое обнаружение лица.

Ключевые слова: обнаружение лиц, глубокое обучение, модели глубокого обучения, компьютерное зрение, MobileNetV2, InceptionV3 и EfficientNetV2M.

Обнаружение лица является фундаментальной задачей в компьютерном зрении, находит своем применение в различных сферах, начиная от безопасности до дополненной реальности. Обнаружение лица в сложных условиях, таких как недостаточная освещенность, окклюзии или размытые изображения, является сложной задачей, требующей надежных алгоритмов. Модели глубокого обучения стали универсальным решением для множества задач компьютерного зрения, включая обнаружение лиц. Их способность автоматически изучать сложные шаблоны и особенности из больших наборов данных существенно повысила точность и надежность алгоритмов обнаружения объектов. Компьютерное зрение постоянно совершенствуется, взаимосвязь между алгоритмической эффективностью и точностью модели глубокого обучения остается важнейшим фактором для исследователей.

Модели глубокого обучения предоставляют потенциальное решение для этой задачи, но необходим анализ их производительности в сложных условиях для выбора наилучшей модели.

Оценка выполняется в двух конфигурациях: вычисление на центральном процессоре и вычисление на графическом процессоре. Результаты дают ценную информацию об эффективности этих алгоритмов в реальных сценариях.

Для оценки моделей глубокого обучения использовались два ключевых показателя эффективности:

  1. Количество кадров в секунду: среднее количество кадров, обрабатываемых каждым алгоритмом в секунду. Более высокие значения указывают на более быструю обработку;
  2. Среднее время, затраченное на обнаружение лица: среднее время (в секундах), затрачиваемое каждым алгоритмом на обнаружение лица. Меньшие значения указывают на более быстрое выполнение.

Частота кадров и время, затрачиваемое на обнаружение лица, для каждой модели, при вычислении на центральном процессоре, представлены в таблице 1.

Таблица 1

Показатели эффективности при вычислении на центральном процессоре

Модель

Количество кадров в секунду (среднее значение)

Время, затраченное на обнаружение лица, с

MobileNetV2

6.42

0.1557

InceptionV3

3.97

0.2520

EfficientNetV2M

2.60

0.3844

MobileNetV2 демонстрирует самую высокую частоту кадров, что указывает на его пригодность для распознавания лиц в режиме реального времени в средах с ограниченными ресурсами. Среднее время, затрачиваемое на обнаружение лица, составляет 0,1557 с., что делает его приемлемым вариантом для приложений с не жесткими требованиями к времени обнаружения лица. Облегченная архитектура позволяет этой модели глубокого обучения эффективно обрабатывать изображения, что делает эту модель глубокого обучения подходящим выбором для сценариев с ограниченными вычислительными ресурсами.

InceptionV3 значительно медленнее в отношении частоты кадров по сравнению с MobileNetV2 и не обеспечивает приемлемую производительность для обнаружения лица, при вычислении на центральном процессоре. Среднее время, затрачиваемое на обнаружение лица, составляет 0.2520 с. и находится в допустимых пределах для многих приложений.

EfficientNetV2M значительно медленнее в отношении частоты кадров по сравнению с MobileNetV2 и не обеспечивает приемлемую производительность для обнаружения лица, при вычислении на центральном процессоре. Среднее время, затрачиваемое на обнаружение лица, составляет 0.3844 с. и находится в допустимых пределах для многих приложений.

Частота кадров и время, затрачиваемое на обнаружение лица, для каждой модели, при вычислении на графическом процессоре, представлены в таблице 2.

Таблица 2

Показатели эффективности при вычислении на графическом процессоре

Модель

Количество кадров в секунду (среднее значение)

Время, затраченное на обнаружение лица, с

MobileNetV2

13.82

0.0723

InceptionV3

13.93

0.0718

EfficientNetV2M

12.13

0.0825

MobileNetV2, InceptionV3 и EfficientNetV2M: все три модели демонстрируют значительное улучшение производительности при выполнении на графическом процессоре. Частота кадров значительно увеличивается, а среднее время, затрачиваемое на распознавание лиц, существенно снижается, что делает их идеальным выбором для приложений, где скорость имеет первостепенное значение. Увеличение эффективности подчеркивает важность аппаратного ускорения в задачах, которые выполняются в реальном времени.

Примечательно, что вариации моделей глубокого обучения оказывают минимальное влияние на производительность, указывая на то, что алгоритмы одинаково высокоэффективны при вычислении на графическом процессоре. Поэтому, при выборе модели следует также учесть точность обнаружения (потери регрессии). Минимальное среднее значение потери регрессии для каждой модели представлено в таблице 3.

Таблица 3

Результаты оценки моделей

Модель

Потери регрессии

MobileNetV2

0.01833339035511017

InceptionV3

0.016260862350463867

EfficientNetV2M

0.009030135348439217

Наивысшею точность обеспечивает модель EfficientNetV2M. Учитывая полученные значения, можно сделать вывод, что оптимальным решением для обнаружения лица в сложных условиях является применение модели EfficientNetV2M и направление вычислительной нагрузки на графический процессор.

Оценка скорости обнаружения лица в сложных условиях позволила получить ценную информацию об их производительности как на платформе центрального процессора, так и на графическом процессоре. Модели глубокого обучения MobileNetV2, InceptionV3 и EfficientNetV2M демонстрируют высокую производительность в сложных сценариях, причем EfficientNetV2M является самым высокопроизводительным решением. Кроме того, полученные результаты подчеркивают важность не только выбора модели глубокого обучения, но и аппаратного обеспечения, на котором выполняется алгоритм, особенно в задачах, выполняемых в режиме реального времени.

MobileNetV2 является самой быстрой моделью с точки зрения времени обнаружения, за ней следуют EfficientNetV2M и InceptionV3. Этот компромисс между скоростью и точностью следует учитывать при выборе модели для конкретных приложений. MobileNetV2 особенно хорошо подходит для систем на базе центрального процессора, в тоже время все три предложенных алгоритма рекомендуют задействовать графический процессор. Полученные результаты помогут выбрать наиболее подходящую модель глубокого обучения для обнаружения лица в сложных условиях.

Литература:

1. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1704.04861 (дата обращения: 03.09.2023).

2. Rethinking the Inception Architecture for Computer Vision. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1512.00567 (дата обращения: 03.09.2023).

3. EfficientNetV2: Smaller Models and Faster Training. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/2104.00298 (дата обращения: 03.09.2023).

Основные термины (генерируются автоматически): обнаружение лица, глубокое обучение, графический процессор, центральный процессор, модель, компьютерное зрение, время, выбор модели, показатель эффективности, реальное время.


Похожие статьи

Применение графических процессоров с технологией CUDA...

В основном, алгоритмы глубокого обучения — это большой набор линейной алгебры, который должен выполняться теми или иными средствами вычислительной техники, а 4-ядерный или 8-ядерный центральный процессор для объемных вычислений использовать неэффективно.

IT-технологии обучения и их применение в различных сферах

Основное преимущество машинного обучения — это возможность быстро распознать закономерности и аномалии в больших срезах данных. Более этого это происходит в режиме реального времени, что увеличивает эффективность технологии.

Анализ методов обнаружения лиц на изображении

изображение, дополненная реальность, задача обнаружения, обучение модели, данные, задача, устройство, последнее время, движение глаз, деталь двигателя.

Алгоритмы распознавания объектов | Статья в сборнике...

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями.

Автоматизированный программно-аппаратный комплекс ввода...

CNN, машинное обучение, нейронная сеть, открытый исходный код, компьютерное зрение, GPU, RGB, изображение, максимальное значение пикселей, часть изображения.

Методы распознавания образов | Статья в журнале...

изображение, компьютерное зрение, информация, реальное время, Метод выделения, распознавание образов, система управления, окружающая среда, контур, функция.

Обзор библиотек обучения нейронных сетей на языке Python

Библиотека предоставляет две основные модели: тензорные вычисления с поддержкой вычислений на графическом процессоре и глубокие нейронные сети.

Apache MXNet — открытая библиотека для обучения и развёртывания глубоких нейронных сетей.

Использование библиотек Python для распознавания образов

В статье приводится описание библиотек Accord.NET Framework, AForge.NET, а также показаны возможности их компонентов. Представлены способы использования данных компонент для решения задачи распознавания лиц в режиме реального времени.

Статьи по ключевому слову "компьютерное зрение" — Молодой...

Анализ методов обнаружения лиц на изображении.

Современные информационно-коммуникационные технологии в образовании инвалидов и лиц с ограниченными возможностями здоровья.

Использование компьютерного зрения в автоматизированной робототехнике для охраны здоровья.

Программная модель формирования текстуры ткани.

Похожие статьи

Применение графических процессоров с технологией CUDA...

В основном, алгоритмы глубокого обучения — это большой набор линейной алгебры, который должен выполняться теми или иными средствами вычислительной техники, а 4-ядерный или 8-ядерный центральный процессор для объемных вычислений использовать неэффективно.

IT-технологии обучения и их применение в различных сферах

Основное преимущество машинного обучения — это возможность быстро распознать закономерности и аномалии в больших срезах данных. Более этого это происходит в режиме реального времени, что увеличивает эффективность технологии.

Анализ методов обнаружения лиц на изображении

изображение, дополненная реальность, задача обнаружения, обучение модели, данные, задача, устройство, последнее время, движение глаз, деталь двигателя.

Алгоритмы распознавания объектов | Статья в сборнике...

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями.

Автоматизированный программно-аппаратный комплекс ввода...

CNN, машинное обучение, нейронная сеть, открытый исходный код, компьютерное зрение, GPU, RGB, изображение, максимальное значение пикселей, часть изображения.

Методы распознавания образов | Статья в журнале...

изображение, компьютерное зрение, информация, реальное время, Метод выделения, распознавание образов, система управления, окружающая среда, контур, функция.

Обзор библиотек обучения нейронных сетей на языке Python

Библиотека предоставляет две основные модели: тензорные вычисления с поддержкой вычислений на графическом процессоре и глубокие нейронные сети.

Apache MXNet — открытая библиотека для обучения и развёртывания глубоких нейронных сетей.

Использование библиотек Python для распознавания образов

В статье приводится описание библиотек Accord.NET Framework, AForge.NET, а также показаны возможности их компонентов. Представлены способы использования данных компонент для решения задачи распознавания лиц в режиме реального времени.

Статьи по ключевому слову "компьютерное зрение" — Молодой...

Анализ методов обнаружения лиц на изображении.

Современные информационно-коммуникационные технологии в образовании инвалидов и лиц с ограниченными возможностями здоровья.

Использование компьютерного зрения в автоматизированной робототехнике для охраны здоровья.

Программная модель формирования текстуры ткани.

Задать вопрос