Сравнение моделей глубокого обучения в задачах обнаружения лиц в сложных условиях | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №35 (482) сентябрь 2023 г.

Дата публикации: 01.09.2023

Статья просмотрена: 2 раза

Библиографическое описание:

Беркасов, П. Ю. Сравнение моделей глубокого обучения в задачах обнаружения лиц в сложных условиях / П. Ю. Беркасов. — Текст : непосредственный // Молодой ученый. — 2023. — № 35 (482). — С. 4-14. — URL: https://moluch.ru/archive/482/105735/ (дата обращения: 30.04.2024).



С быстрым развитием алгоритмов глубокого обучения постоянно появляются новые модели для повышения точности и эффективности систем обнаружения лиц. В статье автор предоставил всесторонний сравнительный анализ точности трех новейших моделей глубокого обучения — MobileNetV2, InceptionV3 и EfficientNetV2M.

Ключевые слова: обнаружение лиц, алгоритмы глубокого обучения, YOLO, MobileNetV2, InceptionV3 и EfficientNetV2M.

В реальных сценариях системы обнаружения лиц часто сталкиваются с не идеальными условиями, которые могут снизить их точность. Такие факторы, как слабое освещение, частичные препятствия (такие как очки, маски или шарфы), а также различия в возрасте и внешности, усложняют задачу обнаружения лиц.

В качестве исходных данных был выбран набор изображений SoF (Specs of Faces) [1]. Набор данных SoF был собран для поддержки тестирования и оценки алгоритмов обнаружения, распознавания и классификации лиц с использованием стандартизированных тестов и процедур. Для анализа используются наборы данных SoF (Specs of Faces) и UFDD (Unconstrained Face Detection Dataset) [2]. Наборы данных включает в себя фотографии лиц, снятые в сложных условиях. Набор данных включает изображения с различной освещенностью, частичным закрытием лица и различными углами поворота. Также набор данных включает в себя дистракторы, чтобы избежать ложные срабатывания.

Для оценки точности модели использовалась функция потерь YOLO (You Only Look Once) [3]. Функция потерь:

(1)

Это сумма отклонений между предсказанными координатами прямоугольника (x, y) и исходными координатами (x ^, y ^). В функции потерь YOLO используется переменная , которая обозначает, появляется ли объект в ячейке i и обозначает, что j-й предиктор ограничивающего прямоугольника в ячейке i “ответственен” за это предсказание. Сумма отклонений возводится в квадрат и минимизируется с помощью дифференциальных и матричных вычислений [3].

Для решения задачи обнаружения лица на изображении, нет необходимости использовать последний слой модели MobilnetV2 [4]. Вместо последнего слоя был добавлен слой для вывода результата классификации (в пределах от 0 до 1 будет выведена вероятность наличия лица на изображении) и для вывода регрессии (в данном случае это будут координаты для создания рамки вокруг области лица).

Структура модели MobilNetV2 для обнаружения лиц в сложных условиях, c учетом модификации выходного слоя, представлена рис. 1.

Структура модели MobileNetV2

Рис. 1. Структура модели MobileNetV2

На каждом цикле обучения производился расчет потерь классификации и регрессии для тестового набора данных. График потерь классификации для каждой эпохи представлен на рис. 2.

График потерь классификации (модель MobilNetV2)

Рис. 2. График потерь классификации (модель MobilNetV2)

График потерь регрессии для каждой эпохи представлен на рис. 3.

График потерь регрессии (модель MobilNetV2)

Рис. 3. График потерь регрессии (модель MobilNetV2)

Потери классификации минимальные, модель очень точно определяет наличие лица на изображении.

Точные значения потери регрессии на протяжении всего обучения представлены в таблице 1.

Таблица 1

Потери регрессии (модель MobilNetV 2)

Эпоха

Потери

0

0.10504406690597534

1

0.20822623372077942

2

0.1075989305973053

3

0.08101646602153778

4

0.038438551127910614

5

0.06355148553848267

6

0.10386467725038528

7

0.02997221238911152

8

0.10429469496011734

9

0.040532175451517105

10

0.10595577210187912

11

0.03241680562496185

12

0.03756047785282135

13

0.04101908951997757

14

0.04344494640827179

15

0.01833339035511017

16

0.039606355130672455

17

0.023190375417470932

18

0.030934931710362434

19

0.042713314294815063

Результат работы алгоритма на тестовом наборе данных представлен на рис. 4.

Результат работы алгоритма (модель MobilNetV2)

Рис. 4. Результат работы алгоритма (модель MobilNetV2)

Следующей моделью, на базе которой производился анализ работоспособности алгоритма обнаружения лиц в сложных условиях, является модель InceptionV3 [5].

Для решения задачи обнаружения лица на изображении, нет необходимости использовать последний слой модели InceptionV3. Вместо последнего слоя был добавлен слой для вывода результата классификации (в пределах от 0 до 1 будет выведена вероятность наличия лица на изображении) и для вывода регрессии (в данном случае это будут координаты для создания рамки вокруг области лица).

Структура модели InceptionV3 для обнаружения лиц в сложных условиях, c учетом модификации выходного слоя, представлена рис. 5.

Структура модели InceptionV3

Рис. 5. Структура модели InceptionV3

На каждом цикле обучения производился расчет потерь классификации и регрессии для тестового набора данных. График потерь классификации для каждой эпохи представлен на рис. 6.

График потерь классификации (модель InceptionV3)

Рис. 6. График потерь классификации (модель InceptionV3)

График потерь регрессии для каждой эпохи представлен на рис. 7.

График потерь регрессии (модель InceptionV3)

Рис. 7. График потерь регрессии (модель InceptionV3)

Одним из основных преимуществ модели InceptionV3 является значительное уменьшение размеров. Чтобы улучшить модель, большие свертки в модели были разложены на меньшие свертки, для повышения эффективности стала применяться ассиметричная свертка [4].

Точные значения потери регрессии на протяжении всего обучения представлены в таблице 2.

Таблица 2

Потери регрессии (модель InceptionV3)

Эпоха

Потери

0

0.6557143330574036

1

0.254692018032074

2

2.4627299308776855

3

1.682708740234375

4

1.9546241760253906

5

1.485050916671753

6

3.6339683532714844

7

0.027959946542978287

8

2.498767137527466

9

0.022721577435731888

10

0.04823381081223488

11

0.13830459117889404

12

1.8286422491073608

13

0.016260862350463867

14

0.5882518291473389

15

0.04462695121765137

16

0.03128504753112793

17

0.030403083190321922

18

0.046327508985996246

19

0.05808452516794205

Результат работы алгоритма на тестовом наборе данных представлен на рис. 8.

Результат работы алгоритма (модель InceptionV3)

Рис. 8. Результат работы алгоритма (модель InceptionV3)

Следующей моделью, на базе которой производился анализ работоспособности алгоритма обнаружения лиц в сложных условиях, является модель EfficientNetV2M [6].

Для решения задачи обнаружения лица на изображении, нет необходимости использовать последний слой модели EfficientNetV2. Вместо последнего слоя был добавлен слой для вывода результата классификации (в пределах от 0 до 1 будет выведена вероятность наличия лица на изображении) и для вывода регрессии (в данном случае это будут координаты для создания рамки вокруг области лица).

Структура модели EfficientNetV2 для обнаружения лиц в сложных условиях, c учетом модификации выходного слоя, представлена рис. 9.

Структура модели EfficientNetV2

Рис. 9. Структура модели EfficientNetV2

На каждом цикле обучения производился расчет потерь классификации и регрессии для тестового набора данных. График потерь классификации для каждой эпохи представлен на рис. 10.

График потерь классификации (модель EfficientNetV2)

Рис. 10. График потерь классификации (модель EfficientNetV2)

График потерь регрессии для каждой эпохи представлен на рис. 11.

График потерь регрессии (модель EfficientNetV2)

Рис. 11. График потерь регрессии (модель EfficientNetV2)

EfficientNetV2 — это улучшенная версия архитектуры EfficientNet, которая фокусируется на достижении баланса между размером модели и производительностью. Эта модель использует комплексное масштабирование для оптимизации глубины, ширины и разрешения сети, что приводит к повышению точности [6]. Точные значения потери регрессии на протяжении всего обучения представлены в таблице 3.

Таблица 3

Потери регрессии (модель EfficientNetV2)

Эпоха

Потери

0

0.1288861632347107

1

0.09682343155145645

2

0.09609387814998627

3

0.10471370816230774

4

0.05593157559633255

5

0.04620803892612457

6

0.025467902421951294

7

0.026901107281446457

8

0.062128305435180664

9

0.03572523593902588

10

0.018981970846652985

11

0.021587030962109566

12

0.028184417635202408

13

0.01083668414503336

14

0.0743752270936966

15

0.017897794023156166

16

0.019770247861742973

17

0.019880736246705055

18

0.009030135348439217

19

0.026617076247930527

Результат работы алгоритма на тестовом наборе данных представлен на рис. 12.

Результат работы алгоритма (модель EfficientNetV2)

Рис. 12. Результат работы алгоритма (модель EfficientNetV2)

Минимальные средние значения потери регрессии для каждой модели представлены в таблице 4.

Таблица 4

Минимальные потери регрессии

Модель

Минимальное значение потери

MobileNetV2

0.01833339035511017

InceptionV3

0.016260862350463867

EfficientNetV2M

0.009030135348439217

На основе проведенных экспериментов и анализа были сделаны следующие наблюдения:

MobileNetV2 демонстрирует высокую производительность в сложных условиях благодаря своей легкой архитектуре. Он эффективно фиксирует основные черты лица даже при слабом освещении и частичных окклюзиях.

InceptionV3 демонстрирует хорошую производительность по всем направлениям. Его многоотраслевая архитектура помогает захватывать функции в разных масштабах, что оказывается полезным в сложных условиях. Эта модель демонстрирует сбалансированный компромисс между точностью и отзывчивостью.

EfficientNetV2M превосходит другие модели с точки зрения точности, что предполагает его способность минимизировать ложноположительные прогнозы. Эта характеристика имеет решающее значение в сценариях, где ложные обнаружения не допустимы.

В этом отчете проведен всесторонний анализ трех моделей машинного обучения для распознавания лиц в сложных условиях: MobileNetV2, InceptionV3 и EfficientNetV2M. Эксперименты показали, что каждая модель имеет свои сильные и слабые стороны, что делает их подходящими для разных сценариев. Эффективность MobileNetV2, многоотраслевая архитектура InceptionV3 и ориентированный на точность подход EfficientNetV2M вносят свой вклад в их соответствующие достоинства производительности. Выбор модели должен основываться на конкретных требованиях приложения и важности компромиссов между точностью и отзывом.

Литература:

1. Specs on Faces (SoF) Dataset. — Текст: электронный // SoF dataset: [сайт]. — URL: https://ufdd.info/ (дата обращения: 30.08.2023).

2. Unconstrained Face Detection Dataset (UFDD). — Текст: электронный // UFDD_Dataset: [сайт]. — URL: https://ufdd.info/ (дата обращения: 30.08.2023).

3. You Only Look Once: Unified, Real-Time Object Detection. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1506.02640 (дата обращения: 30.08.2023).

4. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1704.04861 (дата обращения: 30.08.2023).

5. Rethinking the Inception Architecture for Computer Vision. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/1512.00567 (дата обращения: 30.08.2023).

6. EfficientNetV2: Smaller Models and Faster Training. — Текст: электронный // arXiv.org e-Print archive: [сайт]. — URL: https://arxiv.org/abs/2104.00298 (дата обращения: 30.08.2023).

Основные термины (генерируются автоматически): модель, YOLO, график потерь классификации, график потерь регрессии, результат работы алгоритма, структура модели, тестовый набор данных, набор данных, обнаружение лиц, глубокое обучение.


Похожие статьи

Анализ скорости обнаружения лица в сложных условиях...

В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и EfficientNetV2M [3]...

Решение задач классификации методами машинного обучения

Такой выбор вида нейронной сети был сделан ввиду наличия небольшого набора данных для обучения. Данная нейронная модель будет обучаться по принципу обучения с учителем, в котором используется набор из тренировочных данных [4, с. 128].

Анализ методов обнаружения лиц на изображении

Это набор алгоритмов схожих с алгоритмами вида «обучение с учителем», использующихся для задач классификации и регрессионного анализа. Этот метод принадлежит к семейству линейных классификаторов.

Алгоритмы распознавания объектов | Статья в сборнике...

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями.

Функция потерь для тензорного потока регрессии

Обычно в моделях машинного обучения мы собираемся предсказывать значения с учетом набора входных данных. Модель имеет набор весов и смещений, которые вы можете настроить на основе набора входных данных.

Обнаружение веб-атак с использованием машинного обучения

Обнаружение аномалий включает в себя контролируемые и неконтролируемые методы. Сравнительный анализ показал, что контролируемые методы обучения значительно превосходят неконтролируемые, если тестовые данные не содержит неизвестных атак.

Прогнозирование методом машинного обучения

Прогнозирование — это процесс по разработке прогнозной модели или расчету прогноза, в результате которого можно получить предсказание грядущих изменений в значениях временного ряда по итогам его значений в прошлом. Выделим основные методы машинного обучения.

Реализация мультиспектральных нейронных сетей для решения...

В статье проанализированы потенциальные возможности мультиспектральных нейронных сетей для обнаружения объектов, также рассмотрены подходы к обнаружению мультиспектральных объектов реализуемые различными моделями мультиспектральных сверточных нейросетей.

Использование кодеков в подготовке исходных данных для...

Анализируется тенденции популярности тем «Большие данные» и «Глубокое обучение», а также методы обработки и использования цифровой информации. Описаны основные характеристики видео и принципы подготовки исходных данных из видео материалов.

Похожие статьи

Анализ скорости обнаружения лица в сложных условиях...

В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и EfficientNetV2M [3]...

Решение задач классификации методами машинного обучения

Такой выбор вида нейронной сети был сделан ввиду наличия небольшого набора данных для обучения. Данная нейронная модель будет обучаться по принципу обучения с учителем, в котором используется набор из тренировочных данных [4, с. 128].

Анализ методов обнаружения лиц на изображении

Это набор алгоритмов схожих с алгоритмами вида «обучение с учителем», использующихся для задач классификации и регрессионного анализа. Этот метод принадлежит к семейству линейных классификаторов.

Алгоритмы распознавания объектов | Статья в сборнике...

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями.

Функция потерь для тензорного потока регрессии

Обычно в моделях машинного обучения мы собираемся предсказывать значения с учетом набора входных данных. Модель имеет набор весов и смещений, которые вы можете настроить на основе набора входных данных.

Обнаружение веб-атак с использованием машинного обучения

Обнаружение аномалий включает в себя контролируемые и неконтролируемые методы. Сравнительный анализ показал, что контролируемые методы обучения значительно превосходят неконтролируемые, если тестовые данные не содержит неизвестных атак.

Прогнозирование методом машинного обучения

Прогнозирование — это процесс по разработке прогнозной модели или расчету прогноза, в результате которого можно получить предсказание грядущих изменений в значениях временного ряда по итогам его значений в прошлом. Выделим основные методы машинного обучения.

Реализация мультиспектральных нейронных сетей для решения...

В статье проанализированы потенциальные возможности мультиспектральных нейронных сетей для обнаружения объектов, также рассмотрены подходы к обнаружению мультиспектральных объектов реализуемые различными моделями мультиспектральных сверточных нейросетей.

Использование кодеков в подготовке исходных данных для...

Анализируется тенденции популярности тем «Большие данные» и «Глубокое обучение», а также методы обработки и использования цифровой информации. Описаны основные характеристики видео и принципы подготовки исходных данных из видео материалов.

Задать вопрос