Введение
Задача распознавания защитной одежды на данный момент является весьма доступной для реализации благодаря развитию систем компьютерного зрения, но при этом не теряющей своей актуальности [1]. Однако большинство решений направлено на обнаружение объектов, а не на определение их отсутствия (так называемых «негативных классов»). При этом примеры негативных классов добавляются в наборы данных, в основном, для более качественного обучения модели обнаружения положительных классов.
Целью данной работы является сравнительный теоретический анализ подходов решения данной задачи.
Теоретический анализ подходов
Обнаружение негативного класса
Алгоритм обнаружения негативного класса (Negative Class Detection) [2] предполагает обучение модели компьютерного зрения двум классам: «Класс» и противоположному ему «НеКласс» предполагая, что модель сможет выявить признаки, способные их различить.
У данного подхода возможен ряд недостатков. Первой проблемой является необходимость описания всего класса «НеКласс», что на примере «НеШлема» предполагает описание всех видов головных уборов и причёсок.
Второй же проблемой является отсутствие модульности. То есть, если потребуется обнаруживать новый объект, нужно вновь обучать модель полностью.
Наиболее производительной и простой в обучении на данный момент является модель обнаружения YOLO [3] (во многом благодаря существованию библиотеки ultralytics [4]).
Сопоставление человека и одежды
Данный подход основан на сопоставлении ограничивающих прямоугольников на основе метрики вхождения одного объекта в другой [5]. В качестве моделей обнаружения предполагается использование упомянутых выше моделей YOLO.
Метрика IoU (Intersection Over Union) [6], которая является отношением пересечения площади двух объектов к их объединению, не подойдёт, так как зависит от размеров двух объектов (подобрать стабильный показатель в таком случае проблематично).
Рис. 1. Наглядное отображение метода IoU
Вместо этого в рамках работы предлагаются две ассиметричные метрики, которые вычисляются как отношение площади пересечения к одному из объектов пересечения — Junction Over First (JoF) и Junction Over Second (JoS).
где
Рис. 2. Наглядное представление метрик JoF и JoS
На примере метрики JoF, логично, что в случае, когда площадь защитной каски полностью входит в площадь второго объекта, то данное отношение будет равно 1. Когда границы первого объекта начинают выходить за пределы второго — значение будет становиться меньше.
Аналогично, при вычислении JoS, если второй объект полностью входит в первый, то его значение будет равно 1 и уменьшаться при выходе за пределы первого.
Преимуществом данного алгоритма является разделение задач. Это позволяет обучить две отдельные модели, каждая из которых специализируется на своей задаче
Также для обучения модели не будет требоваться изображения, на которых одежда надета на людей. Это значительно снижает затраты на разметку данных и решает проблему их дефицита в области машинного обучения [7].
При этом у метода есть и недостатки. Первая проблема — ошибки в случае нахождения защитной одежды в пределах человека. То есть, обнаружен человек, обнаружена, например, строительная каска. Каска находится в руках или рядом с человеком. Алгоритм определит, что этот человек соблюдает технику безопасности.
Рис. 3. Пример проблемной ситуации для метода сопоставления человека и одежды
Также при реализации вероятна проблема наложения ошибок обнаружения двух моделей [8]. То есть, общая точность подхода будет зависеть от точности обнаружения обоих моделей.
Модификация метода: сопоставление одежды и части тела
В этом методе производится попытка избавиться от недостатка предыдущего алгоритма на основе «привязывания» одежды к частям тела человека [9].
Далее теоретически рассмотрим варианты этой модификации.
Метод детекции
Модели детекции сложно обучить отличать части тела по причине малого количество отличительного контекста на некоторых из них. Особенно, это касается локтей и колен, которые могут быть также спрятаны под одеждой. Данная разработка уже производилась и отличалась низкой точностью [10].
Однако если и рассматривать его как возможную реализацию, то модель обнаружения определит на изображении части тела, после чего произведёт сопоставление с сопоставленным человеком и элементом защитной одежды.
Возможно, потребуется отдельное обнаружение частей тела для каждого человека для повышения точности модели [11].
Метод сегментации
В этом методе для «привязки» одежды к частям тела применяются модели, которые сегментируют человека на части [12].
У этого алгоритма есть существенный недостаток: даже с учётом современных возможностей разметки, чрезвычайно ресурсоёмкая работа, так как разметка для сегментации требует разметки не ограничивающими прямоугольниками, а точечными масками [12].
Отсюда возникает и проблема обработки результатов сегментации. Как можно на основе множества точек многоугольника выполнить сопоставление с ограничивающим прямоугольником обнаруженной одежды?
Однако на данный момент существуют сегментационные модели YOLO [13], причём в них доступны не только маски, но и ограничивающие прямоугольники сегментированных объектов. Для этой задачи идеально подойдёт YOLO Segmentation Model for Human Body Parts and Objects, который обучен сегментировать отдельные элементы одежды и видимые части тела [14].
Рис. 4. Пример сегментации модели YOLO Segmentation Model for Human Body Parts and Objects
И даже при этом в программной реализации вероятно потребуется отдельно выделять каждого человека из изображения для корректной работы модели сегментации [11] и для определения границ каждого отдельного человека, чтобы можно было точно определить: кто из них носит защитную одежду, а кто нет. Это ведёт к множественному применению модели и, как следствие, к снижению производительности.
Метод определения ключевых точек
Данный подход основывается на моделях ключевых точек. Существует, например, модель yolo-pose, она способна обнаруживать ключевые точки человеческого тела (нос, глаза, уши, плечи и т. д.) и определять его ограничивающий прямоугольник [15]. На основе данных можно определить приблизительное местоположение головы или непосредственно шлема [16].
Однако связывание одежды с частью тела в этом случае потребует применение математических эвристик и преобразований, что может снизить точность метода и производительность. Например, как определить, что шлем находится на голове, если вам доступны только ограничивающие прямоугольники человека и строительной каски и ключевые точки головы: глаза, нос, уши?
При этом, серьёзным преимуществом модели является то, что в данном случае не потребуется отдельно выделять каждого человека из картинки, что может быть значительно производительнее метода сегментации.
Рис. 5. Пример обнаружения двух моделей
При этом данный метод также как и основной метод имеет проблему перекрытия. Например, человек может держать строительную каску перед камерой так, чтобы казалось будто она находится на голове [17]. Теоретически, алгоритм посчитает это правильным ношением защитной одежды. Однако эту проблему можно решить. Например, отслеживанием положения ключевых точек рук: если рука находится близко к шлему, то эту ситуацию возможное нарушение, которое нужно дополнительно обработать.
Заключение
В ходе данной работы были рассмотрены теоретические подходы к обнаружению объектов негативного класса на изображении. Были предложены два метода решения данной задачи: обучение модели обнаружения примерами негативного класса и метод сопоставления объектов. Также были предложены две модификации второго подхода для осуществления привязки одежды к определённой части тела.
Также были предположены недостатки, с которыми придётся столкнуться при программной реализации и тестирования данных методов. Предполагается, что метод на основе применения ключевых точек является наиболее перспективным для реализации. Однако и другие методы требуют экспериментальной проверки.
Сравнение методов на основе проведённых экспериментов будет продолжено в следующих работах.
Литература:
1. ADiTyaRaj8969. Safety-Vest-and-Helmet-Detection [Электронный ресурс] // GitHub. — 2025. — URL: https://github.com/ADiTyaRaj8969/Safety-Vest-and-Helmet-Detection (дата обращения: 18.04.2026).
2. Chapelle O., Schölkopf B., Zien A. Semi-Supervised Learning. — MIT Press, 2006. — 508 p. (Chapter 5: One-Class Classification / Anomaly Detection).
3. Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2016. — P. 779–788.
4. Ultralytics. Ultralytics YOLO Docs [Электронный ресурс]. — Режим доступа: https://docs.ultralytics.com/ (дата обращения: 18.04.2026).
5. Rezatofighi H., Tsoi N., Gwak J., Sadeghian A., Reid I., Savarese S. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2019. — P. 658–666.
6. Gao J. et al. FPI-Det: a face--phone Interaction Dataset for phone-use detection and understanding //arXiv preprint arXiv:2509.09111. — 2025.
7. A review of machine learning with small and limited data [Электронный ресурс] / M. G. B. K. Appiah, F. M. N. U. Akhtar, M. M. H. Onik, et al. // Journal of Big Data. — 2026. — Vol. 13, article no. 18. — Режим доступа: https://link.springer.com/article/10.1186/s40537–025–01346–9 (дата обращения: 18.04.2026).
8. Delving into Cascaded Instability: A Lipschitz Continuity View on Image Restoration and Object Detection Synergy [Электронный ресурс] / NeurIPS. — 2025. — URL: https://neurips.cc/virtual/2025/poster/115050 (дата обращения: 19.04.2026).
9. Chhatre K., Peters C. E., Karanam S. Learning 3D Texture-Aware Representations for Parsing Diverse Human Clothing and Body Parts //Proceedings of the AAAI Conference on Artificial Intelligence. — 2026. — Т. 40. — №. 5. — С. 3344–3352.
10. PINTO0309. YOLOv9-Wholebody28: Extending Human Detection to 28 Classes Including Shoulder, Elbow and Knee Keypoints [Электронный ресурс] // PINTO_model_zoo: GitHub repository. — 2025. — Режим доступа: https://github.com/PINTO0309/PINTO_model_zoo (дата обращения: 18.04.2026).
11. Lydia M. S. et al. Instance Segmentation of Human Body Parts Using Deep Learning Yolov8 Model //Informatica. — 2025. — Т. 49. — №. 37.
12. Instance Segmentation [Электронный ресурс] // Ultralytics YOLO Docs: сайт. — URL: https://docs.ultralytics.com/tasks/segment/ (дата обращения: 18.04.2026).
13. MnLgt. YOLO Segmentation Model for Human Body Parts and Objects [Электронный ресурс]. — URL: https://github.com/MnLgt/YOLO-Human-Parse (дата обращения: 17.04.2026).
14. Smith A. G. et al. Localise to segment: crop to improve organ at risk segmentation accuracy //arXiv preprint arXiv:2304.04606. — 2023.
15. Majumder S., et al. YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss // arXiv preprint arXiv:2204.06806. — 2022.
16. Lian Y. et al. HR-YOLO: a multi-branch network model for helmet detection combined with high-resolution network and YOLOv5 //Electronics. — 2024. — Т. 13. — №. 12. — С. 2271.
17. López L. et al. Automated PPE compliance monitoring in industrial environments using deep learning-based detection and pose estimation //Automation in Construction. — 2025. — Т. 176. — С. 106231.
18. Lyu X., Li X., Zhang Y., Lu W. Two-Stage Method for Clothing Feature Detection // Big Data and Cognitive Computing. — 2024. — Vol. 8, No 4. — P. 35. — DOI: 10.3390/bdcc8040035.

