Многокамерное слияние без калибровки для обнаружения угроз в системах видеонаблюдения: концептуальная архитектура на основе глубокого обучения

Адда-Аббу Ахмед-Реда

Введение

Три эпизода, разделённые минутами и десятками метров, произошли в одном торговом центре. На первой камере — мужчина в синей куртке, неподвижно стоящий у витрины явно дольше, чем того требует осмотр товара. На второй, установленной в сорока метрах, — тот же человек, но уже без куртки, идущий к выходу. На третьей, у парковки, — снова в куртке, теперь с сумкой, которой при входе не было. Каждая из камер зафиксировала обычное поведение. Угроза возникла только из последовательности.

Именно в этом разрыве и состоит нерешённая задача промышленного видеонаблюдения. SlowFast [1], Video Swin [2], VideoMAE v2 [3] — эти архитектуры показывают высокие результаты на стандартных бенчмарках. Но все они спроектированы для коротких клипов длиной от двух до шестнадцати секунд, снятых одной камерой с фиксированным освещением и углом. Реальная угроза разворачивается на протяжении минут и охватывает пространство под десятками разнородных, нередко не синхронизированных камер.

DeepSORT [4] и родственные ему подходы к многокамерному трекингу решают более узкую задачу: удержать идентичность трека при перекрытиях и кратких исчезновениях. На горизонтах в несколько минут они не работают и не формируют представления угрозы как траектории. Методы повторной идентификации (Re-ID) [5, 6] активно развиваются, однако в большинстве своём требуют либо калибровки, либо значительного объёма размеченных данных об идентичностях — в реальных условиях то и другое редко доступно. Соревнования вроде AI City Challenge [7] фиксируют F1 на уровне 0,6–0,8 в задаче трекинга, но ориентированы именно на неё, а не на оценку поведения как угрозы.

Настоящая статья не претендует на обзор архитектур. Её цель — сформулировать задачу и наметить концептуальное решение. Разделы 2–4 описывают существующие строительные блоки, постановку задачи и предлагаемую архитектуру. Раздел 5 иллюстрирует подход на трёх сценариях. Раздел 6 — ограничения и открытые вопросы.

Архитектурные строительные блоки: возможности и пределы

Прежде чем описывать предлагаемое решение, нужно зафиксировать, что каждый из существующих классов архитектур умеет делать в контексте многокамерного обнаружения угроз — и чего он принципиально не умеет. Это обоснование выбора блоков, не обзор литературы.

SlowFast [1] — двухпутевая 3D-свёрточная сеть — остаётся наиболее практичным выбором для детекции действий в реальном времени на одной камере. Медленный путь работает на низкой частоте кадров и захватывает семантику сцены; быстрый специализируется на движении. SlowFast R50 достигает 77,0 % top-1 на Kinetics-400 [1] при вычислительных затратах, пригодных для потокового инференса. Принципиальное ограничение: модель анализирует клипы длительностью в доли секунды и не имеет никакого механизма для связывания наблюдений с разных камер.

Video Swin [2] с иерархическим локальным вниманием достигает 84,9 % top-1 на Kinetics-400 и 69,6 % на Something-Something v2 [2] — бенчмарке, акцентирующем порядок и направление движения. Это делает его полезным там, где важна точная локализация взаимодействий между людьми, в том числе агрессивных, в плотных сценах.

VideoMAE v2 [3] — маскированный автокодировщик с высокой долей маскируемых патчей — обучается без разметки: модель восстанавливает произвольно скрытые фрагменты видео. В конфигурации ViT-g она достигает 90,0 % top-1 на Kinetics-400 [3], что подтверждает практическую ценность самообучения как стратегии предобучения. Для задачи Re-ID важно другое: поскольку модель никогда не учила различать конкретных людей, она была вынуждена усвоить инвариантные паттерны движения и форм тела — те, что меньше меняются при смене ракурса и освещения. Это не гарантия, а теоретически обоснованное преимущество. VideoMAE также работает с отдельными клипами и не содержит механизма межкамерной агрегации.

На бенчмарке UCF-Crime [8] современные методы достигают AUC в диапазоне 84–92 % для отдельных клипов [8, 9]. Все они оцениваются в однокамерной постановке. Разрыв между этими цифрами и полным отсутствием стандартизированных бенчмарков для многокамерного обнаружения угроз как траекторий — сам по себе симптом нерешённой задачи.

Итог: ни одна из перечисленных архитектур не решает задачу многокамерной агрегации угрозы. Все они производят представления отдельных клипов; ни одна не строит траектории через некалиброванные камеры и не оценивает аномальность поведения на горизонтах в минуты. Предлагаемая архитектура закрывает этот пробел.

Таблица 1

Сравнение архитектурных блоков применительно к задаче многокамерного обнаружения угроз

Архитектура	Временной горизонт	Top-1 K-400	Устойчивость Re-ID	Многокамерная агрегация
SlowFast R50 [1]	Секунды	77,0 %	Низкая	Нет
Video Swin-B [2]	Секунды — ед. минут	84,9 %	Средняя	Нет
VideoMAE v2 ViT-g [3]	До десятков секунд	90,0 %	Высокая (по замыслу)	Нет
Предлагаемая архитектура	Минуты	—	Высокая (через VideoMAE)	Да, по замыслу

Прочерк означает, что предлагаемая архитектура — новая комбинация существующих моделей, а не отдельная модель, прошедшая оценку на бенчмарке.

Формализация задачи

Постановка

Пусть система наблюдения включает K камер C₁, C₂,..., Cₖ с непересекающимися или частично перекрывающимися полями зрения. Камеры не откалиброваны: их взаимное пространственное расположение неизвестно, временна́я синхронизация неточна, внутренние параметры различаются. Детектор нижнего уровня порождает на каждой камере треки — последовательности ограничивающих прямоугольников с метками времени, соответствующих отдельным людям. Для каждого трека нейросетевая модель формирует компактное векторное представление — эмбеддинг, — отражающее как семантику действия, так и визуальные характеристики человека.

Центральный вопрос работы: как объединить локальные представления с нескольких некалиброванных камер в единое представление траектории личности, достаточно информативное для обнаружения угроз на горизонтах от одной до двадцати минут?

Задача распадается на три самостоятельных подзадачи, каждая из которых в общем случае не решена. Первая — сопоставление людей между камерами без калибровки и при возможной смене внешнего вида. Вторая — агрегация фрагментов наблюдения в единую временну́ю последовательность с учётом пропусков и рассинхронизации. Третья — оценка аномальности не отдельного действия, а траектории в целом: где человек был, как долго и каким маршрутом.

Декомпозиция аномальности траектории

Ключевой концептуальный вклад данной работы — предложение разложить аномальность траектории на три независимых компонента, каждый из которых фиксирует принципиально разный сигнал угрозы и поддаётся независимой оценке.

Локальная аномальность характеризует необычность действий в отдельных наблюдаемых клипах. Маскированный автокодировщик типа VideoMAE, предобученный на нормальном поведении, хуже реконструирует нетипичные действия — эту особенность можно использовать как беспараметрический индикатор аномалии [3]. Компонента возрастает при агрессивных движениях, нехарактерных позах или редких действиях. Sultani et al. [8] показывают, что признаки аномальности клипов поддаются обучению даже при слабой разметке.

Пространственная аномальность характеризует нетипичность маршрута между зонами наблюдения. Если большинство посетителей уходят через главный выход, а не через служебный коридор, переход через служебный коридор получит высокое значение этой компоненты. Оценка строится на топологической карте — графе смежности камер с данными о типичных переходах, — которая не требует метрической калибровки. Работы по многокамерному трекингу [7] показывают, что топологическая информация улучшает точность сопоставления даже без геометрической калибровки.

Темпоральная аномальность характеризует необычность времени пребывания в зонах и общей продолжительности траектории. Нормальное время пребывания оценивается статистически по историческим данным; значительное превышение — классический признак слежки или вынашивания умысла. Подобные признаки применялись в ранних работах по детекции аномалий [8] как один из ключевых факторов обучения без детальной разметки.

Итоговая оценка аномальности траектории — взвешенная сумма трёх компонент:

A(Π) = w₁ · A_local + w₂ · A_spatial + w₃ · A_temporal, w₁ + w₂ + w₃ = 1

Веса подбираются на размеченной выборке или задаются эвристически исходя из специфики сценария. Превышение порогового значения генерирует тревогу с указанием доминирующей компоненты — оператор видит не только факт аномалии, но и её природу.

Концептуальная архитектура

Общий принцип

Архитектура строится на иерархической декомпозиции: каждый уровень конвейера решает одну подзадачу со своими требованиями к скорости и точности. Компоненты заменяются независимо, что упрощает управление вычислительным бюджетом.

Угроза оценивается не на уровне клипа, а на уровне траектории. Для этого нужно три вещи: вектор личности, устойчивый к смене камеры; механизм сопоставления без калибровки; и модель, учитывающая длинную историю при оценке аномальности. Ни один существующий подход не даёт всего этого вместе.

Уровень 1 — детекция и трекинг

На нижнем уровне конвейера работают лёгкий детектор объектов и алгоритм трекинга, удерживающий идентификаторы в пределах одной камеры. YOLOv8 [10] в связке с ByteTrack [11] справляются с этим при частоте, пригодной для потокового видео, и устойчивы к кратковременным перекрытиям. Выход уровня — множество треков с метками времени по каждой камере — единственный вход для всего последующего анализа.

Принципиальное архитектурное решение: все последующие уровни работают не с полным кадром, а только с вырезанными областями вокруг каждого трека. Это снижает вычислительные требования среднего уровня на порядок по сравнению с наивной обработкой всего видеопотока.

Уровень 2 — локальные представления действий и внешнего вида

Для каждого активного трека два параллельных энкодера формируют локальное представление из короткого временно́го окна кадров. SlowFast R50 [1] классифицирует текущее действие и даёт признаковый вектор, описывающий динамику движения. VideoMAE v2 [3] формирует эмбеддинг внешнего вида, устойчивый к смене ракурса и освещения в силу самообучения. Объединение двух векторов образует локальное представление трека.

Параллельно VideoMAE фиксирует ошибку реконструкции — числовую меру того, насколько текущий фрагмент отличается от нормального поведения, усвоенного при предобучении. Эта ошибка служит основой локальной компоненты аномальности из раздела 3.2. В ресурсно-ограниченных условиях VideoMAE v2 можно заменить облегчённой версией (ViT-B вместо ViT-g): качество эмбеддингов снизится предсказуемо, зато скорость инференса существенно вырастет.

Уровень 3 — мягкое сопоставление личностей между камерами

Задача уровня — связать треки с разных камер, принадлежащие одному человеку, без метрической калибровки. Вместо традиционного жёсткого решения «тот же / не тот» предлагается мягкое сопоставление: для каждой пары треков с разных камер вычисляется вероятность совпадения.

Вероятность определяется двумя факторами. Первый — визуальное сходство эмбеддингов: чем ближе векторные представления, тем выше априорная вероятность одной личности. Этот принцип опирается на метрическое обучение, широко применяемое в Re-ID [5, 6]. Второй — физическая совместимость временно́го разрыва: если расстояние между зонами требует минимум трёх минут, а разрыв составляет тридцать секунд, совпадение исключается вне зависимости от визуального сходства.

Данные о достижимости берутся из топологической карты — простого графа смежности, который не требует точных координат камер и может быть составлен вручную или накоплен автоматически из исторических данных о переходах. Это принципиальное отличие от методов, предполагающих полную геометрическую калибровку [7].

Результат уровня — граф личностей: вершины — активные треки на всех камерах, рёбра — вероятности принадлежности одному человеку. Треки с высокой вероятностью совпадения объединяются в единую цепочку и передаются дальше как связная последовательность наблюдений.

Уровень 4 — агрегация траектории и оценка угрозы

На верхнем уровне граф-трансформер агрегирует всю накопленную историю наблюдений личности — последовательность локальных эмбеддингов, упорядоченных по времени, — в единое траекторное представление. Выбор граф-трансформера обусловлен тем, что наблюдения за личностью естественно образуют граф: узлы — отдельные клипы, рёбра — темпоральные и пространственные связи. Механизм самовнимания позволяет взвешивать важность разных фрагментов истории при формировании итоговой оценки.

Ключевая инженерная трудность: траектория может охватывать сотни клипов за несколько минут, а прямое применение самовнимания даёт квадратичную сложность. Longformer [12] и родственные ему методы предлагают приближения с линейной сложностью — скользящее локальное окно в сочетании с глобальными агрегирующими токенами. Эта схема хорошо ложится на задачу агрегации траекторий: локальное внимание фиксирует краткосрочный контекст, глобальные токены несут долгосрочную память о поведении с момента первого появления в сети камер.

Обучение граф-трансформера возможно через реконструкцию нормальных траекторий, контрастивное обучение на парах нормальных и аномальных последовательностей или прямую регрессию оценки аномальности при наличии слабой разметки. Выбор режима зависит от доступности данных — это отдельная исследовательская задача.

На выходе формируется комбинированная оценка аномальности, объединяющая три компоненты из раздела 3.2. При превышении порога система генерирует тревогу с указанием доминирующей компоненты и визуализацией траектории — оператор сразу видит причину срабатывания.

Иллюстративные сценарии

Замечание: приведённые ниже сценарии — концептуальные иллюстрации предполагаемого поведения архитектуры, а не результаты экспериментов или симуляций. Их цель — показать, какие компоненты аномальности были бы активированы в каждом случае и почему однокамерный анализ с задачей не справился бы.

Сценарий 1: розничная кража

Злоумышленник входит в магазин через главный вход, задерживается у полки заметно дольше среднего, затем направляется в примерочную и покидает здание через запасной выход, минуя кассу.

На уровне каждой камеры поведение выглядит обычным: стоит у полки, идёт в примерочную, выходит. Угроза проявляется только на уровне траектории. Темпоральная компонента аномальности начнёт расти, как только время у полки превысит статистическую норму. Пространственная компонента резко возрастёт при выходе через запасной вход в обход кассы — такой маршрут редко встречается в нормальном потоке. Комбинированная оценка превысит порог ещё до того, как человек покинет здание — что принципиально недостижимо при анализе только отдельных камер.

Сценарий 2: скоординированное проникновение

Группа из трёх человек входит в здание через разные входы с интервалом в несколько минут. Каждый в отдельности ведёт себя нормально. Спустя некоторое время все трое сходятся в зоне, куда посетители обычно не заходят.

Для каждого из трёх аномальность траектории была бы умеренной и, скорее всего, не превысила бы порог тревоги по отдельности. Архитектура дополняет индивидуальные оценки групповым сигналом: синхронизация траекторий трёх независимых людей, сходящихся в нетипичной точке, сама по себе — сильный признак угрозы. Граф личностей из раздела 4.4 естественным образом представляет такие корреляции между траекториями — в этом одно из ключевых преимуществ графовой архитектуры перед независимой оценкой каждого человека в отдельности.

Сценарий 3: слежка перед нападением

Человек на протяжении нескольких минут перемещается по кругу между несколькими камерами, раз за разом возвращаясь к начальной точке. Затем следует стремительное сближение с другим человеком, которое SlowFast классифицирует как агрессивное действие.

Сценарий показывает ценность накопленного контекста. При анализе только момента агрессии система зафиксировала бы инцидент, не имея информации о его предыстории. Предлагаемая архитектура накапливает нарастающую темпоральную аномальность на протяжении всего периода хождения по кругу, постепенно повышая уровень настороженности. В момент агрессивного действия локальная компонента резко возрастает, и система выдаёт тревогу вместе с полной историей предшествующего поведения. Это принципиально меняет возможности оперативного реагирования.

Ограничения и перспективные направления

Концептуальный характер работы. Статья предлагает архитектурное решение, но не его реализацию. Конкретные гиперпараметры — пороги сходства, веса компонент аномальности, размеры окон внимания — не определены и потребуют подбора на реальных или синтетических данных. Проверка подхода на публичных многокамерных бенчмарках — первоочередная задача.

Отсутствие стандартизированных датасетов для многокамерных траекторий угроз. Существующие бенчмарки детекции аномалий — UCF-Crime [8] и ShanghaiTech — оцениваются в однокамерной постановке. Многокамерные датасеты вроде DukeMTMC [7] ориентированы на Re-ID, а не на оценку аномальности траекторий. Отсутствие публичного датасета с аннотированными многокамерными траекториями угроз — самостоятельное ограничение области.

Зависимость от топологической карты. Пространственная компонента опирается на статистику нормальных переходов между зонами. При недостаточном историческом объёме или изменении топологии здания эта статистика окажется смещённой. Методы автоматического обновления карты по потоковым данным требуют отдельного изучения.

Re-ID при смене внешнего вида на длинных горизонтах. VideoMAE v2 снижает чувствительность к смене ракурса и освещения, однако принципиальная смена одежды остаётся открытой проблемой. Обзор [5] фиксирует её как одну из ключевых нерешённых задач Re-ID. Включение биомеханических признаков на основе скелетного представления [13, 14] в качестве дополнительного канала выглядит перспективным направлением.

Вычислительный бюджет. Полный конвейер с VideoMAE v2 ресурсоёмок. Для развёртывания на граничном оборудовании потребуется замена на облегчённый энкодер с ожидаемым снижением точности представлений. Компромисс между качеством и затратами в контексте данной архитектуры остаётся открытым вопросом.

Этические и регуляторные аспекты. Система, строящая многоминутные траектории личностей, неизбежно затрагивает вопросы приватности. Перспективный путь — анонимизирующий предпроцессинг: замена RGB на скелетное представление [13, 14] до формирования эмбеддинга позволила бы работать с поведенческими паттернами без хранения биометрически идентифицируемых данных. GDPR требует закладывать подобные ограничения в архитектуру с самого начала, а не добавлять задним числом.

Заключение

Многокамерное слияние без калибровки для обнаружения угроз остаётся одним из наиболее существенных разрывов между академическими возможностями глубокого обучения и требованиями реальных систем видеонаблюдения. SlowFast [1], Video Swin [2], VideoMAE v2 [3] показывают высокую точность на однокамерных бенчмарках, однако ни по конструкции, ни по постановке обучения не решают задачу агрегации угрозы как многокамерной траектории.

Статья вносит три концептуальных вклада. Во-первых, формулирует задачу многокамерного обнаружения угроз как самостоятельную нерешённую проблему, явно обозначая разрыв между однокамерными возможностями существующих архитектур и реальными сценариями. Во-вторых, предлагает декомпозицию аномальности траектории на три независимых компонента — локальный, пространственный и темпоральный, — каждый из которых фиксирует свой сигнал угрозы и опирается на принципы, апробированные в смежных работах [8, 7]. В-третьих, описывает иерархический конвейер, объединяющий существующие модели с граф-трансформером для агрегации траекторий, и предлагает механизм мягкого сопоставления личностей без метрической калибровки.

Три иллюстративных сценария показывают, что подход концептуально способен обнаруживать угрозы, невидимые для однокамерных систем, — и делать это до реализации угрозы. Создание стандартизированных многокамерных датасетов с аннотированными траекториями и экспериментальная проверка архитектуры остаются задачами для дальнейшей работы.

Литература:

Feichtenhofer C., Fan H., Malik J., He K. SlowFast networks for video recognition // IEEE ICCV. — 2019. — P. 6202–6211.
Liu Z., Ning J., Cao Y. et al. Video Swin Transformer // CVPR. — 2022. — P. 3202–3211.
Wang L., Huang B., Zhao Z. et al. VideoMAE V2: Scaling video masked autoencoders with dual masking // CVPR. — 2023. — P. 14549–14560.
Wojke N., Bewley A., Paulus D. Simple online and realtime tracking with a deep association metric // ICIP. — 2017. — P. 3645–3649.
Ye M., Shen J., Lin G. et al. Deep learning for person re-identification: A survey and outlook // IEEE TPAMI. — 2022. — Vol. 44(6). — P. 2872–2893.
He L., Wang Y., Liu W. et al. Foreground-aware Pyramid Reconstruction for alignment-free occluded person re-identification // ICCV. — 2019. — P. 8450–8459.
Ristani E., Solera F., Zou R. et al. Performance measures and a data set for multi-target, multi-camera tracking // ECCV. — 2016. — P. 17–35.
Sultani W., Chen C., Shah M. Real-world anomaly detection in surveillance videos // CVPR. — 2018. — P. 6479–6488.
Tian Y., Pang G., Chen Y. et al. Weakly-supervised video anomaly detection with robust temporal feature magnitude learning // ICCV. — 2021. — P. 4975–4984.
Jocher G. et al. Ultralytics YOLOv8. — 2023. — URL: https://github.com/ultralytics/ultralytics.
Zhang Y., Sun P., Jiang Y. et al. ByteTrack: Multi-object tracking by associating every detection box // ECCV. — 2022. — P. 1–21.
Beltagy I., Peters M. E., Cohan A. Longformer: The long-document transformer // arXiv:2004.05150. — 2020.
Xu Y., Zhang J., Zhang Q., Tao D. ViTPose: Simple vision transformer baselines for human pose estimation // NeurIPS. — 2022. — Vol. 35.
Стародубцев И. С. Модели, алгоритмы и программный комплекс для построения естественного человеко-компьютерного взаимодействия на основе жестов: дис.... канд. техн. наук. — 2024.

Молодой учёный

Многокамерное слияние без калибровки для обнаружения угроз в системах видеонаблюдения: концептуальная архитектура на основе глубокого обучения

Многокамерное слияние без калибровки для обнаружения угроз в системах видеонаблюдения: концептуальная архитектура на основе глубокого обучения

Молодой учёный