Способы классификации движущихся объектов на видео

Евсеев, Сергей Дмитриевич; Исаев, Андрей Львович; Газаров, Денис Андреевич

В данной статье мы рассмотрим область машинного зрения, связанную с распознаванием объектов (трекингом). Рассмотрим область применения трекинга. Опишем основные принципы и подходы к распознаванию объектов. Также рассмотрим проблемы, связанные с трекингом.

Слежение за объектами является важным пунктом в классе задач компьютерного зрения. Пролиферация высокомощных компьютеров, доступность высококачественных и недорогих видео камер и повышение необходимости для автоматизированного анализа видео сыграло хорошую роль в заинтересованности алгоритмами слежения за объектами. Всего существует три ключевых шага в видео анализе: обнаружение интересующего движущегося объекта, слежение за такими объектами от кадра к кадру, и анализ объекта слежения для распознавания его поведения. Таким образом использование слежения за объектом применимо для таких задач как:

‒ распознавание на основе движений, например распознавание человека по походке;

‒ автоматизированное наблюдение, то есть наблюдение за определенной сценой действий для обнаружения подозрительной активности или нежелательных событий;

‒ взаимодействия человека с компьютером, например распознавание жестов, движение глаз и т. д.

‒ мониторинг трафика, то есть обозревание трафика в реальном времени для более правильного направления транспортного потока;

‒ навигация автомобилей, например составление маршрута для объезда препятствий на основе видео материалов.

В своей простейшей форме, трекинг можно определить как проблему оценки траектории объекта в плоскости изображения. Другими словами, трекер присваивает последовательные метки для отслеживаемых объектов в разных кадрах видео.

Дополнительно, в зависимости от области слежения трекер может обеспечить информацию об объекте такую как направление, месторасположение, или тень объекта.

Отслеживаемые объекты могут быть сложными из- за:

‒ потери информации вызванной проекцией 3д мира на 2д изображение;

‒ шум в изображении;

‒ сложное движение объектов;

‒ частичное или полное сокрытия объекта;

‒ сложные тени объекта;

‒ изменение освещения сцены;

‒ требования к обработке изображения в реальном времени.

Представление объекта

В сценарии трекинга, объектом можно назвать все что представляет интерес для дальнейшего анализа. К примеру, лодки на море, рыба в аквариуме, машина на дороге, самолет в воздухе, люди, идущие по дороге, или пузырьки на дороге являются наборами объектов которые важно отслеживать для определенных целей. Объекты могут быть представлены их формами и признаками. В данной секции мы сначала опишем форму объекта представления, используемую для отслеживания а затем рассмотрим совместный вид и внешнюю форму представления.

‒ Точки. Объект представляется точкой, которая является центром (Рис.1а или набором точек (Рис 1в). В основном точечное представление подходит для отслеживания объектов, которые занимают маленькие части изображения.

‒ Примитивные геометрические фигуры. форма объектов представляется прямоугольником, эллипсом и др. (Рис 1 с, d). Движение таких объектов обычно представляется аффинным или проективным преобразованием. Такой способ больше подходит для жестких объектов, хотя его также используют для не жёстких.

‒ Силуэт объекта или контур. Контурное представление определяет границы объекта (рис 1 g, h). Область внутри контура называется силуэтом объекта (Рис 1 i). Контурное представление объекта подходит для отслеживания сложных нежестких форм.

Рис. 1. Представления объекта. (a) Центральное. (b) Множество точек. (c) Прямоугольное. (d) Эллиптическое. (e) частичное, на основе нескольких частей. (f) Скелетон.(g) Контрольные точки на контур. (h) Конечный контур объекта. (i) Силуэт

‒ Сочлененные модели. Сочлененные объекты состоят из частей которые соединены друг с другом подвижными частями. Например, человеческое тело — это сочлененная модель. (Рис. 1e)

‒ Скелетные модели. Скелет объекта может быть извлечен путем медиального преобразования силуэта объекта. Скелет может быть использован как для жестких, так и для нежестких моделей. (Рис 1f)

‒ Есть целый ряд способов представления особенностей внешнего вида объектов. Заметим, что представления формы также могут быть объединены с внешними особенностями для отслеживания. Некоторые общие особенностями для трекинга объекта являются:

‒ Шаблоны. Шаблоны формируются с помощью простых геометрических фигур или силуэтов. Преимущества шаблонов в том, что они несут в себе как пространственный, так и внешний вид объекта. Тем не менее шаблоны генерируются только из внешнего вида объекта. Исходя из этого следует что они подходят только для объектов, позы которых варьируются очень слабо.

‒ Модели активных признаков. Активные модели признаков генерируются одновременно с моделированием формы объекта и внешнего вида. В целом, форма объекта определяется набором ориентиров. По аналогии с представлением контура на основе, ориентиры могут находиться на границе объекта или, в качестве альтернативы, они могут находиться внутри области объекта. Для каждого ориентира, вектора появления сохраняется в виде цвета, текстуры или градиента величины. Модели активных признаков требуют этапа обучения, в котором форма и ассоциируемые признаки изучаются из набора примеров.

‒ Многовидовая модель признаков. Данная модель записывает разные виды объекта. Один подход ля предоставления разных видов объекта это создания подпространства из данных видов. Другой подход изучения разных видов объекта это выработка набора классификаторов, например набора опорных векторов.

Выбор признака для слежения.

Важнейшую роль в отслеживании является выбор правильного признака. В основном, самым желаемым свойством визуального признака является его уникальность, чтобы объекты можно было легко выделить в пространстве особенностей. Выбор признака тесно связан с представлением объекта. Например, цвет используется как признак для представлений, основанных на гистограмме. В свою очередь, для представлений, основанных на контурах, как признаки часто используются границы объекта. В основном, многие алгоритмы слежения используют комбинацию этих признаков.

Подробнее об основных визуальных признаках:

Цвет. Основной цвет объекта подвержен влиянию двух физических факторов:

1) Спектральная плотность излучения источника света

2) свойства отражающей поверхности объекта.

В обработке изображений обычно используется цветовое пространство RGB (Red, Green, Blue — красный, зеленый, синий). Однако пространство RGB не является перцептивно однородным — различия между цветами в пространстве RGB не соответствуют различиям цветов согласно ощущениям людей [Paschos 2001]. Кроме того, размерности RGB сильно коррелируют. В отличие от него, пространства цветов L*u*v* и L*a*b являются перцептивно однородными, а HSV (Hue, Saturation, Value — тон, насыщенность, значение) является приближенно однородным цветовым пространством. Однако, эти цветовые пространства чувствительны к шуму [Song 1996]. Таким образом, нельзя однозначно сказать, какое цветовое пространство более эффективно, поэтому в слежении использовались различные цветовые пространства.

Границы. Границы объекта обычно создают значительные изменения в интенсивности изображения. Для определения этих изменений используется определение границ. Важным свойством границ является то, что они менее чувствительны к изменениям источника света по сравнению с цветовыми особенностям. Алгоритмы, отслеживающие границы объектов, обычно используют границы как главный признак. Одним из самых популярных подходов к определению границ, благодаря его простоте и точности, считается детектор границ Кэнни [Canny 1986]. Оценка алгоритмов определения границ представлена Bowyer и др. [2001].

Оптический поток. Оптический поток представляет собой плотное поле векторов перемещений, которые определяют сдвиг каждого пикселя в регионе. Оно вычисляется, используя ограничение яркости, которое предполагает постоянство яркости соответствующих пикселей в последовательных кадрах [Horn и Schunk 1981]. Оптический поток часто используется как признак в сегментации движущихся объектов и слежении. Популярными способами вычисления плотных оптических потоков являются методы Horn и Schunck [1981], Lucas и Kanade [1981], Black и Anandan [1996] и Szeliski и Couglan [1997]. Оценки производительности методов оптического потока приведены в исследовании Barron и др. [1994].

Текстура. Текстура — это мера отклонения интенсивности поверхности, которая определяет такие свойства как гладкость и однородность. В отличии от цвета, текстуре требуется дополнительный шаг на этапе обработки для создания дескрипторов. Существуют разные дескрипторы текстуры: GLCM’s (Gray-LevelOccurrenceMatrices — матрицы вхождений оттенков серого [Haralick и др. 1973] (двухмерная гистограмма, которая показывает совместные вхождения интенсивностей на определенном расстоянии и направлении), текстурные характеристики Лавса [Laws 1980] (25 двухмерных фильтров, созданных из 5 одномерных фильтров, соответствующих уровню, краю, пятну, ряби и волне), вейвлеты [Mallat 1989] (ортогональный банк фильтров) и управляемые пирамиды (steerablepyramids) [Greenspan и др. 1994]. Как и признаки границ, по сравнению с цветом, текстурные признаки менее чувствительны к изменениям источника света.

Обычно признаки выбираются вручную пользователем в зависимости от области применения. Однако, в сообществе людей, разрабатывающих распознавание образцов, особое внимание получила проблема автоматического выбора признака. Методы автоматического выбора признака можно разделить на методы-фильтры и методы-обертки [Blum и Langley 1997].

Методы-фильтры пытаются выбрать признаки на основе главного критерия, например, признаки не должны быть коррелирующими. Методы-обертки выбирают признаки на основе их полезности в конкретной области применения, например, производительность классификации с использованием подмножества признаков.

Примером метода-фильтра для уменьшения числа признаков является метод главных компонент (МГК). МГК включает в себя трансформацию некоторого числа (возможно) коррелирующих переменных в некоторое (меньшее) число некоррелирующих переменных, которые называются главными компонентами.

Первый главный компонент отвечает за наибольшее возможную вариацию данных, а каждый последующий отвечает за наибольшую возможную остаточную вариацию.

Методом-оберткой для выбора отличительных признаков для отслеживания конкретного класса объектов является алгоритм Adaboost [Tieu и Viola 2004]. Adaboost — метод для поиска строгого классификатора, основанного на комбинации умеренно неточных слабых классификаторов. При работе с большим множеством признаков, классификатор может быть натренирован для любого признака. Adaboost обнаружит взвешенную комбинацию классификаторов (представляющих признаки), которые увеличивают производительность классификации алгоритма. Большему весу соответствует большая отличительность признака. Для отслеживания можно использовать первые n признаков с наибольшим весом.

Категории	Работа
Детекторы точек	Детектор Моравеца [Moravec 1979], Детектор Харриса [Harris и Stephens 1988], Scale Invariant Feature Transform [Lowe 2004], Affine Invariant Point Detector [Mikolajczyk и Schmid 2002].
Сегментация	Mean-shift [Comaniciu и Meer 1999], Graph-cut [Shi и Malik 2000], Активные контуры [Caselles и др. 1995]
Определение фона	Mixture of Gaussians [Stauffer и Grimson 2000], Eigenbackground [Oliver и др. 2000], Wall flower [Toyama и др. 1999], Dynamic texture background [Monnet и др. 2003].
Классификация с учителем	Метод опорных векторов [Papageorgiou и др. 1998], Нейронные сети [Rowley и др. 1998], Adaptive Boosting (Adaboost) [Viola и др. 2003].

Цвет является одним из самых широкоиспользуемых признаков для классификации. Comaniciu и др. [2003] использует гистограмму цветов для представления появления объекта. Несмотря на популярность, большинство диапазонов цветов чувствительны к изменению источника света. Следовательно, в случаях, если этот эффект неизбежен, используются другие признаки, включенные в модель представления объекта. Cremers и др. [2003] использует оптические потоки как признак для отслеживания контура. Jepson и др. [2003] использует реакцию управляемых фильтров (steerablefilterresponses) для отслеживания. Кроме того, используется комбинация этих признаков для улучшения производительности отслеживания.

Заключение

В данной статье мы рассмотрели возможность применения машинного зрения к современному миру. Обозначили основные проблемы, связанные с распознаванием объектов. описали основные принципы и подходы к распознаванию объектов.

Литература:

Aggarwal, J. K. and Cai, Q. 1999. Human motion analysis: A review. Comput. Vision Image Under-stand. 73, 3, 428–440.
Ali, A. and Aggarwal, J. 2001. Segmentation and recognition of continuous human activity. In IEEE Work-shop on Detection and Recognition of Events in Video. 28–35.
Avidan, S. 2001. Support vector tracking. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 184–191.
Baddeley, A. 1992. Errors in binary images and an l version of the haus- dorff metric. Nieuw Archief voorWiskunde 10, 157–183.
Ballard, D. and Brown, C. 1982. Computer Vision. Prentice-Hall.
Barron, J., Fleet, D., and Beauchemin, S. 1994. Performance of optical flow techniques. Int. J. Comput.Vision 12, 43–77.
Beaulieu, J. and Goldberg, M. 1989. Hierarchy in picture image segmentation: A step wise optimization approach. IEEE Trans. Patt. Analy. Mach. Intell. 11, 150–163.
Bertalmio, M., Sapiro, G., and Randall, G. 2000. Morphing active contours. IEEE Trans. Patt. Analy. Mach.Intell. 22, 7, 733–737.
Beymer, D. and Konolige, K. 1999. Real-time tracking of multiple people using continuous detection. In IEEE International Conference on Computer Vision (ICCV) Frame-Rate Workshop..
Black, M. and Anandan, P. 1996. The robust estimation of multiple motions: Parametric and piecewise-smooth flow fields. Comput. Vision Image Understand. 63, 1, 75–104.

Способы классификации движущихся объектов на видео

Библиографическое описание:

Похожие статьи

Разработка и отладка программного обеспечения для подавления артефактов в электрокардиограмме

Алгоритмы преобразования Фурье и их применение при анализе звуковой информации

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей

Выбор архитектуры локальной сети при проектировании систем реального времени

Анализ алгоритмов сортировки

Особенности материалов для голографических носителей

Алгоритмы решения комбинаторных задач по теме «Раскраски»

О преимуществе комбинированных методов при восстановлении деталей центробежного насоса

Распознавание мобильных объектов на основе эвристических данных и машинного обучения

Механизмы работы нейронных сетей