Você está na página 1de 4

Avaliao da Amostragem Temporal na Deteco e no Rastreamento

de Pessoas em Vdeos de Fundo Dinmico


Diego Luiz Siqueira , Alexei Manso Corra Machado (Orientador)
Programa de Ps-Graduao em Engenharia Eltrica
Pontifcia Universidade Catlica de Minas Gerais (PUC-MG)
diego.siqueira@sga.pucminas.br, alexei@pucminas.br
Resumo Este artigo tem como objetivo apresentar os resultados parciais da avaliao do impacto que a reduo
temporal das amostras de quadros em um vdeo tem ao aplicar mtodos de deteco e rastreamento de pessoas em
cenas de fundo dinmico.
Palavras-chave: deteco de pessoas, rastreamento de pessoas, reduo amostragem temporal, Haar Cascade, Filtro
de Kalman.

1. Introduo
A deteco e o rastreamento de pessoas em uma
sequncia de imagens de grande utilidade para vrias atividades desempenhadas pela sociedade. Saber a localizao de pessoas no espao uma tarefa
trivial e cotidiana realizado por humanos, mas de
extrema complexidade para sistemas de viso computacional. A deteco e a anlise do movimento
de pessoas objetiva alm da segurana, o rastreamento visual e a contagem automtica de pessoas,
[1]. Devido sua importncia perante a sociedade e
o constante progresso das tecnologias relacionadas
com a captura ou reproduo de vdeos, gerada
uma grande quantidade de dados que devem ser armazenados ou processados. Assim, h uma necessidade de comprimir ou at mesmo reduzir essas informaes [15]. Diminuir a amostragem temporal
de quadros em um vdeo uma tcnica usada principalmente em situaes onde a perda de informaes em um curto espao de tempo no interfere na
execuo e no objetivo da tarefa.
A deteco de pessoas em imagens atualmente
um problema relevante, bastante conhecido e motivo de vrios estudos [7], mas foi primeiramente
abordado por Stephen Riter e Schroder [12] em
1988. O artigo proposto pelos autores teve como
motivao um fato poltico e social e nele foi detalhado um sistema de viso computacional capaz
de detectar e rastrear pessoas que passavam pela
fronteira entre os Estados Unidos da Amrica e o
Mxico. Para rastrear uma pessoa em uma sequncia de quadros em um vdeo, primordial saber a
sua localizao nas imagens. A subtrao de uma
imagem que representa uma cena pela imagem de
fundo dessa cena uma das tcnicas mais simples
e amplamente utilizada para a extrao de pessoas
que se movem em uma sequncia de imagens [10].
Nessa abordagem, a imagem atual comparada com

uma imagem previamente definida como imagem de


fundo. Uma significativa diferena indica que na
imagem h pessoas em movimento [9].
A diferena de imagens consecutivas de uma
sequncia uma tcnica simples e relativamente fcil para extrair objetos que se movem em vdeos
[11]. Nessa abordagem, valores elevados so considerados pixels que se alternaram ao longo do tempo.
A deteco de pessoas por subtrao de imagens
consecutivas foi utilizado por [12] e [7]. Contudo,
este mtodo diretamente dependente da escolha de
um thresholding capaz de definir na imagem de diferena o que move ou no.
Pessoas podem ser modeladas por sua forma ou
aparncia [3]. A Figura 1 ilustra que objetos ou
pessoas podem ser detectados por diferentes nveis
de abstrao de suas caractersticas. Do nvel mais
baixo, objetos podem ser detectados pela intensidade de seus pixels. Para o nvel mdio de abstrao, podemos detectar caractersticas como cor,
textura, etc. J no nvel mais alto, podem ser extradas caractersticas globais definidas em conjunto
com outras. Geralmente, essas caractersticas so
nicas nos objetos candidatos, como faces, partes
do corpo, etc. Em [17] foi usado o mtodo Haar-like
para a extrao local de caractersticas de pedestres.
Os autores utilizaram um classificador Adaboost [2]
que consiste em formar um classificador forte a partir de vrios classificadores considerados fracos.
A diminuio da amostragem temporal de quadros em vdeos tambm tem grande interferncia no
rastreamento de objetos detectados. O rastreamento
de pessoas tem como objetivo identificar qual a sua
trajetria no decorrer do tempo ao localizar a sua
posio em cada quadro do vdeo [3]. O rastreador de pessoas deve diferenciar cada pessoa na cena
mesmo se elas estiverem presentes no mesmo mo-

mento. Para monitorar a trajetria um rtulo deve


ser dado a cada pessoa, e esse rtulo necessita permanecer constante em todo o momento de monitoramento. A abordagem proposta por Segen [14] leva
em considerao as caractersticas de contorno da
pessoa e monta um mapa de localizao dessas caractersticas. A menor distncia entre essas caracterstica ao se comparar em duas imagens em sequncia, indica a presena de uma mesma pessoa. O
rastreamento proposto por [18] tambm mapeia as
caractersticas das pessoas e realiza o seu rastreamento. Algumas tcnicas clssicas de rastreamento
de objetos podem ser aplicado no rastreamento de
pessoas. O mtodo mean-shift pode apresentar bons
resultados, mas se a cena possuir uma grande quantidade de pessoas ao mesmo tempo vai requerer uma
quantidade maior de processamento a ser executado
o que dificulta o uso da tcnica em tempo real [18].
Apesar dessa limitao, [5] utilizou uma variao
do mean-shift para rastrear pessoas baseadas na cor
dessas.

Figura 1. Escala da complexidade ao detectar


um objeto. Quanto maior a similaridade desejada entre o modelo do objeto e o candidato,
maior o nvel de complexidade do mtodo de
deteco.

Filtros de predio podem ser usados como ferramentas para a tarefa de rastrear pessoas. O filtro
de Kalman amplamente explorado para se realizar
o rastreamento, [6], [8]. Uma das vantagens de se
utilizar o filtro de Kalman que este apresenta um
comportamento estvel at mesmo quando h uma
grande presena de rudos.
Este trabalho tem como objetivo avaliar at que
ponto possvel diminuir a amostragem temporal de
quadros em um vdeo de fundo dinmico sem perder

a eficcia na deteco e no rastreamento de pessoas.

2. Mtodos
2.1. Adaboost
O Adaboost foi inicialmente proposto por [2] e parte
do princpio de que um classificador pode ser considerado forte a partir do momento em que realizada uma combinao linear de classificadores fracos. So considerados fracos os classificadores que
por si s no garantem a correta classificao do objeto analisado.

Figura 2. Estrutura de um classificador Cascada. (a) Classificador forte a partir de um


conjunto de classificadores fracos. (b) Detector em Cascata. Adaptado de [4]

O classificador em cascata Adaboost proposto


por Viola e Jones [16] combina trs ideias para alcanar uma alta taxa de acerto e um baixo esforo
computacional para detectar objetos. Primeiro, os
autores propem a Imagem Integral para diminuir
o tempo que gasto para se calcularem as caractersticas Haar-like, que ser explicado mais adiante.
Essa combinao tem bons resultados em termos de
processamento durante o treinamento do classificador. A segunda ferramenta usada pelos autores o

algoritmo Adaboost para selecionar classificadores


fracos (Figura 2a) para combin-los e formar um estgio ou mdulo considerado como um classificador
forte (Figura 2b).
Durante a deteco, a imagem ou parte da imagem candidata submetida no classificador em todos os seus estgios (Figura 2b), uma vez rejeitado
em algum, esse candidato descartado. Assim,
possvel rejeitar o fundo das imagens com certa robustez. Esse comportamento essencial para lidar
com cenas de fundo dinmico, pois uma vez que o
fundo da imagem muda com uma certa frequncia,
essencial ter um detector de pessoas independente
do fundo que a pessoa se encontra.

base consiste na presena de no mximo um pedestre na cena. Tambm so capturados outros objetos
como carros estacionados, casas e rvores. Como
o objetivo analisar o desempenho da deteco e
do rastreamento de pessoas quando h uma reduo
da amostragem temporal do vdeo, foi implementado um mecanismo de ajuste que, de acordo com
a frequncia desejada, selecionava quais as imagens
que so processadas.

2.2. Caractersticas Haar-like


Os classificadores fracos usados para se definir um
classificador so resultados de uma funo de caracterstica Haar [16] e possuem trs tipos (Figura 3 do
lado esquerdo). O valor dessa funo a diferena
entre a soma dos pixels da regio preta pela soma
dos pixels da regio branca (Figura 3). As regies
possuem o mesmo tamanho e a mesma forma.

Figura 4. Exemplo da deteco de pessoas.

A tabela 1 apresenta o resultado aps serem selecionados todos os trechos presente na base que possuem apenas uma pessoa na cena. TQ o total de
quadros que apresentam uma pessoa, TD o total
de quadros onde a deteco de pessoas obteve sucesso e TA a taxa de acerto.

Figura 3. Caracterstica Haar e Haar-like. Retirado de [4]

Ao rotacionar cada caracterstica Haar em 45


graus, temos as caracterstica Haar-like (Figura 3
do lado direito). Essa tcnica foi proposto por [4]
e melhora o tempo em que a funo calculada.

3. Resultados Experimentais
Para se coletarem os primeiros resultados, foram
usados os vdeos da base de dados proposto em [13].
As sequncias de imagens foram gravadas por um
sensor de vdeo que capturavam 16 quadros por segundo a uma resoluo de 1176 x 640 pixels e posicionado na parte frontal de um veculo automotor. A

Sendo assim, a diminuio da amostragem temporal em sequncia de imagens no afeta de forma


direta a deteco de pessoas utilizando tcnicas de
extrao de caractersticas. Podemos associar a este
comportamento o fato do detector depender apenas
das caractersticas visuais das pessoas e no de fatores como, por exemplo, o movimento.
Tabela 1. Resultado da deteco de pessoas
de acordo com a frequncia de quadros por
segundo

16 fps
8 fps
4 fps

TQ
900
450
225

TD
690
335
167

TA
76,6%
75,5%
74,2%

4. Concluses
Neste artigo, foi apresentado o resultado parcial da
avaliao do impacto que a diminuio da amostra-

gem temporal pode provocar na deteco de pessoas. O prximo passo a implementao do filtro
de Kalman para avaliar se o rastreamento impactado ou no.

[10]

Referncias
[1] B. Antic, D. Letic, D. Culibrk, and V. Crnojevic. K-means based segmentation for realtime zenithal people counting. In 16th IEEE
International Conference on Image Processing
(ICIP), 2009, pages 25652568, 2009.
[2] Yoav Freund and Robert E. Schapire. A
decision-theoretic generalization of on-line learning and an application to boosting. In
Proceedings of the Second European Conference on Computational Learning Theory, EuroCOLT 95, pages 2337, London, UK, UK,
1995. Springer-Verlag.
[3] A. Jalal and Vrijendra Singh. The state-of-theart in visual object tracking. In Informatica 36,
2012, pages 227248, 2011.
[4] Ning Jiang, Wenxin Yu, Shaopeng Tang, and
S. Goto. A cascade detector for rapid face detection. In 2011 IEEE 7th International Colloquium on Signal Processing and its Applications (CSPA), pages 155158, March 2011.
[5] Jiang Li, Chin-Seng Chua, and Yeong Khing
Ho. Color based multiple people tracking.
In Control, Automation, Robotics and Vision,
2002. ICARCV 2002. 7th International Conference on, volume 1, pages 309314 vol.1,
2002.
[6] X. Liu, P.H. Tu, J. Rittscher, A. Perera, and
N. Krahnstoever. Detecting and counting people in surveillance applications. In Advanced
Video and Signal Based Surveillance, 2005.
AVSS 2005. IEEE Conference on, pages 306
311, 2005.
[7] Honglian Ma, Huchuan Lu, and Mingxiu
Zhang. A real-time effective system for tracking passing people using a single camera.
In 7th World Congress on Intelligent Control
and Automation, 2008. WCICA 2008., pages
61736177, 2008.
[8] Rafael Muoz-Salinas, Eugenio Aguirre, and
Miguel Garca-Silvente. People detection and
tracking using stereo vision and color. Image
and Vision Computing, 25(6):995 1007,
2007.
[9] S. Nasrullah and D.A. Khan. A novel algorithm for real time moving object tracking.

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

In 2011 International Conference on Image


Information Processing (ICIIP), pages 15,
2011.
M. Piccardi. Background subtraction techniques: a review. In IEEE International Conference on Systems, Man and Cybernetics, 2004,
volume 4, pages 30993104 vol.4, 2004.
M. Piccardi. Background subtraction techniques: a review. In 2004 IEEE International
Conference on Systems, Man and Cybernetics,
volume 4, pages 30993104, 2004.
Stephen Riter, A. Bernat, and D. Schroder.
Computer detection and tracking of moving
people in television images. In Proceedings
of the 1988 IEEE International Conference on
Systems, Man, and Cybernetics, volume 2, pages 10131016, 1988.
Nicolas Schneider and Dariu M. Gavrila. Pedestrian path prediction with recursive bayesian filters: A comparative study. In Joachim
Weickert, Matthias Hein, and Bernt Schiele,
editors, GCPR, volume 8142 of Lecture Notes
in Computer Science, pages 174183. Springer, 2013.
J. Segen. A camera-based system for tracking people in real time. In Proceedings of the
13th International Conference on Pattern Recognition, 1996., volume 3, pages 6367 vol.3,
1996.
Yun Q. Shi and Huifang Sun. Image and Video Compression for Multimedia Engineering.
CRC Press, 1999.
Paul Viola and Michael J. Jones. Robust realtime face detection. Int. J. Comput. Vision,
57(2):137154, May 2004.
Paul Viola, Michael J. Jones, and Daniel Snow.
Detecting pedestrians using patterns of motion and appearance. Int. J. Comput. Vision,
63(2):153161, July 2005.
Shengsheng Yu, Xiaoping Chen, Weiping Sun,
and Deping Xie. A robust method for detecting
and counting people. In International Conference on Audio, Language and Image Processing, 2008. ICALIP 2008., pages 15451549,
2008.

Você também pode gostar