Você está na página 1de 5

LOCALIZAÇÃO DOS OLHOS EM IMAGENS FRONTAIS DE FACES HUMANAS

ATRAVÉS DE ANÁLISE DE VARIÂNCIA DA INTENSIDADE DO BRILHO

ANTONIO HENRIQUE FIGUEIRA LOURO1, ADILSON GONZAGA2

Laboratório de Visão Computacional (LAVI), Departamento de Engenharia Elétrica, Escola de


Engenharia de São Carlos (EESC), Universidade de São Paulo (USP), 13566-590, São Carlos, SP,
Brasil, tel.(16) 3373-9362
1
louro@uesc.br, 2adilson@sel.eesc.usp.br

Resumo – A extração de características faciais é um passo importante na interpretação visual


automática e reconhecimento de faces humanas. Dentre as características faciais, os olhos
desempenham um papel de grande importância no processo de reconhecimento. Neste artigo é
apresentada uma abordagem para detectar e localizar os olhos em imagens frontais de faces. As regiões
candidatas a olho são identificadas usando-se a técnica de detecção de vales baseada em morfologia
matemática. Após essa identificação faz-se uma comparação entre as variâncias de três porções
diferentes de cada região candidata a olho (conjunto de pixels pertencentes à região candidata como um
todo, conjunto de pixels contidos num retângulo mínimo circunscrito à região candidata e conjunto de
pixels da região candidata pertencente a uma faixa horizontal que cruza o centro de massa desta
região). O cálculo dessas variâncias considera, também, os canais R,G, e B, bem como a versão em
níveis de cinza da imagem de entrada.

1. Introdução

Como uma das características mais salientes da face humana, os olhos desempenham um papel
muito importante na interpretação e no entendimento dos desejos, necessidades e estados emocionais
de uma pessoa. Formas não intrusivas e robustas de detecção e acompanhamento de olhos são cruciais
para interação homem-máquina, monitoramento da atenção do usuário e compreensão dos estados
afetivos do ser humano. Além disso, as características geométricas, fotométricas e de movimento do
olho fornecem sinais visuais importantes para detecção/reconhecimento de faces e compreensão de
expressões faciais [1].
Diferentes métodos têm sido propostos para a detecção de olhos em imagens de faces humanas.
Algumas das técnicas utilizadas foram propostas por Yuille [2], o qual usou templates deformáveis,
sendo modificada posteriormente por Xie et al [3] para aumentar a confiabilidade da localização do
contorno dos olhos. Huang e Wechsler [4] apresentaram um método para localizar olhos aplicando-se
algoritmos de aprendizagem e evolução. Feng e Yuen [5] utilizaram múltiplos sinais extraídos das
imagens faciais para detectar as janelas dos olhos. Para cada possível caso, uma função de projeção de
variância era usada na detecção e verificação do olho. Tao [6] fez sua localização através da busca por
threshold ótimo a fim de destacar os olhos das outras características da face e do “background” e Nixon
[7] aplicou a Transformada de Hough para efetuar sua detecção.
O método proposto neste artigo é composto por duas fases. Na primeira fase os candidatos a
olhos são identificados utilizando-se o algoritmo de detecção de vales [8] aplicado nas imagens de
faces humanas. Como a região da íris apresenta níveis de cinza de baixa intensidade, ali existirá um
vale. Na segunda fase, para cada região candidata a olho é medida a variação das intensidades de seus
pixels através do cálculo da variância. Levando-se em conta que a região do olho possui, pelo menos,
quatro cores distintas devido aos diferentes “tecidos” que compõem a região do olho (pele, esclera, íris
e pupila) espera-se obter altas variações de brilho. O desempenho deste método foi testado em imagens
frontais de faces humanas com iluminação de teto e frontal.

2. Detecção dos Candidatos a Olho

A área da face foi previamente detectada, sendo assim, a imagem de entrada possui somente a
região da face. O primeiro passo neste método de localização é obter os candidatos a olho através do
algoritmo de detecção de vales [8]. Este algoritmo é uma seqüência de operações morfológicas
aplicadas diretamente na imagem intensidade. Como as imagens utilizadas na entrada eram do tipo
RGB, optou-se, primeiramente, em testar o algoritmo sobre cada um dos canais R, G e B, bem como na
imagem em tons de cinza e concluiu-se que o canal R propiciou uma maior separação das regiões
candidatas sem diminuir a quantidade de pixels de cada uma, principalmente no que se refere às regiões
dos olhos e das sobrancelhas. A Expressão abaixo representa o algoritmo em questão:

V ( f ) = ( f • B) − f (1)
Temos:
V( f ) Imagem vale

Operação morfológica de fechamento entre a imagem de entrada f e o elemento


( f • B ) estruturante B. O fechamento é uma dilatação seguida de uma erosão usando o mesmo
elemento B.

A imagem vale resultante (ainda em níveis de cinza) é binarizada pelo método de Otsu [9],
recebe uma filtragem mediana para excluir pixels isolados e os conjuntos de pixels remanescentes são
classificados com nomes únicos (connected component-labeling) a fim de identificar unicamente cada
região candidata obtida. Assim, as coordenadas dos pixels de cada região candidata estarão aptas a
servir como ponteiros para as respectivas regiões na imagem original, permitindo que os níveis de
brilho possam ser extraídos e analisados. A figura 1 apresenta o fluxograma das operações realizadas
nesta fase e a figura 2 mostra suas imagens típicas.

OBTENÇÃO DA AJUSTE DOS FILTRAGEM


ÁREA DA FACE NÍVEIS DE (MEDIANA)
(CROP) INTENSIDADE

SEPARAÇÃO DO DETECÇÃO DE CONNECTED-


CANAL R VALES COMPONENT
LABELING

FILTRAGEM BINARIZAÇÃO
(MEDIANA)

Figura 1. Passos da fase de detecção das regiões candidatas a olho.


a) b) c) d)
Figura 2. a) Imagem de entrada, b)Canal R, c)Imagem vale binária, d)Imagem vale filtrada.

3. Análise de Variância

Nesta fase são feitas doze medidas diferentes de variância em cada uma das regiões detectada
na fase anterior. Isto é, para cada região candidata são dados três enfoques diferentes e para cada um é
calculada a variância nos canais R, G, B e na imagem em níveis de cinza. Esses enfoques, aqui, são
chamados de porções e estão listados abaixo:

Porção A: Conjunto de pixels pertencentes à região candidata como um todo;


Porção B: Conjunto de pixels contidos num retângulo mínimo circunscrito à região candidata (pode
conter pixels da região candidata e pixels externos);
Porção C: Apenas o conjunto de pixels da região candidata pertencente a uma faixa horizontal que
cruza o centro de massa desta região.

As porções A e B foram escolhidas por motivos óbvios e a porção C por estar na direção onde
ocorre, supostamente, a maior variação na cor dos tecidos que compõem o olho humano. Em todos os
três casos, os pixels pertencentes às porções foram dispostos em vetores unidimensionais e aplicado o
cálculo da variância.
n

∑ (x i − x) 2
s2 = i =1
(2)
(n − 1)

Para se obter o centro de massa (mx, my) da região candidata, a fim de extrair a porção C,
utilizou-se as seguintes expressões:

M N
1
m x = Int (
Nb
∑∑ if
i =1 j =1
b (i , j ) ) (3)
M N
1
m y = Int (
Nb
∑ ∑ jf
i =1 j =1
b (i, j )) (4)
4. Resultados Obtidos

Para a realização dos testes foi utilizado o software Matlab 7.0 executado num Pentium IV sob
ambiente Windows 2000. Os algoritmos desenvolvidos foram aplicados em 100 imagens de faces
frontais do banco de imagens AR [10], onde havia imagens obtidas com iluminação frontal intensa e
iluminação de teto. As variâncias obtidas foram comparadas dentro de cada porção de mesma “cor”. Os
dois maiores valores resultantes da comparação deveriam coincidir com a região de cada olho. Para a
porção A (conjunto de pixels da região candidata) na “cor azul” obteve-se 92,5 % de classificações
corretas. A tabela 1 resume os resultados obtidos.

Tabela 1. - Porcentagem de detecção de olhos executada corretamente dentre um total de 40 imagens,


considerando-se a porção e a imagem/canal de cor utilizado.

Porção/Imagem Níveis de RGB


Cinza Vermelho Verde Azul
Porção A 80,0% 67,5% 82,5% 92,5%
Porção B 52,5% 45,0% 55,0% 70,0%
Porção C 72,5% 65,0% 72,5% 80,0%

5. Conclusões

Por não terem sido feitas análises em outros bancos de imagens de faces humanas é provável
que as conclusões a seguir estejam intimamente relacionadas com o banco utilizado, principalmente
com o tamanho das imagens das faces e com o tipo de iluminação utilizada para obtê-las.
A técnica de segmentação utilizada para extrair as regiões de interesse comportou-se
relativamente bem, principalmente nas imagens que possuíam iluminação frontal. Constatou-se que a
detecção de vales feita sobre o canal R apresentou melhor desempenho que as outras três versões (G, B
e níveis de cinza) e que o grande responsável pela sobreposição das regiões de interesse foi o canal G,
agregando, principalmente, as regiões dos olhos com as regiões das sobrancelhas. Acredita-se que num
próximo experimento poder-se-á obter um melhor resultado fazendo-se a união (“ou lógico”) entre as
imagens vale (binárias) dos canais R e B.
Os resultados obtidos com o uso da variância foram muito estimulantes, observou-se que esta
medida de dispersão tem grande poder discriminatório para a tarefa de detecção de olhos, o que
incentiva a buscar por novos tipos de janelas (porções) que melhor representem a região do olho ou,
ainda, associar uma outra medida que reflita algum tipo de relacionamento espacial entre as regiões
detectadas, como, por exemplo, medidas de simetria em relação ao eixo principal da face.
6. Referências Bibliográficas

[1] Ji, Qiang; Wechsler, Harry; Duchowski, Andrew; Flickner, Myron. “Editorial Special issue: eye
detection and tracking”. Computer Vision and Image Understanding 98 (2005) 1–3.
[2] Yuille, A. L.; Cohen, D.; Hallinan, P..”Deformable templates for face recognition”, J. Cogn.
Neurosci., 1991, 3, (1), pp. 59-71.
[3] Xie, X.; Sudhakar, R.; Zhuang, H.. “On improving eye feature extraction using deformable
templates”, Pattern Recognition, 1994, 27, (6), pp. 791-799.
[4] Huang, J.; Wechsler, H.. “Visual routines for eye location using learning and evolution”, IEEE
Trans. Evol. Comput., 2000, 4, (1), pp. 73-83.
[5] Feng, G.C.; Yuen, P.C..”Multi-cues eye detection on gray intensity image”, Pattern Recognition,
2001, 34, pp. 1033-1046.
[6] Tao, L..”Automatic localization of human eyes in complex background”, IEEE Int. Symp. Circuits
& Systems, 2002, pp.26-29.
[7] Nixon, M.. “Eye spacing measurement for facial recognition”, SPIE Proceedings, Vol. 575:
Applications of Digital Image Processing VIII, 1985, pp. 279-285.
[8] Maragos, P.. ”Tutorial on advances in morphological image processing and analysis”, Opt. Eng.,
1987, 26 (7), pp. 623-632.
[9] Otsu, N.. “A threshold selection method from grey-level histograms”, IEEE Transactions on
Systems, Man and Cybernetics, vol. 9, (1), pp. 377-393.
[10] Martinez, A.M.; Benavente, R.. “The AR Face Database. CVC Technical Report no. 24, june
1998.

Você também pode gostar