Wellington PDF

UNIVERSIDADE DE SO PAULO
ESCOLA DE ENGENHARIA DE SO CARLOS

DEPARTAMENTO DE ENGENHARIA ELTRICA
DETECO DE FACES HUMANAS EM

IMAGENS COLORIDAS UTILIZANDO REDES
NEURAIS ARTIFICIAIS
Wellington da Rocha Gouveia
Dissertao apresentada
Escola de Engenharia de So
Carlos, da Universidade de So
Paulo, como parte dos
requisitos para a obteno do
ttulo de Mestre em Engenharia
Eltrica.
Orientadora: Profa. Dra. Maria Stela Veludo de Paiva
So Carlos
2010
ii
____________________________Dedicatria
Primeiramente a Deus, a minha me que j no esta entre ns, aos meus

irmos Wignas e Weder, minha sobrinha Bianca, ao meu av Justino, aos
meus tios Almir e Lucia e s minhas primas Mnica, Rosana e Giovana.
iii
________________________Agradecimentos
Agradeo a Deus por me presentear com a minha famlia, com meus

colegas e amigos, que me ajudaram de diversas maneiras para a realizao
deste trabalho.
Agradeo a minha me Maria Aparecida, que mesmo no estando
entre ns, sempre senti sua energia para a conquista deste trabalho.
Agradeo a toda a minha famlia, pelo companheirismo, pacincia,
carinho e incentivo. Em especial ao meu av Justino, a minha madrinha Alzira
(in memorian), as minhas primas Mnica, Rosana e Giovana, a minha sobrinha
Bianca e principalmente aos meus irmos Wignas e Weder.
Aos meus tios Almir e Lucia pelo apoio, incentivo e compreenso no
s durante os estudos, mas por toda a minha a vida.
A minha orientadora, Prof a. Dra. Maria Stela Veludo de Paiva pelos
ensinamentos, na escrita deste trabalho, mas tambm por acreditar no meu
potencial de trabalho.
Aos meus colegas do LAVI (Laboratrio de Viso Computacional), pelo
apoio e companheirismo durante meus estudos, especial aos colegas Andr
Tarallo, Ricardo Casado, Anderson Santos e Juliana Gouveia.
Aos companheiros de trabalho da Etec Paulino Botelho e da
UAB/UFSCar que de alguma forma contriburam para o desenvolvimento deste
trabalho.
iv
_______________________________Resumo
Gouveia, W. R. Deteco de Faces Humanas em Imagens Coloridas Utilizando

Redes Neurais Artificiais. 2010. Dissertao (Mestrado) Escola de
Engenharia de So Carlos, Universidade de So Paulo, So Carlos, 2010.
A tarefa de encontrar faces em imagens extremamente complexa, pois pode

ocorrer variao de luminosidade, fundos extremamente complexos e objetos
que podem se sobrepor parcialmente face que ser localizada, entre outros
problemas. Com o avano na rea de viso computacional tcnicas mais
recentes de processamento de imagens e inteligncia artificial tm sido
combinadas para desenvolver algoritmos mais eficientes para a tarefa de
deteco de faces. Este trabalho apresenta uma metodologia de viso
computacional que utiliza redes neurais MLP (Perceptron Multicamadas) para
segmentar a cor da pele e a textura da face, de outros objetos presentes em
uma imagem de fundo complexo. A imagem resultante dividida em regies, e
para cada regio so extradas caractersticas que so aplicadas em outra rede
neural MLP para identificar se naquela regio contem face ou no. Para
avaliao do software implementado foram utilizados dois banco de imagens,
um com imagens padronizadas (Banco AR) e outro banco com imagens
adquiridas na Internet contendo faces com diferentes tons de pele e fundo
complexo. Os resultados finais obtidos foram de 83% de faces detectadas para
o banco de imagens da Internet e 88% para o Banco AR, evidenciando
melhores resultados para as imagens deste banco, pelo fato de serem
padronizadas, no conterem faces inclinadas e fundo complexo. A etapa de
segmentao apesar de reduzir a quantidade de informao a ser processada
para os demais mdulos foi a que contribuiu para o maior nmero de falsos
negativos.
Palavras-Chave: Deteco de Face, Imagens Coloridas, Redes Neurais, MLP,

Perceptron Multicamadas, Segmentao de Imagens
v
______________________________Abstract
Gouveia, W. R. Detection of Human Faces in Color Images Using Artificial

Neural Networks. 2010. Dissertation (Master) So Carlos Engineering School,
University of So Paulo, So Carlos, 2010.
The task of finding faces in images is extremely complex, as there is variation in

brightness, backgrounds and highly complex objects that may overlap partially
in the face to be found, among other problems. With the advancement in the
field of computer vision techniques latest image processing and artificial
intelligence have been combined to develop more efficient algorithms for the
task of face detection. This work presents a methodology for computer vision
using neural networks MLP (Multilayer Perceptron) to segment the skin color
and texture of the face, from other objects present in a complex background
image. The resulting image is divided into regions and from each region are
extracted features that are applied in other MLP neural network to identify
whether this region contains the face or not. To evaluate the software two sets
of images were used, images with a standard database (AR) and another
database with images acquired from the Internet, containing faces with different
skin tones and complex background. The final results were 83% of faces
detected in the internet database of images and 88% for the database AR.
These better results for the database AR is due to the fact that they are
standardized, are not rotated and do not contain complex background. The
segmentation step, despite reducing the amount of information being processed
for the other modules contributed to the higher number of false negatives.
Keywords: Face Detection, Color Images, Neural Networks, MLP, Multilayer

Perceptron, Segmentation of Images.
vi
________________________Lista de Figuras
Figura 1 - Imagem em vrias resolues. (a) imagem original n=1. (b) n=4. (c) n=8. (d)n=16..... 8
Figura 2 - Uma face tpica usada em mtodos baseados em conhecimento .............................. 8
Figura 3 - Projees verticais e horizontais em imagens............................................................ 9
Figura 4 - Segmentao utilizando o mtodo de proposto por Sirohey (1993) .......................... 11
Figura 5 - A caixa delimita a deteco do nariz e da boca ....................................................... 12
Figura 6 - Exemplo da estrutura parent vector. As grids representam uma pirmide de imagens
............................................................................................................................................... 14
Figura 7 - Resultados obtidos para dois ou mais clusters de face ............................................ 15
Figura 8 - (a) regio da face selecionada e (b) cluster de cores no espao de cores (RGB) ..... 16
Figura 9 - Deteco da face por meio da cor da pele: (a) Imagem face tpica. (b) Segmentao
da cor da pele. (c) Maior regio conectada de pixels de pele (BHUIYAN et al, 2003) ............... 18
Figura 10 - (a) imagem original e (b) resultado da segmentao da cor da pele na imagem
original (WANG e SUNG, 1999) .............................................................................................. 18
Figura 11 - Template utilizada por (YUILLE, 1992) para detectar olhos.................................... 21
Figura 12 - (a) Modelo utilizado para detectar a cabea (b) Modelo utilizado para detectar os
componentes faciais ............................................................................................................... 21
Figura 13 - Projees verticais e horizontais dos olhos obtida a partir da regio interna da janela
dos olhos ................................................................................................................................ 22
Figura 14 - Imagens originais e projeo delas no espao de eigenfaces ................................ 23
Figura 15 - Algoritmo de deteco de faces baseado em RNA (ROWLEY et al. 1998a) ........... 25
Figura 16 - Sequncia de passos do algoritmo de deteco de faces rotacionadas (ROWLEY et
al, 1998a)................................................................................................................................ 27
Figura 17 - HMM para a deteco e reconhecimento de faces (NEFIAN e HAYES, 1998) ....... 28
Figura 18 Estrutura do neurnio (AMORIN, 2009) ................................................................ 38
Figura 19 - Modelo no-linear de um neurnio (HAYKIN, 2001)............................................... 38
Figura 20 - Rede feedforward multicamada totalmente conectada com uma camada oculta e
uma camada de sada. ............................................................................................................ 41
Figura 21 - Grafo arquitetural de um perceptron mltiplas camadas com duas camadas ocultas
............................................................................................................................................... 42
Figura 22 Direo da propagao da funo sinal ................................................................ 43
Figura 23 Grfico da funo sigmide .................................................................................. 44
Figura 24 - Diagrama em blocos da aprendizagem supervisionada ......................................... 50
Figura 25 Fluxograma do trabalho desenvolvido ................................................................... 55
Figura 26 Algoritmo do trabalho desenvolvido ...................................................................... 56
Figura 27 Exemplo de imagens (a) adquirida na internet e (b) banco AR .............................. 57
Figura 28 Exemplo de imagens utilizadas para teste, (a) e (b) adquiridas na internet (c) e (d)
Banco AR. .............................................................................................................................. 57
vii
Figura 29 Exemplo de imagens utilizadas com caractersticas que dificultam a deteco ..... 58
Figura 30 Diagrama de blocos do pr-processamento da imagem ........................................ 58
Figura 31 Topologia da Rede Neural proposta para a segmentao de pele......................... 60
Figura 32 Diagrama de blocos da etapa de segmentao da imagem .................................. 60
Figura 33 Fluxograma do mtodo de varredura implementado ............................................. 61
Figura 34 Algoritmo do mtodo de varredura implementado ................................................. 62
Figura 35 Exemplo de imagem aps varredura..................................................................... 62
Figura 36 Diagrama de blocos da etapa de ps-processamento da imagem ......................... 63
Figura 37 Mascaras 3x3, vertical e horizontal do operador de Sobel ..................................... 63
Figura 38 Exemplo de imagem: (a) original, (b) segmentada, (c) binarizada e com (d) bordas
............................................................................................................................................... 63
Figura 39 Diagrama de blocos da etapa de extrao de caractersticas da imagem .............. 64
Figura 40 Modelo do molde utilizado para extrao de caractersticas .................................. 65
Figura 41 Topologia da Rede Neural proposta para a deteco de face ............................... 66
Figura 40 - (a), (c) e (e) imagens originais, (b), (d) e (f) imagens processadas do banco de
imagens da internet................................................................................................................. 68
Figura 41 - (a), (c) e (e) imagens originais, (b), (d) e (f) imagens processadas do banco de
imagens AR ............................................................................................................................ 68
Figura 42 - (a) imagem original (b) imagem segmentada ......................................................... 69
Figura 43 - (a) imagem original (b) imagem segmentada ......................................................... 70
Figura 44 - (a) imagem original (b) imagem processada .......................................................... 70
Figura 45 Grfico de faces localizadas e faces com eroses na imagem aps segmentao 71
Figura 46 - Resultado do algoritmo de deteco de face: (a) e (d) imagens originais e (b), (c),
(e) e (f) imagens resultantes.................................................................................................... 72
Figura 47 Grfico com o total de faces localizadas ............................................................... 73
Figura 48 Grfico de com o total de faces localizadas e total de falsos positivos................... 75
Figura 49 Artigos e peridicos utilizados na pesquisa de acordo com o ano de publicao. .. 81
viii
________________________Lista de Tabelas
Tabela 1 Tabela que apresenta a quantidade de faces identificadas e faces com eroses na
face......................................................................................................................................... 70
Tabela 2 Tabela que apresenta o resultado do teste T-Student para o total de faces
localizadas .............................................................................................................................. 71
Tabela 3 Tabela que apresenta o total de faces e o total de faces detectadas ...................... 73
Tabela 4 Tabela que apresenta o resultado do teste T-Student para o total de faces
detectadas .............................................................................................................................. 73
Tabela 5 Tabela que apresenta o total de pessoas e o total de falsos positivos nas imagens74
ix
____________Lista de Abreviaturas e Siglas
MLP Perceptron Multicamadas (Multi-Layer Perceptron)

RNA Rede Neural Artificial
PCA Anlise dos Componentes Principais (Principal Component Analysis)
LDA Anlise Discriminante Linear(Linear Discriminat Analysis)
SOM Mapa Auto-Organizavel (Self-Organizing Map)
RGB Vermelho, Verde e Azul (Red, Green and Blue)
HSV Tonalidade, Saturao e Valor (Hue, Saturation and Value)
HSI Tonalidade, Saturao e Intensidade (Hue, Saturation and Intensity)
CMY Ciano, Magenta e Amarelo (Cyan, Magenta and Yellow)
YCrCb Luminncia, Crominncia Vermelha e Crominncia Azul
YIQ Luminncia, Vermelho e Azul
YES Luminncia e Componentes de Cor
CIE Comission Internationale de lEclairage
KLT Transformada de Karhunen-Love (Karhunen-Love Transform)
OCR Reconhecimento tico de Caracteres (Optical Character Recognition)
HMM Modelos Ocultos de Markov (Hidden Markov Models)
LMS Regra Delta (Least Mean-Square)
MatLab Matrix Laboratory
YPbPr Luminncia, diferena entre Azul e Luminncia e diferena entre Vermelho e
Luminncia
YDbDr Luminncia, subtrao da Luminncia da cor Azul e subtrao da Luminncia
da cor Vermelho
ii
_______________________________Sumrio
DEDICATRIA II
AGRADECIMENTOS III
RESUMO IV
ABSTRACT V
LISTA DE FIGURAS VI
LISTA DE TABELAS VIII
LISTA DE ABREVIATURAS E SIGLAS IX
1 INTRODUO 1
1.1 Objetivo ............................................................................................................................. 2
1.2 Estrutura do Trabalho ........................................................................................................ 2
2 DETECO DE FACES 5
2.1 Consideraes Iniciais ....................................................................................................... 5
2.2 Introduo ......................................................................................................................... 5
2.3 Mtodos Baseados em Conhecimento ............................................................................... 7
2.4 Mtodos Baseados em Caractersticas Invariantes .......................................................... 10
2.5 Mtodos Baseados em Templates ................................................................................... 20
2.5.1 Templates Deformveis 20
2.6 Mtodos baseados na Aparncia ..................................................................................... 23
2.6.1 Autofaces (Eigenfaces) 23
2.6.2 Redes Neurais 24
2.6.3 Modelos Ocultos de Markov 27
2.7 Consideraes Finais ...................................................................................................... 29
3 FUNDAMENTAO TERICA 31
3.1 Consideraes Iniciais ..................................................................................................... 31
3.2 Tcnicas de Deteco de Pele ........................................................................................ 31
3.2.1 Limiar de Classificao 32
3.2.2 Estatstico Histograma de Cor 33
3.2.3 Estatstico - Paramtrico 34
3.3 Redes Neurais Artificiais .................................................................................................. 35
3.3.1 Modelo de um neurnio 37
3.3.2 Funo de ativao 39
3.4 Arquitetura de rede .......................................................................................................... 40
3.4.1 Redes feedforward multicamada 40
3.5 Perceptron Multicamadas (MLP) ...................................................................................... 41
3.5.1 Algoritmo de Treinamento 44
3.6 Algoritmo de Aprendizagem ............................................................................................. 48
3.6.1 Aprendizagem Supervisionada 50
3.6.2 Consideraes finais 51
4 DETECO DE FACES HUMANAS EM IMAGENS COLORIDAS - METODOLOGIA 53
4.1 Consideraes Iniciais ..................................................................................................... 53
4.2 Mdulos Desenvolvidos ................................................................................................... 53
4.3 Metodologia ..................................................................................................................... 56
4.3.1 Pr-processamento 58
4.3.2 Segmentao de pele utilizando redes neurais 59
4.3.3 Varredura 61
4.3.4 Ps-processamento 62
4.3.5 Extrao de caractersticas 64
4.3.6 Deteco de faces utilizando redes neurais 65
4.3.7 Software de desenvolvimento 66
iii
5 RESULTADOS E DISCUSSES 67
5.1 Resultados obtidos com o algoritmo de segmentao ...................................................... 67
5.2 Resultados obtidos com o algoritmo de deteco de face ................................................ 72
6 CONCLUSES E SUGESTES PARA TRABALHOS FUTUROS 77
6.1 Sugestes para trabalhos futuros .................................................................................... 78
6.2 Trabalho Publicado.......................................................................................................... 79
REFERNCIAS BIBLIOGRFICAS 81
APNDICE A BANCO DE IMAGENS DA INTERNET 89
APNDICE B BANCO DE IMAGENS AR 95
1
1 Introduo___________________________
A deteco uma das etapas iniciais do reconhecimento facial, sendo
portanto, de extrema importncia para o algoritmo de reconhecimento. Dada uma
imagem, o objetivo da deteco de face segmentar todas as regies da imagem
que contm uma face, independente de sua posio, orientao e condies de
iluminao. Essa tarefa no fcil, pois, as faces apresentam uma grande variao
em tamanho, cor e textura. Alm disso, o fundo da imagem pode possuir detalhes
que sobrepe parcial ou totalmente a face que ser localizada, entre outros
problemas (GOUVEIA E PAIVA, 2009; WON et all, 2001; GASPAR e PAIVA, 2005).
A combinao de tcnicas das reas de processamento de imagens e
inteligncia artificial, mais especificamente Redes Neurais Artificiais (RNA), Sistemas
Fuzzy e Sistemas Inteligentes (uma combinao de RNA e Sistemas Fuzzy), tem
sido utilizadas na implementao de algoritmos de deteco mais eficientes.
Alguns trabalhos podem ser mencionados na tarefa de deteco facial,
podendo-se citar o de Jin et al (2007) e o de Zapata e Ruiz (2007) que utiliza
informaes de cor de pele, o de Santos (2005) que usa PCA-LDA (Principal

2
Component Analysis- Linear Discriminat Analysis) e RNA SOM (Self-Organizing
Map), o de Nascimento (2005) que utiliza sistemas Fuzzy e o de Prado (2004) que
utiliza proporo divina, e o trabalho de Gaspar (2006), onde foi desenvolvido um
software para a extrao de caractersticas faciais e o posterior reconhecimento da
face.
1.1 Objetivo
Esse trabalho prope um algoritmo para deteco faces que usa RNA para
segmentao de pele, separando cor de pele e objetos identificados como face, de
outros objetos presentes em uma imagem. Com a segmentao de pele reduzida
a quantidade de informao para o processo de deteco.
O presente trabalho vem complementar o trabalho de Gaspar (2006), na
etapa que antecede a extrao de caractersticas, ou seja, identificar se existe face
ou no numa dada imagem, onde essa imagem pode conter mais de uma face.
1.2 Estrutura do Trabalho
Este trabalho est disposto da seguinte forma:
Captulo 1 Introduo, que inclui a proposta e objetivo do trabalho;
Capitulo 2 Deteco de Faces, que apresenta os principais mtodos
utilizados para a deteco de faces humanas em imagens de interesse
para esse trabalho;

3
Captulo 3 Redes Neurais Artificiais, onde foram revisados os
mtodos de redes neurais artificiais utilizados para a realizao deste
trabalho;
Captulo 4 Deteco de Faces em Imagens Coloridas - Metodologia,
neste captulo so apresentados os mdulos desenvolvidos e a
metodologia utilizada em cada mdulo para o software de deteco de
faces proposto;
Captulo 5 Resultados e Discusses.
Capitulo 6 Concluses e Sugestes para Trabalhos Futuros.

4
5
2 Deteco de Faces____________________
2.1 Consideraes Iniciais
Neste captulo so descritos os principais trabalhos sobre deteco de faces,
pesquisados na literatura.
2.2 Introduo
A deteco de faces consiste na utilizao de tcnicas computacionais para
determinar se existem faces ou no em uma imagem e, se existirem, deve retornar a
localizao de cada face. Embora a deteco de faces seja uma tarefa fcil para os
seres humanos, a implementao de sistemas computacionais que realize esta
tarefa complexa, devido a diversas dificuldades, tais como Yang e Kriegman
(2002), Lopes (2005) e Lyon e Vincent (2009):

6
Pose: a posio de uma ou mais face presente numa imagem varia
devido posio da face em relao cmera (frontal, 45 graus, perfil,
de cabea para baixo) e, alm disso, alguns componentes faciais como
olhos e nariz, podem estar parcialmente ou totalmente obstrudos.
Presena de componentes estruturais: a presena de elementos na
face tais como, barba, bigode e culos, que podem modificar
caractersticas como a forma, o tamanho e a cor.
Expresso facial: a expresso da face afeta diretamente a aparncia
da face.
Ocluso: as faces podem estar parcialmente obstrudas por outros
objetos.
Orientao da imagem: as imagens podem variar diretamente com a
rotao da cmera ao redor do eixo.
Qualidade da imagem: quando a imagem formada, fatores de
iluminao (espectro, fonte de distribuio e intensidade) e
caractersticas da cmera (resposta de sensor e lentes) podem afetar a
aparncia da face.
Existem vrios mtodos para deteco de faces em imagens em escala de
cinza e em imagens coloridas. Esses mtodos esto classificados em quatro
categorias, conforme apresentado por Yang (2002), as quais sero descritas nas
prximas sees.
7
2.3 Mtodos Baseados em Conhecimento
Os mtodos de deteco de face baseados em conhecimento utilizam regras
que definem o que uma face, de acordo com uma base de conhec imento criada
pelo pesquisador Yang (2002). Sabe-se que faces humanas, em geral, possuem
determinados componentes como: dois olhos, um nariz e uma boca. Esses
elementos encontram-se distribudos de maneira especfica sobre a face. Com este
conhecimento possvel estabelecer regras que identificam uma face humana.
A construo do conjunto de regras para este mtodo no trivial, podendo-
se encontrar algumas dificuldades. Se as regras so muito gerais, o sistema pode
apresentar uma alta taxa de falsos positivos, ou seja, elementos erroneamente
identificados como face. Por outro lado, se o conjunto de regras for muito especfico,
o sistema pode no ser eficaz ao tentar detectar faces se estas no satisfizerem
todas as regras, caindo muito a preciso da deteco (YANG et al., 2002).
A tcnica construda por Yang e Huang (1994) para deteco de faces, utiliza
um mtodo hierrquico baseado no conhecimento. Esse sistema consiste em trs
nveis de regras. O primeiro nvel de regras tem como objetivo detectar os possveis
elementos da imagem candidatos a faces, retirados da mesma atravs de um
algoritmo de janela deslizante. Basicamente o primeiro conjunto de regras descreve
de maneira geral o que uma face. Os prximos nveis so as descries gerais da
face como olhos, boca e nariz, necessrios para confirmar a validade dos elementos
extrados no nvel anterior.
Imagens em mltiplas resolues so formadas atravs da aplicao da
mdia em um conjunto de pixels, como mostrado na figura 1. Considerando-se n
um determinado nmero de pixels, geralmente contidos em uma janela quadrada de

8
nxn pixels, substitui-se o valor de cada pixel da janela, pelo valor mdio dos pixels
contidos dentro da janela. As regras so aplicadas de acordo com a resoluo da
imagem, por exemplo: em baixa resoluo uma determinada regra identifica a regio
central do rosto por meio da afirmativa de que as janelas centrais, contendo olhos,
nariz e boca, tm luminosidade uniforme, conforme visto na figura 2.
Figura 1 - Imagem em vrias resolues. (a) imagem original n=1. (b) n=4. (c) n=8. (d)n=16
Figura 2 - Uma face tpica usada em mtodos baseados em conhecimento
Kotropoulos e Pitas (1997) apresentam um mtodo para localizao baseado
em regras, similar aos que foram desenvolvidos por Kanade (1973) e Yang e Huang
(1994). Kotropoulos e Pitas utilizam um sistema baseado em regras onde
caractersticas faciais so localizadas utilizando projees, mtodo que Kanade
utilizou com sucesso, para encontrar o limite da face em imagens. Considerando

9
I(x,y) como um valor de intensidade da imagem de tamanho n x m na posio (x,y),
as projees horizontais e verticais da imagem so definidas como:
n
HI ( x) y 1
I ( x, y) (1)
m
VI ( y ) x 1
I ( x, y ) (2)
As projees verticais so utilizadas para localizar determinados
componentes faciais como, por exemplo, os olhos, por meio da deteco de mnimos
locais da projeo. O mesmo tratamento dado projeo horizontal, HI, onde dois
mnimos locais obtidos atravs da deteco de mudanas bruscas na projeo
correspondem ao lado esquerdo e direito da face respectivamente, como pode ser
visto na figura 3. A principal desvantagem deste mtodo que quando a imagem
possui um fundo complexo a deteco da face e as caractersticas faciais ficam
comprometidas (figura 3b). A deteco da face feita pela anlise dos picos
presentes na projeo horizontal e os vales presentes na projeo vertical (YANG et
al., 2002).
Figura 3 - Projees verticais e horizontais em imagens

10
2.4 Mtodos Baseados em Caractersticas Invariantes
Ao contrrio dos mtodos baseados em conhecimento vistos anteriormente,
os mtodos discutidos nesta seo incorporam tcnicas que tem por objetivo
encontrar caractersticas invariantes da face. Estes mtodos so baseados na
capacidade que os seres humanos possuem de identificar facilmente faces e objetos
em diferentes posies e condies de iluminao. Pode-se descrever alguns
mtodos, tais como os que utilizam componentes faciais, textura e cor da pele.
Existem vrios mtodos propostos para detectar componentes faciais e ento
deduzir a presena de uma face. Componentes faciais como sobrancelhas, olhos,
nariz, boca e o contorno da face so extrados geralmente usando detectores de
borda e, baseando-se nos componentes faciais extrados, um modelo estatstico
construdo para verificar a existncia de face. A principal desvantagem desta
abordagem que os componentes faciais podem ser corrompidos devido s
condies de iluminao, rudo e obstruo, comprometendo assim, a eficincia da
abordagem (YANG et al, 2002).
Sirohey (1993) props um mtodo para localizao e segmentao da face
em uma imagem com fundo complexo, onde utilizado um detector de bordas e
heursticas para remover e agrupar as bordas, de modo que sejam somente
preservadas as bordas do contorno da face. Uma elipse ajustada entre a regio
principal e o fundo, localizando assim a face na imagem, como mostrado na
figura 4.
11
Figura 4 - Segmentao utilizando o mtodo de proposto por Sirohey (1993)
Amit et al. (1997) apresentam um mtodo para detectar instncias de objetos
isolados em imagens com uma grande intensidade de objetos ao fundo. Este
mtodo foi aplicado para detectar e localizar apenas faces com viso frontal. A
deteco feita em dois estgios: focalizao e classificao intensiva. A
focalizao baseada em um arranjo espacial de fragmentos de borda, onde
primeiramente definida uma enorme famlia de arranjos espaciais e todas as
constantes so definidas sobre uma larga escala de transformaes fotomtricas e
geomtricas que formam uma coleo de tringulos que so utilizados como
mecanismos de ateno visual (focalizao) por identificar possveis grupos de
bases que so utilizadas pra reduzir o aumento do numero de falsos negativos.
Ento, somente usando exemplos de faces, selecionam-se arranjos particulares que
so mais comuns nas faces do que nos fundos. O estgio de classificao intensiva
12
baseado em textura, e utiliza um conjunto de dados de faces normalizadas atravs
de um treinamento e na coleo de regies registradas e padronizadas na etapa de
focalizao. Dada uma imagem de teste, as regies de interesse so identificadas
de acordo com os arranjos espaciais de fragmentos de borda. Cada regio ento
classificada como face ou fundo usando a classificao intensiva como visto no
figura 5.
Figura 5 - A caixa delimita a deteco do nariz e da boca
Outra caracterstica invariante utilizada para detectar diferentes objetos a
forma. A deteco de objetos atravs da forma baseia-se na capacidade que os
seres humanos tm de reconhecer um objeto que ora tem uma forma determinada e
13
em outro momento apresenta uma forma totalmente diferente. Como exemplo tem-
se a face humana que muda drasticamente dependendo do ponto de vista, onde a
face vista de um ngulo frontal totalmente diferente quando vista de perfil (LOPES,
2005).
A forma, assim como a cor, tambm independente do ponto de vista. Pode
ser encarada como uma distribuio probabilstica, ou seja, ela gerada a partir de
um processo estocstico que fornece algum padro a partir de permutaes
aleatrias (RIKERT, 1999). No mtodo elaborado por Rikert suposto que as
imagens perceptualmente diferentes possuem distribuies similares em diferentes
bandas e orientaes. Tendo isso como base utilizada uma transformada de
wavelets guiada (steerable wavelet transform), ou tambm chamada de
transformada de wavelets em pirmide (steerable wavelet pyramid). A utilizao de
wavelets permite analisar a imagem em diferentes escalas e orientaes, o que
resulta em um conjunto de coeficientes independentes entre si, mas dependentes
quando a mesma transformada realizada em diferentes escalas da mesma
imagem (LOPES, 2005; RIKERT, 1999).
Um conjunto de vetores denominados parent vectors foi utilizado para
capturar esta dependncia, que consiste na coleo de respostas dos filtros
aplicados em diferentes escalas da imagem. Diferentes escalas da imagem so
representadas utilizando um quadtree (figura 6), formando uma pirmide de
imagens, onde o segmento de reta representa os pixels nos quais os valores dos
filtros formam um nico parent vector.

14
Figura 6 - Exemplo da estrutura parent vector. As grids representam uma pirmide de imagens
Para calcular os parent vectors, primeiramente uma imagem de entrada
transformada em uma pirmide de imagens, atravs da utilizao de uma funo
gaussiana piramidal aplicada sobre a imagem. Como pode ser visto na figura 6, cada
nvel da pirmide reescalado em um fator de 2 em cada dimenso. Em seguida,
para todos os nveis da pirmide uma srie de filtros aplicada em cada pixel. Aps
a obteno dos parent vectors, estes so agrupados em classes atravs da
aplicao de um algoritmo de clustering, para que posteriormente seja possvel
construir um modelo gaussiano misto que generalize a distribuio.
Como pode ser visto na figura 7, o cluster a que pertence um determinado
parent vector selecionado. Vrios clusters so tomados para verificar a presena
ou no da face.
15
Figura 7 - Resultados obtidos para dois ou mais clusters de face
A cor da pele humana e a textura da face so caractersticas bastante
utilizadas para separar a face de outros objetos presentes em uma cena com fundo
complexo. As informaes sobre as cores da pele constituem uma importante
ferramenta para identificar reas da face e os componentes faciais especficos.
Existe uma grande variedade de cores de pele (branca, negra, amarela, etc), e
existe um grande nmero de pesquisas que utilizam a cor da pele. Para rotular os
pixels da pele so utilizados os diversos espaos de cores existentes: RGB, RGB
normalizado, CMY, YUV, YPbPr, YDbDr, HSV (ou HSI), YCrCb, YIQ, YES, CIE XYZ
e CIE LUV (YANG et al, 2002). Pode-se citar os seguintes trabalhos que usam
alguns desses espaos de cores: Jin et al. (2007), Zapata e Ruiz (2007), Feris et al.
(2000), Sobottka e Pittas (1996), Cai e Goshtasby (1999), Bhuiyan et al. (2003), Hsu
et al. (2002), Wang e Sung (1999), Saber e Tekalp (1998) e Yang e Ahuja (1998).
Sobottka e Pittas (1996) propem um mtodo para localizao e extrao de
caractersticas faciais utilizando formas e cores, executado a segmentao de cor no
espao HSV para localizar as regies semelhante pele.

16
A pele humana tende a formar um cluster no espao de cores, podendo ser
modelada por uma distribuio Gaussiana (figura 8), caracterstica que pode ser
utilizada para localizar faces em uma imagem colorida (WANG e SUNG, 1999;
SABER e TEKALP, 1998).
(a) (b)
Figura 8 - (a) regio da face selecionada e (b) cluster de cores no espao de cores (RGB)
No trabalho de Bhuiyan et al. (2003), a cor da pele utilizada para determinar
a regio da face. As cores relevantes e dominantes so extradas da imagem em
RGB. Em seguida a imagem transformada para o espao de cores YIQ descrito
pelas componentes: matiz (hue), luminosidade e saturao. Este sistema de cores
universalmente utilizado em transmisses coloridas de televiso e produz uma
transformao linear do RGB que gera Y, representando a luminosidade, e I e Q os
dois canais que contm as informaes para tratar cores. A matriz de transformao
do espao de cores RGB para YIQ dada pela seguinte equao:
Y 0.299 0.587 0.114 R

I 0.596 0.275 0.320 G (3)
Q 0.212 0.523 0.311 B
17
Uma vez que a cor da pele tende a se aglomerar numa regio do espao de
cores, um threshold utilizado para detectar os pixels de pele (skin pixels). Nos
experimento de Buhiyan et al. (2003) o seguinte threshold, determinado
empiricamente, utilizado:
(60 < Y < 200) and (20 < I < 50) (4)
Logo aps a aplicao da equao 4 tem-se apenas os pixels que
possivelmente fazem parte da pele humana. Para localizar efetivamente a face,
toma-se a imagem com maior regio conectada de pixels de pele. Um exemplo de
resultado da aplicao desta tcnica pode ser visto na figura 9. Tambm na figura 10
tem-se outro exemplo da aplicao da mesma tcnica descrita anteriormente,
notando-se que as cores da pele de diferentes pessoas so agrupadas e
normalizadas no plano de cores r-g, a nica diferena na aplicao da tcnica que
a segmentao das cores foi feita a partir de imagens normalizadas nesse plano de
cores. Segundo Wang e Sung (1999) a tcnica permitiu atingir resultados com 100%
de sucesso quando testada em 50 imagens obtidas a partir de cmeras CCD.

18
Figura 9 - Deteco da face por meio da cor da pele: (a) Imagem face tpica. (b) Segmentao da cor
da pele. (c) Maior regio conectada de pixels de pele (BHUIYAN et al, 2003)
Figura 10 - (a) imagem original e (b) resultado da segmentao da cor da pele na imagem original
(WANG e SUNG, 1999)
Apesar dos bons resultados apresentados, o sucesso ou fracasso das
tcnicas baseadas em segmentao da cor da pele dependente do espao de
representao das cores, ou seja, o espao de cores no qual a imagem est definida
19
influi na preciso da deteco da face. No trabalho de Saber e Tekalp (1998)
advertido que a utilizao do espao de cores RGB torna a tcnica de segmentao
de cores sensvel luminosidade. Devido a esta desvantagem outros espaos de
cores foram propostos com o intuito de tornar mais robustos os algoritmos que
utilizam a cor da pele. Como exemplo pode-se citar o YCbCr (luminance-
chrominance), utilizado em vrias aplicaes de segmentao de pele. Entretanto
Saber e Tekalp (1998) destacam a utilizao do sistema de cores YES (definido pela
Society of Motion and Television Engineers), onde Y representa a luminosidade, E e
S representam as componentes de cor. A principal vantagem deste espao de cor
que ele reduz as variaes na cor (crominncia) e principalmente porque permite
calcular as componentes E e S a partir de uma imagem RGB apenas fazendo
deslocamentos de bits, sem a necessidade de multiplicaes, o que reflete de
maneira positiva no desempenho dos algoritmos.
Entretanto, independente do espao de cores utilizado, as tcnicas de
segmentao de pele permitem implementar detectores de face suficientemente
rpidos para serem utilizados em tarefas de rastreamento de faces (face tracking)
(VEZHNEVETS, 2002), teis em reas como segurana e interfaces inteligentes.
Apesar das vantagens de se utilizar a cor para detectar a pele, um problema ocorre
quando se tem objetos com cores semelhantes pele, consequentemente
provocando a ocorrncia de falsos positivos. Em vista destas limitaes, em tarefas
como deteco e rastreamento de faces, geralmente a segmentao de pele vem
acompanhada por outras tcnicas que utilizam informaes inerentes forma do
objeto (no caso a face), e informaes do movimento para localizar e rastrear a face
(YANG e AHUJA, 1998).

20
2.5 Mtodos Baseados em Templates
Nos mtodos baseados em templates, o objeto procurado em uma imagem,
utilizando um molde padro que definido manualmente, ou parametrizado por uma
funo. Uma das maneiras mais comuns de se modelar a forma de um objeto
descrev-lo atravs de seus componentes geomtricos bsicos, como crculos,
quadrados ou tringulos. A deteco do objeto consiste em localizar a melhor
simetria entre o objeto presente na imagem e o seu template (molde) (LOPES, 2005;
YANG et al., 2002).
No caso de deteco de faces o template mais utilizado aquele que trata a
face como uma elipse, como pode ser visto em Alattar e Rajala (1999) e Lee et al.
(2001), sendo tambm aplicado em seqncias de imagens, como pode ser visto em
Vezhnevets (2002). A tcnica de templates extremamente flexvel, por este motivo,
ela pode ser utilizada para detectar qualquer objeto que possa ser representado por
formas geomtricas.
2.5.1 Templates Deformveis
A tcnica de templates deformveis proposta por Yuille et al (1992) para
modelar caractersticas faciais consiste em descrever modelos de objetos atravs de
formas geomtricas simples como crculos ou parbolas. Esses modelos so
elsticos e permitem o ajuste de seu tamanho, largura e outros parmetros, como
pode ser visto na figura 11. A energia uma funo de todos os parmetros do
template definida atravs dos vales, picos e bordas presentes na imagem. O

21
melhor ajuste do modelo elstico encontrado minimizando uma funo de energia
dos parmetros.
Figura 11 - Template utilizada por (YUILLE, 1992) para detectar olhos
Em Lee et al. (2001) apresentada uma tcnica que utiliza algoritmos
genticos para otimizar os parmetros do template que modela a face. O algoritmo
gentico torna mais rpido o processo de busca pela face numa imagem, e permite
obter a soluo global. Uma vez que se tenha obtido a localizao da regio que
contenha a face, as caractersticas faciais so detectadas dentro desta regio por
um processo semelhante. Um outro mtodo que utiliza esta estratgia visto em
Alattar e Rajala (1999), que descreve um algoritmo para localizar componentes
faciais. A cabea tratada como uma elipse podendo apresentar rotaes em torno
de um eixo vertical, como apresentado na figura 12.
Figura 12 - (a) Modelo utilizado para detectar a cabea (b) Modelo utilizado para detectar os
componentes faciais
22
Aps encontrar a elipse que melhor descreve a cabea (figura 12a), os
parmetros que determinam o centro, a altura e a largura so utilizados para estimar
a posio dos componentes faciais segundo suas relaes geomtricas com a face
(figura 12b). Como as estimativas baseiam-se unicamente em grandezas
geomtricas, tm-se apenas localizaes aproximadas dos componentes. Para
localizar, por exemplo, os olhos, uma janela retangular definida sobre a regio
referente a eles. Dentro da janela, a posio exata dos olhos calculada atravs de
projees verticais e horizontais. Os vales presentes no grfico apresentado na
figura 13 indicam a localizao das rbitas do olho esquerdo e direito
respectivamente. A localizao dos outros componentes faciais (nariz e boca)
semelhante descrita para localizao dos olhos.
Figura 13 - Projees verticais e horizontais dos olhos obtida a partir da regio interna da janela dos
olhos
23
2.6 Mtodos baseados na Aparncia
Nos mtodos baseados na aparncia, os modelos so definidos utilizando
tcnicas de aprendizado e treinamento, no sendo utilizados nenhum conhecimento
ou caractersticas sobre o objeto previamente informado, como os vistos nos
mtodos descritos na sesso anterior. Desta maneira as informaes necessrias
para realizar a deteco so retiradas do conjunto de imagens (YANG et al, 2002;
LOPES, 2005).
2.6.1 Autofaces (Eigenfaces)
O mtodo autofaces proposto por Turk e Pentland (1991) baseado na
anlise dos componentes principais (Principal Component Analysis PCA),
juntamente com a transformada de Karhunen-Love (KLT) para reconhecimento e
deteco de face. similar ao trabalho de Kryby e Sirovich (1990).
O objetivo usar a transformada KLT para encontrar os vetores que melhor
representam as imagens de faces, dentro do espao de imagens. Estes vetores so
denominados de autofaces devido semelhana que possuem com imagens de
faces (figura 14).
Figura 14 - Imagens originais e projeo delas no espao de eigenfaces

24
As imagens de face so projetadas no subespao e agrupadas . De forma
similar, no treinamento de no-faces, as imagens so projetadas no mesmo
subespao e agrupadas. As imagens de face no apresentam grandes mudanas
quando projetadas no espao de autofaces, mas quando uma imagem de no-face
projetada, ela mostra-se completamente diferente (YANG et al, 2002). Pode-se
utilizar esta tcnica para detectar a presena de face em uma cena, apenas
calculando a distncia entre a regio da imagem e o cluster de faces projetadas, e
atravs de um threshold verificar se esta uma face ou no (LOPES, 2005).
2.6.2 Redes Neurais
Diferentes arquiteturas de redes neurais artificiais foram propostas para a
deteco de faces, pois a deteco de faces pode ser tratada como um problema de
reconhecimento de padres, tal como em OCR (reconhecimento tico de
caracteres), reconhecimento de objetos, etc., onde as redes neurais artificiais so
aplicadas com sucesso (HSU et al, 2002; ROWLEY et al, 1998a; ROWLEY et al,
1998b).
Na deteco de faces, a utilizao de redes neurais consiste em diferenciar
imagens ou regies da imagem que, possivelmente contenham uma face, daquelas
imagens ou regies que no contm face, ou seja, a funo da rede apenas
classificar as imagens em face e no-face. (LOPES, 2005) .
No trabalho de Rowley et al. (1998a) apresentado um sistema de deteco
de faces baseados em redes neurais. Neste sistema uma imagem de entrada
percorrida por um filtro, que consiste em uma janela de 20x20, que extrai regies da
imagem onde podem existir faces. Logo aps a extrao da possvel regio de face,
25
esta submetida equalizao de histograma e normalizao da luz, devido s
vrias condies de luminosidade. Se a face for maior que o tamanho da janela, a
imagem sub-amostrada repetidamente por um fator de 1.2, e o filtro aplicado em
cada sub-amostragem (figura 15). Cada bloco da imagem depois de extrado e pr-
processado enviado para uma rede neural, que decidir se nele existe ou no uma
face.
A rede composta por vrias camadas com arquiteturas diferentes, como
mostrado na figura 15, denominadas campos receptivos. Cada camada avalia uma
parte de imagem com a finalidade de se detectarem caractersticas que podem ser
teis para determinar a presena de face. A rede apresenta como resposta um nico
valor, que determina a existncia ou no da face. Com os testes realizados neste
trabalho (ROWLEY et al, 1998a) utilizando imagens coletadas na internet, obteve-se
uma taxa de acerto (deteco correta) da ordem de 92.7%, utilizando uma rede com
78 neurnios intermedirios e 4357 conexes.
Figura 15 - Algoritmo de deteco de faces baseado em RNA (ROWLEY et al. 1998a)

26
A estratgia descrita anteriormente eficaz apenas na deteco de faces
frontais ou com leves variaes na rotao. Diante desta limitao Rowley et al.
(1998b) estendeu essa tcnica de modo que a mesma seja robusta quanto a
rotaes da face. A modificao consistiu na utilizao de outra rede neural
denominada rede roteadora (router network), responsvel por determinar o ngulo
de rotao da face. A arquitetura da rede roteadora constituda por uma camada
de entrada com 400 unidades, uma camada intermediria com 15 unidades e,
finalmente uma camada de sada com 36 unidades. O ngulo da face expresso
como um vetor contendo os valores das 36 sadas, onde cada unidade de sada i
representa um ngulo de i * 100. A partir da uma soma ponderada obtida pela
equao 5 e a direo desse vetor mdio indica o ngulo da face (ROWLEY et al,
1998b).
35 35
outputi * cos i *10 , outputi sin i *10 (5)
i 0 i 0
Logo aps a aplicao da rede roteadora sobre uma janela, e determinada a
direo da possvel face, a janela rotacionada em sentido contrrio, de modo a
deixar a possvel face em uma vista frontal (upright view). Na figura 16
apresentada a sequncia de passos deste algoritmo de deteco de faces
(ROWLEY et al., 1998b).

27
Figura 16 - Sequncia de passos do algoritmo de deteco de faces rotacionadas (ROWLEY et al,
1998a)
2.6.3 Modelos Ocultos de Markov
Desde a dcada de 70, os Modelos Ocultos de Markov (Hidden Markov
Models - HMM) tem sido largamente aplicados em vrias reas, principalmente no
reconhecimento de fala (LEE et al., 1990; RABINER, 1989). Tais modelos possuem
como principal caracterstica a capacidade de caracterizao de propriedades
estatsticas de um sinal.
Na utilizao do HMM para problemas de reconhecimento de padro,
necessrio definir um conjunto de estados ocultos do modelo, que convertido em
um conjunto de diferentes smbolos de observao, que sero utilizados para
realizar o treinamento do HMM. Esse treinamento realizado ajustando os
parmetros do modelo HMM, utilizando o algoritmo de segmentao Viterbi e o
algoritmo recursivo Bam-Welch (RABINER e JUNG, 1993; YANG et al., 2002). O
treinamento um processo iterativo e pra quando a probabilidade de segmentao
Viterbi menor do que um limiar. Os parmetros finais do HMM so obtidos atravs
do procedimento recursivo Bam-Welch (LOPES, 2005).

28
O HMM tambm pode ser utilizado para deteco e reconhecimento de faces,
como apresentado em diversos trabalhos (XU et al., 2003; LE e LI, 2004; SAMARIA,
1994; NEFIAN e HAYES, 1998).
Em Nefian e Hayes (1998) o HMM utilizado tanto para a deteco como
para o reconhecimento de faces frontais. Nesse trabalho, cada estado do HMM est
associado a uma regio da face (cabelo, testa, olhos, nariz e boca, sempre nesta
ordem). Cada imagem do conjunto de treinamento possui largura W e altura H e
dividida em blocos que se sobrepe, de altura L e mesma largura W (figura 17a).
Todos os blocos extrados das imagens so arranjados como um vetor-coluna,
consistindo de todos os pixels que pertencem ao bloco. Em seguida, constri-se uma
matriz covarincia e, atravs do uso da transformada KLT, obtm-se uma nova base
de vetores. Cada vetor ento projetado na nova base, formando-se assim um
conjunto de vetores de observao com um nmero de dimenses reduzidas.
(a) (b)
Figura 17 - HMM para a deteco e reconhecimento de faces (NEFIAN e HAYES, 1998)
A partir do conjunto de imagens de um indivduo, extrai-se um conjunto de
vetores de observao, e cada um deste associado a um estado do HMM (figura
17b). Para que seja possvel identificar uma face, independente de sua identidade, o
HMM deve ser treinado com um modelo genrico de face humana obtida a partir de
um grande conjunto de imagens de face. A utilizao de HMM permite construir
sistemas de deteco e reconhecimento robustos quanto diferena de escala e

29
variaes na orientao e expresses da face (NEFIAN e HAYES, 1998; SAMARIA,
1994).
2.7 Consideraes Finais
Neste captulo foram apresentados os principais mtodos de deteco de
faces encontrados na literatura, que visam identificar a presena de faces numa
imagem. Cada mtodo preocupa-se em identificar a face ou faces presentes numa
imagem com a maior taxa de acerto possvel, e cada um apresenta vantagens e
desvantagens. Mtodos mais robustos tendem a ser de implementao mais
complexa e a ter maior custo computacional, como o caso do mtodo de autofaces
(eigenfaces). Mtodos que utilizam a cor da pele so de implementao mais
simples, mas o resultado depende do espao de cores utilizado.

30
31
3 Fundamentao Terica _______________
Este captulo descreve a base terica utilizada nesse projeto. So

apresentados os conceitos de Redes Neurais Artificiais, dando nfase rede MLP
utilizada nesse projeto, e os modelos de cores de pele.
3.2 Tcnicas de Deteco de Pele
A cor da pele diferenciada pela exposio radiao ultravioleta e inclui
fatores de transmisso gentica. As variaes encontradas em diversos povos so
relacionadas evoluo e reproduo (BECHELLI e CURBAN, 1963; BONVENTI JR
e COSTA, 2003).
O problema de deteco de pele em imagens digitais tem sido pesquisado
intensamente, existindo atualmente tcnicas robustas para determinar os parmetros
utilizados na deteco de pele. Imagens digitais podem conter pessoas de diversas
etnias e, portanto com diferentes tons de pele, que ainda podem ser alterados por
32
diferentes tipos de iluminao, foco e ngulos de viso variada, o que pode dificultar
a deteco (RAMOS FILHO, 2006; LAURENT E BODO, 2003; CAETANO et al.,
2002).
De acordo com Ramos Filho (2006) h trs tcnicas principais utilizadas para
deteco de pele em imagens digitais, que so: limiar de classificao (regras
geomtricas), estatsticas paramtricas e baseadas em histogramas. Essas tcnicas
sero descritas nas prximas sees.
3.2.1 Limiar de Classificao
As tcnicas que utilizam as propriedades das cores da pele humana so
tcnicas que formam um agrupamento compacto em cada dimenso de espao de
cor, sendo conhecidas como tcnicas baseadas em limiar de classificao. Cores
baseadas na pele podem ser modeladas de vrias formas utilizando um
agrupamento compacto em cada dimenso do espao de cor, agrupamento esse
i i
que pode modelado por intervalos em cada componente de cor, Cmin , Cmax onde i
representa a dimenso do espao de cor C (RAMOS FILHO, 2006; HSU et al, 2002).
No trabalho de Kovac et al. (2003), foi apresentada uma tcnica de fcil
implementao e de baixo custo computacional, que descreve os agrupamentos dos
pixels, e pode ser determinada por:
(R > 95) ^ (G > 40) ^ (B > 20) ^ (max{RGB} > 15) ^ (|R G| > 15) ^ (R > G) ^ (R > B).
Outra tcnica de limiar de classificao e que utiliza a regra de classificao
foi apresentada por Hsu et al. (2002). Essa tcnica baseou-se no trabalho de
33
Terrillon et al. (2000) que utiliza diversos espaos de cores para a deteco de pele,
e que constata que espao rg normalizado no a melhor opo para deteco de
pele com o objetivo de detectar face humana. O trabalho de Hsu et al. (2002) utiliza
uma transformao no-linear no espao de cor (YCbCr), visando obter um plano de
crominncia CrCb, que seja independente do componente Y (Luminncia) para o
agrupamento de pele na sua base treinamento. Aps obter o plano verificou-se que
a projeo dos pontos de agrupamento de pele nesse novo plano forma um
agrupamento bastante compacto, podendo ser descrito por uma elipse (RAMOS
FILHO, 2006). A equao da elipse proposta por Hsu et al. (2002) :
( x ecx ) 2 ( y ecy ) 2
1
a2 b2
x cos sen Cb cx
y sen cos Cr cy
onde c x = 109,38, cy 152,02, = 2,53 radianos, ec x = 1,60, ecy = 2,41, a = 25,39 e b
= 14,03 foram computados a partir do agrupamento de pele de Cb Cr , onde esses
valores foram obtidos a partir do experimento de Hsu et al. (2002).
3.2.2 Estatstico Histograma de Cor
A tcnica baseada em histograma de cor consiste em definir um modelo de
cor de pele que projeta um histograma para as cores de pele e um histograma para
as cores que no fazem parte do agrupamento de pele (JONES e REHG, 2002),
onde os histogramas so obtidos atravs da marcao manual dos pixels.

34
As contagens dos histogramas so convertidas em probabilidades discretas,
pele[c] n[c]
P (c | pele) e P(c | pele ) , onde pele[c] indica a contagem do histograma
Tp Tn
de cores de pele associada cor c, n[c] indica a contagem do histograma das cores
de no-pele associadas cor c, Tp e Tn correspondem s contagens totais obtidas
dos histogramas das cores de pele e no-pele e P(c | pele) e P(c | pele) indicam as
probabilidades da cor c ser pele ou no-pele (JONES e REHG, 2002; RAMOS
FILHO, 2006).
Com os histogramas de cores pele e no-pele montados, o classificador de
P(c | pele)
pixel de pele utiliza a equao de verossimilhana , onde 0 <= <= 1
P(c | pele)
um limiar de classificao. O limiar pode ser ajustado de acordo com a relao
de compromisso entre deteces corretas e falsos positivos. Calculando a
verossimilhana de cada pixel e a comparando com o limiar , classifica-se o pixel
como pele ou no pele.
3.2.3 Estatstico - Paramtrico
Outro modelo estatstico, alm do baseado em histogramas, o modelo
paramtrico que utiliza uma distribuio de probabilidade gaussiana para modelar
um conjunto de pixels manualmente marcados como pele (RAMOS FILHO, 2006).
Aps a modelagem gaussiana, classificar um pixel reduz-se ao clculo da distncia
de Mahalanobis entre a cor do pixel h(s) e a mdia da distribuio. O quadrado da
distncia de Mahalanobis de x para definido:
1
r2 (x )t (x ),
35
onde x corresponde cor do pixel e o vetor de mdias. Para este mtodo foi
utilizado um limiar de classificao , e montadas as curvas ROC (METZ, C. E.,
1978) para comparao dos classificadores.
No trabalho de Caetano e Barone (2001), proposta uma tcnica que utiliza a
mistura de gaussianas bivariadas que descrevem a projeo do agrupamento de
pele nos planos HS do espao HSV, AB do espao CIELAB e Cp 1 e Cp2 (as duas
primeiras dimenses encontradas na tcnica de transformao de componentes
principais (TCP) (YI et al., 2003)), onde a funo de distribuio de probabilidade
dada por:
k
P(c | pele) wi Pi (c | pele) ,
i 0
onde wi denota o peso (numero total de pixels da classe divido pelo total de pixels da
amostra) de cada uma das gaussianas que compem a mistura (RAMOS FILHO,
2006).
3.3 Redes Neurais Artificiais
O funcionamento do crebro humano ainda um grande mistrio para o
homem. O crebro to poderoso que pode resolver uma grande variedade de
problemas relacionados ao pensar, falar, relembrar, sentir e aprender, tendo
surpreendido e inspirado muitos cientistas a tentar modelar sua operao.
O crebro considerado um sistema de processamento de informao
altamente complexo, no-linear fazendo clculos em paralelo. Sua estrutura e sua
capacidade de organizar seus neurnios tornam possvel ao ser humano realizar
certas tarefas, tais como a de reconhecimento de padres, percepo e controle

36
motor, muitas vezes mais rapidamente do que o mais rpido computador digital
existente.
As redes neurais artificiais tentam simular o crebro humano, modelando a
maneira como o crebro realiza uma tarefa particular ou funo de interesse. A rede
normalmente implementada utilizando-se componentes eletrnicos ou simulada
por programao em um computador digital. Para alcanarem bom desempenho, as
redes neurais empregam uma interligao macia de clulas computacionais
simples denominadas de neurnios ou unidades de processamento. Pode-se
ento oferecer a seguinte definio de uma rede neural vista como uma maquina
adaptativa (HAYKIN, 2001):
Uma rede neural um processador maciamente paralelo e
distribudo, de unidades de processamento simples, que tm a
propenso natural para armazenar conhecimento experimental e
torn-lo disponvel para o uso. Ela se assemelha ao crebro em
dois aspectos:
1. O conhecimento adquirido pela rede, a partir de seu
ambiente, atravs de um processo de aprendizagem.
2. Foras de conexo entre neurnios conhecidas como pesos
sinpticos, so utilizadas para armazenar o conhecimento
adquirido.
37
O procedimento utilizado para realizar o processo de aprendizagem
chamado de algoritmo de aprendizagem, cuja funo modificar os pesos sinpticos
da rede de uma forma ordenada para alcanar um objetivo de projeto desejado.
Conforme as caractersticas de cada rede neural so definidas as tarefas que
podem ser executadas em sistemas computacionais, e que para os seres humanos
so tarefas comuns.
Nas prximas sees sero apresentados o modelo de um neurnio, as
funes de ativao, as arquiteturas de rede, o perceptron multicamadas (MLP) e os
algoritmos de treinamento.
3.3.1 Modelo de um neurnio
No crebro, um neurnio uma unidade de processamento de informao
que fundamental para a operao de uma rede neural. Cada neurnio recebe e
combina sinais de muitos outros neurnios e produz sinais para o axnio conduzir
certas aes, chamados de sinapses. Juntos, os neurnios formam uma grande
rede, denominada de rede neural (HAYKIN, 2001).
Os axnios, que so as linhas de transmisso entre os neurnios e os
dendritos, que so as zonas receptivas, constituem dois tipos de filamentos
morfologicamente diferentes das clulas. Um axnio tem uma superfcie lisa, poucos
ramos, e grande comprimento, enquanto um dendrito tem uma superfcie irregular e
muitos ramos. A forma e o tamanho dos neurnios podem variar em diferentes
partes do crebro (figura 18).

38
Figura 18 Estrutura do neurnio (AMORIN, 2009)
O modelo computacional de um neurnio, inspirado nos neurnios do crebro,
mostrado na figura 19 e constitui a base para os projetos de redes neurais
artificiais. Nessa figura so identificados trs elementos bsicos do modelo neural
(HAYKIN, 2001): conjunto de sinapses, um somador e uma funo de ativao.
Bias
bk
x1 w k1
Funo de
ativao
x2 w k2
uk Sada
Sinais de (.) yk
entrada
. .
. . Juno
. aditiva
.
w km
xm
Pesos
Sinpticos
Figura 19 - Modelo no-linear de um neurnio (HAYKIN, 2001)

39
Nesse modelo o neurnio formado por um conjunto de sinapses ou elos da
conexo, cada uma caracterizada por um peso ou fora prpria. Especificamente,
um sinal xj na entrada da sinapse j conectada ao neurnio k multiplicado pelo peso
sinptico Wkj, onde o primeiro ndice, k, refere-se ao neurnio em questo e j, o
segundo, refere-se ao terminal de entrada da sinapse.
O somador soma os sinais de entrada, ponderados pelas respectivas
sinapses do neurnio, operaes que constituem um combinador linear.
A funo de ativao, tambm conhecida como restritiva, limita a amplitude
da sada de um neurnio.
O bias bk, apresentado na figura 19, aplicado externamente, e tem o efeito
de aumentar ou diminuir a entrada liquida da funo de ativao, dependendo se ele
for positivo ou negativo, respectivamente.
Pode-se descrever matematicamente um neurnio k atravs das equaes
(18) e (19):
m
uk wkj x j (6)
j 1
yk uk bk (7)
onde, uk a sada do combinador linear devido aos sinais de entrada e yk o sinal
de sada do neurnio.
3.3.2 Funo de ativao
A funo de ativao, denotada por (v), define o valor de sada de um
neurnio em termos do nvel de atividade de sua entrada (HAYKIN, 2001). Pode-se

40
identificar trs tipos bsicos de funes de ativao: funo de limiar, funo linear
por partes e funo sigmide.
3.4 Arquitetura de rede
A maneira como os neurnios so organizados e interconectados define a
arquitetura da rede neural. O tipo de organizao est diretamente relacionado com
o algoritmo de aprendizagem usado para treinar a rede. Pode-se identificar 4 tipos
de arquiteturas de redes neurais:
Redes feedforward unicamada (Perceptron)
Redes feedforward multicamada
Redes Recorrentes
Estrutura de Lattice (Reticulada)
A arquitetura feedforward multicamada ser descrita a seguir.
3.4.1 Redes feedforward multicamada
Este tipo de rede caracterizado pela presena de uma ou mais camadas
ocultas, alm das camadas de entrada e de sada, como ilustrado na figura 20. Os
ns computacionais das camadas ocultas so chamados correspondentemente de
neurnios ocultos. A funo dos neurnios ocultos intervir entre a entrada externa
41
e a sada de uma maneira til. A adio de uma ou mais camadas ocultas, torna a
rede capaz de extrair estatsticas de ordem elevada.
Uma rede neural considerada totalmente conectada se cada neurnio de
uma camada estiver conectado a todos os neurnios da camada subseqente, caso
contrrio, considerada uma rede neural parcialmente conectada.
Entradas Sadas
Figura 20 - Rede feedforward multicamada totalmente conectada com uma camada oculta e uma
camada de sada.
3.5 Perceptron Multicamadas (MLP)
O perceptron multicamadas (MLP, multilayer perceptron) uma rede do tipo
feedforward, que contm uma ou mais camadas internas. Tem sido aplicada com
sucesso, na resoluo de problemas das mais diversas reas, podendo-se citar:
reconhecimento de padres, processamento de imagens e de sinais, e previso de
sries temporais. O seu treinamento realizado de forma supervisionada com o
algoritmo de retropropagao de erro (error back-propagation) (HAYKIN, 2001). Este
algoritmo baseia-se na regra de aprendizagem por correo de erro.

42
A rede perceptron multicamadas consiste de um conjunto de unidades
sensoriais (ns de fonte) que constituem a camada de entrada, uma ou mais
camadas ocultas de ns computacionais e uma camada de sada de ns
computacionais como pode ser visto na figura 21. O vetor de entrada representado
pelas variveis xi, os pesos sinpticos so denotados pela letra w k, onde k indica a
camada, e a sada da rede representada por y.
X0
Y1
X1
Y2
Sinal de Sinal de sada
entrada X2 (resposta)
(estimulo)
Y0
Xm
Camada de Primeira Segunda Camada de

entrada camada oculta camada oculta sada
Figura 21 - Grafo arquitetural de um perceptron mltiplas camadas com duas camadas ocultas
O sinal de entrada propaga-se para frente atravs da rede, camada por
camada, como ilustrado na figura 22, e dois tipos de sinais so encontrados nesta
rede.
1. Sinais Funcionais. So estmulos recebidos pelos sinais de entrada

(estmulo), que se propagam para frente (neurnio por neurnio)
atravs da rede e manifestam-se no terminal de sada como um sinal
de sada;
2. Sinais de Erro. O neurnio de sada gera um sinal de erro e se propaga
para trs (camada por camada) atravs da rede.

43
Funo de propagao do sinal
Erro Backpropagation
Figura 22 Direo da propagao da funo sinal
As camadas ocultas so referidas desta maneira, porque no fazem
parte da sada e nem da entrada da rede, sendo a primeira camada oculta
alimentada pela camada de entrada, e constituda por vrias unidades
sensoriais; as sadas da primeira camada so aplicadas s entradas da
prxima camada oculta e assim por diante para o resto da rede (figura 21).
Essa rede apresenta trs caractersticas principais:
1. O modelo de cada neurnio da rede inclui uma funo de ativao
no-linear. Uma forma normalmente utilizada de no-linearidade que
satisfaz esta exigncia uma no-linearidade sigmide definida pela
funo logstica:
(8)
onde vj a soma ponderada de todas as entradas sinpticas do
neurnio j, yj a sada do neurnio. A figura 23 esboa o grfico da
funo sigmide, onde essa funo sempre positiva e limitada
superiormente por 1 e inferiormente por 0.
2. A rede composta de uma ou mais camadas de neurnios ocultos,

44
que no so parte da entrada ou da sada da rede. Estes neurnios
capacitam a rede a aprender tarefas complexas extraindo
progressivamente as caractersticas mais significativas dos padres
(vetores) de entrada.
3. A rede possui um alto grau de conectividade, devido s s u as
sinapses. Uma modificao na conectividade da rede requer uma
mudana na populao das conexes sinpticas ou de seus pesos.
(v)
v
Figura 23 Grfico da funo sigmide
3.5.1 Algoritmo de Treinamento
A MLP utiliza para o seu treinamento o algoritmo de retropropagao ou
backpropagation. Este algoritmo constitudo por dois passos principais: o passo
para frente (forward) e o passo trs (backward). No passo forward aplicado
rede um padro de dados (vetor de entrada) s entradas da rede e este efeito se
propaga atravs da rede, camada por camada.

45
Durante o processo de propagao, todos os pesos sinpticos da rede no
se alteram. No passo backward os pesos sinpticos so todos ajustados de
acordo com a regra de correo de erro. Contudo, a resposta gerada pela rede
subtrada da resposta desejada (alvo) para produzir um sinal de erro. Os pesos
sinpticos da rede so atualizados para que a resposta gerada pela rede
aproxime-se da resposta desejada (HAYKIN, 2001). Este processo repetido
diversas vezes, at que para todas as sadas e padres de treinamento, o erro seja
menor do que o especificado.
O principal objetivo do processo de treinamento minimizar o sinal de
erro entre a resposta desejada (alvo) e a atual resposta produzida pela rede. Este
sinal de erro da sada do neurnio yi na interao n, definido por:
ei (n) = di (n) yi (n) (9)
Onde, di a resposta desejada do i-th neurnio de sada.
Adicionando todos os erros quadrticos produzidos pelos neurnios de sada
da rede com a respectiva n-th iterao, obtm-se a seguinte funo custo ou o erro
para ser minimizado:
(10)
A funo custo uma funo continuamente diferenciada para cada peso,
onde, um algoritmo do gradiente descendente pode ser usado para ajustar os
pesos. Para as conexes wij, que ligam a camada oculta e a camada de sada,
a regra do gradiente descendente dada por:
(11)
46
onde, a taxa de aprendizagem do algoritmo de backpropagation e i o
gradiente local definido por:
(12)
Onde, ci o sinal de entrada dos pesos aplicado para o neurnio yi, e (.) a
funo de ativao do neurnio. As conexes wij so iterativamente atualizadas
aplicando a seguinte equao:
(13)
Para as conexes wjk , que ligam a camada de entrada e a camada
oculta, a funo custo diferenciada com o respectivo wjk usando a regra da
cadeia, que dada por:
(14)
Na equao 14, o gradiente local j em relao ao wjk expresso pela
seguinte equao:
(15)
onde, hi o peso do sinal de entrada aplicado para o neurnio vj. Finalmente,
todas as conexes wjk so iterativamente atualizadas de acordo com a seguinte
equao:
(16)
Aps o processo de treinamento, a rede capaz de fornecer a relao

47
funcional entre as variveis de entrada e sada do processo.
Existem algumas tcnicas que auxiliam a melhorar o desempenho do
treinamento da MLP:
Validao cruzada: metodologia utilizada para testar o poder de
generalizao de uma MLP. Neste contexto, devem-se seguir os passos
seguintes:
o Particionar o conjunto de dados disponvel em dois subconjuntos:
Conjunto de treinamento: utilizado para treinar a rede (80%
a 90% do total);
Conjunto de teste: utilizado para avaliar se a rede est
generalizando de forma satisfatria (10% a 20% do total).
o Utilizar o mesmo conjunto de treinamento para ajustar todas as
topologias candidatas;
o Aps o treinamento, utilizar o conjunto de teste para avaliar e escolher
(validar) o melhor modelo (melhor generalizao):
Em certos casos, uma determinada topologia pode ter
desempenho satisfatrio no treinamento, mas durante a fase
de validao (aplicao do conjunto teste), a rede produz
resultados insatisfatrios (no consegue generalizar);
O aumento de neurnios e de camadas no significa que a rede
ir generalizar melhor;
Para duas topologias que esto generalizando com o
mesmo grau de preciso, deve-se optar por aquela com menor
nmero de neurnios.
48
Insero do termo de momento: a velocidade do algoritmo
backpropagation pode ser aumentada (sem perigo de instabilidade) atravs
da incluso de um termo de momento utilizado para acelerar o algoritmo,
como mostrada na equao 17:
(17)
Normalizao dos dados: as variveis referentes s entradas da rede
devem ser normalizadas para a faixa [0,1] se estiver sendo utilizada a funo
sigmide, ou ento, para [-1,1] se for utilizada a tangente hiperblica.
3.6 Algoritmo de Aprendizagem
A rede neural se destaca pela sua capacidade de aprender, e isto uma
caracterstica primordial de sua habilidade. As mudanas que ocorrem na
estrutura de interconexo ou nos valores dos pesos sinpticos geram alteraes
no comportamento de ativao da rede e permite que seja realizado um novo
aprendizado de um determinado comportamento. Desta forma, pode-se modificar
o estado de ativao na sada da rede em resposta a certo estmulo recebido
atravs do padro de entrada. Contudo, a rede capaz de estabelecer
associaes de entrada e sada (estmulo e resposta), a fim de se adaptar a
uma situao proposta. No caso de uma rede com aprendizado supervisionado,
a rede deve adaptar seus pesos de maneira a passar a responder de acordo
com a resposta desejada. O mtodo utilizado para modificar o comportamento
de uma rede conhecido como regra de aprendizado.

49
A definio de processo de aprendizagem em redes neurais pode ser
definida da seguinte maneira:
Aprendizagem um processo pelo qual os parmetros livres de uma
rede neural so adaptados atravs de um processo de estimulao pelo
ambiente no qual a rede est inserida. O tipo de aprendizagem
determinado pela maneira atravs da qual a modificao dos parmetros
ocorre. (HAYKIN, 2001).
Um conjunto de regras bem definidas para a soluo de um problema de
aprendizagem denominado um algoritmo de aprendizagem.
Esta definio de aprendizagem implica nos seguintes eventos:
1. A rede neural estimulada por um ambiente;
2. A rede neural sofre modificaes nos seus parmetros, como
resultado das estimulaes;
3. A rede neural responde de uma maneira nova ao ambiente, devido
s modificaes sofridas em sua estrutura.
Com um algoritmo de aprendizagem padro uma rede neural aprende
atravs de um processamento iterativo do ajuste dos pesos. O tipo de
aprendizagem definido pela forma como os pesos so ajustados. Os dois
principais mtodos de aprendizagem so: aprendizagem supervisionada e
aprendizagem no-supervisionada.
50
3.6.1 Aprendizagem Supervisionada
Essa regra de aprendizado incorpora o conceito de um supervisor ou um
professor, que tem o conhecimento sobre o ambiente em que a rede est
operando. Este conhecimento representado por um conjunto de exemplos de
entrada-sada ou padres. Sendo assim, a rede deve ser capaz de medir a
diferena entre seu comportamento atual e o comportamento de referncia e
ento corrigir os pesos de maneira a reduzir este erro. O aprendizado
supervisionado utiliza conhecimentos empricos, que so representados por um
conjunto de exemplos rotulados, ou seja, exemplos com pares de dados de
entrada com a respectiva sada associada {xi,di}.
Figura 24 - Diagrama em blocos da aprendizagem supervisionada
A rede ajusta os parmetros livres atravs da combinao das entradas e
sinais de erro, sendo o sinal de erro a diferena entre a resposta desejada e a
resposta real da rede (figura 2 4). Este ajuste realizado passo a passo com o
objetivo de fazer a rede emular um professor. A ssim, se a emulao for tima,
o conhecimento do ambiente disponvel ao professor transferido para a rede
neural atravs do treinamento. Quando esta condio alcanada, pode-se liberar

51
o professor e deixar a rede neural lidar com o ambiente (HAYKIN, 2001).
3.6.2 Consideraes finais
As redes neurais artificiais constituem um campo da cincia da computao
ligado inteligncia artificial, buscando implementar modelos matemticos que se
assemelhem s estruturas neurais biolgicas. Elas apresentam grande capacidade
de adaptar os seus parmetros conforme resultados obtidos da interao com o
meio externo, melhorando gradativamente o seu desempenho na soluo de um
determinado problema. Como mencionado neste captulo, a sua aplicao tem se
verificado nas mais diversas reas.
A deteco de faces em imagens no uma tarefa simples devido
complexidade do fundo, cor da pele, objetos presentes na face, expresses faciais,
problemas de iluminao.
52
53
4 Deteco de Faces Humanas em Imagens

Coloridas - Metodologia________________
O objetivo deste trabalho foi o desenvolvimento de um algoritmo baseado em
redes neurais artificiais, para a deteco de faces humanas em imagens digitais
coloridas, utilizando segmentao de pele. Neste capitulo so apresentados os
mdulos implementados e a metodologia de desenvolvimento de cada mdulo.
4.2 Mdulos Desenvolvidos
O trabalho foi dividido em dois mdulos principais, o de segmentao de pele
e o de deteco de face. O mdulo de segmentao de pele foi subdividido em
quatro mdulos menores, sendo eles: pr-processamento, segmentao de pele,
varredura da imagem, e ps-processamento. E o mdulo de deteco de face foi
subdividido em dois mdulos: extrao de caractersticas e o mdulo de deteco e

54
interpretao da face. A figura 25 ilustra a seqncia de processamento desses
mdulos e a figura 26 mostra o algoritmo do trabalho desenvolvido. Os seis mdulos
esto relacionados a seguir:
1. Pr-processamento, aplicado para reduo de rudo e melhoria da
qualidade da imagem de entrada;
2. Segmentao de Pele, aplicada para retirar da imagem todas as
regies detectadas como no pele, utilizando para isso uma rede
neural MLP;
3. Varredura da Imagem, onde realizada uma varredura em toda a
imagem, que ir dividir a imagem de entrada em diversas imagens
menores (regies) sobre as quais sero executados os prximos
mdulos, inclusive o mdulo de verificao, que determina se existe
face ou no em cada regio. Essa varredura realizada utilizando um
bloco com dimenso inicial de 80x80 pixels, e que incrementado de
20x20 pixels at atingir um tamanho superior a qualquer dimenso da
imagem;
4. Ps-processamento da imagem, utilizada para destacar as
caractersticas relevantes para a deteco das faces, e inclui a
deteco das bordas, realizada nas reas que contem pele e que ser
utilizada no processo de extrao de caractersticas;
5. Extrao de caractersticas, onde so aplicados mtodos de extrao
de caractersticas para cada forma localizada na etapa anterior;

55
6. Deteco e interpretao da face, que faz uso das caractersticas
detectadas para cada forma, as quais so aplicadas em uma rede
neural MLP que identificar se a forma sob anlise face ou no.
A metodologia utilizada em cada um desses mdulos ser detalhada nas
sees seguintes.
Figura 25 Fluxograma do trabalho desenvolvido

56
Inicio
Im = Imagem
Tam_Imagem = Tamanho(Im)
Im = Pre_Processamento(Im)
Im = Segmentacao_Pele(Im)
Mascara = 80x80
Enquanto (Mascara <= Tam_Imagem) faa
Im2 = Varredura_Imagem(Im)
Im3 = Im2
Im2 = Pos_Processamento(Im2)
Im2 = Deteccao_Bordas(Im2)
Formas = Deteccao_Formas(Im2)
Caracteristicas = Extracao_Caracteristica(Formas)
Face = Detecao_Face(Caracteristicas)
Se (Face) ento
Grava(Im3)
Fim-Se
Mascara = Mascara + 20x20
Fim-Enquanto
Fim_Algoritmo
Figura 26 Algoritmo do trabalho desenvolvido
4.3 Metodologia
Como imagens de entrada foram utilizadas dois tipos de imagens:
Imagens com extenso JPEG, BMP e GIF, adquiridas de diferentes
pginas da internet (figura 27a) com nenhuma ou vrias faces,
totalizando 25 imagens sendo que h um total de 80 faces nas 25
imagens;
Imagens do banco de faces AR Face Database (MARTINEZ e
BENAVENTE, 1998) (figura 27b), totalizando 25 imagens.
Todas as imagens so coloridas, contendo uma ou mais faces, com fundo de
complexidade varivel, com dimenses variadas e sem nenhum controle de
luminosidade, como pode ser visto na figura 28.

57
(a) (b)
Figura 27 Exemplo de imagens (a) adquirida na internet e (b) banco AR
importante mencionar que nas imagens obtidas da internet houve a
preocupao de se escolher imagens contendo pessoas de diferentes raas, para
avaliao do mdulo de segmentao de pele.
As imagens adquiridas incluem faces com diferentes ngulos de inclinao e
variaes de expresso, alm de faces com barba, bigode e culos, que so
componentes que podem dificultar a deteco da face (figura 29).
(a) (b)
(c) (d)
Figura 28 Exemplo de imagens utilizadas para teste, (a) e (b) adquiridas na internet (c) e (d) Banco
AR.
58
Figura 29 Exemplo de imagens utilizadas com caractersticas que dificultam a deteco
4.3.1 Pr-processamento
O pr-processamento uma etapa muito importante para a segmentao da
imagem e a sua funo melhorar a qualidade da imagem reduzindo a quantidade
de rudos.
Para a implementao dessa etapa foi utilizada a filtragem por mediana 3X3,
que minimiza o rudo, mas preserva as bordas (GONZALES e WOODS, 2000). A
figura 30 ilustra a aplicao desse filtro sobre uma imagem.
Imagem de entrada
Filtragem por Mediana

3x3
Figura 30 Diagrama de blocos do pr-processamento da imagem

59
4.3.2 Segmentao de pele utilizando redes neurais
A etapa de segmentao de pele consiste em separar as regies que contm
pele das demais informaes da imagem.
Para a implementao dessa etapa, foi adotada a tcnica de limiar de
classificao de cores pele, utilizando o espao de cores RGB, pela sua simplicidade
de implementao. Inicialmente, os espaos de cores HSV e CyCbCr foram
avaliados, mas o RGB foi o que apresentou melhores resultados no algoritmo
implementado.
Na segmentao foi utilizada uma rede neural MLP com o algoritmo de
aprendizado backpropagation (GOUVEIA et al., 2005; HAYKIN, 2001). A topologia
dessa rede, ilustrada na figura 31, a seguinte:
uma camada com trs entradas, onde so aplicados os valores RGB
de cada pixel da imagem;
duas camadas escondidas com cinco neurnios cada;
uma camada de sada com um neurnio.
A funo de ativao utilizada foi a sigmide e o valor retornado pela funo
foi normalizado, de forma que valores superiores ou iguais a 0.5 so considerados
pele. Nesse caso o valor do pixel na imagem no alterado. No caso de valores
inferiores a 0.5 atribuda a cor preta para o pixel, como ilustrado na figura 32.
O treinamento da rede neural foi realizado utilizando a aprendizagem
supervisionada, onde o conjunto de treinamento utilizado foi elaborado utilizando os
padres correspondentes aos pixels das regies que contm pele e no pele. Esse
conjunto foi constitudo pelas 25 imagens da internet nas quais foram utilizados 25
fundos para treinamento e 25 tipos de pele. Nas imagens do Banco AR as cores do

60
fundo so padronizadas e a tonalidade da pele semelhante entre as imagens,
variando a iluminao.
Na figura 32 apresentado o diagrama de blocos dessa etapa, ilustrando a
imagem de entrada e a imagem resultante contendo somente as regies de pele e
com cores semelhantes pele, o que simplifica as etapas seguintes do algoritmo.
Informaes referentes
ao pixel em RGB
Camada de Sada
(01 neurnio)
Pixel da Validao
Imagem da Pele
1 camada oculta
(05 neurnios) 2 camada oculta
(05 neurnios)
Figura 31 Topologia da Rede Neural proposta para a segmentao de pele
Imagem Imagem
pr-processada segmentada
Segmentao da Imagem
Teste dos pixels Atribuio do valor

utilizando rede 255 ao pixel no
neural MLP pele
Figura 32 Diagrama de blocos da etapa de segmentao da imagem

61
4.3.3 Varredura
Esta etapa responsvel pela diviso da imagem em pequenas partes que
iro ser processadas e testadas para verificao se existe ou no face. Para isso
utiliza-se uma mscara inicial de 80x80 pixels que ir varrer toda a imagem como
pode ser visto na figura 33 e detalhada na figura 34. Cada regio capturada por essa
mscara redimensionada em uma imagem de 100x100 pixels que ser utilizada na
execuo dos prximos mdulos (figura 35). Aps essa varredura a mscara
incrementa seu tamanho em 20x20 pixels e varre toda a imagem novamente, sendo
esse procedimento realizado sucessivamente at o que as dimenses da mscara
atinjam o tamanho da imagem.
Figura 33 Fluxograma do mtodo de varredura implementado

62
Inicio
Im = Imagem_segmentada
Tam_Imagem = Tamanho(Im)
Tam_Mascara = 80x80
Enquanto (Tam_Mascara <= Tam_Imagem) ento
Pos_Horizontal = 0
Enquanto (Pos_Horizontal + Tam_Mascara(Horizontal) <= Tam_Imagem(Vertical)) faa
Pos_Vertical = 0
Enquanto ((Pos_Vertical + Tam_Mascara(Vertical)) <= Tam_Imagem(Vertical)) faa
Nova_Imagem = Im[Posicao Mascara]
Nova_Imagem = Redimensiona(Nova_Imagem, 100x100)
Pos_Processamento(Nova_Imagem)
Binarizacao(Nova_Imagem)
Deteccao_Bordas(Nova_Imagem)
Extracao_Caracteristicas(Nova_Imagem)
Detecao_Face(Nova_Imagem,Encontrou_Face)
Se (Encontrou_Face) ento
Grava(Nova_Imagem)
Fim-se
Pos_Vertical = Pos_Vertical + 20
Fim-Enquanto
Pos_Horizontal = Pos_Horizontal + 20
Fim-Enquanto
Tam_Mascara = Tam_Mascara + 20x20
Fim-Enquanto
Fim-Algoritmo
Figura 34 Algoritmo do mtodo de varredura implementado
(a) original (b) aps varredura
Figura 35 Exemplo de imagem aps varredura
4.3.4 Ps-processamento
Na etapa de ps-processamento a imagem binarizada utilizando o mtodo
de Otsu (GONZALES e WOODS, 2000) e na seqncia so aplicados filtros de
dilatao, para corrigir pequenas falhas que tenham ocorrido na etapa de
segmentao de pele (figura 36). Alm disso, so aplicados filtros de aguamento
para realar detalhes finos ou detalhes que tenham sido borrados nos passos
63
anteriores, e por fim para a deteco de bordas foi utilizando o operador Sobel na
vertical e horizontal, cujas mscaras so apresentadas na figura 37.
Imagem
Segmentada
Ps-Processamento da Imagem
Binarizao Dilatao da Deteco de

da Imagem Imagem Bordas
Figura 36 Diagrama de blocos da etapa de ps-processamento da imagem
1 2 1 1 0 1
0 0 0 2 0 2
1 2 1 1 0 1
Figura 37 Mascaras 3x3, vertical e horizontal do operador de Sobel
Um exemplo de ps-processamento ilustrado na figura 38.
(a) (b) (c) (d)

Figura 38 Exemplo de imagem: (a) original, (b) segmentada, (c) binarizada e com (d) bordas
64
4.3.5 Extrao de caractersticas
A etapa de extrao de caractersticas muito importante no processo de
deteco de face, pois reduz a quantidade de dados de entrada para o processo de
deteco (BIANCHI, 2006).
Nessa etapa so extradas caractersticas da imagem resultante dos
processos anteriores, onde essas caractersticas so a presena dos olhos, do nariz
e da boca, e que sero utilizadas na prxima etapa para determinar se a forma
encontrada uma face ou no. Como entrada utilizada uma imagem, mas a sada
do processo um conjunto de dados correspondente imagem de entrada, como
mostrado na figura 39.
Forma detectada Conjunto de

dados
Extrao de caractersticas da Imagem

Localizao das
Redimensionamento caractersticas Extrao dos
da imagem relevantes dados da
(olhos, nariz e caracterstica
boca
Figura 39 Diagrama de blocos da etapa de extrao de caractersticas da imagem
A extrao de caractersticas realizada nas imagens resultantes da etapa de
varredura, anteriormente redimensionadas para o tamanho de 100x100 pixels,
atravs de um algoritmo de varredura que ir separar e armazenar em uma matriz as
coordenadas limites de todas as formas encontrados. O algoritmo faz uso de molde
de dimenso 100x100 pixels para determinar se h formas existentes em regies
especficas da imagem que possivelmente referem-se presena dos olhos, nariz e

65
boca conforme a figura 40. Essas caractersticas sero utilizadas na prxima etapa
onde ser analisado se a imagem uma face ou no.
Figura 40 Modelo do molde utilizado para extrao de caractersticas
4.3.6 Deteco de faces utilizando redes neurais
A utilizao de redes neurais muito importante no processo de
reconhecimento de padres e classificao. O processo de deteco de face
apresentado neste trabalho consiste na utilizao de uma rede neural MLP com o
algoritmo de aprendizado backpropagation, que ir classificar, atravs do conjunto
de dados definido pela etapa de extrao de caractersticas, se a imagem
selecionada uma face ou uma no-face.
A topologia da rede MLP utilizada a seguinte (figura 41):
uma camada com trs entradas que indicam a presena ou no dos
olhos (quantidade), nariz e boca;
duas camadas escondidas com trs neurnios cada;
uma camada de sada contendo um neurnio.
A funo de ativao utilizada foi a sigmide e o valor retornado pela funo
foi normalizado, de forma que valores superiores ou iguais a 0.5 so considerados
face.
66
Conjunto de
caractersticas faciais
Camada de Sada
(01 neurnio)
Caracteristicas Validao da
extraidas Face
1 camada oculta 2 camada oculta

(03 neurnios) (03 neurnios)
Figura 41 Topologia da Rede Neural proposta para a deteco de face
O treinamento da rede neural para validar se face ou no-face, foi realizado
utilizando algoritmos de aprendizagem supervisionada, onde o conjunto de teste
utilizado foi elaborado utilizando um total de dez vetores de caractersticas extradas
de um conjunto de imagens contendo faces e de um conjunto de no-face.
4.3.7 Software de desenvolvimento
Para o desenvolvimento do algoritmo, foi utilizado o MATLAB (Matrix
Laboratory) verso 7.1, com o toolbox de processamento de imagens e redes
neurais. O MATLAB um ambiente de programao que utiliza uma linguagem
prpria e simplifica a elaborao de trabalhos cientficos. Com o auxilio dos toolbox
que contm funes previamente implementadas, possvel obter uma maior
agilidade no processo de desenvolvimento do algoritmo e na anlise dos resultados
obtidos.
67
5 Resultados e Discusses_______________
Neste capitulo sero apresentados os resultados obtidos e discusses para o
software de deteco de face desenvolvido.
5.1 Resultados obtidos com o algoritmo de segmentao
Para os testes de segmentao foram utilizados dois bancos de imagens j
mencionados no capitulo 4.
As figuras 40(b) e (d) mostram as imagens resultantes da aplicao do
algoritmo de segmentao nas imagens originais da internet apresentadas nas
figuras 40(a) e (c), respectivamente. As figuras 41(b) e (d) mostram as imagens
resultantes da aplicao do algoritmo de segmentao nas imagens originais do
banco AR apresentadas nas figuras 41(a) e (c) respectivamente. Observa-se que as
imagens resultantes apresentam as regies que contem pele, removendo-se
praticamente todo o fundo da imagem.

68
(a) (b)
(c) (d)
Figura 40 - (a), (c) e (e) imagens originais, (b), (d) e (f) imagens processadas do banco de imagens da
internet
(a) (b)
(c) (d)
Figura 41 - (a), (c) e (e) imagens originais, (b), (d) e (f) imagens processadas do banco de imagens
AR
69
Um dos problemas identificado no algoritmo que ele no consegue remover
o fundo das imagens que possui cores semelhantes da pele humana como pode
ser observado na imagem resultante da figura 42. Isso pode acarretar falsos
positivos na identificao de face ou no face.
(a) (b)
Figura 42 - (a) imagem original (b) imagem segmentada
Um outro problema identificado que algoritmo pode reconhecer parcial ou
completamente a pele humana como fundo, como pode ser observado na figura 43,
onde as faces foram removidas completamente. Um outro exemplo apresentado
na figura 44 onde a face a face parcialmente erodida por ser confundida com o
fundo. Esse problema resulta na no identificao da face por falta de componentes
estruturais.
Uma possibilidade de melhoria do resultado seria aumentar a base de
treinamento para a rede neural MLP utilizada e outra possibilidade seria a aplicao
de outra metodologia de deteco de pele (estatsticas paramtricas ou as baseadas
em histogramas) conforme apresentado no capitulo 3.

70
(a) (b)
Figura 43 - (a) imagem original (b) imagem segmentada
(a) (b)
Figura 44 - (a) imagem original (b) imagem processada
A tabela 1 apresenta o resultado percentual e o nmero total de faces, faces
localizadas e faces com eroses nas imagens da Internet e do Banco AR aps o
processo de segmentao e todas quantificadas visualmente. Essa informao
tambm apresentada de forma grfica na figura 45.
Na tabela 2 apresentado o resultado depois de aplicado o teste T-Student
nas imagens da internet e do Banco AR.
Tabela 1 Tabela que apresenta a quantidade de faces identificadas e faces com eroses na face
Banco de Imagens Total de Faces Faces Localizadas Faces com Eroses

Internet 80 100% 76 95% 12 15%
Banco AR 25 100% 25 100% 8 32%
71
Figura 45 Grfico de faces localizadas e faces com eroses na imagem aps segmentao
Tabela 2 Tabela que apresenta o resultado do teste T-Student para o total de faces localizadas
Banco de Imagens Taxa de significncia

Internet 0,4471
Banco AR 0,0000
Mdia 0,2470
O que se pode concluir dos resultados obtidos ilustrados nas tabelas 1 e 2
que as imagens do Banco AR foram a que apresentaram melhores resultados pelo
fato de sua taxa de significncia encontrar-se abaixo da mdia de significncia
(tabela 2), apesar de algumas faces terem sido erodidas, como pode ser observado
no apndice B. Uma das caractersticas desse banco que a iluminao diferente
em imagens que apresentam a face de uma mesma pessoa, o que pode contribuir
para o processo de eroso. Para as imagens da Internet, devido sua diversidade
5% das faces no foi identificada (tabela 1), o que j era esperado, devido ao fato de
no serem imagens padronizadas e conterem pessoas com diferentes cores de pele.
No apndice A encontra-se o resultado da segmentao para todas as imagens da
Internet utilizadas.
72
O mdulo de segmentao apresentou resultados que facilitaro a etapa de
deteco de face embora, como j mencionado na discusso dos problemas
encontrados, existir falso positivos e falso negativos.
5.2 Resultados obtidos com o algoritmo de deteco de face
Para o teste do algoritmo de deteco de faces foram utilizadas as mesmas
imagens dos testes de segmentao de pele. As figuras 46(c) e (f) apresentam os
resultados aps a execuo do algoritmo de deteco.
(a) (b) (c)
(d) (e) (f)

Figura 46 - Resultado do algoritmo de deteco de face: (a) e (d) imagens originais e (b), (c), (e) e (f)
imagens resultantes
A tabela 3 apresenta o resultado da execuo do algoritmo de deteco de
faces para todas as imagens dos bancos utilizados, onde se observa que mesmo
com algumas eroses nas imagens a quantidade de faces detectadas foi de 83%
para o banco de imagens da Internet, e de 88% para o Banco AR. A figura 47 mostra
os resultados da tabela 3 de forma grfica.

73
Tabela 3 Tabela que apresenta o total de faces e o total de faces detectadas
Banco de Imagens Total de Faces Faces Detectadas

Internet 80 100% 67 83%
Banco AR 25 100% 22 88%
Figura 47 Grfico com o total de faces localizadas
Foi tambm aplicado o teste T-Student nos resultados gerados e a taxa mdia
de significncia obtida foi de 0,0248, ou seja dentro da faixa adotada (0,05). Esse
teste evidenciou que os melhores resultados foram com as imagens do Banco AR
que apresentaram uma taxa de significncia inferior mdia. J as imagens da
internet apresentaram uma taxa de significncia acima da mdia e prxima da faixa
de significncia adotada, mostrando que seus resultados so inferiores queles
obtidos com o Banco AR, conforme pode ser observado na tabela 4.
Tabela 4 Tabela que apresenta o resultado do teste T-Student para o total de faces detectadas
Banco de Imagens Faces Detectadas

Internet 0,0469
74
Banco AR 0,0028
Mdia 0,0248
Como j esperado, aps a anlise das tabelas 3 e 4 os melhores resultados
foram obtidos para as imagens do Banco AR, pelo fato deste ser padronizado e no
ter fundo to complexo como as imagens da Internet. As faces no encontradas para
o Banco AR devem-se principalmente ao problema de ocluso, j que nesse banco
no h faces rotacionadas, ou com iluminao que prejudique a identificao de
caractersticas.
Para as imagens da Internet as faces no encontradas devem-se aos
problemas j mencionados na seo 5.1 da etapa de segmentao, problemas de
ocluso e rotao da face.
Para uma melhor avaliao dos resultados apresentada a tabela 5, que
mostra os falsos positivos obtidos em cada banco. Esses resultados so tambm
apresentados de forma grfica na figura 48. Observa-se nessa tabela que para o
Banco AR no houve falsos positivos, enfatizando que os resultados para esse
Banco foram superiores aos das imagens da Internet. Para as imagens da Internet
verificou-se 4% de falsos positivos, indicando que o nmero real de faces
encontradas foi menor do que o nmero de faces detectadas pelo software. Esse
erro deve-se principalmente aos problemas mencionados na etapa de segmentao
na seo 5.1.
Tabela 5 Tabela que apresenta o total de pessoas e o total de falsos positivos nas imagens
Imagens Diversas Banco AR

Total Formas 81 100% 25 100%
75
Pessoas 67 83% 22 88%

Falso Positivos 3 4% 0 0%
Figura 48 Grfico de com o total de faces localizadas e total de falsos positivos

76
77
6 Concluses e Sugestes para Trabalhos

Futuros____________________________
Este trabalho teve como objetivo o desenvolvimento de um sistema para
deteco automtica de faces em imagens coloridas. Para isso foram desenvolvidos
dois mdulos principais: mdulo de segmentao de pele, que tem como objetivo
remover o fundo das imagens adquiridas e o mdulo de deteco de faces que tem
como objetivo detectar as faces nas imagens processadas no mdulo anterior.
Para avaliao do software implementado foram utilizados dois banco de
imagens, um com imagens padronizadas (Banco AR) e outro banco com imagens
adquiridas na Internet contendo faces com diferentes tons de pele e fundo complexo.
Aps a execuo do algoritmo de deteco de face, foi determinado o
percentual de faces detectadas para cada banco e os resultados foram tambm
avaliados com o teste T-Student. O percentual de faces detectadas foi de 83% para
as imagens adquiridas na internet e de 88% para as imagens do Banco AR. O teste
T-Student evidenciou que os resultados do Banco AR foram melhores , pelo fato

78
deste apresentar uma taxa de significncia abaixo da mdia encontrada, o que j era
esperado pelo fato dessas imagens serem padronizadas, no conterem faces
rotacionadas e com fundo complexo.
Os principais problemas identificados para as imagens no detectadas foram:
ocluso, problemas na etapa de segmentao e rotao da face. Esses problemas
afetaram principalmente as imagens adquiridas na Internet pelo fato de terem um
fundo complexo. As imagens do Banco AR foram afetadas principalmente pela
ocluso.
O principal problema identificado no software desenvolvido encontra-se na
etapa de segmentao pelo fato da rede neural considerar algumas regies de fundo
como pele, gerando assim falsos positivos, e tambm algumas regies de pele como
fundo, ocasionando eroso na face e assim gerando falsos negativos.
A etapa de segmentao pode ser melhorada, adotando-se uma outra tcnica
de segmentao de pele como aquelas j apresentadas no capitulo 3.
6.1 Sugestes para trabalhos futuros
Como sugesto para trabalhos futuros prope-se:
Implementar um mdulo de segmentao de pele por etnia;
Na etapa de segmentao aumentar a base de treinamento;
Na etapa de segmentao utilizar outras tcnicas tais como a
estatstica paramtrica ou baseada em histograma;
Na etapa de deteco implementar a rede neural com uma entrada
adicional, de forma a se ter uma entrada para o olho direito e outra
para o olho esquerdo.

79
6.2 Trabalho Publicado
Com este trabalho foi publicado o artigo Deteco de Faces Humanas em
Imagens Coloridas Utilizando Redes Neurais Artificiais, V Workshop de Viso
Computacional, (WVC 2009).

80
81
_________________Referncias Bibliogrficas
A fim de situar no tempo a literatura utilizada para elaborao desta pesquisa,

apresenta-se a seguir o grfico referente literatura utilizada de acordo com o ano
de publicao e quantidade, como pode ser observado na figura 49.
Figura 49 Artigos e peridicos utilizados na pesquisa de acordo com o ano de publicao.
ALATTAR, A.; RAJALA S. (1999). Facial Features Localization in Front View Head
And Shoulders Images, IEEE International Conference on Accoustics,
Speech and Signal Processing, vol. 6, pp.3557-3560.
AMIT, Y.; GERMAN, D.; JEDYNAK B. (1997). Efficient Focusing and Face
Detection, Springer-Verlag, Face Recognition: From Theory to Applications,
pp. 143-158.
AMORIM, J. (2009). Sistema Nervoso, Site, Sala de Aula, disponvel em

http://www.passeiweb.com/na_ponta_lingua/sala_de_aula/biologia/biologia_a
nimal/sistema_nervoso/sist_nervoso, ultimo acesso em: dezembro de 2009.
82
BECHELLI, L. M., CURBAN, G. V.; Compndio de Dermatologia; Atheneu Editora;

So Paulo; 1963.
BHUIYAN, M. A.; AMPORNARAMVETH , V.; MUTO, S.; UENO, H. (2003). Face

Detection and Facial Feature Localization for Human-machine Interface, NII
Journal, n. 5.
BIANCHI, M. F. (2006), Extrao de caractersticas de imagens de faces humanas

atravs de wavelets, PCA e IMPCA, Dissertao, Escola de Engenharia de
So Carlos, USP Universidade de So Paulo.
BONVENTI JR, W; COSTA, A. H. R.; Sistema semi-automtica para deteco de

pele por agrupamentos nebulosos; VI Simpsio Brasileiro de Automao
Inteligente; Brasil; 2003.
CAETANO, T., OLABARRIAGA, S., BARONE, D.; Performance evaluation of single

and multiple-Gaussian models for skin color modeling; Proceedings XV
Brazilian Symposium on Computer Graphics and Image Processing
SIBGRAPI; IEEE; pp. 275-282; 2002.
CAETANO, T. S., BARONE, D. A.; A probabilistic model for the human skin color;
Proceedings of 11th International Conference on Image Analysis and
Processing ICIAP01; IEEE; pp. 279-284; 2001.
CAI, J.; GOSHTASBY, A.; YU, C. (1999). Detecting human faces in color images,
International Workshop on Multi-Media Database Management Systems, pp.
124-131.
FERIS, R. S.; CAMPOS, T. E.; MARCONDES-JR, R. C. (2000). Detection and

Tracking of Facial Features in Video Sequences, MICAI 2000: Advances in
Artificial Intelligence, pp. 127-135.
GASPAR, T. L. (2006), Reconhecimento de faces humanas usando redes neurais

MLP, Dissertao, Escola de Engenharia de So Carlos, USP Universidade
de So Paulo.
83
GASPAR, T. L.; PAIVA, M. S. V. (2005), Localizao de caractersticas faciais

usando projees horizontais e verticais, I Workshop de Viso
Computacional, (WVC 2005), pp. 135-138.
GONZALES, R. C.; WOODS, R. E. (2000), Processamento de Imagens Digitais,

Editora Edgard Blcher.
GOUVEIA, W. R.; PAIVA, M. S. V. (2009), Deteco de Faces Humanas em

Imagens Coloridas Utilizando Redes Neurais Artificiais, V Workshop de Viso
Computacional, (WVC 2009).
GOUVEIA, W. R.; LORENCETTI, A. A.; OLIVETE, A. L. (2005). Subtrao de fundo

em imagens digitais utilizado redes neurais artificiais MLP, I Workshop de
Viso Computacional, (WVC 2005), pp. 36-39.
HAYKIN, S. (2001), Redes Neurais: princpios e prtica, Editora Bookman.
HSU, R.; Abdel-Mottaleb, M.; Jain, A. K. (2002). Face detection in color images,
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 5, pp.
696-706.
JIN, Z.; LOU, Z.; YANG, J.; SUN, Q. (2007), Face detection using template matching
and skin-color information, Neurocomputing, vol. 70, pp. 794800.
JONES, M., REHG, J.; Statistical color models with application to skin detection;
International Journal of Computer Vision; Kluwer; pp. 81-96; 2002.
KANADE, T. (1973). Picture Processing System by Computer Complex and

Recognition of Human Faces, doctoral dissertation, Universidade de Kyoto.
KIRBY, M.; SIROVICH, L. (1990). Application of the Karhunen-Loeve procedure for

the characterization of human faces. IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 12, pp.103-108.
KOTROPOULOS, C.; PITAS, I. (1997). Rule-Based Face Detection in Frontal

Views, IEEE International Conference on Acoustics, Speech and Signal
Processing, vol. 4, pp. 2537-2540.
84
KOVAC, J., PEER, P., SOLINA, F.; Human skin colour clustering for face detection,
EUROCON 2003 International Conference on Computer as a Tool, IEEE,
2003.
LAURENT, C., LAURENT, N., BODO, Y.; A human skin detector combining mean
shift analysis and watershed algorithm; Proc. of International Conference on
Image Processing; Vol III; IEEE.; pp. 1025-1028; 2003.
LE, H. S; LI, H. (2004). Recognizing frontal face images using Hidden Markov
models with one training image per person, International Conference on
Pattern Recognition, vol. 1, pp. 318-321.
LEE, H. W.; KIL, S.; HAN, Y.; HONG; S. H. (2001). Automatic Face and Facial
Features Detection, IEEE International Symposium on Industrial Electronics,
vol. 1, pp 254-259.
LEE, K. F.; HON, H. W.; HWANG, M. Y.; HUANG, X. (1990). Speech Recognition
Using Hidden Markov Models: A CMU Perspective, Speech Communication,
Elsevier Science Publishers B. V., vol. 9, pp. 497-508.
LOPES, E. C. (2005). Deteco de Faces e Caractersticas Faciais, Relatrio

Tcnico, Pontifcia Universidade Catlica do Rio Grande do Sul PUCRS.
LYON, D.; VINCENT N. (2009). Interactive Embedded Face Recognition, Journal of

Object Technology, vol 8, n 1, pp. 23-53.
MARTINEZ, A. M.; BENAVENTE, R. (1998), The AR Face Database, CVC

Technical Report 24.
METZ, C. E.; Basic principles of ROC analysis; Seminars in Nuclear Medicina; pp.
283-298; 1978.
NASCIMENTO, A. V.; GOZAGA, A. (2005). Deteco de faces humanas em

imagens digitais: um algoritmo baseado em lgica nebulosa, I Workshop de
Viso Computacional, (WVC 2005), pp. 96-99.
85
NEIFAN, A. V.; HAYES, M. H. (1998). Face Detection and Recognition Using

Hidden Markov Models, International Conference on Image Processing, vol.
1, pp. 141-145.
PRADO, J. L. (2004), Investigao biomtrica em imagens digitais para deteco de

faces humanas atravs da proporo divina, Dissertao, Escola de
Engenharia de So Carlos, USP Universidade de So Paulo.
RABINER L. R. (1989), A Tutorial on Hidden Markov Models and Selected

Applications in Speech Recognition, Procedings of the IEEE, Vol. 77, n. 2, pp.
257-286.
RABINER, L. R.; JUNG, B. H. (1993), Fundamentals of Speech Recognition.

Prentice Hall.
RAMOS FILHO, H. S.; Deteco de pele humana em Imagens veiculadas na WEB;

Dissertao de Mestrado; Macei; 2006.
RIKERT, T. D. (1999). Texture-Based Statistical Models for Object Detection in

Natural images, Dissertao de mestrado, Massachusetts Institute of
Technology.
ROWLEY, H. A.; BALUJA, S.; KANADE, T. (1998a), Neural network-based face

detection, IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 20, pp. 23-38.
ROWLEY, H. A.; BALUJA, S.; KANADE, T. (1998b), Rotation Invariant Neural

Network-Based Face Detection, IEEE Proceedings on Computer Vision and
Pattern Recognition.
SABER, E.; TEKALP, A. M. (1998), Frontal-view Face Detection and Facial Feature
Extraction Using Color, Shape and Symmetry Based Cost Functions , Pattern
Recognition Letters, vol. 19, pp. 669-680,
SAMARIA, F.S. (1994). Face Recognition Using Hidden Markov Models, Tese,
Univ. of Cambridge, 1994.
86
SANTOS, A. R. (2005), Identificao de faces humanas atravs de PCA-LDA e

redes neurais SOM, Dissertao, Escola de Engenharia de So Carlos, USP
Universidade de So Paulo.
SIROHEY, S. A. (1993). Human face segmentation and identification, Relatrio

Tcnico, Universidade de Maryland.
SOBOTTKA, J.; PITTAS, I. (1996). Segmentation and tracking of faces in color

images, Proceedings of the Second International Conference on Automatic
Face and Gesture Recognition, pp. 236-241.
TERRILLON, J., SHIRAZI, M. N., FUKAMACHI, H., AKAMATSU, S.; Comparative

performance of different skin chrominance models and chrominance spaces
for the automatic detection of human faces in color images; IEEE
International Conference on Face and Gesture Recognition; pp. 54-61; 2000.
TURK, M. A.; PENTLAND, A. P. (1991). Face recognition using eigenfaces. IEEE

Computer Society Conference on Computer Vision and Pattern Recognition,
pp. 586- 591.
VEZHNEVETS, V. (2002). Face and Facial Feature Tracking for Natural Human-
Computer Interface, disponvel em http://graphics.cs.msu.ru/en/publications/
text/gc2002vvezh.pdf, ultimo acesso em: dezembro de 2009.
WANG, J.G.; SUNG, E. (1999), Frontal-view Face Detection and Facial Feature
extraction Using Color and Morphological Operations, Pattern Recognition
Letters, vol. 20, pp. 1053-1068.
WON, K. W.; LAM; K. M., SIU, W.C. (2001). An Efficient Algorithm for Human Face
Detection and Facial Feature Extraction under Different Conditions, Pattern
Recognition Letters, vol 34, pp. 1994-2004.
XU, T. Q.; LI, B. C. Li; WANG, B. (2003). Face detection and recognition using
neural network and hidden Markov models, International Conference on
Neural Networks and Signal Processing, vol. 1, pp. 228-231.
87
YANG, G.; HUANG, T. S. (1994). Human Face Detection in Complex Background,

Pattern Recognition, vol. 27, no. 1, pp. 53-63.
YANG, M. H.; KRIEGMAN, D. J.; AHUJA, N. (2002). Detecting Faces in Images: A

Survey, IEEE Transactions on Pattern Analysis and Machine Inteligence. Vol
24, no. 1.
YANG, M. H.; AHUJA, N. (1998) . Detecting human faces in color images,

International Conference on Image Processing, vol 1, pp. 127-130.
YUILLE, A. L.; HALLINAN, P. W.; COHEN, D. S. (1992). Feature Extraction from

Faces Using Deformable Templates, International Journal of Computer
Vision, vol.8, n. 2, pp. 99-111.
YI, J., PARK, J., KIM, J., CHOI, J., Robust skin color segmentation using a 2d plane
of RGB color space, Lecture Notes in Computer Science, vol. 2869, ISCIS
2003, pp. 413-420; 2003.
ZAPATA, J.; RUIZ, R. (2007), Biometric and Color Features Fusion for Face
Detection and Tracking in Natural Vdeo Sequences, IWINAC 2007, PART II,
PP. 7280.
88
89
___Apndice A Banco de Imagens da Internet
Imagem 1
Original Segmentada Faces Detectadas
Imagem 2
Imagem 3
Imagem 4

90
Imagem 5
Imagem 6
Imagem 7
Imagem 8
Imagem 9

91
Imagem 10
Imagem 11
Imagem 12
Imagem 13

92
Imagem 14
Imagem 15
Imagem 16
Imagem 17
]

93
Imagem 18
Imagem 19
Imagem 20
Imagem 21

94
Imagem 22
Imagem 23
Imagem 24
Imagem 25

95
_________Apndice B Banco de Imagens AR
Imagem 1
Imagem 2
Imagem 3
Imagem 4

96
Imagem 5
Imagem 6
Imagem 7
Imagem 8
Imagem 9

97
Imagem 10
Imagem 11
Imagem 12
Imagem 13
Imagem 14

98
Imagem 15
Imagem 16
Imagem 17
Imagem 18
Imagem 19

99
Imagem 20
Imagem 21
Imagem 22
Imagem 23
Imagem 24

100
Imagem 25

Wellington PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Wellington PDF

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE DE SO PAULO

ESCOLA DE ENGENHARIA DE SO CARLOS

DETECO DE FACES HUMANAS EM

Wellington da Rocha Gouveia

Orientadora: Profa. Dra. Maria Stela Veludo de Paiva

Primeiramente a Deus, a minha me que j no esta entre ns, aos meus

Agradeo a Deus por me presentear com a minha famlia, com meus

Gouveia, W. R. Deteco de Faces Humanas em Imagens Coloridas Utilizando

A tarefa de encontrar faces em imagens extremamente complexa, pois pode

Palavras-Chave: Deteco de Face, Imagens Coloridas, Redes Neurais, MLP,

Gouveia, W. R. Detection of Human Faces in Color Images Using Artificial

The task of finding faces in images is extremely complex, as there is variation in

Keywords: Face Detection, Color Images, Neural Networks, MLP, Multilayer

____________Lista de Abreviaturas e Siglas

MLP Perceptron Multicamadas (Multi-Layer Perceptron)

A deteco uma das etapas iniciais do reconhecimento facial, sendo

portanto, de extrema importncia para o algoritmo de reconhecimento. Dada uma

imagem, o objetivo da deteco de face segmentar todas as regies da imagem

que contm uma face, independente de sua posio, orientao e condies de

A combinao de tcnicas das reas de processamento de imagens e

inteligncia artificial, mais especificamente Redes Neurais Artificiais (RNA), Sistemas

Fuzzy e Sistemas Inteligentes (uma combinao de RNA e Sistemas Fuzzy), tem

sido utilizadas na implementao de algoritmos de deteco mais eficientes.

Alguns trabalhos podem ser mencionados na tarefa de deteco facial,

podendo-se citar o de Jin et al (2007) e o de Zapata e Ruiz (2007) que utiliza

informaes de cor de pele, o de Santos (2005) que usa PCA-LDA (Principal

Component Analysis- Linear Discriminat Analysis) e RNA SOM (Self-Organizing

utiliza proporo divina, e o trabalho de Gaspar (2006), onde foi desenvolvido um

software para a extrao de caractersticas faciais e o posterior reconhecimento da

segmentao de pele, separando cor de pele e objetos identificados como face, de

outros objetos presentes em uma imagem. Com a segmentao de pele reduzida

a quantidade de informao para o processo de deteco.

O presente trabalho vem complementar o trabalho de Gaspar (2006), na

etapa que antecede a extrao de caractersticas, ou seja, identificar se existe face

1.2 Estrutura do Trabalho

Este trabalho est disposto da seguinte forma:

Captulo 1 Introduo, que inclui a proposta e objetivo do trabalho;

Capitulo 2 Deteco de Faces, que apresenta os principais mtodos

utilizados para a deteco de faces humanas em imagens de interesse

para esse trabalho;

Captulo 3 Redes Neurais Artificiais, onde foram revisados os

mtodos de redes neurais artificiais utilizados para a realizao deste

Captulo 4 Deteco de Faces em Imagens Coloridas - Metodologia,

neste captulo so apresentados os mdulos desenvolvidos e a

metodologia utilizada em cada mdulo para o software de deteco de

Captulo 5 Resultados e Discusses.

Capitulo 6 Concluses e Sugestes para Trabalhos Futuros.

2.1 Consideraes Iniciais

Neste captulo so descritos os principais trabalhos sobre deteco de faces,

A deteco de faces consiste na utilizao de tcnicas computacionais para

determinar se existem faces ou no em uma imagem e, se existirem, deve retornar a

seres humanos, a implementao de sistemas computacionais que realize esta

tarefa complexa, devido a diversas dificuldades, tais como Yang e Kriegman

(2002), Lopes (2005) e Lyon e Vincent (2009):

Pose: a posio de uma ou mais face presente numa imagem varia

devido posio da face em relao cmera (frontal, 45 graus, perfil,

de cabea para baixo) e, alm disso, alguns componentes faciais como

olhos e nariz, podem estar parcialmente ou totalmente obstrudos.

Presena de componentes estruturais: a presena de elementos na

face tais como, barba, bigode e culos, que podem modificar

caractersticas como a forma, o tamanho e a cor.

Expresso facial: a expresso da face afeta diretamente a aparncia

Ocluso: as faces podem estar parcialmente obstrudas por outros