Dissertacao EanesTorresPereira

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE
CENTRO DE ENGENHARIA ELTRICA E INFORMTICA

COORDENAO DE PS-GRADUAO EM INFORMTICA
Ateno Visual Bottom-up Guiada por Otimizao

via Algoritmos Genticos
Eanes Torres Pereira
Campina Grande, Paraba, Brasil

Maro de 2007
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE
CENTRO DE ENGENHARIA ELTRICA E INFORMTICA
COORDENAO DE PS-GRADUAO EM CINCIA DA COMPUTAO
Ateno Visual Bottom-up Guiada por Otimizao

via Algoritmos Genticos
Eanes Torres Pereira
Dissertao submetida Coordenao do Curso de Ps-

Graduao em Cincia da Computao do Centro de
Engenharia Eltrica e Informtica da Universidade Fe-
deral de Campina Grande Campus I como parte dos
requisitos necessrios para obteno do grau de Mestre
em Cincia da Computao (MSc).
rea de Concentrao: Cincia da Computao

Linha de Pesquisa: Modelos Computacionais e Cognitivos
Herman Martins Gomes

Orientador
Campina Grande, Paraba, Brasil

Maro de 2007
FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA CENTRAL DA UFCG
P436 Pereira, Eanes Torres

2007 Ateno visual bottom-up guiada por otimizao via algoritmos genticos/
Eanes Torres Pereira. Campina Grande, 2007
118fs.: il.
Referncias
Dissertao (Mestrado em Cincia da Computao) -
Universidade Federal de Campina Grande,
Centro de Engenharia Eltrica e Informtica.
Orientador: Herman Martins Gomes.
1 Viso Computacional 2 Ateno Visual Bottom-up 3

Algoritmos Genticos 4 Otimizao 5 Grades Computacionais I
Ttulo CDU 004.932
Dissertao de Mestrado sob o ttulo Ateno Visual Bottom-up Guiada por Otimizao
via Algoritmos Genticos, defendida por Eanes Torres Pereira e aprovada em Maro de
2007, em Campina Grande, Estado da Paraba, pela banca examinadora constituda pelos
doutores:
Prof. Ph.D. Herman Martins Gomes

DSC / CEEI / UFCG
Orientador
Prof. Ph.D. Francisco Vilar Brasileiro

DSC / CEEI / UFCG
Examinador
Prof. Ph.D. Edson Costa de Barros Carvalho Filho

CIN / UFPE
Examinador
Resumo
A ateno visual um mecanismo biologicamente inspirado, o qual corresponde habi-

lidade de selecionar e processar somente as regies mais relevantes de uma cena visual. Para
fins didticos, a ateno visual pode ser dividida em duas categorias principais: bottom-up
e top-down. A ateno visual bottom-up guia o foco de ateno a partir de caractersti-
cas primitivas (como descontinuidades de intensidade em diferentes escalas e orientaes)
computadas diretamente na imagem, sem qualquer informao contextual. A ateno visual
top-down, por outro lado, realiza uma busca por regies de interesse a partir de caractersti-
cas de alto nvel, especificadas na forma de conhecimento prvio na forma ou modelos sobre
o que se est buscando na cena. A principal questo de pesquisa que procuramos responder
nessa dissertao a seguinte: como seria possvel agregar algum comportamento de alto
nvel a um mecanismo tpico de ateno visual bottom-up (guiando dessa forma o foco de
ateno para classes de regies pr-estabelecidas)? O modelo mais conhecido de ateno
visual bottom-up utiliza vrios mapas de caractersticas primitivas para formar um mapa de
salincia, o qual indica a importncia do ponto de vista atencional das diferentes regies de
uma cena. Nesse trabalho, atribumos pesos aos mapas de caractersticas e desenvolvemos
um processo de otimizao baseado em algoritmos genticos simulados em uma grade com-
putacional. Foram realizados experimentos com quatro classes de objetos (carros, faces de
pessoas, objetos genricos e pistolas). Os resultados utilizando ateno bottom-up com oti-
mizao foram comparados com os resultados de um mecanismo sem otimizao de pesos
e com um sistema existente que implementa o difundido modelo de ateno visual proposto
por Itti et al. [Itti et al., 1998]. Os resultados mostraram ganhos de at 30% utilizando-se a
abordagem proposta. Desta forma, este trabalho mostra que a ateno visual pode ser gui-
ada para regies pr-definidas, podendo ser utilizada como parte de sistemas de deteco de
objetos.
v
Abstract
Visual attention is a biologically inspired mechanism, which corresponds to the ability

of selecting and processing only the most relevant regions of a visual scene. For didactic
purposes, visual attention can be divided into two main categories: bottom-up and top-down.
Bottom-up visual attention guides the attention focus by using primitive visual features (such
as discontinuities in intensity across different scales and orientations) computed directly from
the input image, without the need of any context information. Top-down visual attention, on
the other side, performs a search for interest regions from higher-level features, specified in
the form of previous knowledge or models about what is being sought in the scene. The main
research question that we intended to answer in this dissertation was the following: how it
would be possible to incorporate some higher-level behaviour into a typical bottom-up visual
attention mechanism (thus guiding the attention focus to pre-established classes of objects)?
The most known bottom-up visual attention model uses several primitive feature maps to
form a saliency map, which indicates the importance of the different scene regions. In this
work, we assigned weights to the feature maps and developed an optimization process based
on genetic algorithms running on a computational grid. Experiments involving four object
classes (cars, human faces, generic objects and pistols) have been performed. The results of
the optimized bottom-up mechanism have been compared with the results of a mechanism
not using optimized weights and with an existing system that implemented the well known
visual attention mechanism proposed by Itti et al. [Itti et al., 1998]. The results have shown
an improvement of up to 30% when using the optimized mechanism. Thus, this work shows
that visual attention can indeed be guided towards pre-defined regions and can be used as
part of object detection systems.
vi
Agradecimentos
Aos meus companheiros de laboratrio (Bruno, Claudio, Eduardo, Einstein, Felipe, Lu-
ciana, Luana, Rodrigo, Thiago, Vinicius e Walter) pelas inmeras discusses, filosficas ou
no, travadas durante nosso perodo de convivncia. Agradeo tambm a vocs, compa-
nheiros de laboratrio, pelas inmeras vezes que viram o que eu no estava vendo (mesmo
que tenha sido um ponteiro apontando para o nada e gerando falha de segmentao) e me
mostraram o caminho do delete aps o new.
Aos amigos alagoanos, pelas longas sesses de cinema (cine flamingo), pizza, batata e
counter-strike que nos fizeram esquecer ao menos por algumas horas de todo o trabalho que
tnhamos a fazer. Agradeo, tambm, a pacincia que Fred, Milena e Xambinho tiveram
comigo, principalmente durante o primeiro ano de mestrado. Em especial queles que me
guiaram ao TAO, Xambinho (por meio de sua computao quntica) e Elthon (por meio de
seus filmes e documentrios intrigantes).
Ao professor Herman, pela orientao e acompanhamento constantes que foram funda-
mentais para a realizao deste trabalho.
A Aninha e Vera por sempre estarem prontas a servir.
Ludmila por ter me ajudado na finalizao deste trabalho, desempenhando pratica-
mente o papel de coach, oferecendo suas mos quando no pude usar as minhas e, alm
disso, por trazer um pouco mais de sentido minha existncia.
Aos meus pais, que sempre me apoiaram em todos os meus empreendimentos, mesmo
que em alguns momentos no entendessem o porqu de eu seguir determinados caminhos.
A Deus, Al, Jav, Jeov, enfim, Fora que criou e domina o universo, por, apesar
de me ter imposto a existncia, ter me permitido esta vida maravilhosa e a realizao deste
trabalho.
vii
Contedo
1 Introduo 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Descrio do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Relevncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Estrutura da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Fundamentos de Ateno Visual e Algoritmos Genticos 8

2.1 Ateno Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Inspirao Biolgica . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Modelo de Itti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Combinao de Mapas de Caractersticas . . . . . . . . . . . . . . 12
2.2 Algoritmos Genticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Inspirao Biolgica . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Algoritmo Gentico Clssico . . . . . . . . . . . . . . . . . . . . . 23
2.2.3 Breve Demonstrao da Eficcia dos Algoritmos Genticos . . . . . 25
2.3 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Reviso Bibliogrfica 27
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up . . . . . 27
3.2 Uso de Ateno Visual na Melhoria do Desempenho de Sistemas de Reco-
nhecimento de Padres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Utilizao de Algoritmos Genticos como Mtodos de Otimizao em Sis-
temas de Viso Computacional . . . . . . . . . . . . . . . . . . . . . . . . 36
viii
CONTEDO ix
4 Sistema Proposto 42
4.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Implementao do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Mdulo de Verificao de Regies Salientes . . . . . . . . . . . . . 45
4.2.2 Mdulo de Ateno Visual . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Mdulo de Otimizao de Pesos . . . . . . . . . . . . . . . . . . . 49
4.2.4 Biblioteca para Implementao de Algoritmos Genticos . . . . . . 51
4.3 Descrio sobre o Uso do OurGrid . . . . . . . . . . . . . . . . . . . . . . 52
5 Resultados Experimentais 57
5.1 Detalhes sobre a Obteno das Imagens e Otimizao dos Pesos . . . . . . 57
5.1.1 Obteno de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.2 Otimizao dos Pesos . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2 Processo de Otimizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Determinao dos Parmetros para os Algoritmos Genticos . . . . 60
5.2.2 Imagens de Objetos Genricos . . . . . . . . . . . . . . . . . . . . 60
5.2.3 Imagens Contendo Faces de Pessoas . . . . . . . . . . . . . . . . . 61
5.2.4 Imagens de Armas . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.5 Imagens de Carros . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3 Descrio do Sistema Utilizado para Comparao . . . . . . . . . . . . . . 65
5.3.1 Experimentos com o iNVT . . . . . . . . . . . . . . . . . . . . . . 65
5.4 Resultados da Verificao das Regies Salientes . . . . . . . . . . . . . . . 67
5.4.1 Imagens Contendo Faces de Pessoas . . . . . . . . . . . . . . . . . 67
5.4.2 Imagens Contendo Objetos Genricos . . . . . . . . . . . . . . . . 68
5.4.3 Imagens Contendo Armas . . . . . . . . . . . . . . . . . . . . . . 69
5.4.4 Imagens Contendo Carros . . . . . . . . . . . . . . . . . . . . . . 69
5.5 Problemas Enfrentados com o Uso do OurGrid . . . . . . . . . . . . . . . 70
CONTEDO x
6 Concluso 74
6.1 Sumrio da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.1 Outras Formas para Otimizao de Algoritmos Genticos . . . . . . 77
6.3.2 Aplicaes do Sistema Proposto . . . . . . . . . . . . . . . . . . . 78
A Shell Script para Gerenciamento de Memria 84
B Grficos das Evolues dos Algoritmos Genticos no Processo de Escolha de um

Valor para Mutao 88
B.1 Imagens Contendo Armas . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
B.2 Imagens Contendo Objetos Genricos . . . . . . . . . . . . . . . . . . . . 94
B.3 Imagens Contendo Faces de Pessoas . . . . . . . . . . . . . . . . . . . . . 99
B.4 Imagens Contendo Carros . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
C Grficos das Otimizaes 109
D Amostra de Imagens Utilizadas 114

Lista de Figuras
1.1 Exemplo de ponto de ateno em regio genrica. . . . . . . . . . . . . . . 3

1.2 Exemplo de ponto de ateno em regio especfica (face). . . . . . . . . . . 5
2.1 Exemplos de tarefas de busca visual. . . . . . . . . . . . . . . . . . . . . . 10

2.2 Mecanismo de ateno visual. A imagem de entrada passa por um processo
de filtragem linear, gerando mapas de conspicuidade que so somados line-
armente para gerar os mapas de salincias. . . . . . . . . . . . . . . . . . . 11
2.3 Pirmide Gaussiana de 5 nveis. . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Pirmide Direcional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Exemplo de mapa de salincia. . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6 Ilustrao do mtodo de seleo. As regies com reas maiores possuem
maiores probabilidades de serem selecionadas. Por exemplo, h uma maior
probabilidade da regio D ser selecionada do que a regio A. . . . . . . . . 24
2.7 Ilustrao da gerao de uma nova populao em um algoritmo gentico. Em
(a), temos uma populao inicial de 4 indivduos. A aptido dos indivduos
obtida pela funo de aptido em (b). Em (c), dois pares so selecionados.
Em (d), vemos uma nova prole, gerada pelo cruzamento. Finalmente, em (e),
ocorre mutao e uma nova populao gerada. . . . . . . . . . . . . . . . 25
2.8 Representao de um espao de busca como hiperplanos formadores de um
cubo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1 Ilustrao da escolha do mapa de conspicuidade mais importante para a sali-

ncia. As Figuras 3.1(a), 3.1(b) e 3.1(c) representam os mapas de conspicui-
dade. A Figura 3.1(d) representa a imagem original e a Figura 3.1(e) o mapa
de salincia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
xi
LISTA DE FIGURAS xii
3.2 Exemplo de imagem cuja segmentao da regio saliente impe dificuldades

ao algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Criao do mapa de salincia. . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Arquitetura do sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Mdulo de ateno visual. . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Mdulo de verificao de regies salientes. . . . . . . . . . . . . . . . . . 44
4.4 Exemplos de imagens utilizadas na otimizao. Os retngulos indicam as
regies de interesse selecionadas manualmente. . . . . . . . . . . . . . . . 47
4.5 Ilustrao do mdulo de ateno visual. . . . . . . . . . . . . . . . . . . . 48
4.6 Pgina de status do OurGrid. . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.7 Interface grfica do MyGrid em execuo. . . . . . . . . . . . . . . . . . . 55
5.1 Melhores mdias de cada gerao para imagens contendo objetos genricos. 61
5.2 Melhores mdias de cada gerao para imagens de pessoas. . . . . . . . . . 62
5.3 Melhores mdias de cada gerao para imagens contendo armas. . . . . . . 63
5.4 Melhores mdias de cada gerao para imagens contendo carros. . . . . . . 64
5.5 Marcao dos pontos salientes obtidos pelo sistema iNVT. . . . . . . . . . 68
5.6 Comparao dos resultados para imagens contendo pessoas. . . . . . . . . 68
5.7 Comparao dos resultados para imagens contendo objetos genricos. . . . 69
5.8 Comparao dos resultados para imagens contendo pistolas. . . . . . . . . 70
5.9 Comparao dos resultados para imagens contendo carros. . . . . . . . . . 71
B.1 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
LISTA DE FIGURAS xiii
igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
B.11 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
o igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
o igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
o igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
o igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
o igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
o igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
o igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
o igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
o igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
LISTA DE FIGURAS xiv
B.21 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
o igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
o igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
o igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
o igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
o igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
o igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
o igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
o igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
o igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.31 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
LISTA DE FIGURAS xv
igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
C.1 Mdias para imagens contendo objetos genricos. . . . . . . . . . . . . . . 109

C.2 Desvios-padro para imagens contendo objetos genricos. . . . . . . . . . 110
C.3 Mdias para imagens contendo carros. . . . . . . . . . . . . . . . . . . . . 110
C.4 Desvios-padro para imagens contendo carros. . . . . . . . . . . . . . . . . 111
C.5 Mdias para imagens contendo pistolas. . . . . . . . . . . . . . . . . . . . 111
C.6 Desvios-padro para imagens contendo pistolas. . . . . . . . . . . . . . . . 112
C.7 Mdias para imagens contendo faces de pessoas. . . . . . . . . . . . . . . 112
C.8 Desvios-padro para imagens contendo faces de pessoas. . . . . . . . . . . 113
D.1 Imagens contendo objetos genricos utilizadas no processo de otimizao. . 115

D.2 Imagens contendo objetos genricos com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado por algoritmos
genticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
D.3 Imagens contendo faces de pessoas utilizadas no processo de otimizao. . 116
D.4 Imagens contendo faces de pessoas com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado. . . . . . . . . 116
D.5 Imagens contendo carros utilizadas no processo de otimizao. . . . . . . . 117
D.6 Imagens contendo carros com a marcao dos cinco pontos mais salientes
obtidos com o sistema de ateno visual otimizado. . . . . . . . . . . . . . 117
D.7 Imagens contendo armas utilizadas no processo de otimizao. . . . . . . . 118
LISTA DE FIGURAS xvi
D.8 Imagens contendo pistolas ou revlveres com a marcao dos cinco pontos
mais salientes obtidos com o sistema de ateno visual otimizado. . . . . . 118
Lista de Tabelas
2.1 Caractersticas que podem guiar a ateno visual. . . . . . . . . . . . . . . 11
5.1 Pesos para objetos genricos. . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2 Pesos para imagens de pessoas. . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3 Pesos para imagens de pistolas. . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Pesos para imagens de carros. . . . . . . . . . . . . . . . . . . . . . . . . 64
xvii
Captulo 1
Introduo
Nesta dissertao, investigado o uso de otimizao via algoritmos genticos para guiar um
mecanismo de ateno visual bottom-up para regies contendo objetos ou regies de ima-
gens com caractersticas pr-definidas. A otimizao objetiva agregar conhecimento de alto
nvel a um mecanismo que utiliza apenas caractersticas primitivas, como o caso da aten-
o visual bottom-up. Vrios experimentos foram realizados visando comparar, identificar
semelhanas e qualidades em relao a um sistema de ateno visual bottom-up amplamente
utilizado. A seguir, a motivao para o desenvolvimento desse trabalho apresentada, as
principais caractersticas e limitaes nas solues existentes so descritos e os principais
objetivos desta pesquisa so apresentados. O captulo concludo com uma breve descrio
da estrutura da dissertao.
1.1 Motivao
A curiosidade uma caracterstica inerente ao ser humano. Tal caracterstica tem impul-
sionado o desenvolvimento cientfico desde os primrdios da humanidade. A Cincia tem
tentado explicar e entender os fenmenos que ocorrem na natureza. Entender o funciona-
mento do corpo humano obviamente parte integrante desta constante busca da Cincia.
Vrios ramos cientficos foram criados objetivando o estudo minucioso do corpo humano.
Dentre eles, pode-se citar: a Anatomia, a Psicologia e a Fisiologia.
Porm, somente entender e explicar o funcionamento do prprio corpo no o bastante
para as mentes vidas por conhecimento. Ao longo do tempo, a Cincia criou novos ramos
1
1.1 Motivao 2
de estudo que envolvem a simulao de processos que ocorrem no corpo humano e buscam
tambm criar modelos ou mquinas que simulem determinadas caractersticas e comporta-
mentos humanos. Algumas reas tm se destacado em tal empreendimento, como o caso
da Inteligncia Artificial. A Inteligncia Artificial consiste de esforos intelectuais e tecnol-
gicos relacionados construo de mquinas inteligentes, formalizao do conhecimento,
mecanizao do raciocnio, e ao uso de modelos computacionais para compreender a Psi-
cologia e o comportamento de pessoas e animais [Doyle and Dean, 1996].
Vrias reas da Cincia da Computao utilizam conhecimentos da Inteligncia Artificial
com o intuito de automatizar processos. o que ocorre com a Viso Computacional, rea
na qual este trabalho se enquadra. A Viso Computacional tem como objetivo interpretao
automtica de cenas complexas [Jain and Dorai, 1997]. Alguns dos principais problemas da
Viso Computacional so o reconhecimento e a aprendizagem de modelos visuais.
Um problema recorrente quando se deseja fazer reconhecimento ou aprendizagem de
modelos visuais a dificuldade de se encontrar um tcnica robusta capaz de extrair regies
contendo objetos de imagens genricas. A forma mais primitiva de se realizar a extrao de
tais regies seria uma busca pixel a pixel na imagem. Porm, vrios sistemas tm sido desen-
volvidos utilizando ateno visual para agilizar o processo de busca por regies importantes
nas imagens.
A ateno visual a habilidade que o sistema visual dos vertebrados superiores utiliza
para selecionar e processar somente as regies mais relevantes em uma cena visual. A aten-
o visual pode ser entendida como um mecanismo para lidar com a incapacidade de tratar de
uma s vez uma grande quantidade de informao visual tanto em sistemas biolgicos quanto
em sistemas computacionais. Deste modo, somente as regies mais importantes numa cena
so escolhidas para processamento [Fischer and Weber, 1993]. Esta seleo das informaes
mais relevantes dos estmulos de entrada uma das caractersticas mais importantes dos sis-
temas visuais biolgicos que permite rpida deteco de predadores, perpetuao e evoluo
das espcies [Itti and Koch, 2001a].
H dois mtodos principais para obteno da Ateno Visual. Os mtodos top-down e
bottom-up. O mtodo top-down usa conhecimentos obtidos a priori para detectar regies
de maior interesse numa imagem. Esses conhecimentos podem ser obtidos de vrias for-
mas. Geralmente, utilizam-se ferramentas de aprendizagem baseadas em modelos estats-
1.1 Motivao 3
ticos como, por exemplo: redes neurais e mquinas de vetores de suporte. Porm, esses
conhecimentos tambm podem ser fornecidos por um ser humano, selecionando-se manual-
mente regies de maior interesse numa imagem. A ateno visual bottom-up guiada por
caractersticas primitivas da imagem como cor, intensidade e orientao. Alm disso, ela
atua de modo inconsciente, ou seja, o observador levado a fixar sua ateno em determina-
das regies da imagem devido aos estmulos causados pelos contrastes entre caractersticas
visuais presentes na imagem.
O sistema de ateno visual bottom-up proposto por Itti et al. [Itti et al., 1998] o mais
conhecido e utilizado atualmente para seleo de regies salientes em imagens. No entanto,
uma caracterstica inerente a sistemas bottom-up o fato de tais sistemas identificarem re-
gies importantes em reas da imagem que no necessariamente contm objetos bem defini-
dos. Isto ocorre devido s caractersticas de tais regies se sobressarem em relao as suas
vizinhas independentemente de tais regies conterem objetos ou no. Vrios experimentos
tm demonstrado que a ateno visual pode ser guiada pelas caractersticas tidas como mais
importantes para selecionar determinadas regies [Wolfe, 2000]. A Figura 1.1 ilustra uma
regio que possui um alto valor de salincia, porm no contm nenhum objeto especfico.
O ponto saliente dessa figura um resultado artificial e foi obtido pela aplicao do sistema
de Itti et al. [Itti et al., 1998]. O ponto central da regio circular indica o ponto mais saliente
da imagem, deve-se ressaltar que, por se tratar de ateno visual bottom-up, esta salincia
inconsciente, sendo guiada apenas por caractersticas primitivas da imagem. Neste caso, a
grande intensidade da iluminao na regio destacada explica seu alto valor de salincia.
Figura 1.1: Exemplo de ponto de ateno em regio genrica.

1.2 Descrio do Problema 4
com o intuito de guiar a ateno para regies que contenham objetos de interesse que
este trabalho prope um mecanismo que otimiza pesos utilizando algoritmos genticos, tais
pesos so atribudos aos diversos mapas utilizados para formar o mapa de salincias. Este
mecanismo descrito no captulo 4.
1.2 Descrio do Problema

O problema que se pretende resolver definido a seguir: dada uma imagem contendo, ou
no, background complexo, como guiar um mecanismo de ateno visual bottom-up para
que ele se atenha a regies contendo objetos de interesse e no seja desviado para regies
que no contenham tais tipos de objetos? Este problema pode ser decomposto em trs partes:
Escolha de um mtodo de ponderao que atribua pesos aos mapas que formam o mapa
de salincias;
Determinao de um mecanismo para otimizar os pesos de forma a ressaltar caracte-

rsticas especficas dos objetos que se deseja selecionar como mais salientes;
Identificao de um meio eficaz para otimizar os pesos.
A seo a seguir, expe os objetivos deste trabalho, bem como ressalta a relevncia do
mesmo. Alm disso, descreve o que se prope para resolver o problema exposto nesta seo.
1.3 Objetivos
O objetivo deste trabalho desenvolver um sistema de ateno visual bottom-up que possa
ser guiado para identificar regies salientes em imagens de acordo com as preferncias do
usurio. Por exemplo, se o usurio do sistema deseja que em imagens contendo pessoas ape-
nas as regies das faces sejam ressaltadas como mais salientes, ele deve utilizar um conjunto
de pesos que tenha sido previamente otimizado para ressaltar regies de faces de pessoas em
imagens. Um exemplo desse tipo de regio saliente o apresentado na Figura 1.2.
A seguir so apresentados os objetivos especficos nos quais este trabalho foi dividido:
1.4 Relevncia 5
Figura 1.2: Exemplo de ponto de ateno em regio especfica (face).
Desenvolvimento de um mdulo de ateno visual bottom-up - Mecanismo de aten-

o visual que guia o processamento de forma que o sistema selecione apenas as prin-
cipais regies da cena. Neste objetivo se enquadra, tambm, o estudo de mecanismos
de ateno visual existentes.
Desenvolvimento de um mdulo de algoritmos genticos - Estudar algoritmos ge-

nticos e selecionar uma biblioteca para implementao dos mesmos. Alm disso, este
objetivo busca criar o mecanismo de gerao e otimizao de pesos para os mapas de
caractersticas e conspicuidades. O objetivo da otimizao dos pesos dos mapas de-
terminar previamente que tipo de regies deseja-se que sejam detectadas como mais
salientes, guiando-se, desta forma, a busca por regies.
Realizao de experimentos - Aps a implementao do sistema, foram realizados

diversos experimentos para validar e verificar as melhorias adquiridas pelo incremento
das caractersticas aqui expostas forma convencional de se determinar regies sali-
entes em imagens. Alm disso, os experimentos objetivaram realizar um estudo com-
parativo do sistema proposto com o sistema de Itti et al. [Itti et al., 1998].
1.4 Relevncia
H vrios trabalhos [Navalpakkam and Itti, 2002; Navalpakkam and Itti, 2003; Navalpakkam
and Itti, 2006; Sun et al., 2003] que propem mtodos para integrar conhecimentos de alto
nvel a sistemas de ateno visual bottom-up, porm todos utilizam informao estatstica ou
conhecimento estruturado (como ontologias e grafos) para adicionar conhecimento de alto
1.4 Relevncia 6
nvel ateno visual bottom-up. Isto pode acarretar no uso de solues que so, na verdade,
locais ao problema tratado. Para evitar a parada em mnimos ou mximos locais, geralmente
so utilizados mtodos como algoritmos genticos e simulated annealing (tmpera simu-
lada). Como o uso de algoritmos genticos como meio de atribuir informao de alto nvel
a sistemas de ateno visual bottom-up ainda no foi bem investigado pela literatura especi-
alizada, este trabalho se prope a analisar a viabilidade do uso de algoritmos genticos para
resolver este problema.
O sistema proposto pode ser utilizado como um mdulo em sistemas de deteco ou
reconhecimento [Rodrigues, ], podendo ser otimizado para guiar a ateno para determinadas
classes de objetos. Ele pode servir como meio para agilizar a localizao dos objetos mais
importantes da cena. Como exemplos de aplicaes prticas do sistema temos: filtragem
web [Fong. and Hui, 2001] e segurana de ambientes [Lopez et al., 2006]. No primeiro
caso, o sistema funcionaria acoplado a um navegador web e filtraria pginas que contivessem
imagens com determinados tipos de objetos. Por exemplo, poderia-se evitar que o navegador
mostrasse pginas que contivessem imagens de armas. No segundo caso, o sistema poderia
ser integrado rede de cmeras de segurana de algum estabelecimento comercial e ao sinal
(emitido por um segurana) de algum indivduo suspeito carregando um objeto estranho o
sistema poderia rastrear as imagens das cmeras em busca do objeto e conseqentemente do
indivduo.
A deteco de assunto em fotografia tambm uma aplicao na qual o sistema proposto
pode ser utilizado. Inclusive, este sistema foi desenvolvido com o intuito de melhorar o de-
sempenho de um sistema de deteco de assunto implementado em um projeto de pesquisa
do qual o autor participa. Neste sistema de deteco de assunto, a ateno visual foi otimi-
zada para ser guiada para regies contendo faces. Desta forma, o sistema de ateno visual
serve como facilitador para um detector de faces.
Este trabalho se prope a atribuir conhecimento de alto nvel a um mecanismo de aten-
o visual que utiliza caractersticas primitivas (cor, intensidade e orientao). Este conhe-
cimento de alto nvel atribuido utilizando-se algoritmos genticos e seleo de regies
salientes por seres humanos na etapa de otimizao dos pesos. A otimizao dos mapas
de caractersticas possibilitar que a ateno seja guiada para regies contendo objetos es-
pecficos definidos pelo usurio. Na prxima seo, descrevemos como a apresentao das
1.5 Estrutura da Dissertao 7
atividades associadas consecuo dos objetivos do trabalho foram organizadas nos captu-
los da dissertao.
1.5 Estrutura da Dissertao

Esta dissertao dividida em seis captulos. No Captulo 2, so descritos os principais
conceitos envolvidos nesta dissertao: ateno visual bottom-up e algoritmos genticos.
O modelo de ateno visual bottom-up descrito o que utiliza mapas de salincias para
identificar as regies mais importantes de uma imagem e baseado no modelo proposto por
Itti et al. [Itti et al., 1998]. O modelo de algoritmo gentico descrito o Algoritmo Gentico
Cannico [DeJong, 1975].
O Captulo 3 contm uma reviso bibliogrfica sobre mtodos que inserem conhecimen-
tos de alto nvel em sistemas de ateno visual bottom-up e mtodos que utilizam algoritmos
genticos para aumentar o desempenho de sistemas de deteco de objetos em imagens. So
descritos cinco trabalhos, trs sobre utilizao de conhecimentos de alto nvel em sistemas de
ateno visual bottom-up e dois sobre o uso de algoritmos genticos em sistemas de deteco
de objetos.
A arquitetura do sistema descrita no Captulo 4. Esta arquitetura composta por trs
mdulos: otimizao de pesos, ateno visual e verificao de regies. O mdulo de oti-
mizao de pesos responsvel por otimizar os pesos que so utilizados para ponderar os
mapas de caractersticas e salincias. O mdulo de ateno visual detecta as regies mais
salientes de imagens de acordo com os obtidos obtidos pelo mdulo de otimizao. O m-
dulo de verificao calcula estatsticas com base nos pontos obtidos pelo mdulo de ateno
visual e em regies de imagens selecionadas manualmente.
Os experimentos e seus resultados so apresentados e analisados no Captulo 5. Foram
realizados experimentos nos quais os objetos de interesse eram: faces de pessoas, objetos
genricos, automveis e pistolas ou revlveres. Alm disso, foram realizados experimentos
comparativos com a implementao de Itti et al. [Itti et al., 1998].
O Captulo 6 conclui a dissertao apresentando um resumo dos principais pontos estu-
dados, as contribuies da pesquisa desenvolvida e algumas sugestes de trabalhos futuros.
Captulo 2
Fundamentos de Ateno Visual e

Algoritmos Genticos
Neste captulo descrevemos o que ateno visual, apresentamos o modelo de ateno visual
bottom-up mais conhecido e utilizado, alm de algumas tcnicas de combinao dos mapas
que formam os mapas de salincias. Alm disso, como este trabalho utiliza otimizao por
meio de algoritmos genticos, apresentamos tambm neste captulo conceitos fundamentais
de algoritmos genticos.
2.1 Ateno Visual

A todo instante, os olhos humanos se deparam com uma carga de estmulos visuais enorme.
No entanto, impossvel processar toda a informao que chega aos olhos de uma s
vez [Tsotsos, 1990]. O crebro humano lida com este problema de vrias formas. Em
primeiro lugar, os olhos no captam toda a informao que est a sua frente. Apenas alguns
pontos por segundo so tratados. Por meio de movimentos rpidos dos olhos, conhecidos
como movimentos sacdicos (do ingls saccadic eye movements), o crebro recebe somente
parte da informao visual a cada instante. Portanto, para lidar com o excesso de informao,
o sistema visual possui mecanismos para selecionar apenas um subconjunto de estmulos
para um processamento rigoroso e executar apenas uma anlise limitada sobre o restante das
informaes visuais.
8
2.1 Ateno Visual 9
2.1.1 Inspirao Biolgica
A ateno visual a habilidade que o sistema visual dos vertebrados superiores utiliza para
selecionar e processar somente as regies mais relevantes em uma cena visual. A ateno vi-
sual pode ser entendida como um mecanismo para lidar com a incapacidade de tratar de uma
s vez uma grande quantidade de informao visual tanto em sistemas biolgicos quanto
em sistemas computacionais. Deste modo, somente as regies mais importantes numa cena
so tratadas [Fischer and Weber, 1993]. Esta seleo das informaes mais relevantes dos
estmulos de entrada uma das caractersticas mais importantes dos sistemas visuais biol-
gicos que permite rpida deteco de predadores, perpetuao e evoluo das espcies [Itti
and Koch, 2001a]. Tsotsos [Tsotsos, 1990] analisou a complexidade computacional da an-
lise visual e confirmou que a ateno visual uma das mais importantes contribuies para
otimizar a quantidade de computaes em sistemas visuais.
Em uma viso didtica, podem ser identificados dois mtodos principais para obteno da
Ateno Visual. Os mtodos top-down e bottom-up. O mtodo top-down usa conhecimentos
obtidos a priori para detectar regies de maior interesse numa imagem. Esses conhecimentos
podem ser obtidos de vrias formas. Geralmente, utilizam-se ferramentas de aprendizagem
baseadas em modelos geomtricos/relacionais (como redes semnticas ou grafos relacionais)
ou modelos estatsticos (como redes neurais e mquinas de vetores de suporte). Porm, esses
conhecimentos tambm podem ser fornecidos por um ser humano, selecionando-se manual-
mente regies de maior interesse numa imagem. A ateno visual bottom-up guiada por
caractersticas primitivas da imagem como cor, intensidade e orientao. Alm disso, ela
atua de modo inconsciente, ou seja, o observador levado a fixar sua ateno em determina-
das regies da imagem devido aos estmulos causados pelos contrastes entre caractersticas
visuais presentes na imagem.
Wolfe e Horowitz demostraram que algumas caractersticas como cor, orientao ou ta-
manho dos objetos em uma imagem so responsveis por guiar o mecanismo biolgico de
ateno visual [Wolfe and Horowitz, 2004]. A Tabela 2.1 mostra algumas destas caracters-
ticas. Na Figura 2.1.1, h exemplos de tarefas de busca visual. Algumas destas tarefas so
simples. Na Figura 2.1(a), o contraste entre o azul e o vermelho ressalta a existncia de um
numeral 5 (cinco) de cor diferente dos demais. No entanto, perceber um nmero cinco azul
e maior um pouco mais complicado. A Figura 2.1(a) tambm um exemplo da importn-
2.1 Ateno Visual 10
cia de conhecimento a priori para executar determinadas buscas visuais, pois dificilmente
possvel identificar o nmero dois existente nesta imagem sem que algum tenha dito que
h um nmero dois. Isto demonstra o fato de que a ateno visual top-down mais lenta e
necessita de conhecimento prvio sobre o que se quer encontrar. As Figuras 2.1(b) e 2.1(c)
demonstram a importncia da orientao e do contraste de cores para ressaltar objetos dife-
rentes em imagens. Na Figura 2.1(b) difcil encontrar os pares de tringulos horizontais,
mas esta tarefa simplicada devido ao contraste de cores entre os retngulos azuis e os re-
tngulos rosas. Na Figura 2.1(d), a busca por cruzes ineficiente devido ao fato de que aqui
a informao de interseco no guia a ateno.
(a) Conhecimento a priori (b) Contraste de cores.

para executar buscas visu-
ais.
(c) Contraste de orienta- (d) Informao de intersec-

es. o no guia a ateno.
Figura 2.1: Exemplos de tarefas de busca visual.

2.1 Ateno Visual 11
Com certeza Provavelmente Possivelmente Talvez

Cor Luminncia Direo da Iluminao Novidade
Movimento Profundidade Aspect ratio Categoria alfanumrica
Tamanho Terminao de Linha Nmero Tipo de Letra
Tabela 2.1: Caractersticas que podem guiar a ateno visual.
2.1.2 Modelo de Itti
Um dos mtodos mais utilizados em ateno visual bottom-up o que utiliza mapas de
salincias. Itti et al. [Itti et al., 1998] propuseram um mecanismo de ateno visual bottom-
up baseado em mapas de salincias, o qual construido a partir de Pirmides Gaussianas
e operadores de vizinhana orientados localmente. A Figura 4.5 mostra um diagrama que
representa o funcionamento deste mecanismo de ateno visual.
IMAGEM FILTRAGEM MAPAS DE COMBINAO

DE MAPA DE
LINEAR CONSPICUIDADE LINEAR SALINCIAS
ENTRADA
Figura 2.2: Mecanismo de ateno visual. A imagem de entrada passa por um processo de
filtragem linear, gerando mapas de conspicuidade que so somados linearmente para gerar
os mapas de salincias.
O modelo proposto por Itti implementado para os fins expostos neste trabalho descrito
a seguir. A implementao aqui descrita difere da apresentada por Itti em dois aspectos prin-
cipais: quantidade de nveis das Pirmides Gaussianas e mtodo de movimentos sacdicos.
No modelo de Itti, as Pirmides Gaussianas possuem 9 nveis e no aqui implementado pos-
suem 5 nveis. A justificativa para o uso de apenas 5 nveis nas pirmides est relacionada
resoluo das imagens utilizadas. Como a resoluo das imagens 352 240, em uma
pirmide de 5 nveis a imagem no menor nvel ter sua resoluo igual a 22 15 (equivalente
a dividir a resoluo do maior nvel por 16). Desta forma, um maior nmero de nveis no
incrementar informao importante ao sistema dado que a imagem num nvel muito baixo
seria insignificante. Itti et al [Itti et al., 1998] utilizam redes neurais para implementar movi-
mentos sacdicos, no sistema aqui apresentado utiliza-se uma estratgia de deslocamento de
2.1 Ateno Visual 12
pixels. Porm, ambos os mtodos podem ser divididos nas seguintes etapas: extrao de ca-
ractersticas, filtragem linear, diferenas centro-vizinhaas, soma de mapas de caractersticas
e seleo de regies salientes (micro-sacadas).
2.1.3 Combinao de Mapas de Caractersticas
Para gerar um mapa de salincia, trs tipos de caractersticas visuais primitivas so extra-
das: cor, intensidade e orientao. Em seguida, quatro canais de cores so criados (R para
vermelho, G para verde, B para azul e Y para amarelo). Sendo r, g, b os canais vermelho,
verde e azul da imagem de entrada, os canais de cores so representados por:
R = r (g + b)/2 (2.1)
G = g (r + b)/2 (2.2)
B = b (r + g)/2 (2.3)
Y = (r + g)/2 |r g|/2 b (2.4)
A imagem de intensidades representada por I = (r + g + b)/3, que define a imagem em

tons de cinza. Para cada canal de cor e para a imagem de intensidades, so criadas Pirmides
Gaussianas: R() G() B() Y () onde {0, 1, 2, 3, 4}. As Pirmides Gaussianas so
geradas utilizando um algoritmo proposto por Burt e Adelson [Burt and Adelson, 1983].
Informaes de orientao local so obtidas pela aplicao de um algoritmo proposto por
Freeman e Adelson [Freeman and Adelson, 1991], que trata de Pirmides Direcionais.
Os canais de cores e a imagem de intensidades so submetidos a um processo de filtragem
linear. Este processo realizado por meio da gerao de Pirmides Gaussianas e Pirmides
Direcionais. A Pirmide Gaussiana composta por verses filtradas passa-baixa da convo-
luo Gaussiana aplicada imagem de entrada. A Pirmide Direcional (Steerable Pyramid)
uma decomposio multi-escala e multi-orientao de uma imagem. Nesta decomposi-
o linear, uma imagem subdividida em um conjunto de sub-bandas localizadas em escala
e orientao. A representao piramidal usada para a obteno de amostras da imagem
sem detalhes indesejavis. A seguir, os processos de gerao das Pirmides Gaussianas e
Direcionais so detalhados.
2.1 Ateno Visual 13
A imagem de entrada representada por uma matriz g0 , essa matriz contm C colunas e
R linhas de pixels. Para cada nvel da pirmide gerada uma imagem em uma escala menor
que a escala no nvel superior. A imagem de entrada a base ou nvel zero da Pirmide
Gaussiana. Cada nvel inferior da pirmide contm uma imagem que uma reduo ou
uma verso filtrada passa-baixa da imagem da base da pirmide. Os valores dos pixels de
uma imagem num nvel inferior so obtidos calculando-se uma mdia ponderada dos valores
dos pixels num nvel imediatamente superior dentro de uma janela 5 5. Este processo
realizado utilizando-se a funo REDUZ.
gk = REDU Z(gk1 ) (2.5)
em que, para nveis 0 < l < N e ns i, j, 0 Cl , 0 j < Rl ,

2 2
(2.6)
X X
gl (i, j) = w(m, n)gli (2i + m, 2j + n)
m=2 n=2
Na equao acima, N indica a quantidade de nveis da pirmide, C l e Rl indicam as

quantidades de colunas e linhas do nvel l, ou seja, as dimenses do nvel l. Para que a ima-
gem original seja adequada construo de Pirmides Gaussianas, devem existir os inteiros
MC , MR e N de forma que C = MC 2N + 1 e R = MR 2N + 1. A multiplicao pela matriz
de pesos w equivalente convoluo da imagem por uma mscara gaussiana 5 5. Esta
mscara conhecida como ncleo (Generating Kernel) e seus valores so normalizados. A
convoluo da imagem pela mscara gaussiana equivalente aplicao de um blur ou filtro
passa-baixa. A Figura 2.3 mostra um exemplo de Pirmide Gaussiana.
As Pirmides Gaussianas dos canais de cores e das imagens de intensidades de cada ima-
gem de entrada so interpoladas. Para isso, utiliza-se a funo EXPANDE que definida
como reversa de REDUZ. A funo EXPANDE utilizada com o objetivo de possibilitar a
interpolao de imagens que esto em escalas diferentes. Por exemplo, a aplicao de EX-
PANDE a uma matriz da Pirmide Gaussiana do nvel 1 gera uma matriz que tem as mesmas
dimenses de uma matriz do nvel 0. A funo EXPANDE representada na Equao (2.7)
gl,n = EXP AN DE(gl,n1 ) (2.7)
em que, para nveis 0 < l N e 0 n e ns i, j, 0 i < Cln , 0 j < Rl,n ,

2.1 Ateno Visual 14
(a) (b) (c) (d) (e)
Figura 2.3: Pirmide Gaussiana de 5 nveis.
2 2 i m j n
(2.8)
X X
gl,n = 4 w(m, n) gl,n1 ,
m=2 n=2
2 2
Neste trabalho, o termo filtros direcionais (do ingls Steerable Filters) utilizado para
descrever uma classe de filtros na qual um filtro de orientao arbitrria sintetizado como
uma combinao linear de um conjunto de filtros base [Freeman and Adelson, 1991]. A
seguir, este conceito demonstrado.
Seja uma funo gaussiana circularmente simtrica bidimensional, G, escrita em coorde-
nadas cartesianas, x e y:
(2.9)
2 +y 2
G(x, y) = ex
em que as constantes de normalizao e escala so 1, por convenincia.

Aqui representaremos o operador de rotao por (...) , tal que f (x, y) a representao
da funo f (x, y) rotacionada da origem por um ngulo . Representaremos, tambm, a
ensima derivada de uma gaussiana na direo x por Gn . Desta forma, f (x, y) a repre-
sentao da funo f (x, y) rotacionada de um ngulo da origem e a primeira derivada em
relao a x de uma gaussiana, G01 ,

2 2)
d e(x +y
(2.10)
2 +y 2 )
G01 = 2xe(x

=
dx
Esta mesma funo rotacionada 90
2.1 Ateno Visual 15
2 2)
d e(x +y
(2.11)
2 +y 2 )
G190 = = 2ye(x

dy
A demonstrao de que um filtro G1 em uma orientao arbitrria pode ser sintetizado
pela combinao linear de G01 e G90 simples [Freeman and Adelson, 1991]:

1
G1 = cos()G01 + sen()G90 (2.12)

1
Assim, G01 e G90 podem ser chamadas filtros base de G1 . Os termos cos() e sen()

1
so as funes de interpolao correspondentes para estes filtros base. Como a convoluo

uma operao linear, pode-se sintetizar uma imagem filtrada em uma orientao arbitrria
1 . Deste modo, representando a

pela combinao linear das imagens filtradas com G01 e G90

convoluo pelo smbolo (asterisco), temos
R10 = G01 I (2.13)

R190 = G90 (2.14)

1 I
R1 = cos()R10 + sen()R190 (2.15)

O exposto acima ilustra de forma simples como possvel extrair informaes sobre
orientao utilizando diferenciao de filtros gaussianos. A seguir, ser feita uma anlise da
diferenciao de filtros direcionais no domnio de Fourier.
Como no domnio de Fourier a decomposio de filtros polar-separvel [Simoncelli
and Freeman, 1995], a magnitude do i-simo filtro passa-banda ser escrita em forma polar-
separvel:
Bi (w ) = A( i )B(w) (2.16)
em que = tan1 (wy /wx ), i = 2/k e w = |w |. As restries sobre os componentes

A() e B(w) so descritas abaixo.
Uma derivada direcional no domnio espacial corresponde a multiplicao por uma
rampa linear no domnio de Fourier, assim, a poro angular da decomposio (A()) pode
ser reescrita como:
2.1 Ateno Visual 16
jwx = jw cos() (2.17)
A funo radial implementada utilizando uma decomposio recursiva com um algo-

ritmo de pirmide. Desta forma, so necessrios filtros passa-alta e passa-baixa (H 0 (w) e
L0 (w)) para realizar o pr-processamento da imagem antes da recurso. As restries sobre
os filtros H0 (w) e L0 (w) so:
Limitao de banda:
L1 (w) = 0 para |w| > /2
Resposta do sistema flat (linear):
|H0 (w)|2 + |L0 (w)|2 [|L1 (w)|2 + |B(w)|2 ] = 1
Recurso
|L1 (w/2)|2 = |L1 (w/2)|2 [|L1 (w)|2 + |B(w)|2 ]
A Figura 2.4 mostra uma Pirmide Direcional com 3 nveis
Figura 2.4: Pirmide Direcional.
Os mapas de caractersticas so obtidos por meio da diferena entre canais de cores em

diferentes escalas, este processo conhecido como diferena centro-vizinhana. Nesta sub-
trao de imagens, o centro um pixel da imagem em uma escala c {1, 2} e a vizinhana
o pixel correspondente de outra imagem em uma escala v {3, 4} da pirmide. Para que
a diferena entre duas imagens em escalas diferentes seja realizada, aplicam-se interpolaes
2.1 Ateno Visual 17
utilizando as funes EXPANDE e REDUZ. A partir da combinao das escalas c e v e da

orientao , so produzidos 28 mapas de caractersticas. As Equaes de (2.18) a (2.21)
definem matematicamente as diferenas centro-vizinhanas.
I(c, v) = |I(c)I(v)| (2.18)
RG(c, v) = |(R(c) G(c))(G(v) R(v))| (2.19)
BY(c, v) = |(B(c) Y (c))(Y (v) B(v))| (2.20)
O(c, v, ) = |O(c, )O(v, )| (2.21)
em que (0 , 45 , 90 , 135 ).
O processo de gerao de todos esses mapas de caractersticas inspirado biologica-
mente. A gerao dos mapas de cores tem inspirao no sistema de cores oponentes do
crtex visual [Itti and Koch, 2001a]. Os mapas de orientao so inspirados na propriedade
que alguns neurnios do crtex visual possuem de responder a estmulos de orientao da
cena [Itti and Koch, 2001a].
Uma vez que os mapas de caractersticas foram obtidos, eles so somados para a pro-
duo dos mapas de conspicuidades: I para intensidade, C para cor e O para orientao,
na escala = 4. A motivao para a criao de trs canais separados (I, C, O) a hip-
tese de que caractersticas similares competem pela salincia, enquanto que caractersticas
diferentes contribuem independentemente para o mapa de salincia [Itti and Koch, 2001a].
O propsito do mapa de salincia representar regies salientes na imagem por quantida-
des escalares e guiar a seleo de regies baseada na distribuio espacial da salincia. As
Equaes de (2.22) a (2.25) modelam matematicamente o processo de soma dos mapas de
caractersticas.
2.1 Ateno Visual 18
2 M
4
(2.22)
M
I = N (I(c, v))
c=1 v=3
2 M 4
(2.23)
M
C = [N (BY (c, v))]
c=1 v=3
2 M
M 4
(2.24)
X
O = N N (O(c, v, ))
{0 ,45 ,90 ,135 } c=1 v=3
1
S = (w1 I + w2 C + w3 O) (2.25)
w1 + w 2 + w 3
Estas equaes representam a soma e a normalizao dos mapas de caractersticas nas

escalas {1, 2} e {3, 4} resultando em mapas de conspicuidades e a soma normalizada dos
mapas de conspicuidade para gerar o mapa de salincia. A Figura 2.5 mostra uma imagem e
seu respectivo mapa de salincia.
(a) Imagem Original (b) Mapa de Salincia Resultante
Figura 2.5: Exemplo de mapa de salincia.
O mapa de salincia resultante uma imagem em tons de cinza em que as regies mais
salientes so representadas por pixels de altas intensidades. Desta forma, podem ocorrer
regies que possuem pixels com valores iguais. Para evitar que uma mesma regio seja
determinada como mais saliente mais de uma vez e para que seja possvel determinar v-
rias regies salientes, mesmo que tais regies possuam pixels de mesmo valor, utiliza-se o
princpio da inibio de retorno.
2.1 Ateno Visual 19
No modelo de Itti, utilizam-se redes neurais winner-takes-all para inibir regies previa-
mente selecionadas. Porm, por simplicidade, a implementao realizada nessa dissertao
utilizou um processo heurstico que funciona como descrito a seguir. Inicialmente, define-se
um raio de inibio. Este raio de inibio indica um raio que medido em quantidade de pi-
xels e a partir dele definida a rea que ser inibida na prxima iterao aplicando-se valores
nulos aos pixels desta regio.
Os pixels que sero utilizados como centro da regio saliente so determinados por um
processo de movimentos sacdicos, ou micro-sacadas. Biologicamente, movimentos sacdi-
cos so os movimentos realizados pelo olho humano durante o processo de inspeo visual
de uma cena. Em seres humanos, estes movimentos so executados de maneira bastante
rpida (entre 4 e 6 por segundo).
No sistema desenvolvido nessa dissertao, os movimentos sacdicos foram implemen-
tados como descrito a seguir. Primeiro, obtm-se o pixel que possui o maior valor de in-
tensidade. Em seguida, inibe-se toda a regio vizinha de acordo com o raio de inibio
previamente determinado. As micro-sacadas so determinadas deslocando-se as coordena-
das do ponto de ateno 5 e 10 pixels em uma vizinhana de 8 pixels, gerando 16 variaes
de pontos de ateno.
A seguir, apresentaremos alguns dos principais mtodos utilizados para combinao de
caractersticas primitivas utilizadas para formar mapas de salincias nos processos de ateno
visual bottom-up, semelhantes ao proposto por Itti et al. [Itti et al., 1998].
No mtodo de deteco de objetos proposto por Itti et al. [Itti et al., 1998] os mapas de
conspicuidade so normalizados e somados. H outras formas de se combinar os mapas de
conspicuidade. Em Itti e et al. [Itti and Koch, 2001b] quatro estratgias so comparadas:
Somatrio normalizado;
Combinao linear dos mapas utilizando pesos resultantes de processo de aprendiza-

gem;
Normalizao no-linear;
Competio no-linear entre localizaes salientes seguida de somatrio.

2.1 Ateno Visual 20
A abordagem mais simples para combinao dos mapas de conspicuidade o somatrio

normalizado. Tal somatrio pode ser expresso pela seguinte equao:
S = w 1 M1 + w 2 M2 + . . . w 3 Mn (2.26)
em que os M representam mapas de conspicuidade e os w representam os pesos aprendidos.

No caso de um somatrio normalizado (como aquele usado em [Itti et al., 1998]), cada
w = n1 , em que n igual ao nmero de mapas de conspicuidade.
Um dos modos para se detectar objetos especficos utilizar aprendizagem supervisio-
nada. Essa estratgia consiste em usar uma tcnica de aprendizagem para determinar pesos
que sero atribudos aos mapas de conspicuidade. No processo de aprendizagem proposto
por Itti e et al. [Itti and Koch, 2001b], uma regio alvo delimitada manualmente e, em
seguida, o seguinte procedimento realizado:
1 Computa-se o mnimo global Mglob e o mnimo global mglob do mapa M;
2 Computa-se o mnimo dentro Min e o mnimo fora Mout da regio alvo.
3 Atualiza-se o peso seguindo-se a seguinte regra:

(Min Mout )
w(M) w(M) + N (2.27)
(Mglob mglob )
em que N determina a velocidade de aprendizagem.

Esse procedimento de aprendizagem promove, atravs de um aumento nos pesos, a par-
ticipao dos mapas de conspicuidade, que aprensentam maior pico de atividade dentro das
regies de interesse, no mapa de salincia.
Quando no h superviso disponvel, utiliza-se um esquema de normalizao simples.
Esse esquema consiste em promover os mapas de conspicuidade que apresentam uma certa
quantidade de topos de atividades, enquanto que suprime os mapas de conspicuidade que
apresentam picos de respostas semelhantes em vrias localizaes da cena visual. Um ope-
rador de normalizao no-linear obtido da seguinte forma:
1 Normalizam-se todos os mapas de conspicuidade;
2 Para cada mapa, encontra-se o mnimo global M e a mdia m de todos os outros

mnimos locais;
2.2 Algoritmos Genticos 21
3 O mapa multiplicado globalmente pelo seguinte fator: (M m)2
A quarta estratgia de combinao de caractersticas se baseia na simulao de compe-

tio local entre localizaes salientes vizinhas. O princpio geral prover auto-excitao
e inibio induzida pelos vizinhos para cada localizao no mapa de conspicuidade. Para
isso, cada mapa de conspicuidade iterativamente convoluido por um filtro de diferenas
gaussianas 2D DoG (Difference of Gaussians).
Em cada iterao do processo de normalizao um dado mapa de conspicuidade M
submetido seguinte transformao:
M |M + M DoG Cinh | (2.28)
em que Cinh o termo de inibio constante.

Neste trabalho, apresentamos um mtodo de combinao de mapas de caractersticas e
conspicuidades que utiliza otimizao por meio de algoritmos genticos. Resultados experi-
mentais mostram que o mtodo proposto capaz de guiar a ateno para regies especficas
de imagens, por exemplo: regies contendo pessoas, ou faces de pessoas. Este mtodo ser
descrito no Captulo 4 e os resultados experimentais sero apresentados no Captulo 5.
2.2 Algoritmos Genticos

H vrios mtodos para solucionar problemas de otimizao no-lineares, alguns bastante
utilizados so: hill climbing, simulated annealing e algoritmos genticos. Outra forma seria
por busca exaustiva, ou seja, gerar aleatoriamente todas as solues possveis e testar qual
delas se aplica ao problema. No entanto, se o nmero de boas solues para um problema
esparso em relao ao espao de busca, ento uma busca aleatria no uma forma prtica
para resolver o problema [Whitley, 1994].
Um problema que pode ocorrer durante a otimizao utilizando mtodos como hill clim-
bing e simulated anneling a otimizao convergir para timos locais. Algoritmos genticos
lidam com este problema atravs de mutaes que permitem aumentar a variabiliade das
solues avaliadas a cada iterao. Porm, um problema relacionado aos algoritmos gen-
ticos a necessidade de um grande poder de processamento devido grande quantidade de
solues que devem ser avaliadas a cada iterao.
Nesta seo, apresentaremos o conceito de algoritmos genticos. Tal conceito surgiu

dos trabalhos de Holland [Holland, 1975] e DeJong [DeJong, 1975]. Algoritmos genticos
so bastante utilizados na resoluo de problemas de otimizao, so mtodos heursticos
baseados na teoria evolucionria das espcies de Darwin. Tais algoritmos buscam atravs
da simulao da evoluo gerar populaes de solues para determinados problemas. So
teis especialmente quando as variveis envolvidas no problema no podem ser tratadas
isoladamente. Alm disso, aplicam-se a funes no diferenciveis ou que possuem vrios
timos locais e realizam uma busca global que no usa informao de gradiente. Algoritmos
genticos podem ser classificados como um mtodo de busca fraco (weak method), pois no
fazem nenhuma suposio sobre o problema tratado.
2.2.1 Inspirao Biolgica
Vrias teorias de outras reas do conhecimento humano tem servido como fonte de inspira-
o para a Cincia da Computao. Uma teoria das Cincias Biolgicas que influenciou o
pensamento humano sobre a origem dos seres vivos e conseqentemente a Cincia da Com-
putao foi a teoria da evoluo das espcies de Charles Darwin [Darwin, 1909]. Segundo
essa teoria, os indivduos encontram-se em uma luta constante pela sobrevivncia. Nesta
luta, apenas aqueles que possuem as caractersticas favorveis adapatao ao meio sobre-
vivem, transmitindo essas caractersticas s geraes futuras.
Com base na teoria da evoluo foi criado o conceito de algoritmos genticos. Algorit-
mos genticos so uma tcnica de programao inspirada nos mecanismos de evoluo na-
tural e recombinao gentica. Os algoritmos genticos fornecem um mecanismo de busca
adaptativa que se baseia no princpio Darwiniano de reproduo e sobrevivncia dos mais
aptos. Isto obtido a partir de uma populao de indivduos (solues), representados por
cromossomos (palavras binrias), cada um associado a uma aptido (avaliao do problema),
que so submetidos a um processo de evoluo (seleo e reproduo) por vrios ciclos. As-
sim, os algoritmos genticos funcionam como otimizadores de funes.
2.2.2 Algoritmo Gentico Clssico
O tipo de algoritmo gentico discutido nesta subseo o clssco (Algoritmo Gentico

Clssico - AGC) [DeJong, 1975]. Para que um problema possa ser resolvido utilizando
algoritmos genticos necessrio que seu conjunto de solues seja passvel de ser mapeado
em cadeias de bits. Este mapeamento constitui a primeira etapa no processo de resoluo
de um problema utilizando algoritmos genticos. Cada cadeia de bits, representando uma
possvel soluo do problema, pode ser chamada de gentipo, indivduo ou cromossomo.
O funcionamento deste mtodo pode ser dividido em cinco passos: gerar uma populao
inicial, avaliar os indivduos da populao, selecionar os indivduos aptos, realizar recom-
binao (crossover) e mutao, e gerar uma nova populao. Geralmente, as populaes
iniciais so geradas aleatoriamente.
A avaliao dos indivduos de cada populao realizada verificando-se a aplicabilidade
de cada soluo intrnseca em cada indivduo para a resoluo do problema. Dependendo de
sua aplicabilidade, a cada indivduo atribudo um valor. Em seguida, verifica-se a aptido
de os indivduos fazerem parte da prxima gerao utilizando-se uma funo de aptido. A
aptido de um indivduo calculada pela diviso do valor que foi atribudo a ele pela funo
de avaliao pela mdia dos valores de todos os indivduos da populao. Por exemplo, se o
indivduo a obteve um valor de avaliao fa = 5 e o valor mdio de avaliao da populao
f = 4, seu valor de aptido ser fa /f = 1,25.
O valor de aptido utilizado no processo de seleo dos indivduos que sero dupli-
cados para fazerem parte dos processos de recombinao e mutao. A probabilidade de
um indivduo ser selecionado proporcional sua aptido. Para selecionar os indivduos
mais aptos utilizam-se os mtodos da roleta (roulette wheel) e de amostragem estocstica
com reposio (stochastic sampling with replacement). Estes mtodos de seleo podem ser
vistos como uma roleta em que as regies onde o marcador pra possuem reas diferentes.
Cada regio representa um indivduo da populao, sendo a rea de cada regio proporcional
aptido do indivduo representado. Logo, quanto maior a aptido do indivduo, maior a
probabilidade da sua seleo ser efetuada. Por exemplo, se um indivduo possui valor de
aptido fi /f = 1,37, este valor indica que o mesmo ser selecionado uma vez e que h 0,37
de chances do indivduo ser selecionado novamente. Por outro lado, se um indivduo possui
valor de aptido fi /f = 0,63, este valor indica que h 0,63 de chances do indivduo ser
selecionado. A Figura 2.6 ilustra este mtodo de seleo.
A B
D C
Figura 2.6: Ilustrao do mtodo de seleo. As regies com reas maiores possuem maiores
probabilidades de serem selecionadas. Por exemplo, h uma maior probabilidade da regio
D ser selecionada do que a regio A.
Aps os indivduos aptos terem sido selecionados, ocorre uma troca de informaes co-
nhecida como recombinao. A recombinao atua de maneira probabilstica, trocando parte
de uma cadeia de bits de um indivduo por parte de uma cadeia de bits de outro indivduo.
Neste processo, duas cadeias de bits so emparelhadas aleatoriamente. Em seguida, escolhe-
se em que ponto as cadeias sero quebradas segundo uma probabilidade previamente deter-
minada. Por exemplo, supondo-se que as cadeias que sofrero recombinao so 11000101
e abbbaaaa, e a probabilidade de recombinao determina que elas podem ser quebradas na
sexta posio, as cadeias resultantes seriam: 110001aa e abbbaa01. Os indivduos resultantes
das recombinaes iro compor uma nova populao.
A fim de que haja uma maior variabilidade de indivduos na nova populao, tais indiv-
duos passam por um processo chamado de mutao. A mutao uma mudana da disposi-
o dos bits que compem uma cadeia e ocorre segundo uma probabilidade pr-determinada
muito baixa. Por exemplo, se a probabilidade de mutao do indivduo 110001aa deter-
mina que ocorra uma inverso do primeiro e terceiro bits, o indivduo mutante passa a ser
011001aa. O conjunto de indivduos mutantes compor a nova populao. Cada ciclo de
seleo, recombinao e mutao conhecido como gerao. Este ciclo se repete at que
seja atingida a melhor soluo, a curva de evoluo se estabilize ou o nmero mximo de
geraes seja alcanado. A Figura 2.7 resume o processo de gerao de populaes de um
algoritmo gentico.
000110010111 8 32% 111010101100 111010010111 111010010111
111010101100 6 24% 000110010111 000110101100 000110101100
001110101001 6 24% 111010101100 111010101001 111110101001

5
111011011100 20% 001110101001 001110101100 001110101101
(a) (b) (c) (d) (e)
Figura 2.7: Ilustrao da gerao de uma nova populao em um algoritmo gentico. Em

(a), temos uma populao inicial de 4 indivduos. A aptido dos indivduos obtida pela
funo de aptido em (b). Em (c), dois pares so selecionados. Em (d), vemos uma nova
prole, gerada pelo cruzamento. Finalmente, em (e), ocorre mutao e uma nova populao
gerada.
2.2.3 Breve Demonstrao da Eficcia dos Algoritmos Genticos
Uma maneira simples de demonstrar a eficcia dos algoritmos genticos na soluo de pro-
blemas de otimizao foi apresentada por Holland [Holland, 1975]. Esta demonstrao re-
presenta os espaos de busca como hiperplanos. Suponha que um espao de busca analisado
constitudo por todas as cadeias de 3 bits (8 cadeias). Este espao de busca pode ser repre-
sentado pelo cubo da Figura 2.8.
110 111
010 011
100 101
000 001
Figura 2.8: Representao de um espao de busca como hiperplanos formadores de um cubo.
O plano frontal do cubo contm todos os pontos que comeam com 0. Se * usado como
um smbolo coringa, ento este plano pode ser representado pela cadeia 0 . Cadeias que
contm * so denominadas schemata, Cada schema corresponde a um hiperplano no espao
de busca. Desta forma, observa-se que uma populao de cadeias prov informao sobre
2.3 Consideraes Finais 26
vrios hiperplanos e o nmero de hiperplanos amostrados maior que o nmero de cadeias

contido na populao.
Assim, o algoritmo gentico contm paralelismo intrnseco. Tal paralelismo derivado
do fato de que muitos hiperplanos so amostrados quando uma populao de cadeias ava-
liada [Holland, 1975]. Isto demonstra que os algoritmos genticos atuam com amostras de
todas as solues possveis e que seu paralelismo implcito resolve a competio entre os
hiperplanos. Porm, so os efeitos cumulativos da avaliao de uma populao que provm
informao estatstica sobre qualquer subconjunto de hiperplanos.
2.3 Consideraes Finais

Neste captulo, foram apresentados os principais conceitos envolvidos nesta dissertao:
ateno visual bottom-up e algoritmos genticos. A ateno visual bottom-up funciona ge-
rando mapas de salincias derivados de vrios mapas de caractersticas visuais primitivas
como cor, intensidade e orientao. Os algoritmos genticos so um mtodo geralmente utili-
zado para otimizar funes que foi criado com inspirao na teoria da evoluo das espcies.
O prximo captulo apresenta uma anlise de trabalhos relacionados com esta dissertao.
Captulo 3
Reviso Bibliogrfica
Este captulo apresenta um levantamento e anlise de trabalhos relacionados com esta dis-
sertao, focando em trabalhos que investigam ou propem mtodos que utilizam ateno
visual em sistemas de reconhecimento de imagens, ou que utilizam algoritmos genticos
como meio de otimizao de sistemas de viso computacional.
A Seo 3.1 discute trabalhos que propem mtodos de integrao de modelos de aten-
o visual bottom-up e top-down. A Seo 3.2 apresenta artigos que propem sistemas de
deteco e reconhecimento de objetos que utilizam ateno visual bottom-up como meio de
aumentar o desempenho da busca por regies a serem processadas. Na Seo 3.3, temos uma
anlise de trabalhos que utilizam algoritmos genticos em sistemas de viso computacional.
Finalmente, a Seo 3.4 apresenta as consideraes finais sobre os trabalhos discutidos.
3.1 Integrao de Modelos de Ateno Visual Top-down e

Bottom-up
Uma arquitetura para estimar quais as regies mais relevantes em uma cena foi proposta
por Navalpakkam e Itti [Navalpakkam and Itti, 2002]. Nesta arquitetura, um grafo de re-
gies relevantes construdo utilizando uma ontologia que contm a descrio de entidades
presentes na imagem e seus relacionamentos. A ateno guiada por um mapa de ateno
topogrfico que codifica a salincia e a relevncia de todas as regies da cena.
O modelo composto por quatro componentes: crebro visual, memria de trabalho
27
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up 28
(WM), memria de longo prazo (LTM) e agente. O crebro visual mantm trs mapas: mapa
de salincias (SM), mapa de relevncia (RM) e um mapa para guiar a ateno. O mapa para
guiar a ateno o resultado do produto entre o SM e o RM. A memria de trabalho cria
e mantem o grafo que contm todas as entidades relevantes da cena. O papel do agente
transmitir informao entre o crebro visual e a memria de trabalho.
A LTM atua como uma base de conhecimento. Ela contm as entidades e seus relaciona-
mentos e chamada de ontologia. Cada ontologia representada como um grafo em que as
entidades so os vrtices e os relacionamentos so as arestas. Cada entidade possui uma lista
de propriedades separada da lista de todos os seus vizinhos. Estas propriedades podem servir
como guias para o mdulo de reconhecimento. A WM estima a relevncia de uma fixao
para uma dada tarefa. O clculo da relevncia de uma fixao uma funo da natureza das
relaes que conectam uma entidade ao grafo e da relevncia de seus vizinhos.
O modelo foi testado em cenas de ambientes naturais com muitos elementos dispersivos.
Para verificar o modelo, o sistema foi executado com vrias imagens com o mesmo objetivo
e em uma mesma imagem com objetivos diferentes. Por exemplo, em cenas de ruas de
cidades, o objetivo foi encontrar carros. Em outro experimento, utilizou-se uma cena com
pessoas comendo e determinou-se que o sistema encontrasse as faces das pessoas e o que
elas estavam comendo.
Apesar da anlise dos resultados mostrar que o sistema apresentou bons resultados nos
experimentos, o artigo no apresenta nenhum dado objetivo, como grficos ou valores es-
tatsticos. A anlise apenas subjetiva. Outro problema que o artigo no mostra como
as ontologias e seus atributos so criados, no especifica se foram criados para os fins do
trabalho ou se foram obtidos de alguma base.
Navalpakkam e Itti [Navalpakkam and Itti, 2006] propuseram um modelo para sistema
de ateno visual que integra os mtodos top-down e bottom-up. O componente bottom-up
do modelo computa a salincia visual da cena por meio de mapas de caractersticas extraidos
de imagens em vrias escalas. O componente top-down utiliza conhecimento estatstico
acumulado das caractersticas visuais do objeto que alvo da busca.
O principal conceito utilizado por este modelo para maximizar a velocidade de deteco
o SNR (Signal to Noise Ratio). O SNR a razo entre a salincia do alvo de busca e a
salincia dos objetos dispersivos do fundo da imagem. Para aumentar a velociade de deteco
deve-se maximizar o SNR. A salincia, Sj , de uma dada regio, j, calculada como uma
combinao linear de salincias bottom-up sij para as caractersticas daquela regio:
n
(3.1)
X
Sj (x, y, A) = gi,j si,j (x, y, A)
i=1
A salincia do alvo (ST ) calculada em termos de sua salincia siT , i {1, ..., n},
j {1, ..., N } para cada um dos n mapas de salincia dentro das N regies das caracte-
rsticas. A salincia bottom-up calculada utilizando o modelo de Itti et al. [Itti et al., 1998].
Foram utilizados os seguintes conjuntos de caractersticas visuais primitivas: 6 cores, 4 in-
tensidades e 4 orientaes (0 , 45 , 90 , 135 ). Os mapas de caractersticas so extrados em
6 escalas espaciais diferentes. Tanto os mapas de caracersticas quanto os de conspicuidade
so ponderados por ganhos top-down e so combinados linearmente.
Para a realizao dos experimentos, foram implementados 4 modelos: T0D0, T1D0,
T0D1 e T1D1, em que T e D referem-se a alvo e distrator respectivamente. O 0 direita
da letra indica que o modelo no utiliza conhecimento sobre o elemento indicado pela letra,
enquanto o 1 indica que o modelo utiliza tal conhecimento. Este conhecimento obtido pelo
clculo da mdia dos SNRs para cada elemento. Por exemplo, T1D0 combina a salincia
bottom-up apenas com conhecimento sobre o alvo. Os experimentos foram realizados utili-
zando tanto imagens com objetos artificiais (barras horizontais, verticais em diferentes cores,
por exemplo) quanto com imagens de objetos reais (foto de vrios objetos sobre uma mesa,
por exemplo).
Foram realizados dois tipos de experimentos com imagens sintticas e com imagens de
ambientes naturais. O conjunto de imagens sintticas continha 150 imagens e o de imagens
naturais, 60. Todos os modelos obtiveram bons resultados nos testes em que o elemento alvo
era muito diferente dos distratores. A busca era mais lenta quando havia algumas caracte-
rsticas semlhantes entre os elementos alvo e distratores. O artigo compara o modelo apenas
entre variaes do mesmo, no faz nenhuma comparao com outros modelos. Alm disso,
no mostra nenhum dado estatstico sobre o desempenho do sistema.
Fisher e MacKirdy [Fisher and MacKirdy, 1998] propuseram um sistema que utiliza pro-
cessos bottom-up e top-down para reconhecer objetos. O processo top-down representa obje-
tos como um ente inteiro (completo) no processo de reconhecimento. O processo bottom-up
usa um conjunto de caractersticas relacionadas reconhecidas a priori.
O sistema utiliza coordenadas log-polar (R,) para foveamento. A representao polar

atrativa porque ela mapeia rotao e escala em translao e esta caracterstica usada no
algoritmo de matching (correspondncia). As principais representaes so: o mundo (uma
grande imagem esttica), a pilha de imagens (42 imagens log-polar em 3 escalas diferentes),
a base do modelo (um conjunto de modelos que podem ser comparados com a pilha de ima-
gens atual), o mapa de interesse (seu contedo registra valores que representam o interesse
de um dado ponto da cena).
O processo de comparao utiliza uma funo de correlao cruzada modificada. A
arquitetura do sistema foi extendida com cinco estruturas ou processos: representao es-
truturada do modelo (os modelos associados incluem subcomponentes tanto quanto objetos
associados de maneira mais geral), registro de evidncia de subcomponente (de acordo com
a posio relativa dos subcomponentes, pode-se obter a posio do modelo), funo de ava-
liao de match extendida, atualizao do mapa de interesse (o mapa de interesse original
atualizado pelo clculo de uma funo de interesse em cada uma das 3 escalas de 14 carac-
tersticas).
Nos experimentos, foi utilizado um conjunto de imagens contendo vistas frontais de fa-
ces. Em cada imagem de face, os olhos, o nariz e a boca representavam os modelos asso-
ciados. Com o intuito de demonstrar que o uso da evidncia de subcomponentes melhora
a velocidade, a preciso posicional e a completude do reconhecimento, o sistema de reco-
nhecimento icnico foi executado com e sem a habilitao do processo de evidncia de sub-
componentes. Todos os experimentos iniciavam com um foveamento no centro da imagem.
O critrio de parada era que todas as caractersticas fossem encontradas ou que o sistema
tivesse executado 20 movimentos sacdicos. Os resultados experimentais demonstraram que
a afirmao feita anteriormente de que a evidncia de subcomponentes melhora o processo
de reconhecimento verdadeira.
O artigo mostra por meio de resultados experimentais que a integrao de caractersticas
estruturais a um modelo que utiliza caractersticas de baixo nvel pode melhorar o processo
de reconhecimento. No entanto, os testes so executados com apenas uma classe de objetos
e uma quantidade muito pequena de imagens.
3.2 Uso de Ateno Visual na Melhoria do Desempenho de Sistemas de Reconhecimento de
Padres 31
3.2 Uso de Ateno Visual na Melhoria do Desempenho de

Sistemas de Reconhecimento de Padres
Walther et al [Walther et al., 2002] apresentam um sistema que realiza reconhecimento de
objetos por meio da seleo prvia de regies salientes. Esta seleo prvia feita utilizando
ateno visual bottom-up, segmentao e eroso de mapas de salincia. Desta forma, o
sub-sistema de ateno visual funciona como um detector dos objetos mais importantes da
imagem.
Inicialmente, a imagem processada visando a obteno de seus mapas de caracters-
ticas e conspicuidades. So gerados vrios mapas para cada classe de caractersticas. Por
exemplo, para cor so gerados quatro mapas de caractersticas (para vermelho, azul, verde
e amarelo). Para cada classe de caracterstica gerado um mapa de conspicuidade que re-
presenta a salincia para cada tipo de caracterstica. Neste processo, so gerados mapas de
conspicuidades para trs caractersticas: cor, orientao e intensidade. O mecanismo de ex-
trao de mapas de caractersticas e conspicuidades empregado semelhante ao proposto
por Itti et al. [Itti et al., 1998]. Este mecanismo construdo utilizando Pirmides Gaussia-
nas [Burt and Adelson, 1983] e operadores de vizinhaa orientados localmente e descrito
no Captulo 2.
Em seguida, verifica-se quais os pontos mais salientes da imagem e quais os mapas de
caractersticas que mais contriburam para que estes pontos fossem os mais salientes. A
Figura 3.1 ilustra a escolha do mapa de conspicuidade mais importante para a salincia da
imagem de exemplo. Os mapas de caractersticas no foram apresentados por que h uma
grande quantidade dos mesmos (4 para cor, 4 para intensidade e 16 para orientao) e eles
so semelhantes aos mapas apresentados.
O mapa de caracterstica que mais contribuiu para a determinao do ponto mais saliente
segmentado utilizando-se um algoritmo de flooding com limiarizao adaptativa. O mapa
de caracterstica segmentado utilizado como modelo para inibio de retorno baseada em
objeto do mapa de salincia. As regies salientes obtidas pelo algoritmo exposto acima
so apresentadas ao mdulo de reconhecimento. O sistema de reconhecimento utilizado
baseado em um modelo hierrquico para reconhecimento de objetos HMAX [Fukushima,
1980].
Padres 32
(a) (b) (c)
(d) (e)
Figura 3.1: Ilustrao da escolha do mapa de conspicuidade mais importante para a salincia.
As Figuras 3.1(a), 3.1(b) e 3.1(c) representam os mapas de conspicuidade. A Figura 3.1(d)
representa a imagem original e a Figura 3.1(e) o mapa de salincia.
Foram realizados experimentos com o intuito de avaliar qualitativamente a abordagem

de segmentao de regies salientes utilizando-se ateno visual. O mtodo apresenta bons
resultados para uma quantidade expressiva de imagens. Na maioria dos casos, as regies se-
lecionadas constituem, de fato, objetos ou partes de objetos. No entanto, o mtodo apresenta
problemas quando as regies salientes dos objetos no so uniformes.
O desempenho apresentado pelo classificador HMAX no foi satisfatrio para cenas na-
turais. Por isso, foi utilizado, tambm, um conjunto de imagens obtidas artificialmente. Para
objetos claramente separados, o desempenho de reconhecimento usando ateno visual atin-
giu quase 100%, enquanto que o sistema sem utilizar ateno visual reconheceu apenas 50%
dos objetos.
O sistema proposto por Walther et al [Walther et al., 2002] apesar de apresentar bons re-
sultados para imagens artificiais, apresenta limitaes quanto a robustez. Se a regio saliente
apresentar descontinuidades o sistema no consegue extrair corretamente o objeto saliente.
A Figura 3.2 ilustra esse problema.
Padres 33
(a) (b)
Figura 3.2: Exemplo de imagem cuja segmentao da regio saliente impe dificuldades ao
algoritmo.
Um mecanismo para localizao e reconhecimento de placas de sinalizao que utiliza

ateno visual bottom-up foi proposto por Rodrigues [Rodrigues, ]. Este sistema utiliza
ateno visual como um meio de agilizar o processo de localizao das regies contendo
placas de sinalizao. Estas regies so, em seguida, aplicadas a um sistema de redes neurais
para que possam ser classificadas.
O sistema composto por dois mdulos principais: um mdulo de deteco e um mdulo
de reconhecimento. O mdulo de deteco uma implementao simplicada do sistema de
ateno visual bottom-up proposto por Itti et al. [Itti et al., 1998]. Enquanto que o mdulo
de reconhecimento um classificador neural previamente treinado para reconhecer placas de
sinalizao de trnsito.
O mdulo de deteco utiliza trs caractersticas primitivas: cor, intensidade e orien-
tao. Para cada caracterstica so criadas Pirmides Gaussianas e Pirmides Direcionais
que passaram por um processo de diferenas centro-vizinhaas (center-surround differen-
ces) para gerar mapas de conspicuidades. Esses mapas de conspicuidades so normalizados
e somados para gerar o mapa de salincia final.
O classificador neural utiliza aprendizagem supervisionada. Ou seja, este classificador
treinado com um conjunto de imagens de placas de sinalizao selecionadas por um ser
humano. O tipo de rede neural utilizado a Rede Neural MLP-BP (Multilayer Perceptron
com algoritmo de treinamento Backpropagation).
Considerando-se que a rede neural tenha sido previamente treinada, o sistema funciona
Padres 34
da seguinte forma. Dada uma imagem de entrada, o sistema de ateno visual detecta as re-
gies mais importantes da imagem. Estas regies passam por um pr-processamento (equa-
lizao de histograma e filtragem com blur gaussiano). Em seguida, as regies salientes so
apresentadas ao sistema de reconhecimento que as classifica de acordo com as classes que
foram definidas durante o treinamento.
Foram realizados dois tipos de experimentos. O primeiro avaliou a acurcia do sistema
de deteco na tarefa de selecionar regies contendo placas de sinalizao. O segundo tipo
avaliou o desempenho do sistema de reconhecimento em classificar regies obtidas pelo
sistema de deteco. Para a construo da base de dados utilizada nos experimentos, foram
extradas imagens de um vdeo filmado a partir de um veculo em movimento durante uma
viagem em dia claro entre duas cidades. Aps a aquisio, o vdeo foi particionado em
quadros e cada um deu origem a uma imagem colorida de resoluo 352 240 pixels.
Para os experimentos com o Mdulo de Deteco, foi selecionado um subconjunto de
imagens a partir da base de imagens extradas do vdeo. Apenas imagens com placas foram
selecionadas, num total de 15 imagens com 16 placas, sendo 14 imagens com uma placa e
uma com duas. Em todos os experimentos o raio de inibio foi fixado. Para o experimento
em que o raio de inibio era de 20 pixels e foram utilizados 5 regies, o sistema de deteco
conseguiu localizar 93,75% das placas.
Os experimentos de classificao obtiveram uma taxa mdia de reconhecimento de
84,40%. A melhor taxa foi de 100% ( utilizando 11, 12 e 13 padres de treinamento) e a
taxa mais baixa foi de 56,41% (utilizando 3 padres de treinamento). Os experimentos mos-
traram que o nmero de padres de treinamento tem um papel muito importante na tarefa de
classificao.
O sistema proposto apresenta uma aplicao prtica para a ateno visual. Os experimen-
tos realizados obtiveram bons resultados, para alguns casos os resultados foram o mximo
possvel. No entanto, a forma de avaliar a complexidade do mdulo de deteco apresenta
algumas inconsistncias. O autor afirma que se a quantidade de regies salientes (com raio
de inibio 20) utilizada igual a 5, so utilizados 0,0059% dos pontos de uma imagem
352 240. Porm, a quantidade de pontos realmente utilizada corresponde a multiplica-
o do nmero de regies pela a rea de cada regio. Neste caso, a porcentagem de pontos
utilizada seria 2,3674% e no 0,0059%. Apesar disso, o resultado continua sendo muito bom.
Padres 35
Santos [Santos, 2005] props um mecanismo de ateno visual que integra mecanismos
bottom-up, temporal e de profundidade para gerar um mapa de salincias em que as regies
mais importantes destacam objetos que despertam a ateno devido influncia tanto de
caractersticas visuais primitivas quanto do movimento do mesmos. Ou seja, neste sistema,
um objeto ter um valor alto de salincia se estiver em movimento, possuir uma distncia
menor que um valor d da cmera e apresentar alta salincia bottom-up.
O sistema considera a possibilidade de n cmeras que capturam de diferentes posies
um mesmo vdeo a ser processado. O processamento de um vdeo consiste em gerar um
novo vdeo em cujos quadros somente sejam visveis as caractersticas bottom-up dos objetos
mveis que estejam situados a, no mximo, uma distncia d (pr-estabelecida) das cmeras.
As demais regies dos quadros so preenchidas com intensidades nulas.
Dois mapas intermedirios so gerados durante o processamento. Um mapa de movi-
mento, obtido do processamento dos quadros nos instantes t e t + 1 e um mapa de pro-
fundidade obtido do processamento dos n quadros no instante t. Utilizando os mapas de
movimento e profundidade o quadro no instante t segmentado. O quadro segmentado pelo
movimento e pela profundidade submetido ao mdulo responsvel pela ateno visual
bottom-up.
O mdulo de ateno visual bottom-up segue a arquitetura proposta por Itti et al. [Itti
et al., 1998]. No entanto, o extrator de caractersticas implementado por Santos [Santos,
2005] recebe um quadro segmentado pelo movimento, ou seja, uma imagem em que apenas
as regies com algum nvel de movimento so destacadas. Isso agiliza a extrao das ca-
ractersticas bottom-up, pois o extrator s necessita trabalhar sobre as regies no-nulas da
imagem, que constituem uma pequena minoria.
Foram realizados experimentos com mdulos separados (mdulo de Ateno Temporal
e mdulo de segmentao de movimento) e com o sistema final. Para o mdulo de aten-
o temporal foram realizados experimentos desde os prottipos iniciais, estes experimentos
mostram a evoluo de tal mdulo. Alm disso, tambm foi realizado um estudo de caso uti-
lizando Ateno Temporal na deteco de transies em vdeo. Nenhum dos experimentos
realizados ocorreu em tempo real.
Os experimentos que mostram a evoluo do mdulo de Ateno Temporal evidenciam o
trabalho de implementao realizado no sentido de minimizar o rudo presente nos mapas de
3.3 Utilizao de Algoritmos Genticos como Mtodos de Otimizao em Sistemas de Viso
Computacional 36
movimento. Estes rudos foram minimizados aplicando-se mudanas no algoritmo proposto

por Wildes [Wildes, 1998], mais especificamente no que diz respeito normalizao de
valores.
Alm disso, foi realizado um estudo de caso da aplicao de Ateno Temporal na de-
teco de transies abruptas em vdeo. As estatsticas dos experimentos com o conjunto de
treinamento mostram uma taxa relativamente baixa de falsas rejeies e taxa nula de falsas
afirmaes. Para o conjunto de teste as taxas foram mais altas do que as apresentadas pelo
conjunto de treinamento, tanto para as falsas rejeies quanto para as falsas afirmaes. No
entanto, as taxas apresentadas pelo conjunto de teste so satisfatrias e promissoras.
Para o clculo do desempenho dos experimentos de segmentao de objetos mveis, foi
realizado uma contagem de pixels. Este clculo mostrou que a reduo da quantidade de pi-
xels a serem analisados (o percentual de pixels completamente escuros) ultrapassa 97%. Por
fim, foram realizados experimentos integrando ateno visual bottom-up e Ateno Tempo-
ral.
Os experimentos realizados separadamente com cada mdulo apresentaram timos re-
sultados, alguns com taxas de at 97%. No entanto, no so apresentadas estatsticas para os
resultados obtidos pelo sistema global (todos os mdulos integrados). Estas estatsticas po-
deriam ser, por exemplo, a porcentagem de regies corretamente classificadas como estando
em movimento.
3.3 Utilizao de Algoritmos Genticos como Mtodos de

Otimizao em Sistemas de Viso Computacional
Bebis et al. [Bebis et al., 1999] propuseram um mtodo para aplicar algoritmos genticos na
busca pela face de pessoas em imagens. Este problema foi dividido em duas partes: deteco
de regies contendo faces e comparao das regies candidatas com a face a ser encontrada.
Tanto a deteco de regies contendo faces quanto o casamento das faces detectadas com a
face buscada so realizados utilizando eigenfaces [Turk and Pentland, 1991].
Antes que as eigenfaces sejam calculadas, cada imagem passa por um pr-processamento
que envolve normalizao e equalizao de histograma. Aps o pr-processamento os ei-
genspaces so calculados e, para melhorar a deteco de faces, as caractersticas das faces
Computacional 37
so salientadas pelo clculo do gradiente de cada imagem utilizando um operador de Sobel.

Nos esquemas de codificao, cada indivduo da populao representa uma subjanela
dentro da imagem de entrada. Foram utilizados dois esquemas. O esquema 1 usado se o
aspect ratio (razo entre a largura e altura) da imagem de entrada for maior que o aspect
ratio das imagens do conjunto de treinamento, do contrrio, o esquema 2 utilizado. Um
indivduo codificado com o esquema 1 possui as coordenadas do canto superior esquerdo
e a coordenada y do canto inferior direito da janela. Um indivduo codificado usando o
esquema 2 possui as coordenadas do canto superior esquerdo e a coordenada x do canto
inferior direito. Em ambos os casos a coordenada que falta calculada utilizando o aspect
ratio da janela.
Os indivduos de cada gerao so avaliados utilizando o clculo da distncia do espao
de faces (distance from face spaces - dffs). Desta forma, uma imagem considerada como
face se o erro quadrtico mdio entre sua representao utilizando os auto-valores mais im-
portantes e a imagem normalizada pequeno. A funo de aptido possui dois termos: um
para deteco e outro para verificao da face. O termo de deteco calculado utilizando o
eigenspace construdo com faces de diferentes pessoas. O termo de verificao calculado
utilizando o eigenspace construdo com vrias imagens da face da pessoa pesquisada.
A aptido de cada indivduo calculada com a seguinte equao:
aptid = M AX df f sdetec df f sverif (3.2)
em que M AX um valor constante muito alto. Durante a evoluo, o algoritmo gentico

procura maximizar esta funo de aptido.
Nos experimentos, foram utilizados dois conjuntos de treinamento. O primeiro possuia
38 imagens e foi utilizado para calcular o termo de deteco. O segundo continha 20 ima-
gen do indivduo a ser pesquisado e foi utilizado para calcular o termo de verificao. O
algoritmo gentico utilizou recombinao simples de dois pontos e mutao de um ponto. A
probabilidade de recombinao foi 0,95, de mutao 0,05 e a constante M AX foi 18000.
O algoritmo foi testado em 10 cenas. Em mdia, foram necessrias 40 geraes para o
algoritmo gentico encontrar a face de interesse. Em todas as cenas, a face de interesse foi
localizada corretamente. Os experimentos mostraram que o algoritmo gentico reduziu o
espao de busca em dezenas de milhares de vezes em relao a uma busca exaustiva. Apesar
Computacional 38
de apresentar taxa de deteco e reconhecimento de 100%, o artigo no apresenta os tempos

necessrios para realizar o processamento.
Um sistema que utiliza algoritmos genticos para selecionar conjuntos de caractersticas
mais relevantes em um processo de deteco de objetos foi proposto por Sun et al [Sun
et al., 2003]. Como estudo de caso, eles realizaram extrao de caractersticas utilizando
um mtodo Principal Component Analysis (PCA) [Jolliffe, 2002] e mquinas de vetores de
suporte (SVM) [Vapnik, 1995] como classificador.
Cada imagem representada como um conjunto de auto-valores. Embora muitos auto-
valores sejam importantes para propsitos de reconhecimento, eles tambm podem confundir
o classificador em outras aplicaes, tal como a deteco. Desta forma, Sun et al [Sun et al.,
2003] utilizaram algoritmos genticos para selecionar um bom subconjunto de auto-valores
a fim de aumentar o desempenho do sistema de deteco de objetos.
O mtodo proposto pode ser dividido em quatro passos:
extrao de auto-valores utilizando PCA;
seleo de subconjuntos de auto-valores utilizando algoritmos genticos;
treinamento das SVMs;
classificao de novas imagens.
Cada imagem representada como um vetor de auto-valores. Neste esquema de codifi-

cao, o cromossomo uma cadeia de bits cujo comprimento determinado pela quantidade
de auto-valores. A funo objetivo modelada de modo a minimizar a quantidade de carac-
tersticas necessrias para que se obtenha o melhor desempenho. Portanto, a avaliao da
aptido possui dois termos: preciso e quantidade de caractersticas utilizadas.
Em geral, a populao inicial gerada aleatoriamente. Como no h informao sufici-
ente que determine se h dependncia entre as caractersticas nos cromossomos, utiliza-se
o cruzamento uniforme. A mutao um operador de probabilidade muito baixa e apenas
muda um bit especfico.
Foram realizados experimentos com duas classes de imagens: imagens de automveis e
imagens de faces. As imagens de automveis so proprietrias e foram extradas manual-
mente de fotografias obtidas pelos autores. Dessas imagens, 1051 contm veculos e 1051
Computacional 39
no contm veculos. As imagens de faces foram extradas manualmente do CMU face de-
tection dataset [Sim et al., 2003]. Para os experimentos com faces, foram utilizadas 616
imagens de faces e 616 imagens que no continham faces.
Para propsito de comparao, tambm foi implementado o mtodo de seleo de carac-
tersticas SFBS (Sequential Floating Backward Selection). O SFBS uma verso do mtodo
plus l - take away r que primeiro enlarguece o subconjunto de caractersticas por l caracters-
ticas utilizando seleo para frente e depois remove r caractersticas utilizando seleo para
trs. O nmero mdio de caractersticas selecionadas pelo SFBS em imagens de veculos foi
87, enquanto o mtodo proposto selecionou 46 caractersticas. Com as imagens de faces, o
SFBS selecionou 68 caractersticas e o algoritmo gentico 34.
O mtodo proposto por Sun et al [Sun et al., 2003] apresenta aplicaes prticas e simples
do uso de algoritmos genticos (deteco de faces e de automveis). No entanto, a compara-
o dos resultados com outros mtodos existentes poderia ter sido realizada utilizando mais
de um mtodo de seleo de caractersticas e no apenas o SFBS. Alm disso, os autores
no deixam claro o esforo computacional aplicado no processo de otimizao do algoritmo
gentico.
Um mtodo adaptativo que utiliza algoritmos genticos associados a um mecanismo de
ateno visual para localizar olhos em imagens de faces foi proposto por Huang e Wechs-
ler [Huang and Wechsler, 1999; Huang and Wechsler, 2000]. Este mtodo procura, ini-
calmente, por regies salientes e, em seguida, as classifica. O mapa de salincia obtido
utilizando consenso entre rotinas de navegao codificadas como um autmato de estados
finitos (FSA - Finite State Automaton) que explora a imagem de face e evolui utilizando
algoritmos genticos.
A abordagem adaptativa de localizao de olhos primeiro busca onde os objetos salien-
tes esto e, em seguida, os classifica. Especificamente, esta abordagem envolve: gerao do
mapa de ateno e possvel classificao de regies como regies contendo olhos. A etapa
de classificao realiza uma seleo tima de caractersticas e a criao de uma rvore de de-
ciso (DT - Decision Tree) para confirmao da classificao de olhos utilizando algoritmos
genticos.
O mapa de salincia obtido a partir das seguintes tarefas: extrao de caractersticas,
derivao dos mapas de conspicuidade e integrao das sadas das vrias rotinas visuais. O
modelo computacional correspondente envolve a mdia, o desvio padro e a entropia como

mapas de caractersticas. Um FSA evoludo por meio de AGs gera os mapas de caracters-
ticas, enquanto que mtodos de consenso os integram em um mapa de salincias final. A
Figura 3.3 ilustra a criao do mapa de salincia.
EXTRAAO DE ESTATISTICAS
CARACTERISTICAS MEDIA, DESVIO, ENTROPIA
NAVEGAAO
MAPAS DE
CONSPICUIDADE FSA E GA
MAPA DE
SALIENCIA
INTEGRACAO
DOS DADOS CONSENSO
Figura 3.3: Criao do mapa de salincia.
Aps a obteno do mapa de salincia, o componente de reconhecimento deve decidir

se as regies mais salientes correspondem a regies de olhos. O classificador implementado
como uma rvore de deciso e algortimos genticos utiliza o desempenho obtido pela rvore
de deciso como guia para a obteno de um subconjunto de caractersticas timas e para
melhorar a aptido mdia das populaes de rvores de deciso.
Os experimentos foram realizados utilizando 10 imagens de faces para treinar 20 FSAs de
olhos esquerdos e 20 FSAs de olhos direitos para derivar o mapa de salincia. Foram neces-
srias 2000 geraes do AG para que o FSA obtivesse um desempenho de 100% no reconhe-
cimento de olhos. A abordagem proposta por Huang e Wechsler [Huang and Wechsler, 1999;
Huang and Wechsler, 2000] apresentou bons resultados. No entanto, o artigo no descreve
a tcnica utilizada para extrair a localizao dos olhos das imagens testadas para efeito de
comparao com os resultados obtidos pelo sistema.

Neste captulo, foram analisados trabalhos que tratam do uso de ateno visual como meio
para agilizar o processo de deteco de objetos em imagens e do uso de algoritmos genticos
como tcnica de otimizao para sistemas que utilizam ateno visual bottom-up. Os traba-
lhos de Santos [Santos, 2005] e Rodrigues [Rodrigues, ] foram desenvolvidos por alunos do
mesmo grupo de pesquisa que o autor desta dissertao. Inclusive, todos utilizam o mesmo
sistema de ateno visual bottom-up com adaptaes para cada caso.
Observa-se que nenhum destes trabalhos utiliza algoritmos genticos para ponderar ma-
pas de caractersticas em sistemas de ateno visual bottom-up como o sistema proposto
neste trabalho, que discutido no Captulo 2, o faz. Alm disso, esses trabalhos utilizam
conjuntos de imagens muito pequenos e apresentam uma anlise estatstica muito restrita
dos resultados.
O prximo captulo apresenta o sistema proposto nesta dissertao. Este sistema utiliza
algoritmos genticos para otimizar pesos que so utilizados para ponderar os diversos mapas
de caractersticas utilizados para formar mapas de salincias em sistemas de ateno visual
bottom-up.
Captulo 4
Sistema Proposto
Este captulo apresenta o sistema proposto, sua arquitetura, implementao e a descrio

de cada um de seus mdulos. Adicionalmente, o captulo tambm traz alguns aspectos da
implementao referentes escolha de uma biblioteca para implementao de algoritmos
genticos e a utilizao de uma grade computacional para acelerar o processo de otimizao
dos algoritmos genticos.
4.1 Arquitetura
Esta dissertao prope uma nova estratgia para otimizao de pesos de um mecanismo de
ateno visual baseado em caractersticas. Esta estratgia utiliza algoritmos genticos para
otimizar um arranjo de pesos para os mapas que compem o mapa de salincias de forma
que o mapa de salincias resultante apresente melhores resultados quando comparado com
resultados previamente otimizados. A estratgia proposta aplica pesos no somente aos ma-
pas de caractersticas mas sim a todos os mapas que compem os mapas de salincias. A
otimizao seguida por fases de deteco e comparao. Na fase de deteco, um mapa
saliente baseado em trs caractersticas (cor, intensidade e orientao) construido. Aps
a fase de deteco, as regies salientes so comparadas com algumas regies selecionadas
manualmente em uma etapa anterior e os resultados da comparao so usados como fun-
o de avaliao do algoritmo gentico para produzir as prximas geraes do processo de
otimizao.
O sistema de otimizao formado por trs mdulos: verificao de regies salientes,
42
4.1 Arquitetura 43
ateno visual e otimizao de pesos. O mdulo de ateno visual baseado no que foi
proposto em [Itti et al., 1998]. A verificao de regies salientes realizada utilizando
regies selecionadas manualmente e usada para validao dos experimentos. O mdulo
de otimizao de pesos utilizado para gerar populaes com pesos apropriados para a
ponderao dos mapas. A Figura 4.1 ilustra a arquitetura do sistema de otimizao.
MELHOR CONJUNTO DE PESOS
ALGORITMO
GENTICO
PESOS ESTATSTICAS
GERENCIADOR
DE TAREFAS
IMAGENS
E ESTATSTICAS
PESOS
MDULO DE MDULO DE MDULO DE

VERIFICAO VERIFICAO VERIFICAO
GRADE COMPUTACIONAL
Figura 4.1: Arquitetura do sistema.
Em linhas gerais, o sistema descrito na Figura 4.1 funciona da seguinte forma. Aps a
seleo manual das regies de interesse de um conjunto de imagens utilizadas para otimiza-
o, o mdulo de otimizao de pesos envia grade o conjunto de imagens, bem como as
coordenadas das regies selecionadas, um conjunto de pesos e os programas executveis que
compem o mdulo de ateno visual. A grade computacional ir gerenciar o envio dessas
informaes e o recebimento dos resultados obtidos pelo mdulo de ateno visual. A cada
iterao, o mdulo de otimizao de pesos avalia os resultados do mdulo de ateno visual
e envia um novo conjunto de pesos grade at que a otimizao seja finalizada. A grade
computacional foi utilizada devido necessidade de se processar uma quantidade grande de
4.1 Arquitetura 44
imagens (100 para cada classe de regio) em um nmero muito grande de iteraes (cerca de
1600 iteraes). Se este processamento fosse executado em apenas um computador, levaria
cerca de um ms para ser executado. O processamento em grade reduziu o tempo de proces-
samento para um ou dois dias dependendo da disponibilidade de computadores na grade. A
seguir, a descrio de cada mdulo apresentada.
O mdulo de ateno visual utilizado uma adaptao do sistema proposto em [Itti
et al., 1998]. Ele usa um mecanismo de ateno visual bottom-up de mapas de salincias.
Este mecanismo construdo utilizando-se Pirmides Gaussianas e operadores de vizinhana
localmente orientados. A Figura 4.2 mostra um diagrama do mdulo de ateno visual.
IMAGEM
MDULO DE COORDENADAS
ATENO VISUAL DOS PONTOS
SALIENTES
PESOS
Figura 4.2: Mdulo de ateno visual.
Os pesos so otimizados utilizando valores estatsticos obtidos pelo mdulo de verifica-

o de regies. A Figura 4.3 ilustra resumidamente o mdulo de verificao. Este mdulo
calcula a mdia de pontos necessria para que pelo menos um ponto saliente esteja presente
em regies selecionadas manualmente. O mdulo de ateno visual recebe imagens e pe-
sos, processa as imagens e envia as coordenadas dos pontos salientes para o mdulo que
calcula as estatsticas. O mdulo que calcula as estatsticas recebe, tambm, as coordena-
das das regies selecionadas manualmente e d como sada as mdias e desvios-padro das
quantidades de pontos salientes presentes nas regies selecionadas manualmente.
IMAGENS COORDENADAS
MDULO DE DOS PONTOS SALIENTES
CLCULO DAS ESTATSTICAS
ATENO VISUAL ESTATSTICAS
PESOS
COORDENADAS DOS
PONTOS SELECIONADOS
MANUALMENTE
Figura 4.3: Mdulo de verificao de regies salientes.

4.2 Implementao do Sistema 45
4.2 Implementao do Sistema

Em um modelo de mapas de salincias, um conjunto de mapas combinado para formar um
nico mapa que representa as regies mais salientes na cena [Itti and Koch, 2000]. Uma
regio saliente a regio que mais atrai a ateno de um observador. Conforme discutido no
Captulo 2, Itti e Koch [Itti and Koch, 1999] compararam quatro estratgias de combinao
de mapas de caractersticas: soma normalizada simples, combinao linear com pesos apren-
didos, normalizao global no-linear seguida por somatrio e competio no-linear entre
localizaes salientes. Todas as estratgias comparadas por Itti e Koch [Itti and Koch, 1999]
combinam os mapas de caractersticas utilizando processos de aprendizagem para ponderar
os mapas. Porm, nenhum deles utiliza um processo de otimizao com algoritmos genticos
como o apresentado neste trabalho.
Algoritmos genticos pertencem classe de tcnicas de otimizao global, se caracteri-
zando por encontrar timos globais da funo sendo otimizada, enquanto que os processos
de aprendizagem mais populares (como redes neurais), tendem a utilizar mtodos de otimi-
zao local, os quais possuem o risco de encerrar o processo de aprendizagem em mnimos
locais da funo sendo aprendida. Assim, pode-se considerar essa uma das vantagens do uso
de algoritmos genticos sobre aprendizagem no problema em questo. Contudo, algoritmos
genticos possuem alguns problemas como a necessidade de grande poder de processamento
devido grande quantidade de iteraes necessrias durante cada evoluo.
Como para cada mapa de salincia pode-se associar um peso, conhecimento de alto nvel
pode ser utilizado para guiar os tipos de regies selecionadas [Itti et al., 2005]. Por exemplo,
se algum procura por flores vermelhas em uma imagem de jardim, a preciso da busca
pode ser melhorada se os pesos relacionados a cores tiverem valores mais altos do que os
pesos relacionados s outras caractersticas. este tipo de conhecimento que o sistema aqui
proposto utiliza para melhorar a qualidade da busca por regies salientes e guiar a ateno
para objetos semelhantes a objetos previamente conhecidos via um processo de otimizao.
4.2.1 Mdulo de Verificao de Regies Salientes
Como o sistema aqui descrito necessita de uma etapa de otimizao, necessrio que a sele-
o de imagens que contenham caractersticas semelhantes seja realizada. Nessa dissertao
essa seleo realizado manualmente. O processo de otimizao requer que as regies mais
importantes das imagens tenham sido indicadas pelo usurio. Isto necessrio devido ao
fato de que o sistema ir otimizar os pesos que sero atribudos aos mapas de caractersticas
de acordo com as regies que foram indicadas na etapa de seleo manual.
Foram realizadas quatro otimizaes de pesos, uma para cada classe de regio selecio-
nada manualmente. Estas classes so: faces de pessoas, objetos genricos, armas (pistolas
ou revlveres) e carros. Para o conjunto de imagens contendo pessoas, selecionam-se manu-
almente as regies das faces guardando-se as coordenadas dos retngulos que as contm. O
mesmo processo realizado para as imagens em que o assunto a ser selecionado so objetos
genricos. Para os casos de armas e carros, as regies selecionadas so os menores retngu-
los que contm tais objetos. Em todos os casos, as regies selecionadas manualmente so
aquelas que despertam a ateno do observador com base em caractersticas primitivas como
cor, intensidade e orientao, mas tendo em mente a classe de regies definida previamente.
Na Figura 4.4 temos exemplos de imagens utilizadas na etapa de otimizao e as regies
selecionadas.
Estas regies selecionadas manualmente so utilizadas pelo mdulo de verificao de
regies salientes. O mdulo de verificao calcula estatsticas sobre a presena de pontos
salientes nas regies selecionadas manualmente. O clculo feito como descrito a seguir.
Ao aplicar o conjunto de pesos a uma imagem, calcula-se a quantidade mnima de pontos
para que 100% das reas de interesse sejam atingidas por no mnimo 1 ponto saliente. Aps
aplicar esse conjunto de pesos a todas as imagens, calculam-se a mdia e o desvio-padro.
Em seguida, essas medidas so enviadas ao mdulo de otimizao que utiliza estes valores
para minimizar a quantidade mdia de pontos presentes nas regies de interesse.
4.2.2 Mdulo de Ateno Visual
A Figura 4.5 apresenta detalhes da implementao do mdulo de ateno visual. O sistema

de ateno visual tem como entrada a imagem a ser processada e o conjunto de pesos uti-
lizado para ponderar os mapas. O resultado desse processamento so as coordenadas dos
pontos da imagem ordenados por valor de salincia, do mais saliente para o menos saliente.
Antes da soma dos mapas de conspicuidades e dos mapas de caractersticas, tais mapas
so ponderados utilizando-se os pesos obtidos pelo algoritmo gentico. Cada combinao de
(a) (b)
(c) (d)
Figura 4.4: Exemplos de imagens utilizadas na otimizao. Os retngulos indicam as regies

de interesse selecionadas manualmente.
IMAGEM DE
ENTRADA
FILTRAGEM
LINEAR
CORES INTENSIDADES ORIENTAES
DIFERENAS CENTROVIZINHANAS E NORMALIZAO PESOS
MAPAS DE CONSPICUIDADES
COMBINAO LINEAR
MAPA DE
SALINCIA
DESLOCAMENTO INIBIO DE
DE PIXELS RETORNO
PONTOS SALIENTES
Figura 4.5: Ilustrao do mdulo de ateno visual.
pesos aplicada a todas as imagens e os resultados so escritos em arquivo. Esses pesos so

aplicados aos mapas de caractersticas e de conspicuidades a fim de verificar qual a melhor
combinao para detectar as regies salientes da imagem.
Foi implementada uma estratgia de ordenao de pixels para selecionar as regies de
interesse. selecionada uma regio ao redor da coordenada de interesse (que corresponde
ao pixel com maior valor) no mapa de salincias. Alm de selecionar a regio de interesse,
esta regio preenchida com valores de intensidade nula, posteriormente. Isso previne que
a mesma regio de interesse seja tratada mais de uma vez, correspondendo a uma variante
simplificada para o mecanismo de inibio de retorno proposto no trabalho de Itti et al. [Itti
et al., 1998]
Para prevenir que somente partes de objetos sejam tratadas, uma estratgia de movimen-
tos sacdicos foi implementada. Para cada regio de interesse, so implementados deslo-
camentos que mudam o foco de ateno para vrios pontos vizinhos. Os focos de ateno
so determinados deslocando-se as coordenadas do ponto de ateno 5 e 10 pixels em uma
vizinhana de 8 pixels, gerando 16 variaes de pontos de ateno.
Siagian e outros [Siagian and Ititi, 2004] empregaram a computao da mdia dos mapas
para obteno do mapa de salincias final, e para realizar a tarefa visual requerida usando este
mapa (exemplo: localizar placas de trnsito ou localizar faces). Nesta dissertao, contudo, o
sistema de ateno visual ajustado pela mudana do conjunto de pesos que so usados para
para produzir o mapa de ateno final, de forma que a tarefa visual seja melhor realizada.
Estes pesos so obtidos por um processo experimental. Neste processo, pesos diferentes
so atribuidos a cada mapa e os resultados so otimizados por um algoritmo gentico. Na
prxima subseo, o mdulo responsvel pela gerao dos pesos que so atribudos aos
mapas descrito.
4.2.3 Mdulo de Otimizao de Pesos
Aps reviso bibliogrfica sobre tcnicas de ponderao de mapas de caractersticas para

gerao de mapas de salincias, optou-se por gerar os pesos utilizando-se algoritmos gen-
ticos. O principal motivo para tal escolha que no foi encontrado nenhum trabalho que
mencionasse o uso de algoritmos genticos para ponderao de mapas de caractersticas, e,
portanto, decidiu-se verificar a viabilidade de seu uso no problema em questo.
Como o sistema que implementa algoritmos genticos foi implementado na linguagem
de programao C++, procuramos por uma biblioteca que se adequasse a esse requisito.
Alm disso, outro fator pelo qual algumas partes do sistema foram implementadas em C++
a questo do desempenho, visto que operaes de processamento de imagens e evoluo de
algoritmos genticos exigem um alto desempenho. Porm, alguns mdulos do sistema foram
implementados utilizando Java. A linguagem Java foi utilizada nos sistemas de comunica-
o com o grid e no sistema de seleo manual das regies de interesse. Usou-se Java para
comunicao com o grid devido s facilidades disponibilizadas em Java, tais como: biblio-
tecas e interfaces para visualizao de jobs e tasks.
Os conjuntos de pesos aplicados ao sistema de ateno visual durante a otimizao foram
mapeados em cromossomos da seguinte forma: cada peso do conjunto corresponde a um

gene do cromossomo e um cromossomo representado por um conjunto de pesos. Neste
mapeamento no utilizamos cadeias de bits, ao invs disso, cada elemento da cadeia que
compe o cromossomo um nmero entre 1 e 100. Este modo de construir os cromossomos
foi utilizado para permitir um mapeamento mais claro entre os pesos e os elementos do
algoritmo gentico. No entanto, cada elemento da cadeia transformado em uma cadeia de
bits para que as mutaes sejam realizadas.
Devido a necessidade de normalizar os valores dos pesos aplicados aos mapas, para cada
mapa utilizado para formar o mapa de salincia foi atribuido aleatoriamente um valor entre
1 e 100 dividido pela soma dos valores de todos os mapas. Portanto, um cromossomo repre-
senta um conjunto de pesos e cada peso representado por um gene. Como so necessrios
27 mapas (3 de caractersticas, 4 de cor, 4 de intensidades e 16 de orientao) para formar
um mapa de salincia, cada cromossomo contm 27 pesos cujos valores iniciais so obtidos
aleatoriamente e em seguida so normalizados dividindo-se cada um pela soma de todos.
O tipo de algoritmo gentico implementado evolui utilizando sobreposio de popula-
es. A partir de uma porcentagem previamente estabelecida, o algoritmo cria uma nova
populao de uma porcentagem dos melhores indivduos da populao anterior e de uma
porcentagem dos cruzamentos e das mutaes da populao anterior. A aptido dos indi-
vduos para evoluo mensurada pela mdia de pontos presentes nas regies de interesse
que cada indivduo (conjunto de pesos) obteve. Se a mdia de pontos alta, o indivduo
descartado e no estar presente na prxima gerao, mas se a mdia baixa h uma grande
probabilidade do indivduo evoluir para a prxima gerao ou participar de cruzamentos e
mutaes com outros indivduos aptos a evoluir.
Aps a obteno de um conjunto de pesos, enviam-se os pacotes contendo o material que
ser utilizado no processamento nas mquinas remotas. Cada pacote contm os programas de
ateno visual e de clculos estatsticos, os arquivos contendo as coordenadas dos retngulos
que circunscrevem as regies selecionadas manualmente e dez imagens em dois formatos
diferentes (PPM, PGM). Os pesos so enviados por meio das tarefas do OurGrid e iro servir
como parmetros para o programa de ateno visual.
4.2.4 Biblioteca para Implementao de Algoritmos Genticos
Neste trabalho, utilizamos uma biblioteca para criao de algoritmos genticos, a biblioteca
GAlib (http://lancet.mit.edu/ga/ ). A GAlib uma biblioteca construda em C++ por Matthew
Wall no Massachusetts Institute of Technology. Alm disso, a GAlib gratuita e distribuda
sob uma licensa estilo BSD (BSD-style license). Alguns fatores que influenciaram na escolha
da GAlib: ela ser construda em C++, ser gratuita e dispor de uma boa documentao.
Esta biblioteca possui duas classes principais, uma representa genomas e a outra repre-
senta um tipo de algoritmo gentico. Cada instncia de genoma representa uma soluo
nica para determinado problema. O objeto algoritmo gentico define como a evoluo de-
ver ocorrer. O algoritmo gentico utiliza uma funo objetivo definida pelo usurio que
determina quo apto cada genoma est para sobreviver. H tambm operadores de genoma e
estratgias de seleo para gerar novos indivduos.
Para utilizar esta biblioteca o usurio deve definir trs coisas:
uma representao;
os operadores genticos;
a funo objetivo.
A GAlib prov mecanismos para gerar de forma rpida e prtica operadores e represen-
taes. Porm, o programador totalmente responsvel pela funo objetivo. Uma vez que
o programador tenha uma representao, os operadores e uma maneira de medir o objetivo
da otimizao, ele poder aplicar as funes pr-definidas do GAlib para implementar seu
sistema.
H muitos tipos de algoritmos genticos. A GAlib prov trs tipos bsicos: simple,
steady-state e incremental. Estes algoritmos diferem no modo de criao de novos indiv-
duos e na forma como os indivduos antigos sero substitudos durante a evoluo. A GAlib
prov dois mecanismos de extenso das capacidades dos objetos pr-definidos. Primeiro, o
programador pode derivar suas prprias classes e definir novas funes membro. Se o pro-
gramador necessita apenas de pequenos ajustes no comportamento de uma classe da GAlib,
em muitos casos, ele pode definir uma nica funo e informar classe da GAlib para usar a
4.3 Descrio sobre o Uso do OurGrid 52
nova funo ao invs da padro. Abaixo, h um trecho de cdigo de um programa utilizando

as classes da GAlib.
Cdigo 4.1: Trecho de cdigo exemplificando o uso da GAlib

f l o a t O b j e c t i v e ( GAGenome&);
main ( ) {
/ / c r i a um genoma
GA2DBinaryStringGenome genome ( width , h e i g h t , O b j e c t i v e ) ;
/ / c r i a o AG
GASimpleGA ga ( genome ) ;
/ / e v o l u i o AG
ga . e v o l v e ( ) ;
}
4.3 Descrio sobre o Uso do OurGrid

Detectamos a necessidade de utilizao de alguma forma de paralelismo para execuo do
sistema, justificada pelos seguintes fatores:
o processamento de uma imagem pelo mdulo de ateno visual leva, em mdia, 20

segundos para ser executado em um computador com 512MB de memria RAM e
1GHZ de clock;
havia um nmero muito grande de imagens para avaliar em cada gerao do algoritmo
gentico (foram processadas 380 imagens);
os parmetros estabelecidos para o algoritmo gentico determinavam o uso de 80 ge-

raes de 40 indivduos;
Considerando os fatores acima, seriam necessrios mais de 100 dias para realizar a oti-
mizao utilizando apenas um computador. Das formas de paralelismo conhecidas (super-
computadores, clusters e grades computacionais, por exemplo), optou-se pela utilizao de
uma grade computacional pelos seguintes motivos: no havia a necessidade de comunicao
entre os processos em execuo em computadores diferentes, possibilidade de execuo em
ambientes heterogneos e baixo custo operacional. Utilizando-se uma grade computacional,

o tempo de processamento foi reduzido para pouco mais de 24 horas. A grade computacional
utilizada foi o OurGrid (http://ourgrid.org). O OurGrid uma grade ponto-a-ponto (peer-to-
peer) a qual qualquer pessoa pode se juntar e obter acesso. Ele tem sido desenvolvido desde
dezembro de 2004. Em 8 de maro de 2007 o OurGrid contava com 206 computadores
conectados grade.
O sistema de comunicao com o OurGrid foi acoplado ao mdulo de otimizao de
pesos utilizando-se funes de chamada ao sistema de C++ e de Java. Isto foi necess-
rio devido ao fato de que tais mdulos foram implementados em linguagens de programao
distintas: o mdulo de otimizao de pesos em C++ e o sistema de comunicao com o Our-
Grid em Java. Detalhes sobre o funcionamento do sistema de comunicao com o OurGrid
so expostos a seguir.
Para cada indivduo da populao de genes criado um job contendo uma quantidade
de tarefas que est relacionada a quantidade de imagens que se deseja processar em cada
computador remoto. Por exemplo, se h 100 imagens e se deseja processar cinco imagens
em cada computador remoto, criam-se 20 tarefas. Observa-se que, desta forma, o nmero
de tarefas tambm indica a quantidade de computadores remotos que sero utilizados para o
processamento dos jobs. A escolha da quantidade ideal de tarefas foi realizada fazendo-se
alguns testes na grade utilizando-se poucas imagens e observando-se a quantidade de com-
putadores disponveis no perodo em que o processamento ia ser iniciado. Alm disso, como,
s vezes, algumas tarefas falhavam ou algum computador remoto que estava disponvel pas-
sava a ser usado causando a perda da tarefa, buscou-se estimar uma quantidade de tarefas
que minimizasse o tempo de processamento levando-se em considerao tanto a quantidade
de imagens que estariam sendo processadas paralelamente quanto a probabilidade da tarefa
falhar durante o processamento.
O OurGrid prov dois mecanismos que facilitam o acompanhamento das tarefas que
esto sendo processadas: uma interface grfica (mygrid gui) e uma pgina de status. A
interface grfica mostra o estado de todas as tarefas bem como em quais computadores da
grade as tarefas esto sendo executadas. A pgina de status (http://status.ourgrid.org/ ) exibe
todos os peers que esto online e seus computadores disponveis. As Figuras 4.6 e 4.7
mostram telas da interface grfica e da pgina de status.
Figura 4.6: Pgina de status do OurGrid.
Cada job contm a descrio das tarefas que devem ser executadas nos computadores
remotos bem como algumas exigncias que os computadores remotos devem cumprir para
que possam ser usados. No caso do sistema aqui exposto, os computadores remotos deveriam
estar executando o sistema linux. H outro requisito necessrio pelo sistema que iria rodar
remotamente mas que no podia ser especificado no incio do programa: ter o programa de
compactao tar instalado. A verificao da inexistncia desse programa em computado-
res remotos era feita pela observao dos motivos de falha em algumas tarefas e pelo fato
de que algumas tarefas sempre falhavam nos mesmos computadores. Quando se observava
falha persistente de tarefas em determinados computadores ou em computadores sob certo
domnio, alterava-se os requisitos dos jobs adicionando-se uma entrada que indicava ao ge-
renciador de jobs para no usar tais mquinas no processamento.
A especificao de cada tarefa contm a quantidade de imagens a serem processadas, o
comando para descompactar o pacote contendo um conjunto de imagens e os executveis, o
Figura 4.7: Interface grfica do MyGrid em execuo.
comando java responsvel por executar o programa que gerencia o sistema de ateno visual
e os clculos estatsticos, e o comando para enviar os resultados para o computador onde est
sendo executado o algoritmo gentico.

Este captulo apresentou a arquitetura do sistema e a descrio dos seus mdulos. Esta ar-
quitetura utiliza algoritmos genticos para otimizar um arranjo de pesos para os mapas de
caractersticas de forma que o mapa de salincias resultante apresente melhores resultados
quando comparado com resultados previamente aprendidos. Nesta arquitetura, a otimizao
seguida por fases de deteco e comparao. Na fase de deteco, construdo um mapa
de salincia baseado em trs caractersticas (cor, intensidade e orientao). Aps a fase de
deteco, as regies salientes so comparadas com algumas regies selecionadas manual-
mente em uma etapa anterior e os resultados da comparao so usados na prxima etapa de

otimizao.
No prximo captulo, os experimentos realizados so relatados e analisados. Estes ex-
perimentos foram executados com quatro classes de imagens e os resultados obtidos pelo
sistema aqui exposto so comparados com os resultados obtidos utilizando o sistema de
Itti [Itti et al., 1998].
Captulo 5
Resultados Experimentais
Este captulo apresenta os experimentos realizados com o intuito de comparar sistemas de

ateno visual bottom-up sem otimizao dos pesos dos mapas de caractersticas com o sis-
tema de ateno visual proposto, no qual os pesos dos diversos mapas que compem o mapa
de salincia so otimizados via algoritmo gentico. Alm disso, os problemas de gerencia-
mento de memria enfrentados com os experimentos no OurGrid so descritos.
5.1 Detalhes sobre a Obteno das Imagens e Otimizao

dos Pesos
O principal propsito dos experimentos foi otimizar os pesos de modo que o sistema pudesse
encontrar o assunto de interesse nas imagens utilizando a menor quantidade possvel de
pontos. Os experimentos foram realizados utilizando quatro tipos de imagens: imagens
com pessoas, imagens de objetos genricos, imagens de carros e imagens de pistolas. No
conjunto de imagens que continha pessoas, as regies das faces foram selecionadas como
sendo as regies mais atrativas. Nos outros conjuntos de imagens, as regies contendo as
classes de objetos definidas anteriormente foram selecionadas. O objetivo de usar diferentes
tipos de imagens verificar a capacidade de generalizao do algoritmo gentico.
Neste trabalho, foram utilizados computao em grade e algoritmos genticos. A grade
computacional OurGrid (http://ourgrid.org/) foi utilizada para processar remotamente e
paralalemente o mdulo de ateno visual. A biblioteca de algoritmos genticos GAlib
57
5.1 Detalhes sobre a Obteno das Imagens e Otimizao dos Pesos 58
(http://lancet.mit.edu/ga/) foi utilizada para implementar o algoritmo de otimizao de pesos

dos mapas de caractersticas e conspicuidades. Quase todo o cdigo foi implementado utili-
zando a linguagem de programao C++, as excesses so o sistema de seleo manual e os
mtodos relacionados comunicao com a grade os quais foram implementados utilizando
a linguagem Java.
5.1.1 Obteno de Imagens
No total, foram utilizadas 380 imagens nos processos de otimizao: 100 de pes-
soas, 100 de carros, 100 de armas e 80 de objetos genricos. Para teste, fo-
ram utilizadas 400 imagens, 100 para cada classe. Estas imagens foram obtidas
por meio de download da Internet. Para executar esta tarefa, foram utilizados os
seguintes programas: FlickrDown, GoogleGrab e NeoDownloader. O FlickrDown
(http://greggman.com/pages/flickrdown.htm) especfico para obteno de imagens do s-
tio www.flickr.com. O GoogleGrab (http://www.sas21.de/apps/webimagegrab/ ) automatiza
o processo de download de imagens do stio http://images.google.com.br. O NeoDownloa-
der (http://www.neowise.com/neodownloader/ ) um webcrawler que busca por imagens a
partir de um stio dado como entrada e de todos os seus links.
O stio www.flickr.com um stio para armazenamento, pesquisa e organizao de foto-
grafias onde qualquer pessoa pode armazenar suas imagens. Ele utiliza um sistema simples,
porm til, para facilitar o agrupamento das imagens. Este sistema de rotulamento (tags) per-
mite ao usurio que est fazendo upload rotular suas imagens de acordo com seu contedo.
No entanto, este stio no oferece nenhuma forma prtica para download de um conjunto
de imagens com determinado rtulo. O FlickrDown um programa criado para solucionar
este problema. Ele permite que o usurio faa download de at 500 imagens de determinado
rtulo.
Problema semelhante enfrentado quando algum deseja fazer download de vrias ima-
gens retornadas pela busca por imagens do Google. O Google no fornece nenhuma ferra-
menta que permita o download automtico de vrias imagens retornadas por sua busca. O
GoogleGrab um programa que permite que este download seja realizado. No entanto, h
limitaes quanto a quantidade de imagens baixadas.
Uma maneira menos restrita, porm com uma probabilidade mais alta de obter imagens
5.2 Processo de Otimizao 59
irrelevantes (baixa resoluo e contedo no fotogrfico, por exemplo) da Internet, utilizar

um webcrawler. Um webcrawler uma ferramenta que prov um meio rpido de encontrar
recursos na Internet atravs da manuteno de um ndice da Web que pode ser consultado
sobre documentos de um assunto especfico [Pinkerton, 1994]. Neste trabalho utilizamos o
webcrawler NeoDownloader para obter parte das imagens. Os parmetros bsicos que ele
necessita como entrada so: o stio inicial, os tipos de imagens que devem ser obtidas, o
tamanho mnimo de imagem e uma palavra, ou conjunto de palavras, chave. Ele busca por
todo o stio e segue os links presentes neste para outros stios.
5.1.2 Otimizao dos Pesos
O algoritmo gentico utiliza sobreposio de populaes. Utilizando uma porcentagem pre-

viamente estabelecida, o algoritmo cria uma nova populao de uma porcentagem dos me-
lhores indivduos da populao anterior e de uma porcentagem das recombinaes e das
mutaes da populao anterior. O objetivo do algoritmo determinar a melhor mdia de
pontos necessria para encontrar todas as regies previamente selecionadas manualmente.
Aps os pesos otimizados serem encontrados, um processo de verificao foi realizado.
Este processo foi realizado utilizando-se para cada classe 100 imagens que no faziam parte
dos conjuntos utilizados para otimizao. Estas imagens foram obtidas de stios da Internet.
No conjunto de imagens com pessoas, as regies das faces de pessoas foram manualmente
selecionadas. Nos outros conjuntos de imagens, as regies selecionadas foram aquelas que
despertam a ateno segundo algumas caractersticas primitivas (cor, intensidade e orienta-
o). Em seguida, foi realizada uma verificao para se obter a quantidade de pontos salien-
tes contidos nas regies selecionadas manualmente. A prxima seo detalha a evoluo de
cada algoritmo gentico.
5.2 Processo de Otimizao

Esta seo apresenta uma discusso sobre a evoluo dos algoritmos genticos de cada classe
de imagens. Alm de apresentar grficos das melhores mdias de pontos presentes nas re-
gies selecionadas manualmente, esta seo tambm apresenta os melhores conjuntos de
pesos, os parmetros de entrada dos algoritmos genticos e uma anlise de quais caracters-
ticas so mais importantes para cada classe de imagens.
5.2.1 Determinao dos Parmetros para os Algoritmos Genticos
Antes de iniciar os processos de otimizao, foram realizados experimentos com o intuito de

identificar quais os valores mais apropriados para a probabilidade de mutao. Para estes ex-
perimentos o valor de probabilidade de recombinao foi fixado em 60%. Foram realizados
dez experimentos para cada conjunto de imagens, utilizando amostras de 20 imagens para
cada conjunto. Em cada experimento, foram testados valores de mutao no intervalo de 1
a 10%, com passo de 1%. Estes experimentos mostraram que, para o problema aqui tratado,
o valor de mutao mais apropriado para ser utilizado com uma probabilidade de recom-
binao de 60% de 1%. O Apndice B mostra os grficos das evolues dos algoritmos
genticos para cada valor de mutao.
5.2.2 Imagens de Objetos Genricos
A Figura C.1 mostra a evoluo do algoritmo gentico para imagens contendo objetos ge-
nricos. Nesta figura, podemos ver os valores das mdias dos melhores indivduos de cada
gerao. Para este experimento, os valores atribudos para mutao, recombinao e subs-
tituio foram: 0,01, 0,6 e 0,5 respectivamente. Cada gerao continha 80 indivduos e o
algoritmo gentico deveria evoluir at 40 geraes. No entanto, o algoritmo gentico pa-
rou de evoluir na vigsima primeira gerao. Isto ocorreu porque a curva de otimizao
estabilizou-se. O indivduo que obteve a melhor mdia (577,33) de pontos foi o indivduo 34
da vigsima primeira gerao.
O indivduo que obteve melhor mdia de pontos continha o conjunto de pesos mostrado
na Tabela 5.1. Nesta tabela, a primeira coluna contm os trs pesos que sero aplicados aos
mapas de conspicuidades que formam o mapa de salincia, a segunda coluna contm os pesos
para os mapas de intensidades, a terceira os pesos para os mapas de cores e a quarta os pesos
para os mapas de orientao. Os pesos da primeira coluna correspondem a intensidade,
cor e orientao, respectivamente. Os pesos dos mapas de intensidades correspondem s
intensidades dos canais vermelho, verde, azul e amarelo, nesta ordem. Os pesos dos mapas
de orientao podem ser agrupados de quatro em quatro, de forma que cada grupo de quatro
orientaes corresponde a variaes de orientao para uma mesma escala (as orientaes
so: 0 , 45 , 90 e 135 ). Esta mesma explicao vale para as Tabelas 5.2, 5.3 e 5.4). Da
anlise deste conjunto de pesos podemos observar que a caracterstica mais importante para
guiar a ateno no mapa de salincia para objetos genricos a orientao. E para os 4 nveis
das pirmides de orientao, as orientaes mais importantes so 45 e 135 (segundos e
quartos valores de cada grupo de quatro orientaes), nesta ordem.
Salincia Intensidades Cores Orientaes

4 11 96 44 86 4 16 13 47 28 86 5 89 19 76 3 96 4 10 13 39 1 24 5 89 3 66
Tabela 5.1: Pesos para objetos genricos.
1300
1200
Mdias da Avaliao dos Melhores Indivduos
1100
1000
900
800
700
600
500
0 5 10 15 20 25
Geraes
Figura 5.1: Melhores mdias de cada gerao para imagens contendo objetos genricos.
5.2.3 Imagens Contendo Faces de Pessoas
As melhores mdias de cada gerao na evoluo do algoritmo gentico para imagens con-
tendo faces de pessoas mostrada na Figura C.2. Nesta figura, podemos observar que o
melhor cojunto de pesos foi obtido por um indivduo da quadragsima gerao, que obteve
uma mdia de 40,29 pontos presentes nas regies selecionadas manualmente. Os valores
das probabilidades de mutao, recombinao e substituio para este experimento foram
respectivamente 0,01, 0,7 e 0,5. O algoritmo gentico deveria evoluir at 80 geraes de
40 indivduos, mas a evoluo estabilizou-se a partir da gerao 40 e a otimizao parou na
gerao 41. A Tabela 5.2 mostra o conjunto de pesos que obteve a melhor mdia de pontos
salientes em regies selecionadas manualmente. A partir desses valores podemos perceber
que a caracterstica mais importante para despertar a ateno do observador em regies de
faces (em um mapa de salincias que utiliza cor, intensidade e orientao) a orientao.
Pelo conjunto de pesos para os mapas de orientao podemos perceber que a orientao 45
a mais importante para os trs nveis mais altos da pirmide. No entanto, para o quarto
nvel, a orientao mais importante 90 .

1 3 65 33 39 93 46 37 79 10 60 2 90 23 7 62 99 3 58 1 86 1 15 4 32 39 10
Tabela 5.2: Pesos para imagens de pessoas.
120
110
100
90
80
70
60
50
40
0 5 10 15 20 25 30 35 40 45
Geraes
Figura 5.2: Melhores mdias de cada gerao para imagens de pessoas.

5.2.4 Imagens de Armas
No grfico da Figura C.3 podemos observar os melhores resultados de cada gerao na otimi-
zao de pesos para imagens de armas (pistolas ou revlveres). Os valores das probabilidades
de mutao, recombinao e substituio foram: 0,1, 0,6 e 0,5, nessa ordem. As geraes
continham 40 indivduos e deveriam evoluir at 80 geraes. Porm, a curva de otimiza-
o estabilizou-se na quadragsima primeira gerao. A melhor mdia de pontos (30,05) foi
obtida pelo indivduo 50 da dcima oitava gerao. O conjunto de pesos deste indivduo
mostrado na Tabela 5.3. Analisando os pesos do mapa de salincia observa-se que os ma-
pas de caractersticas para intensidade e cor tm pouca ou nenhuma influncia para guiar
a ateno para regies onde h pistolas. Podemos observar que a orientao 45 a mais
importante em todos os nveis das pirmides.

1 1 33 71 16 68 78 18 40 72 79 24 47 2 10 49 76 23 39 2 77 13 72 43 65 31 11
Tabela 5.3: Pesos para imagens de pistolas.
70
65
60
55
50
45
40
35
30
0 5 10 15 20 25 30 35 40 45
Geraes
Figura 5.3: Melhores mdias de cada gerao para imagens contendo armas.
5.2.5 Imagens de Carros
Como nos outros casos, verificou-se que a orientao a caracterstica mais importante para
guiar a ateno para regies contendo carros. Isto pode ser observado no conjunto de pe-
sos do indivduo que obteve a melhor mdia de pontos (4,15) na otimizao para imagens
contendo carros. Tal conjunto de pesos foi obtido pelo vigsimo indivduo da quadragsima
primeira gerao. O algoritmo deveria evoluir at 80 geraes, mas a curva estabilizou-se a
partir da gerao 41. Seu conjunto de pesos : 18 25 96 80 32 26 4 98 48 23 27 58 97
6 51 5 72 2 12 3 51 4 82 16 96 1 38, como mostrado na Tabela 5.4. Com exceo do nvel
2 das pirmides, cujo peso mais importante est para orientao 135 , todos os nveis tm
como orientao mais importante 45 . Para este experimento, os valores das probabilidades
de mutao, recombinao e substituio foram: 0,01, 0,7 e 0,5.

18 25 96 80 32 26 4 98 48 23 27 58 97 6 51 5 72 2 12 3 51 4 82 16 96 1 38
Tabela 5.4: Pesos para imagens de carros.
14
13
12
11
10
4
0 5 10 15 20 25 30 35 40 45
Geraes
Figura 5.4: Melhores mdias de cada gerao para imagens contendo carros.
5.3 Descrio do Sistema Utilizado para Comparao 65
5.3 Descrio do Sistema Utilizado para Comparao

O sistema aqui proposto foi comparado com uma implementao do sistema de Itti et al [Itti
et al., 1998]. O sistema iLab Neuromorphic Vision C++ Toolkit (iNVT, pronunciado in-
vent) desenvolvido pelo laboratrio iLab da University of Southern California. Esta im-
plementao est disponvel para download em http://ilab.usc.edu/toolkit/.
O iNVT um conjunto completo de classes C++ para o desenvolvimento de modelos
neuromrficos de viso. Modelos neuromrficos so algoritmos cuja arquitetura e funo so
inspiradas em crebros biolgicos. O iLab Neuromorphic Vision C++ Toolkit compreende
no apenas classes base para imagens, neurnios e reas cerebrais, mas tambm modelos tais
como o modelo de ateno visual bottom-up e de surpresa Bayesiana 1 .
As caractersticas fundamentais deste toolkit so:
a principal plataforma de desenvolvimento Linux;
possui classes para processamento de baixo nvel, tais como: Point2D, Rectangle,
Range e Timer;
possui funes de entrada/sada de imagens como leitura/escrita de arquivos de ima-

gens (PNM ou PNG) ou streams de vdeo;
modelos neuromrficos de ateno visual, integrao de contorno e reconhecimento

de objetos;
ferramentas para processamento paralelo de modelos complexos em clusters de com-

putadores.
5.3.1 Experimentos com o iNVT
Os experimentos foram realizados utilizando o mdulo de ateno visual bottom-up do

iNVT. Para estes experimentos o programa utilizado foi o ezvision e foram utilizadas 400
imagens (100 para cada classe de regio saliente estudada). O ezvision foi executado por
meio de um shell script que determinava a imagem e os parmetros de entrada e salvava o
1
Surpresa Bayesiana (Bayesian Surprise) quantifica como os dados afetam observadores naturais e artificiais
atravs da medida de diferenas entre crenas posteriores e anteriores dos observadores.
5.3 Descrio do Sistema Utilizado para Comparao 66
log de sada em um determinado diretrio. Este script determinava os seguintes parmetros

de entrada para o ezvision:
output-frames=0-2500@EVENT -+: indica a quantidade de pontos salientes, neste

caso, 2500;
salmap-iordecay=0: coeficiente que indica o decaimento da inibio de retorno;
out=pnm: especifica um destino para os frames de sada;
textlog=test.txt: salva mensagens de log em arquivo. Estes arquivos contm as coor-

denadas dos pontos de salincia para cada imagem;
foa-radius=1: raio do foco de ateno;
in=nome_da_imagem: imagem de entrada.
O cdigo abaixo mostra o script utilizado para executar o ezvision. Como pode ser ob-
servado pelo parmetro output-frames=0-2500@EVENT -+, foram extrados 2500 pontos
salientes. Isto foi necessrio porque, mesmo com a inibio de retorno ativada, ocorria re-
dundncia de pontos salientes. Para obter apenas 845 pontos (correspondentes a 1% do total
de pontos de cada imagem) foi utilizado um programa para extrair os primeiros 845 pontos
sem repetio. Estes pontos foram utilizados no processo de verificao das regies salientes
que ser discutido na prxima seo.
# ! / b i n / bash
l s f o t o s _ j p g / > nomes_das_imagens . t x t
f u n c t i o n get_image_name {
c a t n o m e s _ d a s _ i m a g e n s . t x t | head n $1 | t a i l n 1
| c u t f 1 d . ;
}
f o r ( ( i = 1 ; i < " 101 " ; i + + ) ) ; do
IMG_NAME=$ ( g e t _ i m a g e _ n a m e $ i ) ;
IMG_NAME2=$IMG_NAME. j p g ;
IMG_NAME_TXT=$IMG_NAME. t x t ;
echo "IMG_NAME=$IMG_NAME" ;
5.4 Resultados da Verificao das Regies Salientes 67
e z v i s i o n o u t p u t f r a m e s =02500@EVENT +
salmap i o r d e c a y =0 o u t =pnm
t e x t l o g = t e s t p . t x t f o a r a d i u s =1
i n = F o t o s _ n a o _ t r e i n a d a s / $IMG_NAME2
mv t e s t p . t x t t o p 2 5 0 0 _ p e o p l e / $IMG_NAME_TXT
done
5.4 Resultados da Verificao das Regies Salientes

A verificao da presena dos pontos salientes nas regies selecionadas manualmente foi
executada para pontos obtidos por trs sistemas: iNVT, ateno visual com otimizao de
pesos e ateno visual sem otimizao de pesos. Os trs sistemas foram executados para
quatro conjuntos de imagens: imagens contendo faces de pessoas, imagens de objetos gen-
ricos, imagens de carros e imagens de armas. Nas subsees seguintes, so apresentados os
resultados obtidos.
5.4.1 Imagens Contendo Faces de Pessoas
O conjunto de imagens com pessoas usado no processo de verificao contm 194 faces de
pessoas. A partir do grfico da Figura C.7 pode-se obervar que, utilizando-se somente 1%
do nmero total de pontos de cada imagem, o sistema que utiliza pesos otimizados encon-
trou pontos de interesse em 152 faces de pessoas previamente selecionadas. Para o mesmo
conjunto, o sistema iNVT encontrou pontos salientes em 98 faces utilizando 1% do total
de pontos da imagem. O resultado com pesos otimizados representa um ganho de 26% em
relao ao sistema iNVT. Na Figura C.7, bem como em todas as figuras que mostram a com-
parao dos resultdos do sistema proposto com os resultados do sistema de iNVT, verifica-se
que a curva dos resultados do sistema iNVT fica constante a partir de um certo valor de pon-
tos por imagem (para imagens contendo faces de pessoas, 0,1%). Isso ocorre porque a partir
desse valor o sistema no consegue sair da regio, gerando um aglomerado de pontos muito
prximos uns dos outros. A Figura 5.5 ilustra este fato, nela foram marcados 1% dos pontos
da imagem.
Figura 5.5: Marcao dos pontos salientes obtidos pelo sistema iNVT.
100
itti
90 com pesos
sem pesos
Pontos Presentes nas Regies Selecionadas
80
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos por Imagem(%)
Figura 5.6: Comparao dos resultados para imagens contendo pessoas.
5.4.2 Imagens Contendo Objetos Genricos
No conjunto de imagens contendo objetos genricos, 258 objetos, ou regies que despertam
a ateno, foram manualmente selecionadas. O grfico da Figura C.8 mostra que utilizando-
se 1% do nmero total de pontos de cada imagem o sistema que utiliza pesos otimizados
encontrou pontos de ateno em 222 objetos ou regies, enquanto que o sistema iNVT en-
controu pontos salientes em 189 objetos. Desta forma, a otimizao de pesos para objetos
genricos incrementou em cerca de 9% a quantidade de regies selecionadas atingidas por
pontos salientes em relao ao sistema iNVT.
100
itti
90 com pesos
sem pesos
Pontos Presentes nas Regies Selecionadas

80
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos das Imagens (%)
Figura 5.7: Comparao dos resultados para imagens contendo objetos genricos.
5.4.3 Imagens Contendo Armas
As 100 imagens utilizadas para este experimento continham 104 armas. O grfico da Figura
5.8 mostra que os trs sistemas obtiveram altas taxas de acerto na localizao das regies
selecionadas manualmente. Isto decorre do fato de que a maioria das imagens utilizadas
apresentava as armas em close-up, ou seja, em algumas imagens as armas ocupavam uma
grande rea. No Apndice D, h exemplos de imagens utilizadas. Apesar de os trs sistemas
apresentarem valores altos de acerto, o que deve ser levado em considerao que mesmo
assim o sistema de ateno visual proposto apresentou valores mais altos do que o iNVT.
Utilizando 845 pontos o iNVT encontrou pelo menos um ponto saliente em 97 regies e
o sistema de ateno visual com otimizao de pesos encontrou pontos salientes em 100
regies.
5.4.4 Imagens Contendo Carros
Ocorreu um problema semelhante ao dos experimentos com imagens de armas com o experi-
mento de imagens de carros. Devido dificuldade de encontrar imagens apropriadas para os
experimentos, algumas imagens utilizadas apresentavam carros ocupando uma grande rea
5.5 Problemas Enfrentados com o Uso do OurGrid 70
100
90
Pontos Presentes nas Regies Selecionadas (%)

80
itti
70 com pesos
sem pesos
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figura 5.8: Comparao dos resultados para imagens contendo pistolas.
da imagem, como pode ser observado no Apndice D. No conjunto de imagens de teste,

foram selecionados 101 carros, destes, o iNVT acertou 100 e o sistema de ateno visual oti-
mizado acertou todas as regies, utilizando 845 pontos. Como no experimento com imagens
de armas, o mais importante no a alta taxa de acerto, mas a diferena entre as taxas do
iNVT e do sistema proposto. Os resultados para este experimento so mostrados no grfico
da Figura 5.9
As Figuras C.7, C.8, 5.8 e 5.9 deixam evidente que o uso de pesos otimizados melhora a
tarefa de encontrar o assunto das imagens. Alm disso, os pesos otimizados guiam a deteco
de assunto de modo que o usurio possa estabelecer previamente que tipo de objetos ele
deseja que seja ressaltado no mapa de salincias.
5.5 Problemas Enfrentados com o Uso do OurGrid

No nicio do processamento das tarefas na grade computacional, observou-se que quando a
quantidade de tarefas chegava a um nmero expressivo, por exemplo 1000, o gerenciador de
tarefas do OurGrid, MyGrid, que estava executando no computador local comeava a con-
sumir uma quantidade muito grande de memria o que causava sua finalizao pelo sistema
100
90 itti
Pontos Presentes nas Regies Selecionadas (%)

80 com pesos
sem pesos
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figura 5.9: Comparao dos resultados para imagens contendo carros.
operacional. Aps a postagem de dvidas no forum do OurGrid, ficou entendido que o alto
consumo de memria era devido a um problema na verso do OurGrid que estava sendo
utilizada e que tal problema seria resolvido em verses posteriores do OurGrid.
Para resolver o problema de forma indireta, foi proposta a escrita de um shell script que
gerenciasse a memria do sistema de forma que quando o consumo de memria pelo ge-
renciador de tarefas atingisse determinado valor, 70% do total de memria do sistema por
exemplo, o script suspendesse temporariamente a execuo das tarefas, salvasse os resulta-
dos obtidos at aquele momento e reiniciasse o processamento a partir do job onde havia
parado.
Esta soluo foi implementada criando-se um shell script que faz o gerenciamento da
memria utilizada e acrescentado-se funo que envia os jobs para a grade um gerenciador
de tarefas que ao enviar o job para a grade lana uma thread que executa o shell script em
paralelo com o processo que executado na grade e faz a verificao da memria consumida
pelo processo local. O shell script implementado mostrado no Apndice A.
Apesar desta soluo ter permitido a finalizao dos experimentos, ela criou alguns efei-
tos colaterais ao processamento. Primeiro, quando a memria utilizada pelo gerenciador de
tarefas atingia o valor mximo permitido pelo script, as tarefas que estavam sendo executa-
das eram abandonadas pelo gerenciador o que causava acmulo de lixo (cdigo e imagens)
nas mquinas remotas. Aps algumas paradas, as mquinas remotas que estavam com lixo
acumulado no tinham mais espao em disco disponvel para guardar novo material enviado
pelas tarefas o que causava erros durante o processamento. Segundo, o processo de parar a
tarefa que est sendo executada e reiniciar o processamento do ponto onde havia parado
custoso em relao ao tempo necessrio para ser executado o que tornou o processamento
mais lento.
As bibliotecas do OurGrid sofreram algumas modificaes e atualizao de verses. Isto
provocou algumas incompatibilidades do sistema aqui exposto com as novas verses, pois o
sistema tinha sido implementado com a verso 3.2 e as mquinas da grade foram atualizadas
para a verso 3.3. Como as verses 3.2 e 3.3 do OurGrid so incompatveis, foi necessria
a reimplementao de algumas classes. O fato de se estar utilizando verses muito novas
destas bibliotecas ocasionou alguns problemas de implementao devido incompletude
da documentao. No entanto, o forum de discusso do OurGrid foi de grande valia na
resoluo dos problemas de implementao.
A nova verso do OurGrid trouxe duas timas melhorias. Primeiro, no mais necessrio
que o programa salve em disco o nmero do ltimo job executado, pois o MyGrid faz isso
automaticamente. A segunda melhoria foi excelente, o problema de estouro de memria ao
executar uma quantidade muito grande de jobs no ocorre mais.
Outro problema ocasionado pela atualizao de verses do OurGrid foi a insero de
bugs inexistentes nas verses anteriores. Particularmente, um bug relacionado s funes de
armazenamento das tarefas nos computadores remotos. Como anteriormente o sistema aqui
exposto utilizava a funo storage e esta funo apresentou problemas na nova verso do
OurGrid, ela teve que ser substituda pela funo put. O problema com a funo storage
que algumas tarefas nunca finalizavam. Apesar dos bugs inseridos e da incompatibilidade de
verses, a nova verso do OurGrid trouxe uma srie de caractersticas que superam todos os
novos problemas.

Este captulo relatou os experimentos realizados para otimizar os mapas de salincias do
mecanismo de ateno visual, bem como os experimentos para avaliar o desempenho e com-
parar o sistema proposto com um existente e amplamente utilizado. Com excesso dos pro-
gramas que rodaram na grade computacional, todos os experimentos foram executados em
um PC convencional (com 1GHz de FLOPS e 512M de RAM). O sistema de algoritmo
gentico foi implementado utilizando a biblioteca GAlib (http://lancet.mit.edu/ga/). A oti-
mizao do algoritmo gentico foi realizada em grade por meio da utilizao do OurGrid
(www.ourgrid.org).
Alm disso, foram realizados vrios experimentos de comparao com o sistema de aten-
o visual desenvolvido pelo laboratrio iLab da University of Southern California. Este
sistema de ateno visual baseado no modelo proposto por Itti et al [Itti et al., 1998]. O
prximo captulo apresenta as concluses desta dissertao, apontando as principais contri-
buies, os objetivos atingidos e os possveis trabalhos futuros.
Captulo 6
Concluso
Este captulo apresenta um sumrio dos principais pontos discutidos nesta dissertao, bem
como as contribuies da pesquisa desenvolvida e sugestes de trabalhos futuros.
6.1 Sumrio da Dissertao

O Captulo 1 apresentou qual problema serviu de motivao para que este trabalho fosse re-
alizado. A motivao surgiu do questionamento sobre a viabilidade de guiar a ateno visual
bottom-up (baseado no modelo que utiliza mapas de salincia) utilizando algoritmos genti-
cos. Ento, o principal objetivo apresentado foi investigar se possvel criar um mecanismo
de ateno visual que possa ser otimizado para destacar como regies importantes qualquer
classe de objetos desejada.
Em seguida, no Captulo 2, foi feita uma reviso bibliogrfica sobre sistemas que uti-
lizam ateno visual e algoritmos genticos. Aps a anlise destes artigos, ficou evidente
a ausncia de trabalhos que utilizam algoritmos genticos para inserir informaes de alto
nvel em sistemas de ateno visual bottom-up do modo como realizado neste trabalho.
Os principais conceitos envolvidos nesta dissertao foram elucidados no Captulo 3.
Neste captulo foi apresentado o modelo proposto por Itti et al. [Itti et al., 1998] que um
dos modelos de ateno visual bottom-up mais conhecidos. O mdulo de ateno visual
desenvolvido neste trabalho uma verso adaptada do modelo de Itti. Alm disso, o Captulo
3 tambm descreveu o principal tipo de algoritmo gentico (Algoritmo Gentico Cannico
- AGC) [DeJong, 1975]. O mdulo de otimizao de pesos do sistema aqui exposto foi
74
6.2 Contribuies 75
implementado utilizando a biblioteca GAlib.

A arquitetura do sistema foi apresentada no Captulo 4. O sistema composto por trs
mdulos: verificao de regies de interesse, ateno visual e otimizao de pesos. O mdulo
de verificao de regies responsvel pelos clculos estatsticos dos resultados obtidos pelo
mdulo de ateno visual. O mdulo de ateno visual utiliza os pesos obtidos pelo mdulo
de otimizao. O mdulo de otimizao de pesos contm as funes do algoritmo gentico
e as funes de comunicao com o OurGrid.
Os experimentos realizados bem como a anlise de seus resultados so apresentados
no Captulo 5. Foram realizados experimentos com imagens nas quais o assunto era uma
das seguintes classes: objetos genricos, pistolas ou revlveres, carros e faces de pessoas.
Tambm foram realizados experimentos comparativos entre o sistema proposto e o sistema
de Itti. Alm disso, este captulo faz uma anlise dos melhores pesos encontrados pelo
algoritmo gentico para cada classe de imagens, identificando quais as caractersticas mais
importantes para guiar a ateno para as classes de imagens.
Diante dos resultados obtidos, consideramos que o objetivo de investigar a viabi-
lidade de guiar a ateno visual bottom-up utilizando algoritmos genticos foi alcan-
ado. Os resultados apresentados no Captulo 5 mostram que a utilizao de algorit-
mos genticos aumenta a taxa de pontos localizados em regies pr-definidas em at
20%. Alm disso, esta pesquisa resultou em duas publicaes [Pereira and Gomes, 2006;
Pereira et al., 2006].
Na prxima seo, apresentamos as principais contribuies deste trabalho e explicita-
mos os objetivos alcanados.
6.2 Contribuies
Como foi apresentado no Captulo 3, a ateno visual bottom-up indica as regies mais
importantes de uma imagem como sendo aquelas que despertam o interesse do observa-
dor de forma inconsciente. Esta ateno guiada apenas por caractersticas de baixo n-
vel da imagem. H vrios sistemas e modelos que propem modos de associar conheci-
mentos de alto nvel a processos bottom-up [Milanese et al., 1994; Sun and Fisher, 2003;
Navalpakkam and Itti, 2003]. No entanto, nenhum desses modelos utiliza otimizao de
6.2 Contribuies 76
mapas de caractersticas como o sistema aqui proposto.

O sistema proposto nesta dissertao possui as seguintes contribuies:
Aplicao de pesos aos diversos mapas de caractersticas que so utilizados para for-
mar um mapa de salincia. A novidade est no modo como estes pesos so obtidos.
Para a obteno desses pesos, selecionam-se manualmente regies salientes num con-
junto de imagens. Em seguida, gera-se um conjunto de pesos que so aplicados aos
mapas de caracterstocas obtidos pelo processamento dessas imagens. Calcula-se a
mdia de pontos de ateno de forma que pelo menos um ponto esteja presente nas
regies selecionadas manualmente. O algoritmo gentico evolui a fim de minimizar
essa mdia. Assim, tem-se um mecanismo genrico de ajuste, que pode ser facilmente
aplicado a diferentes classes de problemas.
Processamento em grade. Como o processamento de uma imagem pelo mdulo de

ateno visual leva, em mdia, 20 segundos para ser executado em um computador
com 512MB de memria RAM e 1GHZ de clock, havia um nmero muito grande de
imagens para serem avaliadas em cada gerao do algoritmo gentico, os parmetros
estabelecidos para o algoritmo gentico determinavam o uso de 80 geraes de 40
indivduos, foi necessria a utilizao de processamento paralelo. Pois, considerando-
se que a cada gerao processam-se 100 imagens , seriam necessrios mais de 100 dias
para processar todas as imagens utilizando-se apenas um computador. Utilizando-se a
grade computacional o tempo de processamento foi reduzido para mais ou menos 24
horas.
Estudo de modelos de ateno visual bottom-up e de algoritmos genticos. Compara-

o e avaliao estatstica do modelo de ateno visual implementado com um modelo
existente na literatura [Itti et al., 1998]. As contribuies deste item comprovam que
os objetivos especficos apresentados no Captulo 1 foram alcanados.
Alm disso, os experimentos demonstram que o sistema proposto pode ser otimizado
para diferentes classes de objetos. Desta forma, ele pode servir como um mdulo para um
sistema genrico de deteco de objetos. Na prxima seo, so apresentadas sugestes de
trabalhos futuros.
6.3 Trabalhos Futuros 77
6.3 Trabalhos Futuros

Esta seo apresenta algumas sugestes de trabalhos futuros relacionados obteno de um
melhor desempenho pelo sistema de ateno visual. Alm disso, apresenta sugestes de
sistemas que poderiam utilizar o sistema aqui proposto como um meio para agilizar tarefas
de deteco e reconhecimento.
6.3.1 Outras Formas para Otimizao de Algoritmos Genticos
Vrios outros parmetros poderiam ser utilizados na otimizao de algoritmos genticos.

Por exemplo, ao invs de utilizar populaes isoladas de indivduos, poderia ser feito um
estudo sobre a utilizao de populaes que evoluem paralelamente e que em determina-
dos perodos trocam informaes. Poderia, tambm, ser realizada uma investigao sobre a
viabilidade de otimizar outros parmetros alm da mdia de pontos, como por exemplo, o
desvio padro. Esta otimizao seria tanto dos parmetros isolados quanto dos parmetros
associados (mltiplos objetivos).
Deve-se salientar que o sistema de ateno visual implementado nesta dissertao uma
verso adaptada do modelo proposto por Itti et al. [Itti et al., 1998] que est disponvel para
download em http://ilab.usc.edu/toolkit/. H dois estudos que poderiam ser realizados com
o intuito de melhorar o desempenho do mdulo de ateno visual. O primeiro seria incre-
mentar a quantidade de caractersticas primitivas utilizadas (originalmente cor, intensidade
e orientao) com profundidade, movimento, textura, etc. O segundo seria investigar um
modo de aplicar os pesos ao sistema de Itti e realizar a otimizao do algoritmo gentico
tendo como mdulo de deteco tal sistema.
Algumas tentativas de otimizar o prprio sistema de Itti com pesos obtidos por um algo-
ritmo gentico foram realizadas. No entanto, nos deparamos com dois principais problemas:
dificuldade de instalao do sistema e tamanho dos executveis resultantes. A dificuldade de
instalao decorre do fato do sistema necessitar que uma grande quantidade de bibliotecas
de otimizao seja instalada. Como o mdulo de ateno visual deve ser enviado para os
computadores remotos a cada gerao do algoritmo gentico, necessrio que seu tamanho
seja pequeno e que seja encontrada uma maneira de superar o problema das dependncias de
bibliotecas.
6.3 Trabalhos Futuros 78
6.3.2 Aplicaes do Sistema Proposto
O sistema proposto pode ser utilizado como um mdulo em sistemas de deteco ou reco-
nhecimento. Ele serviria como meio para agilizar a localizao dos objetos mais importantes
da cena. Como a otimizao por meio de algoritmos genticos prov uma capacidade de ge-
neralizao a sistemas de ateno visual bottom-up, o mtodo aqui exposto pode ser utilizado
como etapa prvia na deteco ou reconhecimento de qualquer classe de objetos.
Como exemplos de aplicaes prticas do sistema temos: filtragem web e segurana de
ambientes. No primeiro caso, o sistema funcionaria acoplado a um navegador web e fil-
traria pginas que contivessem imagens com determinados tipos de objetos. Por exemplo,
poderia-se evitar que o navegador mostrasse pginas que contivessem imagens de armas. No
segundo caso, o sistema poderia ser integrado rede de cmeras de segurana de algum es-
tabelecimento comercial e ao sinal (emitido por um segurana) de algum indivduo suspeito
carregando um objeto estranho o sistema poderia rastrear as imagens das cmeras em busca
do objeto e conseqentemente do indivduo.
A utilizao de uma maior variabilidade de caractersticas (movimento, profundidade
estereoscpica, aspect ratio e textura, por exemplo) na gerao de mapas de salincia pode
viabilizar a criao de um detector genrico de objetos utilizando um mtodo de otimizao
de mapas de caractersticas com algoritmos genticos. Esta seria mais uma aplicao do
sistema proposto.
Bibliografia
[Bebis et al., 1999] Bebis, G., Uthiram, S., and Georgiopoulos, M. (1999). Genetic search
for face detection and verification. In International Conference on Information Intelli-
gence and Systems, pages 360367.
[Burt and Adelson, 1983] Burt, P. J. and Adelson, E. H. (1983). The laplacian pyramid as a
compact image code. IEEE Transactions on Communications, 31:532540.
[Darwin, 1909] Darwin, C. (1909). The Foundations of the Origin of Species. Cambridge
University Press.
[DeJong, 1975] DeJong, K. (1975). An Analysis of the Behavior of a Class of Genetic Adap-
tive Systems. PhD thesis, University of Michigan.
[Doyle and Dean, 1996] Doyle, J. and Dean, T. (1996). Strategic directions in artificial in-
telligence. ACM Computing Surveys, 28(4):653670.
[Fischer and Weber, 1993] Fischer, B. and Weber, H. (1993). Express saccades and visual
attention. Behavioral and Brain Sciences, 16:553610.
[Fisher and MacKirdy, 1998] Fisher, R. B. and MacKirdy, A. (1998). Integrating iconic and
structured matching. Lecture Notes in Computer Science, 1407:687699.
[Fong. and Hui, 2001] Fong., A. C. M. and Hui, S. C. (2001). Web-based intelligent sur-
veillance system for detection of criminal activities. Computer and Control Engineering
Journal, pages 263270.
[Freeman and Adelson, 1991] Freeman, W. T. and Adelson, E. H. (1991). The design and
use of steerable filters. IEEE Transactions on Pattern Analysis and Machine Intelligence,
13:891906.
79
BIBLIOGRAFIA 80
[Fukushima, 1980] Fukushima, K. (1980). Neocognitron: A self-organizing neural network

model for a mechanism of pattern recognition unaffected by shift in position. Biological
Cybernetics, 36(4):193202.
[Holland, 1975] Holland, J. (1975). Adaptation in Natural and Artificial Systems. The MIT
Press.
[Huang and Wechsler, 1999] Huang, J. and Wechsler, H. (1999). Eye location using genetic
algorithm. In Second International Conference on Audio and Video-Based Biometric
Person Authentication (AVBPA), pages 130135.
[Huang and Wechsler, 2000] Huang, J. and Wechsler, H. (2000). Visual routines for eye
location using learning and evolution. IEEE Transactions on Evolutionary Computation,
4(1):7382.
[Itti and Koch, 1999] Itti, L. and Koch, C. (1999). A comparison of feature combination
strategies for saliency-based visual attention systems. In SPIE human vision and eletronic
imaging (HVEI 99), pages 473482.
[Itti and Koch, 2000] Itti, L. and Koch, C. (2000). A saliency-based search mechanism for
overt and covert shifts of visual attention. Vision Research, 40:14891506.
[Itti and Koch, 2001a] Itti, L. and Koch, C. (2001a). Computational modelling of visual
attention. Nature Reviews Neuroscience, 2(3):194203.
[Itti and Koch, 2001b] Itti, L. and Koch, C. (2001b). Feature combination strategies for
saliency-based visual attention systems. Journal of Electronic Imaging, 10(1):161169.
[Itti et al., 1998] Itti, L., Koch, C., and Niebur, E. (1998). A model of saliency-based visual
attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 20(11):12541259.
[Itti et al., 2005] Itti, L., Rees, G., and Tsotsos, J. K. (2005). Models of Bottom-Up Attention
and Saliency. San Diego, CA:Elsevier.
[Jain and Dorai, 1997] Jain, A. and Dorai, C. (1997). Practicing vision: Integration, evalua-
tion and applications.
BIBLIOGRAFIA 81
[Jolliffe, 2002] Jolliffe, I. (2002). Principal Component Analysis. Springer Verlag.
[Lopez et al., 2006] Lopez, M. T., Fernandez-Caballero, A., Fernandez, M. A., and Del-
gado, J. M. A. E. (2006). Visual surveillance by dynamic visual attention method. Pattern
Recognition, pages 21942211.
[Milanese et al., 1994] Milanese, R., Wechsler, H., and Gil, S. (1994). Integration of
bottom-up and top-down cues for visual attention using non-linear relaxation. In Pro-
ceedings IEEE Conference on Computer Vision and Pattern Recognition, pages 781785.
[Navalpakkam and Itti, 2002] Navalpakkam, V. and Itti, L. (2002). A goal oriented attention
guidance model. In Second International Workshop on Biologically Motivated Computer
Vision, pages 453461.
[Navalpakkam and Itti, 2003] Navalpakkam, V. and Itti, L. (2003). Sharing resources: Buy
attention, get object recognition. In International Workshop on Attention and Performance
in Computer Vision WAPCV2003, pages 7379.
[Navalpakkam and Itti, 2006] Navalpakkam, V. and Itti, L. (2006). An integrated model of
top-down and bottom-up attention for optimal object detection. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), pages 20492056.
[Pereira and Gomes, 2006] Pereira, E. T. and Gomes, H. M. (2006). Guiding a bottom-up
visual attention mechanism to locate specific image regions using a distributed genetic
optimization. In CIARP, pages 257266.
[Pereira et al., 2006] Pereira, E. T., Gomes, H. M., and Florentino, V. F. C. (2006). Bottom-
up visual attention guided by genetic algorithm optimization. In Eigth IASTED Internati-
onal Conference on Signal and Image Processing, pages 228233.
[Pinkerton, 1994] Pinkerton, B. (1994). Finding what people want: Experiences with the
webcrawler.
[Rodrigues, 2002] Rodrigues, F. A. (2002). Localizao e reconhecimento de placas de si-

nalizao utilizando um mecanismo de ateno visual e redes neurais artificiais. Masters
thesis, Universidade Federal de Campina Grande.
BIBLIOGRAFIA 82
[Santos, 2005] Santos, S. M. (2005). Um mecanismo de ateno visual integrando evidn-

cias espaciais e temporais. Masters thesis, Universidade Federal de Campina Grande.
[Siagian and Ititi, 2004] Siagian, C. and Ititi, L. (2004). Biologically-inspired face detec-
tion: Non-brute-force-search approach. In First IEEE-CVPR International Workshop on
Face Processing in Video, pages 6269.
[Sim et al., 2003] Sim, T., Baker, S., and Bsat, M. (2003). The cmu pose, illumination, and
expression (pie) database. IEEE Transactions on Pattern Analysis and Machine Intelli-
gence, 25(12):16151624.
[Simoncelli and Freeman, 1995] Simoncelli, E. P. and Freeman, W. T. (1995). The stee-
rable pyramid: A flexible architecture for multi-scale derivative computation. In IEEE
International Conference on Image Processing, pages 444447.
[Sun and Fisher, 2003] Sun, Y. and Fisher, R. (2003). Object-based visual attention for com-
puter vision. Artificial Intelligence, 146(1):77123.
[Sun et al., 2003] Sun, Z., Bebis, G., and Miller, R. (2003). Boosting object detection using
feature selection. In IEEE Conference on Advanced Video and Signal Based Surveillance
(AVSS03), pages 290296.
[Tsotsos, 1990] Tsotsos, J. (1990). Analyzing vision at the complexity level. The Behavioral
and Brain Sciences, 13(3):423445.
[Turk and Pentland, 1991] Turk, M. and Pentland, A. (1991). Face recognition using eigen-
faces. In IEEE Computer Society Conference on Computer Vision and Pattern Recogni-
tion, pages 586591.
[Vapnik, 1995] Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer
Verlag.
[Walther et al., 2002] Walther, D., Itti, L., Riesenhuber, M., Poggio, T., and Koch, C. (2002).
Attentional selection for object recognition - a gentle way. In Biologically Motivated
Computer Vision - Lecture Notes in Computer Science, Springer, pages 472479.
BIBLIOGRAFIA 83
[Whitley, 1994] Whitley, D. (1994). A genetic algorithm tutorial. Statistics and Computing,
4:6585.
[Wildes, 1998] Wildes, R. P. (1998). A measure of motion salience for surveillance applica-
tions. In Proceedings of the IEEE International Conference on Image Processing, pages
183187.
[Wolfe, 2000] Wolfe, J. M. (2000). Seeing. Academic Press.
[Wolfe and Horowitz, 2004] Wolfe, J. M. and Horowitz, T. S. (2004). What attributes guide
the deployment of visual attention and how do they do it? Nature Reviews: Neuroscience,
5:17.
Apndice A
Shell Script para Gerenciamento de

Memria
O cdigo de script utilizado para gerenciar a memria, quando o algoritmo gentico exe-
cutado na Grade mostrado abaixo.
# ! / b i n / bash
function get_number_of_jobs {
NUMBER_OF_JOBS=$ ( l s ~ / mem_manager / t a s k _ s p e c / ) ;
}
function s ave_previous_result s {
mkdir ~ / ga / r e s u l t a d o s / $1 /
cp r ~ / w o r k s p a c e / V i s u a l A t t e n t i o n / b i n / . ~ / ga / r e s u l t a d o s / $1 / .
}
function c l e a r _p r e vi ou s _ r e s u l t s {
rm r f ~ / ga / r e s u l t a d o s /
}
function get_task {
c a t ~ / mem_manager / t a s k _ s p e c / $1 | h e a d $2 |
t a i l $3 > ~ / mem_manager / t a s k . t x t
}
function i n i t _ j d f {
REQUERIMENTS= " r e q u i r e m e n t s : " \ ( " o s = l i n u x &&
84
85
s i t e ! = copadl m r s . l m r ssemarh . u f c g . edu . b r &&

s i t e ! = t o p g r i d . d c c . u f b a . b r &&
s i t e ! = l s d . u f c g . edu . b r &&
name ! = 1 5 0 . 1 6 5 . 8 7 . 1 5 1 & &
name ! = 1 5 0 . 1 6 5 . 8 7 . 1 7 2 " \ ) " "
echo
echo " j o b : "
echo
echo " l a b e l : $NUMBER_OF_JOBS"
echo
echo $REQUERIMENTS ;
echo
}
function w ri t e _l a s t _j ob {
get_number_of_jobs ;
i n i t _ j d f > ~ / mem_manager / l a s t _ j o b . j d f ;
NUMBER_OF_LINES=$ ( c a t
~ / mem_manager / t a s k _ s p e c / $NUMBER_OF_JOBS | wc l ) ;
j =8;
f o r ( ( i = 1 ; i <$NUMBER_OF_LINES ; i = i + 8 ) ) ; do
g e t _ t a s k $NUMBER_OF_JOBS $ j 8 ;
INIT1=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p STORE | c u t f 9 d " " ) ;
INIT2=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p STORE | c u t f 1 1 d " " | c u t f 1 d " ] " ) ;
REMOTE=$ ( c a t ~ / mem_manager / t a s k . t x t | g r e p " x z f " ) ;
FINAL=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p GET | c u t f 1 1 d " " | c u t f 1 d " ] " ) ;
j =$ ( ( j + 8 ) ) ;
echo " t a s k : "

echo
echo " i n i t : s t o r e $INIT1 $INIT2 "
echo
echo " r e m o t e : $REMOTE"
echo
86
echo " f i n a l : g e t o b j e t o s . t x t $FINAL"

echo
done
}
function r e c r e a t e _ l a s t _ j o b {
w r i t e _ l a s t _ j o b > > ~ / mem_manager / l a s t _ j o b . j d f ;
}
function kill_mygrid_gui {
PID_MYGRID_GUI=$ ( p s ax | g r e p
o r g . o u r g r i d . mygrid . u i . g u i . MyGridGUI | c u t f 1 d p ) ;
PID_MYGRID_GUI=$ ( echo $PID_MYGRID_GUI | c u t f 1 d ) ;
i f ! [ "$PID_MYGRID_GUI " = " " ] ; then
k i l l $PID_MYGRID_GUI ;
fi
}
function ki ll_gaongrid {
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid | g r e p j a v a |
c u t f 1 d p ) ;
PID_GAONGRID=$ ( echo $PID_GAONGRID | c u t f 1 d ) ;
k i l l $PID_GAONGRID ;
}
function see_if_ga_on_grid_is_running {
c u t f 1 d p ) ;
w h i l e ! [ "$PID_GAONGRID" = " " ] ; do
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid |
g r e p j a v a | c u t f 1 d p ) ;
done
}
f u n c t i o n m y g r i d _ m a na ger {
see_if_ga_on_grid_is_running ;
kill_mygrid_gui ;
mygrid s t o p ;
87
mygrid s t a r t ;
mygrid s e t g r i d / u s r / s h a r e / mygrid / m e u g r i d . g d f ;
PID_MYGRID=$ ( p s ax | g r e p o r g . o u r g r i d . mygrid . main . Main
| c u t f 1 d p ) ;
PID_MYGRID=$ ( echo $PID_MYGRID | c u t f 1 d ) ;
MEM=$ ( p s p $PID_MYGRID o pmem ) ;
MEM=$ ( echo $MEM | c u t f 2 d ) ;
c u t f 1 d p ) ;
w h i l e ! [ "$PID_GAONGRID" = " " ] & & [ "$MEM" \ < " 70 " ] ; do

PID_MYGRID=$ ( p s ax | g r e p
o r g . o u r g r i d . mygrid . main . Main | c u t f 1 d p ) ;
PID_MYGRID=$ ( echo $PID_MYGRID | c u t f 1 d ) ;
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid |
g r e p j a v a | c u t f 1 d p ) ;
MEM=$ ( p s p $PID_MYGRID o pmem ) ;
MEM=$ ( echo $MEM | c u t f 2 d ) ;
done
i f [ "$MEM" \ > " 70 " ] ; then
m y g r i d _ m an age r ;
fi
exit 0;
}
Apndice B
Grficos das Evolues dos Algoritmos

Genticos no Processo de Escolha de um
Valor para Mutao
Neste apndice, so apresentados os grficos de evoluo dos algoritmos genticos utiliza-

dos nos experimentos executados com o intuito de escolher o melhor valor de probabilidade
de mutao para as otimizaes. Nestes experimentos, apenas duas imagens eram proces-
sadas em cada tarefa. Como cada job continha 10 tarefas, foram utilizadas 20 imagens em
cada experimento. Para todos estes experimentos, o valor de probabilidade de recombinao
utilizado foi 60%. Os experimentos foram realizados com valores de mutao que variavam
entre 1% e 10%. As sees seguintes mostram os grficos dos dez experimentos realizados
para cada conjunto de imagens. A anlise dos grficos, exceto dos grficos para imagens
contendo objetos, deixa claro que o melhor valor de probabilidade de mutao a ser utilizado
com um valor de probabilidade de recombinao igual a 60% de 1% para o problema aqui
examinado. Devido grande variabilidade dos objetos selecionados manualmente nas ima-
gens contendo objetos genricos, o algoritmo gentico no estabilizou para nenhum valor
de mutao nesses pequenos experimentos. Desta forma, o valor de probabilidade de mu-
tao utilizado para objetos genricos foi de 1%, o mesmo utilizado para os outros tipos de
imagens. No processo de escolha do melhor valor de probabilidade de recombinao, foram
levados em considerao o ponto onde a curva de evoluo iniciou a estabilizao e o menor
valor atingido pelo indivduo no ponto de incio da estabilizao.
88
B.1 Imagens Contendo Armas 89
B.1 Imagens Contendo Armas
150
Mdia da Avaliao dos Melhores Indivduos

100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.1: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 1%.
150
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 2%.
150

100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 3%.
150
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 4%.
150

100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 5%.
150
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 6%.
150

100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 7%.
150
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 8%.
150

100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 9%.
150
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 10%.
B.2 Imagens Contendo Objetos Genricos 94
B.2 Imagens Contendo Objetos Genricos

3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.11: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 1%.
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 2%.

3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 3%.
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 4%.

3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 5%.
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 6%.

3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 7%.
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 8%.

3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 9%.
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 10%.
B.3 Imagens Contendo Faces de Pessoas 99
B.3 Imagens Contendo Faces de Pessoas
1200

1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.21: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 1%.
1200
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 2%.
1200

1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 3%.
1200
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 4%.
1200

1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 5%.
1200
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 6%.
1200

1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 7%.
1200
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 8%.
1200

1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 9%.
1200
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 10%.
B.4 Imagens Contendo Carros 104
B.4 Imagens Contendo Carros
100
90

80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.31: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 1%.
100
90
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 2%.
100
90

80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 3%.
100
90
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 4%.
100
90

80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 5%.
100
90
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 6%.
100
90

80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 7%.
100
90
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 8%.
100
90

80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 9%.
100
90
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
igual a 10%.
Apndice C
Grficos das Otimizaes
Abaixo so apresentados os grficos das mdias e desvios-padro das quantidades de pontos

salientes para todos os indivduos das otimizaes para cada classe de regio.
Evoluo do Algoritmo Gentico para Imagens Contendo Objetos Genricos

3000
2500
Mdia de Pontos
2000
1500
1000
500
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.1: Mdias para imagens contendo objetos genricos.
109
110
Evoluo do Algoritmo Gentico para Imagens Contendo Objetos Genricos

3000
2800
Desvio Padro da Quantidade de Pontos
2600
2400
2200
2000
1800
1600
1400
1200
1000
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.2: Desvios-padro para imagens contendo objetos genricos.
Evoluo do Algoritmo Gentico para Imagens Contendo Carros

180
160
140
120
Mdia de Pontos
100
80
60
40
20
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.3: Mdias para imagens contendo carros.

111
Evoluo do Algoritmo Gentico para Imagens Contendo Carros

500
Desvio Padro da Quantidade de Pontos 450
400
350
300
250
200
150
100
50
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.4: Desvios-padro para imagens contendo carros.
Evoluo do Algoritmo Gentico para Imagens Contendo Revolveres ou Pistolas

900
800
700
600
Mdia de Pontos
500
400
300
200
100
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.5: Mdias para imagens contendo pistolas.

112
Evoluo do Algoritmo Gentico para Imagens Contendo Revlveres ou Pistolas

2000
1800
1600
1400
1200
1000
800
600
400
200
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.6: Desvios-padro para imagens contendo pistolas.
Evoluo do Algoritmo Gentico para Imagens Contendo Pessoas

1500
1000
Mdia de Pontos
500
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.7: Mdias para imagens contendo faces de pessoas.

113
Evoluo do Algoritmo Gentico para Imagens Contendo Pessoas

2000
1800
1600
1400
1200
1000
800
600
400
200
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
Figura C.8: Desvios-padro para imagens contendo faces de pessoas.

Apndice D
Amostra de Imagens Utilizadas
Abaixo so apresentadas amostras de imagens utilizadas nos processos de otimizao e teste.

Os testes foram realizados utilizando 100 imagens para cada classe. Nenhuma destas ima-
gens do conjunto de teste foi utilizada no processo de otimizao dos mapas de saliencias.
As imagens esto organizadas como descrito a seguir. Para cada classe de imagens h duas
figuras, a primeira exibe imagens utilizadas no processo de otimizao e a segunda exibe as
marcaes dos cinco pontos mais salientes obtidos com o sistema de ateno visual otimi-
zado por algoritmos genticos. Todos os pontos salientes so mostrados com raio de inibio
igual a 10. Os pontos salientes so representados por uma circunferncia azul com raio 10 ao
redor do ponto e as regies selecionadas manualmente so representadas por retngulos pre-
tos. As Figuras (D.1)-(D.8) mostram imagens contendo objetos genricos, faces de pessoas,
carros e pistolas, respectivamente.
114
115
Figura D.1: Imagens contendo objetos genricos utilizadas no processo de otimizao.
Figura D.2: Imagens contendo objetos genricos com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado por algoritmos genticos.
116
Figura D.3: Imagens contendo faces de pessoas utilizadas no processo de otimizao.
Figura D.4: Imagens contendo faces de pessoas com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado.
117
Figura D.5: Imagens contendo carros utilizadas no processo de otimizao.
Figura D.6: Imagens contendo carros com a marcao dos cinco pontos mais salientes obti-
dos com o sistema de ateno visual otimizado.
118
Figura D.7: Imagens contendo armas utilizadas no processo de otimizao.
Figura D.8: Imagens contendo pistolas ou revlveres com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado.

Dissertacao EanesTorresPereira

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dissertacao EanesTorresPereira

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE

CENTRO DE ENGENHARIA ELTRICA E INFORMTICA

Ateno Visual Bottom-up Guiada por Otimizao

Eanes Torres Pereira

Campina Grande, Paraba, Brasil

Ateno Visual Bottom-up Guiada por Otimizao

Eanes Torres Pereira

Dissertao submetida Coordenao do Curso de Ps-

rea de Concentrao: Cincia da Computao

Herman Martins Gomes

Campina Grande, Paraba, Brasil

P436 Pereira, Eanes Torres

Orientador: Herman Martins Gomes.

1 Viso Computacional 2 Ateno Visual Bottom-up 3

Prof. Ph.D. Herman Martins Gomes

Prof. Ph.D. Francisco Vilar Brasileiro

Prof. Ph.D. Edson Costa de Barros Carvalho Filho

A ateno visual um mecanismo biologicamente inspirado, o qual corresponde habi-

Visual attention is a biologically inspired mechanism, which corresponds to the ability

2 Fundamentos de Ateno Visual e Algoritmos Genticos 8

3.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

A Shell Script para Gerenciamento de Memria 84

B Grficos das Evolues dos Algoritmos Genticos no Processo de Escolha de um

C Grficos das Otimizaes 109

D Amostra de Imagens Utilizadas 114

1.1 Exemplo de ponto de ateno em regio genrica. . . . . . . . . . . . . . . 3

2.1 Exemplos de tarefas de busca visual. . . . . . . . . . . . . . . . . . . . . . 10

3.1 Ilustrao da escolha do mapa de conspicuidade mais importante para a sali-

3.2 Exemplo de imagem cuja segmentao da regio saliente impe dificuldades

4.1 Arquitetura do sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

C.1 Mdias para imagens contendo objetos genricos. . . . . . . . . . . . . . . 109

D.1 Imagens contendo objetos genricos utilizadas no processo de otimizao. . 115

2.1 Caractersticas que podem guiar a ateno visual. . . . . . . . . . . . . . . 11

5.1 Pesos para objetos genricos. . . . . . . . . . . . . . . . . . . . . . . . . . 61

Figura 1.1: Exemplo de ponto de ateno em regio genrica.

1.2 Descrio do Problema

Determinao de um mecanismo para otimizar os pesos de forma a ressaltar caracte-

Identificao de um meio eficaz para otimizar os pesos.

Figura 1.2: Exemplo de ponto de ateno em regio especfica (face).

Desenvolvimento de um mdulo de ateno visual bottom-up - Mecanismo de aten-

Desenvolvimento de um mdulo de algoritmos genticos - Estudar algoritmos ge-

Realizao de experimentos - Aps a implementao do sistema, foram realizados

1.5 Estrutura da Dissertao

Fundamentos de Ateno Visual e

2.1 Ateno Visual

2.1.1 Inspirao Biolgica

(a) Conhecimento a priori (b) Contraste de cores.

(c) Contraste de orienta- (d) Informao de intersec-

Figura 2.1: Exemplos de tarefas de busca visual.

Com certeza Provavelmente Possivelmente Talvez

Tabela 2.1: Caractersticas que podem guiar a ateno visual.

2.1.2 Modelo de Itti

IMAGEM FILTRAGEM MAPAS DE COMBINAO

2.1.3 Combinao de Mapas de Caractersticas

Y = (r + g)/2 |r g|/2 b (2.4)

A imagem de intensidades representada por I = (r + g + b)/3, que define a imagem em

gk = REDU Z(gk1 ) (2.5)

em que, para nveis 0 < l < N e ns i, j, 0 Cl , 0 j < Rl ,

Na equao acima, N indica a quantidade de nveis da pirmide, C l e Rl indicam as

gl,n = EXP AN DE(gl,n1 ) (2.7)

em que, para nveis 0 < l N e 0 n e ns i, j, 0 i < Cln , 0 j < Rl,n ,

(a) (b) (c) (d) (e)

Figura 2.3: Pirmide Gaussiana de 5 nveis.