Escolar Documentos
Profissional Documentos
Cultura Documentos
Referncias
Dissertao (Mestrado em Cincia da Computao) -
Universidade Federal de Campina Grande,
Centro de Engenharia Eltrica e Informtica.
v
Abstract
vi
Agradecimentos
Aos meus companheiros de laboratrio (Bruno, Claudio, Eduardo, Einstein, Felipe, Lu-
ciana, Luana, Rodrigo, Thiago, Vinicius e Walter) pelas inmeras discusses, filosficas ou
no, travadas durante nosso perodo de convivncia. Agradeo tambm a vocs, compa-
nheiros de laboratrio, pelas inmeras vezes que viram o que eu no estava vendo (mesmo
que tenha sido um ponteiro apontando para o nada e gerando falha de segmentao) e me
mostraram o caminho do delete aps o new.
Aos amigos alagoanos, pelas longas sesses de cinema (cine flamingo), pizza, batata e
counter-strike que nos fizeram esquecer ao menos por algumas horas de todo o trabalho que
tnhamos a fazer. Agradeo, tambm, a pacincia que Fred, Milena e Xambinho tiveram
comigo, principalmente durante o primeiro ano de mestrado. Em especial queles que me
guiaram ao TAO, Xambinho (por meio de sua computao quntica) e Elthon (por meio de
seus filmes e documentrios intrigantes).
Ao professor Herman, pela orientao e acompanhamento constantes que foram funda-
mentais para a realizao deste trabalho.
A Aninha e Vera por sempre estarem prontas a servir.
Ludmila por ter me ajudado na finalizao deste trabalho, desempenhando pratica-
mente o papel de coach, oferecendo suas mos quando no pude usar as minhas e, alm
disso, por trazer um pouco mais de sentido minha existncia.
Aos meus pais, que sempre me apoiaram em todos os meus empreendimentos, mesmo
que em alguns momentos no entendessem o porqu de eu seguir determinados caminhos.
A Deus, Al, Jav, Jeov, enfim, Fora que criou e domina o universo, por, apesar
de me ter imposto a existncia, ter me permitido esta vida maravilhosa e a realizao deste
trabalho.
vii
Contedo
1 Introduo 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Descrio do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Relevncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Estrutura da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Reviso Bibliogrfica 27
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up . . . . . 27
3.2 Uso de Ateno Visual na Melhoria do Desempenho de Sistemas de Reco-
nhecimento de Padres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Utilizao de Algoritmos Genticos como Mtodos de Otimizao em Sis-
temas de Viso Computacional . . . . . . . . . . . . . . . . . . . . . . . . 36
viii
CONTEDO ix
4 Sistema Proposto 42
4.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Implementao do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Mdulo de Verificao de Regies Salientes . . . . . . . . . . . . . 45
4.2.2 Mdulo de Ateno Visual . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3 Mdulo de Otimizao de Pesos . . . . . . . . . . . . . . . . . . . 49
4.2.4 Biblioteca para Implementao de Algoritmos Genticos . . . . . . 51
4.3 Descrio sobre o Uso do OurGrid . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Resultados Experimentais 57
5.1 Detalhes sobre a Obteno das Imagens e Otimizao dos Pesos . . . . . . 57
5.1.1 Obteno de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.2 Otimizao dos Pesos . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2 Processo de Otimizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Determinao dos Parmetros para os Algoritmos Genticos . . . . 60
5.2.2 Imagens de Objetos Genricos . . . . . . . . . . . . . . . . . . . . 60
5.2.3 Imagens Contendo Faces de Pessoas . . . . . . . . . . . . . . . . . 61
5.2.4 Imagens de Armas . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.5 Imagens de Carros . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3 Descrio do Sistema Utilizado para Comparao . . . . . . . . . . . . . . 65
5.3.1 Experimentos com o iNVT . . . . . . . . . . . . . . . . . . . . . . 65
5.4 Resultados da Verificao das Regies Salientes . . . . . . . . . . . . . . . 67
5.4.1 Imagens Contendo Faces de Pessoas . . . . . . . . . . . . . . . . . 67
5.4.2 Imagens Contendo Objetos Genricos . . . . . . . . . . . . . . . . 68
5.4.3 Imagens Contendo Armas . . . . . . . . . . . . . . . . . . . . . . 69
5.4.4 Imagens Contendo Carros . . . . . . . . . . . . . . . . . . . . . . 69
5.5 Problemas Enfrentados com o Uso do OurGrid . . . . . . . . . . . . . . . 70
5.6 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
CONTEDO x
6 Concluso 74
6.1 Sumrio da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.1 Outras Formas para Otimizao de Algoritmos Genticos . . . . . . 77
6.3.2 Aplicaes do Sistema Proposto . . . . . . . . . . . . . . . . . . . 78
xi
LISTA DE FIGURAS xii
5.1 Melhores mdias de cada gerao para imagens contendo objetos genricos. 61
5.2 Melhores mdias de cada gerao para imagens de pessoas. . . . . . . . . . 62
5.3 Melhores mdias de cada gerao para imagens contendo armas. . . . . . . 63
5.4 Melhores mdias de cada gerao para imagens contendo carros. . . . . . . 64
5.5 Marcao dos pontos salientes obtidos pelo sistema iNVT. . . . . . . . . . 68
5.6 Comparao dos resultados para imagens contendo pessoas. . . . . . . . . 68
5.7 Comparao dos resultados para imagens contendo objetos genricos. . . . 69
5.8 Comparao dos resultados para imagens contendo pistolas. . . . . . . . . 70
5.9 Comparao dos resultados para imagens contendo carros. . . . . . . . . . 71
B.1 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
B.2 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
B.3 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
B.4 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
B.5 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
LISTA DE FIGURAS xiii
B.6 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
B.7 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
B.8 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
B.9 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
B.10 Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
B.11 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
B.12 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
B.13 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
B.14 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
B.15 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.16 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
B.17 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.18 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.19 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.20 Melhores mdias de cada gerao para imagens de objetos e valor de muta-
o igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
LISTA DE FIGURAS xiv
B.21 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
B.22 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
B.23 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B.24 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B.25 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
B.26 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
B.27 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
B.28 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
B.29 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.30 Melhores mdias de cada gerao para imagens de pessoas e valor de muta-
o igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.31 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 1%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
B.32 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 2%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
B.33 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.34 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 4%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.35 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
LISTA DE FIGURAS xv
B.36 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.37 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 7%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.38 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 8%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.39 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 9%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
B.40 Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
D.8 Imagens contendo pistolas ou revlveres com a marcao dos cinco pontos
mais salientes obtidos com o sistema de ateno visual otimizado. . . . . . 118
Lista de Tabelas
xvii
Captulo 1
Introduo
Nesta dissertao, investigado o uso de otimizao via algoritmos genticos para guiar um
mecanismo de ateno visual bottom-up para regies contendo objetos ou regies de ima-
gens com caractersticas pr-definidas. A otimizao objetiva agregar conhecimento de alto
nvel a um mecanismo que utiliza apenas caractersticas primitivas, como o caso da aten-
o visual bottom-up. Vrios experimentos foram realizados visando comparar, identificar
semelhanas e qualidades em relao a um sistema de ateno visual bottom-up amplamente
utilizado. A seguir, a motivao para o desenvolvimento desse trabalho apresentada, as
principais caractersticas e limitaes nas solues existentes so descritos e os principais
objetivos desta pesquisa so apresentados. O captulo concludo com uma breve descrio
da estrutura da dissertao.
1.1 Motivao
A curiosidade uma caracterstica inerente ao ser humano. Tal caracterstica tem impul-
sionado o desenvolvimento cientfico desde os primrdios da humanidade. A Cincia tem
tentado explicar e entender os fenmenos que ocorrem na natureza. Entender o funciona-
mento do corpo humano obviamente parte integrante desta constante busca da Cincia.
Vrios ramos cientficos foram criados objetivando o estudo minucioso do corpo humano.
Dentre eles, pode-se citar: a Anatomia, a Psicologia e a Fisiologia.
Porm, somente entender e explicar o funcionamento do prprio corpo no o bastante
para as mentes vidas por conhecimento. Ao longo do tempo, a Cincia criou novos ramos
1
1.1 Motivao 2
de estudo que envolvem a simulao de processos que ocorrem no corpo humano e buscam
tambm criar modelos ou mquinas que simulem determinadas caractersticas e comporta-
mentos humanos. Algumas reas tm se destacado em tal empreendimento, como o caso
da Inteligncia Artificial. A Inteligncia Artificial consiste de esforos intelectuais e tecnol-
gicos relacionados construo de mquinas inteligentes, formalizao do conhecimento,
mecanizao do raciocnio, e ao uso de modelos computacionais para compreender a Psi-
cologia e o comportamento de pessoas e animais [Doyle and Dean, 1996].
Vrias reas da Cincia da Computao utilizam conhecimentos da Inteligncia Artificial
com o intuito de automatizar processos. o que ocorre com a Viso Computacional, rea
na qual este trabalho se enquadra. A Viso Computacional tem como objetivo interpretao
automtica de cenas complexas [Jain and Dorai, 1997]. Alguns dos principais problemas da
Viso Computacional so o reconhecimento e a aprendizagem de modelos visuais.
Um problema recorrente quando se deseja fazer reconhecimento ou aprendizagem de
modelos visuais a dificuldade de se encontrar um tcnica robusta capaz de extrair regies
contendo objetos de imagens genricas. A forma mais primitiva de se realizar a extrao de
tais regies seria uma busca pixel a pixel na imagem. Porm, vrios sistemas tm sido desen-
volvidos utilizando ateno visual para agilizar o processo de busca por regies importantes
nas imagens.
A ateno visual a habilidade que o sistema visual dos vertebrados superiores utiliza
para selecionar e processar somente as regies mais relevantes em uma cena visual. A aten-
o visual pode ser entendida como um mecanismo para lidar com a incapacidade de tratar de
uma s vez uma grande quantidade de informao visual tanto em sistemas biolgicos quanto
em sistemas computacionais. Deste modo, somente as regies mais importantes numa cena
so escolhidas para processamento [Fischer and Weber, 1993]. Esta seleo das informaes
mais relevantes dos estmulos de entrada uma das caractersticas mais importantes dos sis-
temas visuais biolgicos que permite rpida deteco de predadores, perpetuao e evoluo
das espcies [Itti and Koch, 2001a].
H dois mtodos principais para obteno da Ateno Visual. Os mtodos top-down e
bottom-up. O mtodo top-down usa conhecimentos obtidos a priori para detectar regies
de maior interesse numa imagem. Esses conhecimentos podem ser obtidos de vrias for-
mas. Geralmente, utilizam-se ferramentas de aprendizagem baseadas em modelos estats-
1.1 Motivao 3
ticos como, por exemplo: redes neurais e mquinas de vetores de suporte. Porm, esses
conhecimentos tambm podem ser fornecidos por um ser humano, selecionando-se manual-
mente regies de maior interesse numa imagem. A ateno visual bottom-up guiada por
caractersticas primitivas da imagem como cor, intensidade e orientao. Alm disso, ela
atua de modo inconsciente, ou seja, o observador levado a fixar sua ateno em determina-
das regies da imagem devido aos estmulos causados pelos contrastes entre caractersticas
visuais presentes na imagem.
O sistema de ateno visual bottom-up proposto por Itti et al. [Itti et al., 1998] o mais
conhecido e utilizado atualmente para seleo de regies salientes em imagens. No entanto,
uma caracterstica inerente a sistemas bottom-up o fato de tais sistemas identificarem re-
gies importantes em reas da imagem que no necessariamente contm objetos bem defini-
dos. Isto ocorre devido s caractersticas de tais regies se sobressarem em relao as suas
vizinhas independentemente de tais regies conterem objetos ou no. Vrios experimentos
tm demonstrado que a ateno visual pode ser guiada pelas caractersticas tidas como mais
importantes para selecionar determinadas regies [Wolfe, 2000]. A Figura 1.1 ilustra uma
regio que possui um alto valor de salincia, porm no contm nenhum objeto especfico.
O ponto saliente dessa figura um resultado artificial e foi obtido pela aplicao do sistema
de Itti et al. [Itti et al., 1998]. O ponto central da regio circular indica o ponto mais saliente
da imagem, deve-se ressaltar que, por se tratar de ateno visual bottom-up, esta salincia
inconsciente, sendo guiada apenas por caractersticas primitivas da imagem. Neste caso, a
grande intensidade da iluminao na regio destacada explica seu alto valor de salincia.
com o intuito de guiar a ateno para regies que contenham objetos de interesse que
este trabalho prope um mecanismo que otimiza pesos utilizando algoritmos genticos, tais
pesos so atribudos aos diversos mapas utilizados para formar o mapa de salincias. Este
mecanismo descrito no captulo 4.
Escolha de um mtodo de ponderao que atribua pesos aos mapas que formam o mapa
de salincias;
A seo a seguir, expe os objetivos deste trabalho, bem como ressalta a relevncia do
mesmo. Alm disso, descreve o que se prope para resolver o problema exposto nesta seo.
1.3 Objetivos
O objetivo deste trabalho desenvolver um sistema de ateno visual bottom-up que possa
ser guiado para identificar regies salientes em imagens de acordo com as preferncias do
usurio. Por exemplo, se o usurio do sistema deseja que em imagens contendo pessoas ape-
nas as regies das faces sejam ressaltadas como mais salientes, ele deve utilizar um conjunto
de pesos que tenha sido previamente otimizado para ressaltar regies de faces de pessoas em
imagens. Um exemplo desse tipo de regio saliente o apresentado na Figura 1.2.
A seguir so apresentados os objetivos especficos nos quais este trabalho foi dividido:
1.4 Relevncia 5
1.4 Relevncia
H vrios trabalhos [Navalpakkam and Itti, 2002; Navalpakkam and Itti, 2003; Navalpakkam
and Itti, 2006; Sun et al., 2003] que propem mtodos para integrar conhecimentos de alto
nvel a sistemas de ateno visual bottom-up, porm todos utilizam informao estatstica ou
conhecimento estruturado (como ontologias e grafos) para adicionar conhecimento de alto
1.4 Relevncia 6
nvel ateno visual bottom-up. Isto pode acarretar no uso de solues que so, na verdade,
locais ao problema tratado. Para evitar a parada em mnimos ou mximos locais, geralmente
so utilizados mtodos como algoritmos genticos e simulated annealing (tmpera simu-
lada). Como o uso de algoritmos genticos como meio de atribuir informao de alto nvel
a sistemas de ateno visual bottom-up ainda no foi bem investigado pela literatura especi-
alizada, este trabalho se prope a analisar a viabilidade do uso de algoritmos genticos para
resolver este problema.
O sistema proposto pode ser utilizado como um mdulo em sistemas de deteco ou
reconhecimento [Rodrigues, ], podendo ser otimizado para guiar a ateno para determinadas
classes de objetos. Ele pode servir como meio para agilizar a localizao dos objetos mais
importantes da cena. Como exemplos de aplicaes prticas do sistema temos: filtragem
web [Fong. and Hui, 2001] e segurana de ambientes [Lopez et al., 2006]. No primeiro
caso, o sistema funcionaria acoplado a um navegador web e filtraria pginas que contivessem
imagens com determinados tipos de objetos. Por exemplo, poderia-se evitar que o navegador
mostrasse pginas que contivessem imagens de armas. No segundo caso, o sistema poderia
ser integrado rede de cmeras de segurana de algum estabelecimento comercial e ao sinal
(emitido por um segurana) de algum indivduo suspeito carregando um objeto estranho o
sistema poderia rastrear as imagens das cmeras em busca do objeto e conseqentemente do
indivduo.
A deteco de assunto em fotografia tambm uma aplicao na qual o sistema proposto
pode ser utilizado. Inclusive, este sistema foi desenvolvido com o intuito de melhorar o de-
sempenho de um sistema de deteco de assunto implementado em um projeto de pesquisa
do qual o autor participa. Neste sistema de deteco de assunto, a ateno visual foi otimi-
zada para ser guiada para regies contendo faces. Desta forma, o sistema de ateno visual
serve como facilitador para um detector de faces.
Este trabalho se prope a atribuir conhecimento de alto nvel a um mecanismo de aten-
o visual que utiliza caractersticas primitivas (cor, intensidade e orientao). Este conhe-
cimento de alto nvel atribuido utilizando-se algoritmos genticos e seleo de regies
salientes por seres humanos na etapa de otimizao dos pesos. A otimizao dos mapas
de caractersticas possibilitar que a ateno seja guiada para regies contendo objetos es-
pecficos definidos pelo usurio. Na prxima seo, descrevemos como a apresentao das
1.5 Estrutura da Dissertao 7
atividades associadas consecuo dos objetivos do trabalho foram organizadas nos captu-
los da dissertao.
Neste captulo descrevemos o que ateno visual, apresentamos o modelo de ateno visual
bottom-up mais conhecido e utilizado, alm de algumas tcnicas de combinao dos mapas
que formam os mapas de salincias. Alm disso, como este trabalho utiliza otimizao por
meio de algoritmos genticos, apresentamos tambm neste captulo conceitos fundamentais
de algoritmos genticos.
8
2.1 Ateno Visual 9
A ateno visual a habilidade que o sistema visual dos vertebrados superiores utiliza para
selecionar e processar somente as regies mais relevantes em uma cena visual. A ateno vi-
sual pode ser entendida como um mecanismo para lidar com a incapacidade de tratar de uma
s vez uma grande quantidade de informao visual tanto em sistemas biolgicos quanto
em sistemas computacionais. Deste modo, somente as regies mais importantes numa cena
so tratadas [Fischer and Weber, 1993]. Esta seleo das informaes mais relevantes dos
estmulos de entrada uma das caractersticas mais importantes dos sistemas visuais biol-
gicos que permite rpida deteco de predadores, perpetuao e evoluo das espcies [Itti
and Koch, 2001a]. Tsotsos [Tsotsos, 1990] analisou a complexidade computacional da an-
lise visual e confirmou que a ateno visual uma das mais importantes contribuies para
otimizar a quantidade de computaes em sistemas visuais.
Em uma viso didtica, podem ser identificados dois mtodos principais para obteno da
Ateno Visual. Os mtodos top-down e bottom-up. O mtodo top-down usa conhecimentos
obtidos a priori para detectar regies de maior interesse numa imagem. Esses conhecimentos
podem ser obtidos de vrias formas. Geralmente, utilizam-se ferramentas de aprendizagem
baseadas em modelos geomtricos/relacionais (como redes semnticas ou grafos relacionais)
ou modelos estatsticos (como redes neurais e mquinas de vetores de suporte). Porm, esses
conhecimentos tambm podem ser fornecidos por um ser humano, selecionando-se manual-
mente regies de maior interesse numa imagem. A ateno visual bottom-up guiada por
caractersticas primitivas da imagem como cor, intensidade e orientao. Alm disso, ela
atua de modo inconsciente, ou seja, o observador levado a fixar sua ateno em determina-
das regies da imagem devido aos estmulos causados pelos contrastes entre caractersticas
visuais presentes na imagem.
Wolfe e Horowitz demostraram que algumas caractersticas como cor, orientao ou ta-
manho dos objetos em uma imagem so responsveis por guiar o mecanismo biolgico de
ateno visual [Wolfe and Horowitz, 2004]. A Tabela 2.1 mostra algumas destas caracters-
ticas. Na Figura 2.1.1, h exemplos de tarefas de busca visual. Algumas destas tarefas so
simples. Na Figura 2.1(a), o contraste entre o azul e o vermelho ressalta a existncia de um
numeral 5 (cinco) de cor diferente dos demais. No entanto, perceber um nmero cinco azul
e maior um pouco mais complicado. A Figura 2.1(a) tambm um exemplo da importn-
2.1 Ateno Visual 10
cia de conhecimento a priori para executar determinadas buscas visuais, pois dificilmente
possvel identificar o nmero dois existente nesta imagem sem que algum tenha dito que
h um nmero dois. Isto demonstra o fato de que a ateno visual top-down mais lenta e
necessita de conhecimento prvio sobre o que se quer encontrar. As Figuras 2.1(b) e 2.1(c)
demonstram a importncia da orientao e do contraste de cores para ressaltar objetos dife-
rentes em imagens. Na Figura 2.1(b) difcil encontrar os pares de tringulos horizontais,
mas esta tarefa simplicada devido ao contraste de cores entre os retngulos azuis e os re-
tngulos rosas. Na Figura 2.1(d), a busca por cruzes ineficiente devido ao fato de que aqui
a informao de interseco no guia a ateno.
Um dos mtodos mais utilizados em ateno visual bottom-up o que utiliza mapas de
salincias. Itti et al. [Itti et al., 1998] propuseram um mecanismo de ateno visual bottom-
up baseado em mapas de salincias, o qual construido a partir de Pirmides Gaussianas
e operadores de vizinhana orientados localmente. A Figura 4.5 mostra um diagrama que
representa o funcionamento deste mecanismo de ateno visual.
Figura 2.2: Mecanismo de ateno visual. A imagem de entrada passa por um processo de
filtragem linear, gerando mapas de conspicuidade que so somados linearmente para gerar
os mapas de salincias.
O modelo proposto por Itti implementado para os fins expostos neste trabalho descrito
a seguir. A implementao aqui descrita difere da apresentada por Itti em dois aspectos prin-
cipais: quantidade de nveis das Pirmides Gaussianas e mtodo de movimentos sacdicos.
No modelo de Itti, as Pirmides Gaussianas possuem 9 nveis e no aqui implementado pos-
suem 5 nveis. A justificativa para o uso de apenas 5 nveis nas pirmides est relacionada
resoluo das imagens utilizadas. Como a resoluo das imagens 352 240, em uma
pirmide de 5 nveis a imagem no menor nvel ter sua resoluo igual a 22 15 (equivalente
a dividir a resoluo do maior nvel por 16). Desta forma, um maior nmero de nveis no
incrementar informao importante ao sistema dado que a imagem num nvel muito baixo
seria insignificante. Itti et al [Itti et al., 1998] utilizam redes neurais para implementar movi-
mentos sacdicos, no sistema aqui apresentado utiliza-se uma estratgia de deslocamento de
2.1 Ateno Visual 12
pixels. Porm, ambos os mtodos podem ser divididos nas seguintes etapas: extrao de ca-
ractersticas, filtragem linear, diferenas centro-vizinhaas, soma de mapas de caractersticas
e seleo de regies salientes (micro-sacadas).
Para gerar um mapa de salincia, trs tipos de caractersticas visuais primitivas so extra-
das: cor, intensidade e orientao. Em seguida, quatro canais de cores so criados (R para
vermelho, G para verde, B para azul e Y para amarelo). Sendo r, g, b os canais vermelho,
verde e azul da imagem de entrada, os canais de cores so representados por:
R = r (g + b)/2 (2.1)
G = g (r + b)/2 (2.2)
B = b (r + g)/2 (2.3)
A imagem de entrada representada por uma matriz g0 , essa matriz contm C colunas e
R linhas de pixels. Para cada nvel da pirmide gerada uma imagem em uma escala menor
que a escala no nvel superior. A imagem de entrada a base ou nvel zero da Pirmide
Gaussiana. Cada nvel inferior da pirmide contm uma imagem que uma reduo ou
uma verso filtrada passa-baixa da imagem da base da pirmide. Os valores dos pixels de
uma imagem num nvel inferior so obtidos calculando-se uma mdia ponderada dos valores
dos pixels num nvel imediatamente superior dentro de uma janela 5 5. Este processo
realizado utilizando-se a funo REDUZ.
2 2 i m j n
(2.8)
X X
gl,n = 4 w(m, n) gl,n1 ,
m=2 n=2
2 2
Neste trabalho, o termo filtros direcionais (do ingls Steerable Filters) utilizado para
descrever uma classe de filtros na qual um filtro de orientao arbitrria sintetizado como
uma combinao linear de um conjunto de filtros base [Freeman and Adelson, 1991]. A
seguir, este conceito demonstrado.
Seja uma funo gaussiana circularmente simtrica bidimensional, G, escrita em coorde-
nadas cartesianas, x e y:
(2.9)
2 +y 2
G(x, y) = ex
2 2)
d e(x +y
(2.10)
2 +y 2 )
G01 = 2xe(x
=
dx
Esta mesma funo rotacionada 90
2.1 Ateno Visual 15
2 2)
d e(x +y
(2.11)
2 +y 2 )
G190 = = 2ye(x
dy
A demonstrao de que um filtro G1 em uma orientao arbitrria pode ser sintetizado
pela combinao linear de G01 e G90 simples [Freeman and Adelson, 1991]:
1
Assim, G01 e G90 podem ser chamadas filtros base de G1 . Os termos cos() e sen()
1
O exposto acima ilustra de forma simples como possvel extrair informaes sobre
orientao utilizando diferenciao de filtros gaussianos. A seguir, ser feita uma anlise da
diferenciao de filtros direcionais no domnio de Fourier.
Como no domnio de Fourier a decomposio de filtros polar-separvel [Simoncelli
and Freeman, 1995], a magnitude do i-simo filtro passa-banda ser escrita em forma polar-
separvel:
Bi (w ) = A( i )B(w) (2.16)
Limitao de banda:
Recurso
em que (0 , 45 , 90 , 135 ).
O processo de gerao de todos esses mapas de caractersticas inspirado biologica-
mente. A gerao dos mapas de cores tem inspirao no sistema de cores oponentes do
crtex visual [Itti and Koch, 2001a]. Os mapas de orientao so inspirados na propriedade
que alguns neurnios do crtex visual possuem de responder a estmulos de orientao da
cena [Itti and Koch, 2001a].
Uma vez que os mapas de caractersticas foram obtidos, eles so somados para a pro-
duo dos mapas de conspicuidades: I para intensidade, C para cor e O para orientao,
na escala = 4. A motivao para a criao de trs canais separados (I, C, O) a hip-
tese de que caractersticas similares competem pela salincia, enquanto que caractersticas
diferentes contribuem independentemente para o mapa de salincia [Itti and Koch, 2001a].
O propsito do mapa de salincia representar regies salientes na imagem por quantida-
des escalares e guiar a seleo de regies baseada na distribuio espacial da salincia. As
Equaes de (2.22) a (2.25) modelam matematicamente o processo de soma dos mapas de
caractersticas.
2.1 Ateno Visual 18
2 M
4
(2.22)
M
I = N (I(c, v))
c=1 v=3
2 M 4
(2.23)
M
C = [N (BY (c, v))]
c=1 v=3
2 M
M 4
(2.24)
X
O = N N (O(c, v, ))
{0 ,45 ,90 ,135 } c=1 v=3
1
S = (w1 I + w2 C + w3 O) (2.25)
w1 + w 2 + w 3
O mapa de salincia resultante uma imagem em tons de cinza em que as regies mais
salientes so representadas por pixels de altas intensidades. Desta forma, podem ocorrer
regies que possuem pixels com valores iguais. Para evitar que uma mesma regio seja
determinada como mais saliente mais de uma vez e para que seja possvel determinar v-
rias regies salientes, mesmo que tais regies possuam pixels de mesmo valor, utiliza-se o
princpio da inibio de retorno.
2.1 Ateno Visual 19
No modelo de Itti, utilizam-se redes neurais winner-takes-all para inibir regies previa-
mente selecionadas. Porm, por simplicidade, a implementao realizada nessa dissertao
utilizou um processo heurstico que funciona como descrito a seguir. Inicialmente, define-se
um raio de inibio. Este raio de inibio indica um raio que medido em quantidade de pi-
xels e a partir dele definida a rea que ser inibida na prxima iterao aplicando-se valores
nulos aos pixels desta regio.
Os pixels que sero utilizados como centro da regio saliente so determinados por um
processo de movimentos sacdicos, ou micro-sacadas. Biologicamente, movimentos sacdi-
cos so os movimentos realizados pelo olho humano durante o processo de inspeo visual
de uma cena. Em seres humanos, estes movimentos so executados de maneira bastante
rpida (entre 4 e 6 por segundo).
No sistema desenvolvido nessa dissertao, os movimentos sacdicos foram implemen-
tados como descrito a seguir. Primeiro, obtm-se o pixel que possui o maior valor de in-
tensidade. Em seguida, inibe-se toda a regio vizinha de acordo com o raio de inibio
previamente determinado. As micro-sacadas so determinadas deslocando-se as coordena-
das do ponto de ateno 5 e 10 pixels em uma vizinhana de 8 pixels, gerando 16 variaes
de pontos de ateno.
A seguir, apresentaremos alguns dos principais mtodos utilizados para combinao de
caractersticas primitivas utilizadas para formar mapas de salincias nos processos de ateno
visual bottom-up, semelhantes ao proposto por Itti et al. [Itti et al., 1998].
No mtodo de deteco de objetos proposto por Itti et al. [Itti et al., 1998] os mapas de
conspicuidade so normalizados e somados. H outras formas de se combinar os mapas de
conspicuidade. Em Itti e et al. [Itti and Koch, 2001b] quatro estratgias so comparadas:
Somatrio normalizado;
Normalizao no-linear;
S = w 1 M1 + w 2 M2 + . . . w 3 Mn (2.26)
Vrias teorias de outras reas do conhecimento humano tem servido como fonte de inspira-
o para a Cincia da Computao. Uma teoria das Cincias Biolgicas que influenciou o
pensamento humano sobre a origem dos seres vivos e conseqentemente a Cincia da Com-
putao foi a teoria da evoluo das espcies de Charles Darwin [Darwin, 1909]. Segundo
essa teoria, os indivduos encontram-se em uma luta constante pela sobrevivncia. Nesta
luta, apenas aqueles que possuem as caractersticas favorveis adapatao ao meio sobre-
vivem, transmitindo essas caractersticas s geraes futuras.
Com base na teoria da evoluo foi criado o conceito de algoritmos genticos. Algorit-
mos genticos so uma tcnica de programao inspirada nos mecanismos de evoluo na-
tural e recombinao gentica. Os algoritmos genticos fornecem um mecanismo de busca
adaptativa que se baseia no princpio Darwiniano de reproduo e sobrevivncia dos mais
aptos. Isto obtido a partir de uma populao de indivduos (solues), representados por
cromossomos (palavras binrias), cada um associado a uma aptido (avaliao do problema),
que so submetidos a um processo de evoluo (seleo e reproduo) por vrios ciclos. As-
sim, os algoritmos genticos funcionam como otimizadores de funes.
2.2 Algoritmos Genticos 23
A B
D C
Figura 2.6: Ilustrao do mtodo de seleo. As regies com reas maiores possuem maiores
probabilidades de serem selecionadas. Por exemplo, h uma maior probabilidade da regio
D ser selecionada do que a regio A.
Aps os indivduos aptos terem sido selecionados, ocorre uma troca de informaes co-
nhecida como recombinao. A recombinao atua de maneira probabilstica, trocando parte
de uma cadeia de bits de um indivduo por parte de uma cadeia de bits de outro indivduo.
Neste processo, duas cadeias de bits so emparelhadas aleatoriamente. Em seguida, escolhe-
se em que ponto as cadeias sero quebradas segundo uma probabilidade previamente deter-
minada. Por exemplo, supondo-se que as cadeias que sofrero recombinao so 11000101
e abbbaaaa, e a probabilidade de recombinao determina que elas podem ser quebradas na
sexta posio, as cadeias resultantes seriam: 110001aa e abbbaa01. Os indivduos resultantes
das recombinaes iro compor uma nova populao.
A fim de que haja uma maior variabilidade de indivduos na nova populao, tais indiv-
duos passam por um processo chamado de mutao. A mutao uma mudana da disposi-
o dos bits que compem uma cadeia e ocorre segundo uma probabilidade pr-determinada
muito baixa. Por exemplo, se a probabilidade de mutao do indivduo 110001aa deter-
mina que ocorra uma inverso do primeiro e terceiro bits, o indivduo mutante passa a ser
011001aa. O conjunto de indivduos mutantes compor a nova populao. Cada ciclo de
seleo, recombinao e mutao conhecido como gerao. Este ciclo se repete at que
seja atingida a melhor soluo, a curva de evoluo se estabilize ou o nmero mximo de
geraes seja alcanado. A Figura 2.7 resume o processo de gerao de populaes de um
algoritmo gentico.
2.2 Algoritmos Genticos 25
Uma maneira simples de demonstrar a eficcia dos algoritmos genticos na soluo de pro-
blemas de otimizao foi apresentada por Holland [Holland, 1975]. Esta demonstrao re-
presenta os espaos de busca como hiperplanos. Suponha que um espao de busca analisado
constitudo por todas as cadeias de 3 bits (8 cadeias). Este espao de busca pode ser repre-
sentado pelo cubo da Figura 2.8.
110 111
010 011
100 101
000 001
O plano frontal do cubo contm todos os pontos que comeam com 0. Se * usado como
um smbolo coringa, ento este plano pode ser representado pela cadeia 0 . Cadeias que
contm * so denominadas schemata, Cada schema corresponde a um hiperplano no espao
de busca. Desta forma, observa-se que uma populao de cadeias prov informao sobre
2.3 Consideraes Finais 26
Reviso Bibliogrfica
Este captulo apresenta um levantamento e anlise de trabalhos relacionados com esta dis-
sertao, focando em trabalhos que investigam ou propem mtodos que utilizam ateno
visual em sistemas de reconhecimento de imagens, ou que utilizam algoritmos genticos
como meio de otimizao de sistemas de viso computacional.
A Seo 3.1 discute trabalhos que propem mtodos de integrao de modelos de aten-
o visual bottom-up e top-down. A Seo 3.2 apresenta artigos que propem sistemas de
deteco e reconhecimento de objetos que utilizam ateno visual bottom-up como meio de
aumentar o desempenho da busca por regies a serem processadas. Na Seo 3.3, temos uma
anlise de trabalhos que utilizam algoritmos genticos em sistemas de viso computacional.
Finalmente, a Seo 3.4 apresenta as consideraes finais sobre os trabalhos discutidos.
27
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up 28
(WM), memria de longo prazo (LTM) e agente. O crebro visual mantm trs mapas: mapa
de salincias (SM), mapa de relevncia (RM) e um mapa para guiar a ateno. O mapa para
guiar a ateno o resultado do produto entre o SM e o RM. A memria de trabalho cria
e mantem o grafo que contm todas as entidades relevantes da cena. O papel do agente
transmitir informao entre o crebro visual e a memria de trabalho.
A LTM atua como uma base de conhecimento. Ela contm as entidades e seus relaciona-
mentos e chamada de ontologia. Cada ontologia representada como um grafo em que as
entidades so os vrtices e os relacionamentos so as arestas. Cada entidade possui uma lista
de propriedades separada da lista de todos os seus vizinhos. Estas propriedades podem servir
como guias para o mdulo de reconhecimento. A WM estima a relevncia de uma fixao
para uma dada tarefa. O clculo da relevncia de uma fixao uma funo da natureza das
relaes que conectam uma entidade ao grafo e da relevncia de seus vizinhos.
O modelo foi testado em cenas de ambientes naturais com muitos elementos dispersivos.
Para verificar o modelo, o sistema foi executado com vrias imagens com o mesmo objetivo
e em uma mesma imagem com objetivos diferentes. Por exemplo, em cenas de ruas de
cidades, o objetivo foi encontrar carros. Em outro experimento, utilizou-se uma cena com
pessoas comendo e determinou-se que o sistema encontrasse as faces das pessoas e o que
elas estavam comendo.
Apesar da anlise dos resultados mostrar que o sistema apresentou bons resultados nos
experimentos, o artigo no apresenta nenhum dado objetivo, como grficos ou valores es-
tatsticos. A anlise apenas subjetiva. Outro problema que o artigo no mostra como
as ontologias e seus atributos so criados, no especifica se foram criados para os fins do
trabalho ou se foram obtidos de alguma base.
Navalpakkam e Itti [Navalpakkam and Itti, 2006] propuseram um modelo para sistema
de ateno visual que integra os mtodos top-down e bottom-up. O componente bottom-up
do modelo computa a salincia visual da cena por meio de mapas de caractersticas extraidos
de imagens em vrias escalas. O componente top-down utiliza conhecimento estatstico
acumulado das caractersticas visuais do objeto que alvo da busca.
O principal conceito utilizado por este modelo para maximizar a velocidade de deteco
o SNR (Signal to Noise Ratio). O SNR a razo entre a salincia do alvo de busca e a
salincia dos objetos dispersivos do fundo da imagem. Para aumentar a velociade de deteco
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up 29
deve-se maximizar o SNR. A salincia, Sj , de uma dada regio, j, calculada como uma
combinao linear de salincias bottom-up sij para as caractersticas daquela regio:
n
(3.1)
X
Sj (x, y, A) = gi,j si,j (x, y, A)
i=1
A salincia do alvo (ST ) calculada em termos de sua salincia siT , i {1, ..., n},
j {1, ..., N } para cada um dos n mapas de salincia dentro das N regies das caracte-
rsticas. A salincia bottom-up calculada utilizando o modelo de Itti et al. [Itti et al., 1998].
Foram utilizados os seguintes conjuntos de caractersticas visuais primitivas: 6 cores, 4 in-
tensidades e 4 orientaes (0 , 45 , 90 , 135 ). Os mapas de caractersticas so extrados em
6 escalas espaciais diferentes. Tanto os mapas de caracersticas quanto os de conspicuidade
so ponderados por ganhos top-down e so combinados linearmente.
Para a realizao dos experimentos, foram implementados 4 modelos: T0D0, T1D0,
T0D1 e T1D1, em que T e D referem-se a alvo e distrator respectivamente. O 0 direita
da letra indica que o modelo no utiliza conhecimento sobre o elemento indicado pela letra,
enquanto o 1 indica que o modelo utiliza tal conhecimento. Este conhecimento obtido pelo
clculo da mdia dos SNRs para cada elemento. Por exemplo, T1D0 combina a salincia
bottom-up apenas com conhecimento sobre o alvo. Os experimentos foram realizados utili-
zando tanto imagens com objetos artificiais (barras horizontais, verticais em diferentes cores,
por exemplo) quanto com imagens de objetos reais (foto de vrios objetos sobre uma mesa,
por exemplo).
Foram realizados dois tipos de experimentos com imagens sintticas e com imagens de
ambientes naturais. O conjunto de imagens sintticas continha 150 imagens e o de imagens
naturais, 60. Todos os modelos obtiveram bons resultados nos testes em que o elemento alvo
era muito diferente dos distratores. A busca era mais lenta quando havia algumas caracte-
rsticas semlhantes entre os elementos alvo e distratores. O artigo compara o modelo apenas
entre variaes do mesmo, no faz nenhuma comparao com outros modelos. Alm disso,
no mostra nenhum dado estatstico sobre o desempenho do sistema.
Fisher e MacKirdy [Fisher and MacKirdy, 1998] propuseram um sistema que utiliza pro-
cessos bottom-up e top-down para reconhecer objetos. O processo top-down representa obje-
tos como um ente inteiro (completo) no processo de reconhecimento. O processo bottom-up
usa um conjunto de caractersticas relacionadas reconhecidas a priori.
3.1 Integrao de Modelos de Ateno Visual Top-down e Bottom-up 30
(d) (e)
Figura 3.1: Ilustrao da escolha do mapa de conspicuidade mais importante para a salincia.
As Figuras 3.1(a), 3.1(b) e 3.1(c) representam os mapas de conspicuidade. A Figura 3.1(d)
representa a imagem original e a Figura 3.1(e) o mapa de salincia.
(a) (b)
Figura 3.2: Exemplo de imagem cuja segmentao da regio saliente impe dificuldades ao
algoritmo.
da seguinte forma. Dada uma imagem de entrada, o sistema de ateno visual detecta as re-
gies mais importantes da imagem. Estas regies passam por um pr-processamento (equa-
lizao de histograma e filtragem com blur gaussiano). Em seguida, as regies salientes so
apresentadas ao sistema de reconhecimento que as classifica de acordo com as classes que
foram definidas durante o treinamento.
Foram realizados dois tipos de experimentos. O primeiro avaliou a acurcia do sistema
de deteco na tarefa de selecionar regies contendo placas de sinalizao. O segundo tipo
avaliou o desempenho do sistema de reconhecimento em classificar regies obtidas pelo
sistema de deteco. Para a construo da base de dados utilizada nos experimentos, foram
extradas imagens de um vdeo filmado a partir de um veculo em movimento durante uma
viagem em dia claro entre duas cidades. Aps a aquisio, o vdeo foi particionado em
quadros e cada um deu origem a uma imagem colorida de resoluo 352 240 pixels.
Para os experimentos com o Mdulo de Deteco, foi selecionado um subconjunto de
imagens a partir da base de imagens extradas do vdeo. Apenas imagens com placas foram
selecionadas, num total de 15 imagens com 16 placas, sendo 14 imagens com uma placa e
uma com duas. Em todos os experimentos o raio de inibio foi fixado. Para o experimento
em que o raio de inibio era de 20 pixels e foram utilizados 5 regies, o sistema de deteco
conseguiu localizar 93,75% das placas.
Os experimentos de classificao obtiveram uma taxa mdia de reconhecimento de
84,40%. A melhor taxa foi de 100% ( utilizando 11, 12 e 13 padres de treinamento) e a
taxa mais baixa foi de 56,41% (utilizando 3 padres de treinamento). Os experimentos mos-
traram que o nmero de padres de treinamento tem um papel muito importante na tarefa de
classificao.
O sistema proposto apresenta uma aplicao prtica para a ateno visual. Os experimen-
tos realizados obtiveram bons resultados, para alguns casos os resultados foram o mximo
possvel. No entanto, a forma de avaliar a complexidade do mdulo de deteco apresenta
algumas inconsistncias. O autor afirma que se a quantidade de regies salientes (com raio
de inibio 20) utilizada igual a 5, so utilizados 0,0059% dos pontos de uma imagem
352 240. Porm, a quantidade de pontos realmente utilizada corresponde a multiplica-
o do nmero de regies pela a rea de cada regio. Neste caso, a porcentagem de pontos
utilizada seria 2,3674% e no 0,0059%. Apesar disso, o resultado continua sendo muito bom.
3.2 Uso de Ateno Visual na Melhoria do Desempenho de Sistemas de Reconhecimento de
Padres 35
Santos [Santos, 2005] props um mecanismo de ateno visual que integra mecanismos
bottom-up, temporal e de profundidade para gerar um mapa de salincias em que as regies
mais importantes destacam objetos que despertam a ateno devido influncia tanto de
caractersticas visuais primitivas quanto do movimento do mesmos. Ou seja, neste sistema,
um objeto ter um valor alto de salincia se estiver em movimento, possuir uma distncia
menor que um valor d da cmera e apresentar alta salincia bottom-up.
O sistema considera a possibilidade de n cmeras que capturam de diferentes posies
um mesmo vdeo a ser processado. O processamento de um vdeo consiste em gerar um
novo vdeo em cujos quadros somente sejam visveis as caractersticas bottom-up dos objetos
mveis que estejam situados a, no mximo, uma distncia d (pr-estabelecida) das cmeras.
As demais regies dos quadros so preenchidas com intensidades nulas.
Dois mapas intermedirios so gerados durante o processamento. Um mapa de movi-
mento, obtido do processamento dos quadros nos instantes t e t + 1 e um mapa de pro-
fundidade obtido do processamento dos n quadros no instante t. Utilizando os mapas de
movimento e profundidade o quadro no instante t segmentado. O quadro segmentado pelo
movimento e pela profundidade submetido ao mdulo responsvel pela ateno visual
bottom-up.
O mdulo de ateno visual bottom-up segue a arquitetura proposta por Itti et al. [Itti
et al., 1998]. No entanto, o extrator de caractersticas implementado por Santos [Santos,
2005] recebe um quadro segmentado pelo movimento, ou seja, uma imagem em que apenas
as regies com algum nvel de movimento so destacadas. Isso agiliza a extrao das ca-
ractersticas bottom-up, pois o extrator s necessita trabalhar sobre as regies no-nulas da
imagem, que constituem uma pequena minoria.
Foram realizados experimentos com mdulos separados (mdulo de Ateno Temporal
e mdulo de segmentao de movimento) e com o sistema final. Para o mdulo de aten-
o temporal foram realizados experimentos desde os prottipos iniciais, estes experimentos
mostram a evoluo de tal mdulo. Alm disso, tambm foi realizado um estudo de caso uti-
lizando Ateno Temporal na deteco de transies em vdeo. Nenhum dos experimentos
realizados ocorreu em tempo real.
Os experimentos que mostram a evoluo do mdulo de Ateno Temporal evidenciam o
trabalho de implementao realizado no sentido de minimizar o rudo presente nos mapas de
3.3 Utilizao de Algoritmos Genticos como Mtodos de Otimizao em Sistemas de Viso
Computacional 36
no contm veculos. As imagens de faces foram extradas manualmente do CMU face de-
tection dataset [Sim et al., 2003]. Para os experimentos com faces, foram utilizadas 616
imagens de faces e 616 imagens que no continham faces.
Para propsito de comparao, tambm foi implementado o mtodo de seleo de carac-
tersticas SFBS (Sequential Floating Backward Selection). O SFBS uma verso do mtodo
plus l - take away r que primeiro enlarguece o subconjunto de caractersticas por l caracters-
ticas utilizando seleo para frente e depois remove r caractersticas utilizando seleo para
trs. O nmero mdio de caractersticas selecionadas pelo SFBS em imagens de veculos foi
87, enquanto o mtodo proposto selecionou 46 caractersticas. Com as imagens de faces, o
SFBS selecionou 68 caractersticas e o algoritmo gentico 34.
O mtodo proposto por Sun et al [Sun et al., 2003] apresenta aplicaes prticas e simples
do uso de algoritmos genticos (deteco de faces e de automveis). No entanto, a compara-
o dos resultados com outros mtodos existentes poderia ter sido realizada utilizando mais
de um mtodo de seleo de caractersticas e no apenas o SFBS. Alm disso, os autores
no deixam claro o esforo computacional aplicado no processo de otimizao do algoritmo
gentico.
Um mtodo adaptativo que utiliza algoritmos genticos associados a um mecanismo de
ateno visual para localizar olhos em imagens de faces foi proposto por Huang e Wechs-
ler [Huang and Wechsler, 1999; Huang and Wechsler, 2000]. Este mtodo procura, ini-
calmente, por regies salientes e, em seguida, as classifica. O mapa de salincia obtido
utilizando consenso entre rotinas de navegao codificadas como um autmato de estados
finitos (FSA - Finite State Automaton) que explora a imagem de face e evolui utilizando
algoritmos genticos.
A abordagem adaptativa de localizao de olhos primeiro busca onde os objetos salien-
tes esto e, em seguida, os classifica. Especificamente, esta abordagem envolve: gerao do
mapa de ateno e possvel classificao de regies como regies contendo olhos. A etapa
de classificao realiza uma seleo tima de caractersticas e a criao de uma rvore de de-
ciso (DT - Decision Tree) para confirmao da classificao de olhos utilizando algoritmos
genticos.
O mapa de salincia obtido a partir das seguintes tarefas: extrao de caractersticas,
derivao dos mapas de conspicuidade e integrao das sadas das vrias rotinas visuais. O
3.4 Consideraes Finais 40
EXTRAAO DE ESTATISTICAS
CARACTERISTICAS MEDIA, DESVIO, ENTROPIA
NAVEGAAO
MAPAS DE
CONSPICUIDADE FSA E GA
MAPA DE
SALIENCIA
INTEGRACAO
DOS DADOS CONSENSO
como tcnica de otimizao para sistemas que utilizam ateno visual bottom-up. Os traba-
lhos de Santos [Santos, 2005] e Rodrigues [Rodrigues, ] foram desenvolvidos por alunos do
mesmo grupo de pesquisa que o autor desta dissertao. Inclusive, todos utilizam o mesmo
sistema de ateno visual bottom-up com adaptaes para cada caso.
Observa-se que nenhum destes trabalhos utiliza algoritmos genticos para ponderar ma-
pas de caractersticas em sistemas de ateno visual bottom-up como o sistema proposto
neste trabalho, que discutido no Captulo 2, o faz. Alm disso, esses trabalhos utilizam
conjuntos de imagens muito pequenos e apresentam uma anlise estatstica muito restrita
dos resultados.
O prximo captulo apresenta o sistema proposto nesta dissertao. Este sistema utiliza
algoritmos genticos para otimizar pesos que so utilizados para ponderar os diversos mapas
de caractersticas utilizados para formar mapas de salincias em sistemas de ateno visual
bottom-up.
Captulo 4
Sistema Proposto
4.1 Arquitetura
Esta dissertao prope uma nova estratgia para otimizao de pesos de um mecanismo de
ateno visual baseado em caractersticas. Esta estratgia utiliza algoritmos genticos para
otimizar um arranjo de pesos para os mapas que compem o mapa de salincias de forma
que o mapa de salincias resultante apresente melhores resultados quando comparado com
resultados previamente otimizados. A estratgia proposta aplica pesos no somente aos ma-
pas de caractersticas mas sim a todos os mapas que compem os mapas de salincias. A
otimizao seguida por fases de deteco e comparao. Na fase de deteco, um mapa
saliente baseado em trs caractersticas (cor, intensidade e orientao) construido. Aps
a fase de deteco, as regies salientes so comparadas com algumas regies selecionadas
manualmente em uma etapa anterior e os resultados da comparao so usados como fun-
o de avaliao do algoritmo gentico para produzir as prximas geraes do processo de
otimizao.
O sistema de otimizao formado por trs mdulos: verificao de regies salientes,
42
4.1 Arquitetura 43
ateno visual e otimizao de pesos. O mdulo de ateno visual baseado no que foi
proposto em [Itti et al., 1998]. A verificao de regies salientes realizada utilizando
regies selecionadas manualmente e usada para validao dos experimentos. O mdulo
de otimizao de pesos utilizado para gerar populaes com pesos apropriados para a
ponderao dos mapas. A Figura 4.1 ilustra a arquitetura do sistema de otimizao.
ALGORITMO
GENTICO
PESOS ESTATSTICAS
GERENCIADOR
DE TAREFAS
IMAGENS
E ESTATSTICAS
PESOS
GRADE COMPUTACIONAL
Em linhas gerais, o sistema descrito na Figura 4.1 funciona da seguinte forma. Aps a
seleo manual das regies de interesse de um conjunto de imagens utilizadas para otimiza-
o, o mdulo de otimizao de pesos envia grade o conjunto de imagens, bem como as
coordenadas das regies selecionadas, um conjunto de pesos e os programas executveis que
compem o mdulo de ateno visual. A grade computacional ir gerenciar o envio dessas
informaes e o recebimento dos resultados obtidos pelo mdulo de ateno visual. A cada
iterao, o mdulo de otimizao de pesos avalia os resultados do mdulo de ateno visual
e envia um novo conjunto de pesos grade at que a otimizao seja finalizada. A grade
computacional foi utilizada devido necessidade de se processar uma quantidade grande de
4.1 Arquitetura 44
imagens (100 para cada classe de regio) em um nmero muito grande de iteraes (cerca de
1600 iteraes). Se este processamento fosse executado em apenas um computador, levaria
cerca de um ms para ser executado. O processamento em grade reduziu o tempo de proces-
samento para um ou dois dias dependendo da disponibilidade de computadores na grade. A
seguir, a descrio de cada mdulo apresentada.
O mdulo de ateno visual utilizado uma adaptao do sistema proposto em [Itti
et al., 1998]. Ele usa um mecanismo de ateno visual bottom-up de mapas de salincias.
Este mecanismo construdo utilizando-se Pirmides Gaussianas e operadores de vizinhana
localmente orientados. A Figura 4.2 mostra um diagrama do mdulo de ateno visual.
IMAGEM
MDULO DE COORDENADAS
ATENO VISUAL DOS PONTOS
SALIENTES
PESOS
IMAGENS COORDENADAS
MDULO DE DOS PONTOS SALIENTES
CLCULO DAS ESTATSTICAS
ATENO VISUAL ESTATSTICAS
PESOS
COORDENADAS DOS
PONTOS SELECIONADOS
MANUALMENTE
Como o sistema aqui descrito necessita de uma etapa de otimizao, necessrio que a sele-
o de imagens que contenham caractersticas semelhantes seja realizada. Nessa dissertao
4.2 Implementao do Sistema 46
essa seleo realizado manualmente. O processo de otimizao requer que as regies mais
importantes das imagens tenham sido indicadas pelo usurio. Isto necessrio devido ao
fato de que o sistema ir otimizar os pesos que sero atribudos aos mapas de caractersticas
de acordo com as regies que foram indicadas na etapa de seleo manual.
Foram realizadas quatro otimizaes de pesos, uma para cada classe de regio selecio-
nada manualmente. Estas classes so: faces de pessoas, objetos genricos, armas (pistolas
ou revlveres) e carros. Para o conjunto de imagens contendo pessoas, selecionam-se manu-
almente as regies das faces guardando-se as coordenadas dos retngulos que as contm. O
mesmo processo realizado para as imagens em que o assunto a ser selecionado so objetos
genricos. Para os casos de armas e carros, as regies selecionadas so os menores retngu-
los que contm tais objetos. Em todos os casos, as regies selecionadas manualmente so
aquelas que despertam a ateno do observador com base em caractersticas primitivas como
cor, intensidade e orientao, mas tendo em mente a classe de regies definida previamente.
Na Figura 4.4 temos exemplos de imagens utilizadas na etapa de otimizao e as regies
selecionadas.
Estas regies selecionadas manualmente so utilizadas pelo mdulo de verificao de
regies salientes. O mdulo de verificao calcula estatsticas sobre a presena de pontos
salientes nas regies selecionadas manualmente. O clculo feito como descrito a seguir.
Ao aplicar o conjunto de pesos a uma imagem, calcula-se a quantidade mnima de pontos
para que 100% das reas de interesse sejam atingidas por no mnimo 1 ponto saliente. Aps
aplicar esse conjunto de pesos a todas as imagens, calculam-se a mdia e o desvio-padro.
Em seguida, essas medidas so enviadas ao mdulo de otimizao que utiliza estes valores
para minimizar a quantidade mdia de pontos presentes nas regies de interesse.
(a) (b)
(c) (d)
IMAGEM DE
ENTRADA
FILTRAGEM
LINEAR
MAPAS DE CONSPICUIDADES
COMBINAO LINEAR
MAPA DE
SALINCIA
DESLOCAMENTO INIBIO DE
DE PIXELS RETORNO
PONTOS SALIENTES
Para prevenir que somente partes de objetos sejam tratadas, uma estratgia de movimen-
tos sacdicos foi implementada. Para cada regio de interesse, so implementados deslo-
camentos que mudam o foco de ateno para vrios pontos vizinhos. Os focos de ateno
so determinados deslocando-se as coordenadas do ponto de ateno 5 e 10 pixels em uma
vizinhana de 8 pixels, gerando 16 variaes de pontos de ateno.
Siagian e outros [Siagian and Ititi, 2004] empregaram a computao da mdia dos mapas
para obteno do mapa de salincias final, e para realizar a tarefa visual requerida usando este
mapa (exemplo: localizar placas de trnsito ou localizar faces). Nesta dissertao, contudo, o
sistema de ateno visual ajustado pela mudana do conjunto de pesos que so usados para
para produzir o mapa de ateno final, de forma que a tarefa visual seja melhor realizada.
Estes pesos so obtidos por um processo experimental. Neste processo, pesos diferentes
so atribuidos a cada mapa e os resultados so otimizados por um algoritmo gentico. Na
prxima subseo, o mdulo responsvel pela gerao dos pesos que so atribudos aos
mapas descrito.
Neste trabalho, utilizamos uma biblioteca para criao de algoritmos genticos, a biblioteca
GAlib (http://lancet.mit.edu/ga/ ). A GAlib uma biblioteca construda em C++ por Matthew
Wall no Massachusetts Institute of Technology. Alm disso, a GAlib gratuita e distribuda
sob uma licensa estilo BSD (BSD-style license). Alguns fatores que influenciaram na escolha
da GAlib: ela ser construda em C++, ser gratuita e dispor de uma boa documentao.
Esta biblioteca possui duas classes principais, uma representa genomas e a outra repre-
senta um tipo de algoritmo gentico. Cada instncia de genoma representa uma soluo
nica para determinado problema. O objeto algoritmo gentico define como a evoluo de-
ver ocorrer. O algoritmo gentico utiliza uma funo objetivo definida pelo usurio que
determina quo apto cada genoma est para sobreviver. H tambm operadores de genoma e
estratgias de seleo para gerar novos indivduos.
Para utilizar esta biblioteca o usurio deve definir trs coisas:
uma representao;
os operadores genticos;
a funo objetivo.
A GAlib prov mecanismos para gerar de forma rpida e prtica operadores e represen-
taes. Porm, o programador totalmente responsvel pela funo objetivo. Uma vez que
o programador tenha uma representao, os operadores e uma maneira de medir o objetivo
da otimizao, ele poder aplicar as funes pr-definidas do GAlib para implementar seu
sistema.
H muitos tipos de algoritmos genticos. A GAlib prov trs tipos bsicos: simple,
steady-state e incremental. Estes algoritmos diferem no modo de criao de novos indiv-
duos e na forma como os indivduos antigos sero substitudos durante a evoluo. A GAlib
prov dois mecanismos de extenso das capacidades dos objetos pr-definidos. Primeiro, o
programador pode derivar suas prprias classes e definir novas funes membro. Se o pro-
gramador necessita apenas de pequenos ajustes no comportamento de uma classe da GAlib,
em muitos casos, ele pode definir uma nica funo e informar classe da GAlib para usar a
4.3 Descrio sobre o Uso do OurGrid 52
havia um nmero muito grande de imagens para avaliar em cada gerao do algoritmo
gentico (foram processadas 380 imagens);
Considerando os fatores acima, seriam necessrios mais de 100 dias para realizar a oti-
mizao utilizando apenas um computador. Das formas de paralelismo conhecidas (super-
computadores, clusters e grades computacionais, por exemplo), optou-se pela utilizao de
uma grade computacional pelos seguintes motivos: no havia a necessidade de comunicao
entre os processos em execuo em computadores diferentes, possibilidade de execuo em
4.3 Descrio sobre o Uso do OurGrid 53
Cada job contm a descrio das tarefas que devem ser executadas nos computadores
remotos bem como algumas exigncias que os computadores remotos devem cumprir para
que possam ser usados. No caso do sistema aqui exposto, os computadores remotos deveriam
estar executando o sistema linux. H outro requisito necessrio pelo sistema que iria rodar
remotamente mas que no podia ser especificado no incio do programa: ter o programa de
compactao tar instalado. A verificao da inexistncia desse programa em computado-
res remotos era feita pela observao dos motivos de falha em algumas tarefas e pelo fato
de que algumas tarefas sempre falhavam nos mesmos computadores. Quando se observava
falha persistente de tarefas em determinados computadores ou em computadores sob certo
domnio, alterava-se os requisitos dos jobs adicionando-se uma entrada que indicava ao ge-
renciador de jobs para no usar tais mquinas no processamento.
A especificao de cada tarefa contm a quantidade de imagens a serem processadas, o
comando para descompactar o pacote contendo um conjunto de imagens e os executveis, o
4.4 Consideraes Finais 55
comando java responsvel por executar o programa que gerencia o sistema de ateno visual
e os clculos estatsticos, e o comando para enviar os resultados para o computador onde est
sendo executado o algoritmo gentico.
Resultados Experimentais
57
5.1 Detalhes sobre a Obteno das Imagens e Otimizao dos Pesos 58
No total, foram utilizadas 380 imagens nos processos de otimizao: 100 de pes-
soas, 100 de carros, 100 de armas e 80 de objetos genricos. Para teste, fo-
ram utilizadas 400 imagens, 100 para cada classe. Estas imagens foram obtidas
por meio de download da Internet. Para executar esta tarefa, foram utilizados os
seguintes programas: FlickrDown, GoogleGrab e NeoDownloader. O FlickrDown
(http://greggman.com/pages/flickrdown.htm) especfico para obteno de imagens do s-
tio www.flickr.com. O GoogleGrab (http://www.sas21.de/apps/webimagegrab/ ) automatiza
o processo de download de imagens do stio http://images.google.com.br. O NeoDownloa-
der (http://www.neowise.com/neodownloader/ ) um webcrawler que busca por imagens a
partir de um stio dado como entrada e de todos os seus links.
O stio www.flickr.com um stio para armazenamento, pesquisa e organizao de foto-
grafias onde qualquer pessoa pode armazenar suas imagens. Ele utiliza um sistema simples,
porm til, para facilitar o agrupamento das imagens. Este sistema de rotulamento (tags) per-
mite ao usurio que est fazendo upload rotular suas imagens de acordo com seu contedo.
No entanto, este stio no oferece nenhuma forma prtica para download de um conjunto
de imagens com determinado rtulo. O FlickrDown um programa criado para solucionar
este problema. Ele permite que o usurio faa download de at 500 imagens de determinado
rtulo.
Problema semelhante enfrentado quando algum deseja fazer download de vrias ima-
gens retornadas pela busca por imagens do Google. O Google no fornece nenhuma ferra-
menta que permita o download automtico de vrias imagens retornadas por sua busca. O
GoogleGrab um programa que permite que este download seja realizado. No entanto, h
limitaes quanto a quantidade de imagens baixadas.
Uma maneira menos restrita, porm com uma probabilidade mais alta de obter imagens
5.2 Processo de Otimizao 59
pesos, os parmetros de entrada dos algoritmos genticos e uma anlise de quais caracters-
ticas so mais importantes para cada classe de imagens.
A Figura C.1 mostra a evoluo do algoritmo gentico para imagens contendo objetos ge-
nricos. Nesta figura, podemos ver os valores das mdias dos melhores indivduos de cada
gerao. Para este experimento, os valores atribudos para mutao, recombinao e subs-
tituio foram: 0,01, 0,6 e 0,5 respectivamente. Cada gerao continha 80 indivduos e o
algoritmo gentico deveria evoluir at 40 geraes. No entanto, o algoritmo gentico pa-
rou de evoluir na vigsima primeira gerao. Isto ocorreu porque a curva de otimizao
estabilizou-se. O indivduo que obteve a melhor mdia (577,33) de pontos foi o indivduo 34
da vigsima primeira gerao.
O indivduo que obteve melhor mdia de pontos continha o conjunto de pesos mostrado
na Tabela 5.1. Nesta tabela, a primeira coluna contm os trs pesos que sero aplicados aos
mapas de conspicuidades que formam o mapa de salincia, a segunda coluna contm os pesos
para os mapas de intensidades, a terceira os pesos para os mapas de cores e a quarta os pesos
para os mapas de orientao. Os pesos da primeira coluna correspondem a intensidade,
cor e orientao, respectivamente. Os pesos dos mapas de intensidades correspondem s
intensidades dos canais vermelho, verde, azul e amarelo, nesta ordem. Os pesos dos mapas
5.2 Processo de Otimizao 61
de orientao podem ser agrupados de quatro em quatro, de forma que cada grupo de quatro
orientaes corresponde a variaes de orientao para uma mesma escala (as orientaes
so: 0 , 45 , 90 e 135 ). Esta mesma explicao vale para as Tabelas 5.2, 5.3 e 5.4). Da
anlise deste conjunto de pesos podemos observar que a caracterstica mais importante para
guiar a ateno no mapa de salincia para objetos genricos a orientao. E para os 4 nveis
das pirmides de orientao, as orientaes mais importantes so 45 e 135 (segundos e
quartos valores de cada grupo de quatro orientaes), nesta ordem.
1300
1200
Mdias da Avaliao dos Melhores Indivduos
1100
1000
900
800
700
600
500
0 5 10 15 20 25
Geraes
Figura 5.1: Melhores mdias de cada gerao para imagens contendo objetos genricos.
As melhores mdias de cada gerao na evoluo do algoritmo gentico para imagens con-
tendo faces de pessoas mostrada na Figura C.2. Nesta figura, podemos observar que o
melhor cojunto de pesos foi obtido por um indivduo da quadragsima gerao, que obteve
5.2 Processo de Otimizao 62
uma mdia de 40,29 pontos presentes nas regies selecionadas manualmente. Os valores
das probabilidades de mutao, recombinao e substituio para este experimento foram
respectivamente 0,01, 0,7 e 0,5. O algoritmo gentico deveria evoluir at 80 geraes de
40 indivduos, mas a evoluo estabilizou-se a partir da gerao 40 e a otimizao parou na
gerao 41. A Tabela 5.2 mostra o conjunto de pesos que obteve a melhor mdia de pontos
salientes em regies selecionadas manualmente. A partir desses valores podemos perceber
que a caracterstica mais importante para despertar a ateno do observador em regies de
faces (em um mapa de salincias que utiliza cor, intensidade e orientao) a orientao.
Pelo conjunto de pesos para os mapas de orientao podemos perceber que a orientao 45
a mais importante para os trs nveis mais altos da pirmide. No entanto, para o quarto
nvel, a orientao mais importante 90 .
120
110
Mdias da Avaliao dos Melhores Indivduos
100
90
80
70
60
50
40
0 5 10 15 20 25 30 35 40 45
Geraes
No grfico da Figura C.3 podemos observar os melhores resultados de cada gerao na otimi-
zao de pesos para imagens de armas (pistolas ou revlveres). Os valores das probabilidades
de mutao, recombinao e substituio foram: 0,1, 0,6 e 0,5, nessa ordem. As geraes
continham 40 indivduos e deveriam evoluir at 80 geraes. Porm, a curva de otimiza-
o estabilizou-se na quadragsima primeira gerao. A melhor mdia de pontos (30,05) foi
obtida pelo indivduo 50 da dcima oitava gerao. O conjunto de pesos deste indivduo
mostrado na Tabela 5.3. Analisando os pesos do mapa de salincia observa-se que os ma-
pas de caractersticas para intensidade e cor tm pouca ou nenhuma influncia para guiar
a ateno para regies onde h pistolas. Podemos observar que a orientao 45 a mais
importante em todos os nveis das pirmides.
70
65
Mdias da Avaliao dos Melhores Indivduos
60
55
50
45
40
35
30
0 5 10 15 20 25 30 35 40 45
Geraes
Figura 5.3: Melhores mdias de cada gerao para imagens contendo armas.
5.2 Processo de Otimizao 64
Como nos outros casos, verificou-se que a orientao a caracterstica mais importante para
guiar a ateno para regies contendo carros. Isto pode ser observado no conjunto de pe-
sos do indivduo que obteve a melhor mdia de pontos (4,15) na otimizao para imagens
contendo carros. Tal conjunto de pesos foi obtido pelo vigsimo indivduo da quadragsima
primeira gerao. O algoritmo deveria evoluir at 80 geraes, mas a curva estabilizou-se a
partir da gerao 41. Seu conjunto de pesos : 18 25 96 80 32 26 4 98 48 23 27 58 97
6 51 5 72 2 12 3 51 4 82 16 96 1 38, como mostrado na Tabela 5.4. Com exceo do nvel
2 das pirmides, cujo peso mais importante est para orientao 135 , todos os nveis tm
como orientao mais importante 45 . Para este experimento, os valores das probabilidades
de mutao, recombinao e substituio foram: 0,01, 0,7 e 0,5.
14
13
Mdias da Avaliao dos Melhores Indivduos
12
11
10
4
0 5 10 15 20 25 30 35 40 45
Geraes
Figura 5.4: Melhores mdias de cada gerao para imagens contendo carros.
5.3 Descrio do Sistema Utilizado para Comparao 65
possui classes para processamento de baixo nvel, tais como: Point2D, Rectangle,
Range e Timer;
O cdigo abaixo mostra o script utilizado para executar o ezvision. Como pode ser ob-
servado pelo parmetro output-frames=0-2500@EVENT -+, foram extrados 2500 pontos
salientes. Isto foi necessrio porque, mesmo com a inibio de retorno ativada, ocorria re-
dundncia de pontos salientes. Para obter apenas 845 pontos (correspondentes a 1% do total
de pontos de cada imagem) foi utilizado um programa para extrair os primeiros 845 pontos
sem repetio. Estes pontos foram utilizados no processo de verificao das regies salientes
que ser discutido na prxima seo.
# ! / b i n / bash
l s f o t o s _ j p g / > nomes_das_imagens . t x t
f u n c t i o n get_image_name {
c a t n o m e s _ d a s _ i m a g e n s . t x t | head n $1 | t a i l n 1
| c u t f 1 d . ;
}
f o r ( ( i = 1 ; i < " 101 " ; i + + ) ) ; do
IMG_NAME=$ ( g e t _ i m a g e _ n a m e $ i ) ;
IMG_NAME2=$IMG_NAME. j p g ;
IMG_NAME_TXT=$IMG_NAME. t x t ;
echo "IMG_NAME=$IMG_NAME" ;
5.4 Resultados da Verificao das Regies Salientes 67
e z v i s i o n o u t p u t f r a m e s =02500@EVENT +
salmap i o r d e c a y =0 o u t =pnm
t e x t l o g = t e s t p . t x t f o a r a d i u s =1
i n = F o t o s _ n a o _ t r e i n a d a s / $IMG_NAME2
mv t e s t p . t x t t o p 2 5 0 0 _ p e o p l e / $IMG_NAME_TXT
done
O conjunto de imagens com pessoas usado no processo de verificao contm 194 faces de
pessoas. A partir do grfico da Figura C.7 pode-se obervar que, utilizando-se somente 1%
do nmero total de pontos de cada imagem, o sistema que utiliza pesos otimizados encon-
trou pontos de interesse em 152 faces de pessoas previamente selecionadas. Para o mesmo
conjunto, o sistema iNVT encontrou pontos salientes em 98 faces utilizando 1% do total
de pontos da imagem. O resultado com pesos otimizados representa um ganho de 26% em
relao ao sistema iNVT. Na Figura C.7, bem como em todas as figuras que mostram a com-
parao dos resultdos do sistema proposto com os resultados do sistema de iNVT, verifica-se
que a curva dos resultados do sistema iNVT fica constante a partir de um certo valor de pon-
tos por imagem (para imagens contendo faces de pessoas, 0,1%). Isso ocorre porque a partir
desse valor o sistema no consegue sair da regio, gerando um aglomerado de pontos muito
prximos uns dos outros. A Figura 5.5 ilustra este fato, nela foram marcados 1% dos pontos
da imagem.
5.4 Resultados da Verificao das Regies Salientes 68
Figura 5.5: Marcao dos pontos salientes obtidos pelo sistema iNVT.
100
itti
90 com pesos
sem pesos
Pontos Presentes nas Regies Selecionadas
80
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos por Imagem(%)
No conjunto de imagens contendo objetos genricos, 258 objetos, ou regies que despertam
a ateno, foram manualmente selecionadas. O grfico da Figura C.8 mostra que utilizando-
se 1% do nmero total de pontos de cada imagem o sistema que utiliza pesos otimizados
encontrou pontos de ateno em 222 objetos ou regies, enquanto que o sistema iNVT en-
controu pontos salientes em 189 objetos. Desta forma, a otimizao de pesos para objetos
genricos incrementou em cerca de 9% a quantidade de regies selecionadas atingidas por
pontos salientes em relao ao sistema iNVT.
5.4 Resultados da Verificao das Regies Salientes 69
100
itti
90 com pesos
sem pesos
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos das Imagens (%)
Figura 5.7: Comparao dos resultados para imagens contendo objetos genricos.
As 100 imagens utilizadas para este experimento continham 104 armas. O grfico da Figura
5.8 mostra que os trs sistemas obtiveram altas taxas de acerto na localizao das regies
selecionadas manualmente. Isto decorre do fato de que a maioria das imagens utilizadas
apresentava as armas em close-up, ou seja, em algumas imagens as armas ocupavam uma
grande rea. No Apndice D, h exemplos de imagens utilizadas. Apesar de os trs sistemas
apresentarem valores altos de acerto, o que deve ser levado em considerao que mesmo
assim o sistema de ateno visual proposto apresentou valores mais altos do que o iNVT.
Utilizando 845 pontos o iNVT encontrou pelo menos um ponto saliente em 97 regies e
o sistema de ateno visual com otimizao de pesos encontrou pontos salientes em 100
regies.
Ocorreu um problema semelhante ao dos experimentos com imagens de armas com o experi-
mento de imagens de carros. Devido dificuldade de encontrar imagens apropriadas para os
experimentos, algumas imagens utilizadas apresentavam carros ocupando uma grande rea
5.5 Problemas Enfrentados com o Uso do OurGrid 70
100
90
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos das Imagens (%)
100
90 itti
sem pesos
70
60
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Quantidade de Pontos das Imagens (%)
operacional. Aps a postagem de dvidas no forum do OurGrid, ficou entendido que o alto
consumo de memria era devido a um problema na verso do OurGrid que estava sendo
utilizada e que tal problema seria resolvido em verses posteriores do OurGrid.
Para resolver o problema de forma indireta, foi proposta a escrita de um shell script que
gerenciasse a memria do sistema de forma que quando o consumo de memria pelo ge-
renciador de tarefas atingisse determinado valor, 70% do total de memria do sistema por
exemplo, o script suspendesse temporariamente a execuo das tarefas, salvasse os resulta-
dos obtidos at aquele momento e reiniciasse o processamento a partir do job onde havia
parado.
Esta soluo foi implementada criando-se um shell script que faz o gerenciamento da
memria utilizada e acrescentado-se funo que envia os jobs para a grade um gerenciador
de tarefas que ao enviar o job para a grade lana uma thread que executa o shell script em
paralelo com o processo que executado na grade e faz a verificao da memria consumida
pelo processo local. O shell script implementado mostrado no Apndice A.
Apesar desta soluo ter permitido a finalizao dos experimentos, ela criou alguns efei-
tos colaterais ao processamento. Primeiro, quando a memria utilizada pelo gerenciador de
tarefas atingia o valor mximo permitido pelo script, as tarefas que estavam sendo executa-
5.5 Problemas Enfrentados com o Uso do OurGrid 72
das eram abandonadas pelo gerenciador o que causava acmulo de lixo (cdigo e imagens)
nas mquinas remotas. Aps algumas paradas, as mquinas remotas que estavam com lixo
acumulado no tinham mais espao em disco disponvel para guardar novo material enviado
pelas tarefas o que causava erros durante o processamento. Segundo, o processo de parar a
tarefa que est sendo executada e reiniciar o processamento do ponto onde havia parado
custoso em relao ao tempo necessrio para ser executado o que tornou o processamento
mais lento.
As bibliotecas do OurGrid sofreram algumas modificaes e atualizao de verses. Isto
provocou algumas incompatibilidades do sistema aqui exposto com as novas verses, pois o
sistema tinha sido implementado com a verso 3.2 e as mquinas da grade foram atualizadas
para a verso 3.3. Como as verses 3.2 e 3.3 do OurGrid so incompatveis, foi necessria
a reimplementao de algumas classes. O fato de se estar utilizando verses muito novas
destas bibliotecas ocasionou alguns problemas de implementao devido incompletude
da documentao. No entanto, o forum de discusso do OurGrid foi de grande valia na
resoluo dos problemas de implementao.
A nova verso do OurGrid trouxe duas timas melhorias. Primeiro, no mais necessrio
que o programa salve em disco o nmero do ltimo job executado, pois o MyGrid faz isso
automaticamente. A segunda melhoria foi excelente, o problema de estouro de memria ao
executar uma quantidade muito grande de jobs no ocorre mais.
Outro problema ocasionado pela atualizao de verses do OurGrid foi a insero de
bugs inexistentes nas verses anteriores. Particularmente, um bug relacionado s funes de
armazenamento das tarefas nos computadores remotos. Como anteriormente o sistema aqui
exposto utilizava a funo storage e esta funo apresentou problemas na nova verso do
OurGrid, ela teve que ser substituda pela funo put. O problema com a funo storage
que algumas tarefas nunca finalizavam. Apesar dos bugs inseridos e da incompatibilidade de
verses, a nova verso do OurGrid trouxe uma srie de caractersticas que superam todos os
novos problemas.
5.6 Consideraes Finais 73
Concluso
Este captulo apresenta um sumrio dos principais pontos discutidos nesta dissertao, bem
como as contribuies da pesquisa desenvolvida e sugestes de trabalhos futuros.
74
6.2 Contribuies 75
6.2 Contribuies
Como foi apresentado no Captulo 3, a ateno visual bottom-up indica as regies mais
importantes de uma imagem como sendo aquelas que despertam o interesse do observa-
dor de forma inconsciente. Esta ateno guiada apenas por caractersticas de baixo n-
vel da imagem. H vrios sistemas e modelos que propem modos de associar conheci-
mentos de alto nvel a processos bottom-up [Milanese et al., 1994; Sun and Fisher, 2003;
Navalpakkam and Itti, 2003]. No entanto, nenhum desses modelos utiliza otimizao de
6.2 Contribuies 76
Aplicao de pesos aos diversos mapas de caractersticas que so utilizados para for-
mar um mapa de salincia. A novidade est no modo como estes pesos so obtidos.
Para a obteno desses pesos, selecionam-se manualmente regies salientes num con-
junto de imagens. Em seguida, gera-se um conjunto de pesos que so aplicados aos
mapas de caracterstocas obtidos pelo processamento dessas imagens. Calcula-se a
mdia de pontos de ateno de forma que pelo menos um ponto esteja presente nas
regies selecionadas manualmente. O algoritmo gentico evolui a fim de minimizar
essa mdia. Assim, tem-se um mecanismo genrico de ajuste, que pode ser facilmente
aplicado a diferentes classes de problemas.
Alm disso, os experimentos demonstram que o sistema proposto pode ser otimizado
para diferentes classes de objetos. Desta forma, ele pode servir como um mdulo para um
sistema genrico de deteco de objetos. Na prxima seo, so apresentadas sugestes de
trabalhos futuros.
6.3 Trabalhos Futuros 77
O sistema proposto pode ser utilizado como um mdulo em sistemas de deteco ou reco-
nhecimento. Ele serviria como meio para agilizar a localizao dos objetos mais importantes
da cena. Como a otimizao por meio de algoritmos genticos prov uma capacidade de ge-
neralizao a sistemas de ateno visual bottom-up, o mtodo aqui exposto pode ser utilizado
como etapa prvia na deteco ou reconhecimento de qualquer classe de objetos.
Como exemplos de aplicaes prticas do sistema temos: filtragem web e segurana de
ambientes. No primeiro caso, o sistema funcionaria acoplado a um navegador web e fil-
traria pginas que contivessem imagens com determinados tipos de objetos. Por exemplo,
poderia-se evitar que o navegador mostrasse pginas que contivessem imagens de armas. No
segundo caso, o sistema poderia ser integrado rede de cmeras de segurana de algum es-
tabelecimento comercial e ao sinal (emitido por um segurana) de algum indivduo suspeito
carregando um objeto estranho o sistema poderia rastrear as imagens das cmeras em busca
do objeto e conseqentemente do indivduo.
A utilizao de uma maior variabilidade de caractersticas (movimento, profundidade
estereoscpica, aspect ratio e textura, por exemplo) na gerao de mapas de salincia pode
viabilizar a criao de um detector genrico de objetos utilizando um mtodo de otimizao
de mapas de caractersticas com algoritmos genticos. Esta seria mais uma aplicao do
sistema proposto.
Bibliografia
[Bebis et al., 1999] Bebis, G., Uthiram, S., and Georgiopoulos, M. (1999). Genetic search
for face detection and verification. In International Conference on Information Intelli-
gence and Systems, pages 360367.
[Burt and Adelson, 1983] Burt, P. J. and Adelson, E. H. (1983). The laplacian pyramid as a
compact image code. IEEE Transactions on Communications, 31:532540.
[Darwin, 1909] Darwin, C. (1909). The Foundations of the Origin of Species. Cambridge
University Press.
[DeJong, 1975] DeJong, K. (1975). An Analysis of the Behavior of a Class of Genetic Adap-
tive Systems. PhD thesis, University of Michigan.
[Doyle and Dean, 1996] Doyle, J. and Dean, T. (1996). Strategic directions in artificial in-
telligence. ACM Computing Surveys, 28(4):653670.
[Fischer and Weber, 1993] Fischer, B. and Weber, H. (1993). Express saccades and visual
attention. Behavioral and Brain Sciences, 16:553610.
[Fisher and MacKirdy, 1998] Fisher, R. B. and MacKirdy, A. (1998). Integrating iconic and
structured matching. Lecture Notes in Computer Science, 1407:687699.
[Fong. and Hui, 2001] Fong., A. C. M. and Hui, S. C. (2001). Web-based intelligent sur-
veillance system for detection of criminal activities. Computer and Control Engineering
Journal, pages 263270.
[Freeman and Adelson, 1991] Freeman, W. T. and Adelson, E. H. (1991). The design and
use of steerable filters. IEEE Transactions on Pattern Analysis and Machine Intelligence,
13:891906.
79
BIBLIOGRAFIA 80
[Holland, 1975] Holland, J. (1975). Adaptation in Natural and Artificial Systems. The MIT
Press.
[Huang and Wechsler, 1999] Huang, J. and Wechsler, H. (1999). Eye location using genetic
algorithm. In Second International Conference on Audio and Video-Based Biometric
Person Authentication (AVBPA), pages 130135.
[Huang and Wechsler, 2000] Huang, J. and Wechsler, H. (2000). Visual routines for eye
location using learning and evolution. IEEE Transactions on Evolutionary Computation,
4(1):7382.
[Itti and Koch, 1999] Itti, L. and Koch, C. (1999). A comparison of feature combination
strategies for saliency-based visual attention systems. In SPIE human vision and eletronic
imaging (HVEI 99), pages 473482.
[Itti and Koch, 2000] Itti, L. and Koch, C. (2000). A saliency-based search mechanism for
overt and covert shifts of visual attention. Vision Research, 40:14891506.
[Itti and Koch, 2001a] Itti, L. and Koch, C. (2001a). Computational modelling of visual
attention. Nature Reviews Neuroscience, 2(3):194203.
[Itti and Koch, 2001b] Itti, L. and Koch, C. (2001b). Feature combination strategies for
saliency-based visual attention systems. Journal of Electronic Imaging, 10(1):161169.
[Itti et al., 1998] Itti, L., Koch, C., and Niebur, E. (1998). A model of saliency-based visual
attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 20(11):12541259.
[Itti et al., 2005] Itti, L., Rees, G., and Tsotsos, J. K. (2005). Models of Bottom-Up Attention
and Saliency. San Diego, CA:Elsevier.
[Jain and Dorai, 1997] Jain, A. and Dorai, C. (1997). Practicing vision: Integration, evalua-
tion and applications.
BIBLIOGRAFIA 81
[Lopez et al., 2006] Lopez, M. T., Fernandez-Caballero, A., Fernandez, M. A., and Del-
gado, J. M. A. E. (2006). Visual surveillance by dynamic visual attention method. Pattern
Recognition, pages 21942211.
[Milanese et al., 1994] Milanese, R., Wechsler, H., and Gil, S. (1994). Integration of
bottom-up and top-down cues for visual attention using non-linear relaxation. In Pro-
ceedings IEEE Conference on Computer Vision and Pattern Recognition, pages 781785.
[Navalpakkam and Itti, 2002] Navalpakkam, V. and Itti, L. (2002). A goal oriented attention
guidance model. In Second International Workshop on Biologically Motivated Computer
Vision, pages 453461.
[Navalpakkam and Itti, 2003] Navalpakkam, V. and Itti, L. (2003). Sharing resources: Buy
attention, get object recognition. In International Workshop on Attention and Performance
in Computer Vision WAPCV2003, pages 7379.
[Navalpakkam and Itti, 2006] Navalpakkam, V. and Itti, L. (2006). An integrated model of
top-down and bottom-up attention for optimal object detection. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), pages 20492056.
[Pereira and Gomes, 2006] Pereira, E. T. and Gomes, H. M. (2006). Guiding a bottom-up
visual attention mechanism to locate specific image regions using a distributed genetic
optimization. In CIARP, pages 257266.
[Pereira et al., 2006] Pereira, E. T., Gomes, H. M., and Florentino, V. F. C. (2006). Bottom-
up visual attention guided by genetic algorithm optimization. In Eigth IASTED Internati-
onal Conference on Signal and Image Processing, pages 228233.
[Pinkerton, 1994] Pinkerton, B. (1994). Finding what people want: Experiences with the
webcrawler.
[Siagian and Ititi, 2004] Siagian, C. and Ititi, L. (2004). Biologically-inspired face detec-
tion: Non-brute-force-search approach. In First IEEE-CVPR International Workshop on
Face Processing in Video, pages 6269.
[Sim et al., 2003] Sim, T., Baker, S., and Bsat, M. (2003). The cmu pose, illumination, and
expression (pie) database. IEEE Transactions on Pattern Analysis and Machine Intelli-
gence, 25(12):16151624.
[Simoncelli and Freeman, 1995] Simoncelli, E. P. and Freeman, W. T. (1995). The stee-
rable pyramid: A flexible architecture for multi-scale derivative computation. In IEEE
International Conference on Image Processing, pages 444447.
[Sun and Fisher, 2003] Sun, Y. and Fisher, R. (2003). Object-based visual attention for com-
puter vision. Artificial Intelligence, 146(1):77123.
[Sun et al., 2003] Sun, Z., Bebis, G., and Miller, R. (2003). Boosting object detection using
feature selection. In IEEE Conference on Advanced Video and Signal Based Surveillance
(AVSS03), pages 290296.
[Tsotsos, 1990] Tsotsos, J. (1990). Analyzing vision at the complexity level. The Behavioral
and Brain Sciences, 13(3):423445.
[Turk and Pentland, 1991] Turk, M. and Pentland, A. (1991). Face recognition using eigen-
faces. In IEEE Computer Society Conference on Computer Vision and Pattern Recogni-
tion, pages 586591.
[Vapnik, 1995] Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer
Verlag.
[Walther et al., 2002] Walther, D., Itti, L., Riesenhuber, M., Poggio, T., and Koch, C. (2002).
Attentional selection for object recognition - a gentle way. In Biologically Motivated
Computer Vision - Lecture Notes in Computer Science, Springer, pages 472479.
BIBLIOGRAFIA 83
[Whitley, 1994] Whitley, D. (1994). A genetic algorithm tutorial. Statistics and Computing,
4:6585.
[Wildes, 1998] Wildes, R. P. (1998). A measure of motion salience for surveillance applica-
tions. In Proceedings of the IEEE International Conference on Image Processing, pages
183187.
[Wolfe and Horowitz, 2004] Wolfe, J. M. and Horowitz, T. S. (2004). What attributes guide
the deployment of visual attention and how do they do it? Nature Reviews: Neuroscience,
5:17.
Apndice A
O cdigo de script utilizado para gerenciar a memria, quando o algoritmo gentico exe-
cutado na Grade mostrado abaixo.
# ! / b i n / bash
function get_number_of_jobs {
NUMBER_OF_JOBS=$ ( l s ~ / mem_manager / t a s k _ s p e c / ) ;
}
function s ave_previous_result s {
mkdir ~ / ga / r e s u l t a d o s / $1 /
cp r ~ / w o r k s p a c e / V i s u a l A t t e n t i o n / b i n / . ~ / ga / r e s u l t a d o s / $1 / .
}
function c l e a r _p r e vi ou s _ r e s u l t s {
rm r f ~ / ga / r e s u l t a d o s /
}
function get_task {
c a t ~ / mem_manager / t a s k _ s p e c / $1 | h e a d $2 |
t a i l $3 > ~ / mem_manager / t a s k . t x t
}
function i n i t _ j d f {
REQUERIMENTS= " r e q u i r e m e n t s : " \ ( " o s = l i n u x &&
84
85
f o r ( ( i = 1 ; i <$NUMBER_OF_LINES ; i = i + 8 ) ) ; do
g e t _ t a s k $NUMBER_OF_JOBS $ j 8 ;
INIT1=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p STORE | c u t f 9 d " " ) ;
INIT2=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p STORE | c u t f 1 1 d " " | c u t f 1 d " ] " ) ;
REMOTE=$ ( c a t ~ / mem_manager / t a s k . t x t | g r e p " x z f " ) ;
FINAL=$ ( c a t ~ / mem_manager / t a s k . t x t |
g r e p GET | c u t f 1 1 d " " | c u t f 1 d " ] " ) ;
j =$ ( ( j + 8 ) ) ;
function ki ll_gaongrid {
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid | g r e p j a v a |
c u t f 1 d p ) ;
PID_GAONGRID=$ ( echo $PID_GAONGRID | c u t f 1 d ) ;
k i l l $PID_GAONGRID ;
}
function see_if_ga_on_grid_is_running {
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid | g r e p j a v a |
c u t f 1 d p ) ;
PID_GAONGRID=$ ( echo $PID_GAONGRID | c u t f 1 d ) ;
w h i l e ! [ "$PID_GAONGRID" = " " ] ; do
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid |
g r e p j a v a | c u t f 1 d p ) ;
PID_GAONGRID=$ ( echo $PID_GAONGRID | c u t f 1 d ) ;
done
}
f u n c t i o n m y g r i d _ m a na ger {
see_if_ga_on_grid_is_running ;
kill_mygrid_gui ;
mygrid s t o p ;
87
mygrid s t a r t ;
mygrid s e t g r i d / u s r / s h a r e / mygrid / m e u g r i d . g d f ;
PID_MYGRID=$ ( p s ax | g r e p o r g . o u r g r i d . mygrid . main . Main
| c u t f 1 d p ) ;
PID_MYGRID=$ ( echo $PID_MYGRID | c u t f 1 d ) ;
MEM=$ ( p s p $PID_MYGRID o pmem ) ;
MEM=$ ( echo $MEM | c u t f 2 d ) ;
PID_GAONGRID=$ ( p s ax | g r e p GAOnGrid | g r e p j a v a |
c u t f 1 d p ) ;
PID_GAONGRID=$ ( echo $PID_GAONGRID | c u t f 1 d ) ;
88
B.1 Imagens Contendo Armas 89
150
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.1: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 1%.
150
Mdia da Avaliao dos Melhores Indivduos
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.2: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 2%.
B.1 Imagens Contendo Armas 90
150
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.3: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 3%.
150
Mdia da Avaliao dos Melhores Indivduos
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.4: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 4%.
B.1 Imagens Contendo Armas 91
150
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.5: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 5%.
150
Mdia da Avaliao dos Melhores Indivduos
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.6: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 6%.
B.1 Imagens Contendo Armas 92
150
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.7: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 7%.
150
Mdia da Avaliao dos Melhores Indivduos
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.8: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 8%.
B.1 Imagens Contendo Armas 93
150
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.9: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 9%.
150
Mdia da Avaliao dos Melhores Indivduos
100
50
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.10: Melhores mdias de cada gerao para imagens de armas e valor de mutao
igual a 10%.
B.2 Imagens Contendo Objetos Genricos 94
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.11: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 1%.
Mdia da Avaliao dos Melhores Indivduos
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.12: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 2%.
B.2 Imagens Contendo Objetos Genricos 95
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.13: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 3%.
Mdia da Avaliao dos Melhores Indivduos
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.14: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 4%.
B.2 Imagens Contendo Objetos Genricos 96
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.15: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 5%.
Mdia da Avaliao dos Melhores Indivduos
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.16: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 6%.
B.2 Imagens Contendo Objetos Genricos 97
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.17: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 7%.
Mdia da Avaliao dos Melhores Indivduos
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.18: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 8%.
B.2 Imagens Contendo Objetos Genricos 98
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.19: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 9%.
Mdia da Avaliao dos Melhores Indivduos
3000
2500
2000
1500
1000
500
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.20: Melhores mdias de cada gerao para imagens de objetos e valor de mutao
igual a 10%.
B.3 Imagens Contendo Faces de Pessoas 99
1200
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.21: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 1%.
1200
Mdia da Avaliao dos Melhores Indivduos
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.22: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 2%.
B.3 Imagens Contendo Faces de Pessoas 100
1200
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.23: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 3%.
1200
Mdia da Avaliao dos Melhores Indivduos
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.24: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 4%.
B.3 Imagens Contendo Faces de Pessoas 101
1200
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.25: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 5%.
1200
Mdia da Avaliao dos Melhores Indivduos
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.26: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 6%.
B.3 Imagens Contendo Faces de Pessoas 102
1200
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.27: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 7%.
1200
Mdia da Avaliao dos Melhores Indivduos
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.28: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 8%.
B.3 Imagens Contendo Faces de Pessoas 103
1200
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.29: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 9%.
1200
Mdia da Avaliao dos Melhores Indivduos
1000
800
600
400
200
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.30: Melhores mdias de cada gerao para imagens de pessoas e valor de mutao
igual a 10%.
B.4 Imagens Contendo Carros 104
100
90
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.31: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 1%.
100
90
Mdia da Avaliao dos Melhores Indivduos
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.32: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 2%.
B.4 Imagens Contendo Carros 105
100
90
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.33: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 3%.
100
90
Mdia da Avaliao dos Melhores Indivduos
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.34: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 4%.
B.4 Imagens Contendo Carros 106
100
90
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.35: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 5%.
100
90
Mdia da Avaliao dos Melhores Indivduos
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.36: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 6%.
B.4 Imagens Contendo Carros 107
100
90
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.37: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 7%.
100
90
Mdia da Avaliao dos Melhores Indivduos
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.38: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 8%.
B.4 Imagens Contendo Carros 108
100
90
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.39: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 9%.
100
90
Mdia da Avaliao dos Melhores Indivduos
80
70
60
50
40
30
20
10
0
2 4 6 8 10 12 14 16 18 20
Geraes
Figura B.40: Melhores mdias de cada gerao para imagens de carros e valor de mutao
igual a 10%.
Apndice C
2500
Mdia de Pontos
2000
1500
1000
500
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
109
110
2800
Desvio Padro da Quantidade de Pontos
2600
2400
2200
2000
1800
1600
1400
1200
1000
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
160
140
120
Mdia de Pontos
100
80
60
40
20
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
400
350
300
250
200
150
100
50
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
800
700
600
Mdia de Pontos
500
400
300
200
100
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
1800
Desvio Padro da Quantidade de Pontos
1600
1400
1200
1000
800
600
400
200
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
1000
Mdia de Pontos
500
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
1800
Desvio Padro da Quantidade de Pontos
1600
1400
1200
1000
800
600
400
200
0
0 200 400 600 800 1000 1200 1400 1600 1800
Indivduos
114
115
Figura D.2: Imagens contendo objetos genricos com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado por algoritmos genticos.
116
Figura D.4: Imagens contendo faces de pessoas com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado.
117
Figura D.6: Imagens contendo carros com a marcao dos cinco pontos mais salientes obti-
dos com o sistema de ateno visual otimizado.
118
Figura D.8: Imagens contendo pistolas ou revlveres com a marcao dos cinco pontos mais
salientes obtidos com o sistema de ateno visual otimizado.