Monografia Qualificacao

Fernando Caruso Olı́vio
Orientador: Paulo Sérgio Silva Rodrigues
Um Modelo Bayesiano com Divergência de

Kullback-Leibler Estendida aplicado a
Sistemas de Realidade Aumentada baseados
em Múltiplas Visões
Monografia apresentada ao Curso de Pós-

graduação em Inteligência Artificial Aplicada à
Automação da FEI, como requisito parcial para
a obtenção do grau de Mestre em Engenharia
Elétrica.
São Bernardo do Campo, SP

21 de Novembro de 2008
Resumo
Neste trabalho, propomos um modelo bayesiano em conjunto com a divergência de Kullback-

Leibler, na forma não-extensiva, para o Reconhecimento Cooperativo de Objetos, aplicado
a um sistema de Realidade Aumentada de Múltiplas Visões. Em nossa abordagem a re-
cuperação de informações para a reconstrução de objetos 3D é feita local e remotamente.
No processamento local, um Integrador de Evidências executa a captura de visões a partir
de diversos pontos de vista de um objeto. Estas visões são enviadas para Observadores,
responsáveis pelo processamento remoto através da aplicação da divergência de Kullback-
Leibler para o “ matching” das caracterı́sticas de cor, forma e textura de objetos. Pela
relação intrı́nseca entre estas caracterı́sticas, utilizamos o classificador bayesiano, capaz de,
simultaneamente, validá-las, gerando uma evidência da ocorrência de um objeto. Estas
validações são reenviadas ao Integrador de Evidências, onde o mesmo modelo de classi-
ficador é utilizado para executar a Fusão entre as evidências calculadas pelos diversos
Observadores, gerando, assim, a probabilidade do objeto observado tratar-se de um objeto
contido na base de dados.
i
Conteúdo
1 Introdução 1
1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Contribuições da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Trabalhos Relacionados 4
2.1 Redes Bayesianas (RB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Entropia e Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . 8
2.3 Realidade Aumentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Reconhecimento Cooperativo de Objetos . . . . . . . . . . . . . . . . . . . 13
3 Conceitos Fundamentais 14
3.1 Teoria de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Teoria de Informação e Entropia . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica . . . . . . . . 20
3.5 Entropia Não-Extensiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6 Medidas de Distância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.1 Medidas Clássicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.2 Modelo Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.3 Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . . . 25
3.6.4 Divergência de Kullback-Leibler estendida . . . . . . . . . . . . . . 26
3.7 Computação Gráfica e Realidade Aumentada . . . . . . . . . . . . . . . . 26
3.7.1 Componentes e dispositivos da Realidade Aumentada . . . . . . . 29
3.7.2 Dispositivos Hápticos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Proposta 38
4.1 Modelo Bayesiano para Recuperação de Informação . . . . . . . . . . . . . 38
4.2 Estrutura Bayesiana Proposta . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Medida de Similaridade Proposta . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Proposta de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
ii
Lista de Figuras
3.1 Grafo de representação de uma BN. . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Representação simplificada do Continuo de Virtualidade, modificado de [Kishino and Milgran, 1994
3.3 Diagrama de funcionamento do OST HMD − Adaptado de [Azuma, 1997]. 29
3.4 OST HMD − Adaptado de [Silva et al., 2004]. . . . . . . . . . . . . . . . . 30
3.5 Modelo experimental de HMD − Adaptado de [Azuma et al., 2001]. . . . . 30
3.6 Modelo HMD do tipo VST − Adaptado de [Silva et al., 2004]. . . . . . . . 31
3.7 Diagrama de funcionamento de RA baseada em monitor − Adaptado de
[Azuma, 1997] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.8 Argos-RA baseada em monitor com uso de óculos estereoscópicos − Adap-
tado de [Azuma, 1997]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.9 Modelo de SPR − adaptado de [Silva et al., 2004]. . . . . . . . . . . . . . . 33
3.10 Diagrama do SPR − adaptado de [Silva et al., 2004]. . . . . . . . . . . . . 33
3.11 Sistemas de RA baseado em projeção − Adaptado de [Rodrigues et al., 2004]. 34
3.12 Projeção usada em procedimentos cirúrgicos − Adaptado de [Rodrigues et al., 2004]. 34
3.13 Aplicação Seep − Adaptado de [Rodrigues et al., 2004]. . . . . . . . . . . . 35
3.14 Técnicas de projeção utilizada para resolver problemas de oclusão entre
objetos reais e virtuais − Adaptado de [Azuma et al., 2001]. . . . . . . . . 35
3.15 Caverna Digital (Cave) − Adaptado de [Pape, 2004]. . . . . . . . . . . . . 36
3.16 Virtual Workbench − Adaptado de [Rodrigues et al., 2004]. . . . . . . . . 36
4.1 Modelo de RB Genérico − Adaptado de [Rodrigues, 2003]. . . . . . . . . . 39

4.2 Modelo de classificador para análise de caracterı́sticas de cor − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Modelo de classificador para análise de caracterı́sticas de forma − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Modelo de classificador para análise de caracterı́sticas de textura − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5 Modelo de classificador para análise conjunta de caracterı́sticas de cor, forma
e textura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Proposta de Arquitetura para um Sistema de RA. . . . . . . . . . . . . . . 43
4.7 Amostra da base de dados Columbia contendo classes de objetos em difer-
entes ângulos − adaptado de [Rodrigues, 2003]. . . . . . . . . . . . . . . . 47
4.8 Cronograma de defesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
iii
Lista de Tabelas
3.1 Tabela comparativa entre a Entropia extensiva e não-extensiva . . . . . . . 23
iv
Capı́tulo 1
Introdução
Atualmente, é cada vez maior a demanda por sistemas de vı́deo conferência. Tais sistemas
podem ser tão simples como os atuais chats ou tão complexos como sistemas imersivos com
dispositivos hápticos que permitam aos participantes uma manipulação em conjunto de de-
talhes de objetos de interesse comum. Geralmente, tais objetos existem fisicamente somente
em um dos nós participantes. A construção destes sistemas demanda a implementação de
várias etapas que envolvem técnicas de visão computacional, geometria computacional,
processamento de imagens e computação gráfica.
Muitas destas aplicações demandam ambientes cooperativos, onde vários usuários, es-
palhados geograficamente, podem trocar informações sobre um objeto localizado em um
único nó. Estes sistemas apresentam ambientes com diversos problemas, tais como: neces-
sidade de melhor interatividade entre os participantes, confiabilidade, facilidade no acesso
das informações transmitidas, entre outros.
A interatividade entre os usuários, às vezes, requer troca em tempo real, de primitivas
gráficas e informações de caracterı́sticas visuais de objetos. Tais sistemas, como um todo,
abrem perspectivas para modelagens estatı́sticas como os modelos bayesianos e redes de
crença, já aplicados com sucesso em sistemas de recuperação de informações na web. Por
outro lado, podem apresentar fenômenos fı́sicos com interações de longa distância tanto
no espaço, quanto no tempo, o que permite também o uso de abordagens como a dos
1
CAPÍTULO 1. INTRODUÇÃO 2
recém estudados sistemas não-extensivos, propostos inicialmente no coração da mecânica

estatı́stica.
Apenas recentemente foram propostos os primeiros modelos para sistemas cooperativos
visando o reconhecimento de objetos, onde constatou-se que, combinações adequadas de
múltiplas visões podem resultar numa melhora de performance da aplicação como um todo.
O trabalho apresentado aqui, propõe a combinação de todas estas idéias, unindo os
modelos estatı́sticos, modelos fı́sicos não-extensivos em um modelo bayesiano para a troca
de informações entre usuários espalhados geograficamente, cooperando para o reconheci-
mento de objetos localizados em um único nó de origem.
No sistema proposto, os usuários estão todos conectados a um nó central que captura
todas as visões do objeto e as transmite ao observadores. Estes, por sua vez, inferem sobre
as visões e transmitem estas informações de volta ao nó de origem, que é, então, capaz
de levantar conclusões mais seguras e acuradas. Quanto mais observadores envolvidos no
processo, maior é o grau de crença com relação às caracterı́sticas do objeto analisado.
Este grau de crença é modelado como a quantidade de informação, supondo o sistema
não-extensivo como um todo.
Esta monografia está divida da seguinte maneira: no capitulo 2 são apresentados tra-
balhos relacionados; no capitulo 3 são fundamentados os principais conceitos que serão
utilizados no decorrer do trabalho; finalmente, no capitulo 4 é apresentada a proposta de
pesquisa.
1.1 Objetivo
Propor um modelo bayesiano utilizando a divergência de Kullback-Leibler para a cons-
trução de um sistema cooperativo centralizado de realidade aumentada para múltiplos
usuários.
CAPÍTULO 1. INTRODUÇÃO 3
1.2 Contribuições da Dissertação

• Estudo de um modelo Bayesiano para reconstrução de objetos 3D a partir de in-
formações 2D;
• Uso da distância de Kullback-Leibler estendida para modelar o grau de crença da

causalidade entre dois eventos.
Capı́tulo 2
Trabalhos Relacionados
Este capı́tulo tem como objetivo organizar e apresentar trabalhos relacionados às técnicas
que serão por nós utilizadas nesta dissertação.
A Seção 2.1 cita trabalhos que contribuem e utilizam métodos e modelos bayesianos
semelhantes aos utilizados por nós; a Seção 2.2 refere-se a trabalhos que utilizam-se de
entropia e, em especial, de medidas de similaridade com foco nas aplicações da divergência
de Kullback-Leibler; na Seção 2.3, apresentaremos algumas pesquisas e aplicações possı́veis
para a Realidade Aumentada (RA); Complementando, na Seção 2.4, são destacados traba-
lhos que embasam-se no Reconhecimento Cooperativo de Objetos (RCO) para recuperação
de informações visuais em imagens.
2.1 Redes Bayesianas (RB)

Na literatura encontram-se diversas abordagens e aplicações para os modelos RB. Uma das
mais comuns é a recuperação de conteúdos baseada no casamento de padrões. De maneira
geral, as técnicas que usam as RBs hoje aplicadas a diversas áreas da ciência, têm origem
em teorias e formalismos matemáticos provenientes da estatı́stica, como será visto na Seção
3.1.
Um dos trabalhos de maior importância é [Ribeiro-Neto and Muntz, 1996b], onde é
4
CAPÍTULO 2. TRABALHOS RELACIONADOS 5
proposto um modelo de rede de crença para a recuperação de informações de textos em

grandes bases de dados. Conceitualmente, as queries (chaves alvo da busca) formuladas
pelo usuário, bem como cada documento, são representados vetorialmente. Então, aplica-
se à RB o cálculo de similaridade entre os diversos vetores, através do método de distância
vetorial (apresentado na Seção 3.6.2). Os resultados obtidos mostraram que o modelo
proposto pode ser visto como uma alternativa a outros métodos de inferência. Além disto,
ainda existem vantagens conceituais, pois o método é intuitivo e abrangente a diversas
aplicações. Também é fato que a abrangência da técnica deve-se à capacidade da mesma
“ moldar-se” a diversos métodos de “ pontuação” (ranking) ou medidas de similaridade
entre os objetos ou coleções sobre as quais se queira inferenciar.
Pela “ flexibilidade” e abrangência apresentadas em [Ribeiro-Neto and Muntz, 1996b], o
mesmo método foi adaptado para que pudesse ser revisitado em outros artigos de mesma au-
toria, como em [Ribeiro-Neto and Muntz, 1996a], onde é feita uma adaptação para o uso em
bancos de dados SQL. A flexibilidade é tema explicitamente citado em [Cristo et al., 2003],
no qual é proposto um modelo para recuperação de informação em páginas da Web, de-
monstrando, também, que a capacidade de agregação de informação provindas de diversas
fontes de dados (contextos) pode trazer ganhos de performance na recuperação de diversos
tipos de informação.
O modelo proposto em [Ribeiro-Neto and Muntz, 1996b] foi novamente utilizado e
adaptado em [Coelho et al., 2004], porém, para o uso em recuperação de imagem com
base em seu conteúdo. Este trabalho indaga o uso dos métodos de buscas de imagens na
web até então implementados. Até aquele momento, as técnicas de buscas, quase em seu
todo, eram macro-associadas e baseavam-se no uso de palavras-chave (“ meta-dados”) das
imagens como informação a priori em seus modelos. Entretanto, na internet, as imagens
são fracamente relacionadas com estes tipos de informação. Assim, atestou-se a inade-
quação desta abordagem e propôs-se uma solução que relacionava tanto a informação das
imagens, quanto as informações do conteúdo HTML. Esta estratégia de recuperação de
informação reforçou os dados propostos em [Cristo et al., 2003], aumentando a precisão
dos resultados entre 50% e 60% em relação aos métodos regulares de extração de dados.
Uma variação deste modelo, foi proposta no trabalho [Rodrigues, 2003] e aplicada
em [Rodrigues et al., 2005], introduzindo uma técnica baseada em RB para casamento de
padrões, recuperação de informações visuais em imagens, inicialização e rastreamento de
objetos em cenas reais para Realidade Aumentada1 . A abordagem adotada inferia simul-
taneamente sobre três contextos principais de informações, sendo eles: a cor, a textura e a
forma. Como resultado, os pesquisadores foram capazes de extrair e utilizar as caracterı́sti-
cas necessárias para fazer as correspondências entre os pontos 2D e 3D, embora, ainda fos-
sem necessárias algumas melhorias no desempenho do Registro de Cena2 , conforme citado
pelos autores. Contudo, os trabalhos de [Rodrigues, 2003] e [Rodrigues et al., 2005], poste-
riormente, inspiraram [Silva, 2006] a aplicar uma abordagem semelhante em sua pesquisa.
Como podemos notar, a abordagem bayesiana é amplamente utilizada não só na re-
cuperação de informação, mas também, como método de apoio em diversos trabalhos
de reconstrução 3D, como no artigo [Oswald and Lev, 2001], onde é proposto o uso de
múltiplos observadores, espacialmente espalhados para o reconhecimento de objetos, in-
troduzindo o conceito de Reconhecimento Cooperativo de Objetos (RCO)3 . Este método
executa a integração das hipóteses individuais geradas a partir de cada ponto de vista,
sobre os quais são aplicados testes estatı́sticos e redes bayesianas para o matching entre os
objetos. Os resultados experimentais apresentados indicam um aumento de robustez no
processo, quando aplicada a RCO em relação aos métodos “ clássicos” de reconhecimento
individual.
A abordagem bayesiana com o uso de múltiplos observadores ou pontos de vista,
também é vista no artigo [Tang et al., 2005], no qual se propôs uma solução de convergência
garantida para reconstrução 3D com uso de múltiplas câmeras. Contudo, diferentemente
de [Oswald and Lev, 2001], os observadores não tinham as hipóteses iniciais, advindas de
um modelo previamente inserido em uma base de dados. Então, para reconstruir um ob-
jeto alvo, são analisadas as correspondências entre as linhas 2D, informadas pelas múltiplas
1
A Realidade Aumentada será apresentada na Seção 3.7.
2
Registro de Cena é um dos requisitos para a RA e seus conceitos serão melhores apresentados na Seção
3.7.
3
Este artigo também é apresentado a seguir, neste capı́tulo, na Seção 2.4.
visões, em um método de projeção ortogonal, chamado Projeção Reconstrutiva. Porém, os

resultados apresentados, embora muito robustos e hábeis a lidar com ruı́dos, mostraram-se
lentos para uso em sistemas de reconstrução em tempo real.
Variações nos métodos bayesianos podem ser utilizadas para melhorar o desempenho
e diminuir a complexidade dos modelos, como visto no trabalho [Jin et al., 2004], onde
foi gerada uma proposta para um sistema utilizando modelos bayesianos em conjunto
com técnicas de segmentação e clusterização com restrições semânticas. Esta abordagem
possibilitou a classificação de um grande número de imagens automaticamente. Nos re-
sultados, foram apresentados dados que justificaram o uso das RBs em relação a outras
técnicas, como por exemplo, o SVM probabilı́stico. Outro ponto importante são os re-
sultados da comparação entre os modelos bayesianos naı̈ve-bayes (NB) e semi-naı̈ve-bayes
(SNB). Nesta comparação, foi mostrado que o modelo SNB tem melhor performance, mas
requer um poder computacional muito maior que a abordagem NB. Isto deve-se ao maior
número de análises feitas no cluster pela SNB, em comparação com NB.
As RBs também mostraram-se adequadas em [Thornton et al., 2007], no qual é descrita
um procedimento para o reconhecimento de padrões em casos onde existam deformações
não-lineares, que ocorrem, por exemplo, na análise de ı́ris ou escrita manual. O obje-
tivo principal da pesquisa era extrair a transformação mais aproximada, “ possivelmente
não-linear”, entre duas imagens para definir se elas participavam de uma mesma classe.
Os resultados mostraram que existem vantagens em utilizar um modelo bayesiano para
a geração de um matching mais preciso, tolerante a distorções e deformações. Por fim,
mostrou-se que a técnica não despende alto custo computacional, o que permitiria, inclu-
sive, seu uso em sistemas em tempo real.
A utilidade das RBs pode ser vista em outras sub-áreas do processamento de imagens,
como a segmentação. Conforme descrito em [Yong-li et al., 2007], para segmentar os se-
dimentos em imagens médicas, um classificador bayesiano foi aplicado em conjunto com
morfologia matemática, corrosão e expansão, resultando no aumento da precisão de todo
o processo, mesmo envolvendo amostras de imagens médicas ruidosas.
Ainda como agregador de desempenho, podemos citar [Li et al., 2003], onde, visando
a extração das caracterı́sticas de background e foreground, foi apresentado um modelo de

classificador bayesiano capaz de separar objetos em imagens em movimento (como galhos
de árvores balançando, superfı́cies de lı́quidos, etc).
Nesta monografia, utilizaremos o modelo bayesiano proposto por [Rodrigues, 2003] e
[Rodrigues et al., 2005]. No entanto, o diferencial principal da técnica por nós apresentada
é que as probabilidades a priori do modelo serão calculadas com base na divergência de
Kullback-Leibler estendida. Assim, introduzimos o nome de Redes Bayesianas Entrópicas,
ou, Entropia Bayesiana(RBE).
2.2 Entropia e Divergência de Kullback-Leibler

Desde de os estudos de Rudolf Julius Emanuel Clausius, no Séc. XIX, a Entropia tem
despertado o interesse de diversos ramos da Ciência. É fato que ela encontra cada vez mais
aplicações fora da Mecânica Estatı́stica. Uma das áreas onde seu emprego é realmente
vasto é a Ciência da Computação, em especial, no processamento de imagens digitais e
visão computacional.
As formulações de Boltzmann-Gibbs, foram de encontro com as necessidades da me-
dida quantitativa de informação proposta por Shannon em [Shannon, 1948]. Este trabalho
fundamentou e introduziu o uso da entropia para sistemas de informação e Ciências da
Computação, gerando uma nova área de pesquisa, cujo o nome é Teoria da Informação.
No teor desta publicação, Shannon propôs um modelo para sistemas de comunicação uti-
lizando a entropia como ferramenta para estimar a quantidade máxima de informação que
poderia ser transmitida por um determinado canal.
O livro [Gonzalez and Woods, 2003] sintetiza os conceitos criados por Shannon, bem
como, faz um paralelo entre as proposições contidas em [Shannon, 1948] e seus possı́veis
usos para análise de imagens, como por exemplo, nos casos onde é necessária a compressão
e segmentação.
Alguns dos conceitos demonstrados em [Shannon, 1948], foram utilizados por [Kullback and Leibler, 195
com a finalidade de gerar uma forma de medir o que os próprios autores denominaram
como “ distância” ou “ divergência” entre duas populações estatı́sticas. Este trabalho foi
um marco, pois, de certo modo, disseminou ainda mais os conceitos da entropia, sendo
que seu uso é amplamente encontrado e citado na literatura. Em nosso trabalho, este
método, conhecido como Divergência de Kullback-Leibler4 , é o discriminante fundamental
entre distribuições de mesmo contexto.
A divergência de Kullback-Leibler é encontrada em vários trabalhos, como é o caso
de [Vasconcelos et al., 2004], onde esta abordagem foi utilizada em conjunto com outros
métodos estatı́sticos para que fosse realizado o reconhecimento visual de imagens. As
pesquisas dispostas nesta publicação indicaram que a melhor performance, dentro de todos
os métodos descriminantes analisados, foi a do classificador baseado em Kullback-Leibler.
Embora as formulações de Boltzmann-Gibbs e, por conseqüência, Shannon, tenham
obtido relativo sucesso em diversas aplicações, ainda existem alguns fenômenos que esta
técnica é incapaz de modelar. Então, por volta da segunda metade da década de 1980,
Constantino Tsallis, em seu trabalho [Tsallis, 1988], introduziu um modelo estendido dos
conceitos de Entropia, fundamentando o que viria a ser conhecido como Entropia de Tsallis
ou Entropia Não-Extensiva5 . De maneira geral, os modelos anteriores à proposição de Tsal-
lis não eram aptos a modelar sistemas, como por exemplo, os tratados em [Bolzan et al., 2004],
[Beck, 2002] e [Taruya and Sakagami, 2002].
A Entropia de Tsallis também foi um dos focos das pesquisa realizadas em [Tavares, 2003].
Através de uma análise, do ponto de vista matemático, são expostas as propriedades e axi-
omas dos diversos métodos relativos à entropia, em suas diferentes variações e aplicações.
Este trabalho teve grande importância em nossas pesquisas, pois, por seu conteúdo es-
tritamente matemático, nos permitiu fundamentar e sedimentar os conceitos relativos à
Entropia e sua aplicação na Divergência de Kullback-Leibler.
Uma comparação entre os métodos extensivos de Shannon [Shannon, 1948] e não-
extensivos de Tsallis [Tsallis, 1988] é feita em [Martin et al., 2004] para o registro de ima-
4
A definição formal da equação e dos conceitos relativos a Divergência de Kullback-Leibler encontram-se
na Seção 3.6.3
5
Os conceitos envolvendo a Entropia não-extensiva e sua relação com a Entropia clássica serão apre-
sentados e discutidos nas Seções 3.5 e 3.4.
gens. Para isso, foi proposta uma contraposição entre os métodos Kullback-Leibler em sua
forma clássica e não-extensı́va6 . A pesquisa também utilizou as duas formas de divergência
em conjunto com uma perturbação estocástica. Os resultados demonstraram uma redução
significativa do número de iterações e ganhos na precisão do registro pela utilização da
abordagem não-extensiva.
De fato, segundo as pesquisas realizadas em [Esquef, 2002], existe um fator de não-
extensividade em imagens. Intrinsecamente, esta relação faz a técnica pertinente à aplicação
em reconhecimento de padrões, o que, justifica melhor desempenho nos processos basea-
dos na abordagem não-extensiva. O autor analisou diversos métodos de reconhecimento
de padrão e segmentação, de forma que os resultados que mostraram melhor performance
foram aqueles onde empregou-se o parâmetro q de não-extensividade proposto por Tsallis.
Neste trabalho, os conceitos relacionados à Entropia, nas formas clássica e não-extensı́va,
estão estritamente ligados ao casamento de padrões. Nesta monografia, utilizaremos a
Divergência de Kullback-Leibler estendida para executar o processo de “ matching” de
caracterı́sticas como a cor, a forma e a textura de imagens.
2.3 Realidade Aumentada

Por sua alta versatilidade e potencial de aplicação, atualmente, a Realidade Aumentada
(RA) vem sendo utilizada como ferramenta importantı́ssima por diversos setores do co-
nhecimento e da manufatura, abrangendo desde a indústria aéreo-naval, passando pelo
entretenimento e educação, e até mesmo, no auxı́lio a delicados procedimentos cirúrgicos
[Azuma, 1997] [Silva et al., 2004].
A RA encotrou espaço também nas pesquisas da área de aviação militar, onde disposi-
tivos montados nos capacetes dos pilotos permitem acesso imediato às informações sobre
os terrenos, onde mapas e dados podem ser projetados sobre as imagens da paisagem real.
Desta forma, os pilotos podem continuar a controlar o avião olhando para o horizonte e,
6
A apresentação da Divergência de Kullback-Leibler na forma não-extensiva é apresentada na Seção
3.5 e pode ser realizada conforme visto em [Esquef, 2002] e [Barão, 2003].
caso ocorra a detecção de um alvo, o sistema pode realçar e sinalizar sua posição, alertando
o piloto e permitindo uma melhor reação [Azuma, 1997] [Silva et al., 2004].
Na engenharia, diversas aplicações são possı́veis, uma vez que, com sistemas de RA,
instruções sobre a manutenção e montagem de dispositivos complexos podem ser passadas
para um técnico de forma visual e simplificada. Este conceito foi usado pela equipe de
pesquisa da Boeing, onde seus técnicos são treinados e auxiliados na manutenção dos
sistemas elétricos das suas aeronaves, reduzindo assim custos e melhorando processos
[Azuma, 1997]. Também são possı́veis tarefas de visualização e pesquisa, tendo em vista
que a tecnologia permite visualizar todos os ângulos e perspectivas possı́veis, melhorando
e corrigindo aspectos de novos produtos ainda em desenvolvimento [Silva et al., 2004].
Na educação, é possı́vel aplicar informações contextuais e históricas sobre localidades
e objetos que estejam sendo estudados. A RA também pode ser utilizada conjuntamente
com mı́dias tradicionais, como os livros. Nos trabalhos [Dünser and Hornecker, 2007a],
[Dünser and Hornecker, 2007b] e [Grasset et al., 2007], é usado um aplicativo chamado
MagicBook que permite aos leitores desfrutar de uma leitura convencional, ou, através
da RA, ter um experiência multimı́dia, diretamente das páginas de seus livros.
Na indústria do entretenimento, videogames elevam o grau da experiência do jogador,
através da mescla entre objetos virtuais e o mundo real. Isto esta sendo feito pela Sony
Computer Entertainment com The Eye of The Judgment 7 , que é um jogo de cartas, onde,
uma vez identificadas as cartas que os usuários colocam sobre a mesa, o sistema exibe
as informações, ı́tens ou personagens a elas relativas e os torna manipuláveis dentro da
aplicação.
Ainda no ramo de entretenimento, diversas companhias atualmente utilizam a RA
para adicionar propaganda e outros recursos a suas transmissões [[Azuma et al., 2001],
[Netto et al., 2002]].
Uma outra área com vasto potencial de aplicações é a medicina, como visto em [Morris et al., 2004],
no qual otologistas são capazes de simular procedimentos de reconstruções cranianas, us-
7
Informações retiradas do endereço http : //www.us.playstation.com/P S3/Games/T HE EY E OF JU DGM EN T ,
em Outubro de 2008
ando RA e dispositivos hápticos. Neste sistema foi criado um mecanismo capaz de ren-
derizar e calcular os volumes da região da têmpora humana, melhorando os procedimentos
e minimizando riscos. De forma geral, com a RA é possı́vel planejar e executar com maior
eficiência diversos procedimentos cirúrgicos. Valendo-se de técnicas como a projeção, dis-
positivos do tipo Video-See-Through8 (VST) ou Optical-See-Through9 (OST), médicos po-
dem ser guiados em procedimentos complexos, como a remoção de um câncer ou a recon-
strução de tecidos. Os sistemas podem ser aplicados para ajudar a delimitar exatamente
uma área a ser removida (em caso de câncer), através da injeção de ı́tens ou recursos de
RA, minimizando as seqüelas e o tempo de recuperação dos pacientes.
Dentre diversos trabalhos realizados na área de pesquisa da RA, destaca-se o [Kato and Billinghurst, 199
onde foi apresentado um sistema de conferência com RA, capaz de sobrepor imagens vir-
tuais em objetos reais. A aplicação demonstrada é baseada no uso de marcadores fiduci-
ais (fiducial tags), que são caracteres ou desenhos com geometria única e conhecida pelo
sistema. O conhecimento a priori destas geometrias permitem à aplicação inferenciar in-
formações como distância, ângulo de inclinação, direção e rotação. Contudo, como citado
em [Silva, 2006], o uso destes marcadores pode limitar a abrangência de aplicações, pois os
mesmos demonstraram-se ineficientes ou inadequados para lidar com problemas de oclusão
e o uso em ambientes externos. Em contrapartida às sua limitações técnicas, a abordagem
apresentada em [Kato and Billinghurst, 1999] tem curva de aprendizado relativamente pe-
quena e é de simples implementação, o que levou à criação do ARToolkit que é uma bibli-
oteca para desenvolvimento de aplicativos de RA, amplamente citada e utilizada em ou-
tros trabalhos como [Billinghurst et al., 2002], [Silva et al., 2004], [Rodrigues et al., 2004]
e [Silva, 2006].
8
Mais informações sobre VST podem ser encontradas na Seção 3.7.1
9
Mais informações sobre OST podem ser encontradas na Seção 3.7.1
2.4 Reconhecimento Cooperativo de Objetos

O processo conhecido como registro é crucial em uma aplicação de RA. Executá-lo de
forma eficiente depende do reconhecimento dos marcadores, que podem ser artificiais ou
objetos naturais já inseridos na cena. Em nosso trabalho, para o processo de registro,
empregaremos objetos reais como marcadores, utilizando suas caracterı́sticas de cor, forma
e textura para o reconhecimento. Assim, como já definido anteriormente, a técnica de
reconhecimento deve ser o mais robusta possı́vel, sendo que deste processo depende todo
o funcionamento da aplicação.
O trabalho [Oswald and Lev, 2001], como já citado na Seção 2.1, introduziu o método
de Reconhecimento Cooperativo de Objetos (RCO), através do uso de múltiplas visões
ou pontos de vista de um mesmo objeto. O princı́pio conceitual deste trabalho é intui-
tivamente baseado na alegação feita em [Weiss and Ray, 2001], de que sempre há perdas
de informações, como volume ou profundidade, quando tentamos utilizar projeções de um
objeto 3D em uma imagem 2D. Assim, também é intuitivo que inferir sobre diversas faces
de um mesmo objeto pode apresentar resultados mais acertivos e acurados. Apresentou-se
em [Oswald and Lev, 2001], a proposição de que o maior número de observadores pode
complementar e aumentar a eficiência em detectar evidências para identificação de um
objeto. Então, modelou-se uma rede de crença bayesiana, capaz de integrar e propagar es-
tatı́sticamente as múltiplas hipóteses adquiridas, onde a inferência individual de cada ponto
de observação influência o modelo como um todo. Contudo, é possı́vel que informações in-
corretas se propaguem pelos nós da RB, terminando o proceso de reconhecimento erronea-
mente. Este efeitos são indesejados, para tanto, foi proposta uma equação que previne
erros de interpretações, minimizando as disparidades causadas por evidências isoladas. Os
resultados apresentados mostraram que o aumento no número de observadores causa não
só o aumento de precisão, como também melhora na performance e velocidade da busca.
Capı́tulo 3
Conceitos Fundamentais
3.1 Teoria de Bayes

As teorias desenvolvidas pelo matemático e reverendo Thomas Bayes no século XVIII,
propunham o corolário da probabilidade conjunta (ou total), com o qual é possı́vel calcular
a probabilidade da ocorrência de uma hipótese(H), dado o conhecimento sobre o acontec-
imento de um evento(E). Estas relações, postumamente publicadas [Green et al., 2001],
ficaram conhecidas como a lei, regra ou teorema de Bayes e são definidas pela seguinte
Equação:
P (E|H) × P (H)
P (H|E) = (3.1)
P (E)
, onde lê-se probabilidade de uma hipótese H dado que um evento E ocorreu com certo
grau de certeza.
Atualmente, há um grande interesse no uso da teoria de Bayes em diversas aplicações,
e um dos motivos advém da capacidade proporcionada pela técnica para solucionar e
inferir sobre problemas, usando a teoria de probabilidades como lógica [NAS, 2001]. Isto,
contrapõe-se de maneira vantajosa ao uso da lógica convencional, pois, sistemas baseados
nesta última, normalmente lidam apenas com problemas totalmente conhecidos e conside-
ram apenas interações de causa e efeito, desprezando as intensidades das relações entre os
dados, ou informações manipuladas.
14
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 15
Seguindo a questão do relacionamento e das causalidades entre os dados, a teoria

bayesiana pode ser estendida permitindo-nos quantificar a intensidade dos relacionamentos
entre diversos eventos, direta ou indiretamente relacionados. Para tanto, criou-se as redes
bayesianas, discutidas na próxima seção.
3.2 Redes Bayesianas

A teoria de Bayes é base para o estudo de Redes Bayesianas (RB), que é usada princi-
palmente para o estudo de problemas que não podem ser resolvidos apenas com a relação
de uma única evidência e uma única hipótese. A idéia da RB é criar representações cau-
sais, modelos próximos da realidade, intuitivamente ligados ao raciocı́nio lógico utilizado
por seres humanos para resolver problemas complexos e com diversa gama de hipóteses.
Esta similaridade entre os modelos, a realidade e a forma humana de inferência é um fator
vantajoso da abordagem, pois existe maior facilidade na extração e aproveitamento dos
conhecimentos de um especialista.
Formalmente, uma RB é uma representação gráfica das intensidades das correlações
entre eventos probabilı́sticos. Utilizando o conceito de grafos, uma rede é formada por nós,
os quais representam eventos e arcos direcionados, que representam suas dependências.
Este conjunto (nós-arcos) deve gerar um grafo direcionado, acı́clico e finito. Por outro
lado, a representação numérica das intensidades das dependências entre eventos, é definida
por tabelas de probabilidade conjunta (TPC). Estas contêm os valores das probabilidades
relacionadas às ocorrências de cada um dos eventos. Um exemplo de RB é apresentado
pela Figura 3.1.
Figura 3.1: Grafo de representação de uma BN.
O grafo da Figura 3.1 representa a distribuição conjunta do conjunto das variáveis

{E0 , E1 , E2 , E3 , E4 , E5 , E6 }, com valores respectivamente definidos por {e0 , e1 , e2 , e3 , e4 , e5 , e6 }.
Para esta representação especı́fica, temos E0 como nó pai, ou raiz, o qual tem como filhos
E1 e E2 . A probabilidade de P (E0 ), do nó E0 é definida como probabilidade a priori, pois
sua ocorrência é o evento conhecido deste modelo. Agora, seguindo a orientação do grafo,
encontramos os eventos E1 e E2 , os quais são independentes entre si, porém, suas proba-
bilidades dependem de E0 . Ainda, analisando E1 e E2 , o primeiro é pai da folha (nós sem
filhos) E3 e do nó E4 e o segundo é pai de E4 e da folha E5 . Isto implica que P (E4 ) depende
tanto da P (E1 ), quanto de P (E2 ), sendo os valores dos outros nós dependentes apenas de
seus respectivos pais. Sucessivamente dentro do encadeamento do grafo, encontraremos a
folha E6 , filha e dependente do nó E4 . Assim, devido às relações entre os eventos, o cálculo
da distribuição conjunta de probabilidades do modelo é definida pela Equação 3.2.
P (E0 , E1 , E2 , E3 , E4 , E5 , E6 ) = P (E0 )P (E2 |E0 )P (E1 |E0 )P (E2 |E1 )P (E4 |E1 , E2 )P (E5 |E2 )P (E6 |E4 )
(3.2)
Neste trabalho, as RB são o ponto-chave, uma vez que serão utilizadas para modelar a
visão de múltiplos usuários no processo de recuperação de informação.
3.3 Entropia
Por volta da metade do Século XIX, em plena revolução industrial, o fı́sico e matemático
alemão Rudolf Julius Emanuel Clausius (1822-1888), idealizou uma equação para quan-
tificar as perdas inerentes à transformação de uma forma de energia em outra. O objetivo
de sua análise era calcular a transformação da energia térmica em mecânica, relacionada
à quantidade de trabalho que uma máquina a vapor era capaz de produzir. Este estudo
estabeleceu a segunda lei da termodinâmica e o conceito de Entropia.
Segundo [Çengel, 1997], Entropia é um conceito e não uma grandeza, cujo interesse dá-
se pela observância da variação de seus valores ao longo do tempo, que é válida apenas para
análise de um processo definido. Desta forma, embora a Entropia tenha sido formalmente
definida, trata-se de um conceito intuitivo, que deve ser avaliado conforme o contexto
de sua aplicação. Por exemplo, na termodinâmica, como visto no inı́cio desta seção, a
Entropia é um processo utilizado para medir o trabalho de um sistema para transformação
de energia; na fı́sica, é usada para medir a desordem de uma distribuição e na Teoria da
Informação, ela é utilizada como medida quantitativa de informação transmitida em um
canal, conforme será visto na Seção 3.4. Nesta dissertação estamos interessados no conceito
de Entropia como medida de informação.
Do ponto de vista termodinâmico, a variação da Entropia pode ser definida pela
Equação (3.3), que, com adequações ao contexto da aplicação, é largamente aplicada em
diversos ramos do conhecimento, abrangendo desde a fı́sica até a sociologia.
4Q
4S = , (3.3)
T
onde 4S, representa a variação da Entropia em relação à variação de calor 4Q em um
sistema com temperatura constante T .
Como descrito em [Çengel, 1997], a Entropia pode ser entendida como uma medida da
desordem ou aleatoriedade em nı́vel molecular. Conceitualmente, a afirmação que rela-

ciona a análise em termos de moléculas à Entropia é creditada a Ludwig Boltzmann, que,
em 1877, sugeriu a Entropia em estados microscópicos e macroscópicos. Os eventos mi-
croscópicos tratam da análise de microestados em nı́vel molecular do sistema. Por outro
lado, a Entropia dos estados macroscópicos é diretamente relacionada à energia interna,
pressão e temperatura, ditos parâmetros termodinâmicos. Estas observações fundamen-
taram a Equação (3.4)
S ∝ log Ω (3.4)
onde, segundo [Tavares, 2003], Boltzmann observou que, em um sistema fechado, existe
uma proporção direta entre a Entropia S e volume ocupado pelo estado macroscópico
Ω. Posteriormente, esta Equação (3.4) passou a ser descrita como a Equação (3.5), onde
surge a constante k, ou constante de Boltzmann. Embora a Equação (3.5) seja atribuı́da
a Boltzmann, a mesma foi publicada apenas 1906, uma ano após sua morte.
S = k ln W. (3.5)
Formalmente, na Equação (3.5), k ∈ R+ e W é o número de estados microscópicos do

sistema em relação ao macroestado analisado.
Baseado nos estudos de Boltzmann, Willard Gibbs criou uma forma mais generalizada
da Entropia para analisar a movimentação, segundo as leis da mecânica, de corpos com
complexidade arbitrária, resultando na Equação (3.6).
W
X
S = −k pi ln pi . (3.6)
i=0
Assim, seguindo as formulações (3.4) e (3.5), na Equação (3.6), apresentada por Gibbs,
W é o número total de microestados e pi , é a probabilidade do sistema estar no estado ωi .
Estes conceitos ficaram por quase um século e meio restritos à área termodinâmica,
porém, com o artigo “ The Mathematical Theory of Communication” de 1948, Claude
Shannon propôs um modelo para medição quantitativa e probabilı́stica da informação,
baseado em Entropia. Apresentaremos a Entropia do ponto de vista da teoria de Shannon

na Seção 3.4, a seguir.
3.4 Teoria de Informação e Entropia

Assim como Rudolf Claussius queria melhorar o desempenho das máquinas à vapor, Claude
E. Shannon, motivado pela criação de novos meios de comunicação, como o telefone e o
telegráfo, percebeu que seria necessário entender as leis que regem estes sistemas e encon-
trar uma forma de maximizar a capacidade do envio de informação e reduzir os problemas
ligados ao ruı́do e às caracterı́sticas fı́sicas especı́ficas dos meios ou canais de comunicação.
Então, em 1948, publicou um trabalho intitulado “ A Mathematical Theory of Commu-
nication” [Shannon, 1948], no qual objetivava solucionar, o que para ele era o problema
central da Teoria da Informação: “ reproduzir em um ponto, exata ou aproximadamente,
a mensagem selecionada em outro ponto”.
De forma geral, Shannon também criou um modelo para um sistema de comunicação
e relacionou seus componentes de maneira matemática e probabilı́stica, propondo uma
forma quantitativa para medir a informação fornecida por uma mensagem. Esta medição
é baseada na probabilidade da ocorrência da mensagem selecionada. Contudo, existe uma
razão inversa entre a probabilidade da ocorrência da mensagem e a quantidade de in-
formação nela contida. Assim, quanto maior a probabilidade da ocorrência de uma men-
sagem, menor a quantidade de “ informação própria” que ela carrega, sendo o inverso
também verdadeiro.
Intuitivamente, a Entropia está relacionada ao grau de desordem em um sistema fechado.
Assim, em uma “ fonte de informação ”, quanto maior a equiprobabilidade da ocorrência
de mensagens, mais desordenada estará a transmissão e, conseqüentemente, maior será sua
Entropia. Verificando este fato, John von Neumann sugeriu à Shannon o uso da mesma
função matemática da termodinâmica definida Boltzman e Gibbs.
Sendo assim, Shannon propôs o seguinte formalismo para o cálculo da Entropia (quan-
tidade de informação de uma fonte): Seja P = {p1 , p2 , ...., pn }, uma distribuição conjunta
de probabilidade de um sistema fı́sico, onde pi é a probabilidade do sistema estar no estado

i; o número de estados possı́veis é n. Logo, a entropia do sistema é:
n
X
S=− pi ln pi . (3.7)
i=0
A formulação de Shannon foi um marco para a Teoria da Informação e influenciou

muitas outras teorias, principalmente na Ciência da Computação, onde é, desde então,
usada em larga escala em diversas aplicações como: casamento de padrões, transmissão de
redes, processamento de sinais e visão computacional.
Nesta dissertação introduzimos o uso da entropia para o cálculo da probabilidade de
um objeto possuindo caracterı́sticas de cor, forma e textura, ser encontrado em uma cena
real, em uma aplicação de reconstrução tridimensional do ponto de vista bayesiano. Sendo
assim, reiteramos o termo “ Entropia Bayesiana”.
3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica
É fato que o formalismo proposto por Shannon, embora utilizado principalmente na Teoria
da Comunicação, está intrinsecamente ligado ao conceito fı́sico e à abordagem tomada para
a medição do nı́vel de caos em um sistema. Então, podemos exemplificar a Equação (3.7)
tomando como exemplo um sistema fechado, com 36 estados possı́veis, os quais têm chances
equiprováveis de possuir uma das moléculas de um gás qualquer que esteja encerrado no
sistema. Desta maneira, podemos entender que pela aplicação dos conceitos de Boltzmann
e Gibbs, terı́amos 36 microestados possı́veis para o sistema, o que confere W = 36. Isto,
dado a equiprobabilidade dos estados, nos permite afirmar que o sistema encontra-se em
Máxima Entropia. Assim, utilizando uma simples equação estatı́stica, é possı́vel verificar
1
que as chances de uma molécula i estar em um estado qualquer é de 36
. Esta probabilidade
é representada por P (i) e definida por:
ni
P (i) = , (3.8)
W
onde ni é a quantidade de moléculas em um estado e W é o número total de estados.

Aplicado-se a idéia de equiprobabilidade em 36 microestados à Equação 3.7, temos:
1
p1 = p2 = p3 = . . . = p36 = (3.9)
36
S = −[(p1 ln p1 ) + (p2 ln p2 ) + (p3 ln p3 ) + . . . + (p36 ln p36 )] (3.10)

1 1 1 1 1 1 1 1
S = −[( ln ) + ( ln ) + ( ln ) + . . . + ( ln )]
36 36 36 36 36 36 36 36
1 1
S = −(36 · ln )
36 36
1
S = −(ln )
36
S = −(−(ln 36−1 ))
S = −(−1 ln 36)
S = ln 36
S > 0,
o que mostra que, no estado de equiprobabilidade, a entropia máxima pode ser calculada
como o logaritmo do número total de estados possı́veis (Equação (3.11)).
S = ln W. (3.11)
Por outro lado, no caso alta concentração de moléculas em um único estado e baixa
concentração nos demais, diz-se que o sistema encontra-se em desequilibrio. Assim, para
os estados com baixa concentração temos:
p1 = p2 = p3 = . . . = pW ' 0 (3.12)
e para o estado de alta concentração pj ' 1. Sendo assim, aplicando a Equação (3.8) à
Equação 3.7, proposta por Shannon, temos:
S = −[(0 ln 0) + (0 ln 0) + (0 ln 0) + . . . + (1 ln 1)] (3.13)
S = −0 + 0 + 0 + . . . + 0
S = −0 + 0 + 0 + . . . + 0.
S = 0.
Nesse caso, todos os termos de S são iguais a zero, o que indica que, em caso de alta
concetração, a entropia é próxima de zero. O que corresponde ao sistema com entropia
mı́nima, ou, maior organização (menos caos).
3.5 Entropia Não-Extensiva

Embora a Entropia de Boltzmann/Gibbs/Shannon e seus conceitos tenham extrapolado
com sucesso as áreas de interesse da termodinâmica, percebeu-se que as formulações e
os modelos propostos por Boltzmann e Gibbs não explicavam adequadamente alguns
fenômenos fı́sicos. Estes problemas ocorrem em sistemas nos quais não é respeitado o
Princı́pio da Aditividade (Equação 3.14), o qual prevê que a soma das entropias de n
subsistemas independentes, seja igual a entropia total do sistema que os contém. Assim,
supondo duas distribuições de probabilidade A e B. Para os sistemas clássicos, o princı́pio
da adtividade nos diz que:
S(A ⊕ B) = SA + SB , (3.14)
onde SA representa a entropia do sistema A e SB a entropia do sistema B.

Objetivando criar um método adequado a equacionar problemas envolvendo sistemas
não-extensivos, na metade da década de 1980, Constantino Tsallis, em seu trabalho [Tsallis, 1988],
propôs uma maneira de generalizar a Entropia, conforme citam [Tavares, 2003] e [Esquef, 2002].
As formulações sobre a mecânica estatı́stica introduzidas por Tsallis ficaram conhecidas
como “ Estatı́stica de Tsallis” ou “ Entropia de Tsallis”, sendo definidas por:
1− W q
P
i=1 pi
Sq = k , (3.15)
q−1
onde k é uma constate positiva, q ∈ R é conhecido como parâmetro entrópico e W rep-

resenta o número total de microestados do sistema. Contudo, a Equação (3.15) pode ser
reduzida à formulação original da Entropia apresentada por Shannon (Equação 3.6), no
limite q → 1.
Em relação à aditividade e seu comportamento em sistemas não-extensivos, Tsallis
introduziu o conceito Pseudo-Aditividade, iniciando o uso do parâmetro q para o cálculo
da entropia total do sistema, ficando esta representada por:
S(A ⊕ B) = SA + SB + (1 − q) · (SA + SB ). (3.16)
Notemos, que esta equação pode ser reduzida à Equação (3.14), no caso limite, em q → 1.
Segundo [Tsallis, 1988], os sistemas não-extensivos partilham as seguintes caracterı́sticas:
• Longo Alcance Espacial
• Longo Alcance Temporal
• Comportamento Fractal
• Pseudo aditividade
A Tabela 3.1 mostra um paralelo entre a teoria de Tsallis, apresentada nesta seção e as
teorias de Boltzmann/Gibbs/Shannon mostradas na Seção 3.4.
Extensivo (Shannon) Não-Extensivo (Tsallis)

q
1− ω
P
i=1 pi
S = − ni=0 pi ln pi
P
Sq = k q−1
Aditividade Pseudo-Aditividade
S(A ⊕ B) = SA + SB S(A ⊕ B) = SA + SB + (1 − q) · (SA + SB )
Tabela 3.1: Tabela comparativa entre a Entropia extensiva e não-extensiva

Neste trabalho utilizaremos a entropia não-extensı́va para calcular o grau de crença de

um objeto Oi ser igual a um objeto Oj , dentro da medida da divêrgencia de Kullback-
Leibler, como será explicado na Seção seguinte.
3.6 Medidas de Distância

Nesta seção reunimos algumas das abordagens mais utilizadas para medidas de distância.
Ao utilizar o termo “ distância”, referimo-nos a medidas de similaridade ou divergência
entre distribuições A = [a1 , a2 , a3 , . . . , an ] e B = [b1 , b2 , b3 , . . . , bn ] de tamanho n ou objetos
observados.
3.6.1 Medidas Clássicas
É comum encontrarmos a utilização de medidas de distância baseadas na comparação entre

duas distribuições de tamanho n. Uma das técnicas mais conhecidas para esta aplicação é a
distância de Minkowiski (Equação (3.17)) que, ao utilizar-se de um parâmetro de ajuste m,
pode tanto calcular a distância de Manhattan, quanto a convencional distância Euclidiana.
" n
# m1
X
Dm = |A(i) − B(i)|m , (3.17)
i=1
onde, m é o parâmetro de ajuste; se m = 1, então a Equação (3.17) calculará a distância

Eclidiana; se m = 2, a Equação (3.17) resultará na distância de Manhattan.
3.6.2 Modelo Vetorial
As diferenças entre duas distribuições também podem ser calculadas através do modelo
vetorial, que compreenda um espaço n-dimensional. Segundo [Rodrigues, 2003], a similari-
dade entre os vetores pode ser calculada pelo cosseno interno do ângulo por eles delimitado.
Assim, temos a Equação:

Pn
i=1 ai × bi
D(A|B) = pPn 2
pPn
2
. (3.18)
i=1 ai + i=1 bi
3.6.3 Divergência de Kullback-Leibler
Em 1951, Solomon Kullback (1907-1994) e Richard A. Leibler (1914-2003) apresentaram

um novo conceito para medir as divergências entre duas distribuições probabilı́sticas aleatórias
denominada Entropia Relativa, representada pela Equação 3.19, a seguir:
n
˙ ai ,
X
D(A|B) = ai log (3.19)
i=1
bi
onde A e B representam as distribuições de probabilidades discretas, variando de 1 até n.

Por derivar das formulações de Boltzmann e Gibbs, a Entropia Relativa deve apresentar
sempre resultados positivos, sendo estes iguais a zero apenas se a = b, ou ainda, segundo
[Esquef, 2002] e [Cabella et al., 2008], se a → 0, o que convenciona D(0|B) = 0. Por outro
lado, utilizando uma convenção, se b → 0, então D(A|0) = 0.
A Entropia Relativa também é conhecida, entre outras denominações, como “ distância
de Kullback-Leibler”, porém, o conceito de “ distância”, embora amplamente difundido,
não é aplicável, pois, diferentemente do entendimento convencional de distância, a di-
vergência entre duas distribuições é assimétrica, sendo D(A, B) diferente de D(B, A).
Sendo assim, foram propostas diversas formas para transformar a Entropia Relativa
em uma métrica que contorne a questão da assimetria, conforme mostrado por exem-
plo em [Johnson and Sinamovic, 2001]. Porém, utilizaremos a abordagem apresentada em
[Esquef, 2002], definida pela Equação (3.20), na forma:
DKL (A|B) = D(A|B) + D(B|A), (3.20)
onde DKL ∈ R+ , D(A|B) é a divergência entre a distribuição A para a distribuição B e

D(B|A) representa a divergência entre a distribuição B para a distribuição A.
3.6.4 Divergência de Kullback-Leibler estendida
Analogamente às proposições apresentadas na Seção 3.5, a não-extensividade é aplicável

à divergência de Kullback-Leibler. Desta forma, é necessário o emprego do parâmetro
não-extensivo q, conforme apresentado em [Esquef, 2002], o que resulta na Equação (3.21)
X aq
DKLq (A|B) = i
· (ai1−q − b1−q
i ). (3.21)
i
1−q
Este método é particularmente útil para aplicações que envolvam casamento de padrões.
Desta forma, seguindo a abordagem probabilı́stica apresentada em [Barão, 2003], a En-
tropia Relativa permite quantificar o grau de certeza sobre a ocorrência de distribuição A,
dada a verificação da ocorrência de uma outra distribuição B, arbitrária.
3.7 Computação Gráfica e Realidade Aumentada

A área da Visão Computacional (VC) é intrinsecamente ligada a diversas outras áreas da
Ciência da Computação, sendo que, uma das suas maiores relações é com a Computação
Gráfica (CG). Desde simples jogos de computador ou celular a aplicações militares, a CG
tornou-se ferramenta indispensável. Isto deve-se à forma de como assimilamos e usufruı́mos
melhor informações visuais, em detrimento de informações textuais e, é claro, à possibili-
dade de simular ambientes e situações reais de maneira segura e com custos particularmente
baixos.
Com o desenvolvimento e aumento do poder computacional, foi possı́vel criar ambientes
com dinâmicas e proporções fı́sicas de forma totalmente simulada. A esta técnica deu-se o
nome de Realidade Virtual (RV). Este nome foi primeiramente utilizado por Jaron Lanier,
pesquisador da área, em 1989 [Beier, 2004].
A RV sempre teve como principal caracterı́stica a imersão (completa ou não) de um
usuário em um mundo formado por objetos totalmente sintéticos. Então, cogitou-se que,
para alguns tipos de aplicações, a RV poderia ser mesclada com o mundo real. Foi então
que surgiu o conceito da Realidade Aumentada (RA).
O objetivo da RA é adicionar informação a objetos ou localidades do mundo real.

Diferentemente da RV, onde são criados “ mundos” virtuais, a RA atem-se a incorporar
contextos e descrições a objetos reais [EDUCASE, 2005], possibilitando uma maior e mais
completa experiência de um usuário em relação ao assunto, localidade, ou objeto observado
e simulado por um sistema.
Assim, ao projetar sistemas com RA devemos nos ater a 3 pontos principais [Azuma, 1997]:
1. Mescla entre o mundo real e o virtual.
2. Interatividade em tempo real.
3. Registro em 3D, que é a capacidade de inserir corretamente um objeto sintético em

uma cena natural.
Para atendermos aos requisitos propostos pelo primeiro item, são necessários Geradores
de Cena (Scene Generators), que podem ser equipamentos ou softwares responsáveis pela
renderização e mescla de objetos virtuais ou sintéticos com o mundo real. Os geradores
de cena atuam destacando ou ocultando objetos reais e adicionando informações contextu-
alizadas, bem como novos objetos na cena. Entretanto, a interatividade em tempo real e
o registro 3D estão intrinsecamente ligados e para que a interatividade ocorra, os objetos
sintéticos devem ser registrados de forma correta, respeitando e alinhado-se aos limites
definidos pelos objetos reais ([Rodrigues et al., 2004] e [Rodrigues et al., 2005]). Assim,
para uma correta geração de cena, normalmente é necessária uma contı́nua calibração de
câmera, e isto configura-se como um dos maiores problemas da RA, pois, apenas através
da detecção do correto posicionamento do observador, é possı́vel uma melhor renderização
dos objetos para o registro 3D. Como descrito em [Rodrigues et al., 2005], este registro
pode se utilizar de diversos tipos de sensores, desde giroscópios e bússolas, até Sistemas
de Posicionamento Global (Global Positioning System, GPS). Porém, existem técnicas de
calibração de câmera que utilizam-se de um método conhecido como registro baseado em
visão, o qual não requer nada além da própria câmera e pode obter resultados mais pre-
cisos do que aplicações com uso de sensores. Em [Rodrigues et al., 2005], é sugerida uma
solução para a calibração, utilizando um modelo bayesiano, para identificação de objetos

em uma cena a partir de suas caracterı́sticas, resultando na resolução de dois problemas:
a calibração constante e a calibração inicial do sistema.
Em [Azuma, 1993], o autor define que dentro de um processo de registro eficiente, a
acurácia, a latência e o funcionamento a longa distância são fundamentais, onde a acurácia
é a diferença entre o posicionamento correto para a renderização de um objeto e o seu atual
posicionamento, cujo erro, não deve exceder a milı́metros (mm). A latência, é o tempo
levado entre o registro da imagem e a renderização dos objetos na cena, o qual, ainda
segundo o autor, não deve ultrapassar 100milissegundos(ms). Complementando o processo,
o funcionamento a longa distância é a capacidade de um objeto manter-se constantemente
registrado (alinhado) com o mundo real.
Após satisfeitos todos os requisitos para a criação de um sistema de RA, podemos
definir nı́veis da mescla entre a realidade e os ı́tens gerados por computador através de
uma taxonomia. Esta métrica, publicada em [Kishino and Milgran, 1994], criou o conceito
de Realidade Mista (RM) e também do contı́nuo de virtualidade (virtuality continnum).
Na Figura 3.2 é mostrado que todos os nı́veis possı́veis de mistura entre o Ambiente Real
(Real Environment), o Ambiente Virtual (Virtual Environment), a RA e a Virtualidade
Aumentada (Augmented Virtuality) fazem parte da RM, sendo que o conjunto de todos
tipos de realidades, sendo elas mistas ou não, integram o contı́nuo de virtualidade.
Figura 3.2: Representação simplificada do Continuo de Virtualidade, modificado de

[Kishino and Milgran, 1994]
3.7.1 Componentes e dispositivos da Realidade Aumentada
As aplicações anteriormente citadas requerem várias tecnologias e equipamentos . Em

[Silva et al., 2004], são definidas quatro grandes categorias para os dispositivos ópticos,
responsáveis pela mescla e a projeção dos objetos sintéticos com o mundo real. Estas
categorias compreendem os Optical/Video See-Through(OST), os Sistemas de projeção de
retina (Virtual Retinal Systems), a RA baseada em Monitores e a RA baseada em projeção.
Os OSTs são dispositivos que podem ser vestidos ou acoplados nas cabeças dos usuários
e, por isso, são normalmente citados pela sigla HMD (Head Mounted Devices). Estes
equipamentos utilizam uma abordagem semelhante à aplicada em capacetes de pilotos
militares, conhecida como HUD (Head Up Display)(Figura 3.4). Em ambos os casos, o
funcionamento ocorre através do uso de lentes parcialmente reflexivas (combiners), que
são colocadas em frente ao campo de visão do usuário, com visto na Figura 3.3. Por sua
parcial reflexão, é possı́vel projetar imagens renderizadas pelo Gerador de Cenas (Scene
Generator) nestas lentes e, ao mesmo tempo, permitir que o usuário continue com a visão
do mundo real, criando assim, a mescla entre o mundo real e o virtual.
Figura 3.3: Diagrama de funcionamento do OST HMD − Adaptado de [Azuma, 1997].
Porém, estes tipos de dispositivos, sofrem com a necessidade de calibração de câmera

para que haja um registro correto da cena. E este é um dos principais problemas encon-
trados por dispositivos de RA, que sejam portáteis ou que possam ser livremente movi-
mentados [Azuma, 1993]. Além disso, os OSTs normalmente têm baixa resolução (180.000
Figura 3.4: OST HMD − Adaptado de [Silva et al., 2004].
Figura 3.5: Modelo experimental de HMD − Adaptado de [Azuma et al., 2001].
à 240.000 pixels) e pouca capacidade de oclusão de objetos reais [Azuma et al., 2001]. A
estas caracterı́sticas, podemos somar a diminuição da quantidade de luz do mundo real cap-
tada pelo usuário, sendo que, também há o problema relacionado a não completa cobertura
do campo de visão pelas lentes.
Existe uma outra abordagem, conhecida como Video See-Through (VST) (Figura 3.6),
que utiliza-se de um conceito próximo ao dos OSTs. Porém, ao contrário de permitir a
passagem das imagens do mundo real através de uma lente translúcida, utiliza câmeras para
registrar as imagens. Estas imagens são combinadas pelo gerador de cena e transmitidas
para o usuário através de pequenos visores acoplados à parte interna do dispositivo.
Figura 3.6: Modelo HMD do tipo VST − Adaptado de [Silva et al., 2004].
Embora estes dispositivos resolvam problemas encontrados nos OSTs, como a oclusão
e as questões relacionadas à luminosidade, esta categoria de equipamento ainda apresenta
problemas, como a discrepância na captação de imagens causadas pela diferença entre o
posicionamento da câmera em relação ao campo de visão do usuário.
Comparativamente, as duas abordagens são interessantes, dependendo do sistema plane-
jado. Temos que ter em mente que os sistemas VSTs são mais caros e um pouco mais
complexos de se implementar do que os OSTs, porém, são mais eficazes na mescla de ob-
jetos, pois resolvem os problemas da oclusão, do brilho e do contraste. Em contrapartida,
os OSTs são mais seguros e, por isso, são mais freqüentemente usados em sistemas de
navegação como o HUD dos pilotos da aeronáutica. Isto deve-se ao fato de que, em caso de
falha do dispositivo ou falta de energia, as imagens do mundo real continuam a ser vistas
pelo usuário através das lentes translúcidas, o que é impossı́vel em sistemas VSTs, que na
mesma situação, param de captar imagens e desligam os visores internos.
Uma outra categoria de implementação é a RA baseada em monitores (Figura 3.7),
que utiliza monitores de computador ou telas de handheld para produzir a mescla entre
os objetos sintéticos e os reais. Esta pouco dispendiosa aplicação é definida como uma
das mais simples na RA e ainda é capaz de solucionar diversas dificuldades apresentadas
nos sistemas HMD [Silva et al., 2004], como o problema da resolução e da oclusão. Mesmo
assim, este tipo de abordagem pode parecer um pouco menos atrativa, pois o usuário não
tem a ilusão de imersão. Para minimizar este problema, algumas aplicações são capazes de
simular volume através do uso de óculos estereoscópicos, como no sistema ARGOS (Figura
3.8), criado pela Universidade de Toronto.
Figura 3.7: Diagrama de funcionamento de RA baseada em monitor − Adaptado de

[Azuma, 1997]
Este tipo de implementação com uso de monitores é muito utilizada em trabalhos de

visualização cientı́fica, como em [Rodrigues et al., 2004]. Porém, aplicações baseadas em
monitores, excetuando-se as que utilizam handhelds, impossibilitam a livre movimentação
dos usuários pelo ambiente.
Para possibilitar a locomoção e ainda permitir fácil e ótima mescla entre ambientes e
objetos sintéticos, uma tecnologia recente de visualização é o Sistema de Projeção de Retina
(SPR)(Figura 3.9). Este equipamento é capaz de projetar imagens diretamente na retina
do olho do usuário, criando a ilusão de estar a poucos centı́metros de um objeto ou mundo
virtual. A técnica resolve diversas questões relacionadas aos HMDs, pois, gera imagens com
qualidade excelente [Silva et al., 2004], possuindo caracterı́sticas estereoscópicas, coloridas
e com bom ângulo de visão.
Inclusa na seção de dispositivos visuais para RA, temos a técnica conhecida como RA
Baseada em Projeção. Ela consiste no uso de projetores que, alinhados corretamente,
podem conferir cor, sombra e textura a modelos ou maquetes, como o visto na Figura 3.11.
Este método pode ser utilizado na indústria, facilitando a visualização dos processos de
Figura 3.8: Argos-RA baseada em monitor com uso de óculos estereoscópicos − Adaptado
de [Azuma, 1997].
Figura 3.9: Modelo de SPR − adaptado de [Silva et al., 2004].
Figura 3.10: Diagrama do SPR − adaptado de [Silva et al., 2004].

montagens de produtos. Também é possı́vel aplicar esta técnica a procedimentos cirúrgicos,

projetando imagens sobre um paciente, de forma a guiar os médicos sobre o posicionamento
dos órgãos e formatos de incisão (Figura 3.12).
(a) Preparação para a projeção em (b) Resultado final da projeção

maquetes
Figura 3.11: Sistemas de RA baseado em projeção − Adaptado de [Rodrigues et al., 2004].
A técnica de projeção também foi utilizada no projeto Seep, ilustrado na Figura 3.13,
para projetar a simulação do comportamento de fluı́dos, onde objetos reais são identificados
e analisados como obstáculos.
Técnicas de projeção podem ser utilizadas para aplicar “ camuflagem” para dispositivos
hápticos que possam bloquear o campo de visão em uma simulação, como visto na Figura
3.14.
Uma das mais completas aplicações possı́veis para sistemas com uso de projeção são as
Figura 3.12: Projeção usada em procedimentos cirúrgicos − Adaptado de

[Rodrigues et al., 2004].
Figura 3.13: Aplicação Seep − Adaptado de [Rodrigues et al., 2004].
(a) Oclusão de objetos virtuais por ob- (b) Aplicação de projeção para
jetos reais “ camuflar” objetos reais
Figura 3.14: Técnicas de projeção utilizada para resolver problemas de oclusão entre ob-
jetos reais e virtuais − Adaptado de [Azuma et al., 2001].
cavernas digitais ou CAVES (Computer Automatic Virtual Environments) [Rodrigues et al., 2004],
ilustrado pela Figura 3.15. Essas, são como cavernas retangulares com tamanhos relativos
ao de uma sala, onde imagens são projetadas nas paredes, no piso e no teto, que funcionam
como tela. Neste sistema podem ser utilizados óculos estereoscópicos e rastreadores de
posicionamento das cabeças dos observadores, o que propicia o compartilhamento de uma
visualização cientı́fica qualquer com diversos usuários, que podem interagir normalmente
com as aplicações, através do uso de mouses 3D [Silva, 2003].
Estes sistemas sofrem com problemas conhecidos como drawback, que são relaciona-
dos a renderização das imagens. Por usar um sistema de projeção, as imagens estere-
oscópicas são geradas exclusivamente para um dos usuários, o que obriga os demais a
Figura 3.15: Caverna Digital (Cave) − Adaptado de [Pape, 2004].
Figura 3.16: Virtual Workbench − Adaptado de [Rodrigues et al., 2004].
ficarem muito próximos durante a simulação, para que consigam visualizar corretamente
as cenas geradas[Rodrigues et al., 2004].
Tecnologia similar é aplicada às bancadas virtuais (Virtual Workbench) (Figura 3.16)
que, por meio de projeções de imagens estereoscópicas em uma lâmina de vidro fosco e do
rastreamento do posicionamento da cabeça do usuário, criam um ambiente de trabalho 3D
dentro de uma moldura de madeira.
Em muitas aplicações são utilizados sistemas de visualização heterogêneos onde, através
da seleção de diferentes dispositivos, é alcançada maior e melhor interação para cada uma
das tarefas realizadas na simulação[Azuma et al., 2001].
3.7.2 Dispositivos Hápticos
Os dispositivos hápticos1 são responsáveis pela resposta sensorial tátil na interação do

usuário com o modelo que está sendo analisado. Estes dispositivos são capazes de devolver
1
Embora este trabalho não utilize equipamentos hápticos, seus conceitos e possı́veis empregos estão
intrinsecamente ligados à sistemas de RA, o que justifica sua inserção neste tópico.
ao usuário sensações de geometria e rugosidade, bem como incorporar informações relativas

à caracterı́sticas fı́sicas dos objetos, como o peso, que pode ser avaliado pelo usuário através
de um efeito chamado feedback [Netto et al., 2002].
Capı́tulo 4
Proposta
4.1 Modelo Bayesiano para Recuperação de Informação
Como citado anteriormente na Seção 2.1, em [Ribeiro-Neto and Muntz, 1996b] foi pro-
posto um modelo para recuperação de informações textuais baseado em Redes de Crença
Bayesianas. Este modelo foi posteriormente adaptado em [Rodrigues, 2003], que intro-
duziu o seu uso para recuperação de informações visuais em imagens digitais, baseando-se
na avaliação de caracterı́sticas de cor, forma e textura. Recentemente, [Silva, 2006] utilizou
o modelo apresentado em [Rodrigues, 2003], propondo seu uso para aplicações de RA.
Em nossa proposta utilizaremos o modelo bayesiano apresentado em [Rodrigues, 2003]
e [Silva, 2006], o qual pode ser visto de forma esquematizada na Figura 4.1. Este modelo
consiste em uma RB de duas camadas. Destas, a camada superior (K) representa as
probabilidades a priori e a inferior (O) as probabilidades a posteriori. Todos os elementos
da camada K ligam-se a todos elementos da camada O através de arcos direcionados dos
nodos kn (integrantes da camada K) para o nodos Om (integrantes da camada O). Os
arcos indicam a probabilidade da ocorrência de um Objeto Oj , dado que foi observado o
termo ki . O modelo de [Rodrigues, 2003] e [Silva, 2006] propõe que os termos ki refiram-se
à caracterı́sticas como cor, forma e textura.
38
CAPÍTULO 4. PROPOSTA 39
Figura 4.1: Modelo de RB Genérico − Adaptado de [Rodrigues, 2003].
Dado que possuı́mos um modelo bayesiano definido, a probabilidade da ocorrência um

objeto Oj , dado que observemos um objeto modelo K é formalizado pela Equação (4.1)
P (Oj |k1 , k2 , ..., kn ) = P (Oj |K), (4.1)
onde Oj é um objeto que queremos encontrar dada a observação das caracterı́sticas k1 , k2 , ..., kn
de um objeto modelo representado por K.
Como visto nos trabalhos de [Rodrigues, 2003] ,[Rodrigues et al., 2004], [Rodrigues et al., 2005]
e [Silva, 2006], a Equação (4.2) pode ser modelada por uma cláusula OU. Desta forma, o
modelo representado pela Figura 4.1 e formalizado pela Equação (4.2), pode ser estendido
para que outros contextos possam ser validados. Assim, conforme simplificações apresen-
tadas em [Ribeiro-Neto and Muntz, 1996b] e [Coelho et al., 2004], é possı́vel adaptarmos
o modelo genérico para que se converta em novos classificadores, capazes de calcular as
probabilidades de Oj dadas as caracterı́sticas de Cor (Kc ), Forma (Kf ) e Textura (Kt ),
como demonstrado em [Rodrigues, 2003] e [Silva, 2006], resultando na Equação (4.2)
P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − P (Oj |Kf )) × (1 − P (Oj |Kt ))]. (4.2)
De forma geral, a Equação (4.2) representa a união entre diversas evidências, cada
uma representada por um termo (1 − P (Oj |ki )). Este conjunto de evidências é passı́vel de
inserções ou remoções de novos elementos, sem que isso acarrete mudanças na estrutura do
modelo. Exemplificando, supondo que para análise um objeto, seja necessária a remoção1
das caracterı́sticas de forma (representadas pelo termo (1 − P (Oj |Kf ))). Logo, a Equação
(4.2) será reescrita na forma da Equação (4.3).
P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − P (Oj |Kt ))]. (4.3)
Similarmente, definindo a probabilidade de Kf como nula (P (Oj |Kf ) = 0), a repre-

sentação desta evidência dentro da Equação genérica (4.2) fica na forma:
P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − 0) × (1 − P (Oj |Kt ))], (4.4)
o que não altera a estrutura da modelagem e permite que os outros termos continuem a
ser avaliados.
O sistema genérico formalizado pela Equação (4.2) pode ser modelado como a união de
três modelos equivalentes ao apresentado na Figura 4.1. Desta forma, temos uma RB para
as caracterı́sticas de cor, representada pela Figura 4.2, uma para caracterı́sticas de forma,
representada pela Figura 4.3 e uma para as caracterı́sticas de textura, representada pela
Figura 4.4. Em nosso trabalho, a RB que engloba os classificadores de cor, forma e textura
é esquematizada na Figura 4.5 e é utilizada para modelar a visão de um observador2 Zi , a
partir de um ponto de vista de um objeto Oj .
4.2 Estrutura Bayesiana Proposta

Neste trabalho propomos expandir o modelo representado pela Equação (4.4) usando-o
para sistema de RA. Na Figura 4.6, mostramos a arquitetura para a qual o nosso modelo
se aplica.
1
Demonstraremos apenas a remoção de evidências, pois, de maneira intuitiva, podemos verificar que a
adição de novos termos nos leva à mesma consideração.
2
Mais informações sobre o conceito de observadores são encontradas na Seção 4.2.
Figura 4.2: Modelo de classificador para análise de caracterı́sticas de cor − adaptado

[Rodrigues, 2003].
Figura 4.3: Modelo de classificador para análise de caracterı́sticas de forma − adaptado

[Rodrigues, 2003].
Figura 4.4: Modelo de classificador para análise de caracterı́sticas de textura − adaptado

[Rodrigues, 2003].
Figura 4.5: Modelo de classificador para análise conjunta de caracterı́sticas de cor, forma
e textura.
A Figura 4.6 mostra que arquitetura proposta baseia-se na aquisição de imagens de um

objeto A, a partir de n pontos de vista. Estas imagens são concentradas por um servidor
central, chamado Integrador de Evidências (IE) e enviadas a outros servidores, os quais
chamamos Observadores Zi .
O IE tem como atribuições principais a captura e envio de visões para os observadores e
a Integração das evidências no processo de Fusão. Por sua vez, os observadores, que podem
estar geograficamente espalhados, têm a incumbência de estimar e retornar a probabilidade
das visões enviadas pelo IE tratarem-se de um dos objetos contidos em sua base de dados3 .
O processo completo da reconstrução funciona nas seguintes etapas, a saber:
1. Captura de visões do objeto A;
2. IE envia as visões capturadas para os Observadores;
3. Cálculo das evidências individuais de cada Observador;
4. Observadores enviam suas evidências ao IE;
5. Fusão.
No item 1, é executado um processo que consiste em posicionar n câmeras de forma
3
Mais informações sobre a base de dados utilizada neste trabalho encontram-se na Seção 4.4
Figura 4.6: Proposta de Arquitetura para um Sistema de RA.
adequada ao redor de um objeto A, de forma que seja possı́vel capturar imagens em diversos
pontos de vista, gerando o que chamamos de visões do objeto;
No item 2, é feito o envio das visões capturadas em 1 para os n observadores. Nesta
etapa o IE tem a responsabilidade de enviar adequadamente as visões para cada um dos
observadores. O termo “ adequadamente” é utilizado porque, para o funcionamento do
modelo, é necessário que seja capturada e enviada exatamente uma visão para cada um
dos observadores;
No item 3, cada um dos observadores executa o processo de avaliação das visões envi-
adas pelo IE, através do uso do classificador bayesiano representado pela Equação (4.2) e
ilustrado pela Figura 4.5. Os observadores utilizam a divergência de Kullback-Leibler, a
partir dos procedimentos descritos na Seção 4.3, para efetuar o matching das caracterı́sticas
de cor, forma e textura do objeto A com as caracterı́sticas dos modelos Oj contidos na
base de dados;
O item 4 consiste no envio das evidências calculadas pelos observadores ao IE. Ao fim
de cada análise, os observadores devem enviar as probabilidades, em termos percentuais,
de volta ao IE.
Finalmente, no item 5, é feita a Fusão, que consiste na integração das evidências aferidas
pelos observadores. Esta integração é executada aplicando-se o modelo genérico, esquema-
tizado pela Figura 4.1, às probabilidades definidas pelos observadores. Similarmente ao
que é feito para criar o classificador de cor, forma e textura (Figura 4.5), o resultado da
probabilidade de A (objeto observado) ser o objeto modelo Oj , feito pelos n observadores
(z), são “ fundidos” e integrados em uma nova RB. Assim, a Equação (4.2) é reescrita na
forma da Equação (4.5), da seguinte maneira:
P (Oj |z1 , z2 , . . . , zn ) = P (Oj |Z), (4.5)
onde os termos z1 , z2 , . . . , zn representam os resultados das inferências dos observadores

em relação às visões do objeto analisado, o que nos leva a generalizar através da Equação
(4.6), a seguir:
P (Oj |Z) = 1 − [(1 − Pz1 (Oj |A1 )) × (1 − Pz2 (Oj |A2 )) × . . . × (1 − Pzn (Oj |An ))], (4.6)
onde Pzi representa o grau de crença do observador zi sobre a visão An ser relativa ao
Objeto Oj .
4.3 Medida de Similaridade Proposta

Em nosso trabalho a probabilidade de um Objeto Oi ocorrer tal que um Objeto Aj foi
observado é dada pela divergência de Kullback-Leibler Estendida (DKLE), vista na seção
3.6.3, da seguinte maneira:
X Oq
P (Oi |Aj ) = i
· (Oi1−q − A1−q
i ). (4.7)
i
1−q
A Equação 4.7 será modelada para diversos tipos de informação. É através dela que
serão quantificadas as divergências entre as caracterı́sticas dos objetos alvo Aj e os padrões
encontrados Oj .
Considerando informações de cor, o Objeto Oi será representado pelo histograma 162,
o qual será extraı́do das imagens através do método proposto em [Rodrigues, 2003].
Para modelar informações de textura, consideraremos as caracterı́sticas de co-ocorrência,
conforme definido em [Gonzalez and Woods, 2003].
Na análise de informações de forma, utilizaremos o histograma do mapa de bordas, que
será calculado por um filtro passa-alta.
4.4 Base de dados

Para validar nosso modelo utilizaremos uma base de dados da Universidade de Columbia
[Columbia University, 2001]. Esta base de dados é denominada como “ artificial”, pois
contém apenas imagens capturadas de maneira controlada, em condições ótimas de lumi-
nosidade e reflectância. A base é formada por 7200 imagens coloridas, onde constam 100
objetos retratados em 72 ângulos diferentes, espaçados em 5o por vista. Uma amostra
desta base de dados é apresentada na Figura 4.7, onde foram selecionadas 8 classes de
objetos, em 4 ângulos diferentes cada.
Uma vez que cada um dos objetos da base de dados possui 72 ângulos diferentes, o
modelo representado na Seção 4.2 pode utilizar até 72 câmeras para o processo de recons-
trução.
4.5 Proposta de Pesquisa

Nesta monografia será estudada a arquitetura mostrada na Figura 4.6, a partir da variação
dos seguintes parâmetros:
1. Histograma 162
2. Histograma do mapa de Bordas de 0o à 180o com 10 distâncias.
3. Caracterı́sticas de co-ocorrência.
4. Variação do parâmetro entrópico q
5. Variação do número de Observadores
6. Combinações dos Ítens 1, 2 e 3.

Figura 4.7: Amostra da base de dados Columbia contendo classes de objetos em diferentes
ângulos − adaptado de [Rodrigues, 2003].
Cronograma
Cronograma proposto:
Figura 4.8: Cronograma de defesa
48
Bibliografia
[NAS, 2001] (2001). Bayes theorem. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
[Azuma, 1993] Azuma, R. (1993). Tracking requirements for augmented reality. Commu-
nications of the ACM, pages 50–51. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
[Azuma, 1997] Azuma, R. (1997). A survey of augmented reality. Communications of the

ACM, pages 1–35.
[Azuma et al., 2001] Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., and
MacIntyre, B. (2001). Recent advances in augmented reality. IEEE Computer Graphics
and Applications, pages 34–47.
[Barão, 2003] Barão, M. (2003). Entropia, entropia relativa e informação mútua.
[Beck, 2002] Beck, C. (2002). Non-extensive estatistical mechanics approuch to fully de-
velop hydrodynamic turbulence. Chaos, Solutions and Fractals, 13:499–506.
[Beier, 2004] Beier, K.-P. (2004). Virtual reality: A short introduction. Disponı́vel : terça-
feira, agosto 5, 2008 at 23:10.
[Billinghurst et al., 2002] Billinghurst, M., Cheok, A., Prince, S., and Kato, H. (2002).
Real world teleconferencing. IEEE Computer Graphics and Applications, 22(6):11–13.
[Bolzan et al., 2004] Bolzan, M. J. A., Sá, L. D. d. A., Ramos, F. M., Neto, C. R., and
Rosa, R. R. (2004). Modelo da entropia generalizada aplicada aos sinais turbulentos
medidos na camada limite superficial do pantanal. Trabalho do DCM - LAC / INPE.
[Cabella et al., 2008] Cabella, B. C. T., Sturzbecher, M. J., Tedeschi, W., Filho, O. B.,
Araújo, D. B. d., and Neves, U. P. d. C. (2008). A numerical study of the kullback-leibler
distance in functional magnetic resonance imaging. Brazilian Journal of Physics, 38(1).
[Coelho et al., 2004] Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R.
(2004). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowl-
edge and Data Engineering, 16:408–417.
[Columbia University, 2001] Columbia University, D. o. C. S. (2001).

http://www.cs.columbia.edu/CAVE/research/softlib/coil-100.html.
49
BIBLIOGRAFIA 50
[Cristo et al., 2003] Cristo, M., Calado, P., Silveira, M. L., Silva, I., Muntz, R., and
Ribeiro-Neto, B. (2003). Bayesian belief networks for ir. International Journal of Ap-
proximate Reasoning, 40:163–179.
[Dünser and Hornecker, 2007a] Dünser, A. and Hornecker, E. (2007a). An observational

study of children interacting with an augmented story book. In Supporting Early Literacy
with Augmented Books Experiences with an Exploratory Study. Edutainment 2007.
[Dünser and Hornecker, 2007b] Dünser, A. and Hornecker, E. (2007b). Supporting early
literacy with augmented books experiences with an exploratory study. In In proceedings
of The 2nd International Conference of E-Learning and Games. Edutainment 2007.
[EDUCASE, 2005] EDUCASE (2005). 7 things you should know about augmented reality.
[Çengel, 1997] Çengel, Y. A. (1997). Introduction to thermodinamycs and heat transfer.

II. McGraw-Hill, international edition edition.
[Esquef, 2002] Esquef, I. A. (2002). Técnicas de entropia em processamento de imagens.

Master’s thesis, Centro Brasileiro de Pesquisas Cientı́ficas.
[Gonzalez and Woods, 2003] Gonzalez, R. C. and Woods, R. E. (2003). Processamento de

Imagens Digitais. Editora Edgard Blücher.
[Grasset et al., 2007] Grasset, R., Dünser, A., Seichter, H., and Billinghurst, M. (2007).
The mixed reality book: A new multimedia reading experience. In Proceedings of the
German Society of Informatics annual conference.
[Green et al., 2001] Green, P., Wolpert, Robert, R., Carlos, Bayarri, S., Zellner, A., and
Evans, M. (2001). What is bayesian analysis? Disponı́vel : terça-feira, agosto 5, 2008
at 23:10.
[Jin et al., 2004] Jin, W., Shi, R., and Chua, T.-S. (2004). A semi-naı̈ve bayesian method
incorporating clustering with pair-wise constraints for auto image annotation. ACM.
[Johnson and Sinamovic, 2001] Johnson, D. H. and Sinamovic, S. (2001). Symmetrizing

the kullback-leibler distance.
[Kato and Billinghurst, 1999] Kato, H. and Billinghurst, M. (1999). Marker tracking and
hmd calibration for a video-based augmented reality conferencing system. San Francisco,
USA. In Proceedings of the 2nd International Workshop on Augmented Reality (IWAR
99).
[Kishino and Milgran, 1994] Kishino, F. and Milgran, P. (1994). A taxonomy of mixed
reality visual displays. IEICE Transactions on Information Systems, Vol E77-D:1–35.
Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
BIBLIOGRAFIA 51
[Kullback and Leibler, 1951] Kullback, S. and Leibler, R. A. (1951). On information and
sufficiency. The Annals of Mathematic and Statistics, vol. 22(1):79–86.
[Li et al., 2003] Li, L., Huang, W., Gu, I. Y., and Tian, Q. (2003). Foreground object
detection from videos containing complex background. ACM.
[Martin et al., 2004] Martin, S., Morison, G., Nailon, W., and Durrani, T. (2004). Fast
and accurate image registration using tsallis entropy and simultaneous perturbation
stochastic approximation. ELECTRONICS LETTERS, 40(10).
[Morris et al., 2004] Morris, D., Sewell, C., Blevins, N., Barbagli, F., and Salisbury,
K. (2004). A collaborative virtual environment for the simulation of temporal bone
surgery. In Medical Image Computing and Computer−Assisted Intervention, volume
Vol. 3217/2004 of Lecture Notes in Computer Science, France. 7th International Confer-
ence Saint-Malo, Springer Berlin / Heidelberg.
[Netto et al., 2002] Netto, A. V., Machado, L. d. S., and Oliveira, M. C. F. d. (2002).
Realidade virtual - definições, dispositivos e aplicações. última visualização: 28/08/2008.
[Oswald and Lev, 2001] Oswald, N. and Lev, P. (2001). Cooperative object recognition.
Pattern Recognition Letters, (22).
[Pape, 2004] Pape, D. (2004). última visualização: 28/08/2008.
[Ribeiro-Neto and Muntz, 1996a] Ribeiro-Neto, B. and Muntz, R. R. (1996a). Approxi-

mate answers in databases through bayesian belief networks. XVI Int. Conference of
the Chilean Computer Science Society, pages 31–42.
[Ribeiro-Neto and Muntz, 1996b] Ribeiro-Neto, B. and Muntz, R. R. (1996b). A belief

network model for ir. ACM, pages 253–260.
[Rodrigues et al., 2004] Rodrigues, P. S., Silva, L., Oliveira, J. C., and Giraldi, G. (2004).
Augmented reality for scientific visualization: Bringing datasets into the realworld.
[Rodrigues et al., 2005] Rodrigues, P. S., Silva, R. L., Giraldi, G., and Cunha, G. (2005).
Object recognition using bayesian networks for augmented reality systems.
[Rodrigues, 2003] Rodrigues, P. S. S. (2003). Um Modelo Bayesiano Combinando Análise

Semântica Latente e Atributos Espaciais para Recuperação de Informação Visual. PhD
thesis, Universidade Federal de Minas Gerais, Belo Horizonte, MG.
[Shannon, 1948] Shannon, C. E. (1948). Mathematical theory of communication. The Bell

System Technical Journal, 27:379–423 and 623–656.
[Silva et al., 2004] Silva, R., Oliveira, J. C., and Giraldi, G. (2004). Introduction to aug-
mented reality.
BIBLIOGRAFIA 52
[Silva, 2003] Silva, R. L. d. S. d. (2003). última visualização: 28/08/2008.
[Silva, 2006] Silva, R. L. d. S. d. (2006). Um Modelo de Redes Bayesianas Aplicado a

Sistemas de Realidade Aumentada. PhD thesis, COPPE/UFRJ.
[Tang et al., 2005] Tang, A. W. K., P., N. T., Hung, Y. S., and Leung, C. H. (2005). Pro-
jective reconstruction from line-correspondence in multiple uncalibrated images. Pattern
Recognition.
[Taruya and Sakagami, 2002] Taruya, A. and Sakagami, M.-a. (2002). Gravothermal catas-
trophe and tsallis’ generalized entropy of self-gravitating systems. Physica A, 307:185–
206.
[Tavares, 2003] Tavares, A. H. M. d. P. (2003). Aspectos matemáticos da entropia. Master’s

thesis, Universidade de Aveiro.
[Thornton et al., 2007] Thornton, J., Savvides, M., and Kumar, B. V. (2007). A bayesian
approuch to deformed pattern matching of iris image. IEEE Transations on Pattern
Analisys and Machine Inteligence, vol. 29(4).
[Tsallis, 1988] Tsallis, C. (1988). Possible generalization of boltzmann-gibbs statistics.

Journal of Statistical Physics, vol. 52:479–487.
[Vasconcelos et al., 2004] Vasconcelos, N., Ho, P., and Moreno, P. (2004). The kullback-
leibler kernel as a framework for discriminant and localized representations for visual
recognition. Prague. European Conference on Computer Vision.
[Weiss and Ray, 2001] Weiss, I. and Ray, M. (2001). Model-based recognition of 3d objects
from single. IEEE TRANSACTIONS ON PATTERN ANALISYS AND MACHINE
INTELLIGENCE, 23(2):116–128.
[Yong-li et al., 2007] Yong-li, L., Wei-zhou, G., and Ling-yan, Z. (2007). The application
of bayesian method in image segmentation. IEEE.

Monografia Qualificacao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Monografia Qualificacao

Enviado por

Direitos autorais:

Formatos disponíveis

Fernando Caruso Olı́vio

Orientador: Paulo Sérgio Silva Rodrigues

Um Modelo Bayesiano com Divergência de

Monografia apresentada ao Curso de Pós-

São Bernardo do Campo, SP

Neste trabalho, propomos um modelo bayesiano em conjunto com a divergência de Kullback-

3.1 Grafo de representação de uma BN. . . . . . . . . . . . . . . . . . . . . . . 16

4.1 Modelo de RB Genérico − Adaptado de [Rodrigues, 2003]. . . . . . . . . . 39

3.1 Tabela comparativa entre a Entropia extensiva e não-extensiva . . . . . . . 23

recém estudados sistemas não-extensivos, propostos inicialmente no coração da mecânica

1.2 Contribuições da Dissertação

• Uso da distância de Kullback-Leibler estendida para modelar o grau de crença da

2.1 Redes Bayesianas (RB)

proposto um modelo de rede de crença para a recuperação de informações de textos em

visões, em um método de projeção ortogonal, chamado Projeção Reconstrutiva. Porém, os

a extração das caracterı́sticas de background e foreground, foi apresentado um modelo de

2.2 Entropia e Divergência de Kullback-Leibler

2.3 Realidade Aumentada

2.4 Reconhecimento Cooperativo de Objetos

3.1 Teoria de Bayes

Seguindo a questão do relacionamento e das causalidades entre os dados, a teoria

3.2 Redes Bayesianas

Figura 3.1: Grafo de representação de uma BN.

O grafo da Figura 3.1 representa a distribuição conjunta do conjunto das variáveis

visão de múltiplos usuários no processo de recuperação de informação.

desordem ou aleatoriedade em nı́vel molecular. Conceitualmente, a afirmação que rela-

Formalmente, na Equação (3.5), k ∈ R+ e W é o número de estados microscópicos do

baseado em Entropia. Apresentaremos a Entropia do ponto de vista da teoria de Shannon

3.4 Teoria de Informação e Entropia

de probabilidade de um sistema fı́sico, onde pi é a probabilidade do sistema estar no estado

A formulação de Shannon foi um marco para a Teoria da Informação e influenciou

3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica

onde ni é a quantidade de moléculas em um estado e W é o número total de estados.

S = −[(p1 ln p1 ) + (p2 ln p2 ) + (p3 ln p3 ) + . . . + (p36 ln p36 )] (3.10)

Equação 3.7, proposta por Shannon, temos:

S = −[(0 ln 0) + (0 ln 0) + (0 ln 0) + . . . + (1 ln 1)] (3.13)

3.5 Entropia Não-Extensiva

onde SA representa a entropia do sistema A e SB a entropia do sistema B.

como “ Estatı́stica de Tsallis” ou “ Entropia de Tsallis”, sendo definidas por:

onde k é uma constate positiva, q ∈ R é conhecido como parâmetro entrópico e W rep-

S(A ⊕ B) = SA + SB + (1 − q) · (SA + SB ). (3.16)

• Longo Alcance Espacial

• Longo Alcance Temporal

Extensivo (Shannon) Não-Extensivo (Tsallis)

Tabela 3.1: Tabela comparativa entre a Entropia extensiva e não-extensiva

Neste trabalho utilizaremos a entropia não-extensı́va para calcular o grau de crença de

3.6 Medidas de Distância

3.6.1 Medidas Clássicas

É comum encontrarmos a utilização de medidas de distância baseadas na comparação entre

onde, m é o parâmetro de ajuste; se m = 1, então a Equação (3.17) calculará a distância

3.6.2 Modelo Vetorial

Assim, temos a Equação:

3.6.3 Divergência de Kullback-Leibler

Em 1951, Solomon Kullback (1907-1994) e Richard A. Leibler (1914-2003) apresentaram

onde A e B representam as distribuições de probabilidades discretas, variando de 1 até n.

DKL (A|B) = D(A|B) + D(B|A), (3.20)

onde DKL ∈ R+ , D(A|B) é a divergência entre a distribuição A para a distribuição B e

3.6.4 Divergência de Kullback-Leibler estendida

Analogamente às proposições apresentadas na Seção 3.5, a não-extensividade é aplicável

3.7 Computação Gráfica e Realidade Aumentada

O objetivo da RA é adicionar informação a objetos ou localidades do mundo real.

1. Mescla entre o mundo real e o virtual.

2. Interatividade em tempo real.