Você está na página 1de 57

Fernando Caruso Olı́vio

Orientador: Paulo Sérgio Silva Rodrigues

Um Modelo Bayesiano com Divergência de


Kullback-Leibler Estendida aplicado a
Sistemas de Realidade Aumentada baseados
em Múltiplas Visões

Monografia apresentada ao Curso de Pós-


graduação em Inteligência Artificial Aplicada à
Automação da FEI, como requisito parcial para
a obtenção do grau de Mestre em Engenharia
Elétrica.

São Bernardo do Campo, SP


21 de Novembro de 2008
Resumo

Neste trabalho, propomos um modelo bayesiano em conjunto com a divergência de Kullback-


Leibler, na forma não-extensiva, para o Reconhecimento Cooperativo de Objetos, aplicado
a um sistema de Realidade Aumentada de Múltiplas Visões. Em nossa abordagem a re-
cuperação de informações para a reconstrução de objetos 3D é feita local e remotamente.
No processamento local, um Integrador de Evidências executa a captura de visões a partir
de diversos pontos de vista de um objeto. Estas visões são enviadas para Observadores,
responsáveis pelo processamento remoto através da aplicação da divergência de Kullback-
Leibler para o “ matching” das caracterı́sticas de cor, forma e textura de objetos. Pela
relação intrı́nseca entre estas caracterı́sticas, utilizamos o classificador bayesiano, capaz de,
simultaneamente, validá-las, gerando uma evidência da ocorrência de um objeto. Estas
validações são reenviadas ao Integrador de Evidências, onde o mesmo modelo de classi-
ficador é utilizado para executar a Fusão entre as evidências calculadas pelos diversos
Observadores, gerando, assim, a probabilidade do objeto observado tratar-se de um objeto
contido na base de dados.

i
Conteúdo

1 Introdução 1
1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Contribuições da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Trabalhos Relacionados 4
2.1 Redes Bayesianas (RB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Entropia e Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . 8
2.3 Realidade Aumentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Reconhecimento Cooperativo de Objetos . . . . . . . . . . . . . . . . . . . 13

3 Conceitos Fundamentais 14
3.1 Teoria de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Teoria de Informação e Entropia . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica . . . . . . . . 20
3.5 Entropia Não-Extensiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6 Medidas de Distância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.1 Medidas Clássicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.2 Modelo Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.3 Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . . . 25
3.6.4 Divergência de Kullback-Leibler estendida . . . . . . . . . . . . . . 26
3.7 Computação Gráfica e Realidade Aumentada . . . . . . . . . . . . . . . . 26
3.7.1 Componentes e dispositivos da Realidade Aumentada . . . . . . . 29
3.7.2 Dispositivos Hápticos . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Proposta 38
4.1 Modelo Bayesiano para Recuperação de Informação . . . . . . . . . . . . . 38
4.2 Estrutura Bayesiana Proposta . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Medida de Similaridade Proposta . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Proposta de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

ii
Lista de Figuras

3.1 Grafo de representação de uma BN. . . . . . . . . . . . . . . . . . . . . . . 16


3.2 Representação simplificada do Continuo de Virtualidade, modificado de [Kishino and Milgran, 1994
3.3 Diagrama de funcionamento do OST HMD − Adaptado de [Azuma, 1997]. 29
3.4 OST HMD − Adaptado de [Silva et al., 2004]. . . . . . . . . . . . . . . . . 30
3.5 Modelo experimental de HMD − Adaptado de [Azuma et al., 2001]. . . . . 30
3.6 Modelo HMD do tipo VST − Adaptado de [Silva et al., 2004]. . . . . . . . 31
3.7 Diagrama de funcionamento de RA baseada em monitor − Adaptado de
[Azuma, 1997] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.8 Argos-RA baseada em monitor com uso de óculos estereoscópicos − Adap-
tado de [Azuma, 1997]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.9 Modelo de SPR − adaptado de [Silva et al., 2004]. . . . . . . . . . . . . . . 33
3.10 Diagrama do SPR − adaptado de [Silva et al., 2004]. . . . . . . . . . . . . 33
3.11 Sistemas de RA baseado em projeção − Adaptado de [Rodrigues et al., 2004]. 34
3.12 Projeção usada em procedimentos cirúrgicos − Adaptado de [Rodrigues et al., 2004]. 34
3.13 Aplicação Seep − Adaptado de [Rodrigues et al., 2004]. . . . . . . . . . . . 35
3.14 Técnicas de projeção utilizada para resolver problemas de oclusão entre
objetos reais e virtuais − Adaptado de [Azuma et al., 2001]. . . . . . . . . 35
3.15 Caverna Digital (Cave) − Adaptado de [Pape, 2004]. . . . . . . . . . . . . 36
3.16 Virtual Workbench − Adaptado de [Rodrigues et al., 2004]. . . . . . . . . 36

4.1 Modelo de RB Genérico − Adaptado de [Rodrigues, 2003]. . . . . . . . . . 39


4.2 Modelo de classificador para análise de caracterı́sticas de cor − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Modelo de classificador para análise de caracterı́sticas de forma − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Modelo de classificador para análise de caracterı́sticas de textura − adaptado
[Rodrigues, 2003]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5 Modelo de classificador para análise conjunta de caracterı́sticas de cor, forma
e textura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Proposta de Arquitetura para um Sistema de RA. . . . . . . . . . . . . . . 43
4.7 Amostra da base de dados Columbia contendo classes de objetos em difer-
entes ângulos − adaptado de [Rodrigues, 2003]. . . . . . . . . . . . . . . . 47
4.8 Cronograma de defesa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

iii
Lista de Tabelas

3.1 Tabela comparativa entre a Entropia extensiva e não-extensiva . . . . . . . 23

iv
Capı́tulo 1

Introdução

Atualmente, é cada vez maior a demanda por sistemas de vı́deo conferência. Tais sistemas
podem ser tão simples como os atuais chats ou tão complexos como sistemas imersivos com
dispositivos hápticos que permitam aos participantes uma manipulação em conjunto de de-
talhes de objetos de interesse comum. Geralmente, tais objetos existem fisicamente somente
em um dos nós participantes. A construção destes sistemas demanda a implementação de
várias etapas que envolvem técnicas de visão computacional, geometria computacional,
processamento de imagens e computação gráfica.
Muitas destas aplicações demandam ambientes cooperativos, onde vários usuários, es-
palhados geograficamente, podem trocar informações sobre um objeto localizado em um
único nó. Estes sistemas apresentam ambientes com diversos problemas, tais como: neces-
sidade de melhor interatividade entre os participantes, confiabilidade, facilidade no acesso
das informações transmitidas, entre outros.
A interatividade entre os usuários, às vezes, requer troca em tempo real, de primitivas
gráficas e informações de caracterı́sticas visuais de objetos. Tais sistemas, como um todo,
abrem perspectivas para modelagens estatı́sticas como os modelos bayesianos e redes de
crença, já aplicados com sucesso em sistemas de recuperação de informações na web. Por
outro lado, podem apresentar fenômenos fı́sicos com interações de longa distância tanto
no espaço, quanto no tempo, o que permite também o uso de abordagens como a dos

1
CAPÍTULO 1. INTRODUÇÃO 2

recém estudados sistemas não-extensivos, propostos inicialmente no coração da mecânica


estatı́stica.
Apenas recentemente foram propostos os primeiros modelos para sistemas cooperativos
visando o reconhecimento de objetos, onde constatou-se que, combinações adequadas de
múltiplas visões podem resultar numa melhora de performance da aplicação como um todo.
O trabalho apresentado aqui, propõe a combinação de todas estas idéias, unindo os
modelos estatı́sticos, modelos fı́sicos não-extensivos em um modelo bayesiano para a troca
de informações entre usuários espalhados geograficamente, cooperando para o reconheci-
mento de objetos localizados em um único nó de origem.
No sistema proposto, os usuários estão todos conectados a um nó central que captura
todas as visões do objeto e as transmite ao observadores. Estes, por sua vez, inferem sobre
as visões e transmitem estas informações de volta ao nó de origem, que é, então, capaz
de levantar conclusões mais seguras e acuradas. Quanto mais observadores envolvidos no
processo, maior é o grau de crença com relação às caracterı́sticas do objeto analisado.
Este grau de crença é modelado como a quantidade de informação, supondo o sistema
não-extensivo como um todo.
Esta monografia está divida da seguinte maneira: no capitulo 2 são apresentados tra-
balhos relacionados; no capitulo 3 são fundamentados os principais conceitos que serão
utilizados no decorrer do trabalho; finalmente, no capitulo 4 é apresentada a proposta de
pesquisa.

1.1 Objetivo
Propor um modelo bayesiano utilizando a divergência de Kullback-Leibler para a cons-
trução de um sistema cooperativo centralizado de realidade aumentada para múltiplos
usuários.
CAPÍTULO 1. INTRODUÇÃO 3

1.2 Contribuições da Dissertação


• Estudo de um modelo Bayesiano para reconstrução de objetos 3D a partir de in-
formações 2D;

• Uso da distância de Kullback-Leibler estendida para modelar o grau de crença da


causalidade entre dois eventos.
Capı́tulo 2

Trabalhos Relacionados

Este capı́tulo tem como objetivo organizar e apresentar trabalhos relacionados às técnicas
que serão por nós utilizadas nesta dissertação.
A Seção 2.1 cita trabalhos que contribuem e utilizam métodos e modelos bayesianos
semelhantes aos utilizados por nós; a Seção 2.2 refere-se a trabalhos que utilizam-se de
entropia e, em especial, de medidas de similaridade com foco nas aplicações da divergência
de Kullback-Leibler; na Seção 2.3, apresentaremos algumas pesquisas e aplicações possı́veis
para a Realidade Aumentada (RA); Complementando, na Seção 2.4, são destacados traba-
lhos que embasam-se no Reconhecimento Cooperativo de Objetos (RCO) para recuperação
de informações visuais em imagens.

2.1 Redes Bayesianas (RB)


Na literatura encontram-se diversas abordagens e aplicações para os modelos RB. Uma das
mais comuns é a recuperação de conteúdos baseada no casamento de padrões. De maneira
geral, as técnicas que usam as RBs hoje aplicadas a diversas áreas da ciência, têm origem
em teorias e formalismos matemáticos provenientes da estatı́stica, como será visto na Seção
3.1.
Um dos trabalhos de maior importância é [Ribeiro-Neto and Muntz, 1996b], onde é

4
CAPÍTULO 2. TRABALHOS RELACIONADOS 5

proposto um modelo de rede de crença para a recuperação de informações de textos em


grandes bases de dados. Conceitualmente, as queries (chaves alvo da busca) formuladas
pelo usuário, bem como cada documento, são representados vetorialmente. Então, aplica-
se à RB o cálculo de similaridade entre os diversos vetores, através do método de distância
vetorial (apresentado na Seção 3.6.2). Os resultados obtidos mostraram que o modelo
proposto pode ser visto como uma alternativa a outros métodos de inferência. Além disto,
ainda existem vantagens conceituais, pois o método é intuitivo e abrangente a diversas
aplicações. Também é fato que a abrangência da técnica deve-se à capacidade da mesma
“ moldar-se” a diversos métodos de “ pontuação” (ranking) ou medidas de similaridade
entre os objetos ou coleções sobre as quais se queira inferenciar.
Pela “ flexibilidade” e abrangência apresentadas em [Ribeiro-Neto and Muntz, 1996b], o
mesmo método foi adaptado para que pudesse ser revisitado em outros artigos de mesma au-
toria, como em [Ribeiro-Neto and Muntz, 1996a], onde é feita uma adaptação para o uso em
bancos de dados SQL. A flexibilidade é tema explicitamente citado em [Cristo et al., 2003],
no qual é proposto um modelo para recuperação de informação em páginas da Web, de-
monstrando, também, que a capacidade de agregação de informação provindas de diversas
fontes de dados (contextos) pode trazer ganhos de performance na recuperação de diversos
tipos de informação.
O modelo proposto em [Ribeiro-Neto and Muntz, 1996b] foi novamente utilizado e
adaptado em [Coelho et al., 2004], porém, para o uso em recuperação de imagem com
base em seu conteúdo. Este trabalho indaga o uso dos métodos de buscas de imagens na
web até então implementados. Até aquele momento, as técnicas de buscas, quase em seu
todo, eram macro-associadas e baseavam-se no uso de palavras-chave (“ meta-dados”) das
imagens como informação a priori em seus modelos. Entretanto, na internet, as imagens
são fracamente relacionadas com estes tipos de informação. Assim, atestou-se a inade-
quação desta abordagem e propôs-se uma solução que relacionava tanto a informação das
imagens, quanto as informações do conteúdo HTML. Esta estratégia de recuperação de
informação reforçou os dados propostos em [Cristo et al., 2003], aumentando a precisão
dos resultados entre 50% e 60% em relação aos métodos regulares de extração de dados.
CAPÍTULO 2. TRABALHOS RELACIONADOS 6

Uma variação deste modelo, foi proposta no trabalho [Rodrigues, 2003] e aplicada
em [Rodrigues et al., 2005], introduzindo uma técnica baseada em RB para casamento de
padrões, recuperação de informações visuais em imagens, inicialização e rastreamento de
objetos em cenas reais para Realidade Aumentada1 . A abordagem adotada inferia simul-
taneamente sobre três contextos principais de informações, sendo eles: a cor, a textura e a
forma. Como resultado, os pesquisadores foram capazes de extrair e utilizar as caracterı́sti-
cas necessárias para fazer as correspondências entre os pontos 2D e 3D, embora, ainda fos-
sem necessárias algumas melhorias no desempenho do Registro de Cena2 , conforme citado
pelos autores. Contudo, os trabalhos de [Rodrigues, 2003] e [Rodrigues et al., 2005], poste-
riormente, inspiraram [Silva, 2006] a aplicar uma abordagem semelhante em sua pesquisa.
Como podemos notar, a abordagem bayesiana é amplamente utilizada não só na re-
cuperação de informação, mas também, como método de apoio em diversos trabalhos
de reconstrução 3D, como no artigo [Oswald and Lev, 2001], onde é proposto o uso de
múltiplos observadores, espacialmente espalhados para o reconhecimento de objetos, in-
troduzindo o conceito de Reconhecimento Cooperativo de Objetos (RCO)3 . Este método
executa a integração das hipóteses individuais geradas a partir de cada ponto de vista,
sobre os quais são aplicados testes estatı́sticos e redes bayesianas para o matching entre os
objetos. Os resultados experimentais apresentados indicam um aumento de robustez no
processo, quando aplicada a RCO em relação aos métodos “ clássicos” de reconhecimento
individual.
A abordagem bayesiana com o uso de múltiplos observadores ou pontos de vista,
também é vista no artigo [Tang et al., 2005], no qual se propôs uma solução de convergência
garantida para reconstrução 3D com uso de múltiplas câmeras. Contudo, diferentemente
de [Oswald and Lev, 2001], os observadores não tinham as hipóteses iniciais, advindas de
um modelo previamente inserido em uma base de dados. Então, para reconstruir um ob-
jeto alvo, são analisadas as correspondências entre as linhas 2D, informadas pelas múltiplas

1
A Realidade Aumentada será apresentada na Seção 3.7.
2
Registro de Cena é um dos requisitos para a RA e seus conceitos serão melhores apresentados na Seção
3.7.
3
Este artigo também é apresentado a seguir, neste capı́tulo, na Seção 2.4.
CAPÍTULO 2. TRABALHOS RELACIONADOS 7

visões, em um método de projeção ortogonal, chamado Projeção Reconstrutiva. Porém, os


resultados apresentados, embora muito robustos e hábeis a lidar com ruı́dos, mostraram-se
lentos para uso em sistemas de reconstrução em tempo real.
Variações nos métodos bayesianos podem ser utilizadas para melhorar o desempenho
e diminuir a complexidade dos modelos, como visto no trabalho [Jin et al., 2004], onde
foi gerada uma proposta para um sistema utilizando modelos bayesianos em conjunto
com técnicas de segmentação e clusterização com restrições semânticas. Esta abordagem
possibilitou a classificação de um grande número de imagens automaticamente. Nos re-
sultados, foram apresentados dados que justificaram o uso das RBs em relação a outras
técnicas, como por exemplo, o SVM probabilı́stico. Outro ponto importante são os re-
sultados da comparação entre os modelos bayesianos naı̈ve-bayes (NB) e semi-naı̈ve-bayes
(SNB). Nesta comparação, foi mostrado que o modelo SNB tem melhor performance, mas
requer um poder computacional muito maior que a abordagem NB. Isto deve-se ao maior
número de análises feitas no cluster pela SNB, em comparação com NB.
As RBs também mostraram-se adequadas em [Thornton et al., 2007], no qual é descrita
um procedimento para o reconhecimento de padrões em casos onde existam deformações
não-lineares, que ocorrem, por exemplo, na análise de ı́ris ou escrita manual. O obje-
tivo principal da pesquisa era extrair a transformação mais aproximada, “ possivelmente
não-linear”, entre duas imagens para definir se elas participavam de uma mesma classe.
Os resultados mostraram que existem vantagens em utilizar um modelo bayesiano para
a geração de um matching mais preciso, tolerante a distorções e deformações. Por fim,
mostrou-se que a técnica não despende alto custo computacional, o que permitiria, inclu-
sive, seu uso em sistemas em tempo real.
A utilidade das RBs pode ser vista em outras sub-áreas do processamento de imagens,
como a segmentação. Conforme descrito em [Yong-li et al., 2007], para segmentar os se-
dimentos em imagens médicas, um classificador bayesiano foi aplicado em conjunto com
morfologia matemática, corrosão e expansão, resultando no aumento da precisão de todo
o processo, mesmo envolvendo amostras de imagens médicas ruidosas.
Ainda como agregador de desempenho, podemos citar [Li et al., 2003], onde, visando
CAPÍTULO 2. TRABALHOS RELACIONADOS 8

a extração das caracterı́sticas de background e foreground, foi apresentado um modelo de


classificador bayesiano capaz de separar objetos em imagens em movimento (como galhos
de árvores balançando, superfı́cies de lı́quidos, etc).
Nesta monografia, utilizaremos o modelo bayesiano proposto por [Rodrigues, 2003] e
[Rodrigues et al., 2005]. No entanto, o diferencial principal da técnica por nós apresentada
é que as probabilidades a priori do modelo serão calculadas com base na divergência de
Kullback-Leibler estendida. Assim, introduzimos o nome de Redes Bayesianas Entrópicas,
ou, Entropia Bayesiana(RBE).

2.2 Entropia e Divergência de Kullback-Leibler


Desde de os estudos de Rudolf Julius Emanuel Clausius, no Séc. XIX, a Entropia tem
despertado o interesse de diversos ramos da Ciência. É fato que ela encontra cada vez mais
aplicações fora da Mecânica Estatı́stica. Uma das áreas onde seu emprego é realmente
vasto é a Ciência da Computação, em especial, no processamento de imagens digitais e
visão computacional.
As formulações de Boltzmann-Gibbs, foram de encontro com as necessidades da me-
dida quantitativa de informação proposta por Shannon em [Shannon, 1948]. Este trabalho
fundamentou e introduziu o uso da entropia para sistemas de informação e Ciências da
Computação, gerando uma nova área de pesquisa, cujo o nome é Teoria da Informação.
No teor desta publicação, Shannon propôs um modelo para sistemas de comunicação uti-
lizando a entropia como ferramenta para estimar a quantidade máxima de informação que
poderia ser transmitida por um determinado canal.
O livro [Gonzalez and Woods, 2003] sintetiza os conceitos criados por Shannon, bem
como, faz um paralelo entre as proposições contidas em [Shannon, 1948] e seus possı́veis
usos para análise de imagens, como por exemplo, nos casos onde é necessária a compressão
e segmentação.
Alguns dos conceitos demonstrados em [Shannon, 1948], foram utilizados por [Kullback and Leibler, 195
com a finalidade de gerar uma forma de medir o que os próprios autores denominaram
CAPÍTULO 2. TRABALHOS RELACIONADOS 9

como “ distância” ou “ divergência” entre duas populações estatı́sticas. Este trabalho foi
um marco, pois, de certo modo, disseminou ainda mais os conceitos da entropia, sendo
que seu uso é amplamente encontrado e citado na literatura. Em nosso trabalho, este
método, conhecido como Divergência de Kullback-Leibler4 , é o discriminante fundamental
entre distribuições de mesmo contexto.
A divergência de Kullback-Leibler é encontrada em vários trabalhos, como é o caso
de [Vasconcelos et al., 2004], onde esta abordagem foi utilizada em conjunto com outros
métodos estatı́sticos para que fosse realizado o reconhecimento visual de imagens. As
pesquisas dispostas nesta publicação indicaram que a melhor performance, dentro de todos
os métodos descriminantes analisados, foi a do classificador baseado em Kullback-Leibler.
Embora as formulações de Boltzmann-Gibbs e, por conseqüência, Shannon, tenham
obtido relativo sucesso em diversas aplicações, ainda existem alguns fenômenos que esta
técnica é incapaz de modelar. Então, por volta da segunda metade da década de 1980,
Constantino Tsallis, em seu trabalho [Tsallis, 1988], introduziu um modelo estendido dos
conceitos de Entropia, fundamentando o que viria a ser conhecido como Entropia de Tsallis
ou Entropia Não-Extensiva5 . De maneira geral, os modelos anteriores à proposição de Tsal-
lis não eram aptos a modelar sistemas, como por exemplo, os tratados em [Bolzan et al., 2004],
[Beck, 2002] e [Taruya and Sakagami, 2002].
A Entropia de Tsallis também foi um dos focos das pesquisa realizadas em [Tavares, 2003].
Através de uma análise, do ponto de vista matemático, são expostas as propriedades e axi-
omas dos diversos métodos relativos à entropia, em suas diferentes variações e aplicações.
Este trabalho teve grande importância em nossas pesquisas, pois, por seu conteúdo es-
tritamente matemático, nos permitiu fundamentar e sedimentar os conceitos relativos à
Entropia e sua aplicação na Divergência de Kullback-Leibler.
Uma comparação entre os métodos extensivos de Shannon [Shannon, 1948] e não-
extensivos de Tsallis [Tsallis, 1988] é feita em [Martin et al., 2004] para o registro de ima-

4
A definição formal da equação e dos conceitos relativos a Divergência de Kullback-Leibler encontram-se
na Seção 3.6.3
5
Os conceitos envolvendo a Entropia não-extensiva e sua relação com a Entropia clássica serão apre-
sentados e discutidos nas Seções 3.5 e 3.4.
CAPÍTULO 2. TRABALHOS RELACIONADOS 10

gens. Para isso, foi proposta uma contraposição entre os métodos Kullback-Leibler em sua
forma clássica e não-extensı́va6 . A pesquisa também utilizou as duas formas de divergência
em conjunto com uma perturbação estocástica. Os resultados demonstraram uma redução
significativa do número de iterações e ganhos na precisão do registro pela utilização da
abordagem não-extensiva.
De fato, segundo as pesquisas realizadas em [Esquef, 2002], existe um fator de não-
extensividade em imagens. Intrinsecamente, esta relação faz a técnica pertinente à aplicação
em reconhecimento de padrões, o que, justifica melhor desempenho nos processos basea-
dos na abordagem não-extensiva. O autor analisou diversos métodos de reconhecimento
de padrão e segmentação, de forma que os resultados que mostraram melhor performance
foram aqueles onde empregou-se o parâmetro q de não-extensividade proposto por Tsallis.
Neste trabalho, os conceitos relacionados à Entropia, nas formas clássica e não-extensı́va,
estão estritamente ligados ao casamento de padrões. Nesta monografia, utilizaremos a
Divergência de Kullback-Leibler estendida para executar o processo de “ matching” de
caracterı́sticas como a cor, a forma e a textura de imagens.

2.3 Realidade Aumentada


Por sua alta versatilidade e potencial de aplicação, atualmente, a Realidade Aumentada
(RA) vem sendo utilizada como ferramenta importantı́ssima por diversos setores do co-
nhecimento e da manufatura, abrangendo desde a indústria aéreo-naval, passando pelo
entretenimento e educação, e até mesmo, no auxı́lio a delicados procedimentos cirúrgicos
[Azuma, 1997] [Silva et al., 2004].
A RA encotrou espaço também nas pesquisas da área de aviação militar, onde disposi-
tivos montados nos capacetes dos pilotos permitem acesso imediato às informações sobre
os terrenos, onde mapas e dados podem ser projetados sobre as imagens da paisagem real.
Desta forma, os pilotos podem continuar a controlar o avião olhando para o horizonte e,

6
A apresentação da Divergência de Kullback-Leibler na forma não-extensiva é apresentada na Seção
3.5 e pode ser realizada conforme visto em [Esquef, 2002] e [Barão, 2003].
CAPÍTULO 2. TRABALHOS RELACIONADOS 11

caso ocorra a detecção de um alvo, o sistema pode realçar e sinalizar sua posição, alertando
o piloto e permitindo uma melhor reação [Azuma, 1997] [Silva et al., 2004].
Na engenharia, diversas aplicações são possı́veis, uma vez que, com sistemas de RA,
instruções sobre a manutenção e montagem de dispositivos complexos podem ser passadas
para um técnico de forma visual e simplificada. Este conceito foi usado pela equipe de
pesquisa da Boeing, onde seus técnicos são treinados e auxiliados na manutenção dos
sistemas elétricos das suas aeronaves, reduzindo assim custos e melhorando processos
[Azuma, 1997]. Também são possı́veis tarefas de visualização e pesquisa, tendo em vista
que a tecnologia permite visualizar todos os ângulos e perspectivas possı́veis, melhorando
e corrigindo aspectos de novos produtos ainda em desenvolvimento [Silva et al., 2004].
Na educação, é possı́vel aplicar informações contextuais e históricas sobre localidades
e objetos que estejam sendo estudados. A RA também pode ser utilizada conjuntamente
com mı́dias tradicionais, como os livros. Nos trabalhos [Dünser and Hornecker, 2007a],
[Dünser and Hornecker, 2007b] e [Grasset et al., 2007], é usado um aplicativo chamado
MagicBook que permite aos leitores desfrutar de uma leitura convencional, ou, através
da RA, ter um experiência multimı́dia, diretamente das páginas de seus livros.
Na indústria do entretenimento, videogames elevam o grau da experiência do jogador,
através da mescla entre objetos virtuais e o mundo real. Isto esta sendo feito pela Sony
Computer Entertainment com The Eye of The Judgment 7 , que é um jogo de cartas, onde,
uma vez identificadas as cartas que os usuários colocam sobre a mesa, o sistema exibe
as informações, ı́tens ou personagens a elas relativas e os torna manipuláveis dentro da
aplicação.
Ainda no ramo de entretenimento, diversas companhias atualmente utilizam a RA
para adicionar propaganda e outros recursos a suas transmissões [[Azuma et al., 2001],
[Netto et al., 2002]].
Uma outra área com vasto potencial de aplicações é a medicina, como visto em [Morris et al., 2004],
no qual otologistas são capazes de simular procedimentos de reconstruções cranianas, us-

7
Informações retiradas do endereço http : //www.us.playstation.com/P S3/Games/T HE EY E OF JU DGM EN T ,
em Outubro de 2008
CAPÍTULO 2. TRABALHOS RELACIONADOS 12

ando RA e dispositivos hápticos. Neste sistema foi criado um mecanismo capaz de ren-
derizar e calcular os volumes da região da têmpora humana, melhorando os procedimentos
e minimizando riscos. De forma geral, com a RA é possı́vel planejar e executar com maior
eficiência diversos procedimentos cirúrgicos. Valendo-se de técnicas como a projeção, dis-
positivos do tipo Video-See-Through8 (VST) ou Optical-See-Through9 (OST), médicos po-
dem ser guiados em procedimentos complexos, como a remoção de um câncer ou a recon-
strução de tecidos. Os sistemas podem ser aplicados para ajudar a delimitar exatamente
uma área a ser removida (em caso de câncer), através da injeção de ı́tens ou recursos de
RA, minimizando as seqüelas e o tempo de recuperação dos pacientes.
Dentre diversos trabalhos realizados na área de pesquisa da RA, destaca-se o [Kato and Billinghurst, 199
onde foi apresentado um sistema de conferência com RA, capaz de sobrepor imagens vir-
tuais em objetos reais. A aplicação demonstrada é baseada no uso de marcadores fiduci-
ais (fiducial tags), que são caracteres ou desenhos com geometria única e conhecida pelo
sistema. O conhecimento a priori destas geometrias permitem à aplicação inferenciar in-
formações como distância, ângulo de inclinação, direção e rotação. Contudo, como citado
em [Silva, 2006], o uso destes marcadores pode limitar a abrangência de aplicações, pois os
mesmos demonstraram-se ineficientes ou inadequados para lidar com problemas de oclusão
e o uso em ambientes externos. Em contrapartida às sua limitações técnicas, a abordagem
apresentada em [Kato and Billinghurst, 1999] tem curva de aprendizado relativamente pe-
quena e é de simples implementação, o que levou à criação do ARToolkit que é uma bibli-
oteca para desenvolvimento de aplicativos de RA, amplamente citada e utilizada em ou-
tros trabalhos como [Billinghurst et al., 2002], [Silva et al., 2004], [Rodrigues et al., 2004]
e [Silva, 2006].

8
Mais informações sobre VST podem ser encontradas na Seção 3.7.1
9
Mais informações sobre OST podem ser encontradas na Seção 3.7.1
CAPÍTULO 2. TRABALHOS RELACIONADOS 13

2.4 Reconhecimento Cooperativo de Objetos


O processo conhecido como registro é crucial em uma aplicação de RA. Executá-lo de
forma eficiente depende do reconhecimento dos marcadores, que podem ser artificiais ou
objetos naturais já inseridos na cena. Em nosso trabalho, para o processo de registro,
empregaremos objetos reais como marcadores, utilizando suas caracterı́sticas de cor, forma
e textura para o reconhecimento. Assim, como já definido anteriormente, a técnica de
reconhecimento deve ser o mais robusta possı́vel, sendo que deste processo depende todo
o funcionamento da aplicação.
O trabalho [Oswald and Lev, 2001], como já citado na Seção 2.1, introduziu o método
de Reconhecimento Cooperativo de Objetos (RCO), através do uso de múltiplas visões
ou pontos de vista de um mesmo objeto. O princı́pio conceitual deste trabalho é intui-
tivamente baseado na alegação feita em [Weiss and Ray, 2001], de que sempre há perdas
de informações, como volume ou profundidade, quando tentamos utilizar projeções de um
objeto 3D em uma imagem 2D. Assim, também é intuitivo que inferir sobre diversas faces
de um mesmo objeto pode apresentar resultados mais acertivos e acurados. Apresentou-se
em [Oswald and Lev, 2001], a proposição de que o maior número de observadores pode
complementar e aumentar a eficiência em detectar evidências para identificação de um
objeto. Então, modelou-se uma rede de crença bayesiana, capaz de integrar e propagar es-
tatı́sticamente as múltiplas hipóteses adquiridas, onde a inferência individual de cada ponto
de observação influência o modelo como um todo. Contudo, é possı́vel que informações in-
corretas se propaguem pelos nós da RB, terminando o proceso de reconhecimento erronea-
mente. Este efeitos são indesejados, para tanto, foi proposta uma equação que previne
erros de interpretações, minimizando as disparidades causadas por evidências isoladas. Os
resultados apresentados mostraram que o aumento no número de observadores causa não
só o aumento de precisão, como também melhora na performance e velocidade da busca.
Capı́tulo 3

Conceitos Fundamentais

3.1 Teoria de Bayes


As teorias desenvolvidas pelo matemático e reverendo Thomas Bayes no século XVIII,
propunham o corolário da probabilidade conjunta (ou total), com o qual é possı́vel calcular
a probabilidade da ocorrência de uma hipótese(H), dado o conhecimento sobre o acontec-
imento de um evento(E). Estas relações, postumamente publicadas [Green et al., 2001],
ficaram conhecidas como a lei, regra ou teorema de Bayes e são definidas pela seguinte
Equação:
P (E|H) × P (H)
P (H|E) = (3.1)
P (E)
, onde lê-se probabilidade de uma hipótese H dado que um evento E ocorreu com certo
grau de certeza.
Atualmente, há um grande interesse no uso da teoria de Bayes em diversas aplicações,
e um dos motivos advém da capacidade proporcionada pela técnica para solucionar e
inferir sobre problemas, usando a teoria de probabilidades como lógica [NAS, 2001]. Isto,
contrapõe-se de maneira vantajosa ao uso da lógica convencional, pois, sistemas baseados
nesta última, normalmente lidam apenas com problemas totalmente conhecidos e conside-
ram apenas interações de causa e efeito, desprezando as intensidades das relações entre os
dados, ou informações manipuladas.

14
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 15

Seguindo a questão do relacionamento e das causalidades entre os dados, a teoria


bayesiana pode ser estendida permitindo-nos quantificar a intensidade dos relacionamentos
entre diversos eventos, direta ou indiretamente relacionados. Para tanto, criou-se as redes
bayesianas, discutidas na próxima seção.

3.2 Redes Bayesianas


A teoria de Bayes é base para o estudo de Redes Bayesianas (RB), que é usada princi-
palmente para o estudo de problemas que não podem ser resolvidos apenas com a relação
de uma única evidência e uma única hipótese. A idéia da RB é criar representações cau-
sais, modelos próximos da realidade, intuitivamente ligados ao raciocı́nio lógico utilizado
por seres humanos para resolver problemas complexos e com diversa gama de hipóteses.
Esta similaridade entre os modelos, a realidade e a forma humana de inferência é um fator
vantajoso da abordagem, pois existe maior facilidade na extração e aproveitamento dos
conhecimentos de um especialista.
Formalmente, uma RB é uma representação gráfica das intensidades das correlações
entre eventos probabilı́sticos. Utilizando o conceito de grafos, uma rede é formada por nós,
os quais representam eventos e arcos direcionados, que representam suas dependências.
Este conjunto (nós-arcos) deve gerar um grafo direcionado, acı́clico e finito. Por outro
lado, a representação numérica das intensidades das dependências entre eventos, é definida
por tabelas de probabilidade conjunta (TPC). Estas contêm os valores das probabilidades
relacionadas às ocorrências de cada um dos eventos. Um exemplo de RB é apresentado
pela Figura 3.1.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 16

Figura 3.1: Grafo de representação de uma BN.

O grafo da Figura 3.1 representa a distribuição conjunta do conjunto das variáveis


{E0 , E1 , E2 , E3 , E4 , E5 , E6 }, com valores respectivamente definidos por {e0 , e1 , e2 , e3 , e4 , e5 , e6 }.
Para esta representação especı́fica, temos E0 como nó pai, ou raiz, o qual tem como filhos
E1 e E2 . A probabilidade de P (E0 ), do nó E0 é definida como probabilidade a priori, pois
sua ocorrência é o evento conhecido deste modelo. Agora, seguindo a orientação do grafo,
encontramos os eventos E1 e E2 , os quais são independentes entre si, porém, suas proba-
bilidades dependem de E0 . Ainda, analisando E1 e E2 , o primeiro é pai da folha (nós sem
filhos) E3 e do nó E4 e o segundo é pai de E4 e da folha E5 . Isto implica que P (E4 ) depende
tanto da P (E1 ), quanto de P (E2 ), sendo os valores dos outros nós dependentes apenas de
seus respectivos pais. Sucessivamente dentro do encadeamento do grafo, encontraremos a
folha E6 , filha e dependente do nó E4 . Assim, devido às relações entre os eventos, o cálculo
da distribuição conjunta de probabilidades do modelo é definida pela Equação 3.2.

P (E0 , E1 , E2 , E3 , E4 , E5 , E6 ) = P (E0 )P (E2 |E0 )P (E1 |E0 )P (E2 |E1 )P (E4 |E1 , E2 )P (E5 |E2 )P (E6 |E4 )
(3.2)
Neste trabalho, as RB são o ponto-chave, uma vez que serão utilizadas para modelar a
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 17

visão de múltiplos usuários no processo de recuperação de informação.

3.3 Entropia
Por volta da metade do Século XIX, em plena revolução industrial, o fı́sico e matemático
alemão Rudolf Julius Emanuel Clausius (1822-1888), idealizou uma equação para quan-
tificar as perdas inerentes à transformação de uma forma de energia em outra. O objetivo
de sua análise era calcular a transformação da energia térmica em mecânica, relacionada
à quantidade de trabalho que uma máquina a vapor era capaz de produzir. Este estudo
estabeleceu a segunda lei da termodinâmica e o conceito de Entropia.
Segundo [Çengel, 1997], Entropia é um conceito e não uma grandeza, cujo interesse dá-
se pela observância da variação de seus valores ao longo do tempo, que é válida apenas para
análise de um processo definido. Desta forma, embora a Entropia tenha sido formalmente
definida, trata-se de um conceito intuitivo, que deve ser avaliado conforme o contexto
de sua aplicação. Por exemplo, na termodinâmica, como visto no inı́cio desta seção, a
Entropia é um processo utilizado para medir o trabalho de um sistema para transformação
de energia; na fı́sica, é usada para medir a desordem de uma distribuição e na Teoria da
Informação, ela é utilizada como medida quantitativa de informação transmitida em um
canal, conforme será visto na Seção 3.4. Nesta dissertação estamos interessados no conceito
de Entropia como medida de informação.
Do ponto de vista termodinâmico, a variação da Entropia pode ser definida pela
Equação (3.3), que, com adequações ao contexto da aplicação, é largamente aplicada em
diversos ramos do conhecimento, abrangendo desde a fı́sica até a sociologia.

4Q
4S = , (3.3)
T
onde 4S, representa a variação da Entropia em relação à variação de calor 4Q em um
sistema com temperatura constante T .
Como descrito em [Çengel, 1997], a Entropia pode ser entendida como uma medida da
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 18

desordem ou aleatoriedade em nı́vel molecular. Conceitualmente, a afirmação que rela-


ciona a análise em termos de moléculas à Entropia é creditada a Ludwig Boltzmann, que,
em 1877, sugeriu a Entropia em estados microscópicos e macroscópicos. Os eventos mi-
croscópicos tratam da análise de microestados em nı́vel molecular do sistema. Por outro
lado, a Entropia dos estados macroscópicos é diretamente relacionada à energia interna,
pressão e temperatura, ditos parâmetros termodinâmicos. Estas observações fundamen-
taram a Equação (3.4)
S ∝ log Ω (3.4)

onde, segundo [Tavares, 2003], Boltzmann observou que, em um sistema fechado, existe
uma proporção direta entre a Entropia S e volume ocupado pelo estado macroscópico
Ω. Posteriormente, esta Equação (3.4) passou a ser descrita como a Equação (3.5), onde
surge a constante k, ou constante de Boltzmann. Embora a Equação (3.5) seja atribuı́da
a Boltzmann, a mesma foi publicada apenas 1906, uma ano após sua morte.

S = k ln W. (3.5)

Formalmente, na Equação (3.5), k ∈ R+ e W é o número de estados microscópicos do


sistema em relação ao macroestado analisado.
Baseado nos estudos de Boltzmann, Willard Gibbs criou uma forma mais generalizada
da Entropia para analisar a movimentação, segundo as leis da mecânica, de corpos com
complexidade arbitrária, resultando na Equação (3.6).

W
X
S = −k pi ln pi . (3.6)
i=0

Assim, seguindo as formulações (3.4) e (3.5), na Equação (3.6), apresentada por Gibbs,
W é o número total de microestados e pi , é a probabilidade do sistema estar no estado ωi .
Estes conceitos ficaram por quase um século e meio restritos à área termodinâmica,
porém, com o artigo “ The Mathematical Theory of Communication” de 1948, Claude
Shannon propôs um modelo para medição quantitativa e probabilı́stica da informação,
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 19

baseado em Entropia. Apresentaremos a Entropia do ponto de vista da teoria de Shannon


na Seção 3.4, a seguir.

3.4 Teoria de Informação e Entropia


Assim como Rudolf Claussius queria melhorar o desempenho das máquinas à vapor, Claude
E. Shannon, motivado pela criação de novos meios de comunicação, como o telefone e o
telegráfo, percebeu que seria necessário entender as leis que regem estes sistemas e encon-
trar uma forma de maximizar a capacidade do envio de informação e reduzir os problemas
ligados ao ruı́do e às caracterı́sticas fı́sicas especı́ficas dos meios ou canais de comunicação.
Então, em 1948, publicou um trabalho intitulado “ A Mathematical Theory of Commu-
nication” [Shannon, 1948], no qual objetivava solucionar, o que para ele era o problema
central da Teoria da Informação: “ reproduzir em um ponto, exata ou aproximadamente,
a mensagem selecionada em outro ponto”.
De forma geral, Shannon também criou um modelo para um sistema de comunicação
e relacionou seus componentes de maneira matemática e probabilı́stica, propondo uma
forma quantitativa para medir a informação fornecida por uma mensagem. Esta medição
é baseada na probabilidade da ocorrência da mensagem selecionada. Contudo, existe uma
razão inversa entre a probabilidade da ocorrência da mensagem e a quantidade de in-
formação nela contida. Assim, quanto maior a probabilidade da ocorrência de uma men-
sagem, menor a quantidade de “ informação própria” que ela carrega, sendo o inverso
também verdadeiro.
Intuitivamente, a Entropia está relacionada ao grau de desordem em um sistema fechado.
Assim, em uma “ fonte de informação ”, quanto maior a equiprobabilidade da ocorrência
de mensagens, mais desordenada estará a transmissão e, conseqüentemente, maior será sua
Entropia. Verificando este fato, John von Neumann sugeriu à Shannon o uso da mesma
função matemática da termodinâmica definida Boltzman e Gibbs.
Sendo assim, Shannon propôs o seguinte formalismo para o cálculo da Entropia (quan-
tidade de informação de uma fonte): Seja P = {p1 , p2 , ...., pn }, uma distribuição conjunta
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 20

de probabilidade de um sistema fı́sico, onde pi é a probabilidade do sistema estar no estado


i; o número de estados possı́veis é n. Logo, a entropia do sistema é:

n
X
S=− pi ln pi . (3.7)
i=0

A formulação de Shannon foi um marco para a Teoria da Informação e influenciou


muitas outras teorias, principalmente na Ciência da Computação, onde é, desde então,
usada em larga escala em diversas aplicações como: casamento de padrões, transmissão de
redes, processamento de sinais e visão computacional.
Nesta dissertação introduzimos o uso da entropia para o cálculo da probabilidade de
um objeto possuindo caracterı́sticas de cor, forma e textura, ser encontrado em uma cena
real, em uma aplicação de reconstrução tridimensional do ponto de vista bayesiano. Sendo
assim, reiteramos o termo “ Entropia Bayesiana”.

3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica

É fato que o formalismo proposto por Shannon, embora utilizado principalmente na Teoria
da Comunicação, está intrinsecamente ligado ao conceito fı́sico e à abordagem tomada para
a medição do nı́vel de caos em um sistema. Então, podemos exemplificar a Equação (3.7)
tomando como exemplo um sistema fechado, com 36 estados possı́veis, os quais têm chances
equiprováveis de possuir uma das moléculas de um gás qualquer que esteja encerrado no
sistema. Desta maneira, podemos entender que pela aplicação dos conceitos de Boltzmann
e Gibbs, terı́amos 36 microestados possı́veis para o sistema, o que confere W = 36. Isto,
dado a equiprobabilidade dos estados, nos permite afirmar que o sistema encontra-se em
Máxima Entropia. Assim, utilizando uma simples equação estatı́stica, é possı́vel verificar
1
que as chances de uma molécula i estar em um estado qualquer é de 36
. Esta probabilidade
é representada por P (i) e definida por:

ni
P (i) = , (3.8)
W
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 21

onde ni é a quantidade de moléculas em um estado e W é o número total de estados.


Aplicado-se a idéia de equiprobabilidade em 36 microestados à Equação 3.7, temos:

1
p1 = p2 = p3 = . . . = p36 = (3.9)
36

S = −[(p1 ln p1 ) + (p2 ln p2 ) + (p3 ln p3 ) + . . . + (p36 ln p36 )] (3.10)


1 1 1 1 1 1 1 1
S = −[( ln ) + ( ln ) + ( ln ) + . . . + ( ln )]
36 36 36 36 36 36 36 36
1 1
S = −(36 · ln )
36 36
1
S = −(ln )
36
S = −(−(ln 36−1 ))

S = −(−1 ln 36)

S = ln 36

S > 0,

o que mostra que, no estado de equiprobabilidade, a entropia máxima pode ser calculada
como o logaritmo do número total de estados possı́veis (Equação (3.11)).

S = ln W. (3.11)

Por outro lado, no caso alta concentração de moléculas em um único estado e baixa
concentração nos demais, diz-se que o sistema encontra-se em desequilibrio. Assim, para
os estados com baixa concentração temos:

p1 = p2 = p3 = . . . = pW ' 0 (3.12)

e para o estado de alta concentração pj ' 1. Sendo assim, aplicando a Equação (3.8) à
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 22

Equação 3.7, proposta por Shannon, temos:

S = −[(0 ln 0) + (0 ln 0) + (0 ln 0) + . . . + (1 ln 1)] (3.13)

S = −0 + 0 + 0 + . . . + 0

S = −0 + 0 + 0 + . . . + 0.

S = 0.

Nesse caso, todos os termos de S são iguais a zero, o que indica que, em caso de alta
concetração, a entropia é próxima de zero. O que corresponde ao sistema com entropia
mı́nima, ou, maior organização (menos caos).

3.5 Entropia Não-Extensiva


Embora a Entropia de Boltzmann/Gibbs/Shannon e seus conceitos tenham extrapolado
com sucesso as áreas de interesse da termodinâmica, percebeu-se que as formulações e
os modelos propostos por Boltzmann e Gibbs não explicavam adequadamente alguns
fenômenos fı́sicos. Estes problemas ocorrem em sistemas nos quais não é respeitado o
Princı́pio da Aditividade (Equação 3.14), o qual prevê que a soma das entropias de n
subsistemas independentes, seja igual a entropia total do sistema que os contém. Assim,
supondo duas distribuições de probabilidade A e B. Para os sistemas clássicos, o princı́pio
da adtividade nos diz que:
S(A ⊕ B) = SA + SB , (3.14)

onde SA representa a entropia do sistema A e SB a entropia do sistema B.


Objetivando criar um método adequado a equacionar problemas envolvendo sistemas
não-extensivos, na metade da década de 1980, Constantino Tsallis, em seu trabalho [Tsallis, 1988],
propôs uma maneira de generalizar a Entropia, conforme citam [Tavares, 2003] e [Esquef, 2002].
As formulações sobre a mecânica estatı́stica introduzidas por Tsallis ficaram conhecidas
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 23

como “ Estatı́stica de Tsallis” ou “ Entropia de Tsallis”, sendo definidas por:

1− W q
P
i=1 pi
Sq = k , (3.15)
q−1

onde k é uma constate positiva, q ∈ R é conhecido como parâmetro entrópico e W rep-


resenta o número total de microestados do sistema. Contudo, a Equação (3.15) pode ser
reduzida à formulação original da Entropia apresentada por Shannon (Equação 3.6), no
limite q → 1.
Em relação à aditividade e seu comportamento em sistemas não-extensivos, Tsallis
introduziu o conceito Pseudo-Aditividade, iniciando o uso do parâmetro q para o cálculo
da entropia total do sistema, ficando esta representada por:

S(A ⊕ B) = SA + SB + (1 − q) · (SA + SB ). (3.16)

Notemos, que esta equação pode ser reduzida à Equação (3.14), no caso limite, em q → 1.
Segundo [Tsallis, 1988], os sistemas não-extensivos partilham as seguintes caracterı́sticas:

• Longo Alcance Espacial

• Longo Alcance Temporal

• Comportamento Fractal

• Pseudo aditividade

A Tabela 3.1 mostra um paralelo entre a teoria de Tsallis, apresentada nesta seção e as
teorias de Boltzmann/Gibbs/Shannon mostradas na Seção 3.4.

Extensivo (Shannon) Não-Extensivo (Tsallis)


q
1− ω
P
i=1 pi
S = − ni=0 pi ln pi
P
Sq = k q−1
Aditividade Pseudo-Aditividade
S(A ⊕ B) = SA + SB S(A ⊕ B) = SA + SB + (1 − q) · (SA + SB )

Tabela 3.1: Tabela comparativa entre a Entropia extensiva e não-extensiva


CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 24

Neste trabalho utilizaremos a entropia não-extensı́va para calcular o grau de crença de


um objeto Oi ser igual a um objeto Oj , dentro da medida da divêrgencia de Kullback-
Leibler, como será explicado na Seção seguinte.

3.6 Medidas de Distância


Nesta seção reunimos algumas das abordagens mais utilizadas para medidas de distância.
Ao utilizar o termo “ distância”, referimo-nos a medidas de similaridade ou divergência
entre distribuições A = [a1 , a2 , a3 , . . . , an ] e B = [b1 , b2 , b3 , . . . , bn ] de tamanho n ou objetos
observados.

3.6.1 Medidas Clássicas

É comum encontrarmos a utilização de medidas de distância baseadas na comparação entre


duas distribuições de tamanho n. Uma das técnicas mais conhecidas para esta aplicação é a
distância de Minkowiski (Equação (3.17)) que, ao utilizar-se de um parâmetro de ajuste m,
pode tanto calcular a distância de Manhattan, quanto a convencional distância Euclidiana.

" n
# m1
X
Dm = |A(i) − B(i)|m , (3.17)
i=1

onde, m é o parâmetro de ajuste; se m = 1, então a Equação (3.17) calculará a distância


Eclidiana; se m = 2, a Equação (3.17) resultará na distância de Manhattan.

3.6.2 Modelo Vetorial

As diferenças entre duas distribuições também podem ser calculadas através do modelo
vetorial, que compreenda um espaço n-dimensional. Segundo [Rodrigues, 2003], a similari-
dade entre os vetores pode ser calculada pelo cosseno interno do ângulo por eles delimitado.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 25

Assim, temos a Equação:


Pn
i=1 ai × bi
D(A|B) = pPn 2
pPn
2
. (3.18)
i=1 ai + i=1 bi

3.6.3 Divergência de Kullback-Leibler

Em 1951, Solomon Kullback (1907-1994) e Richard A. Leibler (1914-2003) apresentaram


um novo conceito para medir as divergências entre duas distribuições probabilı́sticas aleatórias
denominada Entropia Relativa, representada pela Equação 3.19, a seguir:

n
˙ ai ,
X
D(A|B) = ai log (3.19)
i=1
bi

onde A e B representam as distribuições de probabilidades discretas, variando de 1 até n.


Por derivar das formulações de Boltzmann e Gibbs, a Entropia Relativa deve apresentar
sempre resultados positivos, sendo estes iguais a zero apenas se a = b, ou ainda, segundo
[Esquef, 2002] e [Cabella et al., 2008], se a → 0, o que convenciona D(0|B) = 0. Por outro
lado, utilizando uma convenção, se b → 0, então D(A|0) = 0.
A Entropia Relativa também é conhecida, entre outras denominações, como “ distância
de Kullback-Leibler”, porém, o conceito de “ distância”, embora amplamente difundido,
não é aplicável, pois, diferentemente do entendimento convencional de distância, a di-
vergência entre duas distribuições é assimétrica, sendo D(A, B) diferente de D(B, A).
Sendo assim, foram propostas diversas formas para transformar a Entropia Relativa
em uma métrica que contorne a questão da assimetria, conforme mostrado por exem-
plo em [Johnson and Sinamovic, 2001]. Porém, utilizaremos a abordagem apresentada em
[Esquef, 2002], definida pela Equação (3.20), na forma:

DKL (A|B) = D(A|B) + D(B|A), (3.20)

onde DKL ∈ R+ , D(A|B) é a divergência entre a distribuição A para a distribuição B e


D(B|A) representa a divergência entre a distribuição B para a distribuição A.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 26

3.6.4 Divergência de Kullback-Leibler estendida

Analogamente às proposições apresentadas na Seção 3.5, a não-extensividade é aplicável


à divergência de Kullback-Leibler. Desta forma, é necessário o emprego do parâmetro
não-extensivo q, conforme apresentado em [Esquef, 2002], o que resulta na Equação (3.21)

X aq
DKLq (A|B) = i
· (ai1−q − b1−q
i ). (3.21)
i
1−q

Este método é particularmente útil para aplicações que envolvam casamento de padrões.
Desta forma, seguindo a abordagem probabilı́stica apresentada em [Barão, 2003], a En-
tropia Relativa permite quantificar o grau de certeza sobre a ocorrência de distribuição A,
dada a verificação da ocorrência de uma outra distribuição B, arbitrária.

3.7 Computação Gráfica e Realidade Aumentada


A área da Visão Computacional (VC) é intrinsecamente ligada a diversas outras áreas da
Ciência da Computação, sendo que, uma das suas maiores relações é com a Computação
Gráfica (CG). Desde simples jogos de computador ou celular a aplicações militares, a CG
tornou-se ferramenta indispensável. Isto deve-se à forma de como assimilamos e usufruı́mos
melhor informações visuais, em detrimento de informações textuais e, é claro, à possibili-
dade de simular ambientes e situações reais de maneira segura e com custos particularmente
baixos.
Com o desenvolvimento e aumento do poder computacional, foi possı́vel criar ambientes
com dinâmicas e proporções fı́sicas de forma totalmente simulada. A esta técnica deu-se o
nome de Realidade Virtual (RV). Este nome foi primeiramente utilizado por Jaron Lanier,
pesquisador da área, em 1989 [Beier, 2004].
A RV sempre teve como principal caracterı́stica a imersão (completa ou não) de um
usuário em um mundo formado por objetos totalmente sintéticos. Então, cogitou-se que,
para alguns tipos de aplicações, a RV poderia ser mesclada com o mundo real. Foi então
que surgiu o conceito da Realidade Aumentada (RA).
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 27

O objetivo da RA é adicionar informação a objetos ou localidades do mundo real.


Diferentemente da RV, onde são criados “ mundos” virtuais, a RA atem-se a incorporar
contextos e descrições a objetos reais [EDUCASE, 2005], possibilitando uma maior e mais
completa experiência de um usuário em relação ao assunto, localidade, ou objeto observado
e simulado por um sistema.
Assim, ao projetar sistemas com RA devemos nos ater a 3 pontos principais [Azuma, 1997]:

1. Mescla entre o mundo real e o virtual.

2. Interatividade em tempo real.

3. Registro em 3D, que é a capacidade de inserir corretamente um objeto sintético em


uma cena natural.

Para atendermos aos requisitos propostos pelo primeiro item, são necessários Geradores
de Cena (Scene Generators), que podem ser equipamentos ou softwares responsáveis pela
renderização e mescla de objetos virtuais ou sintéticos com o mundo real. Os geradores
de cena atuam destacando ou ocultando objetos reais e adicionando informações contextu-
alizadas, bem como novos objetos na cena. Entretanto, a interatividade em tempo real e
o registro 3D estão intrinsecamente ligados e para que a interatividade ocorra, os objetos
sintéticos devem ser registrados de forma correta, respeitando e alinhado-se aos limites
definidos pelos objetos reais ([Rodrigues et al., 2004] e [Rodrigues et al., 2005]). Assim,
para uma correta geração de cena, normalmente é necessária uma contı́nua calibração de
câmera, e isto configura-se como um dos maiores problemas da RA, pois, apenas através
da detecção do correto posicionamento do observador, é possı́vel uma melhor renderização
dos objetos para o registro 3D. Como descrito em [Rodrigues et al., 2005], este registro
pode se utilizar de diversos tipos de sensores, desde giroscópios e bússolas, até Sistemas
de Posicionamento Global (Global Positioning System, GPS). Porém, existem técnicas de
calibração de câmera que utilizam-se de um método conhecido como registro baseado em
visão, o qual não requer nada além da própria câmera e pode obter resultados mais pre-
cisos do que aplicações com uso de sensores. Em [Rodrigues et al., 2005], é sugerida uma
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 28

solução para a calibração, utilizando um modelo bayesiano, para identificação de objetos


em uma cena a partir de suas caracterı́sticas, resultando na resolução de dois problemas:
a calibração constante e a calibração inicial do sistema.
Em [Azuma, 1993], o autor define que dentro de um processo de registro eficiente, a
acurácia, a latência e o funcionamento a longa distância são fundamentais, onde a acurácia
é a diferença entre o posicionamento correto para a renderização de um objeto e o seu atual
posicionamento, cujo erro, não deve exceder a milı́metros (mm). A latência, é o tempo
levado entre o registro da imagem e a renderização dos objetos na cena, o qual, ainda
segundo o autor, não deve ultrapassar 100milissegundos(ms). Complementando o processo,
o funcionamento a longa distância é a capacidade de um objeto manter-se constantemente
registrado (alinhado) com o mundo real.
Após satisfeitos todos os requisitos para a criação de um sistema de RA, podemos
definir nı́veis da mescla entre a realidade e os ı́tens gerados por computador através de
uma taxonomia. Esta métrica, publicada em [Kishino and Milgran, 1994], criou o conceito
de Realidade Mista (RM) e também do contı́nuo de virtualidade (virtuality continnum).
Na Figura 3.2 é mostrado que todos os nı́veis possı́veis de mistura entre o Ambiente Real
(Real Environment), o Ambiente Virtual (Virtual Environment), a RA e a Virtualidade
Aumentada (Augmented Virtuality) fazem parte da RM, sendo que o conjunto de todos
tipos de realidades, sendo elas mistas ou não, integram o contı́nuo de virtualidade.

Figura 3.2: Representação simplificada do Continuo de Virtualidade, modificado de


[Kishino and Milgran, 1994]
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 29

3.7.1 Componentes e dispositivos da Realidade Aumentada

As aplicações anteriormente citadas requerem várias tecnologias e equipamentos . Em


[Silva et al., 2004], são definidas quatro grandes categorias para os dispositivos ópticos,
responsáveis pela mescla e a projeção dos objetos sintéticos com o mundo real. Estas
categorias compreendem os Optical/Video See-Through(OST), os Sistemas de projeção de
retina (Virtual Retinal Systems), a RA baseada em Monitores e a RA baseada em projeção.
Os OSTs são dispositivos que podem ser vestidos ou acoplados nas cabeças dos usuários
e, por isso, são normalmente citados pela sigla HMD (Head Mounted Devices). Estes
equipamentos utilizam uma abordagem semelhante à aplicada em capacetes de pilotos
militares, conhecida como HUD (Head Up Display)(Figura 3.4). Em ambos os casos, o
funcionamento ocorre através do uso de lentes parcialmente reflexivas (combiners), que
são colocadas em frente ao campo de visão do usuário, com visto na Figura 3.3. Por sua
parcial reflexão, é possı́vel projetar imagens renderizadas pelo Gerador de Cenas (Scene
Generator) nestas lentes e, ao mesmo tempo, permitir que o usuário continue com a visão
do mundo real, criando assim, a mescla entre o mundo real e o virtual.

Figura 3.3: Diagrama de funcionamento do OST HMD − Adaptado de [Azuma, 1997].

Porém, estes tipos de dispositivos, sofrem com a necessidade de calibração de câmera


para que haja um registro correto da cena. E este é um dos principais problemas encon-
trados por dispositivos de RA, que sejam portáteis ou que possam ser livremente movi-
mentados [Azuma, 1993]. Além disso, os OSTs normalmente têm baixa resolução (180.000
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 30

Figura 3.4: OST HMD − Adaptado de [Silva et al., 2004].

Figura 3.5: Modelo experimental de HMD − Adaptado de [Azuma et al., 2001].

à 240.000 pixels) e pouca capacidade de oclusão de objetos reais [Azuma et al., 2001]. A
estas caracterı́sticas, podemos somar a diminuição da quantidade de luz do mundo real cap-
tada pelo usuário, sendo que, também há o problema relacionado a não completa cobertura
do campo de visão pelas lentes.
Existe uma outra abordagem, conhecida como Video See-Through (VST) (Figura 3.6),
que utiliza-se de um conceito próximo ao dos OSTs. Porém, ao contrário de permitir a
passagem das imagens do mundo real através de uma lente translúcida, utiliza câmeras para
registrar as imagens. Estas imagens são combinadas pelo gerador de cena e transmitidas
para o usuário através de pequenos visores acoplados à parte interna do dispositivo.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 31

Figura 3.6: Modelo HMD do tipo VST − Adaptado de [Silva et al., 2004].

Embora estes dispositivos resolvam problemas encontrados nos OSTs, como a oclusão
e as questões relacionadas à luminosidade, esta categoria de equipamento ainda apresenta
problemas, como a discrepância na captação de imagens causadas pela diferença entre o
posicionamento da câmera em relação ao campo de visão do usuário.
Comparativamente, as duas abordagens são interessantes, dependendo do sistema plane-
jado. Temos que ter em mente que os sistemas VSTs são mais caros e um pouco mais
complexos de se implementar do que os OSTs, porém, são mais eficazes na mescla de ob-
jetos, pois resolvem os problemas da oclusão, do brilho e do contraste. Em contrapartida,
os OSTs são mais seguros e, por isso, são mais freqüentemente usados em sistemas de
navegação como o HUD dos pilotos da aeronáutica. Isto deve-se ao fato de que, em caso de
falha do dispositivo ou falta de energia, as imagens do mundo real continuam a ser vistas
pelo usuário através das lentes translúcidas, o que é impossı́vel em sistemas VSTs, que na
mesma situação, param de captar imagens e desligam os visores internos.
Uma outra categoria de implementação é a RA baseada em monitores (Figura 3.7),
que utiliza monitores de computador ou telas de handheld para produzir a mescla entre
os objetos sintéticos e os reais. Esta pouco dispendiosa aplicação é definida como uma
das mais simples na RA e ainda é capaz de solucionar diversas dificuldades apresentadas
nos sistemas HMD [Silva et al., 2004], como o problema da resolução e da oclusão. Mesmo
assim, este tipo de abordagem pode parecer um pouco menos atrativa, pois o usuário não
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 32

tem a ilusão de imersão. Para minimizar este problema, algumas aplicações são capazes de
simular volume através do uso de óculos estereoscópicos, como no sistema ARGOS (Figura
3.8), criado pela Universidade de Toronto.

Figura 3.7: Diagrama de funcionamento de RA baseada em monitor − Adaptado de


[Azuma, 1997]

Este tipo de implementação com uso de monitores é muito utilizada em trabalhos de


visualização cientı́fica, como em [Rodrigues et al., 2004]. Porém, aplicações baseadas em
monitores, excetuando-se as que utilizam handhelds, impossibilitam a livre movimentação
dos usuários pelo ambiente.
Para possibilitar a locomoção e ainda permitir fácil e ótima mescla entre ambientes e
objetos sintéticos, uma tecnologia recente de visualização é o Sistema de Projeção de Retina
(SPR)(Figura 3.9). Este equipamento é capaz de projetar imagens diretamente na retina
do olho do usuário, criando a ilusão de estar a poucos centı́metros de um objeto ou mundo
virtual. A técnica resolve diversas questões relacionadas aos HMDs, pois, gera imagens com
qualidade excelente [Silva et al., 2004], possuindo caracterı́sticas estereoscópicas, coloridas
e com bom ângulo de visão.
Inclusa na seção de dispositivos visuais para RA, temos a técnica conhecida como RA
Baseada em Projeção. Ela consiste no uso de projetores que, alinhados corretamente,
podem conferir cor, sombra e textura a modelos ou maquetes, como o visto na Figura 3.11.
Este método pode ser utilizado na indústria, facilitando a visualização dos processos de
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 33

Figura 3.8: Argos-RA baseada em monitor com uso de óculos estereoscópicos − Adaptado
de [Azuma, 1997].

Figura 3.9: Modelo de SPR − adaptado de [Silva et al., 2004].

Figura 3.10: Diagrama do SPR − adaptado de [Silva et al., 2004].


CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 34

montagens de produtos. Também é possı́vel aplicar esta técnica a procedimentos cirúrgicos,


projetando imagens sobre um paciente, de forma a guiar os médicos sobre o posicionamento
dos órgãos e formatos de incisão (Figura 3.12).

(a) Preparação para a projeção em (b) Resultado final da projeção


maquetes

Figura 3.11: Sistemas de RA baseado em projeção − Adaptado de [Rodrigues et al., 2004].

A técnica de projeção também foi utilizada no projeto Seep, ilustrado na Figura 3.13,
para projetar a simulação do comportamento de fluı́dos, onde objetos reais são identificados
e analisados como obstáculos.
Técnicas de projeção podem ser utilizadas para aplicar “ camuflagem” para dispositivos
hápticos que possam bloquear o campo de visão em uma simulação, como visto na Figura
3.14.
Uma das mais completas aplicações possı́veis para sistemas com uso de projeção são as

Figura 3.12: Projeção usada em procedimentos cirúrgicos − Adaptado de


[Rodrigues et al., 2004].
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 35

Figura 3.13: Aplicação Seep − Adaptado de [Rodrigues et al., 2004].

(a) Oclusão de objetos virtuais por ob- (b) Aplicação de projeção para
jetos reais “ camuflar” objetos reais

Figura 3.14: Técnicas de projeção utilizada para resolver problemas de oclusão entre ob-
jetos reais e virtuais − Adaptado de [Azuma et al., 2001].

cavernas digitais ou CAVES (Computer Automatic Virtual Environments) [Rodrigues et al., 2004],
ilustrado pela Figura 3.15. Essas, são como cavernas retangulares com tamanhos relativos
ao de uma sala, onde imagens são projetadas nas paredes, no piso e no teto, que funcionam
como tela. Neste sistema podem ser utilizados óculos estereoscópicos e rastreadores de
posicionamento das cabeças dos observadores, o que propicia o compartilhamento de uma
visualização cientı́fica qualquer com diversos usuários, que podem interagir normalmente
com as aplicações, através do uso de mouses 3D [Silva, 2003].
Estes sistemas sofrem com problemas conhecidos como drawback, que são relaciona-
dos a renderização das imagens. Por usar um sistema de projeção, as imagens estere-
oscópicas são geradas exclusivamente para um dos usuários, o que obriga os demais a
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 36

Figura 3.15: Caverna Digital (Cave) − Adaptado de [Pape, 2004].

Figura 3.16: Virtual Workbench − Adaptado de [Rodrigues et al., 2004].

ficarem muito próximos durante a simulação, para que consigam visualizar corretamente
as cenas geradas[Rodrigues et al., 2004].
Tecnologia similar é aplicada às bancadas virtuais (Virtual Workbench) (Figura 3.16)
que, por meio de projeções de imagens estereoscópicas em uma lâmina de vidro fosco e do
rastreamento do posicionamento da cabeça do usuário, criam um ambiente de trabalho 3D
dentro de uma moldura de madeira.
Em muitas aplicações são utilizados sistemas de visualização heterogêneos onde, através
da seleção de diferentes dispositivos, é alcançada maior e melhor interação para cada uma
das tarefas realizadas na simulação[Azuma et al., 2001].

3.7.2 Dispositivos Hápticos

Os dispositivos hápticos1 são responsáveis pela resposta sensorial tátil na interação do


usuário com o modelo que está sendo analisado. Estes dispositivos são capazes de devolver

1
Embora este trabalho não utilize equipamentos hápticos, seus conceitos e possı́veis empregos estão
intrinsecamente ligados à sistemas de RA, o que justifica sua inserção neste tópico.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 37

ao usuário sensações de geometria e rugosidade, bem como incorporar informações relativas


à caracterı́sticas fı́sicas dos objetos, como o peso, que pode ser avaliado pelo usuário através
de um efeito chamado feedback [Netto et al., 2002].
Capı́tulo 4

Proposta

4.1 Modelo Bayesiano para Recuperação de Informação

Como citado anteriormente na Seção 2.1, em [Ribeiro-Neto and Muntz, 1996b] foi pro-
posto um modelo para recuperação de informações textuais baseado em Redes de Crença
Bayesianas. Este modelo foi posteriormente adaptado em [Rodrigues, 2003], que intro-
duziu o seu uso para recuperação de informações visuais em imagens digitais, baseando-se
na avaliação de caracterı́sticas de cor, forma e textura. Recentemente, [Silva, 2006] utilizou
o modelo apresentado em [Rodrigues, 2003], propondo seu uso para aplicações de RA.
Em nossa proposta utilizaremos o modelo bayesiano apresentado em [Rodrigues, 2003]
e [Silva, 2006], o qual pode ser visto de forma esquematizada na Figura 4.1. Este modelo
consiste em uma RB de duas camadas. Destas, a camada superior (K) representa as
probabilidades a priori e a inferior (O) as probabilidades a posteriori. Todos os elementos
da camada K ligam-se a todos elementos da camada O através de arcos direcionados dos
nodos kn (integrantes da camada K) para o nodos Om (integrantes da camada O). Os
arcos indicam a probabilidade da ocorrência de um Objeto Oj , dado que foi observado o
termo ki . O modelo de [Rodrigues, 2003] e [Silva, 2006] propõe que os termos ki refiram-se
à caracterı́sticas como cor, forma e textura.

38
CAPÍTULO 4. PROPOSTA 39

Figura 4.1: Modelo de RB Genérico − Adaptado de [Rodrigues, 2003].

Dado que possuı́mos um modelo bayesiano definido, a probabilidade da ocorrência um


objeto Oj , dado que observemos um objeto modelo K é formalizado pela Equação (4.1)

P (Oj |k1 , k2 , ..., kn ) = P (Oj |K), (4.1)

onde Oj é um objeto que queremos encontrar dada a observação das caracterı́sticas k1 , k2 , ..., kn
de um objeto modelo representado por K.
Como visto nos trabalhos de [Rodrigues, 2003] ,[Rodrigues et al., 2004], [Rodrigues et al., 2005]
e [Silva, 2006], a Equação (4.2) pode ser modelada por uma cláusula OU. Desta forma, o
modelo representado pela Figura 4.1 e formalizado pela Equação (4.2), pode ser estendido
para que outros contextos possam ser validados. Assim, conforme simplificações apresen-
tadas em [Ribeiro-Neto and Muntz, 1996b] e [Coelho et al., 2004], é possı́vel adaptarmos
o modelo genérico para que se converta em novos classificadores, capazes de calcular as
probabilidades de Oj dadas as caracterı́sticas de Cor (Kc ), Forma (Kf ) e Textura (Kt ),
como demonstrado em [Rodrigues, 2003] e [Silva, 2006], resultando na Equação (4.2)

P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − P (Oj |Kf )) × (1 − P (Oj |Kt ))]. (4.2)

De forma geral, a Equação (4.2) representa a união entre diversas evidências, cada
uma representada por um termo (1 − P (Oj |ki )). Este conjunto de evidências é passı́vel de
CAPÍTULO 4. PROPOSTA 40

inserções ou remoções de novos elementos, sem que isso acarrete mudanças na estrutura do
modelo. Exemplificando, supondo que para análise um objeto, seja necessária a remoção1
das caracterı́sticas de forma (representadas pelo termo (1 − P (Oj |Kf ))). Logo, a Equação
(4.2) será reescrita na forma da Equação (4.3).

P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − P (Oj |Kt ))]. (4.3)

Similarmente, definindo a probabilidade de Kf como nula (P (Oj |Kf ) = 0), a repre-


sentação desta evidência dentro da Equação genérica (4.2) fica na forma:

P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − 0) × (1 − P (Oj |Kt ))], (4.4)

o que não altera a estrutura da modelagem e permite que os outros termos continuem a
ser avaliados.
O sistema genérico formalizado pela Equação (4.2) pode ser modelado como a união de
três modelos equivalentes ao apresentado na Figura 4.1. Desta forma, temos uma RB para
as caracterı́sticas de cor, representada pela Figura 4.2, uma para caracterı́sticas de forma,
representada pela Figura 4.3 e uma para as caracterı́sticas de textura, representada pela
Figura 4.4. Em nosso trabalho, a RB que engloba os classificadores de cor, forma e textura
é esquematizada na Figura 4.5 e é utilizada para modelar a visão de um observador2 Zi , a
partir de um ponto de vista de um objeto Oj .

4.2 Estrutura Bayesiana Proposta


Neste trabalho propomos expandir o modelo representado pela Equação (4.4) usando-o
para sistema de RA. Na Figura 4.6, mostramos a arquitetura para a qual o nosso modelo
se aplica.

1
Demonstraremos apenas a remoção de evidências, pois, de maneira intuitiva, podemos verificar que a
adição de novos termos nos leva à mesma consideração.
2
Mais informações sobre o conceito de observadores são encontradas na Seção 4.2.
CAPÍTULO 4. PROPOSTA 41

Figura 4.2: Modelo de classificador para análise de caracterı́sticas de cor − adaptado


[Rodrigues, 2003].

Figura 4.3: Modelo de classificador para análise de caracterı́sticas de forma − adaptado


[Rodrigues, 2003].

Figura 4.4: Modelo de classificador para análise de caracterı́sticas de textura − adaptado


[Rodrigues, 2003].
CAPÍTULO 4. PROPOSTA 42

Figura 4.5: Modelo de classificador para análise conjunta de caracterı́sticas de cor, forma
e textura.

A Figura 4.6 mostra que arquitetura proposta baseia-se na aquisição de imagens de um


objeto A, a partir de n pontos de vista. Estas imagens são concentradas por um servidor
central, chamado Integrador de Evidências (IE) e enviadas a outros servidores, os quais
chamamos Observadores Zi .
O IE tem como atribuições principais a captura e envio de visões para os observadores e
a Integração das evidências no processo de Fusão. Por sua vez, os observadores, que podem
estar geograficamente espalhados, têm a incumbência de estimar e retornar a probabilidade
das visões enviadas pelo IE tratarem-se de um dos objetos contidos em sua base de dados3 .
O processo completo da reconstrução funciona nas seguintes etapas, a saber:

1. Captura de visões do objeto A;

2. IE envia as visões capturadas para os Observadores;

3. Cálculo das evidências individuais de cada Observador;

4. Observadores enviam suas evidências ao IE;

5. Fusão.

No item 1, é executado um processo que consiste em posicionar n câmeras de forma

3
Mais informações sobre a base de dados utilizada neste trabalho encontram-se na Seção 4.4
CAPÍTULO 4. PROPOSTA 43

Figura 4.6: Proposta de Arquitetura para um Sistema de RA.

adequada ao redor de um objeto A, de forma que seja possı́vel capturar imagens em diversos
pontos de vista, gerando o que chamamos de visões do objeto;
No item 2, é feito o envio das visões capturadas em 1 para os n observadores. Nesta
etapa o IE tem a responsabilidade de enviar adequadamente as visões para cada um dos
observadores. O termo “ adequadamente” é utilizado porque, para o funcionamento do
modelo, é necessário que seja capturada e enviada exatamente uma visão para cada um
dos observadores;
No item 3, cada um dos observadores executa o processo de avaliação das visões envi-
adas pelo IE, através do uso do classificador bayesiano representado pela Equação (4.2) e
ilustrado pela Figura 4.5. Os observadores utilizam a divergência de Kullback-Leibler, a
partir dos procedimentos descritos na Seção 4.3, para efetuar o matching das caracterı́sticas
de cor, forma e textura do objeto A com as caracterı́sticas dos modelos Oj contidos na
base de dados;
O item 4 consiste no envio das evidências calculadas pelos observadores ao IE. Ao fim
de cada análise, os observadores devem enviar as probabilidades, em termos percentuais,
de volta ao IE.
CAPÍTULO 4. PROPOSTA 44

Finalmente, no item 5, é feita a Fusão, que consiste na integração das evidências aferidas
pelos observadores. Esta integração é executada aplicando-se o modelo genérico, esquema-
tizado pela Figura 4.1, às probabilidades definidas pelos observadores. Similarmente ao
que é feito para criar o classificador de cor, forma e textura (Figura 4.5), o resultado da
probabilidade de A (objeto observado) ser o objeto modelo Oj , feito pelos n observadores
(z), são “ fundidos” e integrados em uma nova RB. Assim, a Equação (4.2) é reescrita na
forma da Equação (4.5), da seguinte maneira:

P (Oj |z1 , z2 , . . . , zn ) = P (Oj |Z), (4.5)

onde os termos z1 , z2 , . . . , zn representam os resultados das inferências dos observadores


em relação às visões do objeto analisado, o que nos leva a generalizar através da Equação
(4.6), a seguir:

P (Oj |Z) = 1 − [(1 − Pz1 (Oj |A1 )) × (1 − Pz2 (Oj |A2 )) × . . . × (1 − Pzn (Oj |An ))], (4.6)

onde Pzi representa o grau de crença do observador zi sobre a visão An ser relativa ao
Objeto Oj .

4.3 Medida de Similaridade Proposta


Em nosso trabalho a probabilidade de um Objeto Oi ocorrer tal que um Objeto Aj foi
observado é dada pela divergência de Kullback-Leibler Estendida (DKLE), vista na seção
3.6.3, da seguinte maneira:

X Oq
P (Oi |Aj ) = i
· (Oi1−q − A1−q
i ). (4.7)
i
1−q

A Equação 4.7 será modelada para diversos tipos de informação. É através dela que
serão quantificadas as divergências entre as caracterı́sticas dos objetos alvo Aj e os padrões
CAPÍTULO 4. PROPOSTA 45

encontrados Oj .
Considerando informações de cor, o Objeto Oi será representado pelo histograma 162,
o qual será extraı́do das imagens através do método proposto em [Rodrigues, 2003].
Para modelar informações de textura, consideraremos as caracterı́sticas de co-ocorrência,
conforme definido em [Gonzalez and Woods, 2003].
Na análise de informações de forma, utilizaremos o histograma do mapa de bordas, que
será calculado por um filtro passa-alta.

4.4 Base de dados


Para validar nosso modelo utilizaremos uma base de dados da Universidade de Columbia
[Columbia University, 2001]. Esta base de dados é denominada como “ artificial”, pois
contém apenas imagens capturadas de maneira controlada, em condições ótimas de lumi-
nosidade e reflectância. A base é formada por 7200 imagens coloridas, onde constam 100
objetos retratados em 72 ângulos diferentes, espaçados em 5o por vista. Uma amostra
desta base de dados é apresentada na Figura 4.7, onde foram selecionadas 8 classes de
objetos, em 4 ângulos diferentes cada.
Uma vez que cada um dos objetos da base de dados possui 72 ângulos diferentes, o
modelo representado na Seção 4.2 pode utilizar até 72 câmeras para o processo de recons-
trução.

4.5 Proposta de Pesquisa


Nesta monografia será estudada a arquitetura mostrada na Figura 4.6, a partir da variação
dos seguintes parâmetros:

1. Histograma 162

2. Histograma do mapa de Bordas de 0o à 180o com 10 distâncias.

3. Caracterı́sticas de co-ocorrência.
CAPÍTULO 4. PROPOSTA 46

4. Variação do parâmetro entrópico q

5. Variação do número de Observadores

6. Combinações dos Ítens 1, 2 e 3.


CAPÍTULO 4. PROPOSTA 47

Figura 4.7: Amostra da base de dados Columbia contendo classes de objetos em diferentes
ângulos − adaptado de [Rodrigues, 2003].
Cronograma

Cronograma proposto:

Figura 4.8: Cronograma de defesa

48
Bibliografia

[NAS, 2001] (2001). Bayes theorem. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.

[Azuma, 1993] Azuma, R. (1993). Tracking requirements for augmented reality. Commu-
nications of the ACM, pages 50–51. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.

[Azuma, 1997] Azuma, R. (1997). A survey of augmented reality. Communications of the


ACM, pages 1–35.

[Azuma et al., 2001] Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., and
MacIntyre, B. (2001). Recent advances in augmented reality. IEEE Computer Graphics
and Applications, pages 34–47.

[Barão, 2003] Barão, M. (2003). Entropia, entropia relativa e informação mútua.

[Beck, 2002] Beck, C. (2002). Non-extensive estatistical mechanics approuch to fully de-
velop hydrodynamic turbulence. Chaos, Solutions and Fractals, 13:499–506.

[Beier, 2004] Beier, K.-P. (2004). Virtual reality: A short introduction. Disponı́vel : terça-
feira, agosto 5, 2008 at 23:10.

[Billinghurst et al., 2002] Billinghurst, M., Cheok, A., Prince, S., and Kato, H. (2002).
Real world teleconferencing. IEEE Computer Graphics and Applications, 22(6):11–13.

[Bolzan et al., 2004] Bolzan, M. J. A., Sá, L. D. d. A., Ramos, F. M., Neto, C. R., and
Rosa, R. R. (2004). Modelo da entropia generalizada aplicada aos sinais turbulentos
medidos na camada limite superficial do pantanal. Trabalho do DCM - LAC / INPE.

[Cabella et al., 2008] Cabella, B. C. T., Sturzbecher, M. J., Tedeschi, W., Filho, O. B.,
Araújo, D. B. d., and Neves, U. P. d. C. (2008). A numerical study of the kullback-leibler
distance in functional magnetic resonance imaging. Brazilian Journal of Physics, 38(1).

[Coelho et al., 2004] Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R.
(2004). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowl-
edge and Data Engineering, 16:408–417.

[Columbia University, 2001] Columbia University, D. o. C. S. (2001).


http://www.cs.columbia.edu/CAVE/research/softlib/coil-100.html.

49
BIBLIOGRAFIA 50

[Cristo et al., 2003] Cristo, M., Calado, P., Silveira, M. L., Silva, I., Muntz, R., and
Ribeiro-Neto, B. (2003). Bayesian belief networks for ir. International Journal of Ap-
proximate Reasoning, 40:163–179.

[Dünser and Hornecker, 2007a] Dünser, A. and Hornecker, E. (2007a). An observational


study of children interacting with an augmented story book. In Supporting Early Literacy
with Augmented Books Experiences with an Exploratory Study. Edutainment 2007.

[Dünser and Hornecker, 2007b] Dünser, A. and Hornecker, E. (2007b). Supporting early
literacy with augmented books experiences with an exploratory study. In In proceedings
of The 2nd International Conference of E-Learning and Games. Edutainment 2007.

[EDUCASE, 2005] EDUCASE (2005). 7 things you should know about augmented reality.

[Çengel, 1997] Çengel, Y. A. (1997). Introduction to thermodinamycs and heat transfer.


II. McGraw-Hill, international edition edition.

[Esquef, 2002] Esquef, I. A. (2002). Técnicas de entropia em processamento de imagens.


Master’s thesis, Centro Brasileiro de Pesquisas Cientı́ficas.

[Gonzalez and Woods, 2003] Gonzalez, R. C. and Woods, R. E. (2003). Processamento de


Imagens Digitais. Editora Edgard Blücher.

[Grasset et al., 2007] Grasset, R., Dünser, A., Seichter, H., and Billinghurst, M. (2007).
The mixed reality book: A new multimedia reading experience. In Proceedings of the
German Society of Informatics annual conference.

[Green et al., 2001] Green, P., Wolpert, Robert, R., Carlos, Bayarri, S., Zellner, A., and
Evans, M. (2001). What is bayesian analysis? Disponı́vel : terça-feira, agosto 5, 2008
at 23:10.

[Jin et al., 2004] Jin, W., Shi, R., and Chua, T.-S. (2004). A semi-naı̈ve bayesian method
incorporating clustering with pair-wise constraints for auto image annotation. ACM.

[Johnson and Sinamovic, 2001] Johnson, D. H. and Sinamovic, S. (2001). Symmetrizing


the kullback-leibler distance.

[Kato and Billinghurst, 1999] Kato, H. and Billinghurst, M. (1999). Marker tracking and
hmd calibration for a video-based augmented reality conferencing system. San Francisco,
USA. In Proceedings of the 2nd International Workshop on Augmented Reality (IWAR
99).

[Kishino and Milgran, 1994] Kishino, F. and Milgran, P. (1994). A taxonomy of mixed
reality visual displays. IEICE Transactions on Information Systems, Vol E77-D:1–35.
Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
BIBLIOGRAFIA 51

[Kullback and Leibler, 1951] Kullback, S. and Leibler, R. A. (1951). On information and
sufficiency. The Annals of Mathematic and Statistics, vol. 22(1):79–86.

[Li et al., 2003] Li, L., Huang, W., Gu, I. Y., and Tian, Q. (2003). Foreground object
detection from videos containing complex background. ACM.

[Martin et al., 2004] Martin, S., Morison, G., Nailon, W., and Durrani, T. (2004). Fast
and accurate image registration using tsallis entropy and simultaneous perturbation
stochastic approximation. ELECTRONICS LETTERS, 40(10).

[Morris et al., 2004] Morris, D., Sewell, C., Blevins, N., Barbagli, F., and Salisbury,
K. (2004). A collaborative virtual environment for the simulation of temporal bone
surgery. In Medical Image Computing and Computer−Assisted Intervention, volume
Vol. 3217/2004 of Lecture Notes in Computer Science, France. 7th International Confer-
ence Saint-Malo, Springer Berlin / Heidelberg.

[Netto et al., 2002] Netto, A. V., Machado, L. d. S., and Oliveira, M. C. F. d. (2002).
Realidade virtual - definições, dispositivos e aplicações. última visualização: 28/08/2008.

[Oswald and Lev, 2001] Oswald, N. and Lev, P. (2001). Cooperative object recognition.
Pattern Recognition Letters, (22).

[Pape, 2004] Pape, D. (2004). última visualização: 28/08/2008.

[Ribeiro-Neto and Muntz, 1996a] Ribeiro-Neto, B. and Muntz, R. R. (1996a). Approxi-


mate answers in databases through bayesian belief networks. XVI Int. Conference of
the Chilean Computer Science Society, pages 31–42.

[Ribeiro-Neto and Muntz, 1996b] Ribeiro-Neto, B. and Muntz, R. R. (1996b). A belief


network model for ir. ACM, pages 253–260.

[Rodrigues et al., 2004] Rodrigues, P. S., Silva, L., Oliveira, J. C., and Giraldi, G. (2004).
Augmented reality for scientific visualization: Bringing datasets into the realworld.

[Rodrigues et al., 2005] Rodrigues, P. S., Silva, R. L., Giraldi, G., and Cunha, G. (2005).
Object recognition using bayesian networks for augmented reality systems.

[Rodrigues, 2003] Rodrigues, P. S. S. (2003). Um Modelo Bayesiano Combinando Análise


Semântica Latente e Atributos Espaciais para Recuperação de Informação Visual. PhD
thesis, Universidade Federal de Minas Gerais, Belo Horizonte, MG.

[Shannon, 1948] Shannon, C. E. (1948). Mathematical theory of communication. The Bell


System Technical Journal, 27:379–423 and 623–656.

[Silva et al., 2004] Silva, R., Oliveira, J. C., and Giraldi, G. (2004). Introduction to aug-
mented reality.
BIBLIOGRAFIA 52

[Silva, 2003] Silva, R. L. d. S. d. (2003). última visualização: 28/08/2008.

[Silva, 2006] Silva, R. L. d. S. d. (2006). Um Modelo de Redes Bayesianas Aplicado a


Sistemas de Realidade Aumentada. PhD thesis, COPPE/UFRJ.

[Tang et al., 2005] Tang, A. W. K., P., N. T., Hung, Y. S., and Leung, C. H. (2005). Pro-
jective reconstruction from line-correspondence in multiple uncalibrated images. Pattern
Recognition.

[Taruya and Sakagami, 2002] Taruya, A. and Sakagami, M.-a. (2002). Gravothermal catas-
trophe and tsallis’ generalized entropy of self-gravitating systems. Physica A, 307:185–
206.

[Tavares, 2003] Tavares, A. H. M. d. P. (2003). Aspectos matemáticos da entropia. Master’s


thesis, Universidade de Aveiro.

[Thornton et al., 2007] Thornton, J., Savvides, M., and Kumar, B. V. (2007). A bayesian
approuch to deformed pattern matching of iris image. IEEE Transations on Pattern
Analisys and Machine Inteligence, vol. 29(4).

[Tsallis, 1988] Tsallis, C. (1988). Possible generalization of boltzmann-gibbs statistics.


Journal of Statistical Physics, vol. 52:479–487.

[Vasconcelos et al., 2004] Vasconcelos, N., Ho, P., and Moreno, P. (2004). The kullback-
leibler kernel as a framework for discriminant and localized representations for visual
recognition. Prague. European Conference on Computer Vision.

[Weiss and Ray, 2001] Weiss, I. and Ray, M. (2001). Model-based recognition of 3d objects
from single. IEEE TRANSACTIONS ON PATTERN ANALISYS AND MACHINE
INTELLIGENCE, 23(2):116–128.

[Yong-li et al., 2007] Yong-li, L., Wei-zhou, G., and Ling-yan, Z. (2007). The application
of bayesian method in image segmentation. IEEE.

Você também pode gostar