Escolar Documentos
Profissional Documentos
Cultura Documentos
i
Conteúdo
1 Introdução 1
1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Contribuições da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Trabalhos Relacionados 4
2.1 Redes Bayesianas (RB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Entropia e Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . 8
2.3 Realidade Aumentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Reconhecimento Cooperativo de Objetos . . . . . . . . . . . . . . . . . . . 13
3 Conceitos Fundamentais 14
3.1 Teoria de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Entropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Teoria de Informação e Entropia . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1 Entropia de Shannon segundo uma abordagem Fı́sica . . . . . . . . 20
3.5 Entropia Não-Extensiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6 Medidas de Distância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.1 Medidas Clássicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.2 Modelo Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.3 Divergência de Kullback-Leibler . . . . . . . . . . . . . . . . . . . 25
3.6.4 Divergência de Kullback-Leibler estendida . . . . . . . . . . . . . . 26
3.7 Computação Gráfica e Realidade Aumentada . . . . . . . . . . . . . . . . 26
3.7.1 Componentes e dispositivos da Realidade Aumentada . . . . . . . 29
3.7.2 Dispositivos Hápticos . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Proposta 38
4.1 Modelo Bayesiano para Recuperação de Informação . . . . . . . . . . . . . 38
4.2 Estrutura Bayesiana Proposta . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Medida de Similaridade Proposta . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Proposta de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
ii
Lista de Figuras
iii
Lista de Tabelas
iv
Capı́tulo 1
Introdução
Atualmente, é cada vez maior a demanda por sistemas de vı́deo conferência. Tais sistemas
podem ser tão simples como os atuais chats ou tão complexos como sistemas imersivos com
dispositivos hápticos que permitam aos participantes uma manipulação em conjunto de de-
talhes de objetos de interesse comum. Geralmente, tais objetos existem fisicamente somente
em um dos nós participantes. A construção destes sistemas demanda a implementação de
várias etapas que envolvem técnicas de visão computacional, geometria computacional,
processamento de imagens e computação gráfica.
Muitas destas aplicações demandam ambientes cooperativos, onde vários usuários, es-
palhados geograficamente, podem trocar informações sobre um objeto localizado em um
único nó. Estes sistemas apresentam ambientes com diversos problemas, tais como: neces-
sidade de melhor interatividade entre os participantes, confiabilidade, facilidade no acesso
das informações transmitidas, entre outros.
A interatividade entre os usuários, às vezes, requer troca em tempo real, de primitivas
gráficas e informações de caracterı́sticas visuais de objetos. Tais sistemas, como um todo,
abrem perspectivas para modelagens estatı́sticas como os modelos bayesianos e redes de
crença, já aplicados com sucesso em sistemas de recuperação de informações na web. Por
outro lado, podem apresentar fenômenos fı́sicos com interações de longa distância tanto
no espaço, quanto no tempo, o que permite também o uso de abordagens como a dos
1
CAPÍTULO 1. INTRODUÇÃO 2
1.1 Objetivo
Propor um modelo bayesiano utilizando a divergência de Kullback-Leibler para a cons-
trução de um sistema cooperativo centralizado de realidade aumentada para múltiplos
usuários.
CAPÍTULO 1. INTRODUÇÃO 3
Trabalhos Relacionados
Este capı́tulo tem como objetivo organizar e apresentar trabalhos relacionados às técnicas
que serão por nós utilizadas nesta dissertação.
A Seção 2.1 cita trabalhos que contribuem e utilizam métodos e modelos bayesianos
semelhantes aos utilizados por nós; a Seção 2.2 refere-se a trabalhos que utilizam-se de
entropia e, em especial, de medidas de similaridade com foco nas aplicações da divergência
de Kullback-Leibler; na Seção 2.3, apresentaremos algumas pesquisas e aplicações possı́veis
para a Realidade Aumentada (RA); Complementando, na Seção 2.4, são destacados traba-
lhos que embasam-se no Reconhecimento Cooperativo de Objetos (RCO) para recuperação
de informações visuais em imagens.
4
CAPÍTULO 2. TRABALHOS RELACIONADOS 5
Uma variação deste modelo, foi proposta no trabalho [Rodrigues, 2003] e aplicada
em [Rodrigues et al., 2005], introduzindo uma técnica baseada em RB para casamento de
padrões, recuperação de informações visuais em imagens, inicialização e rastreamento de
objetos em cenas reais para Realidade Aumentada1 . A abordagem adotada inferia simul-
taneamente sobre três contextos principais de informações, sendo eles: a cor, a textura e a
forma. Como resultado, os pesquisadores foram capazes de extrair e utilizar as caracterı́sti-
cas necessárias para fazer as correspondências entre os pontos 2D e 3D, embora, ainda fos-
sem necessárias algumas melhorias no desempenho do Registro de Cena2 , conforme citado
pelos autores. Contudo, os trabalhos de [Rodrigues, 2003] e [Rodrigues et al., 2005], poste-
riormente, inspiraram [Silva, 2006] a aplicar uma abordagem semelhante em sua pesquisa.
Como podemos notar, a abordagem bayesiana é amplamente utilizada não só na re-
cuperação de informação, mas também, como método de apoio em diversos trabalhos
de reconstrução 3D, como no artigo [Oswald and Lev, 2001], onde é proposto o uso de
múltiplos observadores, espacialmente espalhados para o reconhecimento de objetos, in-
troduzindo o conceito de Reconhecimento Cooperativo de Objetos (RCO)3 . Este método
executa a integração das hipóteses individuais geradas a partir de cada ponto de vista,
sobre os quais são aplicados testes estatı́sticos e redes bayesianas para o matching entre os
objetos. Os resultados experimentais apresentados indicam um aumento de robustez no
processo, quando aplicada a RCO em relação aos métodos “ clássicos” de reconhecimento
individual.
A abordagem bayesiana com o uso de múltiplos observadores ou pontos de vista,
também é vista no artigo [Tang et al., 2005], no qual se propôs uma solução de convergência
garantida para reconstrução 3D com uso de múltiplas câmeras. Contudo, diferentemente
de [Oswald and Lev, 2001], os observadores não tinham as hipóteses iniciais, advindas de
um modelo previamente inserido em uma base de dados. Então, para reconstruir um ob-
jeto alvo, são analisadas as correspondências entre as linhas 2D, informadas pelas múltiplas
1
A Realidade Aumentada será apresentada na Seção 3.7.
2
Registro de Cena é um dos requisitos para a RA e seus conceitos serão melhores apresentados na Seção
3.7.
3
Este artigo também é apresentado a seguir, neste capı́tulo, na Seção 2.4.
CAPÍTULO 2. TRABALHOS RELACIONADOS 7
como “ distância” ou “ divergência” entre duas populações estatı́sticas. Este trabalho foi
um marco, pois, de certo modo, disseminou ainda mais os conceitos da entropia, sendo
que seu uso é amplamente encontrado e citado na literatura. Em nosso trabalho, este
método, conhecido como Divergência de Kullback-Leibler4 , é o discriminante fundamental
entre distribuições de mesmo contexto.
A divergência de Kullback-Leibler é encontrada em vários trabalhos, como é o caso
de [Vasconcelos et al., 2004], onde esta abordagem foi utilizada em conjunto com outros
métodos estatı́sticos para que fosse realizado o reconhecimento visual de imagens. As
pesquisas dispostas nesta publicação indicaram que a melhor performance, dentro de todos
os métodos descriminantes analisados, foi a do classificador baseado em Kullback-Leibler.
Embora as formulações de Boltzmann-Gibbs e, por conseqüência, Shannon, tenham
obtido relativo sucesso em diversas aplicações, ainda existem alguns fenômenos que esta
técnica é incapaz de modelar. Então, por volta da segunda metade da década de 1980,
Constantino Tsallis, em seu trabalho [Tsallis, 1988], introduziu um modelo estendido dos
conceitos de Entropia, fundamentando o que viria a ser conhecido como Entropia de Tsallis
ou Entropia Não-Extensiva5 . De maneira geral, os modelos anteriores à proposição de Tsal-
lis não eram aptos a modelar sistemas, como por exemplo, os tratados em [Bolzan et al., 2004],
[Beck, 2002] e [Taruya and Sakagami, 2002].
A Entropia de Tsallis também foi um dos focos das pesquisa realizadas em [Tavares, 2003].
Através de uma análise, do ponto de vista matemático, são expostas as propriedades e axi-
omas dos diversos métodos relativos à entropia, em suas diferentes variações e aplicações.
Este trabalho teve grande importância em nossas pesquisas, pois, por seu conteúdo es-
tritamente matemático, nos permitiu fundamentar e sedimentar os conceitos relativos à
Entropia e sua aplicação na Divergência de Kullback-Leibler.
Uma comparação entre os métodos extensivos de Shannon [Shannon, 1948] e não-
extensivos de Tsallis [Tsallis, 1988] é feita em [Martin et al., 2004] para o registro de ima-
4
A definição formal da equação e dos conceitos relativos a Divergência de Kullback-Leibler encontram-se
na Seção 3.6.3
5
Os conceitos envolvendo a Entropia não-extensiva e sua relação com a Entropia clássica serão apre-
sentados e discutidos nas Seções 3.5 e 3.4.
CAPÍTULO 2. TRABALHOS RELACIONADOS 10
gens. Para isso, foi proposta uma contraposição entre os métodos Kullback-Leibler em sua
forma clássica e não-extensı́va6 . A pesquisa também utilizou as duas formas de divergência
em conjunto com uma perturbação estocástica. Os resultados demonstraram uma redução
significativa do número de iterações e ganhos na precisão do registro pela utilização da
abordagem não-extensiva.
De fato, segundo as pesquisas realizadas em [Esquef, 2002], existe um fator de não-
extensividade em imagens. Intrinsecamente, esta relação faz a técnica pertinente à aplicação
em reconhecimento de padrões, o que, justifica melhor desempenho nos processos basea-
dos na abordagem não-extensiva. O autor analisou diversos métodos de reconhecimento
de padrão e segmentação, de forma que os resultados que mostraram melhor performance
foram aqueles onde empregou-se o parâmetro q de não-extensividade proposto por Tsallis.
Neste trabalho, os conceitos relacionados à Entropia, nas formas clássica e não-extensı́va,
estão estritamente ligados ao casamento de padrões. Nesta monografia, utilizaremos a
Divergência de Kullback-Leibler estendida para executar o processo de “ matching” de
caracterı́sticas como a cor, a forma e a textura de imagens.
6
A apresentação da Divergência de Kullback-Leibler na forma não-extensiva é apresentada na Seção
3.5 e pode ser realizada conforme visto em [Esquef, 2002] e [Barão, 2003].
CAPÍTULO 2. TRABALHOS RELACIONADOS 11
caso ocorra a detecção de um alvo, o sistema pode realçar e sinalizar sua posição, alertando
o piloto e permitindo uma melhor reação [Azuma, 1997] [Silva et al., 2004].
Na engenharia, diversas aplicações são possı́veis, uma vez que, com sistemas de RA,
instruções sobre a manutenção e montagem de dispositivos complexos podem ser passadas
para um técnico de forma visual e simplificada. Este conceito foi usado pela equipe de
pesquisa da Boeing, onde seus técnicos são treinados e auxiliados na manutenção dos
sistemas elétricos das suas aeronaves, reduzindo assim custos e melhorando processos
[Azuma, 1997]. Também são possı́veis tarefas de visualização e pesquisa, tendo em vista
que a tecnologia permite visualizar todos os ângulos e perspectivas possı́veis, melhorando
e corrigindo aspectos de novos produtos ainda em desenvolvimento [Silva et al., 2004].
Na educação, é possı́vel aplicar informações contextuais e históricas sobre localidades
e objetos que estejam sendo estudados. A RA também pode ser utilizada conjuntamente
com mı́dias tradicionais, como os livros. Nos trabalhos [Dünser and Hornecker, 2007a],
[Dünser and Hornecker, 2007b] e [Grasset et al., 2007], é usado um aplicativo chamado
MagicBook que permite aos leitores desfrutar de uma leitura convencional, ou, através
da RA, ter um experiência multimı́dia, diretamente das páginas de seus livros.
Na indústria do entretenimento, videogames elevam o grau da experiência do jogador,
através da mescla entre objetos virtuais e o mundo real. Isto esta sendo feito pela Sony
Computer Entertainment com The Eye of The Judgment 7 , que é um jogo de cartas, onde,
uma vez identificadas as cartas que os usuários colocam sobre a mesa, o sistema exibe
as informações, ı́tens ou personagens a elas relativas e os torna manipuláveis dentro da
aplicação.
Ainda no ramo de entretenimento, diversas companhias atualmente utilizam a RA
para adicionar propaganda e outros recursos a suas transmissões [[Azuma et al., 2001],
[Netto et al., 2002]].
Uma outra área com vasto potencial de aplicações é a medicina, como visto em [Morris et al., 2004],
no qual otologistas são capazes de simular procedimentos de reconstruções cranianas, us-
7
Informações retiradas do endereço http : //www.us.playstation.com/P S3/Games/T HE EY E OF JU DGM EN T ,
em Outubro de 2008
CAPÍTULO 2. TRABALHOS RELACIONADOS 12
ando RA e dispositivos hápticos. Neste sistema foi criado um mecanismo capaz de ren-
derizar e calcular os volumes da região da têmpora humana, melhorando os procedimentos
e minimizando riscos. De forma geral, com a RA é possı́vel planejar e executar com maior
eficiência diversos procedimentos cirúrgicos. Valendo-se de técnicas como a projeção, dis-
positivos do tipo Video-See-Through8 (VST) ou Optical-See-Through9 (OST), médicos po-
dem ser guiados em procedimentos complexos, como a remoção de um câncer ou a recon-
strução de tecidos. Os sistemas podem ser aplicados para ajudar a delimitar exatamente
uma área a ser removida (em caso de câncer), através da injeção de ı́tens ou recursos de
RA, minimizando as seqüelas e o tempo de recuperação dos pacientes.
Dentre diversos trabalhos realizados na área de pesquisa da RA, destaca-se o [Kato and Billinghurst, 199
onde foi apresentado um sistema de conferência com RA, capaz de sobrepor imagens vir-
tuais em objetos reais. A aplicação demonstrada é baseada no uso de marcadores fiduci-
ais (fiducial tags), que são caracteres ou desenhos com geometria única e conhecida pelo
sistema. O conhecimento a priori destas geometrias permitem à aplicação inferenciar in-
formações como distância, ângulo de inclinação, direção e rotação. Contudo, como citado
em [Silva, 2006], o uso destes marcadores pode limitar a abrangência de aplicações, pois os
mesmos demonstraram-se ineficientes ou inadequados para lidar com problemas de oclusão
e o uso em ambientes externos. Em contrapartida às sua limitações técnicas, a abordagem
apresentada em [Kato and Billinghurst, 1999] tem curva de aprendizado relativamente pe-
quena e é de simples implementação, o que levou à criação do ARToolkit que é uma bibli-
oteca para desenvolvimento de aplicativos de RA, amplamente citada e utilizada em ou-
tros trabalhos como [Billinghurst et al., 2002], [Silva et al., 2004], [Rodrigues et al., 2004]
e [Silva, 2006].
8
Mais informações sobre VST podem ser encontradas na Seção 3.7.1
9
Mais informações sobre OST podem ser encontradas na Seção 3.7.1
CAPÍTULO 2. TRABALHOS RELACIONADOS 13
Conceitos Fundamentais
14
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 15
P (E0 , E1 , E2 , E3 , E4 , E5 , E6 ) = P (E0 )P (E2 |E0 )P (E1 |E0 )P (E2 |E1 )P (E4 |E1 , E2 )P (E5 |E2 )P (E6 |E4 )
(3.2)
Neste trabalho, as RB são o ponto-chave, uma vez que serão utilizadas para modelar a
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 17
3.3 Entropia
Por volta da metade do Século XIX, em plena revolução industrial, o fı́sico e matemático
alemão Rudolf Julius Emanuel Clausius (1822-1888), idealizou uma equação para quan-
tificar as perdas inerentes à transformação de uma forma de energia em outra. O objetivo
de sua análise era calcular a transformação da energia térmica em mecânica, relacionada
à quantidade de trabalho que uma máquina a vapor era capaz de produzir. Este estudo
estabeleceu a segunda lei da termodinâmica e o conceito de Entropia.
Segundo [Çengel, 1997], Entropia é um conceito e não uma grandeza, cujo interesse dá-
se pela observância da variação de seus valores ao longo do tempo, que é válida apenas para
análise de um processo definido. Desta forma, embora a Entropia tenha sido formalmente
definida, trata-se de um conceito intuitivo, que deve ser avaliado conforme o contexto
de sua aplicação. Por exemplo, na termodinâmica, como visto no inı́cio desta seção, a
Entropia é um processo utilizado para medir o trabalho de um sistema para transformação
de energia; na fı́sica, é usada para medir a desordem de uma distribuição e na Teoria da
Informação, ela é utilizada como medida quantitativa de informação transmitida em um
canal, conforme será visto na Seção 3.4. Nesta dissertação estamos interessados no conceito
de Entropia como medida de informação.
Do ponto de vista termodinâmico, a variação da Entropia pode ser definida pela
Equação (3.3), que, com adequações ao contexto da aplicação, é largamente aplicada em
diversos ramos do conhecimento, abrangendo desde a fı́sica até a sociologia.
4Q
4S = , (3.3)
T
onde 4S, representa a variação da Entropia em relação à variação de calor 4Q em um
sistema com temperatura constante T .
Como descrito em [Çengel, 1997], a Entropia pode ser entendida como uma medida da
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 18
onde, segundo [Tavares, 2003], Boltzmann observou que, em um sistema fechado, existe
uma proporção direta entre a Entropia S e volume ocupado pelo estado macroscópico
Ω. Posteriormente, esta Equação (3.4) passou a ser descrita como a Equação (3.5), onde
surge a constante k, ou constante de Boltzmann. Embora a Equação (3.5) seja atribuı́da
a Boltzmann, a mesma foi publicada apenas 1906, uma ano após sua morte.
S = k ln W. (3.5)
W
X
S = −k pi ln pi . (3.6)
i=0
Assim, seguindo as formulações (3.4) e (3.5), na Equação (3.6), apresentada por Gibbs,
W é o número total de microestados e pi , é a probabilidade do sistema estar no estado ωi .
Estes conceitos ficaram por quase um século e meio restritos à área termodinâmica,
porém, com o artigo “ The Mathematical Theory of Communication” de 1948, Claude
Shannon propôs um modelo para medição quantitativa e probabilı́stica da informação,
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 19
n
X
S=− pi ln pi . (3.7)
i=0
É fato que o formalismo proposto por Shannon, embora utilizado principalmente na Teoria
da Comunicação, está intrinsecamente ligado ao conceito fı́sico e à abordagem tomada para
a medição do nı́vel de caos em um sistema. Então, podemos exemplificar a Equação (3.7)
tomando como exemplo um sistema fechado, com 36 estados possı́veis, os quais têm chances
equiprováveis de possuir uma das moléculas de um gás qualquer que esteja encerrado no
sistema. Desta maneira, podemos entender que pela aplicação dos conceitos de Boltzmann
e Gibbs, terı́amos 36 microestados possı́veis para o sistema, o que confere W = 36. Isto,
dado a equiprobabilidade dos estados, nos permite afirmar que o sistema encontra-se em
Máxima Entropia. Assim, utilizando uma simples equação estatı́stica, é possı́vel verificar
1
que as chances de uma molécula i estar em um estado qualquer é de 36
. Esta probabilidade
é representada por P (i) e definida por:
ni
P (i) = , (3.8)
W
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 21
1
p1 = p2 = p3 = . . . = p36 = (3.9)
36
S = −(−1 ln 36)
S = ln 36
S > 0,
o que mostra que, no estado de equiprobabilidade, a entropia máxima pode ser calculada
como o logaritmo do número total de estados possı́veis (Equação (3.11)).
S = ln W. (3.11)
Por outro lado, no caso alta concentração de moléculas em um único estado e baixa
concentração nos demais, diz-se que o sistema encontra-se em desequilibrio. Assim, para
os estados com baixa concentração temos:
p1 = p2 = p3 = . . . = pW ' 0 (3.12)
e para o estado de alta concentração pj ' 1. Sendo assim, aplicando a Equação (3.8) à
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 22
S = −0 + 0 + 0 + . . . + 0
S = −0 + 0 + 0 + . . . + 0.
S = 0.
Nesse caso, todos os termos de S são iguais a zero, o que indica que, em caso de alta
concetração, a entropia é próxima de zero. O que corresponde ao sistema com entropia
mı́nima, ou, maior organização (menos caos).
1− W q
P
i=1 pi
Sq = k , (3.15)
q−1
Notemos, que esta equação pode ser reduzida à Equação (3.14), no caso limite, em q → 1.
Segundo [Tsallis, 1988], os sistemas não-extensivos partilham as seguintes caracterı́sticas:
• Comportamento Fractal
• Pseudo aditividade
A Tabela 3.1 mostra um paralelo entre a teoria de Tsallis, apresentada nesta seção e as
teorias de Boltzmann/Gibbs/Shannon mostradas na Seção 3.4.
" n
# m1
X
Dm = |A(i) − B(i)|m , (3.17)
i=1
As diferenças entre duas distribuições também podem ser calculadas através do modelo
vetorial, que compreenda um espaço n-dimensional. Segundo [Rodrigues, 2003], a similari-
dade entre os vetores pode ser calculada pelo cosseno interno do ângulo por eles delimitado.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 25
n
˙ ai ,
X
D(A|B) = ai log (3.19)
i=1
bi
X aq
DKLq (A|B) = i
· (ai1−q − b1−q
i ). (3.21)
i
1−q
Este método é particularmente útil para aplicações que envolvam casamento de padrões.
Desta forma, seguindo a abordagem probabilı́stica apresentada em [Barão, 2003], a En-
tropia Relativa permite quantificar o grau de certeza sobre a ocorrência de distribuição A,
dada a verificação da ocorrência de uma outra distribuição B, arbitrária.
Para atendermos aos requisitos propostos pelo primeiro item, são necessários Geradores
de Cena (Scene Generators), que podem ser equipamentos ou softwares responsáveis pela
renderização e mescla de objetos virtuais ou sintéticos com o mundo real. Os geradores
de cena atuam destacando ou ocultando objetos reais e adicionando informações contextu-
alizadas, bem como novos objetos na cena. Entretanto, a interatividade em tempo real e
o registro 3D estão intrinsecamente ligados e para que a interatividade ocorra, os objetos
sintéticos devem ser registrados de forma correta, respeitando e alinhado-se aos limites
definidos pelos objetos reais ([Rodrigues et al., 2004] e [Rodrigues et al., 2005]). Assim,
para uma correta geração de cena, normalmente é necessária uma contı́nua calibração de
câmera, e isto configura-se como um dos maiores problemas da RA, pois, apenas através
da detecção do correto posicionamento do observador, é possı́vel uma melhor renderização
dos objetos para o registro 3D. Como descrito em [Rodrigues et al., 2005], este registro
pode se utilizar de diversos tipos de sensores, desde giroscópios e bússolas, até Sistemas
de Posicionamento Global (Global Positioning System, GPS). Porém, existem técnicas de
calibração de câmera que utilizam-se de um método conhecido como registro baseado em
visão, o qual não requer nada além da própria câmera e pode obter resultados mais pre-
cisos do que aplicações com uso de sensores. Em [Rodrigues et al., 2005], é sugerida uma
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 28
à 240.000 pixels) e pouca capacidade de oclusão de objetos reais [Azuma et al., 2001]. A
estas caracterı́sticas, podemos somar a diminuição da quantidade de luz do mundo real cap-
tada pelo usuário, sendo que, também há o problema relacionado a não completa cobertura
do campo de visão pelas lentes.
Existe uma outra abordagem, conhecida como Video See-Through (VST) (Figura 3.6),
que utiliza-se de um conceito próximo ao dos OSTs. Porém, ao contrário de permitir a
passagem das imagens do mundo real através de uma lente translúcida, utiliza câmeras para
registrar as imagens. Estas imagens são combinadas pelo gerador de cena e transmitidas
para o usuário através de pequenos visores acoplados à parte interna do dispositivo.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 31
Figura 3.6: Modelo HMD do tipo VST − Adaptado de [Silva et al., 2004].
Embora estes dispositivos resolvam problemas encontrados nos OSTs, como a oclusão
e as questões relacionadas à luminosidade, esta categoria de equipamento ainda apresenta
problemas, como a discrepância na captação de imagens causadas pela diferença entre o
posicionamento da câmera em relação ao campo de visão do usuário.
Comparativamente, as duas abordagens são interessantes, dependendo do sistema plane-
jado. Temos que ter em mente que os sistemas VSTs são mais caros e um pouco mais
complexos de se implementar do que os OSTs, porém, são mais eficazes na mescla de ob-
jetos, pois resolvem os problemas da oclusão, do brilho e do contraste. Em contrapartida,
os OSTs são mais seguros e, por isso, são mais freqüentemente usados em sistemas de
navegação como o HUD dos pilotos da aeronáutica. Isto deve-se ao fato de que, em caso de
falha do dispositivo ou falta de energia, as imagens do mundo real continuam a ser vistas
pelo usuário através das lentes translúcidas, o que é impossı́vel em sistemas VSTs, que na
mesma situação, param de captar imagens e desligam os visores internos.
Uma outra categoria de implementação é a RA baseada em monitores (Figura 3.7),
que utiliza monitores de computador ou telas de handheld para produzir a mescla entre
os objetos sintéticos e os reais. Esta pouco dispendiosa aplicação é definida como uma
das mais simples na RA e ainda é capaz de solucionar diversas dificuldades apresentadas
nos sistemas HMD [Silva et al., 2004], como o problema da resolução e da oclusão. Mesmo
assim, este tipo de abordagem pode parecer um pouco menos atrativa, pois o usuário não
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 32
tem a ilusão de imersão. Para minimizar este problema, algumas aplicações são capazes de
simular volume através do uso de óculos estereoscópicos, como no sistema ARGOS (Figura
3.8), criado pela Universidade de Toronto.
Figura 3.8: Argos-RA baseada em monitor com uso de óculos estereoscópicos − Adaptado
de [Azuma, 1997].
A técnica de projeção também foi utilizada no projeto Seep, ilustrado na Figura 3.13,
para projetar a simulação do comportamento de fluı́dos, onde objetos reais são identificados
e analisados como obstáculos.
Técnicas de projeção podem ser utilizadas para aplicar “ camuflagem” para dispositivos
hápticos que possam bloquear o campo de visão em uma simulação, como visto na Figura
3.14.
Uma das mais completas aplicações possı́veis para sistemas com uso de projeção são as
(a) Oclusão de objetos virtuais por ob- (b) Aplicação de projeção para
jetos reais “ camuflar” objetos reais
Figura 3.14: Técnicas de projeção utilizada para resolver problemas de oclusão entre ob-
jetos reais e virtuais − Adaptado de [Azuma et al., 2001].
cavernas digitais ou CAVES (Computer Automatic Virtual Environments) [Rodrigues et al., 2004],
ilustrado pela Figura 3.15. Essas, são como cavernas retangulares com tamanhos relativos
ao de uma sala, onde imagens são projetadas nas paredes, no piso e no teto, que funcionam
como tela. Neste sistema podem ser utilizados óculos estereoscópicos e rastreadores de
posicionamento das cabeças dos observadores, o que propicia o compartilhamento de uma
visualização cientı́fica qualquer com diversos usuários, que podem interagir normalmente
com as aplicações, através do uso de mouses 3D [Silva, 2003].
Estes sistemas sofrem com problemas conhecidos como drawback, que são relaciona-
dos a renderização das imagens. Por usar um sistema de projeção, as imagens estere-
oscópicas são geradas exclusivamente para um dos usuários, o que obriga os demais a
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 36
ficarem muito próximos durante a simulação, para que consigam visualizar corretamente
as cenas geradas[Rodrigues et al., 2004].
Tecnologia similar é aplicada às bancadas virtuais (Virtual Workbench) (Figura 3.16)
que, por meio de projeções de imagens estereoscópicas em uma lâmina de vidro fosco e do
rastreamento do posicionamento da cabeça do usuário, criam um ambiente de trabalho 3D
dentro de uma moldura de madeira.
Em muitas aplicações são utilizados sistemas de visualização heterogêneos onde, através
da seleção de diferentes dispositivos, é alcançada maior e melhor interação para cada uma
das tarefas realizadas na simulação[Azuma et al., 2001].
1
Embora este trabalho não utilize equipamentos hápticos, seus conceitos e possı́veis empregos estão
intrinsecamente ligados à sistemas de RA, o que justifica sua inserção neste tópico.
CAPÍTULO 3. CONCEITOS FUNDAMENTAIS 37
Proposta
Como citado anteriormente na Seção 2.1, em [Ribeiro-Neto and Muntz, 1996b] foi pro-
posto um modelo para recuperação de informações textuais baseado em Redes de Crença
Bayesianas. Este modelo foi posteriormente adaptado em [Rodrigues, 2003], que intro-
duziu o seu uso para recuperação de informações visuais em imagens digitais, baseando-se
na avaliação de caracterı́sticas de cor, forma e textura. Recentemente, [Silva, 2006] utilizou
o modelo apresentado em [Rodrigues, 2003], propondo seu uso para aplicações de RA.
Em nossa proposta utilizaremos o modelo bayesiano apresentado em [Rodrigues, 2003]
e [Silva, 2006], o qual pode ser visto de forma esquematizada na Figura 4.1. Este modelo
consiste em uma RB de duas camadas. Destas, a camada superior (K) representa as
probabilidades a priori e a inferior (O) as probabilidades a posteriori. Todos os elementos
da camada K ligam-se a todos elementos da camada O através de arcos direcionados dos
nodos kn (integrantes da camada K) para o nodos Om (integrantes da camada O). Os
arcos indicam a probabilidade da ocorrência de um Objeto Oj , dado que foi observado o
termo ki . O modelo de [Rodrigues, 2003] e [Silva, 2006] propõe que os termos ki refiram-se
à caracterı́sticas como cor, forma e textura.
38
CAPÍTULO 4. PROPOSTA 39
onde Oj é um objeto que queremos encontrar dada a observação das caracterı́sticas k1 , k2 , ..., kn
de um objeto modelo representado por K.
Como visto nos trabalhos de [Rodrigues, 2003] ,[Rodrigues et al., 2004], [Rodrigues et al., 2005]
e [Silva, 2006], a Equação (4.2) pode ser modelada por uma cláusula OU. Desta forma, o
modelo representado pela Figura 4.1 e formalizado pela Equação (4.2), pode ser estendido
para que outros contextos possam ser validados. Assim, conforme simplificações apresen-
tadas em [Ribeiro-Neto and Muntz, 1996b] e [Coelho et al., 2004], é possı́vel adaptarmos
o modelo genérico para que se converta em novos classificadores, capazes de calcular as
probabilidades de Oj dadas as caracterı́sticas de Cor (Kc ), Forma (Kf ) e Textura (Kt ),
como demonstrado em [Rodrigues, 2003] e [Silva, 2006], resultando na Equação (4.2)
P (Oj |K) = 1 − [(1 − P (Oj |Kc )) × (1 − P (Oj |Kf )) × (1 − P (Oj |Kt ))]. (4.2)
De forma geral, a Equação (4.2) representa a união entre diversas evidências, cada
uma representada por um termo (1 − P (Oj |ki )). Este conjunto de evidências é passı́vel de
CAPÍTULO 4. PROPOSTA 40
inserções ou remoções de novos elementos, sem que isso acarrete mudanças na estrutura do
modelo. Exemplificando, supondo que para análise um objeto, seja necessária a remoção1
das caracterı́sticas de forma (representadas pelo termo (1 − P (Oj |Kf ))). Logo, a Equação
(4.2) será reescrita na forma da Equação (4.3).
o que não altera a estrutura da modelagem e permite que os outros termos continuem a
ser avaliados.
O sistema genérico formalizado pela Equação (4.2) pode ser modelado como a união de
três modelos equivalentes ao apresentado na Figura 4.1. Desta forma, temos uma RB para
as caracterı́sticas de cor, representada pela Figura 4.2, uma para caracterı́sticas de forma,
representada pela Figura 4.3 e uma para as caracterı́sticas de textura, representada pela
Figura 4.4. Em nosso trabalho, a RB que engloba os classificadores de cor, forma e textura
é esquematizada na Figura 4.5 e é utilizada para modelar a visão de um observador2 Zi , a
partir de um ponto de vista de um objeto Oj .
1
Demonstraremos apenas a remoção de evidências, pois, de maneira intuitiva, podemos verificar que a
adição de novos termos nos leva à mesma consideração.
2
Mais informações sobre o conceito de observadores são encontradas na Seção 4.2.
CAPÍTULO 4. PROPOSTA 41
Figura 4.5: Modelo de classificador para análise conjunta de caracterı́sticas de cor, forma
e textura.
5. Fusão.
3
Mais informações sobre a base de dados utilizada neste trabalho encontram-se na Seção 4.4
CAPÍTULO 4. PROPOSTA 43
adequada ao redor de um objeto A, de forma que seja possı́vel capturar imagens em diversos
pontos de vista, gerando o que chamamos de visões do objeto;
No item 2, é feito o envio das visões capturadas em 1 para os n observadores. Nesta
etapa o IE tem a responsabilidade de enviar adequadamente as visões para cada um dos
observadores. O termo “ adequadamente” é utilizado porque, para o funcionamento do
modelo, é necessário que seja capturada e enviada exatamente uma visão para cada um
dos observadores;
No item 3, cada um dos observadores executa o processo de avaliação das visões envi-
adas pelo IE, através do uso do classificador bayesiano representado pela Equação (4.2) e
ilustrado pela Figura 4.5. Os observadores utilizam a divergência de Kullback-Leibler, a
partir dos procedimentos descritos na Seção 4.3, para efetuar o matching das caracterı́sticas
de cor, forma e textura do objeto A com as caracterı́sticas dos modelos Oj contidos na
base de dados;
O item 4 consiste no envio das evidências calculadas pelos observadores ao IE. Ao fim
de cada análise, os observadores devem enviar as probabilidades, em termos percentuais,
de volta ao IE.
CAPÍTULO 4. PROPOSTA 44
Finalmente, no item 5, é feita a Fusão, que consiste na integração das evidências aferidas
pelos observadores. Esta integração é executada aplicando-se o modelo genérico, esquema-
tizado pela Figura 4.1, às probabilidades definidas pelos observadores. Similarmente ao
que é feito para criar o classificador de cor, forma e textura (Figura 4.5), o resultado da
probabilidade de A (objeto observado) ser o objeto modelo Oj , feito pelos n observadores
(z), são “ fundidos” e integrados em uma nova RB. Assim, a Equação (4.2) é reescrita na
forma da Equação (4.5), da seguinte maneira:
P (Oj |Z) = 1 − [(1 − Pz1 (Oj |A1 )) × (1 − Pz2 (Oj |A2 )) × . . . × (1 − Pzn (Oj |An ))], (4.6)
onde Pzi representa o grau de crença do observador zi sobre a visão An ser relativa ao
Objeto Oj .
X Oq
P (Oi |Aj ) = i
· (Oi1−q − A1−q
i ). (4.7)
i
1−q
A Equação 4.7 será modelada para diversos tipos de informação. É através dela que
serão quantificadas as divergências entre as caracterı́sticas dos objetos alvo Aj e os padrões
CAPÍTULO 4. PROPOSTA 45
encontrados Oj .
Considerando informações de cor, o Objeto Oi será representado pelo histograma 162,
o qual será extraı́do das imagens através do método proposto em [Rodrigues, 2003].
Para modelar informações de textura, consideraremos as caracterı́sticas de co-ocorrência,
conforme definido em [Gonzalez and Woods, 2003].
Na análise de informações de forma, utilizaremos o histograma do mapa de bordas, que
será calculado por um filtro passa-alta.
1. Histograma 162
3. Caracterı́sticas de co-ocorrência.
CAPÍTULO 4. PROPOSTA 46
Figura 4.7: Amostra da base de dados Columbia contendo classes de objetos em diferentes
ângulos − adaptado de [Rodrigues, 2003].
Cronograma
Cronograma proposto:
48
Bibliografia
[NAS, 2001] (2001). Bayes theorem. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
[Azuma, 1993] Azuma, R. (1993). Tracking requirements for augmented reality. Commu-
nications of the ACM, pages 50–51. Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
[Azuma et al., 2001] Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., and
MacIntyre, B. (2001). Recent advances in augmented reality. IEEE Computer Graphics
and Applications, pages 34–47.
[Beck, 2002] Beck, C. (2002). Non-extensive estatistical mechanics approuch to fully de-
velop hydrodynamic turbulence. Chaos, Solutions and Fractals, 13:499–506.
[Beier, 2004] Beier, K.-P. (2004). Virtual reality: A short introduction. Disponı́vel : terça-
feira, agosto 5, 2008 at 23:10.
[Billinghurst et al., 2002] Billinghurst, M., Cheok, A., Prince, S., and Kato, H. (2002).
Real world teleconferencing. IEEE Computer Graphics and Applications, 22(6):11–13.
[Bolzan et al., 2004] Bolzan, M. J. A., Sá, L. D. d. A., Ramos, F. M., Neto, C. R., and
Rosa, R. R. (2004). Modelo da entropia generalizada aplicada aos sinais turbulentos
medidos na camada limite superficial do pantanal. Trabalho do DCM - LAC / INPE.
[Cabella et al., 2008] Cabella, B. C. T., Sturzbecher, M. J., Tedeschi, W., Filho, O. B.,
Araújo, D. B. d., and Neves, U. P. d. C. (2008). A numerical study of the kullback-leibler
distance in functional magnetic resonance imaging. Brazilian Journal of Physics, 38(1).
[Coelho et al., 2004] Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R.
(2004). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowl-
edge and Data Engineering, 16:408–417.
49
BIBLIOGRAFIA 50
[Cristo et al., 2003] Cristo, M., Calado, P., Silveira, M. L., Silva, I., Muntz, R., and
Ribeiro-Neto, B. (2003). Bayesian belief networks for ir. International Journal of Ap-
proximate Reasoning, 40:163–179.
[Dünser and Hornecker, 2007b] Dünser, A. and Hornecker, E. (2007b). Supporting early
literacy with augmented books experiences with an exploratory study. In In proceedings
of The 2nd International Conference of E-Learning and Games. Edutainment 2007.
[EDUCASE, 2005] EDUCASE (2005). 7 things you should know about augmented reality.
[Grasset et al., 2007] Grasset, R., Dünser, A., Seichter, H., and Billinghurst, M. (2007).
The mixed reality book: A new multimedia reading experience. In Proceedings of the
German Society of Informatics annual conference.
[Green et al., 2001] Green, P., Wolpert, Robert, R., Carlos, Bayarri, S., Zellner, A., and
Evans, M. (2001). What is bayesian analysis? Disponı́vel : terça-feira, agosto 5, 2008
at 23:10.
[Jin et al., 2004] Jin, W., Shi, R., and Chua, T.-S. (2004). A semi-naı̈ve bayesian method
incorporating clustering with pair-wise constraints for auto image annotation. ACM.
[Kato and Billinghurst, 1999] Kato, H. and Billinghurst, M. (1999). Marker tracking and
hmd calibration for a video-based augmented reality conferencing system. San Francisco,
USA. In Proceedings of the 2nd International Workshop on Augmented Reality (IWAR
99).
[Kishino and Milgran, 1994] Kishino, F. and Milgran, P. (1994). A taxonomy of mixed
reality visual displays. IEICE Transactions on Information Systems, Vol E77-D:1–35.
Disponı́vel : terça-feira, agosto 5, 2008 at 23:10.
BIBLIOGRAFIA 51
[Kullback and Leibler, 1951] Kullback, S. and Leibler, R. A. (1951). On information and
sufficiency. The Annals of Mathematic and Statistics, vol. 22(1):79–86.
[Li et al., 2003] Li, L., Huang, W., Gu, I. Y., and Tian, Q. (2003). Foreground object
detection from videos containing complex background. ACM.
[Martin et al., 2004] Martin, S., Morison, G., Nailon, W., and Durrani, T. (2004). Fast
and accurate image registration using tsallis entropy and simultaneous perturbation
stochastic approximation. ELECTRONICS LETTERS, 40(10).
[Morris et al., 2004] Morris, D., Sewell, C., Blevins, N., Barbagli, F., and Salisbury,
K. (2004). A collaborative virtual environment for the simulation of temporal bone
surgery. In Medical Image Computing and Computer−Assisted Intervention, volume
Vol. 3217/2004 of Lecture Notes in Computer Science, France. 7th International Confer-
ence Saint-Malo, Springer Berlin / Heidelberg.
[Netto et al., 2002] Netto, A. V., Machado, L. d. S., and Oliveira, M. C. F. d. (2002).
Realidade virtual - definições, dispositivos e aplicações. última visualização: 28/08/2008.
[Oswald and Lev, 2001] Oswald, N. and Lev, P. (2001). Cooperative object recognition.
Pattern Recognition Letters, (22).
[Rodrigues et al., 2004] Rodrigues, P. S., Silva, L., Oliveira, J. C., and Giraldi, G. (2004).
Augmented reality for scientific visualization: Bringing datasets into the realworld.
[Rodrigues et al., 2005] Rodrigues, P. S., Silva, R. L., Giraldi, G., and Cunha, G. (2005).
Object recognition using bayesian networks for augmented reality systems.
[Silva et al., 2004] Silva, R., Oliveira, J. C., and Giraldi, G. (2004). Introduction to aug-
mented reality.
BIBLIOGRAFIA 52
[Tang et al., 2005] Tang, A. W. K., P., N. T., Hung, Y. S., and Leung, C. H. (2005). Pro-
jective reconstruction from line-correspondence in multiple uncalibrated images. Pattern
Recognition.
[Taruya and Sakagami, 2002] Taruya, A. and Sakagami, M.-a. (2002). Gravothermal catas-
trophe and tsallis’ generalized entropy of self-gravitating systems. Physica A, 307:185–
206.
[Thornton et al., 2007] Thornton, J., Savvides, M., and Kumar, B. V. (2007). A bayesian
approuch to deformed pattern matching of iris image. IEEE Transations on Pattern
Analisys and Machine Inteligence, vol. 29(4).
[Vasconcelos et al., 2004] Vasconcelos, N., Ho, P., and Moreno, P. (2004). The kullback-
leibler kernel as a framework for discriminant and localized representations for visual
recognition. Prague. European Conference on Computer Vision.
[Weiss and Ray, 2001] Weiss, I. and Ray, M. (2001). Model-based recognition of 3d objects
from single. IEEE TRANSACTIONS ON PATTERN ANALISYS AND MACHINE
INTELLIGENCE, 23(2):116–128.
[Yong-li et al., 2007] Yong-li, L., Wei-zhou, G., and Ling-yan, Z. (2007). The application
of bayesian method in image segmentation. IEEE.