Você está na página 1de 20

UNIVERSIDADE FEDERAL DO ABC

PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO

Projeto de Pesquisa

Teleconferência 3D com ponto de visão livre

Josivan Pereira da Silva

Orientador: Prof. Dr. Celso Setsuo Kurashima


Resumo

O ritmo do avanço tecnológico empregado nos aparelhos de comunicação, como


televisores, telefones celulares, computadores, tablets e até videogames de última geração,
possibilitam a construção de periféricos cada vez menores, com maior poder de
processamento, mais acessíveis, financeiramente, e passíveis de troca de informação entre si.
Dessa maneira, convém aos transmissores de informação optarem por uma padronização, das
informações que permita a execução delas, de modo semelhante, nessas diferentes
plataformas, o que remete a demanda por sistemas híbridos, ou seja, sistemas que possam ser
executados na TV Digital e na internet, que funcionem também em outros aparelhos, como
videogames e tablets, que permitam o acesso a internet. Juntamente com a troca de
informação entre essas plataformas diferentes, surge a demanda por conteúdo 3D, pois
algumas dessas plataformas utilizam mais informações 3D (como é o caso dos videogames) e
a acabam influenciando no tipo de visualização a ser apresentada em outras plataformas,
como na TV. A execução de dados 3D exige um alto custo de processamento e, em alguns
casos, uma experiência desconfortável na parte de visualização. Esse trabalho apresenta uma
abordagem para diminuir o tempo de processamento de informações 3D, oferecer uma
visualização com a escolha do ângulo de visão por parte do usuário, diminuir o desconforto na
parte de visualização e investigar a possibilidade da utilização dessas características nos
sistemas de telepresença 3D.

Palavras-chave: 3D Telepresence; 3D Free Viewpoint; 3D DTV; 3D Reconstruction; Mesh


Triangulation; Point Clouds.
Sumário
1. Introdução ....................................................................................................................................... 1

1.1. Justificativas ............................................................................................................................ 2

1.2. Objetivos .................................................................................................................................. 3

1.3. Síntese da Bibliografia Fundamental ....................................................................................... 3

1.3.1 Revisão Bibliográfica ..................................................................................................................... 4

1.3.2 Trabalhos Correlatos ...................................................................................................................... 5

2. Plano de Atividades ......................................................................................................................... 8

2.1. Cronograma de Atividades....................................................................................................... 8

2.1.1 Atividades Realizadas .................................................................................................................... 8

2.1.1 Atividades Futuras .......................................................................................................................... 8

3. Materiais e Métodos ...................................................................................................................... 10

3.1. Características e abordagem da Pesquisa............................................................................... 10

3.2. Descrição Sistêmica ............................................................................................................... 10

3.3. Ferramentas de Auxílio .......................................................................................................... 12

3.4. Algoritmos de Geração de Malha Poligonal .......................................................................... 13

3.5. Resultados Parciais ................................................................................................................ 13

4. Forma de Análise........................................................................................................................... 16

5. Referências Bibliográficas ............................................................................................................ 16


1

1. Introdução

Atualmente, os computadores pessoais possuem um papel importante na vida das pessoas em


suas atividades cotidianas, seja para entretenimento, ou para trabalho, ou comunicação apenas, o
computador tem se mostrado uma ferramenta imprescindível para agilizar tarefas e diminuir erros na
execução de processos, e ainda possibilitar a comunicação entre longas distâncias. Além disso, pode-
se observar que o custo dessas máquinas tem diminuído nos últimos anos, enquanto o seu poder de
processamento, de armazenamento e de memória principal aumenta. Paralelamente, a TV tem
evoluído bastante quanto à resolução de imagem e dimensões da tela, com a high definition e a ultra
high definition. Alguns aparelhos de televisão suportam visualização em 3D com sensação de
profundidade e ilusão de “relevo”. Com o desenvolvimento do sistema de TV Digital (TVD), o
computador e a TV estão mais próximos, tal como Yim e Lee (2013) afirmam que a Internet Protocol
Television (IPTV) é a convergência entre a comunicação e a difusão em um único sistema,
executando sinais multimedia por rede baseada em endereço IP. Em Song et al., (2011 ) pode-se
entender que o Set-Top Box, principal componente da TV Digital, é um computador que tem
hardware e software capaz de se comunicar com servidores, de maneira a transmitir e receber dados
multimídia. Isso resulta na união de dois meios de comunicação e entretenimento, pois a TV Digital
funciona em rede similar a internet, pode possuir processamento próprio e permitir interatividade por
parte dos usuários. Hoje em dia, é difícil distinguir um monitor de computador, de uma TV Digital e
até mesmo, distinguir esses dois de smartphones e tablets. Essas características trazem uma demanda
por sistemas híbridos (isto é, capazes de receber e interpretar sinais de TV Digital ou pacotes de rede
IP), que possam ser executados com as mesmas funcionalidades em periféricos diferentes.
Segundo Kauff et al., (2005) a Televisão 3D (TV3D) é a próxima tecnologia em busca de
uma experiência de entretenimento mais natural e próxima da realidade, com ênfase na interatividade
e comunicação. Matusik e Pfister, (2004) definem a TV3D como a próxima revolução da televisão, e
como pode-se perceber atualmente as tecnologias de software e hardware permitem a concepção da
TV3D Digital, pois já se pode encontrar no mercado monitores 3D com qualidade digital de imagem
Há na literatura, muitas informações sobre algoritmos de análise de imagens e Image-Based
Rendering (IBR) como por exemplo Fehn, (2003) e Koudelka et al., (2001). IBR é a engenharia
reversa que permite reconstrução 3D a partir de imagens, que se inicia com a aquisição de uma
nuvem de pontos (NP), que são estruturas quais representam uma superfície 3D amostrada, em forma
3
de pontos no plano ℜ , como pode ser visto em (Rusu e Cousins, 2011).
2

Existem desafios técnicos quanto a visualização 3D em um sistema de vídeo 3D, e na


quantidade de processamento matemático e gráfico exigido para que um sistema desse tipo seja
executado em tempo real, em uma aplicação em TV Digital e/ou telecomunicação.

1.1. Justificativas

Um sistema de vídeo 3D apresenta desconforto ao usuário pela utilização de hardwares


auxiliares e/ou pelo estresse visual, principalmente na fase de visualização (Cho e Kang., 2012). Um
exemplo é o dos televisores 3D. Esses aparelhos, em sua maioria, necessitam de óculos especiais
para a visualização da informação tridimensional. Para uma pessoa que não acha desconfortável ou
irritante a utilização de um par de óculos por alguns minutos, não é possível identificar o desconforto
nessa tarefa imediatamente, porém, se for lembrado que existem muitas pessoas que já necessitam de
um par de óculos comum, para o uso no dia a dia, o desconforto pode ser detectado de imediato.
O usuário que utiliza óculos devido a problemas de visão, terá que utilizar os óculos 3D por cima dos
óculos comuns e isso pode ser muito desconfortável, causar irritação aos olhos e/ou dores de cabeça,
como é possível verificar em Atallah et al., (2012).
De forma a tentar solucionar essa característica do desconforto nos sistemas de vídeo 3D,
porém sem perda da qualidade da informação tridimensional, pode-se pensar em um sistema do tipo
3D com ponto de visão livre. De acordo com Grau et al., ( 2007), os sistemas do tipo 3D com ponto
de visão livre são sistemas que permitem o usuário visualizar diferentes ângulos da cena, em tempo
real (ou não em alguns casos) e de forma aleatória, ângulos quais não necessariamente existam, mas
que possam ser virtualmente criados como modelos 3D, contendo malhas poligonais texturizadas
(coloridas com imagens). Os sistemas 3D com ponto de visão livre são úteis, do ponto de vista
técnico, para a televisão e para o cinema, por exemplo, mas existem poucas alternativas desses
sistemas que funcionem em tempo real e, quando existem, não são muito acessíveis, devido ao alto
preço comercial. As redes sociais e sistemas de teleconferência como o Skype, por exemplo, tem
interesse em aderir a esse tipo de sistema para a comunicação, Kuster et al., (2011) identifica essas
aplicações como em potencial para o 3D com ponto de visão livre, porém são necessários aparelhos
que incomodam o usuário e geram custos elevados para a utilização deles. Sistemas de
videoconferência destinados a educação se beneficiam com esse tipo de aplicativo, porém existem
poucos sistemas para essa finalidade.
Um dos fatores determinantes para que um sistema 3D com ponto de visão livre não seja
acessível é o tempo de processamento que ele exige, pois para a reconstrução de uma cena com
vários objetos em 3D que possam ser visualizados por diferentes ângulos, os cálculos que o
3

computador necessita fazer em sua CPU e placas gráficas, são complexos. O trabalho de Teutsch et
al., (2007) argumenta que metodologias com construção de malhas poligonais, principalmente as que
são baseadas no método de Delaunay ou Diagrama de Voronoi, são computacionalmente muito
custosas, e ainda que métodos baseados em nuvem de pontos densas sem a presença de malhas
poligonais, são interessantes para a diminuição do custo computacional dado pelo processamento dos
polígonos. Para uma grande instituição, esse fator pode ser contornado com o a utilização de clusters
ou de máquinas com grande quantidade de memória e placas gráficas sofisticadas, mas a nível de
usuário comum, que possui computadores domésticos, essa maneira não permite fazer uso dos
sistemas 3D com ponto de visão livre, por questão do alto investimento a ser feito, além do
específico conhecimento técnico necessário para se fazer uso do mesmo. Porém, um sistema 3D com
ponto de visão livre não necessita de hardwares auxiliares para a visualização em 3D. Sendo assim,
as justificativas para a abordagem desse projeto, são optar por um sistema 3D com ponto de visão
livre de maneira a diminuir o desconforto causado ao usuário no processo de visualização com
óculos especiais, e de comparar e analisar diferentes técnicas de renderização 3D para escolher a
mais eficiente e de menor custo computacional, que possa ser aplicada ao 3D com ponto de visão
livre, em tempo real.

1.2. Objetivos

Esse trabalho tem o objetivo de investigar a criação de malhas poligonais a partir de nuvens
de pontos 3D e as técnicas de processamento de nuvens de pontos para representar os objetos 3D
com o menor consumo computacional da CPU, e mantendo a boa qualidade do objeto 3D
reconstruído para a execução de um sistema de teleconferência 3D com ponto de visão
A meta é diminuir a quantidade de informação necessária para representar a cena, e obter uma
malha poligonal simplificada, com o mínimo de polígonos necessários em tempo real.
As contribuições esperadas são técnicas e/ou algoritmos que permitam a execução de um
sistema de teleconferência 3D com ponto de visão livre sem o desconforto causado na parte de
visualização.

1.3. Síntese da Bibliografia Fundamental

Os principais artigos de referência ao projeto, são (Yang et al., 2007) e (Grau et al., 2007).
Em (Yang et al., 2007), os autores construíram um sistema que captura imagens em um conjunto de
câmeras que proporcionam imagens de diferentes ângulos da cena. Essas imagens são interpoladas
de forma a gerar uma geometria 3D a partir das informações 2D das várias imagens capturadas,
4

nesse modelo 3D criado o usuário tem controle da câmera virtual, podendo escolher o ângulo de
visão que preferir. A diferença entre o sistema de Yang e esse projeto, é que, nesse projeto, pretende-
se fazer a modelagem, em tempo real, somente da face dos usuários para utilização em uma
teleconferência 3D, utilizando-se apenas de uma ou duas câmeras, diferentemente do sistema de
Yang, onde mais de duas câmeras são utilizadas e a geometria gerada não compreende somente a
face do usuário.
O sistema (Grau et al., 2007) utiliza mais de duas câmeras e não foi desenvolvido para a
aplicação em tempo real, mas para pós-processamento, mais precisamente para a reprodução de um
replay 3D para partidas de futebol. Entretanto, o sistema não deixa de ser um free-viewpoint baseado
em modelo 3D. Por esse motivo, ele apresenta as características necessárias para um sistema que é
interessante a esse projeto em questão. A diferença dele para o presente projeto, está na restrição de
renderizar somente as faces dos usuários e trocar esses dados entre dois ou mais hosts via rede. Isso
diminui o processamento, pois ao invés de renderizar um grande modelo 3D do campo de futebol e
dos jogadores presentes na jogada do replay, a renderização será de uma face humana.
Espera-se com essas características presentes na bibliografia fundamental, o levantamento das
principais questões para uma sistema 3D com ângulo de visão livre, com aplicação em um sistema de
telepresença em 3 dimensões.

1.3.1 Revisão Bibliográfica

O problema principal, em inglês chamado de 3D free viewpoint teleconference foi dividido


em:
3DFVP, onde foram analisadas as características referentes aos fatores de escolha do ponto
de visão por transformações de câmeras virtuais empregadas nos modelos 3D;
Point Cloud, parte a qual fez-se o estudo das características de aquisição e de manipulação
das nuvens de pontos de entrada;
Mesh Generation, nessa divisão foram avaliadas as circunstâncias exigidas para a criação de
representações dos objetos 3D por meio de estruturas poligonais a partir de nuvem de pontos;
TV e NETWORK, parte a qual se destina a estudar as aplicações práticas da teoria, ou seja a
possível implementação e
3D Video Quality Estimation, dedicada as conclusões sobre as estimativas de velocidade e
qualidade dos experimentos, com cálculos e comparações, com o foco na avaliação quantitativa.
A figura 1, refere-se ao mapa de literatura propriamente dito e evidencia essas divisões do
5

problema principal, demonstrando a organização das referências utilizadas e seus respectivos


relacionamentos.

Fig. 1 – Mapa de literatura:Tema da pesquisa dividido em cinco assuntos, apresentando os


principais artigos bases.

Como se pode verificar na figura 1, o problema foi subdividido em 5 partes de modo a


levantar-se as principais características das várias partes do processo que vai da captura dos dados,
até a verificação do resultado da composição do vídeo 3D. Pode-se ver, a relação entre essas
subdivisões evidenciada nas linhas que interligam seus quadros, de modo a compor o assunto
principal, de maneira que a parte do 3DFVP referente a visualização está conectada com a de TV e
Network, que por sua vez está conectada com a de 3D Video Quality Estimation, e a parte de Point
Cloud está concetada com a de Mesh Generation e com a de 3DFVP simultaneamente.
Quanto aos artigos que aparecem na figura 1, (Richter e Dolner, 2010) foi utilizado para
entender as características de realtime e visualização, onde tirou-se a ideia da redução da
complexidade das nuvens de pontos 3D tentando aumentar a taxa de quadros por segundo final, que
estão relacionadas com as ideias levantadas por (Huang et al., 2013) e (Nie, Hu e Chen, 2010). Os
demais artigos serão citados e comentados na parte de metodologia.

1.3.2 Trabalhos Correlatos

Dentro dos artigos utilizados na revisão de literatura que servem de cunho prático, está o
Edge-Aware Point Set Resampling, de autoria de (Huang. H. et. al., 2013), que se parece com esse
trabalho no quesito utilizar-se de uma nuvem de pontos 3D de entrada para realizar uma construção
de malha, entretanto o artigo foca no método de criação dos vetores normais que serão utilizados
6

para a parte de iluminação dos objetos. Outro fato que o difere desse trabalho, é o de não se importar
com o fator tempo real de execução. Mesmo com essas diferenças entre os trabalhos, optou-se por
escolher esse artigo como referência, pois será importante a criação dos vetores normais futuramente,
e para o trabalho com nuvem de pontos, são raros os trabalhos que focam nesse assunto.

Fig. 2 - Reconstrução 3D a partir de imagens com filtragem para melhoria do modelo


[Extraído de (Huang. H. et. al., 2013)].

Na figura 2a é mostrada uma nuvem de pontos (NP) com ruído e desalinhada, na figura 2b a
NP foi alinhada, exceto nas bordas da superfície 3D, na figura 2c a NP sofreu um aumento de
amostras nas bordas seguido de um alinhamento das amostras, e por último a figura 2d mostra a NP
com um aumento do número de amostras em todas as regiões da superfície para que seja feita a
renderização.
Outro trabalho de característica prática chama-se ProForma - Probabilistic Feature-based on-
line Rapid Model Acquistion apresentando em (Pan et al., 2009), e executa uma rápida reconstrução
por nuvem de pontos, com a utilização do algoritmo de Delaunay para geração da malha poligonal.
Em primeiro lugar no seu processo de reconstrução, uma nuvem de pontos de um objeto é gerada.
Depois disso, um processo geração de polígonos é utilizado para construir uma malha da superfície
do objeto para se obter o modelo objeto 3D. O trabalho de Pan, é executado em tempo real e a
qualidade da informação 3D é alta, assim certamente esse trabalho pode ser útil como base para o
presente projeto.

a) b) c) d) e)
Fig. 3 - Exemplo de reconstrução 3D a partir de imagens
[Extraído de (Drummond, Pan e Reitmayr, 2009)].
7

Como é possível visualizar na figura 3, a reconstrução 3D baseada em imagens, necessita dos


processos de captura de imagens (figura 3a), aquisição de NP (figura 3b), construção de malha
poligonal (figura 3c), refinamento e melhorias de malha poligonal (figura 3d) e, por último,
texturização e renderização 3D (figura 3e).
O artigo intitulado “Facial Modeling for Interactive 3D Reconstruction in Web Applications”,
o qual foi aceito para publicação e apresentação oral no Simpósio Brasileiro de Sistemas Multimídia
e Web 2014 (WebMedia 2014).
O trabalho “Reconstrução 3D via HTTP”, no Workshop De Realidade Virtual e Aumentada
2013 (WRVA 2013).
A figura 4, demonstra uma modelagem e renderização 3D, baseada em imagem, construída
para as análises do trabalho Facial Modeling for Interactive 3D Reconstruction in Web Applications
(Silva et al., 2014). Esse software de experimento, é executado em browser com os recursos de
HTML5, para proporcionar um sistema com ponto de visão livre, com o objetivo de uma futura
aplicação em comunicação, para tanto faltam as tarefas de sincronização do canal de áudio, e os
testes em tempo real, que por sua vez dependem da simplificação da nuvem de pontos pretendida
nesse projeto.

Fig. 4 – Player free viewpoint de faces humanas em 3D


[Extraído de (Silva et al., 2014)

A conclusão dos testes com a ferramenta que aparece na figura 4, foi de que utilizando um
método de geração de malha poligonal, chamado Convex Hull, as áreas da face do usuário que
possuem concavidade, apresentam pobre detalhamento da informação 3D, porém o método que os
autores propuseram de subdividir a NP, resultou em um melhor detalhamento dessa informação e na
melhor percepção do 3D, por parte do usuário. A figura 4a mostra uma malha poligonal com poucos
triângulos e detalhes da face, enquanto a figura 4b, apresenta um melhor detalhamento e uma
quantidade maior de polígonos, o que melhora a percepção do 3D, por parte do usuário.
8

No entanto, é preciso realizar testes com outras câmeras em configuração estereoscópica ou


multivistas, de maneira a comparar a aquisição de NP por esses meios, com a aquisição por câmera
de infravermelho, como é o caso do Kinect. Sendo assim, a ferramenta mais apropriada escolhida
pelos autores desse projeto é a biblioteca OpenCV com a utilização da linguagem C/C++. Segundo
(Culjak et al., 2012) a biblioteca OpenCV possui um extenso conjunto de funções para
processamento e análise dados em forma de imagem e vídeo, além de mecanismos para testar a
qualidade de tais dados. A composição de dados 3D sintéticos com a teoria de triangulação, e essas
informações foram obtidas pela leitura de artigos que apresentam o OpenCV como ferramenta
auxiliar, como em Wang et al.(2010), (Zou e Li, 2010) e (Lu et al., 2011). Essas informações
ajudaram na modelagem matemática do sistema e possibilitaram a aquisição de nuvem de pontos
sem utilizar a câmera Kinect, porém é necessário investigar o modo de aquisição para o melhor
desempenho computacional que possibilite o funcionamento da telepresença 3D em tempo real.

2. Plano de Atividades

O presente capítulo, reserva-se a apresentar a revisão bibliografia necessária para o bom


entendimento do assunto em questão, assim como a definição do estado da arte do problema
abordado, analisando alguns trabalhos correlatos

2.1. Cronograma de Atividades

2.1.1 Atividades Realizadas

A atividade revisão bibliográfica foi realizada. A partir dessa atividade, foi possível definir as
demais atividades necessárias ao projeto, com base na literatura.
Os primeiros testes com a câmera Microsoft Kinect e câmeras comuns foram realizados. Com
esses testes foi possível a construção de NP's, aquisição de texturas, remoção do fundo das cenas e
extração da face do usuário em imagens.
Testes com áudio foram realizados utilizando o array de microfone da câmera microsoft Kinect.
Foram obtidos resultados parciais com as análises dos testes iniciais.

2.1.1 Atividades Futuras

Para o desenvolvimento do projeto, é necessária a criação de um software para ser utilizado


como ferramenta de análise. Com esse software serão analisados os algoritmos empregados na
9

resolução do problema. Para a construção do software, é preciso realizar testes das partes que irão
compor o mesmo. Assim, as demais tarefas a serem realizadas são:
Validação de Nuvem de pontos, para que as nuvens de pontos capturadas e renderizadas por
diferentes formas, sejam analisadas e as técnicas empregadas sejam validadas ou descartadas.
Validação de Malha Poligonal e textura, para que com as nuvens de pontos construídas, as
malhas poligonais sejam criadas e as técnicas utilizadas sejam validadas ou descartadas, assim como
as técnicas de aquisição e mapeamento de textura.
Quando as nuvens de pontos e as malhas poligonais forem validadas, será possível a
composição de vídeos 3D com ponto de visão livre, assim torna-se necessária a atividade Análise da
Qualidade de Vídeo, para analisar a qualidade da informação 3D gerada.
Com as atividades anteriores finalizadas, pode-se realizar a atividade de defesa da
dissertação. A figura 5, mostra as tarefas que foram realizadas e as tarefas a serem realizadas, para o
andamento da pesquisa, até o fim do projeto.

Fig. 5 – Cronograma do Projeto.

Conclui-se que os demais testes serão feitos até o início de 2015, período ao qual se pretende
realizar a qualificação de mestrado. A partir daí, corrigir as questões que serão apontadas na fase de
qualificação e concentrar na escrita da dissertação, não descartando a possibilidade de voltar a
realizar novos testes, de maneira a corrigir alguns fatores ou melhorar os resultados da pesquisa.
Alguns testes já foram realizados e geraram resultados parciais.
10

3. Materiais e Métodos

3.1. Características e abordagem da Pesquisa

Para que fosse possível a elaboração desse projeto, inicialmente uma pesquisa bibliográfica
foi necessária, de modo a definir os principais problemas e posteriormente traçar os objetivos
esperados com esse estudo. Nessa fase inicial, a revisão da literatura permitiu concluir que os
principais problemas são o alto desempenho computacional necessário para a implementação dos
sistemas FVP, o incomodo que os hardwares auxiliares podem apresentar ao usuário na parte de
visualização e o custo financeiro geralmente alto que os sistemas de teleconferência com pontos de
visão livre podem gerar.
É necessário o estudo de NP, malha poligonal e texturas a serem manipuladas e testadas de
modo a permitir uma análise da Reconstrução 3D e Teleconferência 3D. Para esse estudo, é preciso
criar um experimento que permita concluir quais características influenciam, o resultado da
teleconferência 3D, e possibilite, a utilização de um sistema FVP para melhorar a experiência do
usuário em relação a visualização em 3D e imersão em um ambiente de ponto de visão livre. Assim,
essa pesquisa, tem caráter experimental e está direcionada a uma análise quantitativa objetiva, pois
pretende-se testar, os resultados dos vídeos e/ou imagens em 3D durante sua transmissão e recepção,
com algoritmos do tipo relação Sinal/Ruído e/ou outros, semelhantes ao trabalho de (Joskowicz,
Sotelo e Ardao, 2013), mais detalhes sobre a forma de análise dos resultados serão explicados na
seção 4.

3.2. Descrição Sistêmica

De acordo com (Xu, Ke-Biao e Peng-Ju, 2010) a aquisição da informação 3D de cenas


dinâmicas é necessária para a realização da renderização 3D com ponto de visão livre. Com base em
(Nie, Hu e Chen, 2010) e (Yan, et al., 2013) entende-se que as técnicas de escaneamento 3D por
câmeras de infravermelho são de grande ajuda no processo de aquisição dos pontos 3D, que
constituem a nuvem de pontos. Essas informações são de extrema importância para a geração de
modelos 3D e podem ser adquiridas de duas formas, com scanners 3D ou com técnicas de IBR.
Para realizar os experimentos com as construções de malha poligonal para aplicação em uma
telepresença 3D com ponto de visão livre, é necessário testar a aquisição da nuvem de pontos por
essas duas formas. Dessa maneira, será possível determinar qual o melhor método de aquisição de
informação 3D para a execução da telepresença em tempo real. Assim, foram criados dois diagramas
de blocos de sistemas que serão implementados com a finalidade de testes para a telepresença 3D.
11

A figura 6 representa o sistema 1, que utiliza a câmera de infravermelho Microsoft Kinect


para capturar as nuvens de pontos e as imagens aplicadas nas texturas. O sistema 1, tem como
entrada os sinais 3D do sensor IR, que entram no bloco A (Construção de malha), a saída do bloco A
é a malha poligonal construída, que entra no bloco B (Mapeamento de Textura) e saí como objeto 3D
texturizado, para entrar no bloco C (Renderização) com a possibilidade da escolha do ponto de visão
por parte do usuário. A saída do bloco C é uma imagem, que entra, juntamente com o sinal da voz do
usuário, no bloco D (Sincronização de Imagem e Voz) e a saída é uma imagem e uma frequência de
voz sincronizadas, codificadas em um pacote de bits, para serem transmitidas no bloco E
(Transmissão de bits via Socket).

Fig. 6 – Diagrama de blocos do sistema 1. A aquisição da NP faz-se por câmera infravermelho.

A figura 7 representa o sistema 2, que utiliza um par de câmeras comuns (2D) em


configuração estereoscópica, gerando a geometria 3D baseada no par de imagem pelo processo de
IBR. O sistema 2 tem como entrada os sinais 2D das Imagens da direita e esquerda, que entram no
bloco A (calibração de câmera e construção de geometria 3D), a saída do bloco A é a malha poligonal
construída a partir da geometria 3D e uma matriz de correspondência entre o par de imagens, que
gera um mapa de profundidade. A Malha poligonal entra no bloco B (Texturização), onde á realizado
o mapeamento de textura, e sai como um objeto 3D, para entrar no bloco C (Renderização), com a
possibilidade da escolha do ponto de visão por parte do usuário, e sai como uma imagem. Então, a
imagem entra, juntamente com o sinal de voz do usuário, no bloco D (Renderização), onde é
realizada a sincronização da imagem com a frequência de voz, que entram no bloco E (Transmissão
de bits via Socket) para serem transmitidas.
12

Fig. 7 – Diagrama de blocos do sistema 2. A aquisição da NP faz-se por um par de câmeras comuns
em configuração estereoscópica.

Esses são os dois sistemas (das figuras 6 e y7 que permitirão os testes necessários para a
análise da telepresença 3D em tempo real.

3.3. Ferramentas de Auxílio

Para a realização da pesquisa experimental será utilizada uma câmera de infravermelho do


tipo RGB-D, Microsoft Kinect, pelo custo financeiro baixo e por possibilitar a aquisição de áudio e
vídeo em um só periférico. Essa câmera pode prover imagens RGB's e NP's que podem ser utilizadas
para gerar texturas e malhas poligonais respectivamente, como no trabalho (YAMADA et al., 2012).
Com a câmera em questão espera-se uma maior agilidade no processo de captura da NP’s e algumas
características de Segmentação e remoção de planos de fundo das imagens da cena. Será necessária a
utilização de um computador pessoal com os drivers do Kinect devidamente instalados, uma
biblioteca gráfica (de preferência a OpenGL) e até as linguagens de programação utilizadas serão a
Java e a C++, para que seja possível a execução em diferentes configurações. Em uma fase mais
avançada do projeto, serão feitos os testes com pelo menos dois computadores, na tentativa de trocar
informações 3D e áudio entre eles nos dois sentidos (receptor e transmissor), e também com duas
câmeras Kinect para o mesmo propósito.
13

3.4. Algoritmos de Geração de Malha Poligonal

Algoritmos para a construção de malha poligonal a partir de NP's são chamados Geométricos,
e a parte da ciência da computação que os estuda é chamada de geometria computacional. Esses
algoritmos constroem interligações entre os pontos das NP's, para que, ao invés de se ter pontos, se
tenha uma estrutura formada por polígonos, isso permite que as nuvens de pontos se tornem
estruturas com uma qualidade de informação 3D melhor que as constituídas somente por pontos. Os
algoritmos geométricos mais conhecidos são o Convex Hull (Berg et al., 2008) e o Delaunay (Dahu e
Zhongke, 2012), e recentemente um algoritmo chamado Poisson Reconstruction (Kazhdan et al.,
2006).
O Convex Hull prioriza a mais próxima rota de ligação entre os pontos se esquivando dos
obstáculos que encontra na NP, buscando construir estruturas 3D convexas. O Delaunay constrói
estruturas côncavas ou convexas, pelas bordas da NP, de maneira gradualmente progressiva até o
centro da NP. O algoritmo Poisson Reconstruction, determina uma função implícita para representar
os pontos da NP que possuem interligações, assim ele constrói uma superfície uniforme côncava ou
convexa, ou seja, os pontos que tem interligação recebem o mesmo valor e assim são identificados
para formar os triângulos necessários, fechando a estrutura 3D e formando uma malha poligonal
fechada.

3.5. Resultados Parciais

Como resultados parciais, reconstruções 3D de faces de pessoas, foram realizadas, para


compor uma teleconferência 3D. Serão realizadas análises sobre as NP’s e os modos de criação de
malha poligonal. Foram capturadas, com o sensor infravermelho, algumas NP’s já com as cores, que,
por sua vez, foram capturadas, com o sensor RGB, além de malhas poligonais criadas por diferentes
métodos.
O método de geração de malha utilizado no experimento da figura 8, chama-se método de
Delaunay. A figura 8 demonstra um modelo 3D da face do usuário.

Fig. 8 – Malha poligonal criada a partir de uma NP capturada com o Kinect,


pelo método de Delaunay.
14

Na figura 8a é mostrada uma renderização da parte frontal da face do usuário, enquanto nas
figuras 8b e 8c, outros ângulos de renderização foram escolhidos. Outro experimento de geração de
malha poligonal realizado, foi o experimento do método chamado Poisson Reconstructuction. Esse
método exige um pouco mais de complexidade matemática, porém é necessário para os estudos, pois
existe a possibilidade de redução do tempo de processamento da reconstrução, com a manipulação da
NP, além da melhoria da qualidade dos dados 3D.

Fig. 9 – Malha poligonal de face reconstruída em 3D pelo método de Poisson.

A figura 9 mostra o resultado da reconstrução 3D, realizada com o método de geração de malha
Poisson Reconstruction, pode-se visualizar a face do usuário por dois ângulos diferentes. É possível
perceber que o método produz um melhor fechamento da malha 3D da parte traseira da cabeça do
usuário, isso porque o método tem essa característica de fechar a malha criada, a partir da NP. Esse
método já foi explicado no item 3.4.

O último experimento feito com a câmera Kinect, é o experimento apresentado na figura 12.
Esse experimento foi realizado utilizando o próprio SDK da Microsoft para a câmera RGB-D. Nesse
experimento, foi possível identificar a face do usuário e contorná-la com um quadrilátero, além de
criar uma malha simplificada da face (com poucos polígonos) e, aplicar a textura da face do usuário
sobre essa malha poligonal. Com o experimento foi possível a reconstrução 3D da face do usuário
sem ruídos e com uma malha composta por poucos pontos e polígonos, o que representa um tempo
menor de processamento. Agora é necessária a correção das imagens coloridas (texturas) para que o
efeito das cores aplicadas sobre a malha poligonal, seja mais suave e mais parecida com a face real
do usuário.

a b c

Fig. 10 – Malha da face do autor reconstruída em 3D pelo método de Poisson.


15

Na figura 10a é mostrada a malha poligonal simplificada da face do usuário em amarelo, pode-
se perceber que são vários triângulos conectados entre si descrevendo a estrutura 3D da face do
usuário, a figura 10b mostra simplesmente a mesma informação vista por outro ângulo e a figura 10c
representa a mesma malha poligonal da face, porém com a textura aplicada sobre a malha , o que
caracteriza um preenchimento dessa estrutura da face, deixando a informação 3D mais próxima da
face real do usuário.

4. Forma de Análise

A forma de análise desse projeto é a validação objetiva, visando cálculos para a identificação
das técnicas e das variáveis que proporcionam menor tempo de renderização 3D, estando mais
próxima da execução em tempo real. E quais produzem a melhor qualidade da informação 3D.

Serão analisados os experimentos utilizando uma câmera de infravermelho na parte de captura e


confrontados com os experimentos com câmeras do tipo firewire no modo estereoscópico (duas
câmeras simultaneamente capturando a mesma cena).

O método utilizado para analisar os resultados desse projeto chama-se Distância de Hausdorff
como pode ser visto em (Guthe et a.l, 2005) e (Straub, 2002) . A distância de Hausdorff é um filtro
que tem como entrada duas malhas poligonais e o resultado do processamento desse filtro é a
comparação de uma malha com a segunda malha. Desse modo, o filtro pode apontar se uma malha,
construída por um método de triangulação, está próxima ou distante de uma malha que foi construída
por um método distinto.

Para auxiliar na tarefa de análise dos resultados será utilizada a ferramenta Meshlab, que é um
software para processamento de nuvem de pontos e malhas poligonais. O Meshlab possui filtros para
tais processamentos que podem ser executados por meio de uma linguagem script própria. Esse
software está disponível para download no endereço eletrônico <http://meshlab.sourceforge.net/>.

Para comparar as malhas, será necessária a criação de uma malha poligonal de referência com a
ajuda de um software como o Meshlab, por exemplo. Então será feita a comparação da malha de
referência com a malha do sistema 1 e, posteriormente, a comparação da malha de referência com a
malha do sistema 2. O resultado dessa comparação aponta o método que resultou na malha com
melhor qualidade da informação 3D.

5. Referências Bibliográficas

Atallah, P.; Pelah, A. ; Wilkins, A. Visual stress symptoms from stereoscopic television. International Conference on 3D
Imaging (IC3D), Belgium, 2012.Pages: 1 – 7.
Berg, M.;Cheong, O.; Kreveld, M. and Overmars, M. Computational Geometry. Spring, 2008.
Cho, Sang-Hyun, Kang, Hang-Bong. The measurement of eyestrain caused from diverse binocular disparities, viewing
time and display sizes in watching stereoscopic 3D content. Conference on Computer Vision and Pattern Recognition
Workshops (CVPRW), 2012 IEEE Computer Society
Dahu, S.; and Zhongke, L. 2012. A fast surface reconstruction algorithm based on Delaunay. In Computer Science and
Information Processing, August 2012, 981-984.
16

Drummond, T.; Pan, Qi.; Reitmayr, G. ProFORMA: Probabilistic Feature-Based On-Line Rapid Model Acquisition.
Anais do Proc. Machine Vision Association BMVC’09, London UK: British, 2009.
Fehn, C. A 3D-TV Approach Using Depth-image-based Rendering (DIBR). Proceeding (396) Visualization, Imaging, and
Image Processing – Spain, 2003. Pages:482-487.
Grau, O; Thomas, G. A. ;Hilton, A. ; Kilner, J. ; Starck, J. A Robust Free-Viewpoint Video System for Sport Scenes.
Proceedings of 3DTV conference, Kos, Greece, 2007. Pages: 1 - 4.
Guthe, M.; Borodin, P.; Klein, R. Fast and accurate Hausdorff distance calculation between meshes. 13-th International
Conference in Central Europe on Computer Graphics, Visualization and Computer Vision 2005 (WSCG'2005). Pages 41-
48.
Huang, H.; Shihao, W.; Minglun, G.; Cohen-OR, D.; Ascher, U.; Zhang, H. Edge-Aware Point Set Resampling. ACM
Transactions on Graphics Volume 32 Issue 1, 2013.

Jaegeol, Y and Gyeyoung, L. The Design and Implementation of a Broadcasting Management Web System for IPTV.
International Journal of Multimedia and Ubiquitous Engineering, Vol.8, No.5 (2013), pp.131-144
Joskowicz, J. Sotelo, R.; LOPEZ ARDAO, J.C. Towards a General Parametric Model for Perceptual Video Quality
Estimation, IEEE Transactions on Broadcasting (Volume:59, Issue: 4), 2013.
Kauff, P.; Scheer, O.r; Sikora, T. 3D Video Communication: Algorithms, Concepts And Real-time Systems In Human
Centred Communication, Southern Gate, Chichester: Wiley, 2005.
Kazhdan , M.; Bolitho, M.; Hoppe, H. Poisson Surface Reconstruction. Eurographics Symposium on Geometry
Processing (2006)
Kukolj, D.; Dordevic, D.; Okolisan, D.; Ostojic, I. 3D image quality estimation (ANN) based on depth/disparity and 2D
metrics. 14th International Symposium on Computational Intelligence and Informatics (CINTI), 2013 IEEE. Pages 125 –
130
Kuster, C.; Popa, T. C.; Zach, C.; Gotsman, C.; Gross. M. FreeCam: A Hybrid Camera System for Interactive Free-
Viewpoint Video. Vision, Modeling, and Visualization (2011), page 17-24.
Melissa L. Koudelka Peter N. Belhumeur Sebastian Magda David J. Kriegman. Image-based Modeling and Rendering of
Surfaces with Arbitrary BRDFs. Proceedings of the Computer Society Conference on Computer Vision and Pattern
Recognition, 2001. CVPR 2001. Page(s):I-568 - I-575 vol.1
Nie, J; Hu, Y; Chen X. Fast triangulation method with step outside strategy. Chinese Control and Decision Conference
(CCDC), 2010. Page(s):4149 - 4153
Pan, Q.; Reitmayr, G.; Drummond, T. 2009. ProFORMA: Probablistic Feature-based On-line Rapid Model Acquisition.
In Proceedings of the British Machine Conference, September 2009, 112.1-112.11.
Richter, R.; Döllner, J. Out-Of-Core Real-Time Visualization Of Massive 3d Point Clouds. Proceedings of the 7th
International Conference on Computer Graphics, Virtual Reality, Visualisation and Interaction in Africa, 2010.
Rusu, R.B. ; Willow Garage, Menlo Park, CA, USA ; Cousins, S. 3D is here: Point Cloud Library (PCL). International
Conference on Robotics and Automation (ICRA), 2011 IEEE. Pages: 1 – 4.
Schroeder, W. J.; Zarge J. A.; and Lorensen, W. E. Decimation of triangle meshes. In Proceedings of Computer Graphics
SIGGRAPH '92, 1992, pp. 65-70.
Silva; J. P; Costa, G. C.; De Melo, J. V. C.; Mascarenhas, I. V.; Kurashima, C. S. Facial Modeling for Interactive 3D
Reconstruction in Web Applications. Simpósio Brasileiro de Sistemas Multimídia e Web, Webmedia’14, November 18–21,
2014, Joao Pessoa, PB, Brazil
Song, H. H.; Ge, Z.; Mahimkar, A.; Wang, J ; Yates, J.; Zhang, Y. Analyzing IPTV set-top box crashes. Proceedings of the
2nd ACM SIGCOMM workshop on Home networks. Pages 31-36
Stoykova, E. Alatan, A.A.; Benzie, P.; Grammalidis, N.; Malassiotis, S.; Ostermann, J.; Piekh, S.; Sainov, V.; Theobalt,
C.; Thevar, T.; Zabulis, X. 3-D Time-Varying Scene Capture Technologies—A Survey, IEEE Transactions on Circuits
and Systems for Video Technology (Volume:17 , Issue: 11 ), 2007.
17

Straub, R. Mesh : Measuring Errors Between Surfaces Using the Hausdorff Distance. In Proc. of the IEEE International
Conference in Multimedia and Expo (ICME) 2002, vol. 1, pp. 705-708, Lausanne, Switzerland, August 26-29, 2002,
Teutsch, C. ; Fraunhofer IFF, Magdeburg ; Berndt, D. ; Trostmann, E. ; Preim, B. Adaptive Real-Time Grid Generation
from 3D Line Scans for fast Visualization and Data Evaluation. 11th International Conference on Information
Visualization, 2007. IV '07.
Wojciech Matusik, Hanspeter Pfister. 3D TV: A Scalable System for Real-Time Acquisition, Transmission, and
Autostereoscopic Display of Dynamic Scenes. Proceedings SIGGRAPH '04 ACM SIGGRAPH 2004, Pages 814-824
Yamada, F. A. A.; Cejnog, L. W. X.; Dembogurski, R. A.; Vieira, M. B.; Silva R. L. S. Reconstrução de Objetos 3D
utilizando Estruturas de Indexação Espacial com o Microsoft Kinect. WRVA - Workshop de Realidade Virtual e
Aumentada - Paranavaí (PR) - Brasil – 2012.
Yan, L; Yuan, Y; Zeng, X; Deris, M.M. Refined Adaptive Meshes from Scattered Point Clouds. 12th International
Symposium on Distributed Computing and Applications to Business, Engineering & Science (DCABES), 2013
Yang, R.; Kurashima, C.; Towles, H.; Nashel, A.; Zuffo, M. Immersive Video Teleconferencing with User-Steerable
Views. Proceedings on Presence: Teleoperators and Virtual Environments April 2007, Vol. 16, No. 2, Pages 188-205.