Escolar Documentos
Profissional Documentos
Cultura Documentos
Projeto de Pesquisa
4. Forma de Análise........................................................................................................................... 16
1. Introdução
1.1. Justificativas
computador necessita fazer em sua CPU e placas gráficas, são complexos. O trabalho de Teutsch et
al., (2007) argumenta que metodologias com construção de malhas poligonais, principalmente as que
são baseadas no método de Delaunay ou Diagrama de Voronoi, são computacionalmente muito
custosas, e ainda que métodos baseados em nuvem de pontos densas sem a presença de malhas
poligonais, são interessantes para a diminuição do custo computacional dado pelo processamento dos
polígonos. Para uma grande instituição, esse fator pode ser contornado com o a utilização de clusters
ou de máquinas com grande quantidade de memória e placas gráficas sofisticadas, mas a nível de
usuário comum, que possui computadores domésticos, essa maneira não permite fazer uso dos
sistemas 3D com ponto de visão livre, por questão do alto investimento a ser feito, além do
específico conhecimento técnico necessário para se fazer uso do mesmo. Porém, um sistema 3D com
ponto de visão livre não necessita de hardwares auxiliares para a visualização em 3D. Sendo assim,
as justificativas para a abordagem desse projeto, são optar por um sistema 3D com ponto de visão
livre de maneira a diminuir o desconforto causado ao usuário no processo de visualização com
óculos especiais, e de comparar e analisar diferentes técnicas de renderização 3D para escolher a
mais eficiente e de menor custo computacional, que possa ser aplicada ao 3D com ponto de visão
livre, em tempo real.
1.2. Objetivos
Esse trabalho tem o objetivo de investigar a criação de malhas poligonais a partir de nuvens
de pontos 3D e as técnicas de processamento de nuvens de pontos para representar os objetos 3D
com o menor consumo computacional da CPU, e mantendo a boa qualidade do objeto 3D
reconstruído para a execução de um sistema de teleconferência 3D com ponto de visão
A meta é diminuir a quantidade de informação necessária para representar a cena, e obter uma
malha poligonal simplificada, com o mínimo de polígonos necessários em tempo real.
As contribuições esperadas são técnicas e/ou algoritmos que permitam a execução de um
sistema de teleconferência 3D com ponto de visão livre sem o desconforto causado na parte de
visualização.
Os principais artigos de referência ao projeto, são (Yang et al., 2007) e (Grau et al., 2007).
Em (Yang et al., 2007), os autores construíram um sistema que captura imagens em um conjunto de
câmeras que proporcionam imagens de diferentes ângulos da cena. Essas imagens são interpoladas
de forma a gerar uma geometria 3D a partir das informações 2D das várias imagens capturadas,
4
nesse modelo 3D criado o usuário tem controle da câmera virtual, podendo escolher o ângulo de
visão que preferir. A diferença entre o sistema de Yang e esse projeto, é que, nesse projeto, pretende-
se fazer a modelagem, em tempo real, somente da face dos usuários para utilização em uma
teleconferência 3D, utilizando-se apenas de uma ou duas câmeras, diferentemente do sistema de
Yang, onde mais de duas câmeras são utilizadas e a geometria gerada não compreende somente a
face do usuário.
O sistema (Grau et al., 2007) utiliza mais de duas câmeras e não foi desenvolvido para a
aplicação em tempo real, mas para pós-processamento, mais precisamente para a reprodução de um
replay 3D para partidas de futebol. Entretanto, o sistema não deixa de ser um free-viewpoint baseado
em modelo 3D. Por esse motivo, ele apresenta as características necessárias para um sistema que é
interessante a esse projeto em questão. A diferença dele para o presente projeto, está na restrição de
renderizar somente as faces dos usuários e trocar esses dados entre dois ou mais hosts via rede. Isso
diminui o processamento, pois ao invés de renderizar um grande modelo 3D do campo de futebol e
dos jogadores presentes na jogada do replay, a renderização será de uma face humana.
Espera-se com essas características presentes na bibliografia fundamental, o levantamento das
principais questões para uma sistema 3D com ângulo de visão livre, com aplicação em um sistema de
telepresença em 3 dimensões.
Dentro dos artigos utilizados na revisão de literatura que servem de cunho prático, está o
Edge-Aware Point Set Resampling, de autoria de (Huang. H. et. al., 2013), que se parece com esse
trabalho no quesito utilizar-se de uma nuvem de pontos 3D de entrada para realizar uma construção
de malha, entretanto o artigo foca no método de criação dos vetores normais que serão utilizados
6
para a parte de iluminação dos objetos. Outro fato que o difere desse trabalho, é o de não se importar
com o fator tempo real de execução. Mesmo com essas diferenças entre os trabalhos, optou-se por
escolher esse artigo como referência, pois será importante a criação dos vetores normais futuramente,
e para o trabalho com nuvem de pontos, são raros os trabalhos que focam nesse assunto.
Na figura 2a é mostrada uma nuvem de pontos (NP) com ruído e desalinhada, na figura 2b a
NP foi alinhada, exceto nas bordas da superfície 3D, na figura 2c a NP sofreu um aumento de
amostras nas bordas seguido de um alinhamento das amostras, e por último a figura 2d mostra a NP
com um aumento do número de amostras em todas as regiões da superfície para que seja feita a
renderização.
Outro trabalho de característica prática chama-se ProForma - Probabilistic Feature-based on-
line Rapid Model Acquistion apresentando em (Pan et al., 2009), e executa uma rápida reconstrução
por nuvem de pontos, com a utilização do algoritmo de Delaunay para geração da malha poligonal.
Em primeiro lugar no seu processo de reconstrução, uma nuvem de pontos de um objeto é gerada.
Depois disso, um processo geração de polígonos é utilizado para construir uma malha da superfície
do objeto para se obter o modelo objeto 3D. O trabalho de Pan, é executado em tempo real e a
qualidade da informação 3D é alta, assim certamente esse trabalho pode ser útil como base para o
presente projeto.
a) b) c) d) e)
Fig. 3 - Exemplo de reconstrução 3D a partir de imagens
[Extraído de (Drummond, Pan e Reitmayr, 2009)].
7
A conclusão dos testes com a ferramenta que aparece na figura 4, foi de que utilizando um
método de geração de malha poligonal, chamado Convex Hull, as áreas da face do usuário que
possuem concavidade, apresentam pobre detalhamento da informação 3D, porém o método que os
autores propuseram de subdividir a NP, resultou em um melhor detalhamento dessa informação e na
melhor percepção do 3D, por parte do usuário. A figura 4a mostra uma malha poligonal com poucos
triângulos e detalhes da face, enquanto a figura 4b, apresenta um melhor detalhamento e uma
quantidade maior de polígonos, o que melhora a percepção do 3D, por parte do usuário.
8
2. Plano de Atividades
A atividade revisão bibliográfica foi realizada. A partir dessa atividade, foi possível definir as
demais atividades necessárias ao projeto, com base na literatura.
Os primeiros testes com a câmera Microsoft Kinect e câmeras comuns foram realizados. Com
esses testes foi possível a construção de NP's, aquisição de texturas, remoção do fundo das cenas e
extração da face do usuário em imagens.
Testes com áudio foram realizados utilizando o array de microfone da câmera microsoft Kinect.
Foram obtidos resultados parciais com as análises dos testes iniciais.
resolução do problema. Para a construção do software, é preciso realizar testes das partes que irão
compor o mesmo. Assim, as demais tarefas a serem realizadas são:
Validação de Nuvem de pontos, para que as nuvens de pontos capturadas e renderizadas por
diferentes formas, sejam analisadas e as técnicas empregadas sejam validadas ou descartadas.
Validação de Malha Poligonal e textura, para que com as nuvens de pontos construídas, as
malhas poligonais sejam criadas e as técnicas utilizadas sejam validadas ou descartadas, assim como
as técnicas de aquisição e mapeamento de textura.
Quando as nuvens de pontos e as malhas poligonais forem validadas, será possível a
composição de vídeos 3D com ponto de visão livre, assim torna-se necessária a atividade Análise da
Qualidade de Vídeo, para analisar a qualidade da informação 3D gerada.
Com as atividades anteriores finalizadas, pode-se realizar a atividade de defesa da
dissertação. A figura 5, mostra as tarefas que foram realizadas e as tarefas a serem realizadas, para o
andamento da pesquisa, até o fim do projeto.
Conclui-se que os demais testes serão feitos até o início de 2015, período ao qual se pretende
realizar a qualificação de mestrado. A partir daí, corrigir as questões que serão apontadas na fase de
qualificação e concentrar na escrita da dissertação, não descartando a possibilidade de voltar a
realizar novos testes, de maneira a corrigir alguns fatores ou melhorar os resultados da pesquisa.
Alguns testes já foram realizados e geraram resultados parciais.
10
3. Materiais e Métodos
Para que fosse possível a elaboração desse projeto, inicialmente uma pesquisa bibliográfica
foi necessária, de modo a definir os principais problemas e posteriormente traçar os objetivos
esperados com esse estudo. Nessa fase inicial, a revisão da literatura permitiu concluir que os
principais problemas são o alto desempenho computacional necessário para a implementação dos
sistemas FVP, o incomodo que os hardwares auxiliares podem apresentar ao usuário na parte de
visualização e o custo financeiro geralmente alto que os sistemas de teleconferência com pontos de
visão livre podem gerar.
É necessário o estudo de NP, malha poligonal e texturas a serem manipuladas e testadas de
modo a permitir uma análise da Reconstrução 3D e Teleconferência 3D. Para esse estudo, é preciso
criar um experimento que permita concluir quais características influenciam, o resultado da
teleconferência 3D, e possibilite, a utilização de um sistema FVP para melhorar a experiência do
usuário em relação a visualização em 3D e imersão em um ambiente de ponto de visão livre. Assim,
essa pesquisa, tem caráter experimental e está direcionada a uma análise quantitativa objetiva, pois
pretende-se testar, os resultados dos vídeos e/ou imagens em 3D durante sua transmissão e recepção,
com algoritmos do tipo relação Sinal/Ruído e/ou outros, semelhantes ao trabalho de (Joskowicz,
Sotelo e Ardao, 2013), mais detalhes sobre a forma de análise dos resultados serão explicados na
seção 4.
Fig. 7 – Diagrama de blocos do sistema 2. A aquisição da NP faz-se por um par de câmeras comuns
em configuração estereoscópica.
Esses são os dois sistemas (das figuras 6 e y7 que permitirão os testes necessários para a
análise da telepresença 3D em tempo real.
Algoritmos para a construção de malha poligonal a partir de NP's são chamados Geométricos,
e a parte da ciência da computação que os estuda é chamada de geometria computacional. Esses
algoritmos constroem interligações entre os pontos das NP's, para que, ao invés de se ter pontos, se
tenha uma estrutura formada por polígonos, isso permite que as nuvens de pontos se tornem
estruturas com uma qualidade de informação 3D melhor que as constituídas somente por pontos. Os
algoritmos geométricos mais conhecidos são o Convex Hull (Berg et al., 2008) e o Delaunay (Dahu e
Zhongke, 2012), e recentemente um algoritmo chamado Poisson Reconstruction (Kazhdan et al.,
2006).
O Convex Hull prioriza a mais próxima rota de ligação entre os pontos se esquivando dos
obstáculos que encontra na NP, buscando construir estruturas 3D convexas. O Delaunay constrói
estruturas côncavas ou convexas, pelas bordas da NP, de maneira gradualmente progressiva até o
centro da NP. O algoritmo Poisson Reconstruction, determina uma função implícita para representar
os pontos da NP que possuem interligações, assim ele constrói uma superfície uniforme côncava ou
convexa, ou seja, os pontos que tem interligação recebem o mesmo valor e assim são identificados
para formar os triângulos necessários, fechando a estrutura 3D e formando uma malha poligonal
fechada.
Na figura 8a é mostrada uma renderização da parte frontal da face do usuário, enquanto nas
figuras 8b e 8c, outros ângulos de renderização foram escolhidos. Outro experimento de geração de
malha poligonal realizado, foi o experimento do método chamado Poisson Reconstructuction. Esse
método exige um pouco mais de complexidade matemática, porém é necessário para os estudos, pois
existe a possibilidade de redução do tempo de processamento da reconstrução, com a manipulação da
NP, além da melhoria da qualidade dos dados 3D.
A figura 9 mostra o resultado da reconstrução 3D, realizada com o método de geração de malha
Poisson Reconstruction, pode-se visualizar a face do usuário por dois ângulos diferentes. É possível
perceber que o método produz um melhor fechamento da malha 3D da parte traseira da cabeça do
usuário, isso porque o método tem essa característica de fechar a malha criada, a partir da NP. Esse
método já foi explicado no item 3.4.
O último experimento feito com a câmera Kinect, é o experimento apresentado na figura 12.
Esse experimento foi realizado utilizando o próprio SDK da Microsoft para a câmera RGB-D. Nesse
experimento, foi possível identificar a face do usuário e contorná-la com um quadrilátero, além de
criar uma malha simplificada da face (com poucos polígonos) e, aplicar a textura da face do usuário
sobre essa malha poligonal. Com o experimento foi possível a reconstrução 3D da face do usuário
sem ruídos e com uma malha composta por poucos pontos e polígonos, o que representa um tempo
menor de processamento. Agora é necessária a correção das imagens coloridas (texturas) para que o
efeito das cores aplicadas sobre a malha poligonal, seja mais suave e mais parecida com a face real
do usuário.
a b c
Na figura 10a é mostrada a malha poligonal simplificada da face do usuário em amarelo, pode-
se perceber que são vários triângulos conectados entre si descrevendo a estrutura 3D da face do
usuário, a figura 10b mostra simplesmente a mesma informação vista por outro ângulo e a figura 10c
representa a mesma malha poligonal da face, porém com a textura aplicada sobre a malha , o que
caracteriza um preenchimento dessa estrutura da face, deixando a informação 3D mais próxima da
face real do usuário.
4. Forma de Análise
A forma de análise desse projeto é a validação objetiva, visando cálculos para a identificação
das técnicas e das variáveis que proporcionam menor tempo de renderização 3D, estando mais
próxima da execução em tempo real. E quais produzem a melhor qualidade da informação 3D.
O método utilizado para analisar os resultados desse projeto chama-se Distância de Hausdorff
como pode ser visto em (Guthe et a.l, 2005) e (Straub, 2002) . A distância de Hausdorff é um filtro
que tem como entrada duas malhas poligonais e o resultado do processamento desse filtro é a
comparação de uma malha com a segunda malha. Desse modo, o filtro pode apontar se uma malha,
construída por um método de triangulação, está próxima ou distante de uma malha que foi construída
por um método distinto.
Para auxiliar na tarefa de análise dos resultados será utilizada a ferramenta Meshlab, que é um
software para processamento de nuvem de pontos e malhas poligonais. O Meshlab possui filtros para
tais processamentos que podem ser executados por meio de uma linguagem script própria. Esse
software está disponível para download no endereço eletrônico <http://meshlab.sourceforge.net/>.
Para comparar as malhas, será necessária a criação de uma malha poligonal de referência com a
ajuda de um software como o Meshlab, por exemplo. Então será feita a comparação da malha de
referência com a malha do sistema 1 e, posteriormente, a comparação da malha de referência com a
malha do sistema 2. O resultado dessa comparação aponta o método que resultou na malha com
melhor qualidade da informação 3D.
5. Referências Bibliográficas
Atallah, P.; Pelah, A. ; Wilkins, A. Visual stress symptoms from stereoscopic television. International Conference on 3D
Imaging (IC3D), Belgium, 2012.Pages: 1 – 7.
Berg, M.;Cheong, O.; Kreveld, M. and Overmars, M. Computational Geometry. Spring, 2008.
Cho, Sang-Hyun, Kang, Hang-Bong. The measurement of eyestrain caused from diverse binocular disparities, viewing
time and display sizes in watching stereoscopic 3D content. Conference on Computer Vision and Pattern Recognition
Workshops (CVPRW), 2012 IEEE Computer Society
Dahu, S.; and Zhongke, L. 2012. A fast surface reconstruction algorithm based on Delaunay. In Computer Science and
Information Processing, August 2012, 981-984.
16
Drummond, T.; Pan, Qi.; Reitmayr, G. ProFORMA: Probabilistic Feature-Based On-Line Rapid Model Acquisition.
Anais do Proc. Machine Vision Association BMVC’09, London UK: British, 2009.
Fehn, C. A 3D-TV Approach Using Depth-image-based Rendering (DIBR). Proceeding (396) Visualization, Imaging, and
Image Processing – Spain, 2003. Pages:482-487.
Grau, O; Thomas, G. A. ;Hilton, A. ; Kilner, J. ; Starck, J. A Robust Free-Viewpoint Video System for Sport Scenes.
Proceedings of 3DTV conference, Kos, Greece, 2007. Pages: 1 - 4.
Guthe, M.; Borodin, P.; Klein, R. Fast and accurate Hausdorff distance calculation between meshes. 13-th International
Conference in Central Europe on Computer Graphics, Visualization and Computer Vision 2005 (WSCG'2005). Pages 41-
48.
Huang, H.; Shihao, W.; Minglun, G.; Cohen-OR, D.; Ascher, U.; Zhang, H. Edge-Aware Point Set Resampling. ACM
Transactions on Graphics Volume 32 Issue 1, 2013.
Jaegeol, Y and Gyeyoung, L. The Design and Implementation of a Broadcasting Management Web System for IPTV.
International Journal of Multimedia and Ubiquitous Engineering, Vol.8, No.5 (2013), pp.131-144
Joskowicz, J. Sotelo, R.; LOPEZ ARDAO, J.C. Towards a General Parametric Model for Perceptual Video Quality
Estimation, IEEE Transactions on Broadcasting (Volume:59, Issue: 4), 2013.
Kauff, P.; Scheer, O.r; Sikora, T. 3D Video Communication: Algorithms, Concepts And Real-time Systems In Human
Centred Communication, Southern Gate, Chichester: Wiley, 2005.
Kazhdan , M.; Bolitho, M.; Hoppe, H. Poisson Surface Reconstruction. Eurographics Symposium on Geometry
Processing (2006)
Kukolj, D.; Dordevic, D.; Okolisan, D.; Ostojic, I. 3D image quality estimation (ANN) based on depth/disparity and 2D
metrics. 14th International Symposium on Computational Intelligence and Informatics (CINTI), 2013 IEEE. Pages 125 –
130
Kuster, C.; Popa, T. C.; Zach, C.; Gotsman, C.; Gross. M. FreeCam: A Hybrid Camera System for Interactive Free-
Viewpoint Video. Vision, Modeling, and Visualization (2011), page 17-24.
Melissa L. Koudelka Peter N. Belhumeur Sebastian Magda David J. Kriegman. Image-based Modeling and Rendering of
Surfaces with Arbitrary BRDFs. Proceedings of the Computer Society Conference on Computer Vision and Pattern
Recognition, 2001. CVPR 2001. Page(s):I-568 - I-575 vol.1
Nie, J; Hu, Y; Chen X. Fast triangulation method with step outside strategy. Chinese Control and Decision Conference
(CCDC), 2010. Page(s):4149 - 4153
Pan, Q.; Reitmayr, G.; Drummond, T. 2009. ProFORMA: Probablistic Feature-based On-line Rapid Model Acquisition.
In Proceedings of the British Machine Conference, September 2009, 112.1-112.11.
Richter, R.; Döllner, J. Out-Of-Core Real-Time Visualization Of Massive 3d Point Clouds. Proceedings of the 7th
International Conference on Computer Graphics, Virtual Reality, Visualisation and Interaction in Africa, 2010.
Rusu, R.B. ; Willow Garage, Menlo Park, CA, USA ; Cousins, S. 3D is here: Point Cloud Library (PCL). International
Conference on Robotics and Automation (ICRA), 2011 IEEE. Pages: 1 – 4.
Schroeder, W. J.; Zarge J. A.; and Lorensen, W. E. Decimation of triangle meshes. In Proceedings of Computer Graphics
SIGGRAPH '92, 1992, pp. 65-70.
Silva; J. P; Costa, G. C.; De Melo, J. V. C.; Mascarenhas, I. V.; Kurashima, C. S. Facial Modeling for Interactive 3D
Reconstruction in Web Applications. Simpósio Brasileiro de Sistemas Multimídia e Web, Webmedia’14, November 18–21,
2014, Joao Pessoa, PB, Brazil
Song, H. H.; Ge, Z.; Mahimkar, A.; Wang, J ; Yates, J.; Zhang, Y. Analyzing IPTV set-top box crashes. Proceedings of the
2nd ACM SIGCOMM workshop on Home networks. Pages 31-36
Stoykova, E. Alatan, A.A.; Benzie, P.; Grammalidis, N.; Malassiotis, S.; Ostermann, J.; Piekh, S.; Sainov, V.; Theobalt,
C.; Thevar, T.; Zabulis, X. 3-D Time-Varying Scene Capture Technologies—A Survey, IEEE Transactions on Circuits
and Systems for Video Technology (Volume:17 , Issue: 11 ), 2007.
17
Straub, R. Mesh : Measuring Errors Between Surfaces Using the Hausdorff Distance. In Proc. of the IEEE International
Conference in Multimedia and Expo (ICME) 2002, vol. 1, pp. 705-708, Lausanne, Switzerland, August 26-29, 2002,
Teutsch, C. ; Fraunhofer IFF, Magdeburg ; Berndt, D. ; Trostmann, E. ; Preim, B. Adaptive Real-Time Grid Generation
from 3D Line Scans for fast Visualization and Data Evaluation. 11th International Conference on Information
Visualization, 2007. IV '07.
Wojciech Matusik, Hanspeter Pfister. 3D TV: A Scalable System for Real-Time Acquisition, Transmission, and
Autostereoscopic Display of Dynamic Scenes. Proceedings SIGGRAPH '04 ACM SIGGRAPH 2004, Pages 814-824
Yamada, F. A. A.; Cejnog, L. W. X.; Dembogurski, R. A.; Vieira, M. B.; Silva R. L. S. Reconstrução de Objetos 3D
utilizando Estruturas de Indexação Espacial com o Microsoft Kinect. WRVA - Workshop de Realidade Virtual e
Aumentada - Paranavaí (PR) - Brasil – 2012.
Yan, L; Yuan, Y; Zeng, X; Deris, M.M. Refined Adaptive Meshes from Scattered Point Clouds. 12th International
Symposium on Distributed Computing and Applications to Business, Engineering & Science (DCABES), 2013
Yang, R.; Kurashima, C.; Towles, H.; Nashel, A.; Zuffo, M. Immersive Video Teleconferencing with User-Steerable
Views. Proceedings on Presence: Teleoperators and Virtual Environments April 2007, Vol. 16, No. 2, Pages 188-205.