Você está na página 1de 12

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Sistemas de Informação Introdução à Pesquisa em Informática

VISÃO COMPUTACIONAL Reconstrução de Cenas

Maicon José Gomes de Abreu

Projeto de Pesquisa Apresentado à Disciplina de Introdução a Pesquisa em Informática no Curso de Sistemas de Informação da Pontifícia Universidade Católica de Minas Gerais.

Belo Horizonte

2014

Maicon José Gomes de Abreu

VISÃO COMPUTACIONAL:

Reconstrução de Cenas

Projeto de Pesquisa Apresentado à Disciplina de Introdução a Pesquisa em Informática no Curso de Sistemas de Informação da Pontifícia Universidade Católica de Minas Gerais.

Belo Horizonte

2014

SUMÁRIO

1

INTRODUÇÃO

3

1.1

Objetivos

3

1.1.1 Objetivo geral

3

1.1.2 Objetivos específicos

3

1.2 Motivação

3

1.3 Justificativa

4

2

REFERENCIAL TEÓRICO

5

2.1 Técnica Shape from Stereo

5

2.2 Técnica baseada em luz estruturada

5

2.3 Fusão das técnicas Shape from Stereo e Shape from Silhouette

5

2.4 Técnicas baseadas em laser scanner

6

2.5 Estado da Arte

7

3

METODOLOGIA

8

3.1 Captura das imagens

8

3.2 Aprimoramento da técnica Shape from Stereo

8

3.3 Execução das técnicas Shape from Stereo e Shape from Silhouette

9

3.4 Análise dos resultados obtidos

9

4

CRONOGRAMA

10

REFERÊNCIAS BIBLIOGRÁFICAS

11

3

1.

INTRODUÇÃO

1.1.

Objetivos

1.1.1.

Objetivo geral

Especificar as principais técnicas e algoritmos utilizados na reconstrução tridimensional de cenas e dessa forma, identificar as vantagens e desvantagens do uso de cada um deles. Além disso, será definido com base nas comparações efetuadas quais os melhores métodos dentre os mais utilizados atualmente.

1.1.2. Objetivos específicos

- Localizar as tecnologias como algoritmos, equipamentos de captura de imagens e

outras técnicas utilizadas na reconstrução de cenas.

- Identificar melhores e piores métodos comparando-os em custo, uso de memória ou

qualidade das cenas resultantes para que seja possível selecionar qual o método utilizar em cada

problema a ser resolvido.

- Relatar as possíveis causas e detalhar dispositivos, técnicas ou circunstâncias os quais poderiam aperfeiçoar a utilização dos algoritmos atuais. - Criar um padrão comparativo das técnicas disponíveis atualmente que permita analisar e comparar facilmente tais métodos.

1.2. Motivação

A reconstrução tridimensional de uma cena pode ser realizada através de várias técnicas, entre as quais pode-se citar: reconstrução baseada na informação radiométrica contida em uma imagem - Shape from Shading; reconstrução através de parâmetros geométricos e da variável tempo para a determinação da estrutura tridimensional da cena - Shape from Motion; a partir da modelagem dos efeitos que a distância focal e a abertura do diafragma da câmera exercem sobre as imagens capturadas - Shape from Focus; reconstrução através da projeção de um padrão de

4

textura sobre uma cena de interesse - Shape from Texture; e determinação de forma utilizando duas ou mais câmeras em posições distintas - Shape from Stereo. Cada uma das técnicas citadas possui vantagens e desvantagens, no entanto, a denominada Shape from Stereo, é a mais difundida. (RODRIGUES V., 2008).

A motivação deste trabalho consiste na identificação das técnicas mencionadas nos dias atuais e suas aplicações, que podem ser:

- Reconstrução de cenas de crimes

- Mapeamento de localidades

- Tomografias tridimensionais

- Processamento de imagens de satélite para previsão do tempo

1.3.

Justificativa

Segundo Almeida (2007), a escolha de ferramentas que ofereçam uma maior abstração na implementação deste tipo de software/algoritmo torna-se um fator decisivo para a obtenção de resultados satisfatórios em curto prazo.

A reconstrução de cenas a partir de imagens tem recebido, recentemente, grande

interesse por parte dos pesquisadores das áreas de visão computacional, computação gráfica e modelagem geométrica. Várias são as suas aplicações como, por exemplo, modelagem de objetos a partir de imagens, construção de ambientes virtuais e telepresença. Dentre os métodos que têm produzido bons resultados na reconstrução

de

cenas a partir de imagens, podemos destacar aqueles que se baseiam em algoritmos

de

Escultura do Espaço. (MONTENEGRO, 2004).

Este estudo auxiliará futuros e atuais profissionais da área de visão computacional na escolha de técnicas e algoritmos para o desenvolvimento de soluções voltadas à reconstrução de cenas.

5

2.

REFERENCIAL TEÓRICO

2.1

Técnica Shape from Stereo

De acordo com Rodrigues (2008), existem várias técnicas de reconstrução tridimensional de cenas, contudo, é descrito em sua dissertação seis técnicas classificadas como principais. Na apresentação de cada técnica pode-se identificar os conceitos de cada uma delas além de suas vantagens e desvantagens. Além disso, deixa claro que a técnica mais difundida é a Shape from Stereo.

A primeira técnica de reconstrução tridimensional (a partir de imagens) e, ainda hoje, a mais difundida, é a “visão estéreo” (Shape From Stereo), que consiste basicamente em utilizar duas ou mais câmeras em suas posições distintas para obter a informação tridimensional da cena, em relação ao sistema de coordenadas adotado. (RODRIGUES, 2008).

2.2 Técnica baseada em luz estruturada

Após a descrição das principais técnicas, Rodrigues (2008), apresenta um modelo que tem como objetivo reconstruir superfícies baseando-se na técnica de luz estruturada, sendo este modelo uma variação da técnica mais difundida já comentada anteriormente.

2.3 Fusão das técnicas Shape from Stereo e Shape from Silhouette

Kolev et al. (2009), reafirma a existência da técnica Shape from Stereo como uma das principais técnicas para a reconstrução 3D contudo apresenta o método Shape from Silhouette como útil desde que o objeto a ser reconstruído possua textura pouca ou escassa.

Entre a multiplicidade de métodos existentes podem distinguir-se duas classes principais de técnicas de acordo com as informações da imagem explorada: forma a partir de silhuetas e estéreo. No caso de objetos com pouca textura, métodos baseados em silhueta exibem favorável desempenho. A maioria deles visam aproximar o casco visual do objeto com imagens. O casco visual é uma aproximação exterior do

6

observado sólido, construída como a interseção dos cones visuais associados com todas as silhuetas de imagem. (KOLEV et al., 2009, tradução nossa) 1

Segundo Kolev et al. (2009), a técnica Shape from Silhouette tem como desvantagem a incapacidade de reconstruir as concavidades das cenas capturadas. Kim et al. (2010) propõe a separação da superfície em planos utilizando várias câmeras portáteis. O primeiro plano é trabalhado usando o método de propagação trimap.

Para a extração do primeiro plano, propomos um multi-view do método de propagação trimap que é robusto contra mudanças dinâmicas na aparência entre viewsand ao longo do tempo. Isso nos permite aplicar algoritmos naturais de imagem de fosqueamento do estado da arte para multi-view sequências com interação mínima. 3D superfície ideal do primeiro plano modelos são reconstruídos através da integração de forma multi-view pistas e recursos. Para a modelagem de fundo, usamos uma câmera de varredura por linha com uma lente olho de peixe para capturar um ambiente completo com alta resolução. O modelo de ambiente é reconstruído a partir de um par de imagens estéreo com sub-pixel correspondência. (Kim et al., 2010, tradução nossa). 2

Como visto na citação, a integração dos planos já tratados é realizada com a técnica Shape from Stereo. Segundo Kim et al. (2010) muitos algoritmos foram desenvolvidos com o intuito de facilitar ainda mais a separação dos planos, contudo, mesmo sendo os mais poderosos algoritmos, estes exigiam intervenção manual para a definição dos trimaps.

2.4 Técnicas baseadas em laser scanner

Kordelas et al. (2010) já apresenta uma ideia nova sobre a reconstrução de cenas indicada para cenas de grande porte. O uso da tecnologia de laser scanner.

1 Among the multitude of existing methods one can distinguish between two major classes of techniques according to the exploited image information: shape from silhouettes and stereo. In case of sparsely textured objects, silhouette-based methods exhibit favorable performance. Most of them aim at approximating the visual hull of the imaged object. The visual hull is an outer approximation of the observed solid, constructed as the intersection of the visual cones associated with all image silhouettes.

2 For foreground extraction, we propose a multi-view trimap propagation method which is robust against dynamic changes in appearance between viewsand over time. This allows us to apply state-of-the-artnatural image matting algorithms for multi-view sequences with minimal interaction. Optimal 3D surface of the foreground models are reconstructed by integrating multi-view shape cues and features. For background modelling, we use a line scan câmera with a fish eye lens to capture a full environment with high resolution. The environment model is reconstructed from a spherical stereo image pair with sub-pixel correspondence.

7

Nos últimos anos, a tecnologia de scanner a laser emergiu como uma abordagem útil e competitiva para criar reconstruções em 3D. As vantagens básicas dos métodos que utilizam esta tecnologia são: (i) a velocidade, (ii) exatidão e (iii) resolução de reconstrução. Além disso, campo de vista dos scanners permite a reconstrução de objetos, qual o tamanho varia de poucos centímetros até vários metros e existem em um curto ou de longa distância. Em consequência, esta tecnologia é apropriada para cenas de grande porte, como o interior e exterior dos edifícios e, portanto, é geralmente aceito pela comunidade como um suporte válido para a documentação e conservação de edifícios históricos, monumentos ou sítios arqueológicos. (Kordelas et al., 2010) 3 .

Contudo, afirma também em seu artigo, que apesar dos resultados promissores desta técnica a complexidade, tamanho, custo e outros fatores necessários para a utilização da reconstrução 3D por laser scanner, torna sua aplicabilidade limitada comparando com métodos baseados na técnica Shape from Stereo.

2.5 Estado da Arte

Pode-se definir como o estado da arte a fusão das técnicas Shape from Stereo com os métodos baseados em Shape from Silhouette (para superfícies com pouca textura) indicada por Kolev et al. (2009). Além de ser um dos artigos mais citados dentre os pesquisados sobre o assunto, propõe a fusão de duas técnicas importantes para a reconstrução tridimensional.

3 In the last years, laser scanner technology was emerged as a useful and competitive approach for creating 3D reconstructions. The basic advantages of the methods that use this technology are: (i) speed, (ii) accuracy and (iii) resolution of the reconstruction. Moreover, the scanners' ¯eld of view allows for the reconstruction of objects, which size ranges from a few centimeters to several meters and exist in a short or long distance. Consequently, this technology is suitable for large-size scenes, as the interior and exterior of buildings and therefore, it is generally accepted by the community as a valid support for documentation and conservation of historic buildings, monuments or archaeological sites.

8

3. METODOLOGIA

Como visto no referencial teórico a junção das técnicas Shape from Stereo com a técnica baseada em silhuetas indicada por Kolev et al. (2009) é o estado da arte contudo, a técnica Shape from Stereo pode ser ainda mais eficiente. Abaixo serão apresentados os procedimentos que serão feitos para utilizá-la e inclusive torná-la mais eficiente.

3.1 Captura das imagens

Rodrigues (2008) diz que para se utilizar a técnica Shape from Stereo, as imagens devem ser capturadas em posições diferentes por duas ou mais câmeras de boa qualidade para que posteriormente sejam unidas e transformadas na cena 3D. Sendo assim, será realizada a captura das imagens confome orientação de Rodrigues (2008).

3.2 Aprimoramento da técnica Shape from Stereo

Ainda segundo Rodrigues (2008), a maior dificuldade na reconstrução 3D está em localizar pontos correspondentes entre as imagens captadas. Sendo assim será utilizada neste caso, a técnica exposta por Ogale e Aloimonos (2005) que consiste em agregar as informações em torno de um pixel para verificar sua correspondência como um todo, pois analisando um pixel sozinho a complexidade para calibrar as imagens é ainda maior uma vez que muitos pixels têm intensidade ou cor similares. Tal recurso faz com que o algoritmo fique mais eficiente segundo Ogale e Aloimonos (2005).

Assim, as informações em torno de um pixel devem ser agregadas para obter um jogo único. Impondo suavidade, sem um conhecimento prévio de descontinuidades de profundidade (segmentação) conduzirá inevitavelmente a erros, especialmente perto das descontinuidades. Assim, o conhecimento prévio da segmentação é essencial, a fim de definir corretamente as regiões em torno de um pixel para a agregação de informações. Por outro lado, se a correspondência exata é conhecida, a segmentação pode ser facilmente deduzida. Assim, se nós sabíamos que a segmentação, então

9

podemos estimar melhor a correspondência. Mas precisamos de correspondência, a fim de alcançar a segmentação. (OGALE; ALOIMONOS, 2005) 4

3.3 Execução das técnicas Shape from Stereo e Shape from Silhouette

Será utilizado como recurso para a reconstrução tridimensional das cenas captadas, a fusão das técnicas Shape from Stereo e Shape from Silhouette descrita por Kolev et al. (2009). Vale ressaltar que Shape from Stereo já estará aprimorada e com isso teremos uma maior eficiência nesta etapa.

3.4 Análise dos resultados obtidos

Logo após a geração das cenas tridimensionais, os resultados serão analisados e comparados entre as técnicas apresentadas neste projeto. Desta forma, será possível indicar possíveis modificações de avaliar o nível de aprimoramento no intuito de otimizar ainda mais a reconstrução 3D.

Segue fluxograma referente à metodologia apresentada:

Captura das imagens

referente à metodologia apresentada: Captura das imagens Aprimoramento da técnica Shape from Stereo Execução das

Aprimoramento da técnica Shape from Stereo

das imagens Aprimoramento da técnica Shape from Stereo Execução das técnicas Shape from Stereo e Shape

Execução das técnicas Shape from Stereo e Shape from Silhouette

das técnicas Shape from Stereo e Shape from Silhouette Análise dos resultados obtidos Figura 1: Fluxograma

Análise dos resultados obtidos

Figura 1: Fluxograma da metodologia Fonte: Elaborado pelo autor

4 Thus, information around a pixel must be aggregated to obtain a unique match. Enforcing smoothness without a prior knowledge of depth discontinuities (segmentation) will inevitably lead to errors, especially near the discontinuities. Hence, prior knowledge of the segmentation is essential in order to correctly define regions around a pixel for information aggregation. Conversely, if exact correspondence is known, the segmentation may be easily deduced.Thus, if we knew the segmentation, then we could better estimate the correspondence. But we need correspondence in order to achieve segmentation.

10

4.

CRONOGRAMA

Ago. Set. Out. Nov. Dez. Jan. Fev. Mar. Abr. Mai. Jun. Jul. Atividades/Mês 2014 2014
Ago.
Set.
Out.
Nov.
Dez.
Jan.
Fev.
Mar.
Abr.
Mai.
Jun.
Jul.
Atividades/Mês
2014
2014
2014
2014
2014
2015
2015
2015
2015
2015
2015
2015
Escolha do
X
tema
Pesquisa
X
X
X
bibliográfica
Coleta de
X
X
dados
Revisão
X
X
bibliográfica
Captura das
X
imagens
Aprimorar
técnica Shape
X
from Stereo
Executar fusão
das técnicas
X
X
mais
difundidas
Análise dos
resultados
X
obtidos
Revisão e
X
X
correção
Projeto de
X
X
pesquisa final

11

REFERÊNCIAS BIBLIOGRÁFICAS

ALMEIDA I. O., Metodologia semi-automática para reconstrução 3D de sólidos geométricos baseada em imagem.2007. 57f. Dissertação (Mestrado em Engenharia de Eletricidade) - Centro de Ciências Exatas e Tecnologia, Universidade de Federal do Maranhão, 2007.

KOLEV, Kalin et al., Continuous global optimization in multiview 3d reconstruction. International Journal of Computer Vision, v. 84, n. 1, p. 80-96, 2009.

KIM H. et al, Dynamic 3D scene reconstruction in outdoor environments, Proc. IEEE Symp. 3D Data Process. Vis., 2010

KORDELAS, G. et al., State-of-the-art Algorithms for Complete 3D Model Recoonstruction, "Engage" Summer School, 2010.

OGALE, Abhijit S.; ALOIMONOS, Yiannis. Shape and the stereo correspondence problem. International Journal of Computer Vision, v. 65, n. 3, p. 147-162, 2005.

MONTENEGRO, A. A. Reconstrução de Cenas a partir de Imagens através de Escultura do Espaço por Refinamento Adaptativo. 2003 . Tese de Doutorado. Phd Thesis. Pontificia Universidade Católica do Rio de Janeiro, 2003

RODRIGUES V. A.,Uma metodologia para reconstrução de superfícies a partir de luz estruturada.2008 . Dissertação (Pós-graduação em modelagem computacional) Universidade Federal de Juiz de Fora, 2008.