Monografia CG

MAC5744 - Introdução à Computação Gráfica DCC/IME/USP
Como melhorar a Modelagem de Superfı́cie usando

Deep Learning?
Harre Bams Ayma Aranda.

E-mail: harre@ime.usp.br
1 Abstract
Este trabalho investiga como o aprendizado profundo pode melhorar a modelagem de superfı́cies
na reconstrução 3D. Abordagens tradicionais enfrentam dificuldades para capturar a complexidade
e os detalhes precisos das superfı́cies. Este trabalho apresenta avanços na geração de malhas a
partir de imagens RGB, abordagens baseadas em esqueletos para malhas complexas, técnicas de
múltiplas vistas e baseadas em deformações, campos implı́citos e fluxos difeomórficos. Avaliações
experimentais demonstram a eficácia dessas abordagens na geração de modelos de malhas 3D pre-
cisos e detalhados. As técnicas propostas abrem novas perspectivas para melhorar a modelagem de
superfı́cies por meio do aprendizado profundo.
2 Introdução
A reconstrução em 3D tem sido um campo de pesquisa fundamental para capturar e representar
objetos tridimensionais do mundo real. À medida que a demanda por modelos 3D precisos e
detalhados continua crescendo em áreas como animação, realidade virtual e engenharia, surge a
necessidade de técnicas mais avançadas que permitam aprimorar a modelagem de superfı́cies.
A modelagem de superfı́cies, como um ramo-chave da reconstrução em 3D, concentra-se na criação de
representações digitais de objetos tridimensionais com superfı́cies definidas. No entanto, apesar dos
avanços alcançados até o momento, os métodos tradicionais ainda apresentam desafios na captura
da complexidade e dos detalhes precisos das superfı́cies.
É aqui que entra o deep learning. Essa poderosa técnica de aprendizado automático demonstrou sua
capacidade de aprender padrões complexos e representações abstratas a partir de grandes volumes
de dados. Ao aplicar o deep learning à modelagem de superfı́cies, novas possibilidades são abertas
para melhorar a precisão e a qualidade das representações tridimensionais.
Esse enfoque baseado em redes neurais tem se mostrado altamente eficaz e preciso na geração de
malhas 3D a partir de imagens RGB. Neste trabalho, exploraremos os avanços mais significativos
nessa área, que vão desde a geração de malhas 3D a partir de imagens individuais até abordagens
baseadas em múltiplas vistas e técnicas de deformação, e, por fim, técnicas avançadas como campos
implı́citos e fluxos difeomórficos.
A primeira abordagem que examinaremos concentra-se na geração de malhas 3D a partir de imagens
RGB individuais. Wang et al.[1] propõem uma abordagem inicial que estabelece as bases para a
geração de malhas usando o Deep Learning, e seus resultados têm sido promissores na melhoria da
modelagem de superfı́cies.
Continuando com o desenvolvimento de abordagens mais sofisticadas, Tang et al.[2] propõem uma
abordagem inovadora que utiliza esqueletos para gerar malhas tridimensionais com topologias com-
plexas, superando assim um dos desafios-chave na modelagem de superfı́cies.
Na próxima etapa de pesquisa, exploraremos a geração de malhas 3D usando abordagens baseadas
em múltiplas vistas e técnicas de deformação. Um dos trabalhos destacados nessa área é o de
Wen et al.[3]. Essa abordagem amplia a geração de malhas considerando múltiplas perspectivas de
um objeto e aplicando técnicas de deformação para obter maior precisão e coerência nos modelos
gerados.
Na última seção, mergulharemos em técnicas avançadas de geração de malhas 3D, especificamente o
2
uso de campos implı́citos e fluxos difeomórficos. Chen et al.[4] propõem o uso de campos implı́citos
para capturar caracterı́sticas e detalhes de formas complexas na geração de malhas. Por outro lado,
Chandraker et al.[5] introduzem uma técnica baseada em fluxos difeomórficos para gerar malhas 3D
de maneira suave e contı́nua, obtendo assim malhas com topologias adequadas e sem defeitos.
3 Estado da arte: discussão crı́tica dos artigos.

O campo da reconstrução em 3D está em constante evolução devido aos avanços em aprendizado
profundo e à disponibilidade de conjuntos de dados cada vez maiores e mais diversos. Abordagens
baseadas em voxels, nuvens de pontos, transformadores e superfı́cies têm demonstrado sua eficácia
na geração de modelos tridimensionais precisos e detalhados. Essas técnicas encontram aplicações
em diversos campos, como robótica, realidade virtual, arqueologia e medicina, entre outros, abrindo
novas possibilidades na compreensão e interação com o mundo tridimensional.
Dentro da reconstrução 3D, a geração de superfı́cies 3D a partir de imagens RGB é um tema
de pesquisa nos campos de visão computacional, computação gráfica e aprendizado profundo, que
busca criar representações tridimensionais detalhadas de objetos a partir de imagens coloridas. Essas
representações são deformáveis uniformemente e consomem menos memória do que representações
baseadas em voxels, nuvens de pontos e outras, pois modelam apenas a superfı́cie.
No entanto, tais representações não se encaixam facilmente nos frameworks de aprendizado pro-
fundo.
Tradicionalmente, a geração de modelos de malha 3D exigia técnicas manuais e conhecimento espe-
cializado em modelagem 3D. No entanto, com os avanços no campo do aprendizado profundo, foi
possı́vel automatizar esse processo e gerar modelos de malha 3D de maneira mais eficiente e precisa.
Começaremos explorando como os algoritmos de aprendizado profundo podem aproveitar a abun-
dante informação visual contida nas imagens RGB para a geração de malhas 3D.
3.1 Generación de mallas 3D a partir de imágenes RGB

Vários esforços têm sido feitos para abordar o problema da reconstrução 3D a partir de imagens
RGB, como em Wang et al.[1], que foi um dos primeiros a aproveitar as CNN gráficas para estimar
a forma 3D de um objeto em uma representação de malha. Para gerar modelos de malha 3D
precisos e detalhados a partir de uma única imagem RGB, Wang et al.[1] propõe uma arquitetura
de aprendizado profundo de ponta a ponta. Essa arquitetura utiliza uma rede neural convolucional
3
baseada em grafos e técnicas de deformação progressiva para produzir uma malha triangular precisa
e detalhada que representa a forma 3D do objeto.
O processo de geração da malha 3D ocorre seguindo os seguintes passos:
Primeiramente, é feito um pré-processamento da imagem RGB de entrada para normalizar os valores
dos pixels e ajustar o tamanho da imagem de acordo com os requisitos do modelo.
Em seguida, é utilizada uma rede neural convolucional (CNN) pré-treinada, como a VGG-16, para
extrair caracterı́sticas perceptuais da imagem. Essas caracterı́sticas são obtidas a partir de camadas
intermediárias da CNN e capturam informações semânticas e de texturas relevantes para a geração
da malha 3D. Posteriormente, é gerada uma malha inicial utilizando uma forma básica, como uma
esfera ou elipsoide. Essa malha inicial é deformada progressivamente para se ajustar à forma do
objeto na imagem. Para incorporar a informação perceptual na geração da malha e melhorar
a precisão da reconstrução, é utilizada uma camada de projeção que mapeia as caracterı́sticas
extraı́das da imagem para a geometria 3D da malha. Em seguida, é feita uma deformação iterativa
da malha inicial utilizando uma rede neural convolucional baseada em grafos, Graph Convolutional
Networks (GCN) (Scarselli et al.[6]; Bronstein et al.[7]; Defferrard et al.[8]). Essa rede atualiza as
posições dos vértices da malha em cada iteração para que se ajustem melhor à forma do objeto na
imagem. É empregada uma estratégia de ”coarse-to-fine”para estabilizar o processo de deformação.
Isso implica em fazer deformações em grande escala nas primeiras etapas e refinar os detalhes em
etapas posteriores, capturando tanto a estrutura geral quanto os detalhes finos da forma 3D. Por
fim, são definidas várias funções de perda para guiar a geração da malha e garantir um melhor
desempenho do sistema. Essas funções de perda ajudam a otimizar o processo e garantir uma
geração de malha de alta qualidade.
Foram realizados vários experimentos para avaliar a efetividade da abordagem proposta na geração
de modelos de malha 3D a partir de imagens RGB. Em particular, o método proposto foi compa-
rado com dois métodos existentes de reconstrução 3D a partir de imagens RGB: 3D-R2N2 e PSG.
Foram utilizadas várias métricas de avaliação, como Precisão e Revocação, F-Score, Distância de
Chamfer (CD) e Distância do Transporte Terrestre (EMD), que medem a precisão da superfı́cie, a
continuidade, a suavidade e os detalhes de alta ordem.
Os resultados experimentais mostraram que a abordagem proposta superou significativamente os
métodos existentes em termos de precisão da superfı́cie e detalhes de alta ordem. Além disso,
foi realizado um estudo ablativo para analisar a importância de cada componente no modelo. De
forma geral, os resultados experimentais sugerem que a abordagem proposta é efetiva na geração
4
Figura 1: A rede de deformação de malha em cascata. O modelo completo contém três
malhas de deformação. Cada bloco aumenta a resolução da malha e estima as permanências
dos vértices, que são então usadas para extrair caracterı́sticas de imagens perceptivas da
CNN 2D para o próximo bloco.
Tabela 1: F-Score(%) no conjunto de testes ShapeNet em diferentes limiares, onde τ = 10−4

maior é melhor. Os melhores resultados em cada limiar estão em negrito.
5
Tabela 2: CD e EMD no conjunto de testes ShapeNet. Menor é melhor. Os melhores
resultados em cada limiar estão em negrito.
de modelos de malha 3D precisos e detalhados a partir de imagens RGB, e supera os métodos

existentes em termos de qualidade da superfı́cie e detalhes de alta ordem.
A abordagem proposta neste artigo supera as limitações dos métodos anteriores, que frequentemente
se baseavam em representações volumétricas ou nuvens de pontos. Além disso, é alcançada uma
maior precisão na estimativa de formas 3D e são capturados detalhes superficiais importantes que
são perdidos em outras representações.
Em Wang et al. [1], o foco foi em objetos que podem ser aproximados usando uma malha 3D com
gênero 0 através da deformação de uma elipsoide de tamanho fixo, porém, ao lidar com objetos que
possuem topologias mais complexas, foram encontradas limitações.
A geração de malhas com topologias complexas e detalhadas ainda é um desafio significativo. Essas
topologias complexas são caracterizadas pela presença de estruturas intrincadas, como cavidades,
saliências e conexões irregulares, que não podem ser facilmente modeladas por malhas simples. Essas
topologias são comuns em objetos naturais, como plantas, animais e tecidos orgânicos, bem como
em objetos fabricados com designs elaborados. A representação precisa dessas topologias complexas
é crucial para muitas aplicações, como animação de personagens virtuais, engenharia de tecidos e
simulação de fluidos.
6
Diferentes abordagens foram propostas para lidar com o desafio da geração de malhas com topologias
complexas. Essas abordagens se baseiam em técnicas de aprendizado profundo, como redes neurais
convolucionais e modelos generativos, que permitem capturar a estrutura e os detalhes dos objetos
em três dimensões.
Buscando abordar esse problema, foi introduzida uma abordagem baseada em esqueletos para lidar
com a complexidade das topologias. Em Tang et al. [2], ao contrário das abordagens anteriores
que se concentram na extração direta de caracterı́sticas da imagem para a geração de malhas,
esse método propõe usar um esqueleto como guia para a construção da malha tridimensional. O
esqueleto captura a estrutura básica e a disposição espacial dos objetos na imagem, permitindo uma
representação mais precisa das topologias complexas.
A metodologia de Tang et al. [2] é baseada no projeto de uma arquitetura de aprendizado profundo,
na preparação de um conjunto de dados de treinamento, na realização de estudos ablativos e na
apresentação de resultados qualitativos e quantitativos para demonstrar a eficácia da abordagem
proposta. Para gerar a malha, é utilizado um técnica baseada em Perceptron Multicamada (MLP)
na primeira etapa para inferir os pontos do esqueleto a partir da imagem RGB de entrada. Na
segunda etapa, os pontos do esqueleto inferidos são convertidos em um volume grosso usando a
técnica de voxelização. Em seguida, na terceira etapa, uma malha base é extraı́da do volume
refinado usando o algoritmo Marching Cubes. Na quarta e última etapa, a malha base é otimizada
usando uma Rede Neural Convolucional Geométrica (GCNN) especificamente projetada para esse
propósito. A GCNN ajusta os vértices da malha base, melhorando assim a qualidade e a precisão
da malha final gerada.
No estudo realizado, a abordagem proposta foi comparada com dois métodos existentes: AtlasNet
[9] e Pixel2Mesh [1]. Foram realizadas comparações utilizando cinco categorias diferentes de objetos,
incluindo plantas, bancos, cadeiras, mesas e luminárias. Para avaliar a qualidade dos resultados,
foram utilizadas duas métricas de distância: distância de Chamfer e distância de Transporte de
Emisor-Receptor.
A abordagem proposta mostrou ser efetiva e superior em comparação com outros métodos existentes,
como AtlasNet e Pixel2Mesh, em termos de métricas de distância e qualidade da malha. Além
disso, avaliações foram realizadas em diferentes categorias de objetos e resultados promissores foram
obtidos.
A abordagem proposta consegue gerar malhas de superfı́cie com topologias complexas, porém a
geração de malhas de alta resolução com detalhes finos ainda é um desafio. Melhorar a capacidade
7
de capturar detalhes mais finos na geração de malhas ainda é um desafio.
A abordagem de Tang et al. [2], assim como a de Wang et al. [1], se concentra na geração de malhas
a partir de imagens RGB individuais. Para abordar o desafio de capturar a forma tridimensional de
maneira mais precisa e considerando múltiplas perspectivas, na próxima subseção serão exploradas
técnicas baseadas no uso de múltiplas vistas e deformação.
3.2 Geração de malhas 3D por meio de abordagens baseadas em

múltiplas vistas e deformação.
Nesta seção, exploramos a geração de malhas 3D a partir de múltiplas vistas e o uso de técnicas
de deformação, como em Pixel2Mesh++ [3], que amplia a abordagem do Pixel2Mesh [1], onde
múltiplas imagens capturadas de diferentes pontos de vista são utilizadas para reconstruir o objeto.
O algoritmo primeiro estima um modelo 3D aproximado grosso do objeto usando o Pixel2Mesh
previamente treinado. Essa estimativa é então alimentada em uma rede de deformação de múltiplas
vistas. Essa rede gera várias hipóteses para cada vértice do modelo 3D aproximado. Cada hipótese é
uma possı́vel nova localização para um determinado vértice, com uma probabilidade atribuı́da. Após
a formação de um gráfico de hipóteses para cada vértice, um gráfico CNN (rede neural convolucional)
prevê os movimentos dos vértices. No próximo passo, um vetor de caracterı́sticas é atribuı́do a
cada hipótese, semelhante ao Pixel2Mesh. Isso é feito projetando o modelo 3D aproximado nos
mapas de caracterı́sticas da imagem de entrada e extraindo as caracterı́sticas correspondentes para
cada vértice. A única diferença aqui é que as caracterı́sticas de múltiplas vistas do objeto devem
ser manipuladas. O problema com a concatenação de caracterı́sticas de múltiplas vistas é que o
comprimento do vetor de caracterı́sticas não é constante e aumenta com o número de entradas de
imagens. Para resolver esse problema, para cada hipótese, os vetores de média, máximo e variância
das funções de múltiplas vistas são concatenados em um vetor de tamanho fixo. No próximo passo,
o bloco de raciocı́nio de deformação atribui uma nova localização para cada vértice. Esse bloco
atribui um peso a cada hipótese e o passa por uma função softmax. A localização final do vértice é
a soma ponderada de suas hipóteses.
Enquanto os métodos anteriores para reconstrução de malhas 3D apenas aprenderam os desloca-
mentos de um modelo de malha para deformá-lo na malha alvo, Pan et al. [10] introduzem um
novo módulo de modificação de topologia para podar as faces que se desviam significativamente da
verdade fundamental. Para podar esses erros, a rede deve estimar corretamente os erros. Portanto,
8
uma rede de estimativa de erro é treinada com uma perda quadrática para retroceder os erros de
reconstrução. Juntamente com um módulo de deformação de malha, o método proposto pode re-
construir topologias complexas a partir de um modelo de malha base de gênero-0 em alta resolução.
Além disso, uma rede de refinamento de limites também é responsável por refinar as condições de
contorno para melhorar a qualidade da malha reconstruı́da. A Figura 9 fornece uma visão geral
de todo o pipeline. Resultados quantitativos são relatados para cinco classes de ShapeNet. Esses
resultados demonstram uma melhoria de 17% em termos de CD e uma melhoria de 13,7% em EMD
em relação ao Pixel2Mesh.
Portanto, o modelo proposto por Wen et al. [3] não apenas melhora a qualidade da forma, mas
também demonstra capacidade de generalização em diferentes categorias e variações de entrada.
Os resultados experimentais apresentados no artigo mostram que o modelo proposto supera as
abordagens existentes em termos de qualidade da forma gerada e capacidade de generalização.
Apesar de o modelo proposto mostrar capacidade de generalização em diferentes categorias, ainda
podem existir desafios ao gerar formas 3D precisas para objetos com geometrias extremamente
complexas ou irregulares.
Nesse sentido, na próxima seção, exploraremos como técnicas avançadas de modelagem de superfı́cies
e o uso de deep learning estão permitindo avanços na superação dos desafios tradicionais na geração
de malhas, como a captura de topologias complexas e a obtenção de resultados mais precisos e
confiáveis.
3.3 Geração de superfı́cies 3D através de técnicas avançadas (Cam-

pos Implı́citos e Fluxos Difeomórficos)
Nesta seção, veremos técnicas avançadas para a modelagem de superfı́cies, como a utilização de
campos implı́citos, que são uma representação matemática utilizada no campo do modelamento e
geração de formas tridimensionais. Em vez de representar uma forma utilizando uma malha de
pontos discretos ou uma superfı́cie explı́cita, um campo implı́cito atribui um valor a cada ponto
do espaço, indicando sua posição em relação à forma em questão. De forma simples, um campo
implı́cito define uma função matemática que atribui um valor a cada ponto do espaço tridimensional.
Esse valor pode ser interpretado como a distância entre o ponto e a superfı́cie da forma, onde os
pontos que estão dentro da forma possuem valores negativos, os pontos na superfı́cie possuem valores
próximos a zero e os pontos fora da forma possuem valores positivos.
9
Uma das vantagens de utilizar campos implı́citos é a capacidade de capturar caracterı́sticas e de-
talhes de formas complexas de maneira eficiente. Armazenar uma função contı́nua em vez de uma
malha discreta permite uma representação mais compacta e flexı́vel da forma. Além disso, os cam-
pos implı́citos são intrinsecamente suaves, facilitando sua manipulação e processamento por meio
de técnicas de aprendizado profundo. Ao aprender a função implı́cita adequada a partir de dados
de entrada, como imagens ou nuvens de pontos, é possı́vel gerar malhas que se ajustem à forma
desejada.
Começou-se a explorar a capacidade do aprendizado automático para aprender e gerar campos
implı́citos precisos e detalhados que representam superfı́cies tridimensionais. Chen et al.[4] propõem
o decodificador de campo implı́cito IM-NET (Implicit Multilayer Perceptron Network), que é uma
arquitetura de rede neural convolucional 3D projetada especificamente para gerar representações
tridimensionais a partir de campos implı́citos. Para alcançar esse objetivo, várias etapas essenciais
são necessárias. Primeiramente, o decodificador IM-NET é treinado por meio de uma arquitetura
de rede neural convolucional 3D capaz de extrair caracterı́sticas de modelos voxel 3D usando um
codificador de rede neural convolucional 3D. Para melhorar a qualidade e a resolução das formas
geradas, técnicas de treinamento progressivo são empregadas. Isso envolve treinar o modelo em
resoluções voxel cada vez mais altas, o que permite capturar detalhes mais finos e obter resultados
mais precisos. Uma vez que o decodificador IM-NET está treinado e as caracterı́sticas relevantes
foram extraı́das, ele é aplicado para gerar formas 3D a partir dessas caracterı́sticas. O decodificador
utiliza as informações aprendidas para criar representações tridimensionais de alta qualidade.
Vários experimentos foram realizados, medindo métricas como Mean Squared Error (MSE), In-
tersection over Union (IoU), Symmetric Chamfer Distance (CD) e Low Frequency Displacement
(LFD). Alguns dos experimentos incluı́ram a auto-codificação de formas, em que o decodificador
IM-NET foi comparado a outros modelos de auto-codificação de formas 3D, como o autoencoder
variacional (VAE) e o autoencoder adversarial (AAE). Também foram realizados experimentos de
geração de formas 2D e 3D, comparando o decodificador IM-NET a outros modelos de geração de
formas 2D e 3D, como a generative adversarial network (GAN) e o variational autoencoder (VAE).
Além disso, foram comparados o decodificador IM-NET com outros modelos de reconstrução de
formas 3D a partir de uma única vista, como o 3D-R2N2 e o Pixel2Mesh.
Os resultados dos experimentos mostram que, em termos de métricas como MSE, IoU e CD, o
modelo IM-NET não supera outros modelos, como o CNN-AE, na maioria das categorias. No
entanto, é importante ressaltar que, mesmo assim, a avaliação visual revela que o IM-NET produz
10
melhores resultados em termos de qualidade visual. São apresentados resultados visuais, como
interpolação de formas 3D, que mostram a suavidade das superfı́cies geradas pelo IM-NET e sua
capacidade de lidar com mudanças topológicas. Esses resultados visuais corroboram a afirmação de
que o IM-NET produz melhores resultados em termos de qualidade visual, mesmo que as métricas
tradicionais possam favorecer outros modelos.
Agora, vamos abordar o fluxo difeomórfico, que se refere a uma técnica utilizada na geração de
malhas tridimensionais, permitindo transformar suave e continuamente uma malha inicial em uma
malha alvo por meio de uma série de deformações difeomórficas.
Nesse contexto, difeomorfismo refere-se a uma transformação biunı́voca que é suave e cuja inversa
também é suave. Em outras palavras, o fluxo difeomórfico assegura que não ocorram distorções
drásticas ou buracos na malha durante o processo de deformação. Isso é importante para manter a
integridade e a coerência estrutural da malha.
O fluxo difeomórfico é baseado em técnicas de otimização e é modelado como um campo vetorial
que descreve a direção e a magnitude das deformações a serem aplicadas em cada ponto da malha.
Por meio da iteração desse campo vetorial, as posições dos vértices da malha inicial são atualizadas,
gerando uma transformação suave e contı́nua em direção à malha alvo.
Essa técnica possui várias vantagens, pois permite gerar malhas tridimensionais de alta qualidade,
sem defeitos topológicos e com alta fidelidade visual. Além disso, o fluxo difeomórfico é capaz de se
adaptar a diferentes formas e estruturas, tornando-o especialmente útil na geração de malhas com
topologias complexas.
Portanto, para gerar malhas 3D de alta qualidade com topologias adequadas e sem defeitos, foram
feitos esforços para aprender e controlar o fluxo difeomórfico por meio do uso de redes neurais.
Chandraker et al.[5] propõem um enfoque baseado no treinamento de uma rede neural para aprender
um mapeamento difeomórfico entre uma malha de referência e uma malha alvo. Esse mapeamento
difeomórfico é usado para orientar a transformação suave da malha de referência em direção à forma
alvo, gerando assim uma malha tridimensional de alta qualidade.
Para realizar esse processo, são realizadas várias etapas fundamentais. Primeiramente, ocorre o pré-
processamento dos dados, que consiste em coletar e preparar os modelos tridimensionais existentes
e suas respectivas malhas.
Em seguida, é realizado o projeto da arquitetura da rede neural a ser utilizada no processo. Isso
envolve definir e projetar a estrutura da rede, selecionando o tipo adequado de rede neural, como
redes neurais convolucionais (CNNs) ou redes generativas adversárias (GANs), e configurando suas
11
camadas e parâmetros especı́ficos.
Posteriormente, é realizado o treinamento da rede neural usando um conjunto de dados de treina-
mento apropriado. Durante esse processo, a rede aprende a gerar fluxos difeomórficos que permitem
transformar as malhas de entrada nas malhas desejadas. São empregadas técnicas de otimização
para ajustar os pesos e parâmetros da rede, melhorando assim seu desempenho.
Uma vez que a rede neural está treinada, ela é utilizada para a geração de malhas 3D a partir dos
modelos de entrada. A rede aplica os fluxos difeomórficos aprendidos para deformar e ajustar as
malhas originais, criando malhas 3D suaves e contı́nuas.
Nos experimentos realizados, foi demonstrado que a abordagem proposta supera outros métodos de
referência na geração de malhas 3D, como MeshNet, AtlasNet, Pixel2Mesh e DeepSDF, em termos
de qualidade visual, fidelidade da forma e preservação da topologia, para avaliar o desempenho
das malhas geradas. Dessa forma, são validadas as vantagens de utilizar fluxos difeomórficos para
alcançar uma geração precisa e suave de malhas.
4 Conclusion
De acordo com os estudos e resultados apresentados neste trabalho, pode-se concluir que o aprendi-
zado profundo tem se mostrado uma ferramenta poderosa para o modelamento de superfı́cies. Em
comparação com os métodos tradicionais, tem sido demonstrado que é mais eficaz e preciso. Ao
longo do tempo, as abordagens evoluı́ram, tornando o modelamento de superfı́cies cada vez mais
detalhado e complexo.
Inicialmente, imagens RGB individuais foram utilizadas para gerar modelos de malhas 3D. Em se-
guida, métodos baseados em esqueletos foram introduzidos para gerar superfı́cies 3D com topologias
complexas. Essas abordagens foram ainda mais aprimoradas ao considerar múltiplas visualizações e
utilizar técnicas de deformação. Posteriormente, foram exploradas abordagens avançadas, como os
campos implı́citos, que podem capturar caracterı́sticas e detalhes de formas complexas na geração
de malhas. Por fim, foram desenvolvidos os fluxos difeomórficos, que permitem gerar malhas com
topologias adequadas e sem defeitos.
Embora tenha havido uma melhoria significativa em comparação com os métodos tradicionais, é
importante destacar que ainda existem desafios a serem superados no modelamento de superfı́cies
por meio do uso do aprendizado profundo. A complexidade e diversidade das superfı́cies representam
um desafio, pois os modelos precisam ser suficientemente flexı́veis para representar uma ampla
12
variedade de formas e estruturas. Além disso, a generalização para casos não vistos é um aspecto
relevante no modelamento de superfı́cies, onde podem surgir novas formas e estruturas que não
foram observadas durante o treinamento. Melhorar a capacidade dos modelos de generalizar e lidar
com casos não vistos é um desafio importante.
Para superar esses desafios, sugere-se pesquisar e desenvolver arquiteturas de redes neurais mais es-
pecializadas, como redes generativas adversárias (GANs), redes neurais convolucionais (CNNs) em
3D ou redes com atenção espacial. Essas arquiteturas podem permitir uma melhor representação
e modelagem das superfı́cies. Além disso, pode-se utilizar a transferência de aprendizado e o trei-
namento com dados sintéticos. A transferência de aprendizado permite aprimorar a generalização
por meio de técnicas que adaptam modelos treinados em conjuntos de dados relacionados a um
conjunto alvo mais limitado. Também podem ser utilizados dados sintéticos gerados por técnicas
de simulação para aumentar a diversidade do conjunto de treinamento e melhorar a capacidade de
generalização. Essas abordagens representam possı́veis caminhos para superar os desafios atuais na
pesquisa sobre como melhorar o modelamento de superfı́cies usando Deep Learning.
Referências
[1] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu, and Y.-G. Jiang, “Pixel2mesh: Generating 3d mesh
models from single rgb images,” in Proceedings of the European conference on computer vision
(ECCV), 2018, pp. 52–67.
[2] J. Tang, X. Han, J. Pan, K. Jia, and X. Tong, “A skeleton-bridged deep learning approach for
generating meshes of complex topologies from single rgb images,” in Proceedings of the ieee/cvf
conference on computer vision and pattern recognition, 2019, pp. 4541–4550.
[3] C. Wen, Y. Zhang, Z. Li, and Y. Fu, “Pixel2mesh++: Multi-view 3d mesh generation via
deformation,” in Proceedings of the IEEE/CVF international conference on computer vision,
2019, pp. 1042–1051.
[4] Z. Chen and H. Zhang, “Learning implicit fields for generative shape modeling,” in Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5939–
5948.
[5] K. G. M. Chandraker, “Neural mesh flow: 3d manifold mesh generation via diffeomorphic
flows,” arXiv preprint arXiv:2007.10973, 2020.
13
[6] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural
network model,” IEEE transactions on neural networks, vol. 20, no. 1, pp. 61–80, 2008.
[7] M. M. Bronstein, J. Bruna, Y. LeCun, A. Szlam, and P. Vandergheynst, “Geometric deep

learning: going beyond euclidean data,” IEEE Signal Processing Magazine, vol. 34, no. 4, pp.
18–42, 2017.
[8] M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs

with fast localized spectral filtering,” Advances in neural information processing systems,
vol. 29, 2016.
[9] Q. Yu, C. Yang, and H. Wei, “Part-wise atlasnet for 3d point cloud reconstruction from a single
image,” Knowledge-Based Systems, vol. 242, p. 108395, 2022.
[10] X. Pan, B. Dai, Z. Liu, C. C. Loy, and P. Luo, “Do 2d gans know 3d shape? unsupervised 3d
shape reconstruction from 2d image gans,” arXiv preprint arXiv:2011.00844, 2020.
[11] T. Samavati and M. Soryani, “Deep learning-based 3d reconstruction: A survey,” Artificial

Intelligence Review, pp. 1–45, 2023.
14

Monografia CG

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Monografia CG

Enviado por

Direitos autorais:

Formatos disponíveis

MAC5744 - Introdução à Computação Gráfica DCC/IME/USP

Como melhorar a Modelagem de Superfı́cie usando

Harre Bams Ayma Aranda.

3 Estado da arte: discussão crı́tica dos artigos.

3.1 Generación de mallas 3D a partir de imágenes RGB

Tabela 1: F-Score(%) no conjunto de testes ShapeNet em diferentes limiares, onde τ = 10−4

de modelos de malha 3D precisos e detalhados a partir de imagens RGB, e supera os métodos

3.2 Geração de malhas 3D por meio de abordagens baseadas em

3.3 Geração de superfı́cies 3D através de técnicas avançadas (Cam-

[7] M. M. Bronstein, J. Bruna, Y. LeCun, A. Szlam, and P. Vandergheynst, “Geometric deep

[8] M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs

[11] T. Samavati and M. Soryani, “Deep learning-based 3d reconstruction: A survey,” Artificial

Você também pode gostar