Você está na página 1de 3

Animação facial baseada em captura de movimento

Paula D. Paro Costa1 , Maria de Fátima de Gouveia2 , José Mario De Martino1


1 Departamento de Engenharia de Computação e Automação Industrial (DCA)
Faculdade Engenharia Elétrica e de Computação (FEEC) - Unicamp
2 Divisão de Mostradores da Informação (DMI)

Centro da Tecnologia da Informação Renato Archer (CTI)

paula@dca.fee.unicamp.br,fatima.gouveia@cti.gov.br, martino@dca.fee.unicamp.br

Resumo – As diversas técnicas existentes de captura de movimento, ou MoCap (motion capture), têm sido em-
pregadas com frequência na obtenção de dados de estudo relevantes para a pesquisa em síntese automatizada de
animações faciais. Os dados fornecidos por um sistema MoCap são sinais dinâmicos das coordenadas espaciais de
cada marcador rastreado. Este artigo descreve os principais aspectos relacionados à captura de movimentos faciais
observados a partir de experiências realizadas no Centro de Tecnologia da Informação Renato Archer (CTI), no
contexto do projeto de cooperação científica entre Unicamp e CTI, para o desenvolvimento de avatares expressivos
para a comunicação oral e em língua de sinais.
Palavras-chave: animação facial, captura de movimento.

1. Introdução
Cabeças virtuais animadas podem assumir diferentes papéis como personagens de filmes ou jogos, tutores
em sistemas de ensino e treinamento, vendedores em sistema de comércio eletrônico, assistentes ou recep-
cionistas em museus e escritórios e apresentadores de notícias. Um dos principais desafios na síntese de
animações faciais é a reprodução realista dos diversos mecanismos de comunicação verbais e não-verbais
expressos pela face, bem como a expressão de emoções.
Visando obter personagens cada vez mais realistas, diversas técnicas de captura de movimento, ou
MoCap, vêm sendo empregadas pela indústria cinematográfica para transferir os movimentos de um ator
a um modelo geométrico de personagem animado. Filmes como “Avatar” (2009) ou “Planeta dos Maca-
cos: A Origem” (2011) são exemplos de produções em que a captura de movimento facial foi utilizada de
maneira intensiva para guiar a animação de um ou mais personagens animados. Por outro lado, a pesquisa
em síntese de animação facial se beneficia dos dados tridimensionais fornecidos por sistemas MoCap que
permitem o estudo sistemático, por exemplo, dos movimentos articulatórios da fala, de expressões faciais e
movimentos da cabeça relacionados à comunicação não-verbal [1], [2].
Com este foco, este artigo apresenta os resultados dos experimentos realizados no laboratório de captura
de movimento do Centro de Tecnologia da Informação Renato Archer (CTI), que tiveram como objetivo
determinar a viabilidade e um protocolo de capturas faciais capaz de fornecer dados para o desenvolvimento
de avatares expressivos para a comunicação oral e em língua de sinais.

2. Infra-Estrutura, Materiais e Método


Laboratório de Captura de Movimento O CTI conta com um laboratório dedicado à captura de movimento
baseado num sistema Vicon de 8 câmeras de infra-vermelho e uma câmera de vídeo, com capacidade de
captura de 120 quadros por segundo em sua resolução máxima de 16 Megapixels, podendo realizar capturas
de até 2000 quadros por segundo. O sistema inclui uma plataforma software dedicada (Vicon Nexus) que
possibilita processar e exportar os dados capturados simultaneamente pelas 9 câmeras.
Posicionamento e Ajuste das Câmeras Para uma detecção precisa dos marcadores no espaço, é reco-
mendado que cada marcador seja visível por pelo menos três câmeras simultaneamente ao longo de toda
captura. Além desta premissa inicial, o posicionamento das câmeras para capturas faciais deve levar em
consideração o tamanho reduzido dos marcadores utilizados (tipicamente entre 3 e 7 mm de diâmetro) e
a alta densidade de marcadores num volume reduzido do espaço. O número de marcadores na face pode
Figura 1. Configuração de câmeras adotada para captura de movimentos da face.

variar de algumas dezenas a mais de 150 [3]. Por outro lado, movimentos faciais facilmente percebidos e
interpretados por nosso cérebro como portadores de informação, podem ser extremamente sutis ou rápidos.
Frequentemente o pequeno distanciamento entre marcadores resulta na interpretação de dois marcadores
como um só (como no piscar de olhos ou no fechamento dos lábios) e/ou no surgimento de pontos fantasmas
devido a reflexões entre marcadores. Dessa maneira, o projeto do posicionamento das câmeras, incluindo
suas alturas e campos de visão, e o ajuste de foco e abertura de cada câmera mostrou-se essencial para a
obtenção de capturas precisas.
A Figura 1 mostra a configuração adotada, em que todas as câmeras estão a aproximadamente 1,5 metros
de distância do sujeito. As câmeras de infra-vermelho IR1, IR2 e IR3, são posicionadas de frente para o
ator e seus campos de visão abrangem todos os marcadores da face. IR2 e IR3 são colocadas numa altura
inferior à cabeça voltadas para a parte inferior da face, sendo capazes de detectar com precisão os pontos
da mandíbula, queixo e lábio inferior. As câmeras IR4 a IR7 são dispostas ao redor do sujeito, na altura da
cabeça, permitindo a redundância de captura dos pontos laterais (têmporas, bochechas, cabeça). A câmera
IR-8 é posicionada a aproximadamente 1,60 metros do chão e seu campo de visão abrange todo o volume
de captura, sua função também é de gerar redundância de captura dos marcadores.
A pesquisa de movimentos articulatórios da fala exige, adicionalmente, a captura do áudio da fala que
é realizada por um microfone de alta fidelidade posicionado próximo ao ator. O microfone é conectado a
uma câmera de vídeo profissional que permite a captura de áudio sincronizado ao vídeo no padrão NTSC,
a 29,97 quadros por segundo. O sistema Vicon possibilita que a captura das câmeras de infra-vermelho seja
sincronizada à câmera de vídeo externa, numa taxa múltipla à NTSC, no caso, 119,88 quadros por segundo.
A consolidação da informação proveniente do áudio da fala com as coordenadas espaciais capturadas é
realizada a partir da análise e comparação do sinal de vídeo da câmera Vicon DV e o sinal da câmera
externa NTSC, em sistema de edição de vídeo não-linear.
Marcadores Faciais Nas capturas de movimentos faciais, os marcadores devem ser colados diretamente
sobre a pele do rosto. Além da preocupação em se utilizar produtos adesivos que não sejam prejudiciais
à saúde, a fixação deve ser resistente ao suor e suficientemente aderente para que o ator possa falar e
se expressar da maneira mais natural possível. Um outro aspecto importante é a maior dificuldade na
repetibilidade do posicionamento dos marcadores quando as capturas são realizadas em dias diferentes e a
necessidade da implementação de algoritmos que tratem estas diferenças. A tentativa de otimizar a maior
densidade possível de marcadores na face versus a robustez e a repetibilidade dos dados a serem capturados
resultou num modelo baseado na detecção de 63 pontos distribuídos pela cabeça e face (Figura 2). Os
marcadores manufaturados possuem 6 mm de diâmetro, além de marcadores de uma pequena quantidade
de marcadores com 9,5 e 14 mm de diâmetro utilizados como referência em pontos fixos da cabeça ou em
regiões com menor densidade de pontos (mandíbula).
Uma linha horizontal formada pelos pontos das têmporas e cantos dos olhos e uma linha mediana verti-
cal formada pelo ponto entre as sobrancelhas, nariz e centro da mandíbula, funcionam como referência de
pontos estáticos na face e servem por exemplo, para ajustar variações de posição do sujeito em relação à
Figura 2. O modelo facial obtido baseia-se na detecção de 63 pontos distribuídos pela face e cabeça.

origem do sistema de coordenadas em capturas realizadas em dias diferentes ou como referência de ajuste
de dimensões de diferentes faces. Quatro pontos posicionados em uma coroa também servem como refe-
rência para a movimentação da cabeça, importante no estudo da comunicação não-verbal. Adicionalmente,
visando o estudo de expressões faciais, marcadores são colocados sobre as sobrancelhas, sobre a testa e
ao redor dos olhos, visando detectar movimentações características da expressão de determinadas emoções
como o franzir da testa na raiva, ou o arquear das sobrancelhas com os olhos bastante abertos numa ex-
pressão de surpresa. Os pontos abaixo da linha dos olhos, incluindo os oito pontos ao redor dos lábios e
os pontos da mandíbula, são fundamentais para o estudo da dinâmica articulatória da fala, mas também
são essenciais no estudo das emoções. Pontos sobre as pálpebras esquerda e direita e abaixo dos olhos
permitem detectar com facilidade o piscar de olhos.
Além do planejamento minucioso de cada captura a ser realizada, outro passo importante é o pós-
processamento dos dados originalmente capturados. É nesta fase que os pontos fantasmas serão eliminados
e as trajetórias dos pontos que desaparecem durante a captura serão editadas. A Figura 2 mostra os marca-
dores na face de um ator e o modelo de pontos extraído da captura.
Método Visando o estudo dos movimentos articulatórios da fala, foram realizadas capturas de um sujeito
pronunciando logatomas (palavras sem sentido) e frases foneticamente ricas. Tais conteúdos permitem
capturar a dinâmica dos marcadores faciais durante a locução de fones do português do Brasil em diferentes
contextos fonéticos. Capturas de expressões faciais foram realizadas solicitando-se que um ator profissional
interpretasse seis emoções básicas universalmente reconhecidas: raiva, felicidade, tristeza, surpresa, medo
e nojo.

3. Resultados e Conclusões
As capturas realizadas até o momento no CTI tiveram como objetivo estabelecer um protocolo de captura
de movimentos faciais e definir um pipeline de processamento dos dados, incluindo a eliminação de pontos
fantasmas, preenchimento de trajetórias de pontos faltantes e calibração de sujeito. Os dados fornecidos
por estas capturas serão utilizados como objeto de pesquisa para o desenvolvimento de uma metodolo-
gia de síntese de animação facial 2D expressiva sincronizada à fala e no desenvolvimento de um avatar
3D sinalizador da língua brasileira de sinais (LIBRAS) capaz de reproduzir expressões faciais tipicamente
apresentadas por um falante de LIBRAS e portadoras de significado. Os dados fornecidos pelos experimen-
tos serão processados aplicando-se algoritmos classificadores que permitam obter informações relevantes
sobre os mecanismos humanos de expressão de emoções e comunicação não-verbal.

Referências
[1] Yong Cao, Wen C. Tien, Petros Faloutsos, and Frédéric Pighin. Expressive speech-driven facial anima-
tion. ACM Transactions on Graphics, 24(4):1283–1302, 2005.
[2] Zhighang Deng, Ulrich Neumann, JP Lewis, Tae-Yong Kim, Murtaza Bulut, and Shrikanth Narayanan.
Expressive facial animation synthesis by learning speech coarticulation and expression spaces. IEEE
Transactions on Visualization and Computer Graphics, pages 1523–1534, 2006.
[3] Thomas W. Tolles. Practical Considerations for Facial Motion Capture, pages 277–289. Springer,
2007.

Você também pode gostar