Você está na página 1de 10

Desenvolvimento de uma ferramenta para a produo de mdias utilizando personagem animado com sntese de voz

Rodrigo Lins Rodrigues1, Alexandre Magno Andrade Maciel1, Edson Costa de Barros Carvalho Filho1
1

Vocal Lab Sistemas de Informao www.vocallab.com.br Caixa Postal 50.730-260 Recife PE Brasil
{rodrigo.lins,alexandre,edson}@vocallab.com.br

Abstract. This research shows the conception and design of a tool for automated production of video-classes, using the generation of animated characters and synthetic voice. For this, is demonstrated a method of conception used as a prototyping process and the solution development. At least, is showed the results of the user tests. Resumo. Este trabalho apresenta a concepo e design de uma ferramenta de autoria para a produo automatizada de vdeo aulas, atravs da gerao de personagens animados e voz sinttica. Para tal o trabalho demonstra o mtodo de concepo utilizado bem como o processo de prototipagem e o desenvolvimento da soluo, por ltimo mostrado os resultados do teste com usurio.

1. Introduo
A partir dos anos 90, notvel o crescente interesse pelo estabelecimento de relaes sociais entre seres humanos e interfaces virtuais ou robticas, e isto tm despertado o interesse da comunidade cientfica, que cada vez mais prope novos sistemas especializados neste tipo de interao humano-computador (DUARTE & Costa, 2005). Diversos grupos de pesquisa tm desenvolvido interfaces para personagens virtuais interativos que apresentem caractersticas sociais, de tal forma a permitir o estabelecimento de relacionamentos humano-personagem ou humano-mquina, destinados a atividades especficas, em diversas reas do conhecimento humano. No mbito educacional, essas interfaces atravs de personagens animados interagem com o estudante em ambientes de aprendizagem baseada em computador, estimulando e encorajando o aprendizado. Esses personagens aumentam a efetividade das aplicaes de educao e treinamento, e podem tambm ser empregados em muitas outras aplicaes interativas e que auxiliem usurios (PROLA & VICCARI, 2003). Utilizam tcnicas de entretenimento interativo, que tornam os estudantes mais interessados em aplicaes com propsitos educacionais e em algumas aplicaes que possam gerar apresentaes mais interessantes e prazerosas.

____________________________________________________________________________________________________ Anais do 23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012), ISSN 2316-6533 Rio de Janeiro, 26-30 de Novembro de 2012

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

Entre essas caratersticas, pode-se mencionar o estabelecimento de expresses faciais em personagens virtuais utilizados para demonstrar determinados estados emocionais, reaes de afeto e amizade, incluso de uma personalidade virtual que se assemelha a personalidades humanas, assimilao de convenes sociais, interao com crianas e pessoas idosas, e at mesmo, demonstraes de carinho. Quando estes personagens so inseridos em um ambiente virtual de simulao, o aluno pode aprender e praticar habilidades no mundo virtual. Com estes personagens, o computador pode interagir com os alunos atravs de iniciativa mista, dilogo tutorial no papel de professor ou companheiro aprendiz. Ele pode se comunicar de forma verbal e no verbal. Normalmente a construo destes personagens em softwares educacionais feita com ferramentas que exigem um conhecimento especfico de artes, modelagem e animao. O processo de insero da voz geralmente feito de forma artesanal, ou seja, so criadas animaes em diferentes contextos de interao, e posteriormente gravado a voz de um locutor que ao final inserida na animao desenvolvida. Esse processo, na maioria das vezes, demanda de um alto investimento e alta carga de trabalho, pois necessita de locutores, estdios de gravao de voz, artistas, animadores e roteiristas. Tendo em vista essa problemtica, o objetivo deste trabalho conceber uma ferramenta de fcil utilizao para a produo de vdeo aulas utilizando personagens animados e voz sinttica.

2. Reviso bibliogrfica
Nesta seo apresentada a reviso bibliogrfica necessria para o desenvolvimento desta pesquisa, bem como, os conceitos fundamentais para se entender os processos e tecnologias envolvidos na concepo do produto proposto, dentre esses conceitos temos o entendimento do processo de construo de materiais para EAD, utilizao da tecnologia de sntese de voz na produo de material educacional e por fim a apresentao de tcnicas de animao em personagens virtuais. 2.1. Produo de material didtico em Educao Distncia O material didtico assume na Educao Distncia o papel de instrumento para o dilogo permanente entre alunos, professores e o conhecimento. evidente que o material didtico precisa estar bem alinhado proposta pedaggica do curso. No momento do planejamento importante levar em conta o tipo de material didtico que se deseja produzir. Essa diferenciao leva em conta o meio de veiculao e consequentemente a forma de interao dos materiais com os alunos. Ruiz e Cordero (1998) referem-se a preocupaes que devem existir na elaborao de material didtico para a EAD, considerando principalmente as definies das formas de comunicao e estratgias da narrativa a serem aplicadas aos dilogos, assim como a linguagem audiovisual e as ferramentas auxiliares utilizadas para o processo de ensinoaprendizagem. De acordo com (ABREU, 2010) O processo de produo clssico para a produo desses materiais, utilizado normalmente por instituies acadmicas e
_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

corporativas se constitui em quatro fases: planejamento, produo, Implementao e Avaliao figura 1.

Figura 1. Processo macro de construo de material em EAD Este processo por sua vez subdividido e gerado subprocessos que compem etapas menores, como mostra a Figura 2.

Figura 2. Subprocessos de construo de material em EAD

O caminho percorrido para a realizao do processo, em sua amplitude, inclui seis etapas: anlise e diagnstico, planejamento instrucional, desenho didtico, produo das mdias (esta etapa de responsabilidade da equipe de design, TI, vdeo e udio), validao e reviso e aplicao. A produo das mdias de responsabilidade da equipe de design, tecnologia da informao, programao, vdeo e udio. Para cada mdia necessrio que a equipe seja composta por um grupo de profissionais especialistas na produo da mesma. Essa etapa uma das mais trabalhosas no processo, pois necessrio ter profissionais de diversas reas do conhecimento interagindo para a confeco de um produto. Normalmente essa fase exige uma demanda de tempo para a integrao do grupo, alto custo financeiro e elevado tempo de produo das mdias. Basicamente os artefatos dessa etapa mais crticos so a modelagem e animao do personagem e a construo do dilogo atravs da voz natural. A construo destes dois artefatos pode ser automatizada utilizando tcnicas pr-moldadas e a gerao de voz sinttica em tempo real, desta forma possvel minimizar tempo e custo no processo de produo de materiais pra EAD especificamente na etapa de produo de mdias. 2.2. Utilizao de sntese de voz em artefatos educacionais Sntese de Fala pode ser definida como a utilizao de mecanismos artificiais para a produo de um sinal de fala. Pode tambm ser definida como um processo de gerao automtica de formas de onda de voz que projetado para responder a um pedido de informao utilizando mensagens faladas (SIMES, 1999). Os sistemas de converso texto-fala (no ingls: Text-To-Speech - TTS) so capazes de gerar fala sintetizada a partir de uma mensagem escrita. A utilizao desse tipo de sistema extremamente abrangente, pois, em princpio, qualquer tipo de
_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

mensagem pode ser representada na firma textual e, portanto, qualquer tipo de mensagem pode ser sintetizada. A qualidade do sinal de voz sintetizado por um sistema de converso texto-fala geralmente inferior quela gerada por meio de amostras prgravadas. Uma das razes disso o fato de que nem sempre o mdulo de processamento lingustico capaz de fornecer transcrio fontica correta de todas as palavras do texto. O processo de sntese de um sistema TTS composto de duas fases principais. A primeira consiste no Processamento de Linguagem Natural (PLN), onde a mensagem de entrada transcrita em uma representao de nvel fontico e a segunda consiste na Gerao da Fala em que as formas de onda de voz so geradas e a sada acstica produzida. Essas duas fases so respectivamente chamadas de sntese de alto-nvel e sntese de baixo-nvel (MAIA, 2006). Uma verso simplificada do processo apresentada na Figura 3.

Figura 3. Descrio do processo de sntese de fala

O Processamento de Linguagem Natural responsvel por traduzir o texto de entrada de uma dada linguagem em uma representao fontica que inclui informaes a respeito das unidades acsticas a serem produzidas (por exemplo: fonemas, slabas) juntamente com caractersticas textuais (por exemplo: tonicidade, indicadores de fronteiras das frases/palavras). A gerao de fala responsvel por receber as informaes da locuo e gerar voz. Considerando o caso geral, o processo de gerao de fala pode ser dividido em duas subfases. De acordo com essa diviso, a primeira subfase responsvel por processar as informaes da locuo e gerar um conjunto especifico de parmetros necessrios para a gerao do sinal de fala - a segunda subfase (MACIELl, 2012). Algumas iniciativas de desenvolvimento de software educacionais utilizando esta tecnologia foram desenvolvidas, dentre elas as de mais destaques so as ferramentas de leitura de tela, como por exemplo a ferramenta Jaws1. Um leitor de tela para deficientes visuais. Grande parte das ferramentas educacionais que utilizam este tipo tecnologia de sntese e reconhecimento de voz so focadas na construo de artefatos para tecnologias assistivas, ou seja, tecnologias que contribuem para proporcionar ou ampliar habilidades funcionais de pessoas com deficincia e consequentemente promover Vida Independente e Incluso. 2.3. Animao facial atravs da construo de visemas A partir de esforos multidisciplinares de pesquisa e desenvolvimento nas reas de reconhecimento de voz, processamento da linguagem natural, inteligncia artificial, sntese da fala, computao grfica e animao, possvel implementar personagens

http://www.freedomscientific.com/products/fs/jaws-product-page.asp

_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

virtuais capazes de capturar mais facilmente a ateno do usurio e tornar a atividade de interao mais atrativa e envolvente (GRATCH, 2009). O desenvolvimento detalking heads leva em considerao o papel de destaque que a face ocupa na comunicao humana. Desde o nascimento somos treinados nos mecanismos de comunicao face a face e, estimulados por experincias sociais, nos tornamos capazes de interpretar e identificar estados emocionais transmitidos pela face, utilizando sua informao visual para complementar a compreenso da mensagem transportada pelo sinal acstico da fala. A animao facial por computador sincronizada com a fala permite a implementao de cabeas virtuais que podem contribuir para tornar interfaces humanocomputador mais eficientes e atraentes. Neste sentido, um dos objetivos da animao facial gerada por computador conferir a uma face virtual a aparncia, a movimentao e o comportamento de uma face real. Esta capacidade pode ser qualitativamente expressa em termos do grau de vdeo-realismo alcanado pela animao, ou seja, sua capacidade de ser confundida com o vdeo de uma face real. Assim, uma animao facial vdeo-realista, alm da reproduo fotogrfica das caractersticas estticas da face (como rugas e textura da pele), tambm capaz de reproduzir os movimentos articulatrios da fala em sincronia e harmonia com a locuo. A reproduo realista dos movimentos articulatrios da fala obtida levando-se em considerao os mecanismos de produo da mesma. A realizao acstica dos diversos fonemas de uma lngua se d atravs de configuraes tpicas do trato vocal que, entre outros elementos articuladores, inclui as cordas vocais, o palato, a cavidade nasal, a lngua e os lbios. No entanto, apenas uma parcela dos movimentos realizados pelos rgos articuladores visualizada na face atravs, principalmente, da movimentao dos lbios e da regio em torno deles. Assim, a modelagem dos movimentos articulatrios faciais visveis pode ser realizada atravs de visemas. No desenvolvimento deste trabalho, utilizamos a definio de (COSTA, 2009), que define um visema como sendo uma postura labial esttica que visualmente contrastiva a outra e que pode ser associada realizao acstica de um fonema.

3. Processo de concepo e desenvolvimento da ferramenta proposta


O mtodo de design utilizado neste trabalho se baseou na literatura de Interao Humano-computador, especificamente no mtodo de design da interao. Essencialmente, o processo foi composto por quatro atividades bsicas: (1) identificao das necessidades do usurio; (2) desenvolvimento de alternativas de design; (3) construo de verses iterativas e (4) avaliao do design.

3.1. Identificao das necessidades e concepo da ferramenta A fase de identificao das necessidades do usurio envolveu uma pesquisa da situao atual para identificar necessidades e oportunidades de concepo, a fim de determinar as caractersticas do produto de design. O principal objetivo desta fase foi
_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

identificao das necessidades do usurio e o levantamento de requisitos. Para tal utilizamos da tcnica de construo de cenrios caricaturados que serviram para criar uma situao de uso da ferramenta a ser concebida. Prototipagem de baixa fidelidade

O processo de prototipagem foi utilizado para antecipar ao usurio final caractersticas da interface que puderam ser testadas, validadas e modificadas pelos stakeholders. Neste processo, foi criada uma interface semelhante interface final, partindo dos requisitos iniciais figura 4.

Figura 4. Prottipo de baixa fidelidade

Ao finalizar a prototipagem de baixa fidelidade, foi feito os primeiros testes com usurios afim de identificar possveis problemas na interface, assim como possveis problemas tcnicos em relao a implementao. Nesta etapa foi gerado algumas modificaes que foram implementadas na verso interativa. 3.2. Desenvolvimento da verso interativa A partir da especificao feita e construo de prottipos que demonstraram as alternativas de design, a terceira fase do processo de desenvolvimento foi construo e implementao do prottipo em uma verso interativa, que pde ser testada pelos usurios, onde os mesmos tiveram a possibilidade de reagirem ao design e sugerirem mudanas. O software foi desenvolvido utilizando a linguagem java atravs da plataforma J2SE Figura 5.

Figura 5. Verso interativa da ferramenta

_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

Foi identificado, atravs de entrevistas com o especialista em interfaces que a escolha entre apenas dois personagens deixaria o software limitado em termos de afetividade, neste caso na primeira tela tivemos a modificao do item de tela RadioButton para um boto que levaria a ativao de uma nova tela de escolha de personagens. O prottipo foi modificado e disponibilizado personagens com caratersticas fsicas diferenciadas, permitindo ao usurio escolher entre os diversos tipos de personagens com aparncias pr-definidas figura 6.

Figura 6. Localizao do personagem

A tela de localizao do personagem permaneceu inalterada em relao a prototipagem inicial, nesta tela possvel o usurio escolher entre: superior esquerdo, superior direito, inferior esquerdo e inferior direito. Bibliotecas de integrao utilizadas no desenvolvimento

A arquitetura do ambiente foi construda utilizando trs API para o desenvolvimento, a primeira utilizada foi a Apache POI2, essa API teve a funo de implementar a extrao de caratersticas do slide, tais como as notas inseridas pelo usurio e a transformao de slides em imagens. A segunda foi o VLSynthesizer3, uma biblioteca responsvel pela transformao das notas extradas nos slides em voz sinttica. A terceira biblioteca utilizada foi a FFMPEG4 responsvel por transformar as imagens extradas e a voz sintetizada em vdeo, a biblioteca possibilitou a exportao em diversos formatos de vdeo, tais como avi, mpeg, flv, swf. Tcnica de animao por visemas

A tcnica de animao que serviu de base para este trabalho foi desenvolvida por Costa (2009), onde apresentou um mtodo de sntese de animao facial 2D baseado em imagens cujo desenvolvimento foi guiado por dois objetivos principais: a reproduo realista da movimentao articulatria visvel da fala, incluindo os efeitos da
2
3 4

http://poi.apache.org/
Motor responsvel pela sntese de voz http://www.vocallab.com.br

FFmpeg is a complete, cross-platform solution to record, convert and stream audio and video http:// http://ffmpeg.org/
_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

coarticulao. A tcnica desenvolvida baseia-se em uma base de imagens de visemas dependentes de contexto para o Portugus do Brasil e adota a tcnica de metamorfose entre visemas para a sntese da animao facial. A abordagem representa uma estratgia de sntese capaz de reproduzir a movimentao articulatria visvel da fala, incluindo os efeitos da coarticulao, a partir de uma base de 34 imagens intituladas como visemas como mostra a figura 7 (COSTA, 2009).

Figura 7. Representao dos visemas

A sntese da animao foi implementada tendo-se como parmetro de entrada a transcrio fontica temporizada da fala a ser visualmente animada. A partir das informaes fornecidas pela transcrio fontica. A animao foi sintetizada atravs do apropriado sequenciamento, concatenao e apresentao de quadros resultantes do processamento de imagens da base. Essa sequencia de visemas foi estabelecida de acordo com a API VLSynthesizer que transforma texto em voz e nos fornece uma string de fonemas de acordo com o udio gerado, a partir da possvel obter a imagem referente ao visema e fazer o sequenciamento permitindo a animao e a gesticulao labial do personagem. Foi necessrio a criao de uma tabela de converso entre a nomenclatura proposta por Costa (2009) e a nomenclatura utilizada para a implementao neste trabalho, tendo em vista que existia a presena algarismos arbicos que tiveram de ser convertidos em nomenclaturas entendidas pela linguagem de programao utilizada.

3.3. Processo de avaliao O processo de avaliao foi dividido em duas etapas. A primeira etapa foi avaliao de usabilidade da ferramenta desenvolvida, nesta etapa foi estabelecida duas tarefas para o usurio a fim de identificar possveis problemas no fluxo de interao da atividade. A

_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

segunda avaliao foi relacionada ao nvel de satisfao do usurio em relao ao produto final gerado pela ferramenta. Avaliao de usabilidade do design

Um pequeno estudo de usabilidade realizado com quatro professores de cursos de graduao a distncia veio confirmar a eficcia das interfaces desenvolvidas neste trabalho. O teste teve como objetivo encontrar erros em duas tarefas especficas: (1) Inserir um slide na ferramenta e (2) Exportar uma nova vdeo aula.

Solicitou ajuda Usu.1 Usu.2 Usu.3 Usu.4 3 3 2 2

Tempo da tarefa 8,4 min 5 min 7,3 min 4,8 min

Erros 1 2 1 0

Cliques 8 13 11 10

Tabela 1: Teste de usabilidade

A tabela 1 mostra os resultados das duas tarefas em sequencia, podemos observar que em mdia o entrevistador foi solicitado 2,5 vezes, dentre essas solicitaes todas foram relativas a dvidas do tipo de arquivo que a ferramenta suportaria. Em relao ao tempo de concluso ta tarefa pudemos identificar que o tempo mdio para a construo de uma vdeo aula, utilizando a ferramenta desenvolvida, em mdia de 6,4 min. Se comparado ao processo tradicional de construo de vdeo aulas, podemos considerar que esse tempo relativamente baixo, pois os processo de construo da voz e animao do personagem automatizado pela ferramenta. A quantidade de erros cometidas durante o teste foi em mdia 1 erro por tarefa executada e de 10,5 cliques para a concluso da mesma. Avaliao de satisfao do usurio

Nesta segunda etapa do teste, o objetivo foi avaliar a satisfao do usurio. Foi feito uma entrevista estruturada onde os usurios responderam perguntas referentes ao potencial da ferramenta e a satisfao em relao ao vdeo gerado.
Personagem Usu1 Usu2 Usu3 Usu4 tima Boa tima tima Qualidade da voz Aceitvel Aceitvel Insatisfeito Aceitvel Tabela 2: Teste de satisfao Animao Boa Boa Aceitvel tima Sincronia Boa Boa Boa tima

_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

23 Simpsio Brasileiro de Informtica na Educao (SBIE 2012) _____________________________________________________________________________________________________

De acordo com o teste de satisfao, um dos principais problemas encontrados foi a qualidade da voz, os quatro usurios entrevistados, no primeiro momento, tiveram uma expectativa abaixo da esperada. Em aos personagens, todos os entrevistados se disseram satisfeitos, pois consideraram a diversidade de estilos fsicos um fator preponderante na personalizao dos vdeos gerados. Todos consideraram boa a sincronia e a animao facial dos personagens no momento da fala.

4. Consideraes finais
Atravs dos resultados desta pesquisa inicial, pudemos identificar que a soluo concebida tem potencial para ser desenvolvida em maior escala, tendo em vista que os testes com os usurios foram satisfatrios do ponto de vista da interface e interao, e dentro da perspectiva de satisfao do usurio. Como trabalhos futuros pretende-se abordar as melhorias nos problemas identificados, tais como o problema da qualidade da voz sinttica, tendo em vista que grande parte dos usurios relataram um estranhamento da voz sinttica se comparada a voz natural humana, no entanto todos afirmaram entender perfeitamente as palavras e frases ouvidas no decorrer das vdeo aulas.

Referncias
ABREU, D. (2010). Produo de Material Didtico para EaD. Paran: Editora UFPR. COSTA, P. D. (2009). Animao facial 2D sincronizada com a fala baseada em imagens de visemas dependentes do contexto fontico. Tese de mestrado - UNICAMP. DUARTE, G. D., & Costa, A. C. (2005). Uma Proposta para Modelagem de Personagens Virtuais Emotivos Utilizveis em Ambientes de Educao a Distncia. XXV CSBC. GRATCH, J. (2009). Creatinginteractivevirtualhumans:some assemblyrequired. IEEE. MACIELl, A. M. (2012). Investigao de um ambiente para o desenvolvimento integrado de interface de voz. Recife: Tese de doutorado. MAIA, R. S. (2006). Speech Synthesis and Phonetic Vocoding for Brazilian Portuguese based on Parameter Generation from Hidden Markov Models. Tese (Doutorado em Engenharia). Nagoya Institute of Technology. PROLA, M. T., & VICCARI, R. M. (2003). Modelagem de um Agente Pedaggico Animado para um Ambente Colaborativo: considerando fatores sociais relevantes. Porto Alegre. RUIZ, T. B., & CORDERO, J. M. (1998). Guia para el diseo, elaboracin y evaluacin de material escrito. Braslia/ Madrid: UnB/ Uned: Apostila para o Curso de Especializao em Educao Continuada e Distncia da Faculdade de Educao da Universidade de Braslia. SIMES, F. O. (1999). Implementao de um Sistema de Converso Texto-Fala para o Portugus do Brasil. Campinas: Dissertao (Mestrado em Engenharia Eltrica). Universidade Estadual de Campinas.

_____________________________________________________________________________________________________ @CBIE 2012, Rio de Janeiro-RJ

Você também pode gostar