Você está na página 1de 12

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011

ASPECTOS TCNICOS DA SNTESE DE VOZ CANTADA BASEADA EM CONCATENAO


Leonardo Araujo Zoehler Brum1
lazb18@yahoo.com.br

Resumo: O presente artigo discorre sobre alguns aspectos tcnicos do mtodo de sntese digital de voz cantada baseada em concatenao, tomando como referncia para estudo de caso o canto em lngua portuguesa. Com este intuito, sero abordados certos aspectos da fontica do idioma portugus e suas relaes com a acstica do canto, para que se possa ento descrever o mtodo propriamente dito, que consiste basicamente em concatenar fonemas pr-gravados em formato digital, aplicando-se loops nas vogais de sustentao de acordo com duas entradas de dados principais: mensagens do protocolo MIDI e a letra da cano em notao fontica adequada. Palavras chave : sntese de canto, MIDI, TTS

1. Introduo
Em trabalho anterior, a importncia do protocolo MIDI para a produo musical foi destacada. Dentre as inmeras aplicaes deste padro tecnolgico, foram mencionados sistemas seqenciadores capazes de manipular amostras de voz humana e, inclusive, articular canto com o auxlio do protocolo (BRUM, 2009). O presente trabalho tem por objetivo detalhar o funcionamento de tais sistemas por meio da apresentao de uma das tcnicas de sntese de canto utilizadas pelos mesmos. Trata-se da sntese baseada em concatenao. Entretanto, para que haja uma melhor compreenso do domnio do problema, convm estabelecer primeiramente um paralelo entre a manifestao sonora da voz falada e as caractersticas acsticas dos sons musicais. Assim, as duas prximas sesses determinaro as premissas que nortearo a apresentao da tcnica que objeto deste artigo.

Graduando em Licenciatura em Msica pela Universidade Federal de Sergipe (UFS).

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011

2. Noes bsicas de fontica


A menor unidade sonora distinguvel na fala humana d-se o nome de fonema. Os fonemas podem ser classificados em dois grandes grupos: as consoantes, que so vibraes aperidicas (rudos) causadas pela obstruo parcial ou total do fluxo de ar durante a fala, devido ao dos chamados articuladores, como os lbios e a lngua; e as vogais que se opem s consoantes por 1) serem acusticamente sons peridicos complexos; 2) constiturem ncleo de slaba e sobre elas poder incidir acento de tom e/ou intensidade (CALLOU; LEITE, 2005, p. 26). A slaba uma unidade sonora de difcil conceituao, mas sua idia bastante utilizada para estabelecer a distino entre os dois grandes grupos de fonemas. Enquanto as vogais ocorrem como centro da slaba, as consoantes ocorrem como margens. Deste modo, a slaba em sua manifestao acstica pode ser descrita da seguinte maneira:
Do ponto de vista da percepo, considera-se a cadeia sonora como composta de aclives, pices e declives de sonoridade, cada slaba sendo constituda de um pice, que seu ncleo ou centro ocupado por sons de alta sonoridade, como, por exemplo, as vogais. Os aclives e declives constituem vales de sonoridade que determinam as fronteiras silbicas, suas margens, lugar preferencial das consoantes (CALLOU; LEITE, 2005, p. 29).

Entretanto, certos sons voclicos tambm podem aparecer margem de uma slaba, como acontece nos ditongos e tritongos. Tais sons so denominados vogais assilbicas ou semivogais. Dadas estas noes bsicas de fontica, convm apresentar um importante conceito da acstica musical, o de envoltria, para que, relacionando-os, seja possvel inferir certos aspectos da acstica do canto que serviro como premissas para a descrio da tcnica de sntese vocal proposta.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011

3. A curva envoltria e suas fases


O movimento ondulatrio provocado pelo som de um instrumento musical ou da voz humana ao executar uma nota varia em amplitude ao longo do tempo. A curva descrita por esta variao chamada envoltria e pode ser decomposta em quatro fases: ataque, decaimento, sustentao e relaxamento. (WEBER, 2003, p. 205) A fase de ataque (attack) corresponde ao tempo entre o incio da execuo da nota e o alcance de seu volume mximo. O decaimento (decay) o tempo necessrio para que a nota musical parta do volume mximo e alcance um volume constante. Enquanto este volume constante se mantiver, a curva envoltria estar na fase de sustentao (sustain). J a fase de relaxamento (release) consiste no tempo transcorrido entre o final da fase de sustentao e a volta ao silncio. A terminologia em lngua portuguesa para denominar tais fases pode variar conforme o autor, mas os termos em ingls j esto bem estabelecidos na literatura. A Figura 1 exibe uma curva envoltria e suas quatro fases, designadas pelas respectivas letras iniciais.

Figura 1. Curva envoltria idealizada e suas quatro fases. (HENRIQUE, 2002, p. 171)

H autores, porm, que tendem a considerar a fase de decaimento como menos importante na anlise da curva envoltria (HENRIQUE, 2002, p. 171; CAMILO et al., 1984, p. 390), dando maior destaque s trs outras fases. Lus L. Henrique, por exemplo, fala em trs perodos a serem considerados na durao de um som: dois de regime transitrio, ataque e extino (relaxamento) e um de regime estacionrio, que ele 3

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 denomina perodo de estabilidade, correspondente fase de sustentao. Um dado importante que, enquanto os perodos transitrios, como o de ataque, constituem-se por um rudo, durante o perodo de estabilidade (fase de sustentao) que se fixam certas caractersticas do som tais como altura e intensidade (HENRIQUE, 2002, p. 171). The New Grove dictionary of music and musicians, em seu verbete sobre o som, trata da importncia da curva envoltria para a fala humana, sendo tais consideraes igualmente importantes para o canto:
As formas de envoltria desempenham um papel essencial na fala humana. As consoantes so geralmente alteraes razoavelmente drsticas na forma envoltria. Uma oclusiva, como o p, provoca um incio de rudo aleatrio (ar escapando quando os lbios so abertos) razoavelmente rpido, conduzindo a uma vogal, uma nota estvel. Se se permite que o rudo cresa em amplitude mais vagarosamente, o resultado um f.2 (TAYLOR; CAMPBELL, 2001, p. 769)

A partir daqui, possvel estabelecer relaes entre as trs principais fases da curva envoltria e a manifestao acstica da slaba, a fim de que alguns princpios da tcnica de sntese de canto baseada em concatenao sejam deduzidos. Os aclives e declives sonoros presentes como margens na slaba correspondem, respectivamente, s fases de ataque e relaxamento da curva envoltria. Logo, nessas fases que se situam as consoantes e semivogais quando uma slaba cantada. Enquanto isso, a vogal, que serve de ncleo para a slaba, ocorre na fase de sustentao. Nesse sentido, tambm coincidem a natureza ruidosa das consoantes, prpria dos regimes transitrios das fases de ataque e relaxamento, em contraposio ao carter peridico ou de nota estvel das vogais, caracterstica do regime estacionrio da fase de sustentao. Daqui se segue uma concluso importantssima: na vogal que se determina a altura do som cantado, nela que se concentra a nota musical, podendo haver melismas, ou seja, variaes de altura durante o prolongamento de uma mesma vogal.

2 Envelope shapes play an essential part in human speech. The consonants are usually fairly drastic changes in envelope shape. A plosive, like 'p', makes a fairly rapid initiation of random noise (air escaping when the lips are opened) leading on to a vowel, a steady note. If the noise is allowed to rise in amplitude more slowly, the result is an 'f'.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 Dadas essas premissas, pode-se partir para a descrio da tcnica de sntese de canto baseada em concatenao propriamente dita. A prxima seo tratar desse assunto.

4. Tcnica de sntese de canto baseada em concatenao


A acstica do canto foi apresentada at aqui como uma combinao das caractersticas da acstica musical e da voz falada. De maneira anloga, o mtodo de sntese de canto baseada em concatenao alia tcnicas de sntese musical e de fala. A seguir, haver uma descrio de como tais tcnicas so reunidas com este mesmo fim, apresentando-se cada uma delas e propondo-se, logo aps, uma implementao de sintetizador de canto.

4.1. Um misto de duas tcnicas


A sntese de canto baseada em concatenao um tipo de mtodo de sntese musical por sons sampleados. Embora tal tcnica no seja, a rigor, uma sntese, uma vez que no gera sinais sonoros a partir de reconstituies artificiais de seus elementos e sim manipula amostras (samples) de sons previamente gravadas, esta a designao habitual do processo, de modo que preferiu-se mant-la no presente artigo. De uma maneira geral, a tcnica de sntese musical por sons sampleados consiste em gravar algumas amostras do som que se pretende manipular, para a partir destas gerar os sons correspondentes s notas mais prximas : Grava-se por exemplo um d e com esse d geram-se algumas notas contguas: o d , o r... (HENRIQUE, 2002, p. 726). Outra caracterstica geral da sntese por sons sampleados a aplicao da tcnica de looping na parte estacionria do som, ou seja, reproduz-se continuamente uma mesma clula sonora da fase de sustentao, de modo a se prolongar o som tanto quanto se queira. Os pontos de incio e trmino da iterao (loop) na parte estacionria da forma de onda precisam ser bem definidos para que no se tenha uma sensao de descontinuidade quando de uma reproduo prolongada. As fases de ataque e relaxamento tambm devem ser geradas por meio de gravaes prvias. Os programas seqenciadores que se baseiam no protocolo MIDI fazem uso dessa tcnica. 5

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 Uma outra tcnica relacionada sntese de canto baseada em concatenao a sntese de fala, tambm conhecida por sua sigla em ingls, TTS (text-to-speech), cujo objetivo Criar a partir de uma mensagem de texto gravada em computador a correspondente voz na leitura dessa informao permitindo a sua transmisso (HENRIQUE, 2002, p. 701). Uma sucinta descrio de tal tcnica dada por O'Sullivan e Igoe, que tambm apontam algumas de suas dificuldades:
Para sintetizar a fala, voc deve quebrar a linguagem em partes previamente gravadas. Se voc a quebrar em partes maiores, como palavras e frases, soar melhor, mas a gama de possveis expresses ser menor. Se voc quebrar a fala, em todo caso, at os fonemas de uma linguagem, voc pode teoricamente sintetizar qualquer texto, mas o resultado sempre soar artificial.3 (O'SULLIVAN; IGOE, 2004, p. 360).

Esta artificialidade qual se referem os autores deve-se sobretudo prosdia do idioma, que determina principalmente as variaes de freqncia, durao e intensidade dos sons pronunciados. No caso da voz falada, o controle de tais parmetros torna-se complexo caso se queira obter uma sntese com o mximo possvel de naturalidade. J em relao voz cantada, tais dificuldades so bastante diminudas, pois a linha meldica, o ritmo associado ao andamento e o acento mtrico da msica determinaro de forma prvia e mais precisa os valores daquelas trs variveis, respectivamente.

4.2. Proposta de implementao


Diante do que foi exposto, pode-se concluir que para se implementar um sistema que gere voz cantada a partir da tcnica de sntese baseada em concatenao, faz-se necessrio ter uma base de dados com amostras de fonemas gravados em formato digital e formas de representao dos parmetros musicais e dos prprios fonemas que possam servir como entrada de dados para o algoritmo que manipular as amostras. O padro mais utilizado mundialmente para representar as caractersticas dos sons
3 To synthesize speech, you have to break language down into prerecorded parts. If you break it down into larger parts, like words and sentences, it will sound better, but the range of possible utterances will be smaller. If you break speech all the way down to the phonemes of a language, you can theoretically synthesize any text, but the result always sounds artificial.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 musicais para fins de controle de amostras digitais pr-gravadas , sem dvida, o protocolo MIDI, que permite a integrao com outros seqenciadores e instrumentos musicais. J para representar os fonemas em formato texto, pode-se propor a notao SAMPA (Speech Assessment Methods Phonetic Alphabet) como um padro conveniente, uma vez que utiliza o conjunto de caracteres ASCII de 7 bits, acessvel a qualquer teclado comum de computador, para mapear os fonemas, ao contrrio do Alfabeto Fontico Internacional, que faz uso de caracteres especiais que nem sempre esto mo dos usurios. A notao SAMPA foi desenvolvida originalmente no final da dcada de 1980 pela Comunidade Econmica Europia e utilizada por sistemas sintetizadores de canto profissionais, como o Virtual Singer, da Myriad. O Apndice I contm uma tabela com os smbolos SAMPA para os fonemas do idioma portugus falado no Brasil. A base de dados mencionada poderia conter fonemas consonantais e semivoclicos gravados uma nica vez, enquanto as vogais seriam gravadas cantando-se diversas notas diferentes, extraindo-se delas a clula sonora a ser utilizada no loop e gerando-se para cada nota, em tempo de execuo, as notas mais prximas, conforme a necessidade. Um sistema sintetizador de canto deve tambm prover uma estrutura de dados e uma interface que permitam associar tanto internamente quanto externamente (para o usurio) cada nota musical a uma determinada slaba. A estrutura de dados deve ser compatvel com as mensagens do protocolo MIDI, de modo que a estrutura e as mensagens sejam mutuamente conversveis. Este tipo de converso j foi descrita em trabalho anterior (BRUM, 2008, p. 47-55), sendo uma alternativa muito interessante apresentada por Paul Hudak, que se valeu para tanto da biblioteca Haskore, desenvolvida na linguagem de programao funcional Haskell (HUDAK, 2007, p. 287320). Assim, tanto as mensagens oriundas de um arquivo MIDI importado ou de um instrumento musical poderiam ser interpretadas, refletindo-se estrutura de dados e na interface, quanto o usurio poderia usar a prpria interface para definir a msica e o sistema preencheria a estrutura de dados, podendo inclusive gravar um arquivo no formato .kar (MIDI Karaoke), que j contm a associao entre a msica e sua letra.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 As slabas devem ser digitadas pelo usurio em notao SAMPA na interface, associando-se s notas musicais, como mostra a Figura 2, que apresenta como exemplo a interface do programa Harmony Assistant, que tem por mdulo de sntese de canto o j mencionado Virtual Singer. Outros sintetizadores de canto, como o Vocaloid, da Yamaha, tm sua interface baseada em piano roll4, ao invs da notao musical convencional.

Figura 2. Slabas em notao SAMPA associadas a notas musicais na interface do Harmony Assistant.

importante que as slabas digitadas contenham uma, e somente uma, vogal, pelo menos em se tratando do portugus brasileiro, podendo tal vogal ser precedida e/ou sucedida de semivogais ou consoantes. Assim, quando da gerao do canto, o sistema far a concatenao dos fonemas consonantais e semivoclicos baseando-se somente no que foi digitado em notao SAMPA, de acordo com a ordem em que aparecerem. Quando do aparecimento de uma vogal, o sistema identificar no apenas o que foi digitado, mas levar em conta a nota associada slaba para escolher a amostra de som apropriada de acordo com sua altura, calculando a quantidade de loops a serem executados conforme a durao indicada. Deste modo, a mesma clula sonora voclica ser concatenada repetidamente tantas vezes quantas forem necessrias. Ao final, obter-

4 O piano roll, tal como foi descrito em trabalho anterior, consiste num teclado virtual agregado a uma tabela cujo preenchimento corresponde s notas musicais escolhidas (BRUM, 2008, p. 3). No mesmo trabalho podem ser encontrados maiores detalhes acerca desse tipo de interface.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 se- um udio digital resultante das concatenaes que ser uma voz cantada sintetizada, tendo notas musicais com transitrios de ataque e relaxamento formados pelas eventuais consoantes e semivogais e fases de sustentao geradas pelos loops aplicados s vogais. As fases de ataque e relaxamento de cada vogal tambm pode constituir a base de dados, sendo concatenadas quando no houver outros fonemas precedendo ou sucedendo a vogal numa determinada slaba. O udio resultante pode ser gravado num arquivo em formatos como MP3. Um exemplo de implementao semelhante proposta pelo presente artigo foi apresentada ainda em 1997 por Michael W. Macon, entre outros. Trata-se do sistema LYRICOS, que emprega um mtodo de TTS baseado em concatenao para sintetizar letras de canes arbitrrias em um dado idioma5 (MACON et. al., 1997, p. 1), valendo-se de um arquivo MIDI gerado por um seqenciador comercial para prover os parmetros musicais necessrios. O diagrama de blocos do sistema LYRICOS exibido pela Figura 3.

Figura 3. Diagrama de blocos do sistema LYRICOS. (MACON et. al., 1997, p. 9)

5 [The system, LYRICOS,] employs a concatenation-based text-to-speech method to synthesize arbitrary lyrics in a given language.

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011

5. Concluso
A sntese de voz cantada baseada em concatenao, como foi visto, combina as tcnicas de sntese musical por sons sampleados e TTS para gerar canto em formato digital. O presente artigo props, em linhas gerais, a implementao de um sintetizador desse tipo utilizando os padres MIDI para a sntese musical e SAMPA para a tcnica de TTS. Tal proposta pode ser concretizada em um trabalho futuro, desenvolvendo-se um sistema sintetizador bsico que pode ser, inclusive, um mdulo ou extenso do seqenciador MIDIBrum, apresentado em trabalho anterior (BRUM, 2008, p. 43-55). Importa frisar que a implementao em questo no visa gerar um produto inovador ou com grandes vantagens sobre os sintetizadores de canto j existentes, mas apenas aplicar de maneira prtica os conceitos aqui abordados para fins didticos.

6. Referncias bibliogrficas
BRUM, Leonardo A. Z. Sistema seqenciador musical baseado no protocolo MIDI. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Universidade Federal de Sergipe, So Cristvo, 2008. BRUM, Leonardo A. Z. O Auxlio do protocolo MIDI na produo musical. In: SIMPSIO SERGIPANO DE PESQUISA E ENSINO EM MSICA, 1., 2009, So Cristvo, Anais...So Cristvo: Universidade Federal de Sergipe, 2009. CALLOU, Dinah; LEITE, Yonne. Iniciao fontica e fonologia. 10. ed. Rio de Janeiro: Jorge Zahar, 2005. CAMILO, Daniel; YANO, Yuzo; YABU-UTI, Joo Baptista. Circuitos lgicos: teoria e laboratrio: engenharia eletrnica. So Paulo: Livraria Cincia e Tecnologia, 1984. HENRIQUE, Lus L. Acstica musical. Lisboa: Fundao Calouste Gulbenkian, 2002. HUDAK, Paul. The Haskell school of expression: learning functional programming through multimedia. New York: Cambridge University Press, 2007. MACON et. al. Concatenation-based MIDI-to-Singing Voice Synthesis. In: MEETING OF THE AUDIO ENGINEERING SOCIETY, 103., 1997, New York. O'SULLIVAN, Dan; IGOE, Tom. Physical computing: sensing and controlling the physical world with computers. Boston: Cengage Learning, 2004.

10

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 TAYLOR, Charles; CAMPBELL, Murray. Sound. In: SADIE, Stanley (org.). The New Grove Dictionary for Music and Musicians. 2. ed. v. 27. New York: Oxford University Press, 2001. WEBER, Raul F. Arquitetura de computadores pessoais. 2. ed. Porto Alegre: Sagra Luzzato, 2003.

APNDICE I
Smbolos da notao SAMPA para os fonemas do portugus brasileiro6
Tipos de fonemas
a 6 6~ E e e~ Smbolo SAMPA lamo, arco. Cano, dama, ganho. Antologia, amparo, manh. Mdico, belo. Medo, pssego. Sempre, centro, tambm. tima, ova. Rolha, av. Ombro, ontem, cmputo, cnsul. Item, silvcola. Simples, smbolo, tinta, sncrono. Uva, ltimo. Algum, plmbeo, nunca, renncia. Mosca. Nervo. Galinha. Banda. Pato. Exemplos

Vogais

O o o~ i i~ u u~ m n

Consoantes

J b p

6 No h, na verdade, uma tabela SAMPA oficial para o portugus falado no Brasil e sim apenas para o portugus europeu. A tabela aqui apresentada uma adaptao para os fonemas pronunciados no Brasil.

11

III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011

d t g k v f z s Z S R r L l

Data. Telha. Gato, guerra. Carro, quanto., queijo. Vento. Farelo. Zero, casa, exalar. Seta, cebola, espesso, excesso, auxlio, asceta. Gelo, jarro. Xarope, chuva. Rato, carroa. Variao. Cavalheiro Luz. Uivo. Automtico, mvel, po, freqente

Semivogais

j w

12