Você está na página 1de 17

______________________ Captulo 4 ______________________ Sntese de Fala

As primeiras tentativas de construir mquinas de produo de fala, embora sintetizando apenas 5 vogais, remontam a 1779, por C. G. Kratzenstein. Poucos anos mais tarde, em 1791, W. R. von Kempelen demonstrou uma mquina muito mais sofisticada e capaz de produzir fala contnua, provando que o sistema humano de produo de fala podia ser modelado artificialmente. No mesmo ano publicava um livro descrevendo os seus estudos sobre produo de fala e as experincias de duas dcadas at chegar a esta mquina. Em 1835, Wheatstone demonstrou, na Dublin Association for the Advances of Sciences, uma mquina construda com base nos princpios descritos no livro de von Kempelen. Esta mquina, representada na figura 4.1, usava um fole para fornecer ar a um ressoador feito em pele, sendo a sua seco alterada pela mo de um

68

4-Sntese de Fala

operador. A outra mo manipulava quatro comandos que geravam constries de modo a produzir consoantes.

Figura 4.1 Verso de Wheatstone da mquina falante de von Kempelen.

O primeiro sintetizador de fala completamente elctrico, conhecido por Pedro the voder (voice demonstrater), foi inventado por Homer Dudley e apresentado em 1939 na feira mundial de Nova York. O nome Pedro provm de Dom Pedro, Imperador do Brasil, presente em 1876 na primeira Exibio Centenria em Filadlfia, quando da demonstrao do telefone por Alexander Bell. Um episdio que ficou clebre envolvendo D. Pedro foi quando este, ao ouvir uma voz proveniente do telefone, exclamou: Meu Deus, fala. A figura 4.2 apresenta uma fotografia do voder a ser demonstrado por uma operadora, a Senhora Harper, tirada na feira de Nova York. Este era manipulado atravs de 14 teclas que controlavam a estrutura que modelava o tracto vocal, por uma barra que escolhia o tipo de excitao (rudo nas zonas vozeadas ou um oscilador simulando a frequncia fundamental nas zonas no vozeadas) e um pedal que permitia a variao da frequncia do oscilador.

Sntese por predio linear

69

Figura 4.2 O voder em demonstrao na feira de Nova York em 1939.

Ainda em 1939, Dudley props os vocoders (voice-coders) de canal [Dudley (39)], que representam os sinais de fala no domnio da frequncia. O sinal modelado atravs da energia de um conjunto de filtros passa-banda contguos, que dividem a banda total num nmero fixo de canais. Este conjunto de filtros excitado por rudo nas zonas no vozeadas e por pulsos peridicos nas zonas vozeadas modelando a abertura e fecho da glote. A maioria dos modelos de sntese mantm ainda esta estrutura fonte-filtro na modelao dos sinais de fala. O aparecimento dos computadores produziu grandes

desenvolvimentos no processamento de fala no resto do sculo XX, sendo os modelos principais de sntese apresentados resumidamente neste captulo.

70

4-Sntese de Fala

4.1 Sntese por predio linear


A sntese de sinais de fala baseada em predio linear tem como base o receptor do esquema de blocos apresentado na figura 3.1. Nesta figura o bloco preditor corresponde obviamente predio linear, sendo a excitao do filtro uma representao do respectivo resduo de predio e[n]. De modo a modelar com alguma preciso as variaes lentas do tracto vocal durante a produo da fala, os coeficientes de predio devem ser actualizados num mximo de 30 ms e estimados com um dos mtodos descritos na seco 3.1.8.

4.1.1 Predio de longa durao


Nas zonas vozeadas, quer o sinal de fala quer o respectivo resduo de predio so quase peridicos. Esta quase periodicidade pode ser explorada para minimizar ainda mais o resduo de predio atravs de um preditor do tipo:
e n ] = e[n N 0] , p[

(4.1)

sendo N0 o valor do perodo de vibrao das cordas vocais ou perodo fundamental, medido em mltiplos do perodo de amostragem e o coeficiente de predio de longa durao. Este coeficiente tem tipicamente valores superiores ou da ordem da unidade. Valores ligeiramente so obtidos nas zonas de transio, inferiores

respectivamente com aumento ou diminuio de energia. Nas zonas no vozeadas este preditor no se aplica. O valor ptimo de , tendo como critrio a minimizao da energia do resduo, obtido substituindo na equao (3.12) o atraso de uma amostra pelo atraso N0,

Re [N 0] = re (N 0) . Ee

(4.2)

Sntese por predio linear

71

O resduo e"[n] gerado pela cascata destes dois preditores, cujo esquema de blocos se apresenta na figura 4.3, denomina-se de resduo de dupla predio.

Figura 4.3 Sntese por dupla predio.

Ao contrrio do preditor LPC que explora a correlao entre amostras consecutivas, este preditor explora a correlao entre perodos glotais, que tm uma durao maior, pelo que se denomina de preditor de longa durao (LT - Long Term). Na figura 4.4 apresentado o resduo de dupla predio (LPC de ordem 10 e preditor de longa durao com N0=71) e comparado com o resduo de predio de ordem 10. O sinal original mostrado na figura 3.3. Como se pode verificar, a periodicidade que se encontrava ainda no resduo de LPC foi praticamente eliminada. O resduo de dupla predio aproxima-se de rudo gaussiano, com uma gama dinmica ainda menor que o resduo de LPC. Este preditor s no tem um melhor desempenho porque se est a restringir que o atraso N0 seja um nmero inteiro de perodos de amostragem. A utilizao de dupla predio na sntese de sinais de fala um dos mtodos mais utilizados em codificao de sinais de fala, tendo para isso sido desenvolvidos mtodos eficazes de representao do resduo de dupla predio e de quantificao dos coeficientes LPC, que sero descrito no captulo sobre 6 sobre quantificao.

72

4-Sntese de Fala

Resduo de predio LPC - Ordem 10 4000 Amplitude 3000 2000 1000 0 -1000 2 4 6 8 10 12 14
t [ms]

16

18

20

22

Resduo de dupla predio 4000 Amplitude 3000 2000 1000 0 -1000 2 4 6 8 10 12 14


t [ms]

16

18

20

22

Figura 4.4 Em cima: Resduo de predio LPC - Ordem 10. Em baixo: Resduo de dupla predio (LPC+LT)

4.1.2 Vocoder LPC


Os vocoders (voice coders) utilizam um modelo simplificado da produo da fala e no tentam reproduzir fielmente o sinal de entrada, mas apenas represent-lo de modo a manter as suas caractersticas perceptualmente mais importantes, tais como a envolvente espectral, a estrutura fina do espectro e a energia global. Um exemplo de um vocoder bem sucedido o mostrado na figura 4.5, em que para modelar o tracto vocal utilizado um filtro de predio linear (vocoder LPC), excitado com rudo branco para produzir sons no vozeados, ou com um trem de pulsos com perodo igual ao da vibrao das cordas vocais, para sons vozeados. Este sintetizador, proposto por Atal e Hanauer em 1971 [Atal (71)], torna-se completamente paramtrico, mas a qualidade do sinal sintetizado menor do que se fosse conhecido o resduo de predio.

Modelo do pulso glotal

73

Figura 4.5 Sntese com o modelo vocoder LPC

De modo a modelar as variaes do tracto vocal e da periodicidade dos pulsos glotais, os coeficientes do modelo devero ser alterados a intervalos entre os 5 e os 30 ms. Nas zonas no vozeadas, o ganho, calculado atravs da equao 3.19 assumindo entrada um impulso, dever ser ajustado de modo a que se adeque a uma entrada do tipo rudo gaussiano com varincia unitria, para que se mantenha a mesma energia, ou seja,
G' = G 1 . DimensoTrama

(4.3)

4.2 Modelo do pulso glotal


Os pulsos glotais podem ser modelados atravs de um trem de impulsos quase peridicos, representando as variaes lentas da frequncia fundamental. Contudo, para alm de possuir uma envolvente espectral plana, este trem de impulsos imporia a mesma fase na origem para todas as harmnicas, o que produziria um sinal sintetizado com um pico maior que o da fala natural. Por outro lado, se a anlise LPC for produzida com pr-nfase (seco 3.1.7), dever ser colocado um

74

4-Sntese de Fala

filtro de de-nfase aps a predio, constitudo por um filtro passa-baixo de primeira ordem, que impor um declive espectral de -6 dB por oitava. Para evitar o pico no sinal sintetizado, pode-se utilizar uma forma de onda com envolvente espectral plana, mas em que a variao de fase ao longo das harmnicas produz um sinal mais natural. Alternativamente, pode-se utilizar uma forma de onda mais parecida com a do resduo de predio, aproximadamente equivalente de um filtro passa-baixo de segunda ordem, modelado por Rosenberg [Rosenberg (71)] atravs do polinmio seguinte:
2 3 k + k1 t + k2 t + k3 t u g (t) = 0 0

para 0 t Top , para Top t T 0

(4.4)

em que Top representa a durao da fase de abertura da glote, assumida como uma percentagem fixa do perodo fundamental T0=1/F0. normal incorporar no modelo da fonte glotal a caracterstica de radiao nos lbios, essencialmente uma caracterstica passa-alto de primeira ordem, derivando a equao 4.4. O declive espectral total corresponde ento a -6 dB por oitava (-12 dB/oitava do modelo da fonte glotal e +6 dB/oitava da radiao nos lbios), o que equivalente aos impostos pelo filtro de de-nfase. As constantes k0, k1, k2 e k3 da equao 4.4 podem ser calculadas [Oliveira (93)] impondo algumas restries: a derivada do fluxo glotal zero na origem e o integral num perodo fundamental da derivada do fluxo glotal zero, de modo a evitar a introduo de uma componente DC. A derivada do fluxo glotal, ilustrada na figura 4.6, ento representada no domnio discreto por,

Modelo do pulso glotal

75

(2N op 1)n 3n 2 2 [n] = ug N op 3N op + 2 0

para 0 n < N op para N op n < N 0

(4.5)

em que N0 representa o nmero de amostras do perodo fundamental e Nop o nmero de amostras da fase de abertura da glote.
Forma de onda glotal Am plitude norm alizada 10

-5 0 0.5 2 4 6 8 t [ms] 10 Derivada da forma de onda glotal

Am plitude norm alizada

-0.5

-1 0 2 4 6 8 t [ms] 10

Figura 4.6 Modelo da forma de onda do fluxo glotal (em cima) e respectiva derivada do fluxo glotal (em baixo) (Adaptado de [Oliveira (93)]). O perodo fundamental ilustrado de 10 ms (80 amostras), com uma durao da fase de abertura da glote de 66%.

O ganho, calculado atravs da equao 3.19 assumindo entrada um impulso, dever ser ajustado de modo a que se mantenha a mesma energia, ou seja,
G' = G PeriodoGlotal . DimensoTrama

(4.6)

76

4-Sntese de Fala

4.3 Sntese sinusoidal


Os sinais vozeados so produzidos quando as cordas vocais vibram, produzindo um sinal quase-peridico. Esta quase periodicidade tem implicaes no espectro de curta durao, tornando-o discreto se o sinal for absolutamente peridico (harmnicas da frequncia fundamental). Por outro lado, o sinal torna-se no harmnico quando da diminuio da periodicidade ou nas zonas no vozeadas. Uma trama do sinal pode no entanto ser sempre descrita por uma soma de sinusides. Sendo conhecidas as frequncias e as respectivas amplitudes e fases (ou coeficientes complexos) de cada uma das sinusides, possvel sintetizar o sinal. Esta sntese pode ser implementada por transformada inversa mas, de forma a manter a continuidade do sinal nas fronteiras das tramas, o sinal deve ser sintetizado no domnio do tempo, o que facilita a variao das frequncias e das amplitudes, atravs da sobreposio de sinusides [Almeida (84-a)] [McAulay (84)]:

s(t) =

K (t) k =1

Ak (t) sin ( k (t)) ,

(4.7)

em que Ak(t) e k(t) representam, respectivamente, as amplitudes e fases da k-sima sinuside, cuja frequncia dada pela derivada da fase

k(t), sendo K(t) o nmero de sinusides na banda considerada. As


amplitudes, frequncias e fases so calculadas nas fronteiras das tramas, sendo os valores intermdios obtidos por interpolao, utilizando interpolao linear das amplitudes e cbica das fases (quadrtica das frequncias) [Almeida (84-a)]. Nas zonas vozeadas o sinal pode ser considerado peridico, restringindo as frequncias a serem harmnicas da frequncia

Sntese de formantes

77

fundamental F0, sendo este modelo designado por modelo harmnico. A fase pode ainda ser restringida a ser contnua trama-a-trama (vocoder harmnico), sendo este modelo descrito por [McAulay (90)],
s' ( n ) =
K (n ) k =1

n 2 kF 0(n) Ak (n) sin + k (n ) ,


fs

(4.8)

em que fs a frequncia de amostragem e k(n) controla a periodicidade do sinal. Os valores de F0(n) so tambm calculados nas fronteiras das tramas e interpolados linearmente amostra-a-amostra (interpolao quadrtica da fase). Nas zonas vozeadas k(n) nulo, mantendo-se a continuidade de fase. Nas zonas no vozeadas a periodicidade cortada pela soma fase de cada harmnica de uma componente aleatria k(n) de mdia nula. Repare-se que o modelo harmnico com restries na fase e em que as amplitudes so modeladas pelos coeficientes LPC tem os mesmos parmetros de controlo do vocoder LPC. No entanto, principalmente para vozes de oradores do gnero masculino, o sinal pode soar demasiado tonal devido ao elevado nmero de harmnicas. A utilizao de modelos harmnicos mais rudo [Stylianou (98-a)] ou a utilizao de uma probabilidade de vozeamento que define uma frequncia a partir da qual o sinal considerado no vozeado [McAulay (95)], atenua o efeito tonal e modela melhor as zonas de transio de vozeamento.

4.4 Sntese de formantes


Decompondo o polinmio do denominador do filtro de predio linear (equao 3.21) numa cascata de p/2 sistemas ressonantes de segunda ordem, atravs das razes ndice k, rkejk e das respectivas razes conjugadas, vir:

78

4-Sntese de Fala

G 1 + ai z
i =1 p i

= G

p/2 k =1 (1 rk e j k

1 . z )(1 rk e j k z 1 )
1

(4.9)

Conhecendo as frequncias de ressonncia Fk dos formantes e correspondentes larguras de banda Bk, os mdulos e fases das respectivas razes so calculados a partir de:
wk = 2 Ts Fk

(4.10a) (4.10b)

rk = e TsBk ,

sendo Ts o perodo de amostragem. Repare-se contudo que apenas os sistemas ressonantes que tenham razes com um mdulo perto da unidade correspondam a formantes. Para produzir fala o tracto vocal pode ser modulado atravs desta cascata de filtros, tal como mostrado na figura 4.7, utilizando a mesma excitao que a excitao do modelo do vocoder LPC, transformando-se num vocoder de formantes.

Figura 4.7 Vocoder de formantes.

Uma configurao alternativa cascata de sistemas ressonantes a configurao em paralelo, ilustrada na figura 4.8. Ao contrrio da configurao em cascata, cada sistema tem um ganho individual.

Sntese por concatenao

79

Figura 4.8 Sintetizador paralelo de formantes.

Tal como no vocoder LPC, quer na configurao em srie quer na paralela, os parmetros do sintetizador devero ser alterados em intervalos entre os 5 e os 30 ms. Um dos sintetizadores de formantes mais bem sucedidos, nomeadamente em aplicaes de sntese a partir de texto, o sintetizador de formantes introduzido por Klatt [Klatt (80)] em 1980.

4.5 Sntese por concatenao


Em muitos sistemas, como por exemplo nos sistemas de sntese de fala a partir de texto, necessrio produzir fala a partir de uma sequncia fontica e respectiva informao prosdica (energia, durao e frequncia fundamental), existindo um primeiro mdulo que converte a sequncia ortogrfica nestes parmetros. Para sintetizar fala, segmentos fonticos pr-gravados so concatenados, num modelo a que se d o nome de sntese por concatenao.

80

4-Sntese de Fala

Uma das aproximaes no desenvolvimento destes sistemas o armazenamento da forma de onda de cada segmento fontico, mas as dificuldades na alterao da informao prosdica e na modelao do efeito da coarticulao torna estes sistemas de difcil implementao. Uma outra aproximao, cujo esquema de blocos apresentado na figura 4.9, utiliza um modelo paramtrico de sntese trama-a-trama, como por exemplo a sntese por predio linear ou sntese de formantes. A informao espectral (coeficientes LPC ou formantes) de cada trama do segmento fontico armazenada num livro de cdigo e obtida atravs do ndice do segmento respectivo. O livro de cdigo dever ter vrias instncias de cada segmento, de modo a poder modelar quer os efeitos da coarticulao (e.g., trifones - segmentos em diferentes contextos esquerda e direita) quer variaes na prosdia. A durao deve ser reajustada e os coeficientes interpolados entre segmentos. A energia e a frequncia fundamental so tambm parmetros de controlo destes modelos.

Figura 4.9 Sintetizador por concatenao de segmentos fonticos.

Disfarce da informao

81

Mesmo que a entrada do sistema seja uma sequncia de segmentos fonticos, no obrigatrio que a sntese do sinal seja processada com estas unidades. Os difones, definidos como o segmento entre os centros de dois segmentos fonticos consecutivos, so dos segmentos mais utilizados em sistemas de sntese de fala a partir de texto, sendo a sua principal vantagem a concatenao em zonas estveis, embora se deva arranjar critrios de minimizar as variaes espectrais no ponto de concatenao [Sagisaka (95)] [Stylianou (98-b)]. Alternativamente sntese em que os parmetros sobre a envolvente espectral esto armazenados num livro de cdigo, estes podem ser gerados por regras. Embora mais eficiente sobre o ponto de vista do armazenamento, esta tcnica tem no entanto dificuldades na modelao da dinmica dos parmetros de controlo.

4.6 Disfarce da informao


A utilizao de codificadores de fala em que o trfego efectuado atravs do protocolo IP (Internet Protocol). Uma das desvantagens deste protocolo no ser garantido que todos os pacotes sejam entregues em tempo real, sendo necessrio disfarar a informao dos pacotes no entregues. A recomendao do ITU-T G.711 (64 kbits/s companding amostra-a-amostra) foi recentemente utilizada em transmisso por pacotes, sendo em 1999 adoptado o Apndice 1 que estabelece recomendaes para disfarce de grande qualidade e baixa complexidade de pacotes perdidos. As suas principais caractersticas so:

82

4-Sntese de Fala

Pacotes (tramas) de 10 ms (80 amostras); Predio de longa durao com estimao da frequncia fundamental atravs do mtodo da co-varincia, numa janela de 160 (20 ms) amostras e um intervalo de procura entre as 40 amostras (200 Hz) e as 120 amostras (66,7 Hz);

Sobreposio com janelas triangulares de de perodo fundamental na zona anterior ao primeiro pacote perdido, de modo a minimizar descontinuidades perceptualmente audveis na zona de colagem, impondo um atraso de 3,75 ms (120/4=30 amostras);

Atenuao do sinal a partir do segundo pacote consecutivo perdido, de modo a que o sinal desvanea completamente a partir do sexto pacote consecutivo perdido;

Utilizao de dois perodos fundamentais a partir do segundo pacote consecutivo perdido e de trs perodos partir do terceiro, de modo zona regenerada no soar demasiado tonal;

Sobreposio final de perodo fundamental mais 4 ms por cada pacote perdido a partir do segundo, de modo a tornar mais suave a transio no fim da recuperao; Como exemplo, apresentado na figura 4.10 o disfarce do sinal

para trs tramas consecutivas perdidas, sendo mostradas a zona de sobreposio inicial e final. Na figura 4.11 apresentado um troo do sinal com 3 pacotes recuperados e comparado com o sinal original. Apesar de diferenas significativas, tal como num sinal de fala real no existem descontinuidades e as caractersticas espectrais do sinal variam suavemente. Em codificadores que utilizem predio linear os coeficientes das tramas perdidas so uma repetio dos valores das ltimas tramas, normalmente atenuadas em amplitude e com aumento da largura de banda dos formantes, de modo a tender o sinal para rudo branco.

Disfarce da informao

83

Figura 4.10 Exemplo de reconstruo de trs pacotes consecutivos perdidos, sendo mostradas as zonas de sobreposio inicial e final e os trs pacotes perdidos.

Figura 4.11 Em cima, exemplo j mostrado na figura 4.10, comparado na janela de baixo com o sinal original.

Você também pode gostar