Escolar Documentos
Profissional Documentos
Cultura Documentos
As primeiras tentativas de construir mquinas de produo de fala, embora sintetizando apenas 5 vogais, remontam a 1779, por C. G. Kratzenstein. Poucos anos mais tarde, em 1791, W. R. von Kempelen demonstrou uma mquina muito mais sofisticada e capaz de produzir fala contnua, provando que o sistema humano de produo de fala podia ser modelado artificialmente. No mesmo ano publicava um livro descrevendo os seus estudos sobre produo de fala e as experincias de duas dcadas at chegar a esta mquina. Em 1835, Wheatstone demonstrou, na Dublin Association for the Advances of Sciences, uma mquina construda com base nos princpios descritos no livro de von Kempelen. Esta mquina, representada na figura 4.1, usava um fole para fornecer ar a um ressoador feito em pele, sendo a sua seco alterada pela mo de um
68
4-Sntese de Fala
operador. A outra mo manipulava quatro comandos que geravam constries de modo a produzir consoantes.
O primeiro sintetizador de fala completamente elctrico, conhecido por Pedro the voder (voice demonstrater), foi inventado por Homer Dudley e apresentado em 1939 na feira mundial de Nova York. O nome Pedro provm de Dom Pedro, Imperador do Brasil, presente em 1876 na primeira Exibio Centenria em Filadlfia, quando da demonstrao do telefone por Alexander Bell. Um episdio que ficou clebre envolvendo D. Pedro foi quando este, ao ouvir uma voz proveniente do telefone, exclamou: Meu Deus, fala. A figura 4.2 apresenta uma fotografia do voder a ser demonstrado por uma operadora, a Senhora Harper, tirada na feira de Nova York. Este era manipulado atravs de 14 teclas que controlavam a estrutura que modelava o tracto vocal, por uma barra que escolhia o tipo de excitao (rudo nas zonas vozeadas ou um oscilador simulando a frequncia fundamental nas zonas no vozeadas) e um pedal que permitia a variao da frequncia do oscilador.
69
Ainda em 1939, Dudley props os vocoders (voice-coders) de canal [Dudley (39)], que representam os sinais de fala no domnio da frequncia. O sinal modelado atravs da energia de um conjunto de filtros passa-banda contguos, que dividem a banda total num nmero fixo de canais. Este conjunto de filtros excitado por rudo nas zonas no vozeadas e por pulsos peridicos nas zonas vozeadas modelando a abertura e fecho da glote. A maioria dos modelos de sntese mantm ainda esta estrutura fonte-filtro na modelao dos sinais de fala. O aparecimento dos computadores produziu grandes
desenvolvimentos no processamento de fala no resto do sculo XX, sendo os modelos principais de sntese apresentados resumidamente neste captulo.
70
4-Sntese de Fala
(4.1)
sendo N0 o valor do perodo de vibrao das cordas vocais ou perodo fundamental, medido em mltiplos do perodo de amostragem e o coeficiente de predio de longa durao. Este coeficiente tem tipicamente valores superiores ou da ordem da unidade. Valores ligeiramente so obtidos nas zonas de transio, inferiores
respectivamente com aumento ou diminuio de energia. Nas zonas no vozeadas este preditor no se aplica. O valor ptimo de , tendo como critrio a minimizao da energia do resduo, obtido substituindo na equao (3.12) o atraso de uma amostra pelo atraso N0,
Re [N 0] = re (N 0) . Ee
(4.2)
71
O resduo e"[n] gerado pela cascata destes dois preditores, cujo esquema de blocos se apresenta na figura 4.3, denomina-se de resduo de dupla predio.
Ao contrrio do preditor LPC que explora a correlao entre amostras consecutivas, este preditor explora a correlao entre perodos glotais, que tm uma durao maior, pelo que se denomina de preditor de longa durao (LT - Long Term). Na figura 4.4 apresentado o resduo de dupla predio (LPC de ordem 10 e preditor de longa durao com N0=71) e comparado com o resduo de predio de ordem 10. O sinal original mostrado na figura 3.3. Como se pode verificar, a periodicidade que se encontrava ainda no resduo de LPC foi praticamente eliminada. O resduo de dupla predio aproxima-se de rudo gaussiano, com uma gama dinmica ainda menor que o resduo de LPC. Este preditor s no tem um melhor desempenho porque se est a restringir que o atraso N0 seja um nmero inteiro de perodos de amostragem. A utilizao de dupla predio na sntese de sinais de fala um dos mtodos mais utilizados em codificao de sinais de fala, tendo para isso sido desenvolvidos mtodos eficazes de representao do resduo de dupla predio e de quantificao dos coeficientes LPC, que sero descrito no captulo sobre 6 sobre quantificao.
72
4-Sntese de Fala
Resduo de predio LPC - Ordem 10 4000 Amplitude 3000 2000 1000 0 -1000 2 4 6 8 10 12 14
t [ms]
16
18
20
22
16
18
20
22
Figura 4.4 Em cima: Resduo de predio LPC - Ordem 10. Em baixo: Resduo de dupla predio (LPC+LT)
73
De modo a modelar as variaes do tracto vocal e da periodicidade dos pulsos glotais, os coeficientes do modelo devero ser alterados a intervalos entre os 5 e os 30 ms. Nas zonas no vozeadas, o ganho, calculado atravs da equao 3.19 assumindo entrada um impulso, dever ser ajustado de modo a que se adeque a uma entrada do tipo rudo gaussiano com varincia unitria, para que se mantenha a mesma energia, ou seja,
G' = G 1 . DimensoTrama
(4.3)
74
4-Sntese de Fala
filtro de de-nfase aps a predio, constitudo por um filtro passa-baixo de primeira ordem, que impor um declive espectral de -6 dB por oitava. Para evitar o pico no sinal sintetizado, pode-se utilizar uma forma de onda com envolvente espectral plana, mas em que a variao de fase ao longo das harmnicas produz um sinal mais natural. Alternativamente, pode-se utilizar uma forma de onda mais parecida com a do resduo de predio, aproximadamente equivalente de um filtro passa-baixo de segunda ordem, modelado por Rosenberg [Rosenberg (71)] atravs do polinmio seguinte:
2 3 k + k1 t + k2 t + k3 t u g (t) = 0 0
(4.4)
em que Top representa a durao da fase de abertura da glote, assumida como uma percentagem fixa do perodo fundamental T0=1/F0. normal incorporar no modelo da fonte glotal a caracterstica de radiao nos lbios, essencialmente uma caracterstica passa-alto de primeira ordem, derivando a equao 4.4. O declive espectral total corresponde ento a -6 dB por oitava (-12 dB/oitava do modelo da fonte glotal e +6 dB/oitava da radiao nos lbios), o que equivalente aos impostos pelo filtro de de-nfase. As constantes k0, k1, k2 e k3 da equao 4.4 podem ser calculadas [Oliveira (93)] impondo algumas restries: a derivada do fluxo glotal zero na origem e o integral num perodo fundamental da derivada do fluxo glotal zero, de modo a evitar a introduo de uma componente DC. A derivada do fluxo glotal, ilustrada na figura 4.6, ento representada no domnio discreto por,
75
(4.5)
em que N0 representa o nmero de amostras do perodo fundamental e Nop o nmero de amostras da fase de abertura da glote.
Forma de onda glotal Am plitude norm alizada 10
-0.5
-1 0 2 4 6 8 t [ms] 10
Figura 4.6 Modelo da forma de onda do fluxo glotal (em cima) e respectiva derivada do fluxo glotal (em baixo) (Adaptado de [Oliveira (93)]). O perodo fundamental ilustrado de 10 ms (80 amostras), com uma durao da fase de abertura da glote de 66%.
O ganho, calculado atravs da equao 3.19 assumindo entrada um impulso, dever ser ajustado de modo a que se mantenha a mesma energia, ou seja,
G' = G PeriodoGlotal . DimensoTrama
(4.6)
76
4-Sntese de Fala
s(t) =
K (t) k =1
(4.7)
em que Ak(t) e k(t) representam, respectivamente, as amplitudes e fases da k-sima sinuside, cuja frequncia dada pela derivada da fase
Sntese de formantes
77
fundamental F0, sendo este modelo designado por modelo harmnico. A fase pode ainda ser restringida a ser contnua trama-a-trama (vocoder harmnico), sendo este modelo descrito por [McAulay (90)],
s' ( n ) =
K (n ) k =1
(4.8)
em que fs a frequncia de amostragem e k(n) controla a periodicidade do sinal. Os valores de F0(n) so tambm calculados nas fronteiras das tramas e interpolados linearmente amostra-a-amostra (interpolao quadrtica da fase). Nas zonas vozeadas k(n) nulo, mantendo-se a continuidade de fase. Nas zonas no vozeadas a periodicidade cortada pela soma fase de cada harmnica de uma componente aleatria k(n) de mdia nula. Repare-se que o modelo harmnico com restries na fase e em que as amplitudes so modeladas pelos coeficientes LPC tem os mesmos parmetros de controlo do vocoder LPC. No entanto, principalmente para vozes de oradores do gnero masculino, o sinal pode soar demasiado tonal devido ao elevado nmero de harmnicas. A utilizao de modelos harmnicos mais rudo [Stylianou (98-a)] ou a utilizao de uma probabilidade de vozeamento que define uma frequncia a partir da qual o sinal considerado no vozeado [McAulay (95)], atenua o efeito tonal e modela melhor as zonas de transio de vozeamento.
78
4-Sntese de Fala
G 1 + ai z
i =1 p i
= G
p/2 k =1 (1 rk e j k
1 . z )(1 rk e j k z 1 )
1
(4.9)
Conhecendo as frequncias de ressonncia Fk dos formantes e correspondentes larguras de banda Bk, os mdulos e fases das respectivas razes so calculados a partir de:
wk = 2 Ts Fk
(4.10a) (4.10b)
rk = e TsBk ,
sendo Ts o perodo de amostragem. Repare-se contudo que apenas os sistemas ressonantes que tenham razes com um mdulo perto da unidade correspondam a formantes. Para produzir fala o tracto vocal pode ser modulado atravs desta cascata de filtros, tal como mostrado na figura 4.7, utilizando a mesma excitao que a excitao do modelo do vocoder LPC, transformando-se num vocoder de formantes.
Uma configurao alternativa cascata de sistemas ressonantes a configurao em paralelo, ilustrada na figura 4.8. Ao contrrio da configurao em cascata, cada sistema tem um ganho individual.
79
Tal como no vocoder LPC, quer na configurao em srie quer na paralela, os parmetros do sintetizador devero ser alterados em intervalos entre os 5 e os 30 ms. Um dos sintetizadores de formantes mais bem sucedidos, nomeadamente em aplicaes de sntese a partir de texto, o sintetizador de formantes introduzido por Klatt [Klatt (80)] em 1980.
80
4-Sntese de Fala
Uma das aproximaes no desenvolvimento destes sistemas o armazenamento da forma de onda de cada segmento fontico, mas as dificuldades na alterao da informao prosdica e na modelao do efeito da coarticulao torna estes sistemas de difcil implementao. Uma outra aproximao, cujo esquema de blocos apresentado na figura 4.9, utiliza um modelo paramtrico de sntese trama-a-trama, como por exemplo a sntese por predio linear ou sntese de formantes. A informao espectral (coeficientes LPC ou formantes) de cada trama do segmento fontico armazenada num livro de cdigo e obtida atravs do ndice do segmento respectivo. O livro de cdigo dever ter vrias instncias de cada segmento, de modo a poder modelar quer os efeitos da coarticulao (e.g., trifones - segmentos em diferentes contextos esquerda e direita) quer variaes na prosdia. A durao deve ser reajustada e os coeficientes interpolados entre segmentos. A energia e a frequncia fundamental so tambm parmetros de controlo destes modelos.
Disfarce da informao
81
Mesmo que a entrada do sistema seja uma sequncia de segmentos fonticos, no obrigatrio que a sntese do sinal seja processada com estas unidades. Os difones, definidos como o segmento entre os centros de dois segmentos fonticos consecutivos, so dos segmentos mais utilizados em sistemas de sntese de fala a partir de texto, sendo a sua principal vantagem a concatenao em zonas estveis, embora se deva arranjar critrios de minimizar as variaes espectrais no ponto de concatenao [Sagisaka (95)] [Stylianou (98-b)]. Alternativamente sntese em que os parmetros sobre a envolvente espectral esto armazenados num livro de cdigo, estes podem ser gerados por regras. Embora mais eficiente sobre o ponto de vista do armazenamento, esta tcnica tem no entanto dificuldades na modelao da dinmica dos parmetros de controlo.
82
4-Sntese de Fala
Pacotes (tramas) de 10 ms (80 amostras); Predio de longa durao com estimao da frequncia fundamental atravs do mtodo da co-varincia, numa janela de 160 (20 ms) amostras e um intervalo de procura entre as 40 amostras (200 Hz) e as 120 amostras (66,7 Hz);
Sobreposio com janelas triangulares de de perodo fundamental na zona anterior ao primeiro pacote perdido, de modo a minimizar descontinuidades perceptualmente audveis na zona de colagem, impondo um atraso de 3,75 ms (120/4=30 amostras);
Atenuao do sinal a partir do segundo pacote consecutivo perdido, de modo a que o sinal desvanea completamente a partir do sexto pacote consecutivo perdido;
Utilizao de dois perodos fundamentais a partir do segundo pacote consecutivo perdido e de trs perodos partir do terceiro, de modo zona regenerada no soar demasiado tonal;
Sobreposio final de perodo fundamental mais 4 ms por cada pacote perdido a partir do segundo, de modo a tornar mais suave a transio no fim da recuperao; Como exemplo, apresentado na figura 4.10 o disfarce do sinal
para trs tramas consecutivas perdidas, sendo mostradas a zona de sobreposio inicial e final. Na figura 4.11 apresentado um troo do sinal com 3 pacotes recuperados e comparado com o sinal original. Apesar de diferenas significativas, tal como num sinal de fala real no existem descontinuidades e as caractersticas espectrais do sinal variam suavemente. Em codificadores que utilizem predio linear os coeficientes das tramas perdidas so uma repetio dos valores das ltimas tramas, normalmente atenuadas em amplitude e com aumento da largura de banda dos formantes, de modo a tender o sinal para rudo branco.
Disfarce da informao
83
Figura 4.10 Exemplo de reconstruo de trs pacotes consecutivos perdidos, sendo mostradas as zonas de sobreposio inicial e final e os trs pacotes perdidos.
Figura 4.11 Em cima, exemplo j mostrado na figura 4.10, comparado na janela de baixo com o sinal original.