Escolar Documentos
Profissional Documentos
Cultura Documentos
So Paulo
2007
So Paulo
2007
3
AGRADECIMENTOS
Ao Prof. Marcio Eisencraft, por ter sido o orientador e incentivar a busca do conhecimento
necessrio para a realizao deste trabalho.
s nossas famlias, pela sua grande compreenso nos nossos momentos de ausncia.
Universidade Presbiteriana Mackenzie que nos propiciou conhecimento e recursos para a
concluso deste trabalho
Aos amigos que direta ou indiretamente colaboraram para a realizao deste trabalho.
5
RESUMO
Voz o meio de comunicao mais usual entre humanos e torna-se um meio de comunicao
vivel entre mquinas e humanos. Nas ltimas dcadas as tcnicas para transmitir informao
passaram por muitas mudanas. So explicados os fundamentos bsicos de funcionamento
destas tcnicas e sua importncia, alm de serem realizadas simulaes e comparaes dos
resultados obtidos. Para facilitar o entendimento delas so descritos conceitos de
processamento digital de sinais e noes da anatomia humana. As tcnicas aqui abordadas
permitem a compreenso do funcionamento de alguns dos atuais sistemas de transmisso de
voz, alm de poder auxiliar deficientes, por meio de leitores para deficientes visuais e
sintetizadores de voz para os deficientes de fala. Este trabalho aborda duas tcnicas de
processamento de digital de sinais: a predio e a sntese de sinais de voz.
6
ABSTRACT
Speech is the most common way for humans to communicate with each other and it becomes
a means for communication between men and machines. The techniques used for transmitting
information have undergone several remodeling in the past decades. The basic principles of
these techniques as well as their importance are explained in this work. Digital signal
processing concepts and human anatomy are described in order to smooth the understanding
of such techniques, which allow the increase of current voice transmitting systems capacity
and provide aid for the handicapped, e. g., reading aid for the blind and speaking aid for the
vocally handicapped. This work approaches two digital signal processing techniques: voice
signals prediction and synthesis.
7
LISTA DE ILUSTRAES
13
13
15
15
18
Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta. .....................
20
21
22
25
26
27
28
30
33
40
Grfico 6 Janela retangular nos domnios (a) do tempo e (b) da freqncia ...............
40
42
8
Grfico 10 Sinais referentes palavra chiado (a) originalmente gravado,
(b) sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado a partir
de rudo branco. ....................................................... 46
Grfico 11 Erro entre sinal original e (a) sinal sintetizado por meio de excitao
peridica de 150Hz e (b) sinal sintetizado por meio de rudo branco.................................. 47
Grfico 12 Espectro dos sinais referentes palavra chiado (a) originalmente
gravado, (b) sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado
a partir de rudo branco. ....................................................................................................... 48
Grfico 13 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de seqncia impulsiva peridica com freqncia fundamental
de 300Hz e utilizando-se 10 coeficientes de predio, (c) utilizando-se 80 coeficientes
de predio e (d) utilizando-se 160 coeficientes de predio.......................................... 49
Grfico 14 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de rudo branco e utilizando-se 10 coeficientes de predio,
(c) sintetizado com 80 coeficientes de predio e (d) sintetizado com 160 coeficientes
de predio...................... 50
9
SUMRIO
1 INTRODUO ................................................................................................................... 10
2 SINAIS E SISTEMAS DE TEMPO DISCRETO ............................................................. 12
2.1 SINAIS DE TEMPO DISCRETO ...................................................................................... 12
2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTNUO ................................................. 17
2.3 FILTROS DIGITAIS.......................................................................................................... 19
2.3.1 Filtros FIR ....................................................................................................................... 19
2.3.2 Filtros IIR ........................................................................................................................ 20
3.1 O TRATO VOCAL ............................................................................................................ 24
3.2 FUNDAMENTOS DE SINAIS DE VOZ .......................................................................... 25
3.3 GERAO DO SOM NO TRATO VOCAL .................................................................... 29
4 PREDIO E SNTESE .................................................................................................... 32
4.1 CONCEITOS BSICOS DA PREDIO ........................................................................ 32
4.2 O ALGORITMO LMS ....................................................................................................... 33
4.3 CONCEITOS BSICOS DE SNTESE DE VOZ ............................................................. 37
5 SIMULAES COMPUTACIONAIS E ANLISE DE RESULTADOS .................... 41
5.1 SIMULAO DE PREDIO ......................................................................................... 41
5.2 SIMULAO DE SNTESE DE SINAIS DE VOZ ......................................................... 45
6 CONCLUSES.................................................................................................................... 52
REFERNCIAS .................................................................................................................. 54
10
1 INTRODUO
11
Para tornar este trabalho acessvel a um pblico mais amplo, so introduzidos
alguns conceitos bsicos de processamento digital de sinais para tornar mais fcil a
compreenso das principais etapas dos processos de predio e sntese de sinais de voz.
No Captulo 2 so introduzidos os conceitos de sinais e sistemas de tempo
discreto, suas principais propriedades, caractersticas e formas de representao. Ainda neste
captulo apresentado o processo de discretizao e conceitos de filtros digitais.
No Captulo 3 so apresentados conceitos da anatomia humana para descrever
o funcionamento do trato vocal e seus componentes. Introduz-se os conceitos bsicos
necessrios para o entendimento do processo de gerao de voz.
No Captulo 4 so descritos os conceitos de predio e sntese dos sinais de
voz explicando as tcnicas utilizadas nestes processos, para apoiar as simulaes e anlises do
Captulo 5.
O captulo 6 encerra o trabalho com as concluses dos autores considerando
anlises realizadas a partir das simulaes efetuadas e com os estudos realizados no decorrer
deste trabalho.
12
2 SINAIS E SISTEMAS DE TEMPO DISCRETO
Sinal definido como uma funo que varia com o tempo, espao ou qualquer
varivel independente (PROAKIS; MANOLAKIS, 1996).
Uma das possveis maneiras de classificar os sinais como sinais de tempo
contnuo e discreto.
Um sinal de tempo contnuo aquele que possui valor para qualquer instante
do tempo como, por exemplo, a tenso eltrica que um microfone produz como resposta a fala
de uma palavra (GIROD, 2003).
Um sinal de tempo discreto aquele que pode ser representado por uma
seqncia de nmeros. Cada nmero x(n ) corresponde amplitude do sinal em um instante
x(n ) = cos n ,
10
(1)
13
representado no Grfico 1 no intervalo 0 n 39 .
1
0.8
0.6
0.4
x(n)
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
10
15
20
n
25
30
35
40
Os sinais de voz, apesar de serem sinais de tempo continuo, tambm podem ser
representados como sinais no tempo discreto. Para isso preciso amostr-los seguindo
algumas regras que so estudadas na Seo 2.2.
Um sistema pode ser descrito como um operador, que transforma um ou mais
sinais de entrada, tambm chamados de sinais de excitao, no sinal de sada ou de resposta
(HAYES, 1999). Um sistema de tempo discreto manipula sinais no tempo discreto. Um
sistema H [] com entrada x(n ) e sada y (n ) representado como mostrado no Diagrama 1.
x(n )
H []
y (n ) = H [x(n )]
14
Um exemplo de aplicao do conceito de sistema a gerao de voz, na qual
um sinal excita o trato vocal, que representa um sistema. J o processamento dos sinais de fala
realizado pelo sistema composto pelos ouvidos, caminhos auditivos e nosso crebro. Nestas
situaes, os sistemas que so responsveis pela sntese e analise dos sinais so de natureza
biolgica. Eles tambm podem ser realizados usando sistemas eletrnicos que tentam simular
suas contrapartes biolgicas. (HAYKIN; VAN VEEN, 2001).
Os sistemas de tempo discreto podem ser descritos por equaes de diferenas.
A entrada x(n ) e a sada y (n ) de um sistema descrito por uma equao de diferenas linear se
relacionam por
N
a y(n i ) b x(n i ) = 0 .
i =0
i =0
(2)
(3)
y (n ) =
1
(b0 x(n ) + b1 x(n 1) a1 y(n 1) a2 y(n 2)) .
a0
(4)
Esta equao indica como obter y (n ) a partir da entrada e dos valores passados
a sada. Essas equaes so freqentemente usadas para implementar sistemas de tempo
discretos em um computador (HAYKIN; VAN VEEN, 2001).
15
O Diagrama 2 representa a funo utilizada para realizar um retardo de uma
amostra no tempo discreto utilizada no Diagrama 3.
x(n )
z 1
y (n ) = x(n 1)
x(n )
z 1
1
4
z 1
1
8
z 1
z 1
y (n )
1
16
1
1
1
1
x(n 1) + x(n 2 ) + x(n 3) + x(n 4)
2
4
8
16
(5)
considerando que o sinal de entrada um sinal de voz, pode-se ver que a sada a somatria
do sinal original com sinais atrasados dele em amplitudes menores.
16
Uma outra maneira de caracterizar o comportamento de qualquer sistema
Linear e Invariante no Tempo (LIT) utilizar sua resposta impulsiva, isto , a resposta do
sistema quando se tem como entrada um impulso unitrio.
Um sistema LIT caso satisfaa os princpios da superposio,
homogeneidade e invarincia no tempo, descritos a seguir.
Princpio da superposio:
Seja um sistema y (n ) = H (x(n )) e sejam y1 (n ) a resposta entrada x1 (n ) e y 2 (n ) a
resposta entrada x 2 (n ) . Um sistema satisfaz o princpio da superposio se, quando
se aplicar a entrada x s (n ) = x1 (n ) + x 2 (n ) , sua sada y s (n ) = y1 (n ) + y 2 (n ) .
Princpio da homogeneidade:
Seja um sistema y (n ) = H ( x(n )) e sejam y1 (n ) a resposta entrada x1 (n ) . Um sistema
satisfaz o princpio da homogeneidade se, quando aplicarmos a ele a
entrada x h (n ) = ax1 (n ) , a R * , sua sada y h (n ) = ay1 (n ) .
17
2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTNUO
1
.
TS
Um exemplo de amostragem de um sinal apresentado no Grfico 2, em que
no grfico (a) apresentado o sinal original no tempo continuo e no grfico (b), o sinal
amostrado com TS = 0,2 segundos.
18
x(t)
0.5
0
-0.5
-1
0
4
t
x(n)
0.5
0
-0.5
-1
5
10
15
20
n
25
30
35
40
19
2.3 FILTROS DIGITAIS
constantes de natureza no-recursiva. Para uma entrada x(n ) , a sada dada pela convoluo
entre o sinal de entrada e os coeficientes de filtro, ou seja,
y (n ) =
M 1
h(k )x(n k )
(6)
k =0
M 1
h(k )z
(7)
k =0
20
mantm um alinhamento de tempo preciso. So usualmente implementados atravs da forma
direta como apresentado na Diagrama 4.
x(n )
z 1
z 1
h(0)
h(1)
......
z 1
h(2 )
h(3)
z 1
h(M 2 )
h(M 1)
+
y (n )
coeficientes constantes de natureza recursiva. Para uma entrada x(n ) , a sada calculada
como:
y (n ) =
N
1 M
bk x(n k ) a k y (n k )
a 0 k =0
k =1
(8)
H (z ) =
b z
k =0
N
k =0
(9)
21
IIR podem ser implementados de diferentes formas (ABRANTES, 2000), a forma direta
apresentada na Diagrama 5:
22
Apenas para exemplificar a utilizao desta funo do Matlab, a partir de um
sinal com duas senides de freqncias 5 e 80 Hz e freqncia de amostragem 200 Hz, ser
implantado um filtro do tipo Butterworth de 2 ordem.
Sinal de Entrada
2
amplitude
1
0
-1
-2
0.1
0.2
0.3
0.4
0.5
0.6
tempo (s)
0.7
0.8
0.9
0.7
0.8
0.9
Sinal Filtrado
amplitude
1
0
-1
-2
0.1
0.2
0.3
0.4
0.5
0.6
tempo (s)
% Freqncia de amostragem
% Tempo de amostragem
% sinal de entrada
23
ylabel('amplitude')
[B,A]=butter(2,20/(fs/2));
y=filter(B,A,x);
subplot(2,1,2)
plot(t,y,'r')
title('Sinal Filtrado')
xlabel('tempo (s)')
ylabel('amplitude')
% Determinar os coeficientes
24
3 O trato vocal e os sinais de voz
25
26
peridicos de ar injetado na traquia (SMITH, 1997). O Desenho 2 ilustra a localizao das
cordas vocais.
27
por rudo gaussiano, (b) a freqncia fundamental (pitch) da excitao peridica, quando
utilizada e (c) os coeficientes de um filtro recursivo linear simulando o trato vocal. Pode-se,
ento, sintetizar voz atualizando-se continuamente estes parmetros cerca de 40 vezes por
segundo. Embora a qualidade sonora desta aproximao seja baixa, soando mecnico em vez
de humano, requer baixa taxa de atualizao de dados (SMITH, 1997). O processo de sntese
de voz estudado mais detalhadamente no Captulo 4.
Gerador
de Rudo
no-voclicos
Filtro
Digital
voclicos
Gerador de
Impulsos
voz sinttica
Resposta do
trato vocal
pitch
Diagrama 6 Modelo de sntese de voz
O Pitch representa o perodo de interrupo do fluxo de ar que excita o trato
vocal causado pela vibrao das cordas vocais quando passado pela glote. Quanto maior for
esse perodo, menor ser o espao entre as harmnicas e, conseqentemente menor ser a
freqncia fundamental, resultando em um som mais grave. Por outro lado, se esse perodo
for muito pequeno, a freqncia fundamental ser alta, logo, produzindo som mais agudo
(SENDA, 2005). O Grfico 4 mostra a variao do pitch para a vogal /a/.
28
29
Glote
Lbios
30
Pode-se explicar a vibrao das cordas vocais, para o caso de sons voclicos,
com a ajuda da representao esquemtica do sistema vocal mostrada o Desenho 3.
31
Assim, as cordas vocais entram em uma condio de oscilao sustentada. A
taxa com que a glote abre e fecha controlada pela presso do ar nos pulmes, pela tenso nas
cordas vocais e pela rigidez das mesmas, alm da rea de abertura da glote na condio de
repouso. Estes so os parmetros de controle de um modelo detalhado para o comportamento
das cordas vocais. Tais modelos devem tambm conter a influncia do trato vocal uma vez
que variaes de presso no trato vocal interferem nas variaes de presso na glote.
32
4 PREDIO E SNTESE
Uma vez que no tempo discreto uma amostra de voz muito parecida com a
amostra anterior, um modelo matemtico de equaes de diferenas pode ser desenvolvido
para estimar o valor da amostra corrente como uma combinao linear das amostras
anteriores.
Sendo s (n ) um sinal de voz amostrado pode-se adotar,
p
s(n ) = i s (n i )
(10)
i =1
em que s(n ) a estimao do sinal de voz s (n ) para a amostra n . O erro entre o sinal original
e o estimado :
e(n ) = s (n ) s(n )
(11)
33
p
s (n ) i s(n i ) = e(n )
(12)
i =1
s (n )
Atraso
Processador
de Predio
s(n ) -
e(n )
34
minimizar o erro entre o sinal predito e o original. Nessa seo detalha-se o princpio deste
algoritmo. As dedues baseiam-se na referncia (LATHI, 1998).
Freqentemente tem-se interesse em determinar a natureza de dependncia
entre dois sinais. Quando duas variveis randmicas x e y so correlacionadas, ento uma
possui informaes da outra. Assim possvel estimar o valor de y pelo conhecimento do
valor de x . A estimativa de y ser dada pela varivel aleatria y . O valor estimado de y
em geral diferente do valor verdadeiro de y . Uma das formas de se obter uma boa estimao
de y minimizar o erro mdio quadrado e 2 dado por:
2
e 2 = ( y y )
(13)
y = ax
(14)
2
2
e 2 = ( y y ) = ( y ax ) = y 2 + a 2 x 2 2a xy
(15)
(16)
Portanto,
a=
xy
x2
R XY
R XX
(17)
35
e = y ax = y
R xy
R xx
(18)
Portanto,
R xy
R
= xy xy x 2
xe = x y
R xx
R xx
(19)
(20)
Portanto, o dado x e o erro e so ortogonais, ou seja, seu produto interno igual a zero..
O erro mdio quadrado dado por:
e = ( y ax ) = y 2a xy + a x = R yy
2
2 Rxy2
Rxx
Rxy2
Rxx
= R yy
Rxy2
Rxx
= R yy aRxy
(21)
x o = a1 x1 + a 2 x 2 + ... + a n x n = ai xi .
(22)
i =1
(23)
isto
(24)
36
e 2
(25)
(26)
(27)
ou
em que Rij = xi x j
a1 R11
a R
2 = 21
: ...
an Rn1
R12
R22
...
Rn 2
... R1n
... R2 n
... ...
... Rnn
R01
R
02
:
R0 n
(28)
37
4.3 CONCEITOS BSICOS DE SNTESE DE VOZ
~
s (n ) i ~
s (n i ) = Gx(n )
(29)
i =1
38
Pode-se encontrar a resposta caracterstica para uma equao de diferenas a
partir de suas razes caractersticas ou plos do sistema. possvel mostrar que uma resposta
na forma z n , em que z um nmero complexo, satisfaz uma equao de diferenas com
coeficientes constantes e com entrada zero. Assim z N y (n) , para y (n) = z n , corresponde a
uma verso atrasada de y (n) , ou seja, y (n N ) . Tomando-se a entrada nula e substituindo-se
cada atraso na equao de diferenas de predio (12) ou de sntese (29) por uma potncia de
z 1 , tem-se como resultado um polinmio caracterstico, mostrado na equao (30), cujas
razes so chamadas de razes caractersticas, e definem a resposta caracterstica do sistema.
p
p 1
i =1
i =0
Q ( z ) = 1 i z i = ( z z i )
(30)
39
Para que se possa compreender a razo pela qual prefervel utilizar a janela
de Hamming em vez da janela quadrada, deve-se observar o impacto do janelamento no
domnio da freqncia. Uma vez que o janelamento de um sinal corresponde operao de
multiplicao no domnio do tempo, no domnio da freqncia corresponder convoluo da
Transformada de Fourier da funo da janela com o espectro de freqncia do segmento do
sinal amostrado. Se a transformada da funo da janela se aproximar de um impulso em
freqncia, ento a operao de convoluo resultar em um espectro idntico ao espectro do
sinal original. Entretanto, quanto menos a transformada da janela se assemelhar a um pulso,
maior ser a distoro do espectro do sinal original.
Os grficos 4.1 e 4.2 ilustram as janelas de Hamming e a janela quadrada,
respectivamente nos domnios do tempo e da freqncia. Deve-se perceber que a janela de
Hamming apresenta uma queda maior antes de se estabilizar, chamada de atenuao de banda
de rejeio, mas seu lbulo principal praticamente duas vezes maior que o da janela
retangular.
Aps o janelamento, uma anlise estatstica dos dados que determina o grau de
correlao entre as amostras adjacentes utilizada para se calcular os coeficientes que fornea
a melhor predio do sinal, isto , que minimize o erro de predio, conforme explicado na
seo 4.2. Uma vez encontrados estes coeficientes, pode-se sintetizar voz aplicando-se um
sinal apropriado de entrada ao modelo. No caso de sons voclicos, um bom modelo da fonte
para o sinal de entrada um trem de impulsos ideais a uma dada freqncia, sendo que a
freqncia determina o pitch. J no caso de sons no voclicos um bom modelo de fonte para
o sinal de entrada um rudo branco gaussiano.
40
41
5 SIMULAES COMPUTACIONAIS E ANLISE DE RESULTADOS
(31)
Taxao = N bits f S
(32)
42
A partir destes parmetros se obtm o nmero de blocos que este sinal
dividido para realizar a predio, sendo
N blo cos =
f S 8000
=
= 50
160 160
(33)
Amplitude
0.5
0
-0.5
-1
1000
2000
3000
4000
5000
6000
7000
8000
9000
43
a)
Amplitude
1
0.5
0
-0.5
-1
b)
Amplitude
1
0.5
0
-0.5
-1
c)
Amplitude
1
0.5
0
-0.5
-1
1
Amplitude
d)
0.5
0
-0.5
-1
1
Amplitude
e)
0.5
0
-0.5
-1
1000
2000
3000
4000
5000
6000
7000
8000
9000
Grfico 8 (a) Sinal original; sinal reconstrudo a partir do sinal de erro digitalizado com (b)
8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits.
44
Pode-se utilizar a Equao (31) para calcular a taxa para se transmitir este
sinal.
Taxa = 5 8000 + 16 10 50 = 48000 bps (bits por segundo).
(34)
A taxa necessria para se transmitir este sinal sem o uso de predio linear :
(35)
onde se conclui que o uso da predio linear resulta em uma economia de 16000 bps ou 25%
da taxa transmitida.
Em comunicaes no so transmitidas apenas pequenas palavras e sim
dilogos complexos com uma grande seqncia de fonemas, para demonstrar que a predio
pode ser utilizada em outros tipos de sinais utilizado um trecho da msica Paraso do
Cludio Zoli. Os resultados obtidos so mostrados no Grfico 8.
Pelo Grfico 9 pode-se ver que mesmo sinais de msica podem ser
transmitidos utilizando esta tcnica e que o sinal reconstitudo tem boa qualidade. Na
transmisso deste sinal que tem 10 segundos de durao foram economizados 160000 bits.
Com a utilizao deste programa pode-se ver que a tcnica de predio muito
til para a transmisso de sinais. Os resultados da simulao mostram que h uma grande
economia na quantidade de bits necessrios para se transmitir sinais mostrando a importncia
desta tcnica para sistemas de comunicaes.
A tcnica de predio adaptativa utilizada, por exemplo, na codificao de
voz, na estimao espectral e em PCM diferencial adaptativo (ABRANTES, 2000).
45
a)
Amplitude
1
0.5
0
-0.5
-1
b)
Amplitude
1
0.5
0
-0.5
-1
c)
Amplitude
1
0.5
0
-0.5
-1
d)
Amplitude
1
0.5
0
-0.5
-1
0.2
0.4
0.6
0.8
1.2
1.4
1.6
1.8
2
5
x 10
46
Tem-se como proposta analisar a influncia do pitch escolhido e do nmero de coeficientes
do filtro sobre os sinais sintetizados.
Para isto, utilizaram-se programas que, a partir de um sinal de voz previamente
gravado, calcula coeficientes de predio, conforme no Captulo 4, que sero utilizados como
parmetros de um filtro IIR que simula o trato vocal.
O Grficos 5.4 ilustra o sinal referente palavra chiado originalmente
gravado com freqncia de amostragem de 8kHz, o sinal sintetizado a partir de uma seqncia
peridica com freqncia de pitch igual a 150Hz, utilizando 10 coeficientes de predio, e o
sinal sintetizado a partir de uma seqncia aleatria, ou seja, a partir de rudo branco.
Amplitude
a)
Amplitude
b)
Amplitude
c)
n
Grfico 10 Sinais referentes palavra chiado (a) originalmente gravado, (b) sintetizado a
partir de excitao peridica de 150Hz e (c) sintetizado a partir de rudo branco.
Pode-se verificar a semelhana entre os sinais sintetizados em relao ao sinal
original. Em ambos os sinais sintetizados aparece uma interferncia amplificada pelo processo
de sntese, proveniente de rudos presentes no ambiente no momento em que se fez a
47
gravao. Ao se ouvir estes sinais, pode-se perceber claramente um zunido constante,
caracterizando a interferncia amplificada.
Os sinais de erro entre o sinal original e os sinais sintetizados a partir de rudo
gaussiano e excitao peridica so mostrados no Grfico 11.
a)
b)
Grfico 11 Erro entre sinal original e (a) sinal sintetizado por meio de excitao peridica
de 150Hz e (b) sinal sintetizado por meio de rudo branco.
Analisando a densidade espectral de potncia ( DEP ) destes sinais, mostrados
no Grfico 12, pode-se verificar que o pitch mais adequado para a sntese por meio de
excitao peridica de aproximadamente 300Hz, pois esta freqncia est relacionada baia
de maior amplitude do espectro do sinal original. Pode-se verificar, tambm, que o pitch de
150Hz escolhido para esta sntese corresponde baia de maior amplitude do espectro do sinal
sintetizado por excitao peridica.
48
DEP
a)
DEP
b)
DEP
c)
Freqncia ( Hz )
Grfico 12 Espectro dos sinais referentes palavra chiado (a) originalmente gravado, (b)
sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado a partir de rudo branco.
Desta forma, se sintetizarmos um sinal utilizando excitao peridica com
pitch de 300Hz, obteremos como resultado um sinal com caractersticas mais prximas do
sinal original.
A fim de se analisar a influncia do pitch escolhido sobre os sinais
sintetizados, gerou-se sinais com pitch variando de 50 a 950 Hz. Verificou-se que sinais
sintetizados com pitch abaixo de 550Hz, quando ouvidos, no apresentam diferena marcante
entre si, podendo muitas vezes ser confundidos.
J sinais sintetizados com pitch superior a 550Hz comeam a apresentar perdas
das caractersticas fundamentais da fala humana, principalmente do timbre, ou seja, a
caracterstica que nos permite identificar o falante. O ouvinte, ao escutar estes sinais, tem a
impresso de ouvir uma voz metalizada, lembrando a voz de um rob.
49
A fim de se analisar a influncia do nmero de coeficientes utilizados pelo
filtro que simula o aparelho fonador humano sobre os sinais gerados durante a simulao,
sintetizou-se sinais por meio de excitao peridica e por meio de rudo branco com o nmero
de coeficientes variando de 10 a 160. O Grfico 13 mostra o sinal originalmente gravado com
freqncia de amostragem igual a 8kHz e sinais sintetizados por meio de seqncia impulsiva
peridica com freqncia fundamental de 300Hz e utilizando-se 10, 80 e 160 coeficientes de
predio, referentes palavra chiado. Vale lembrar que, enquanto a escolha do pitch
influencia apenas os sinais sintetizados por meio de impulsos peridicos, a escolha do nmero
a)
Amplitude
c)
Amplitude
Amplitude
b)
Amplitude
d)
n
Grfico 13 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de seqncia impulsiva peridica com freqncia fundamental
de 300Hz e utilizando-se 10 coeficientes de predio, (c) utilizando-se 80 coeficientes
de predio e (d) utilizando-se 160 coeficientes de predio
50
Verificou-se que sinais sintetizados por rudo branco utilizando-se mais que
vinte e cinco coeficientes de predio comeam a apresentar distoro, podendo dificultar o
entendimento da mensagem. Ademais, quanto mais complexo for o sinal a ser sintetizado, isto
, quanto mais sons provenientes de obstruo parcial ,ou total, do fluxo de ar pela boca, tanto
para os sinais sintetizados por rudo quanto para os sintetizados por seqncia peridica de
impulsos, tem-se como resultado sons metalizados, caracterizando perda das caractersticas
intrnsecas da voz humana.
O Grfico 14 mostra o sinal originalmente gravado com freqncia de
amostragem igual a 8kHz e sinais sintetizados por meio de rudo branco, utilizando-se 10, 80
e 160 coeficientes de predio, referentes palavra chiado.
d)
Amplitude
c)
Amplitude
b)
Amplitude
Amplitude
a)
51
do sinal originalmente gravado, porm com o custo de mais tempo ser exigido para o sistema
calcular tais coeficientes, tornando-o muito mais lento. Quantificando, o tempo gasto por um
computador com processador Pentium IV de 2.8GHz calcular 10 coeficientes de predio e
sintetizar um sinal a partir de uma seqncia impulsiva peridica e a partir de rudo branco
para um sinal de 2 segundos de durao inferior a 1 segundo. J para se calcular 160
coeficientes de predio para o mesmo sinal so necessrios aproximadamente 5 segundos.
52
6 CONCLUSES
53
Do assunto tratado neste trabalho pode-se ter como fruto aplicaes sociais
como dispositivos de leitura para deficientes visuais, por meio de converso texto voz,
vocalizadores artificiais para deficientes de fala e sintetizadores de voz para conversao via
aparelhos telefnicos.
Em trabalhos futuros, os autores pretendem analisar a escolha automtica do
sinal de excitao utilizado para a sntese de sinais de voz, estudar algoritmos dedicados ao
clculo do pitch, alm de avaliar uma soluo para a deciso do nmero mais adequado de
coeficientes de predio utilizados como parmetros do filtro que simula o trato vocal.
54
REFERNCIAS
55
SENDA, A.. Reconhecimento de fonemas da lngua portuguesa da regio de So Paulo.
2005. Trabalho de Concluso de Curso (Graduao em Engenharia Eltrica)
Universidade Presbiteriana Mackenzie, So Paulo, 2005.
SIMES, F.O.. Implementao de um Sistema de Converso Texto-Fala para o Portugus do
Brasil. 1999. 204f. Dissertao (Mestrado em Engenharia Eltrica)-Universidade Estadual de
Campinas, Campinas, So Paulo, 1999.
SMITH, S. W. The Scinentist and Engineers Guide to Digital Signal Processing. California
Technical Publishing. 1997.
STONICK,V.; BRADLEY, K.. Labs for Signals and Systems Using MatLab, cap. 6. PWS
Publishing Company1996.