Você está na página 1de 56

0

UNIVERSIDADE PRESBITERIANA MACKENZIE


ESCOLA DE ENGENHARIA
ENGENHARIA ELTRICA

FERNANDO CARRARA LOPEZ


RENATO DALTO FANGANIELLO

SNTESE E PREDIO DE SINAIS DE VOZ

So Paulo
2007

FERNANDO CARRARA LOPEZ


RENATO DALTO FANGANIELLO

SNTESE E PREDIO DE SINAIS DE VOZ

Trabalho de Graduao Interdisciplinar


apresentado ao Curso de Engenharia
Eltrica, da Escola de Engenharia da
Universidade Presbiteriana Mackenzie,
como requisito parcial obteno do grau
de Bacharel em Engenharia.

ORIENTADOR: PROF. DOUTOR MARCIO EISENCRAFT

So Paulo
2007

Aos amigos que direta ou


indiretamente nos apoiram e
incentivaram a superar as
dificuldades para concluir este
trabalho.

3
AGRADECIMENTOS

Ao Prof. Marcio Eisencraft, por ter sido o orientador e incentivar a busca do conhecimento
necessrio para a realizao deste trabalho.
s nossas famlias, pela sua grande compreenso nos nossos momentos de ausncia.
Universidade Presbiteriana Mackenzie que nos propiciou conhecimento e recursos para a
concluso deste trabalho
Aos amigos que direta ou indiretamente colaboraram para a realizao deste trabalho.

Two roads diverged in a wood, and I


I took the one less traveled by,
And that has made all the difference.
(The Road Not Taken - Robert Frost)

5
RESUMO

Voz o meio de comunicao mais usual entre humanos e torna-se um meio de comunicao
vivel entre mquinas e humanos. Nas ltimas dcadas as tcnicas para transmitir informao
passaram por muitas mudanas. So explicados os fundamentos bsicos de funcionamento
destas tcnicas e sua importncia, alm de serem realizadas simulaes e comparaes dos
resultados obtidos. Para facilitar o entendimento delas so descritos conceitos de
processamento digital de sinais e noes da anatomia humana. As tcnicas aqui abordadas
permitem a compreenso do funcionamento de alguns dos atuais sistemas de transmisso de
voz, alm de poder auxiliar deficientes, por meio de leitores para deficientes visuais e
sintetizadores de voz para os deficientes de fala. Este trabalho aborda duas tcnicas de
processamento de digital de sinais: a predio e a sntese de sinais de voz.

Palavras-chave: Processamento de Voz. Voz Sinttica. Processamento digital de sinais

6
ABSTRACT

Speech is the most common way for humans to communicate with each other and it becomes
a means for communication between men and machines. The techniques used for transmitting
information have undergone several remodeling in the past decades. The basic principles of
these techniques as well as their importance are explained in this work. Digital signal
processing concepts and human anatomy are described in order to smooth the understanding
of such techniques, which allow the increase of current voice transmitting systems capacity
and provide aid for the handicapped, e. g., reading aid for the blind and speaking aid for the
vocally handicapped. This work approaches two digital signal processing techniques: voice
signals prediction and synthesis.

Key words: Voice processing. Synthetic voice. Digital signal processing.

7
LISTA DE ILUSTRAES

Grfico 1 - Exemplo de um sinal de tempo discreto.

13

Diagrama 1: Representao em diagrama de blocos de um sistema.....................

13

Diagrama 2 Funo de sistema do retardo discreto (GIROD, 2003).............................

15

Diagrama 3 Sistema gerador de eco...

15

Grfico 2: Exemplo de um sinal amostrado. ...................................................................

18

Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta. .....................

20

Diagrama 5: Exemplo de configurao de um filtro IIR. ...............................................

21

Grfico 3: Exemplo de filtro com o comando filtrer. .....................................................

22

Desenho 1 Detalhes do aparelho fonador humano (SIMES, 1999). .........................

25

Desenho 2 Localizao das cordas vocais (SENDA, 2005)...........................................

26

Diagrama 6 Modelo de sntese de voz .........................................................................

27

Grfico 4 Variaes espectrais do pitch da vogal /a/ (PICKETT, 1999) ....................

28

Diagrama 7 Trato vocal modelado em tubos de mesmo comprimento


(MCCLELLAN, 1998) ...................................................................................................... 29
Desenho 3 Representao esquemtica do sistema vocal
(RABINER; SCHAFER, 1978) ......................................................... 30
Desenho 4 - Aproximao das cordas vocais (SENDA, 2005). ......................................

30

Diagrama 8 Sistema de predio (ABRANTES, 2000). .............................................

33

Grfico 5 Janela de Hamming nos domnios (a) do tempo e (b) da freqncia...........

40

Grfico 6 Janela retangular nos domnios (a) do tempo e (b) da freqncia ...............

40

Grfico 7 Sinal original da palavra chiado utilizada nas simulaes. ......................

42

Grfico 8 (a) Sinal original; sinal reconstrudo a partir do sinal de erro


digitalizado com (b) 8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits. ............................................... 43
Grfico 9 Trecho da msica Paraso de Cludio Zoli (a) Sinal original;
(b)Sinal Predito (c)Sinal de erro; (d)Sinal reconstitudo.................................................... 45

8
Grfico 10 Sinais referentes palavra chiado (a) originalmente gravado,
(b) sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado a partir
de rudo branco. ....................................................... 46
Grfico 11 Erro entre sinal original e (a) sinal sintetizado por meio de excitao
peridica de 150Hz e (b) sinal sintetizado por meio de rudo branco.................................. 47
Grfico 12 Espectro dos sinais referentes palavra chiado (a) originalmente
gravado, (b) sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado
a partir de rudo branco. ....................................................................................................... 48
Grfico 13 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de seqncia impulsiva peridica com freqncia fundamental
de 300Hz e utilizando-se 10 coeficientes de predio, (c) utilizando-se 80 coeficientes
de predio e (d) utilizando-se 160 coeficientes de predio.......................................... 49
Grfico 14 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de rudo branco e utilizando-se 10 coeficientes de predio,
(c) sintetizado com 80 coeficientes de predio e (d) sintetizado com 160 coeficientes
de predio...................... 50

9
SUMRIO
1 INTRODUO ................................................................................................................... 10
2 SINAIS E SISTEMAS DE TEMPO DISCRETO ............................................................. 12
2.1 SINAIS DE TEMPO DISCRETO ...................................................................................... 12
2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTNUO ................................................. 17
2.3 FILTROS DIGITAIS.......................................................................................................... 19
2.3.1 Filtros FIR ....................................................................................................................... 19
2.3.2 Filtros IIR ........................................................................................................................ 20
3.1 O TRATO VOCAL ............................................................................................................ 24
3.2 FUNDAMENTOS DE SINAIS DE VOZ .......................................................................... 25
3.3 GERAO DO SOM NO TRATO VOCAL .................................................................... 29
4 PREDIO E SNTESE .................................................................................................... 32
4.1 CONCEITOS BSICOS DA PREDIO ........................................................................ 32
4.2 O ALGORITMO LMS ....................................................................................................... 33
4.3 CONCEITOS BSICOS DE SNTESE DE VOZ ............................................................. 37
5 SIMULAES COMPUTACIONAIS E ANLISE DE RESULTADOS .................... 41
5.1 SIMULAO DE PREDIO ......................................................................................... 41
5.2 SIMULAO DE SNTESE DE SINAIS DE VOZ ......................................................... 45
6 CONCLUSES.................................................................................................................... 52
REFERNCIAS .................................................................................................................. 54

10
1 INTRODUO

Com o crescimento da sociedade moderna e a grande demanda por


informaes foram desenvolvidos mecanismos de transmisso de sinais de voz em que so
empregadas tcnicas para a reduo de taxas de dados mantendo-se a inteligibilidade do sinal
transmitido (STONICK; BRADLEY, 1996).
Por meio de tcnicas de processamento digital de sinais possvel ampliar a
capacidade dos atuais sistemas de comunicao sem a necessidade de alterar o meio fsico
pelo qual os sinais so transmitidos. Estas tcnicas no esto limitadas apenas reduo das
taxas transmitidas, sendo utilizadas tambm na gerao de sinais de voz sintticos, ou seja,
com os atuais sistemas de processamento de sinais possvel gerar, a partir de coeficientes,
sinais de fala por exemplo.
A sntese de voz pode ser empregada para auxiliar pessoas com deficincia de
fala a se comunicarem e falar ao telefone substituindo o seu sistema fonador, alm de serem
utilizados em sistemas de assistncia eletrnica como os atendentes automticos dos servios
por telefone (SADAOKI, 1995).
Atravs do estudo da fala humana possvel determinar e modelar um sistema
digital similar ao trato vocal humano capaz de simular atividades de fala. Este um dos temas
abordados nas explicaes e simulaes computacionais contidas neste trabalho.
Com o apoio de pacotes e programas no Matlab so simulados sistemas de
predio e sntese de sinais, alm de serem analisados os benefcios desta tcnica. Atravs da
anlise dos resultados obtidos possvel entender porque estas tcnicas so amplamente usada
nos meios de comunicao.

11
Para tornar este trabalho acessvel a um pblico mais amplo, so introduzidos
alguns conceitos bsicos de processamento digital de sinais para tornar mais fcil a
compreenso das principais etapas dos processos de predio e sntese de sinais de voz.
No Captulo 2 so introduzidos os conceitos de sinais e sistemas de tempo
discreto, suas principais propriedades, caractersticas e formas de representao. Ainda neste
captulo apresentado o processo de discretizao e conceitos de filtros digitais.
No Captulo 3 so apresentados conceitos da anatomia humana para descrever
o funcionamento do trato vocal e seus componentes. Introduz-se os conceitos bsicos
necessrios para o entendimento do processo de gerao de voz.
No Captulo 4 so descritos os conceitos de predio e sntese dos sinais de
voz explicando as tcnicas utilizadas nestes processos, para apoiar as simulaes e anlises do
Captulo 5.
O captulo 6 encerra o trabalho com as concluses dos autores considerando
anlises realizadas a partir das simulaes efetuadas e com os estudos realizados no decorrer
deste trabalho.

12
2 SINAIS E SISTEMAS DE TEMPO DISCRETO

Neste captulo so apresentados princpios de sistemas e sinais de tempo


discreto. Devido aos sistemas de predio e sntese discutidos neste trabalho serem
implementados de forma digital, os sinais envolvidos neste processo so tratados de forma
discreta. Tendo isso em mente, abordado o processo de amostragem. Alm disso, so
discutidos aspectos bsicos de filtros digitais.

2.1 SINAIS DE TEMPO DISCRETO

Sinal definido como uma funo que varia com o tempo, espao ou qualquer
varivel independente (PROAKIS; MANOLAKIS, 1996).
Uma das possveis maneiras de classificar os sinais como sinais de tempo
contnuo e discreto.
Um sinal de tempo contnuo aquele que possui valor para qualquer instante
do tempo como, por exemplo, a tenso eltrica que um microfone produz como resposta a fala
de uma palavra (GIROD, 2003).
Um sinal de tempo discreto aquele que pode ser representado por uma
seqncia de nmeros. Cada nmero x(n ) corresponde amplitude do sinal em um instante

nT S , sendo que n um nmero inteiro e T S , o perodo de amostragem, representa o


intervalo entre dois pontos sucessivos nos quais o sinal definido (DINIZ, 2004).
Um exemplo de sinal de tempo discreto


x(n ) = cos n ,
10

(1)

13
representado no Grfico 1 no intervalo 0 n 39 .

1
0.8
0.6
0.4

x(n)

0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0

10

15

20
n

25

30

35

40

Grfico 1: Exemplo de um sinal de tempo discreto.

Os sinais de voz, apesar de serem sinais de tempo continuo, tambm podem ser
representados como sinais no tempo discreto. Para isso preciso amostr-los seguindo
algumas regras que so estudadas na Seo 2.2.
Um sistema pode ser descrito como um operador, que transforma um ou mais
sinais de entrada, tambm chamados de sinais de excitao, no sinal de sada ou de resposta
(HAYES, 1999). Um sistema de tempo discreto manipula sinais no tempo discreto. Um
sistema H [] com entrada x(n ) e sada y (n ) representado como mostrado no Diagrama 1.

x(n )

H []

y (n ) = H [x(n )]

Diagrama 1: Representao em diagrama de blocos de um sistema

14
Um exemplo de aplicao do conceito de sistema a gerao de voz, na qual
um sinal excita o trato vocal, que representa um sistema. J o processamento dos sinais de fala
realizado pelo sistema composto pelos ouvidos, caminhos auditivos e nosso crebro. Nestas
situaes, os sistemas que so responsveis pela sntese e analise dos sinais so de natureza
biolgica. Eles tambm podem ser realizados usando sistemas eletrnicos que tentam simular
suas contrapartes biolgicas. (HAYKIN; VAN VEEN, 2001).
Os sistemas de tempo discreto podem ser descritos por equaes de diferenas.
A entrada x(n ) e a sada y (n ) de um sistema descrito por uma equao de diferenas linear se
relacionam por
N

a y(n i ) b x(n i ) = 0 .
i =0

i =0

(2)

O nmero inteiro N chamado de ordem da equao de diferenas e


corresponde ao atraso mximo que envolve a sada do sistema. Por exemplo, uma equao de
diferenas de segunda ordem pode ser representada por
a 0 y (n ) + a1 y (n 1) + a 2 y (n 2) = b0 x(n ) + b1 x(n 1) .

(3)

As equaes de diferenas so facilmente reorganizadas para se obter frmulas


recursivas para computar a sada atual do sistema a partir do sinal de entrada e das sadas
passadas. Reescrevendo a Equao (3) de forma a isolar y (n ) , chega-se a

y (n ) =

1
(b0 x(n ) + b1 x(n 1) a1 y(n 1) a2 y(n 2)) .
a0

(4)

Esta equao indica como obter y (n ) a partir da entrada e dos valores passados
a sada. Essas equaes so freqentemente usadas para implementar sistemas de tempo
discretos em um computador (HAYKIN; VAN VEEN, 2001).

15
O Diagrama 2 representa a funo utilizada para realizar um retardo de uma
amostra no tempo discreto utilizada no Diagrama 3.

x(n )

z 1

y (n ) = x(n 1)

Diagrama 2 Funo de sistema do retardo discreto (GIROD, 2003).

Como exemplo de um sistema pratico e sua equao de diferenas equivalente


apresentado no Diagrama 3 um sistema gerador de eco.
1
1
2

x(n )

z 1

1
4

z 1

1
8

z 1
z 1

y (n )

1
16

Diagrama 3 Sistema gerador de eco.

Este diagrama representa um sistema com entrada x(n ) e sada


y (n ) = H [x(n )] = x(n ) +

1
1
1
1
x(n 1) + x(n 2 ) + x(n 3) + x(n 4)
2
4
8
16

(5)

considerando que o sinal de entrada um sinal de voz, pode-se ver que a sada a somatria
do sinal original com sinais atrasados dele em amplitudes menores.

16
Uma outra maneira de caracterizar o comportamento de qualquer sistema
Linear e Invariante no Tempo (LIT) utilizar sua resposta impulsiva, isto , a resposta do
sistema quando se tem como entrada um impulso unitrio.
Um sistema LIT caso satisfaa os princpios da superposio,
homogeneidade e invarincia no tempo, descritos a seguir.

Princpio da superposio:
Seja um sistema y (n ) = H (x(n )) e sejam y1 (n ) a resposta entrada x1 (n ) e y 2 (n ) a
resposta entrada x 2 (n ) . Um sistema satisfaz o princpio da superposio se, quando
se aplicar a entrada x s (n ) = x1 (n ) + x 2 (n ) , sua sada y s (n ) = y1 (n ) + y 2 (n ) .

Princpio da homogeneidade:
Seja um sistema y (n ) = H ( x(n )) e sejam y1 (n ) a resposta entrada x1 (n ) . Um sistema
satisfaz o princpio da homogeneidade se, quando aplicarmos a ele a
entrada x h (n ) = ax1 (n ) , a R * , sua sada y h (n ) = ay1 (n ) .

Princpio da invarincia no tempo:


Um sistema invariante no tempo se um retardo ou avano de tempo do sinal de
entrada levar a um deslocamento idntico no sinal de sada, ou seja, suas
caractersticas no se modificam com o tempo.

Atravs da Transformada Z da resposta impulsiva, pode-se definir a funo de


transferncia do sistema, ou seja, fornecer a descrio das caractersticas das funes de
entrada e sada de sistemas de tempo discreto (HAYKIN, VAN VEEN, 2001). A funo de
transferncia pode ser obtida, tambm, por meio das equaes de diferenas do sistema, como
mostrado em diversos livros de anlises de sinais(LATHI, 1998).

17
2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTNUO

Para processar um sinal de tempo contnuo usando um sistema de tempo


discreto preciso primeiramente convert-lo em um sinal no domnio do tempo discreto. Esta
converso precisa ser feita de tal forma que seja possvel restaurar o sinal no tempo continuo a
partir de suas amostras.
Considerando um sinal de tempo contnuo x a (t ) , pode-se representar esta
funo como um sinal de tempo discreto tomando-se valores de x a (t ) em intervalos de TS
segundos formando x(n ) = x a (nTS ) . Este processo consiste em retirar amostras instantneas
dos valores da funo x a (t ) a cada perodo de tempo TS que chamado de perodo de
amostragem.

Costuma-se especificar a amostragem de um sinal no em funo de seu


perodo, mas sim da taxa ou freqncia de amostragem f S que dada pelo inverso do
perodo, f S =

1
.
TS
Um exemplo de amostragem de um sinal apresentado no Grfico 2, em que

no grfico (a) apresentado o sinal original no tempo continuo e no grfico (b), o sinal
amostrado com TS = 0,2 segundos.

18

x(t)

0.5
0
-0.5
-1
0

4
t

x(n)

0.5
0
-0.5
-1
5

10

15

20
n

25

30

35

40

Grfico 2: Exemplo de um sinal amostrado.

Quanto maior a taxa de variao de x a (t ) , menor deve ser o valor de TS para


que o sinal amostrado possa ser reconstrudo para o tempo continuo no final do
processamento sem perder suas caractersticas, ou seja, todas as variaes no sinal devem ser
conservadas quando ele amostrado. Para assegurar isso, a taxa de amostragem deve ser de
no mnimo duas vezes o valor da maior freqncia contida no sinal a ser amostrado. Esta taxa
de amostragem conhecida como taxa de Nyquist (STONICK; BRADLEY, 1996).

19
2.3 FILTROS DIGITAIS

Filtro um nome genrico que representa um sistema linear invariante no


tempo (LIT), projetado para uma determinada tarefa de discriminao ou de seleo de
freqncias (HAYKIN; VAN VEEN, 2001).
Uma forma importante de classificar os filtros digitais em filtros com
resposta impulsiva finita (FIR Finite Impulse Response) ou infinita (IIR Infinite Impulse
Response). Estes conceitos so abordados em detalhes a seguir.

2.3.1 Filtros FIR

Filtros digitais de Resposta ao Impulso de durao Finita (FIR Finite Impulse


Response), tm sua operao regida por equaes lineares de diferenas com coeficientes

constantes de natureza no-recursiva. Para uma entrada x(n ) , a sada dada pela convoluo
entre o sinal de entrada e os coeficientes de filtro, ou seja,
y (n ) =

M 1

h(k )x(n k )

(6)

k =0

onde M o nmero de coeficientes do filtro.


A funo de transferncia de um filtro FIR um polinmio em z 1 :
H (z ) =

M 1

h(k )z

(7)

k =0

Os filtros FIR podem implementar uma resposta em mdulo desejada com


resposta em fase exatamente linear, isto , sem nenhuma distoro de fase (HAYKIN; VAN
VEEN, 2001). Esta propriedade muito til para processamento de sinais de fala, pois

20
mantm um alinhamento de tempo preciso. So usualmente implementados atravs da forma
direta como apresentado na Diagrama 4.

x(n )

z 1

z 1

h(0)

h(1)

......

z 1
h(2 )

h(3)

z 1
h(M 2 )

h(M 1)

+
y (n )

Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta.

2.3.2 Filtros IIR

Filtros digitais de Resposta ao Impulso de durao Infinita (IIR Infinite


Impulse Response), tm sua operao regida por equaes lineares de diferenas com

coeficientes constantes de natureza recursiva. Para uma entrada x(n ) , a sada calculada
como:
y (n ) =

N
1 M

bk x(n k ) a k y (n k )
a 0 k =0
k =1

(8)

Um filtro IIR tem funo de transferncia


M

H (z ) =

b z

k =0
N

k =0

(9)

Os filtros IIR resultam em comprimentos de filtro menor do que o do filtro FIR


correspondente, porm, esta melhoria obtida s custas de distoro de fase e um transitrio
que no se limita a um intervalo de tempo finito (HAYKIN; VAN VEEN, 2001). Os filtros

21
IIR podem ser implementados de diferentes formas (ABRANTES, 2000), a forma direta
apresentada na Diagrama 5:

Diagrama 5: Exemplo de configurao de um filtro IIR

Para a implementao de filtros digitais possvel se utilizar a funo filter do


Matlab. Esta funo permite a filtragem mais conveniente atravs de um filtro IIR.

22
Apenas para exemplificar a utilizao desta funo do Matlab, a partir de um
sinal com duas senides de freqncias 5 e 80 Hz e freqncia de amostragem 200 Hz, ser
implantado um filtro do tipo Butterworth de 2 ordem.

Sinal de Entrada
2

amplitude

1
0
-1
-2

0.1

0.2

0.3

0.4

0.5
0.6
tempo (s)

0.7

0.8

0.9

0.7

0.8

0.9

Sinal Filtrado

amplitude

1
0
-1
-2

0.1

0.2

0.3

0.4

0.5
0.6
tempo (s)

Grfico 3: Exemplo de filtro com o comando filter.

Os sinais apresentados no Grfico 3 foram gerados no Matlab a partir da


seguinte seqncia de comandos:
fs=200;
t=0:1/fs:1;
T=1/fs;
x=sin(2*pi*5*t)+sin(2*pi*80*t);
subplot(2,1,1)
plot(t,x)
grid on
title('Sinal de Entrada')
xlabel('tempo (s)')

% Freqncia de amostragem
% Tempo de amostragem
% sinal de entrada

23
ylabel('amplitude')
[B,A]=butter(2,20/(fs/2));
y=filter(B,A,x);
subplot(2,1,2)
plot(t,y,'r')
title('Sinal Filtrado')
xlabel('tempo (s)')
ylabel('amplitude')

% Determinar os coeficientes

O programa citado acima, calcula os coeficientes de um filtro Butterworth


utilizando a funo butter do Matlab, e o sinal filtrado calculado com a funo filter, tendo
como entrada os coeficientes calculados.

24
3 O trato vocal e os sinais de voz

Este captulo prope-se a apresentar as estruturas que compem o aparelho


fonador humano e introduzir os conceitos bsicos necessrios para o entendimento do
processo de gerao de voz humana e, posteriormente, sinttica.

3.1 O TRATO VOCAL

Define-se trato por rea, extenso, regio ou trecho (GREGORIM; 2002).


Logo, pode-se entender trato voclico como a regio em que ocorre a produo de voz.
O trato vocal tem incio na abertura entre as pregas ou cordas vocais, ou glote,
e termina nos lbios, sendo formado assim pela faringe, ou seja, pela conexo entre o esfago
e a boca, e pela boca ou cavidade oral. O comprimento mdio do trato vocal masculino de
aproximadamente 17cm, com rea de seo transversal determinada pela posio da lngua,
lbios, maxilar e vu palatino variando entre zero, ou seja, fechamento completo, at cerca de
20cm2 (SMITH, 1997).
O trato nasal inicia-se no vu palatino e termina nas narinas. Quando o vu
palatino baixado, o trato nasal acoplado acusticamente ao trato vocal. Com a total
obstruo de algum ponto ao longo da passagem de ar h a produo de sons nasais de voz,
tais como /m/ e /n/. A cavidade oral, embora constrita, permanece acusticamente acoplada
faringe e, dessa forma, a boca atua como uma cavidade ressonante (SMITH, 1997).
Com o auxlio do Desenho 1 pode-se identificar os principais componentes dos
tratos vocal e nasal constituintes do aparelho fonador humano.

25

Desenho 1 Detalhes do aparelho fonador humano (SIMES, 1999).

3.2 FUNDAMENTOS DE SINAIS DE VOZ

Sinais de voz so compostos por seqncias de sons. Estes sons e a transio


entre eles servem como uma representao simblica da informao. A combinao destes
sons (smbolos) governada pelas regras da linguagem. O estudo destas regras e de suas
implicaes na comunicao humana chamado de Lingstica e, o estudo e classificao dos
sons de voz chamado de Fontica (RABINER; SCHAFER, 1978).
possvel classificar os sons produzidos pela fala humana como voclicos ou
fricativos.

Sons voclicos ocorrem quando o ar forado pelos pulmes, atravs das


cordas vocais, em direo boca ou nariz, por onde escapa. As cordas vocais so formadas
por dois pares de msculos esticados transversalmente ao fluxo de ar, e localizam-se entre a
traquia e a laringe, conforme ilustrado no Desenho 1. Em resposta variao de tenso
destes msculos, as cordas vocais vibram a freqncias de 50 a 1000Hz, resultando em sopros

26
peridicos de ar injetado na traquia (SMITH, 1997). O Desenho 2 ilustra a localizao das
cordas vocais.

Desenho 2 Localizao das cordas vocais (SENDA, 2005).


O som produzido ao se pronunciar uma vogal um exemplo de som voclico,
que se pode representar matematicamente como a sada de um filtro que tenha como entrada
uma seqncia peridica de impulsos, com freqncia ajustvel.
Em contra partida, sons fricativos ou no-voclicos originam-se quando ocorre
a constrio de algum ponto do trato vocal, geralmente em direo boca, e o ar forado
atravs da constrio a uma velocidade suficientemente grande para produzir turbulncia,
criando uma fonte de rudo que excita o trato vocal (RABINER; SCHAFER, 1978). Sons
fricativos so aqueles cuja pronncia inclui: /ch/, /f/, /s/, /v/, /x/, e /z/. No modelo ilustrado
pelo Diagrama 6, representa-se a gerao de sons fricativos ou no-voclicos por meio de um
gerador de rudo.
Para curtos intervalos de tempo, de 2 a 40ms, pode-se modelar a voz com o
auxlio de trs parmetros: (a) a seleo de excitao por seqncia de impulsos peridica ou

27
por rudo gaussiano, (b) a freqncia fundamental (pitch) da excitao peridica, quando
utilizada e (c) os coeficientes de um filtro recursivo linear simulando o trato vocal. Pode-se,
ento, sintetizar voz atualizando-se continuamente estes parmetros cerca de 40 vezes por
segundo. Embora a qualidade sonora desta aproximao seja baixa, soando mecnico em vez
de humano, requer baixa taxa de atualizao de dados (SMITH, 1997). O processo de sntese
de voz estudado mais detalhadamente no Captulo 4.

Gerador
de Rudo

no-voclicos
Filtro
Digital
voclicos

Gerador de
Impulsos

voz sinttica

Resposta do
trato vocal

pitch
Diagrama 6 Modelo de sntese de voz
O Pitch representa o perodo de interrupo do fluxo de ar que excita o trato
vocal causado pela vibrao das cordas vocais quando passado pela glote. Quanto maior for
esse perodo, menor ser o espao entre as harmnicas e, conseqentemente menor ser a
freqncia fundamental, resultando em um som mais grave. Por outro lado, se esse perodo
for muito pequeno, a freqncia fundamental ser alta, logo, produzindo som mais agudo
(SENDA, 2005). O Grfico 4 mostra a variao do pitch para a vogal /a/.

28

Grfico 4 Variaes espectrais do pitch da vogal /a/ (PICKETT, 1999)

Pode-se modelar os tratos vocal e nasal como tubos de seco transversal no


uniforme, como ilustrado no Diagrama 7. Conforme o som se propaga atravs destes tubos, o
espectro de freqncia moldado de acordo com a seletividade de freqncia do tubo,
produzindo um efeito semelhante ressonncia observada em instrumentos de sopro. No
contexto de produo de voz, a freqncia de ressonncia do trato vocal chamada de
freqncia formante ou simplesmente formante (PICKETT, 1999).

As freqncias formantes dependem do formato e das dimenses do trato


vocal, pois formatos diferentes implicam em diferentes conjuntos de freqncias formantes,
podendo-se produzir diferentes sons por meio da alterao do formato do trato vocal. Assim,
as propriedades espectrais dos sinais de voz variam com o tempo conforme o formato do trato
vocal se altera.

29

Glote

Lbios

Diagrama 7 Trato vocal modelado em tubos de mesmo comprimento


(MCCLELLAN, 1998)
A dependncia da rea de seco transversal ao longo do trato vocal chamada
Funo rea do trato vocal. A funo rea para uma vogal, por exemplo, determinada
principalmente pela posio da lngua, mas as posies do maxilar, lbios e, em menor
proporo, a do vu palatino tambm influenciam no som resultante.

3.3 GERAO DO SOM NO TRATO VOCAL

Um modelo detalhado do sistema vocal deve envolver os pulmes, brnquios,


traquia, glote e o trato vocal. O primeiro trabalho abrangente em busca de um modelo fsico
detalhado para a gerao de som no trato vocal foi realizado por Flanagan, no final da dcada
de 1960 (CARLSON, 1995). Pesquisas subseqentes produziam um modelo mais refinado,
fornecendo representao mais detalhada do processo de gerao de sons voclicos e novoclicos. Este modelo se baseia em mecnica clssica e mecnica dos fludos, mas est alm
do propsito deste trabalho. Entretanto, uma discusso qualitativa sobre os princpios bsicos
da gerao de som til para mostrar os modelos mais simples amplamente utilizados como
base no processamento de voz.

30
Pode-se explicar a vibrao das cordas vocais, para o caso de sons voclicos,
com a ajuda da representao esquemtica do sistema vocal mostrada o Desenho 3.

Desenho 3 Representao esquemtica do sistema vocal (RABINER; SCHAFER, 1978)


Com o aumento da presso nos pulmes, o ar flui para fora destes e atravs das
cordas vocais (glote). De acordo com a lei de Bernoulli, quando um fluido se desloca por um
orifcio, a presso menor na constrio do que nas reas adjacentes. Se a tenso nas cordas
vocais for ajustada adequadamente, a presso reduzida permite que as cordas se toquem,
bloqueando completamente o fluxo de ar. Esta situao est representada pelas linhas
pontilhadas no Desenho 3. Como resultado deste bloqueio no fluxo de ar, a presso sob as
cordas vocais aumenta at finalmente atingir um nvel suficiente para forar a abertura das
cordas vocais e, assim, permitir o fluxo de ar atravs da glote. A presso na glote cai
novamente e o ciclo se repete. A figura 3.6 ilustra as cordas vocais em diferentes condies.

Desenho 4 - Aproximao das cordas vocais (SENDA, 2005).

31
Assim, as cordas vocais entram em uma condio de oscilao sustentada. A
taxa com que a glote abre e fecha controlada pela presso do ar nos pulmes, pela tenso nas
cordas vocais e pela rigidez das mesmas, alm da rea de abertura da glote na condio de
repouso. Estes so os parmetros de controle de um modelo detalhado para o comportamento
das cordas vocais. Tais modelos devem tambm conter a influncia do trato vocal uma vez
que variaes de presso no trato vocal interferem nas variaes de presso na glote.

32
4 PREDIO E SNTESE

O modelo de predio amplamente utilizado em telecomunicaes para


aumentar o nmero de sinais de voz que podem ser transmitidos por um canal (STONICK;
BRADLEY, 1996). A sntese a forma utilizada para a partir dos coeficientes de predio e
do sinal de erro se reconstruir o sinal e torn-lo audvel novamente.
A seguir so apresentados os conceitos bsicos da predio de sinais de voz e o
funcionamento de um dos algoritmos que pode ser utilizado para predio.

4.1 CONCEITOS BSICOS DA PREDIO

Uma vez que no tempo discreto uma amostra de voz muito parecida com a
amostra anterior, um modelo matemtico de equaes de diferenas pode ser desenvolvido
para estimar o valor da amostra corrente como uma combinao linear das amostras
anteriores.
Sendo s (n ) um sinal de voz amostrado pode-se adotar,
p

s(n ) = i s (n i )

(10)

i =1

em que s(n ) a estimao do sinal de voz s (n ) para a amostra n . O erro entre o sinal original
e o estimado :
e(n ) = s (n ) s(n )

(11)

Substituindo a Eq. (10) na Eq. (11) pode se obter o modelo de equao de


diferena para o processo de predio de voz expresso por

33
p

s (n ) i s(n i ) = e(n )

(12)

i =1

Se os coeficientes i so conhecidos pelo transmissor e pelo receptor ento


apenas o sinal de erro precisa ser transmitido e o sinal de voz pode ser reconstrudo utilizando
a equao de diferenas (12). No transmissor s (n ) a entrada do filtro de predio e e(n ) a
sada, j no receptor a situao inversa. A transmisso do sinal de erro resulta em uma
economia substancial de banda (STONICK; BRADLEY, 1996), como fica demonstrado nas
simulaes do Capitulo 5.
O Diagrama 8 apresenta o sistema de predio na forma de blocos para melhor
exemplificar o procedimento utilizado por esta tcnica.

s (n )

Atraso

Processador
de Predio

s(n ) -

e(n )

Diagrama 8 Sistema de predio (ABRANTES, 2000).

4.2 O ALGORITMO LMS

Um dos mtodos utilizados para se realizar a predio a utilizao do


algoritmo de estimao LMS (Least Mean Square Mnimo Erro Quadrtico) que tenta

34
minimizar o erro entre o sinal predito e o original. Nessa seo detalha-se o princpio deste
algoritmo. As dedues baseiam-se na referncia (LATHI, 1998).
Freqentemente tem-se interesse em determinar a natureza de dependncia
entre dois sinais. Quando duas variveis randmicas x e y so correlacionadas, ento uma
possui informaes da outra. Assim possvel estimar o valor de y pelo conhecimento do
valor de x . A estimativa de y ser dada pela varivel aleatria y . O valor estimado de y
em geral diferente do valor verdadeiro de y . Uma das formas de se obter uma boa estimao
de y minimizar o erro mdio quadrado e 2 dado por:
2
e 2 = ( y y )

(13)

Em geral a melhor estimativa de y uma funo no-linear de x . Pode-se


simplificar o problema fazendo de y uma funo linear de x na forma:

y = ax

(14)

2
2
e 2 = ( y y ) = ( y ax ) = y 2 + a 2 x 2 2a xy

(15)

assumindo que x = 0 . Neste caso,

Para minimizar e 2 , tem-se


e 2
= 2a x 2 2 xy = 0
a

(16)

Portanto,

a=

xy
x2

R XY
R XX

em que R xx = x 2 , R yy = y 2 e R xy = xy . Para este valor de a ,

(17)

35

e = y ax = y

R xy
R xx

(18)

Portanto,
R xy
R

= xy xy x 2
xe = x y
R xx
R xx

(19)

Uma vez que xy = R xy e xx = x 2 = R xx , tem-se


xe = R xy R xy = 0

(20)

Portanto, o dado x e o erro e so ortogonais, ou seja, seu produto interno igual a zero..
O erro mdio quadrado dado por:
e = ( y ax ) = y 2a xy + a x = R yy
2

2 Rxy2
Rxx

Rxy2
Rxx

= R yy

Rxy2
Rxx

= R yy aRxy

(21)

Se a varivel randmica x0 relacionada com n variveis randmicas x1 , x 2 ,


..., x n ento pode-se estimar x0 como uma combinao linear de x1 , x 2 , ..., x n :
n

x o = a1 x1 + a 2 x 2 + ... + a n x n = ai xi .

(22)

i =1

O erro mdio quadrado dado por

e 2 = [x0 (a1 x1 + a 2 x 2 + ... + a n x n )] .


2

(23)

Para minimizar e 2 , deve-se fazer


e 2 e 2
e 2
=
= ... =
=0
a1 a 2
a n

isto

(24)

36
e 2

[x0 (a1 x1 + a 2 x2 + ... + a n xn )]2 = 0


=
a1 a 2

(25)

diferenciando o termo em ai , tem-se


e 2
2
= 2[x0 (a1 x1 + a 2 x 2 + ... + a n x n )] = 0
a1

(26)

R0i = a1 Ri1 + a 2 Ri 2 + ... + a n Rin

(27)

ou

em que Rij = xi x j

Diferenciando e 2 em relao a a1 , a 2 , ..., a n e igualando a zero, obtm-se n


equaes simultneas na forma da Eq. (27). As constantes desejadas a1 , a 2 , ..., a n podem ser
encontradas atravs da matriz mostrada abaixo:

a1 R11
a R
2 = 21
: ...

an Rn1

R12
R22
...
Rn 2

... R1n
... R2 n
... ...

... Rnn

R01
R
02
:

R0 n

(28)

Atravs desta matriz possvel alimentar o filtro de predio para encontrar os


coeficientes que so enviados junto com o sinal de erro na mensagem transmitida, onde os
coeficientes a n da matriz so os coeficientes n do filtro de predio.

37
4.3 CONCEITOS BSICOS DE SNTESE DE VOZ

Utilizam-se duas aproximaes para gerao de voz: gravao digital e


simulao do trato vocal (SMITH, 1997). No caso de gravao digital, a voz de um falante
humano digitalizada e armazenada, geralmente sob uma forma comprimida. Durante a
reproduo, os dados armazenados so descomprimidos e convertidos em sinal analgico. J a
simulao do trato vocal mais complexa, pois tenta imitar o mecanismo fsico pelo qual a
voz humana gerada. Este trabalho voltado simulao do trato vocal.
A fim de se modelar o processo de sntese de voz, pode-se utilizar o modelo
bsico de predio mostrado na equao (12) para se criar um sinal ~
s (n) que imite o sinal
s (n) originalmente amostrado. Pode-se, ento, substituir o sinal de erro e(n) por um sinal
x(n) de entrada, multiplicado por um ganho G . Utilizando-se a mesma estrutura da equao
de diferenas para a predio de voz, temos:
p

~
s (n ) i ~
s (n i ) = Gx(n )

(29)

i =1

Se Gx(n) = e(n) , onde G um ganho unitrio, ento o sinal ~


s (n) sintetizado
dever ser exatamente igual ao sinal originalmente amostrado. Neste caso tem-se a
reconstruo do sinal em vez da sntese deste.
Tipicamente os coeficientes i variam a cada 10 a 20ms de acordo com as
mudanas do trato vocal para a produo dos diferentes sons. Para a sntese, aplica-se uma
seqncia de excitao ao modelo que contm os coeficientes apropriados a cada intervalo de
tempo a fim de se gerar a seqncia de sons correspondente ao discurso que se deseja realizar.

38
Pode-se encontrar a resposta caracterstica para uma equao de diferenas a
partir de suas razes caractersticas ou plos do sistema. possvel mostrar que uma resposta
na forma z n , em que z um nmero complexo, satisfaz uma equao de diferenas com
coeficientes constantes e com entrada zero. Assim z N y (n) , para y (n) = z n , corresponde a
uma verso atrasada de y (n) , ou seja, y (n N ) . Tomando-se a entrada nula e substituindo-se
cada atraso na equao de diferenas de predio (12) ou de sntese (29) por uma potncia de
z 1 , tem-se como resultado um polinmio caracterstico, mostrado na equao (30), cujas
razes so chamadas de razes caractersticas, e definem a resposta caracterstica do sistema.
p

p 1

i =1

i =0

Q ( z ) = 1 i z i = ( z z i )

(30)

Uma vez que a equao de ordem p , existem p razes caractersticas z i .


Geralmente para voz masculina, p = 10 , e as razes formam pares complexos conjugados de
forma que todos os coeficientes i assumem valores reais (STONICK; BRADLEY, 1996).
A sntese de voz utilizando o modelo de equaes de diferenas requer que,
primeiramente, um segmento de voz real seja analisado para que se possa determinar quais
coeficientes i so mais apropriados para cada segmento de 10ms. Para cada um destes
segmentos deve-se calcular um conjunto de coeficientes i . O processo de extrao de um
bloco de 10ms do sinal original chamado janelamento.
O janelamento matematicamente equivalente multiplicao do sinal
completo por uma funo retangular de valor igual unidade na regio de interesse e valor
nulo nas demais regies. Esta funo chamada de janela retangular e, nas bordas da regio
de dados h uma transio abrupta de sinal para zero, o que pode causar problemas de anlise
(STONICK; BRADLEY, 1996). Uma forma mais eficiente de janelamento multiplicar o
sinal por uma funo que tenha uma transio mais suave. A funo mais comum a chamada
janela de Hamming.

39
Para que se possa compreender a razo pela qual prefervel utilizar a janela
de Hamming em vez da janela quadrada, deve-se observar o impacto do janelamento no
domnio da freqncia. Uma vez que o janelamento de um sinal corresponde operao de
multiplicao no domnio do tempo, no domnio da freqncia corresponder convoluo da
Transformada de Fourier da funo da janela com o espectro de freqncia do segmento do
sinal amostrado. Se a transformada da funo da janela se aproximar de um impulso em
freqncia, ento a operao de convoluo resultar em um espectro idntico ao espectro do
sinal original. Entretanto, quanto menos a transformada da janela se assemelhar a um pulso,
maior ser a distoro do espectro do sinal original.
Os grficos 4.1 e 4.2 ilustram as janelas de Hamming e a janela quadrada,
respectivamente nos domnios do tempo e da freqncia. Deve-se perceber que a janela de
Hamming apresenta uma queda maior antes de se estabilizar, chamada de atenuao de banda
de rejeio, mas seu lbulo principal praticamente duas vezes maior que o da janela
retangular.
Aps o janelamento, uma anlise estatstica dos dados que determina o grau de
correlao entre as amostras adjacentes utilizada para se calcular os coeficientes que fornea
a melhor predio do sinal, isto , que minimize o erro de predio, conforme explicado na
seo 4.2. Uma vez encontrados estes coeficientes, pode-se sintetizar voz aplicando-se um
sinal apropriado de entrada ao modelo. No caso de sons voclicos, um bom modelo da fonte
para o sinal de entrada um trem de impulsos ideais a uma dada freqncia, sendo que a
freqncia determina o pitch. J no caso de sons no voclicos um bom modelo de fonte para
o sinal de entrada um rudo branco gaussiano.

40

Grfico 5 Janela de Hamming nos domnios (a) do tempo e (b) da freqncia

Grfico 6 Janela retangular nos domnios (a) do tempo e (b) da freqncia

41
5 SIMULAES COMPUTACIONAIS E ANLISE DE RESULTADOS

Neste captulo so realizadas simulaes do funcionamento de sistemas de


predio e sntese de sinais de voz atravs de programas e pacotes no Matlab.

5.1 SIMULAO DE PREDIO

Para analisar as vantagens do sistema de predio feita uma comparao


entre a taxa de bits necessria para transmitir um sinal de voz com e sem o uso da predio.
Para um sistema utilizando predio, a taxa de transmisso dada por

Taxa = N bits f S + N b N p N blo cos

(31)

em que N bits o nmero de bits utilizados na digitalizao do sinal de erro, f S a


freqncia de amostragem do sinal original, N b o nmero de bits utilizados para
representar cada coeficiente de predio, N P o nmero de coeficientes utilizados na
predio por bloco e N blo cos o nmero de blocos por segundo.
A taxa para o sinal transmitido sem o uso de predio linear calculada por

Taxao = N bits f S

(32)

em que N bits o nmero de bits utilizados na digitalizao do sinal, f S a freqncia de


amostragem do sinal original.
Nas simulaes a seguir o sinal amostrado a 8000Hz e utiliza-se N b = 16 bits
para representar os coeficientes. So utilizados N p = 10 coeficientes de predio para cada
bloco de 160 amostras do sinal a ser reconstrudo.

42
A partir destes parmetros se obtm o nmero de blocos que este sinal
dividido para realizar a predio, sendo

N blo cos =

f S 8000
=
= 50
160 160

(33)

O sinal utilizado o da palavra chiado apresentado no Grfico 7. Esta


palavra foi escolhida por conter tanto sons voclicos quanto fricativos.

Amplitude

0.5
0
-0.5
-1

1000

2000

3000

4000

5000

6000

7000

8000

9000

Grfico 7 Sinal original da palavra chiado utilizada nas simulaes

Primeiramente, deseja-se determinar quantos bits so necessrios para se


digitalizar o erro de maneira a se reconstruir o sinal original de forma inteligvel. Para isto so
analisados os sinais reconstrudos aps a digitalizao do erro como mostrado no Grfico 8.
Para determinar a quantidade mnima de bits necessria para que o sinal
reconstitudo seja inteligvel foram feitos alguns testes de audio com 10 pessoas diferentes
e, a partir destes testes, verificou-se que a maioria das pessoas conseguiram entender o que diz
o sinal com 3 bits na quantizao do sinal de erro. Alm disso, a maioria das pessoas afirmou
que o sinal possua uma qualidade razovel de sonoridade quando se utiliza 5 bits.

43
a)
Amplitude

1
0.5
0
-0.5
-1

b)
Amplitude

1
0.5
0
-0.5
-1

c)
Amplitude

1
0.5
0
-0.5
-1
1
Amplitude

d)

0.5
0
-0.5
-1
1

Amplitude

e)

0.5
0
-0.5
-1

1000

2000

3000

4000

5000

6000

7000

8000

9000

Grfico 8 (a) Sinal original; sinal reconstrudo a partir do sinal de erro digitalizado com (b)
8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits.

A partir das anlises do Grfico 8 e da audio do sinal reconstitudo pode-se


perceber que algo entre 4 e 6 bits um bom nmero para a digitalizao do sinal de erro.

44
Pode-se utilizar a Equao (31) para calcular a taxa para se transmitir este
sinal.
Taxa = 5 8000 + 16 10 50 = 48000 bps (bits por segundo).

(34)

A taxa necessria para se transmitir este sinal sem o uso de predio linear :

Taxao = 8 8000 = 64000 bps

(35)

onde se conclui que o uso da predio linear resulta em uma economia de 16000 bps ou 25%
da taxa transmitida.
Em comunicaes no so transmitidas apenas pequenas palavras e sim
dilogos complexos com uma grande seqncia de fonemas, para demonstrar que a predio
pode ser utilizada em outros tipos de sinais utilizado um trecho da msica Paraso do
Cludio Zoli. Os resultados obtidos so mostrados no Grfico 8.
Pelo Grfico 9 pode-se ver que mesmo sinais de msica podem ser
transmitidos utilizando esta tcnica e que o sinal reconstitudo tem boa qualidade. Na
transmisso deste sinal que tem 10 segundos de durao foram economizados 160000 bits.
Com a utilizao deste programa pode-se ver que a tcnica de predio muito
til para a transmisso de sinais. Os resultados da simulao mostram que h uma grande
economia na quantidade de bits necessrios para se transmitir sinais mostrando a importncia
desta tcnica para sistemas de comunicaes.
A tcnica de predio adaptativa utilizada, por exemplo, na codificao de
voz, na estimao espectral e em PCM diferencial adaptativo (ABRANTES, 2000).

45
a)
Amplitude

1
0.5
0
-0.5
-1

b)
Amplitude

1
0.5
0
-0.5
-1

c)
Amplitude

1
0.5
0
-0.5
-1

d)
Amplitude

1
0.5
0
-0.5
-1

0.2

0.4

0.6

0.8

1.2

1.4

1.6

1.8

2
5

x 10

Grfico 9 Trecho da msica Paraso de Cludio Zoli a) Sinal original;


b)Sinal Predito; c)Sinal de erro; d)Sinal reconstitudo.

5.2 SIMULAO DE SNTESE DE SINAIS DE VOZ

Retomando o Diagrama 6, as simulaes realizadas tm a finalidade de


sintetizar um sinal de voz apenas a partir de uma excitao peridica ou de rudo branco.

46
Tem-se como proposta analisar a influncia do pitch escolhido e do nmero de coeficientes
do filtro sobre os sinais sintetizados.
Para isto, utilizaram-se programas que, a partir de um sinal de voz previamente
gravado, calcula coeficientes de predio, conforme no Captulo 4, que sero utilizados como
parmetros de um filtro IIR que simula o trato vocal.
O Grficos 5.4 ilustra o sinal referente palavra chiado originalmente
gravado com freqncia de amostragem de 8kHz, o sinal sintetizado a partir de uma seqncia
peridica com freqncia de pitch igual a 150Hz, utilizando 10 coeficientes de predio, e o
sinal sintetizado a partir de uma seqncia aleatria, ou seja, a partir de rudo branco.
Amplitude

a)

Amplitude

b)

Amplitude

c)

n
Grfico 10 Sinais referentes palavra chiado (a) originalmente gravado, (b) sintetizado a
partir de excitao peridica de 150Hz e (c) sintetizado a partir de rudo branco.
Pode-se verificar a semelhana entre os sinais sintetizados em relao ao sinal
original. Em ambos os sinais sintetizados aparece uma interferncia amplificada pelo processo
de sntese, proveniente de rudos presentes no ambiente no momento em que se fez a

47
gravao. Ao se ouvir estes sinais, pode-se perceber claramente um zunido constante,
caracterizando a interferncia amplificada.
Os sinais de erro entre o sinal original e os sinais sintetizados a partir de rudo
gaussiano e excitao peridica so mostrados no Grfico 11.
a)

b)

Grfico 11 Erro entre sinal original e (a) sinal sintetizado por meio de excitao peridica
de 150Hz e (b) sinal sintetizado por meio de rudo branco.
Analisando a densidade espectral de potncia ( DEP ) destes sinais, mostrados
no Grfico 12, pode-se verificar que o pitch mais adequado para a sntese por meio de
excitao peridica de aproximadamente 300Hz, pois esta freqncia est relacionada baia
de maior amplitude do espectro do sinal original. Pode-se verificar, tambm, que o pitch de
150Hz escolhido para esta sntese corresponde baia de maior amplitude do espectro do sinal
sintetizado por excitao peridica.

Raia de maior Densidade Espectral de Potncia

48

DEP

a)

DEP

b)

DEP

c)

Freqncia ( Hz )

Grfico 12 Espectro dos sinais referentes palavra chiado (a) originalmente gravado, (b)
sintetizado a partir de excitao peridica de 150Hz e (c) sintetizado a partir de rudo branco.
Desta forma, se sintetizarmos um sinal utilizando excitao peridica com
pitch de 300Hz, obteremos como resultado um sinal com caractersticas mais prximas do
sinal original.
A fim de se analisar a influncia do pitch escolhido sobre os sinais
sintetizados, gerou-se sinais com pitch variando de 50 a 950 Hz. Verificou-se que sinais
sintetizados com pitch abaixo de 550Hz, quando ouvidos, no apresentam diferena marcante
entre si, podendo muitas vezes ser confundidos.
J sinais sintetizados com pitch superior a 550Hz comeam a apresentar perdas
das caractersticas fundamentais da fala humana, principalmente do timbre, ou seja, a
caracterstica que nos permite identificar o falante. O ouvinte, ao escutar estes sinais, tem a
impresso de ouvir uma voz metalizada, lembrando a voz de um rob.

49
A fim de se analisar a influncia do nmero de coeficientes utilizados pelo
filtro que simula o aparelho fonador humano sobre os sinais gerados durante a simulao,
sintetizou-se sinais por meio de excitao peridica e por meio de rudo branco com o nmero
de coeficientes variando de 10 a 160. O Grfico 13 mostra o sinal originalmente gravado com
freqncia de amostragem igual a 8kHz e sinais sintetizados por meio de seqncia impulsiva
peridica com freqncia fundamental de 300Hz e utilizando-se 10, 80 e 160 coeficientes de
predio, referentes palavra chiado. Vale lembrar que, enquanto a escolha do pitch
influencia apenas os sinais sintetizados por meio de impulsos peridicos, a escolha do nmero

a)

Amplitude

de coeficientes de predio tambm influencia os sinais gerados por rudo branco.

c)

Amplitude

Amplitude

b)

Amplitude

d)

n
Grfico 13 - Sinal correspondente palavra chiado (a) originalmente gravado,
(b) sintetizado por meio de seqncia impulsiva peridica com freqncia fundamental
de 300Hz e utilizando-se 10 coeficientes de predio, (c) utilizando-se 80 coeficientes
de predio e (d) utilizando-se 160 coeficientes de predio

50
Verificou-se que sinais sintetizados por rudo branco utilizando-se mais que
vinte e cinco coeficientes de predio comeam a apresentar distoro, podendo dificultar o
entendimento da mensagem. Ademais, quanto mais complexo for o sinal a ser sintetizado, isto
, quanto mais sons provenientes de obstruo parcial ,ou total, do fluxo de ar pela boca, tanto
para os sinais sintetizados por rudo quanto para os sintetizados por seqncia peridica de
impulsos, tem-se como resultado sons metalizados, caracterizando perda das caractersticas
intrnsecas da voz humana.
O Grfico 14 mostra o sinal originalmente gravado com freqncia de
amostragem igual a 8kHz e sinais sintetizados por meio de rudo branco, utilizando-se 10, 80
e 160 coeficientes de predio, referentes palavra chiado.

d)

Amplitude

c)

Amplitude

b)

Amplitude

Amplitude

a)

Grfico 14 - Sinal correspondente palavra chiado (a) originalmente gravado,


(b) sintetizado por meio de rudo branco e utilizando-se 10 coeficientes de predio,
(c) sintetizado com 80 coeficientes de predio e (d) sintetizado com 160 coeficientes
de predio
Em contrapartida, quanto mais coeficientes de predio forem utilizados na
sntese de sinais por meio de impulsos peridicos, mais prximos estes ficaro, sonoramente,

51
do sinal originalmente gravado, porm com o custo de mais tempo ser exigido para o sistema
calcular tais coeficientes, tornando-o muito mais lento. Quantificando, o tempo gasto por um
computador com processador Pentium IV de 2.8GHz calcular 10 coeficientes de predio e
sintetizar um sinal a partir de uma seqncia impulsiva peridica e a partir de rudo branco
para um sinal de 2 segundos de durao inferior a 1 segundo. J para se calcular 160
coeficientes de predio para o mesmo sinal so necessrios aproximadamente 5 segundos.

52
6 CONCLUSES

Neste trabalho, estudou-se tcnicas de predio e sntese dos sinais de voz.


Para isso, foram abordados temas de processamento digital de sinais tendo como objetivo
entender conceitos importantes de como os sinais so discretizados e processados.
Atravs dos resultados obtidos nas simulaes de predio pde-se constatar
como o sinal era afetado pelo nmero de bits utilizados na digitalizao do erro. Pde-se
perceber atravs dos dados e grficos apresentados, a variao da qualidade do sinal
reconstrudo na transmisso do sinal de erro.
Como resultados desta simulao constatou-se a economia de banda na
transmisso do sinal ao utilizar-se essa tcnica, e que diversos tipos de sinais podem utilizar
esta mesma tcnica para serem transmitidos.
Nos resultados obtidos na simulao da sntese foram constatados os efeitos da
gerao de voz a partir de um rudo branco ou de uma seqncia de pulsos peridicos,
observando a importncia da escolha do sinal de excitao correto para o sinal sintetizado.
Constatou-se que a freqncia do pitch a ser utilizado para sinais sintetizados
por meio de seqncia peridica de impulsos pode variar de acordo com o falante pois est
diretamente relacionada com a freqncia de vibrao das cordas vocais.
Existem trabalhos acerca de mtodos para determinao automtica do pitch e
escolha mais adequada para a sntese de sinais, seja utilizando rudo branco ou seqncia
impulsiva peridica como excitao, isto , como sinal de entrada de um filtro que simule o
trato vocal (DONG, 2006).
Nestas simulaes tambm foi analisada a influncia do nmero de
coeficientes na sntese do sinal, constatando-se que quanto maior este nmero, mais lento se
torna o sistema, podendo torn-lo inadequado para aplicaes em tempo real.

53
Do assunto tratado neste trabalho pode-se ter como fruto aplicaes sociais
como dispositivos de leitura para deficientes visuais, por meio de converso texto voz,
vocalizadores artificiais para deficientes de fala e sintetizadores de voz para conversao via
aparelhos telefnicos.
Em trabalhos futuros, os autores pretendem analisar a escolha automtica do
sinal de excitao utilizado para a sntese de sinais de voz, estudar algoritmos dedicados ao
clculo do pitch, alm de avaliar uma soluo para a deciso do nmero mais adequado de
coeficientes de predio utilizados como parmetros do filtro que simula o trato vocal.

54
REFERNCIAS

ABRANTES, S. A. Processamento adaptativo de sinais. Lisboa: Fundao Calouste


Gulbenkian, 2000.
CARLSON, R. Models of Speech Synthesis; Proceedings of the National Academy of
Sciences, USA. V. 92, Outubro 1995 P. 9932 - 9937
DONG, W.; An Algorithm for Voiced / Unvoiced Decision And Pitch Estimation in Speech
Feature Extraction. International Symposium on Chinese Spoken Language Processing
(ISCSLP), August 2002
DINIZ, P. S. R.; SILVA, E. A. B.; LIMA NETTO, S. Processamento digital de sinais:
projeto e anlise de sistemas. Porto Alegre: Bookman, 2004.
FLANAGAN,J.; Research in speech communication; Proceedings of the National Academy
of Sciences, USA. V. 92, Outubro 1995 P. 9938 - 9945
GIROD, B.; RABENSTEIN, R.; STENGER, A. Sinais e sistemas. Porto Alegre: LTC - Livros
Tcnicos e Cientficos, 2003.
GREGORIM, C. O. MICHAELIS PORTUGUS GRAMTICA PRTICA, 2002 : Ed.
Melhoramentos
HAYES, M. H. Schaum's outline of theory and problems of digital signal processing. New
York: McGraw-Hill, c1999.
HAYKIN, S.; VAN VEEN, B.. Sinais e Sistemas. Porto alegre: Bookman, 2001
LATHI, B. P. Modern digital and analog communication systems. 3 ed. New York: Oxford
University Press, 1998.
MCCLELLAN, J. H.; et al. Computer-Based Exercises for Signal Processing using
MatLab5: Prentice Hall, 1998.
PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception
Theory, And Technology. 2 ed. New Jersey: Prentice Hall. 1999.
PROAKIS, J. G.; MANOLAKIS, D. G. Digital signal processing: principles, algorithms, and
applications . 3 ed. Upper Saddle River: Prentice Hall, 1996.
RABINER, L.R.; SCHAFER, R.W.; Digital techniques for computer voice response:
Implementations and applications. Proceedings of the IEEE, V. 64, Abril 1978
SADAOKI, F.; Toward the ultimate synthesis / recognition system; Proceedings pf the
National Academy of Sciences, USA. V. 92, Outubro 1995. P. 10040 - 10045

55
SENDA, A.. Reconhecimento de fonemas da lngua portuguesa da regio de So Paulo.
2005. Trabalho de Concluso de Curso (Graduao em Engenharia Eltrica)
Universidade Presbiteriana Mackenzie, So Paulo, 2005.
SIMES, F.O.. Implementao de um Sistema de Converso Texto-Fala para o Portugus do
Brasil. 1999. 204f. Dissertao (Mestrado em Engenharia Eltrica)-Universidade Estadual de
Campinas, Campinas, So Paulo, 1999.
SMITH, S. W. The Scinentist and Engineers Guide to Digital Signal Processing. California
Technical Publishing. 1997.
STONICK,V.; BRADLEY, K.. Labs for Signals and Systems Using MatLab, cap. 6. PWS
Publishing Company1996.

Você também pode gostar