Você está na página 1de 98

1

Carlos Alexandre Mello cabm@cin.ufpe.br


Processamento Digital de Voz
Carlos Alexandre Mello
2
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
A Natureza do Som
O som uma vibrao que se propaga atravs do
ar (atravs das molculas de ar) que passa a
vibrao para frente at nossos ouvidos
Mesmo princpio de uma pedra jogada em um
lago:
o distrbio provocado faz com que a gua forme ondas
concntricas em todas as direes at que a amplitude
das ondas seja to pequena que elas no possam ser
vistas
Um som pode representar um sinal de voz ou no
2
3
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
A Natureza do Som
Sons consistem de variaes na presso do
ar ao longo do tempo em freqncias que
podemos ouvir
Voz consiste de um subconjunto de sons
que podem ser gerados pelo ser humano
Podemos plotar o sinal de voz como uma
forma de onda
3
4
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
A Natureza do Som
Forma de onda
4
Podemos observar valores positivos e negativos
ao longo do tempo porque a radiao de voz da
boca faz com que a presso do ar seja
temporariamente maior ou menor que a presso
do ar do ambiente
5
Carlos Alexandre Mello cabm@cin.ufpe.br
Espectrograma
Introduo
A Natureza do Som
5
6
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
Sinal de Voz
Propsito da Voz: Comunicao
Caracterizao do potencial de
comunicao da voz:
Teoria da Informao (Shannon)
Voz representada em termos de informao
Sinal
Onda acstica (sinal carregando a informao)
Forma mais utilizada na prtica
Informao se transforma em onda acstica
6
7
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
Sinal de Voz
A Informao gerada no crebro
convertida em um conjunto de sinais neurais
os quais controlam o mecanismo
articulatrio
As articulaes movem-se em resposta a
estes sinais neurais para desempenhar uma
seqncia de gestos os quais resultam em
uma forma de onda acstica que contm a
informao da mensagem original
7
8
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
Estudo da Voz
A informao que comunicada atravs do sinal
de voz discreta, ou seja, pode ser representada
como uma concatenao de um conjunto finito de
smbolos fonemas
Alfabeto fontico
Para a lngua inglesa, existem 42 fonemas
Um estudo feito, definiu 34 fonemas para o
portugus
8
9
Carlos Alexandre Mello cabm@cin.ufpe.br
Fonemas do Portugus
10
Carlos Alexandre Mello cabm@cin.ufpe.br
Introduo
Processamento de Sinais
Fonte de Informao
Medida ou Observao
Representao
Transformao
Utilizao da Informao
Processamento
de
Sinais
Forma de Onda
Homem
Homem ou
Mquina
10
11
Carlos Alexandre Mello cabm@cin.ufpe.br
Parmetros de
Excitao
Parmetros do
Trato Vocal
Representao em
Forma de Onda
Representao
Paramtrica
Representao de
Sinais de Voz
Processamento Digital de Voz
Representao de Sinais de Voz
Teorema da
Amostragem
Modelo do
sinal de voz
Relativo a fonte
do sinal de voz
Relativo a sons de
voz individuais
Preocupada com a
preservao da forma de
onda do sinal analgico
atravs de um processo
de amostragem e
quantizao
Preocupada com a
representao do
sinal de voz como a
sada de um modelo
para produo de voz
11
12
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento Digital de Voz
Aplicaes
Aplicaes
Transmisso
e
Armazenamento
Digital
Sntese
de Voz
Identificao
e Verificao
do
Interlocutor
Reconheci-
mento da
Fala
Ajuda a
Deficien-
tes
Melhoria na
qualidade
do sinal
12
13
Carlos Alexandre Mello cabm@cin.ufpe.br
Processo de Produo da Voz
Trato Vocal Trato Vocal
13
14
Carlos Alexandre Mello cabm@cin.ufpe.br
Processo de Produo da Voz
Trato Vocal:
Comea na abertura entre as cordas vocais (ou gltis) e termina
nos lbios
Consiste da Faringe (conexo do esfago com a boca) e da Boca
ou cavidade oral
Tem cerca de 17cm em mdia em um homem
Trato Nasal
Comea no velum e vai at as Narinas
15
Carlos Alexandre Mello cabm@cin.ufpe.br
Processo de Produo da Voz
A fonte de energia para a produo de voz vem do
sistema sub-glotal composto pelos pulmes,
brnquios e traquia
A voz simplesmente a onda acstica que
radiada do sistema quando o ar expelido dos
pulmes e o fluxo de ar resultante perturbado
pela contrao em algum lugar do trato vocal
16
Carlos Alexandre Mello cabm@cin.ufpe.br
Processo de Produo da Voz
Tipos de Sons:
Audveis
Produzido forando o ar atravs da gltis com a
tenso das cordas vocais ajustadas tal que elas
vibrem em uma oscilao vibratria
/U/
Fricativos (ou inaudveis)
Gerados atravs da formao de uma contrao no
trato vocal (geralmente na boca) e forando o ar
atravs dela
/CH/, /SH/
17
Carlos Alexandre Mello cabm@cin.ufpe.br
Processo de Produo da Voz
Tipos de Sons:
Explosivos
So formados fazendo um fechamento completo,
formando uma presso atrs do fechamento e
liberando repentinamente
Should we chase
t/S/
18
Carlos Alexandre Mello cabm@cin.ufpe.br
Teoria Acstica da Produo de Voz
Ondas de som so criadas por vibrao e propagadas no
ar ou em outro meio por vibraes de partculas do meio
Uma teoria acstica detalhada deve considerar os efeitos
de:
Variao de tempo da forma do trato vocal
Perdas devido a conduo de calor
Suavidade das paredes do trato vocal
Radiao dos sons no lbios
Casamento nasal
Casamento nariz e faringe para produzir sons nasais
Excitao do som no trato vocal
19
Carlos Alexandre Mello cabm@cin.ufpe.br
Percepo da Voz
Sons chegam aos nossos ouvidos como variaes
na presso do ar
Podemos ouvir vibraes na faixa de,
aproximadamente, 20Hz a 20kHz
O sistema auditivo transforma a presso do ar em
sinais neurais estimulando o processo de
percepo no crebro
Alm disso, o sistema auditivo responsvel por
manter o equilbrio fsico do corpo
O sistema auditivo o complemento do trato vocal
19
20
Carlos Alexandre Mello cabm@cin.ufpe.br
Sistema Auditivo
Localizao
Quando escutamos um som, percebemos
ele vindo de alguma localizao no espao
fora de nossas cabeas
Isto conhecido como Localizao
Nossa habilidade de localizar um som
depende da diferena no som que chega
em cada um de nossos ouvidos
Posio dos ouvidos
Diferentes distncias da fonte
21
Carlos Alexandre Mello cabm@cin.ufpe.br
Sistema Auditivo
Localizao
Com fins de localizao, somos mais
sensveis a sons na faixa de 800Hz
Nossos ouvidos so cerca de 100 vezes
menos sensvel a posio do que nosso
sistema visual, mas podemos ouvir sons
atrs de nossa cabea
22
Carlos Alexandre Mello cabm@cin.ufpe.br
Sistema Auditivo
Localizao
Se uma fonte de som no est ao nosso
lado, leva mais tempo para o som alcanar
o ouvido que est do outro lado
23
Carlos Alexandre Mello cabm@cin.ufpe.br
Sistema Auditivo
Localizao
Em outras palavras, quando um som
comea, um ouvido escuta antes do outro
Enquanto o som continua, as vibraes de
ar vo chegar em um ouvido fora de fase
em relao ao outro
Diferena de Fase Interaural
Pode demorar cerca de 600 microssegundos
para o som atingir o ouvido mais distante
24
Carlos Alexandre Mello cabm@cin.ufpe.br
Sistema Auditivo
Localizao
Da mesma forma, a cabea tambm
bloqueia o caminho direto da fonte do som
at o ouvido oposto
Diferena de Intensidade Interaural
Um som na frente esquerda cria a mesma
diferena interaural (tanto de fase quanto de
intensidade) que um som mesma
distncia vindo de trs esquerda
Dificulta a localizao
25
Carlos Alexandre Mello cabm@cin.ufpe.br
Psicoacstica
O ouvido responde a uma larga, mas
limitada, faixa de amplitudes de som
Abaixo de um certo valor, o som pode no ser
percebido
Acima de um certo valor, pode causar danos
aos ouvidos
26
Carlos Alexandre Mello cabm@cin.ufpe.br
Psicoacstica
A resoluo temporal de nosso sistema
auditivo crucial para a percepo da voz
Sons breves devem ser separados por
diversos milissegundos para serem
distinguidos
Mas, para fins de percepo, uma diferena
da ordem de 17 milissegundos necessria
27
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento Digital de Sinais
Discretizao do sinal de voz
Sinal contnuo Seqncia de
amostras
x(t)
x(n)
x(n)=x (nT)
Amostrador Quantizador
a
Teorema da
amostragem
Amostrador: Sinal discreto no Tempo
Quantizador: Sinal discreto na Amplitude
27
28
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Quantizador
Q[ ]
Codificador
Decodificador
c(n)
x(n)
x(n)
x(n)
c(n)

^
^
= Passo de
Quantizao
Se c(n) = c(n):
No houve erros na transmisso:
x(n) = x(n)
^
^
28
29
Carlos Alexandre Mello cabm@cin.ufpe.br
Entrada-Sada
Caracterstica do
Quantizador de 3-bits
000
001
010
011
100
101
110
111
x x
x
x
x
x
-3 -2 -1
1 2 3
X
^
X
Quantizao
Quantizao Instantnea
X1
^
X2
^
X3
^
X-3
X-2
^
X-1
^
^
^
X4
^
x(n)=( /2)sign(c(n)) + c(n)
sign(c(n))= +1, se o 1o. Bit de c(n)=0
-1, se 0 1o. Bit de c(n)=1
29
30
Carlos Alexandre Mello cabm@cin.ufpe.br
Mid-riser
111
110
101
100
000
001
010
011
X
^
X
variao pico-a-pico

2 3
4

2
3
4
5
2
Quantizao
Quantizao Uniforme
^
x(n)=( /2)sign(c(n)) + c(n)
sign(c(n))= +1, se o 1o. Bit de c(n)=0
-1, se 0 1o. Bit de c(n)=1
3
2

2
5
2
30
31
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao Uniforme
O quantizador mid-riser conveniente
quando temos o nmero de nveis uma
potncia de 2
O mid-riser possui o mesmo nmero de
nveis positivos e negativos que esto
simetricamente posicionados em relao a
origem
O quantizador mid-tread possui um nvel
negativo a mais que positivo
32
Carlos Alexandre Mello cabm@cin.ufpe.br
Mid-tread
100
101
110
111
000
001
010
011
X
^
X
variao pico-a-pico
1
2

3
4
2
9
2
2
7
Quantizao
Quantizao Uniforme
^
x(n)= c(n)
32
33
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao Uniforme
O quantizador mid-tread possui o zero (000)
no meio da escala
O quantizador mid-riser no possui o nvel
zero.
Pode-se ter desde a codificao direta a
escolhas que tentem manter equilibrada a
potncia utilizada entre os bits da amostra
em relao a origem, etc
34
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Companding Instantneo
Companding = Compress + Expand
O logaritmo da entrada quantizado ao invs da
prpria entrada
y(n) = ln|x(n)|
Inverso:
x(n) = exp[y(n)]sgn[x(n)]
Dessa maneira, pode-se mostrar que o nvel sinal-
rudo independente da varincia do sinal
Problema: pequenas amplitudes (x[n] 0)
34
35
Carlos Alexandre Mello cabm@cin.ufpe.br
Codificador
Decodificador
Decodificador
EXP
[ ]
X
x(n)
Codificador
Q
SIGN
[ ]
[ ]
LOG
| |
y(n)
c(n)
sign[x(n)]
c(n)
sign[x(n)]
x(n)
y(n)
|x(n)|
^
^
^
^
Quantizao
Companding Instantneo
35
36
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Quantizao Adaptativa
Desejamos fazer a quantidade de degraus
suficientemente grande para termos uma
varredura pico-a-pico do sinal
Mais nveis de quantizao
Por outro lado, queremos ter menos
degraus para termos uma menor
codificao
Menor quantidade de bits
Dilema! Soluo: Quantizao adaptativa...
36
37
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Quantizao Adaptativa
37
38
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
O propsito do processamento digital pode ser:
Saber se determinado sinal corresponde a um sinal de
voz ou no
Classificar uma seo de um sinal de voz como:
voz audvel (voiced speech)
voz inaudvel (unvoiced speech)
silncio ou rudo de fundo
Reduo de rudo
38
39
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
39
[y, fs] = wavread('casa1.wav');
b = fir1(98, 31/80, hanning(99));
filt_sp=filter(b,1,y);
f = 0:8000/(127):8000;
subplot(2,1,1)
spect=fft(y, 256);
plot(f, abs(spect(1:128)))/max(abs(spect(1:128)));
xlabel ('frequencia');
subplot(2,1,2);
filt_spect=fft(filt_sp, 256);
plot(f, abs(filt_spect(1:128))/max(abs(filt_spect(1:128))));
wavwrite (filt_sp, fs, 'casa1_firfilt.wav');
40
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
40
Sinal original
Sonograma gerado
no SoundForge
41
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
41
Sinal filtrado
42
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
Envolvem a forma de onda do sinal diretamente
(em contraste com mtodos do domnio da
freqncia)
So simples de implementar
So ricas em informao
Tcnicas mais difundidas:
Energia do Sinal
Magnitude do Sinal
Taxa de passagem pelo Zero
Funo de auto-correlao
42
43
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
As propriedades do sinal de voz variam com o
tempo
a excitao muda entre a voz audvel e no audvel
a amplitude do sinal varia
h uma variao significativa da freqncia fundamental
para a voz audvel
Essas propriedades so nitidamente observveis
na forma-de-onda
43
44
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
A maioria dos sistemas de processamento de voz
assume que as propriedades da fala mudam
relativamente devagar com o tempo
No h variaes bruscas num fonema ou entre
fonemas
Pode-se utilizar mtodos de processamento em
tempo curto (short-time), nos quais analisam-se
amostras de curta durao do sinal
Cada segmento curto de voz visto como um som
estvel com propriedades fixas
s vezes, esses segmentos se sobrepem
44
45
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
Essas amostras de curta durao so geralmente
chamadas de moldura de anlise (analysis
frames)
O resultado da anlise de uma moldura pode ser
um nmero ou um conjunto de nmeros
A seqncia gerada pode ser tomada como uma nova
representao no tempo do sinal original
46
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
geralmente assumido que o sinal de voz foi
limitado em faixa e que foi amostrado em taxa no
inferior a taxa de Nyquist (pelo menos 8.000
amostras/segundo)
tambm considerado que o sinal foi quantizado
e que o erro de quantizao desprezvel
47
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
T[x(m)] w(n-m)

Qn =

m= -
Janela
47
48
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Energia de Tempo Curto
A voz audvel apresenta amplitude maior
que a voz inaudvel ou o silncio (rudo de
fundo)
A energia de curta durao de um sinal
prov uma representao conveniente que
reflete as variaes de amplitude
48
49
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Energia de Tempo Curto
A energia de um sinal discreto no tempo
pode ser definida como:
m= -
x
2
[m]

E =

Em relao equao de Qn, temos:


T[ ] = quadrado
w(n) = 1, 0 n N - 1
= 0, caso contrrio
49
50
Carlos Alexandre Mello cabm@cin.ufpe.br
A energia de tempo curto de um sinal
pode ser definida como:
Esta equao pode ser escrita como:
m= -
[x(m).w(n-m)]
2

En =

x
2
(m) . h(n-m)

En =

m= -
h(n) = w
2
(n)
En um
nmero, no
uma funo!
Tcnicas Temporais
Energia de Tempo Curto
50
51
Carlos Alexandre Mello cabm@cin.ufpe.br
Observe que En um nmero no uma funo
Se a janela for muito longa e constante em
amplitude, En varia muito pouco em relao ao
tempo
Essa janela seria equivalente a um filtro de passa-
baixa de banda (muito) estreita
Uma janela estreita demais no consegue
produzir uma funo suave de energia
Tcnicas Temporais
Energia de Tempo Curto
51
52
Carlos Alexandre Mello cabm@cin.ufpe.br
Se a janela for muito estreita, no prover
medies suficientes para produzir uma
funo de energia suave
Se a janela for da ordem de vrios picos do
sinal, En no vai refletir as variaes do sinal
Este conflito de grande importncia na
representao em tempo curto de sinais de
voz
Tcnicas Temporais
Energia de Tempo Curto
52
53
Carlos Alexandre Mello cabm@cin.ufpe.br
Energia de Curta-Durao
Desta maneira o tamanho da janela varia
desde:
20 amostras para uma voz aguda de mulher ou
criana.
250 amostras para uma voz grave de homem.
Na prtica, para uma freqncia de
amostragem do sinal de 10 kHz, deve-se
utilizar uma janela da ordem de 100<N<200
amostras (10 ms < t < 20 ms)
54
Carlos Alexandre Mello cabm@cin.ufpe.br
A maior significncia de En est em conseguir
distinguir entre segmentos com voz audvel e
voz inaudvel
Os valores de En so significativamente maiores
para sinais audveis
En Pode ser usada para determinar o tempo
onde um sinal audvel torna-se inaudvel e vice-
versa
Se o sinal for de boa qualidade pode-se distinguir a
voz do silncio
Tcnicas Temporais
Energia de Tempo Curto
54
55
Carlos Alexandre Mello cabm@cin.ufpe.br
O clculo da energia muito sensvel a nveis
altos de sinal (devido a potenciao na
computao de E
n
)
Uma maneira de aliviar este problema utilizar-se
uma funo de magnitude mdia:
Aritmtica mais simples
Menor capacidade de diferenciao entre voz
audvel e voz inaudvel
|x(m)| w(n-m)

Mn =

m= -
Tcnicas Temporais
Magnitude de Tempo Curto
55
56
Carlos Alexandre Mello cabm@cin.ufpe.br
Diz-se que houve uma passagem pelo zero
quando duas amostras sucessivas possuem
sinais diferentes
A taxa com que h a passagem pelo zero
apenas uma medida do contedo de
freqncia do sinal
Este fato particularmente verdadeiro para
sinais faixa-estreita
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
56
57
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
Cada ciclo de uma senide possui duas passagens pelo
zero
Os sinais de voz so sinais faixa-larga e portanto a
interpretao da taxa mdia de passagem pelo zero
menos precisa
Estimativas grosseiras das propriedades espectrais podem
ser obtidas baseadas na taxa de passagem pelo zero
mdia em tempo curto
Senide: 2 passagens pelo zero
57
58
Carlos Alexandre Mello cabm@cin.ufpe.br
Pode-se definir:
Zn = |sgn[x(m)] - sgn[x(m-1)]| w(n-m)
onde:
sgn[x(m)] = 1 x(n) 0
-1 x(n)< 0
e
w(n) = 1/(2N) 0 n N-1
= 0 caso contrrio
m=-

N no denominador funciona
como uma normalizao
Sinais iguais:
|sgn(x) - sgn(x)| = 0
Sinais diferentes:
|sgn(x) - sgn(x)| = 2
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
58
59
Carlos Alexandre Mello cabm@cin.ufpe.br
A maior parte da energia para sinais de
voz no audveis de alta-freqncia
Altas freqncias implicam uma taxa alta de
passagem pelo zero
Baixas freqncias implicam numa taxa baixa
de passagem pelo zero
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
59
60
Carlos Alexandre Mello cabm@cin.ufpe.br
Assim, h uma correlao forte entre taxa de
passagem pelo zero e a distribuio de energia
com a freqncia
Se a taxa de passagem pelo zero alta, o sinal
inaudvel; do contrrio, o sinal audvel
A taxa mdia de passagem pelo zero em tempo
curto de:
49 vezes por 10 ms para sinais no-audveis.
14 vezes por 10 ms para sinais audveis.
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
60
61
Carlos Alexandre Mello cabm@cin.ufpe.br
H uma sobreposio das distribuies de sinais
audveis e no-audveis de forma que esta diviso
no pode ser tomada somente com a informao
da taxa de passagem pelo zero
Dificulta a deciso entre voz audvel e inaudvel
A taxa de passagem pelo zero fortemente
afetada por:
sinal de rede eltrica (60 Hz)
qualquer rudo no processo de digitalizao
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
61
62
Carlos Alexandre Mello cabm@cin.ufpe.br
A autocorrelao de um sinal discreto no
tempo, x(n), dada por:
Se o sinal peridico com perodo de P
amostras, ento:
(k) = (k + P)
Tcnicas Temporais
Autocorrelao em Tempo Curto
62
63
Carlos Alexandre Mello cabm@cin.ufpe.br
A funo de autocorrelao para tempo
curto definida como:
Usada para estimativa do Pitch
Frequncia fundamental
Tcnicas Temporais
Autocorrelao em Tempo Curto
63
64
Carlos Alexandre Mello cabm@cin.ufpe.br
Discriminao Voz/Silncio
O problema de rudo de fundo de grande
importncia no reconhecimento de voz
essencial saber onde cada palavra inicia e
termina
A separao Voz/Silncio no simples exceto no
caso de gravaes de alta-fidelidade em cmaras
de gravao
Em gravaes com alta relao sinal/rudo os
sons da voz de menor intensidade so mais fortes
que o rudo de fundo
64
65
Carlos Alexandre Mello cabm@cin.ufpe.br
Discriminao Voz/Silncio
Em geral difcil encontrar o incio e fim de
uma palavra se h:
Fricativos fracos (weak fricatives) /f/, /th/, /h/
Consoantes explosivas fracas (weak plosive
bursts) /p/, /t/, /k/
Sons nasais no fim da palavra
Fricativos Audveis (voiced fricatives) que se
tornam mudos no fim da palavra
Distores de sons voclicos no fim de palavras
66
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
O nome cepstrumvem do inverso da
primeira metade da palavra spectrum
(espectro) e plota a amplitude de um sinal
versus sua quefrncia(que seria o inverso
da frequncia)
Essa tcnica til para separar
componentes de um sinal complexo
formado por diversos simultneos, mas
diferentes elementos combinados
67
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
O cepstrum gerado pela transformada de
Fourier de logaritmo da transformada de
Fourier
So duas transformadas de Fourier
calculadas, mas, de fato, na prtica, a
segunda transformada a transformada
inversa
68
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
Aplicaes: Estimativa de frequncia fundamental
Frequncia estimada:
667.171Hz
69
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
Aplicaes: Estimativa do envelope espectral
70
Carlos Alexandre Mello cabm@cin.ufpe.br
Tpicos sobre Sntese e
Reconhecimento de Voz
Carlos Alexandre Mello
71
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Processo de gerao de voz a partir de texto
Para qualquer string de palavras, um sintetizador de voz
pode aproximar a maneira que um humano leria estas
palavras
Processo chamado:
Sntese Texto-para-Voz
Sntese por Regra
72
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Primeira Soluo
Gravar uma pessoa falando todas as palavras
possveis de um dicionrio
Formar frases juntando as palavras
Problemas
Muitas palavras!! Precisa gravar as razes, os
verbos, variaes e as combinaes
Parapeito (para, peito e parapeito)
J uno simples das palavras no teria
naturalidade em uma sentena
73
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Uma palavra dita isoladamente est na
Forma de Citao
Frases contm uma entonao nas palavras
Esta sua casa.
Esta sua casa?
Esta soluo pode ser aplicada em casos
onde o dicionrio pequeno
Aplicaes para Telefone
S os dgitos precisam ser gravados
74
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Sintetizando Voz a partir de Texto
Dificuldades com Letras que tm pronncia de
outras letras:
Casa: S com som de Z
Melhor Soluo
Gravao de Fonemas
Sntese
1) Converte o texto para uma string de fonemas
2) Cria a sada da string de fonemas como uma forma de
onda
75
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Nmero de Fonemas em Linguagens:
13 a 75
Dicionrio fontico
Fonemas so gravados para cada palavra
Converso a partir de texto feita atravs de uma
consulta ao dicionrio
Decomposio Morfolgica das Palavras
Gato e Gatos (Gato+S)
76
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Regras
Usa conhecimento das regras da gramtica para
derivar a pronncia do texto
Vantagens:
Regras mais concisas
Mais flexvel
regras bem definidas podem gerar a pronncia de
quase toda palavra
Possibilidade de portabilidade das regras para diferentes
lnguas
77
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Passo 1: Normalizao
Converso de Smbolos em Texto Claro
R$ 40,00 = 40 Reais
Dr. Fulano = Doutor Fulano
Anlise Morfolgica
Parapeito = Para + Peito
Gatos = Gato + S
Afixos:
Realmente = Real + MENTE
Normalmente = Normal + MENTE
78
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Fatores Adicionais para Pronncia
Stress Lxico
Como gerar a Slaba mais forte?
Aumentar o Volume (amplitude)?
Fator secundrio!!!
Acrbata ou Acrobata?
79
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Acrbata
Acrobata
80
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Acrbata
Acrobata
Espectrogramas
81
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Fatores Adicionais para Pronncia
Co-Articulao
A pronncia de um fonema muda de acordo com os
fonemas que esto ao redor
Ingls:
Did you... ?
Did you... ? (som de J sem perda da compreenso)
82
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Did you...?
Did you...?
83
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Entonao
nfase em palavras na sentena
Esta sua casa.
Esta sua casa?
Entonao fcil de ser detectada pela
pontuao da frase
Mais complicado em sentenas grandes
84
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Esta sua casa.
Esta sua casa ?
85
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Esta sua casa.
Esta sua casa ?
Espectrogramas
86
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Fonemas para Sons
Sntese Paramtrica
Gera um sinal de voz variando parmetros que
controlam um modelo em software do trato vocal
Modelo = Fonte de Som + Filtros para simular o
comportamento do Trato Vocal
87
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Fonemas para Sons
Sntese Concatenativa
Consoantes geralmente so mais difceis de sintetizar do que
vogais
Curta durao e comportamento dinmico
Problema: Clusters de consoantes
str (estrada), pr (prato), ...
Pequenos segmentos de voz gravada so agrupados
Difones: pares de fonemas
Dades: Vogal-Consoante-Vogal
Construindo Sistema Interativo Computacional que
usa voz como sada
Voz gravada ou sintetizada
88
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Limitaes de Sada por Voz
Inteligibilidade
Velocidade
Sinal de Voz deve ser conciso e direto
Natureza temporal
Natureza serial
Espao de Armazenamento
Privacidade
Natureza Abrangente
Mltiplas Vozes
89
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Vantagens dos Sistemas por Voz
Acessibilidade
Canal alternativo de interao quando as mos
e olhos dos usurios esto ocupados
Traduo de meio
Transformar documentos de texto em voz
90
Carlos Alexandre Mello cabm@cin.ufpe.br
Reconhecimento de Voz
Componentes bsicos para um sistema de
reconhecimento de voz:
Uma representao conveniente da voz
Modelos (ou Templates)
Um Algoritmo de Classificao
Redes Neurais
91
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Dependente do Interlocutor
Reconhece apenas um interlocutor
Independente do Interlocutor
Reconhece qualquer interlocutor
Mais difcil
Geralmente tm dicionrio limitado
Adaptativo ao Interlocutor
Sistema Hbrido
Aceita um novo usurio sem que ele precise treinar o
sistema com toda palavra do vocabulrio
92
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Reconhece uma pequena srie de palavras
juntas como uma frase
No prprio para voz natural
Palavras Conectadas
Identifica palavras em uma longa string de voz
sem que o interlocutor faa pausas entre
grupos de palavras
Mais difcil; Maior taxa de erro
93
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Palavras Conectadas
94
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Palavras Conectadas
95
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Conectadas
Co-articulao muda a pronncia de palavras
como funo de seus vizinhos
difcil encontrar os limites das palavras dentro
de um sinal de voz fluente
No existe pausa significante
A probabilidade de erro aumenta como nmero
de palavras
Se a primeira palavra for reconhecida de forma
errada, o erro pode se propagar por toda a srie
96
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Tamanho do Vocabulrio
Pequeno
<= 200 palavras
Mdio
200 a 5.000 palavras
Grande
5.000 a 10.000 palavras
Quanto maior o dicionrio, mais fcil o
casamento, mas mais longa a busca
97
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Avanadas de
Reconhecimento de Voz
Dynamic Time Warping
Hidden Markov Models
Redes Neurais
Quantizao Vetorial
98
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento Digital de Voz
Referncias:
Digital Processing of Speech Signals,
L.R.Rabiner e R.W.Schafer, Prentice-Hall, 1978
Applied Speech and Audio Processing with
MatLab Examples, I.McLoughlin, Cambridge
Press, 2009
Voice Communication with Computers,
C.Schmandt, 1995
98

Você também pode gostar