Escolar Documentos
Profissional Documentos
Cultura Documentos
^
^
= Passo de
Quantizao
Se c(n) = c(n):
No houve erros na transmisso:
x(n) = x(n)
^
^
28
29
Carlos Alexandre Mello cabm@cin.ufpe.br
Entrada-Sada
Caracterstica do
Quantizador de 3-bits
000
001
010
011
100
101
110
111
x x
x
x
x
x
-3 -2 -1
1 2 3
X
^
X
Quantizao
Quantizao Instantnea
X1
^
X2
^
X3
^
X-3
X-2
^
X-1
^
^
^
X4
^
x(n)=( /2)sign(c(n)) + c(n)
sign(c(n))= +1, se o 1o. Bit de c(n)=0
-1, se 0 1o. Bit de c(n)=1
29
30
Carlos Alexandre Mello cabm@cin.ufpe.br
Mid-riser
111
110
101
100
000
001
010
011
X
^
X
variao pico-a-pico
2 3
4
2
3
4
5
2
Quantizao
Quantizao Uniforme
^
x(n)=( /2)sign(c(n)) + c(n)
sign(c(n))= +1, se o 1o. Bit de c(n)=0
-1, se 0 1o. Bit de c(n)=1
3
2
2
5
2
30
31
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao Uniforme
O quantizador mid-riser conveniente
quando temos o nmero de nveis uma
potncia de 2
O mid-riser possui o mesmo nmero de
nveis positivos e negativos que esto
simetricamente posicionados em relao a
origem
O quantizador mid-tread possui um nvel
negativo a mais que positivo
32
Carlos Alexandre Mello cabm@cin.ufpe.br
Mid-tread
100
101
110
111
000
001
010
011
X
^
X
variao pico-a-pico
1
2
3
4
2
9
2
2
7
Quantizao
Quantizao Uniforme
^
x(n)= c(n)
32
33
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao Uniforme
O quantizador mid-tread possui o zero (000)
no meio da escala
O quantizador mid-riser no possui o nvel
zero.
Pode-se ter desde a codificao direta a
escolhas que tentem manter equilibrada a
potncia utilizada entre os bits da amostra
em relao a origem, etc
34
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Companding Instantneo
Companding = Compress + Expand
O logaritmo da entrada quantizado ao invs da
prpria entrada
y(n) = ln|x(n)|
Inverso:
x(n) = exp[y(n)]sgn[x(n)]
Dessa maneira, pode-se mostrar que o nvel sinal-
rudo independente da varincia do sinal
Problema: pequenas amplitudes (x[n] 0)
34
35
Carlos Alexandre Mello cabm@cin.ufpe.br
Codificador
Decodificador
Decodificador
EXP
[ ]
X
x(n)
Codificador
Q
SIGN
[ ]
[ ]
LOG
| |
y(n)
c(n)
sign[x(n)]
c(n)
sign[x(n)]
x(n)
y(n)
|x(n)|
^
^
^
^
Quantizao
Companding Instantneo
35
36
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Quantizao Adaptativa
Desejamos fazer a quantidade de degraus
suficientemente grande para termos uma
varredura pico-a-pico do sinal
Mais nveis de quantizao
Por outro lado, queremos ter menos
degraus para termos uma menor
codificao
Menor quantidade de bits
Dilema! Soluo: Quantizao adaptativa...
36
37
Carlos Alexandre Mello cabm@cin.ufpe.br
Quantizao
Quantizao Adaptativa
37
38
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
O propsito do processamento digital pode ser:
Saber se determinado sinal corresponde a um sinal de
voz ou no
Classificar uma seo de um sinal de voz como:
voz audvel (voiced speech)
voz inaudvel (unvoiced speech)
silncio ou rudo de fundo
Reduo de rudo
38
39
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
39
[y, fs] = wavread('casa1.wav');
b = fir1(98, 31/80, hanning(99));
filt_sp=filter(b,1,y);
f = 0:8000/(127):8000;
subplot(2,1,1)
spect=fft(y, 256);
plot(f, abs(spect(1:128)))/max(abs(spect(1:128)));
xlabel ('frequencia');
subplot(2,1,2);
filt_spect=fft(filt_sp, 256);
plot(f, abs(filt_spect(1:128))/max(abs(filt_spect(1:128))));
wavwrite (filt_sp, fs, 'casa1_firfilt.wav');
40
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
40
Sinal original
Sonograma gerado
no SoundForge
41
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento de Voz
Reduo de rudo
Exemplo: filtro de Hanning
41
Sinal filtrado
42
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
Envolvem a forma de onda do sinal diretamente
(em contraste com mtodos do domnio da
freqncia)
So simples de implementar
So ricas em informao
Tcnicas mais difundidas:
Energia do Sinal
Magnitude do Sinal
Taxa de passagem pelo Zero
Funo de auto-correlao
42
43
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
As propriedades do sinal de voz variam com o
tempo
a excitao muda entre a voz audvel e no audvel
a amplitude do sinal varia
h uma variao significativa da freqncia fundamental
para a voz audvel
Essas propriedades so nitidamente observveis
na forma-de-onda
43
44
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
A maioria dos sistemas de processamento de voz
assume que as propriedades da fala mudam
relativamente devagar com o tempo
No h variaes bruscas num fonema ou entre
fonemas
Pode-se utilizar mtodos de processamento em
tempo curto (short-time), nos quais analisam-se
amostras de curta durao do sinal
Cada segmento curto de voz visto como um som
estvel com propriedades fixas
s vezes, esses segmentos se sobrepem
44
45
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
Essas amostras de curta durao so geralmente
chamadas de moldura de anlise (analysis
frames)
O resultado da anlise de uma moldura pode ser
um nmero ou um conjunto de nmeros
A seqncia gerada pode ser tomada como uma nova
representao no tempo do sinal original
46
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
geralmente assumido que o sinal de voz foi
limitado em faixa e que foi amostrado em taxa no
inferior a taxa de Nyquist (pelo menos 8.000
amostras/segundo)
tambm considerado que o sinal foi quantizado
e que o erro de quantizao desprezvel
47
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais para
Processamento de Voz
T[x(m)] w(n-m)
Qn =
m= -
Janela
47
48
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Energia de Tempo Curto
A voz audvel apresenta amplitude maior
que a voz inaudvel ou o silncio (rudo de
fundo)
A energia de curta durao de um sinal
prov uma representao conveniente que
reflete as variaes de amplitude
48
49
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Energia de Tempo Curto
A energia de um sinal discreto no tempo
pode ser definida como:
m= -
x
2
[m]
E =
En =
x
2
(m) . h(n-m)
En =
m= -
h(n) = w
2
(n)
En um
nmero, no
uma funo!
Tcnicas Temporais
Energia de Tempo Curto
50
51
Carlos Alexandre Mello cabm@cin.ufpe.br
Observe que En um nmero no uma funo
Se a janela for muito longa e constante em
amplitude, En varia muito pouco em relao ao
tempo
Essa janela seria equivalente a um filtro de passa-
baixa de banda (muito) estreita
Uma janela estreita demais no consegue
produzir uma funo suave de energia
Tcnicas Temporais
Energia de Tempo Curto
51
52
Carlos Alexandre Mello cabm@cin.ufpe.br
Se a janela for muito estreita, no prover
medies suficientes para produzir uma
funo de energia suave
Se a janela for da ordem de vrios picos do
sinal, En no vai refletir as variaes do sinal
Este conflito de grande importncia na
representao em tempo curto de sinais de
voz
Tcnicas Temporais
Energia de Tempo Curto
52
53
Carlos Alexandre Mello cabm@cin.ufpe.br
Energia de Curta-Durao
Desta maneira o tamanho da janela varia
desde:
20 amostras para uma voz aguda de mulher ou
criana.
250 amostras para uma voz grave de homem.
Na prtica, para uma freqncia de
amostragem do sinal de 10 kHz, deve-se
utilizar uma janela da ordem de 100<N<200
amostras (10 ms < t < 20 ms)
54
Carlos Alexandre Mello cabm@cin.ufpe.br
A maior significncia de En est em conseguir
distinguir entre segmentos com voz audvel e
voz inaudvel
Os valores de En so significativamente maiores
para sinais audveis
En Pode ser usada para determinar o tempo
onde um sinal audvel torna-se inaudvel e vice-
versa
Se o sinal for de boa qualidade pode-se distinguir a
voz do silncio
Tcnicas Temporais
Energia de Tempo Curto
54
55
Carlos Alexandre Mello cabm@cin.ufpe.br
O clculo da energia muito sensvel a nveis
altos de sinal (devido a potenciao na
computao de E
n
)
Uma maneira de aliviar este problema utilizar-se
uma funo de magnitude mdia:
Aritmtica mais simples
Menor capacidade de diferenciao entre voz
audvel e voz inaudvel
|x(m)| w(n-m)
Mn =
m= -
Tcnicas Temporais
Magnitude de Tempo Curto
55
56
Carlos Alexandre Mello cabm@cin.ufpe.br
Diz-se que houve uma passagem pelo zero
quando duas amostras sucessivas possuem
sinais diferentes
A taxa com que h a passagem pelo zero
apenas uma medida do contedo de
freqncia do sinal
Este fato particularmente verdadeiro para
sinais faixa-estreita
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
56
57
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
Cada ciclo de uma senide possui duas passagens pelo
zero
Os sinais de voz so sinais faixa-larga e portanto a
interpretao da taxa mdia de passagem pelo zero
menos precisa
Estimativas grosseiras das propriedades espectrais podem
ser obtidas baseadas na taxa de passagem pelo zero
mdia em tempo curto
Senide: 2 passagens pelo zero
57
58
Carlos Alexandre Mello cabm@cin.ufpe.br
Pode-se definir:
Zn = |sgn[x(m)] - sgn[x(m-1)]| w(n-m)
onde:
sgn[x(m)] = 1 x(n) 0
-1 x(n)< 0
e
w(n) = 1/(2N) 0 n N-1
= 0 caso contrrio
m=-
N no denominador funciona
como uma normalizao
Sinais iguais:
|sgn(x) - sgn(x)| = 0
Sinais diferentes:
|sgn(x) - sgn(x)| = 2
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
58
59
Carlos Alexandre Mello cabm@cin.ufpe.br
A maior parte da energia para sinais de
voz no audveis de alta-freqncia
Altas freqncias implicam uma taxa alta de
passagem pelo zero
Baixas freqncias implicam numa taxa baixa
de passagem pelo zero
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
59
60
Carlos Alexandre Mello cabm@cin.ufpe.br
Assim, h uma correlao forte entre taxa de
passagem pelo zero e a distribuio de energia
com a freqncia
Se a taxa de passagem pelo zero alta, o sinal
inaudvel; do contrrio, o sinal audvel
A taxa mdia de passagem pelo zero em tempo
curto de:
49 vezes por 10 ms para sinais no-audveis.
14 vezes por 10 ms para sinais audveis.
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
60
61
Carlos Alexandre Mello cabm@cin.ufpe.br
H uma sobreposio das distribuies de sinais
audveis e no-audveis de forma que esta diviso
no pode ser tomada somente com a informao
da taxa de passagem pelo zero
Dificulta a deciso entre voz audvel e inaudvel
A taxa de passagem pelo zero fortemente
afetada por:
sinal de rede eltrica (60 Hz)
qualquer rudo no processo de digitalizao
Tcnicas Temporais
Passagem pelo Zero em Tempo Curto
61
62
Carlos Alexandre Mello cabm@cin.ufpe.br
A autocorrelao de um sinal discreto no
tempo, x(n), dada por:
Se o sinal peridico com perodo de P
amostras, ento:
(k) = (k + P)
Tcnicas Temporais
Autocorrelao em Tempo Curto
62
63
Carlos Alexandre Mello cabm@cin.ufpe.br
A funo de autocorrelao para tempo
curto definida como:
Usada para estimativa do Pitch
Frequncia fundamental
Tcnicas Temporais
Autocorrelao em Tempo Curto
63
64
Carlos Alexandre Mello cabm@cin.ufpe.br
Discriminao Voz/Silncio
O problema de rudo de fundo de grande
importncia no reconhecimento de voz
essencial saber onde cada palavra inicia e
termina
A separao Voz/Silncio no simples exceto no
caso de gravaes de alta-fidelidade em cmaras
de gravao
Em gravaes com alta relao sinal/rudo os
sons da voz de menor intensidade so mais fortes
que o rudo de fundo
64
65
Carlos Alexandre Mello cabm@cin.ufpe.br
Discriminao Voz/Silncio
Em geral difcil encontrar o incio e fim de
uma palavra se h:
Fricativos fracos (weak fricatives) /f/, /th/, /h/
Consoantes explosivas fracas (weak plosive
bursts) /p/, /t/, /k/
Sons nasais no fim da palavra
Fricativos Audveis (voiced fricatives) que se
tornam mudos no fim da palavra
Distores de sons voclicos no fim de palavras
66
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
O nome cepstrumvem do inverso da
primeira metade da palavra spectrum
(espectro) e plota a amplitude de um sinal
versus sua quefrncia(que seria o inverso
da frequncia)
Essa tcnica til para separar
componentes de um sinal complexo
formado por diversos simultneos, mas
diferentes elementos combinados
67
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
O cepstrum gerado pela transformada de
Fourier de logaritmo da transformada de
Fourier
So duas transformadas de Fourier
calculadas, mas, de fato, na prtica, a
segunda transformada a transformada
inversa
68
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
Aplicaes: Estimativa de frequncia fundamental
Frequncia estimada:
667.171Hz
69
Carlos Alexandre Mello cabm@cin.ufpe.br
Anlise Cepstral
Aplicaes: Estimativa do envelope espectral
70
Carlos Alexandre Mello cabm@cin.ufpe.br
Tpicos sobre Sntese e
Reconhecimento de Voz
Carlos Alexandre Mello
71
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Processo de gerao de voz a partir de texto
Para qualquer string de palavras, um sintetizador de voz
pode aproximar a maneira que um humano leria estas
palavras
Processo chamado:
Sntese Texto-para-Voz
Sntese por Regra
72
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Primeira Soluo
Gravar uma pessoa falando todas as palavras
possveis de um dicionrio
Formar frases juntando as palavras
Problemas
Muitas palavras!! Precisa gravar as razes, os
verbos, variaes e as combinaes
Parapeito (para, peito e parapeito)
J uno simples das palavras no teria
naturalidade em uma sentena
73
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Uma palavra dita isoladamente est na
Forma de Citao
Frases contm uma entonao nas palavras
Esta sua casa.
Esta sua casa?
Esta soluo pode ser aplicada em casos
onde o dicionrio pequeno
Aplicaes para Telefone
S os dgitos precisam ser gravados
74
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Sintetizando Voz a partir de Texto
Dificuldades com Letras que tm pronncia de
outras letras:
Casa: S com som de Z
Melhor Soluo
Gravao de Fonemas
Sntese
1) Converte o texto para uma string de fonemas
2) Cria a sada da string de fonemas como uma forma de
onda
75
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Nmero de Fonemas em Linguagens:
13 a 75
Dicionrio fontico
Fonemas so gravados para cada palavra
Converso a partir de texto feita atravs de uma
consulta ao dicionrio
Decomposio Morfolgica das Palavras
Gato e Gatos (Gato+S)
76
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Regras
Usa conhecimento das regras da gramtica para
derivar a pronncia do texto
Vantagens:
Regras mais concisas
Mais flexvel
regras bem definidas podem gerar a pronncia de
quase toda palavra
Possibilidade de portabilidade das regras para diferentes
lnguas
77
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Texto para Fonemas
Passo 1: Normalizao
Converso de Smbolos em Texto Claro
R$ 40,00 = 40 Reais
Dr. Fulano = Doutor Fulano
Anlise Morfolgica
Parapeito = Para + Peito
Gatos = Gato + S
Afixos:
Realmente = Real + MENTE
Normalmente = Normal + MENTE
78
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Fatores Adicionais para Pronncia
Stress Lxico
Como gerar a Slaba mais forte?
Aumentar o Volume (amplitude)?
Fator secundrio!!!
Acrbata ou Acrobata?
79
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Acrbata
Acrobata
80
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Acrbata
Acrobata
Espectrogramas
81
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Fatores Adicionais para Pronncia
Co-Articulao
A pronncia de um fonema muda de acordo com os
fonemas que esto ao redor
Ingls:
Did you... ?
Did you... ? (som de J sem perda da compreenso)
82
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Did you...?
Did you...?
83
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Entonao
nfase em palavras na sentena
Esta sua casa.
Esta sua casa?
Entonao fcil de ser detectada pela
pontuao da frase
Mais complicado em sentenas grandes
84
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Esta sua casa.
Esta sua casa ?
85
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Esta sua casa.
Esta sua casa ?
Espectrogramas
86
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Fonemas para Sons
Sntese Paramtrica
Gera um sinal de voz variando parmetros que
controlam um modelo em software do trato vocal
Modelo = Fonte de Som + Filtros para simular o
comportamento do Trato Vocal
87
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
De Fonemas para Sons
Sntese Concatenativa
Consoantes geralmente so mais difceis de sintetizar do que
vogais
Curta durao e comportamento dinmico
Problema: Clusters de consoantes
str (estrada), pr (prato), ...
Pequenos segmentos de voz gravada so agrupados
Difones: pares de fonemas
Dades: Vogal-Consoante-Vogal
Construindo Sistema Interativo Computacional que
usa voz como sada
Voz gravada ou sintetizada
88
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Limitaes de Sada por Voz
Inteligibilidade
Velocidade
Sinal de Voz deve ser conciso e direto
Natureza temporal
Natureza serial
Espao de Armazenamento
Privacidade
Natureza Abrangente
Mltiplas Vozes
89
Carlos Alexandre Mello cabm@cin.ufpe.br
Sntese de Voz
Vantagens dos Sistemas por Voz
Acessibilidade
Canal alternativo de interao quando as mos
e olhos dos usurios esto ocupados
Traduo de meio
Transformar documentos de texto em voz
90
Carlos Alexandre Mello cabm@cin.ufpe.br
Reconhecimento de Voz
Componentes bsicos para um sistema de
reconhecimento de voz:
Uma representao conveniente da voz
Modelos (ou Templates)
Um Algoritmo de Classificao
Redes Neurais
91
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Dependente do Interlocutor
Reconhece apenas um interlocutor
Independente do Interlocutor
Reconhece qualquer interlocutor
Mais difcil
Geralmente tm dicionrio limitado
Adaptativo ao Interlocutor
Sistema Hbrido
Aceita um novo usurio sem que ele precise treinar o
sistema com toda palavra do vocabulrio
92
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Reconhece uma pequena srie de palavras
juntas como uma frase
No prprio para voz natural
Palavras Conectadas
Identifica palavras em uma longa string de voz
sem que o interlocutor faa pausas entre
grupos de palavras
Mais difcil; Maior taxa de erro
93
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Palavras Conectadas
94
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Isoladas
Palavras Conectadas
95
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Palavras Conectadas
Co-articulao muda a pronncia de palavras
como funo de seus vizinhos
difcil encontrar os limites das palavras dentro
de um sinal de voz fluente
No existe pausa significante
A probabilidade de erro aumenta como nmero
de palavras
Se a primeira palavra for reconhecida de forma
errada, o erro pode se propagar por toda a srie
96
Carlos Alexandre Mello cabm@cin.ufpe.br
Classes de Reconhecedores
Tamanho do Vocabulrio
Pequeno
<= 200 palavras
Mdio
200 a 5.000 palavras
Grande
5.000 a 10.000 palavras
Quanto maior o dicionrio, mais fcil o
casamento, mas mais longa a busca
97
Carlos Alexandre Mello cabm@cin.ufpe.br
Tcnicas Avanadas de
Reconhecimento de Voz
Dynamic Time Warping
Hidden Markov Models
Redes Neurais
Quantizao Vetorial
98
Carlos Alexandre Mello cabm@cin.ufpe.br
Processamento Digital de Voz
Referncias:
Digital Processing of Speech Signals,
L.R.Rabiner e R.W.Schafer, Prentice-Hall, 1978
Applied Speech and Audio Processing with
MatLab Examples, I.McLoughlin, Cambridge
Press, 2009
Voice Communication with Computers,
C.Schmandt, 1995
98