Escolar Documentos
Profissional Documentos
Cultura Documentos
1
0
) (
1
N
k
k x
N
En
(1)
onde En a energia mdia de um bloco composto
por N amostras de voz, e x(k) a amplitude da k-
sima amostra de voz de um bloco.
O sistema faz a deteco dos limites das
palavras de forma automtica. Assim, utilizou-se o
algoritmo descrito para realizar tal tarefa, que
permite ao usurio, a qualquer momento, iniciar
uma locuo sem a necessidade de "avisar" o
sistema.
Incio
Preenche
bloco com
dados de Voz
Calcula
energia (En)
do bloco
En > limiar
Contador=0
Descarta
dados do
bloco
incrementa
Contador
Incio de palavra
detectado
Contador = 0
Preenche
bloco com
dados de Voz
Calcula
energia (En)
do bloco
En < limiar
Contador=0
Descarta
dados do
bloco
incrementa
Contador
Contador >
Tempo de Fim
Fimde palavra
detectado
no
sim
Contador >
Tempo de Incio
sim
no
sim
no
sim no
FIGURA 1: Algoritmo para deteco de limites de
palavra.
Foram utilizados blocos de 32 bytes ou 16
amostras de voz, tempo de incio de 70ms ou 48
blocos, tempo de fim igual a 150ms ou 103 blocos.
3 PR-PROCESSAMENTO DO SINAL
Aps a aquisio do sinal de voz, realizado um
pr-processamento nas amostras a fim de prepar-
las para a extrao de suas caractersticas
(Papamichalis, 1987; Kil e Shin, 1996; Picone,
1993). Tais caractersticas so utilizadas no
algoritmo de reconhecimento de padres. O pr-
processamento composto pelas etapas de pr-
nfase, diviso do sinal em frames e janelamento.
3.1 Pr-nfase
A pr-nfase objetiva eliminar uma tendncia
espectral de aproximadamente -6dB/oitava na fala
irradiada dos lbios. Essa distoro espectral no
traz informao adicional e pode ser eliminada
atravs da aplicao de um filtro, de resposta
aproximadamente +6dB/oitava, que ocasionaria um
nivelamento no espectro. Para um sistema digital,
tais pr-nfases podem ser implementadas como um
circuito analgico, o qual precede o filtro e o
amostrador, ou como uma operao digital no sinal
amostrado, atravs de um filtro FIR de primeira
ordem. O efeito de ascenso de +6dB/oitava pode
ser obtido pela diferenciao da entrada. A equao
2 descreve o pr-enfatizamento realizado no sinal
amostrado.
) 1 ( . ) ( ) ( n x a n x n y
(2)
para
M n < 1
, onde M o nmero de amostras
do sinal amostrado x(n), y(n) o sinal pr-
enfatizado e o parmetro constante "a"
usualmente escolhido entre 0,9 e 1. Foi utilizado
"a" igual a 0,95.
3.2 Diviso do Sinal em Frames e Janelamento
Em todas as aplicaes prticas de
processamento de sinais, necessrio trabalhar com
"pequenas pores" ou frames do sinal, a no ser
que o sinal seja de curtssima durao. Isso
verdade especialmente se estivermos utilizando
tcnicas de anlise convencionais de sistemas
lineares invariantes no tempo (LTI). Nesse caso
necessrio selecionar uma poro de sinal que possa
ser razoavelmente assumida como estacionria.
Formalmente, definimos um frame de voz como
sendo o produto de uma janela discreta w(n) de
tamanho L e terminando no tempo "l", com relao
seqncia de voz discreta (pr-enfatizada) y(n),
resultando na seleo de um pedao do sinal pr-
enfatizado, como mostra a equao 3.
) ( ). ( ) ( n l w n y n f
(3)
onde f(n) um frame do sinal pr-enfatizado y(n), e
w(n) a janela aplicada.
A janela de hamming foi utilizada, por
apresentar caractersticas espectrais interessantes e
por atenuar a transio entre frames adjacentes. Sua
descrio matemtica pode ser vista na equao 4.
As janelas usualmente so sobrepostas entre si, para
que a variao dos parmetros entre janelas
sucessivas seja mais gradual. Foram utilizadas
janelas de tamanho igual a 330 amostras ou 30ms,
aplicadas a cada 10ms de sinal.
'
<
,
_
<
L n
L n
n
n
n w
0
0
1 330
2
cos 46 , 0 54 , 0
0 0
) (
(4)
4 EXTRAO DOS PARMETROS
A partir das amostras que compem um frame
de voz, so utilizadas tcnicas para obteno dos
coeficientes representantes do mesmo. Nesse
trabalho, so utilizados dois tipos de coeficientes:
os cepstrais e os mel-cepstrais. Esses coeficientes
proporcionam uma reduo no volume de dados,
sem perda significativa de informao til. Essa
reduo de dimenso nos fornece sistemas
reconhecedores mais robustos e eficientes.
4.1 Coeficientes Mel-cepstrais
A anlise homomrfica foi desenvolvida como
uma forma de desconvoluir dois sinais. Anlise
homomrfica considerada til para o
processamento da fala, pois oferece uma
metodologia para a separao do sinal de excitao
da resposta impulsiva do trato vocal. No
modelamento matemtico para a produo do sinal
vocal (Deller, Proakis e Hansen, 1987; Rabiner e
Juang, 1993), temos que um frame f(n) do sinal
vocal (pr-enfatizado) y(n) pode ser escrito como o
produto da convoluo do sinal de excitao u(n)
com a resposta impulsiva do trato vocal h(n), como
visto na equao 5.
) ( ) ( ) ( n h n u n f
(5)
A representao no domnio freqncia desse
processo atravs da aplicao da transformada de
Fourier, transforma a operao de convoluo em
multiplicao. Aplicando-se a funo logartmica,
transformamos a multiplicao na soma (ou
sobreposio) de sinais, como mostra a equao 6.
{ } ( ) { } ( ) { } ( ) ) ( log ) ( log ) ( log n h n u n f F F F +
(6)
onde
{ } F
representa a aplicao da transformada
discreta de Fourier (DFT).
Aplicando-se a transformada inversa nesse sinal
tem-se o cepstrum ou coeficientes cepstrais do sinal
de voz. Sabe-se que a parcela do sinal de excitao
varia mais rapidamente que a resposta impulsiva do
trato vocal, ento os dois sinais poderiam ser
separados no domnio cepstral. Na prtica, so
utilizados apenas os primeiros coeficientes
componentes do cepstrum. Tais coeficientes contm
a informao relativa ao trato vocal, que est
intimamente relacionada com o locutor.
Atualmente, muitos sistemas utilizam os
coeficientes mel-cepstrais (mel frequency cepstral
coefficients MFCC) para o reconhecimento de voz
(Picone, 1993; Deller, Proakis e Hansen, 1987). A
anlise mel-cepstral vem progressivamente
substituindo a forma tradicional de utilizao de
parmetros cepstais previamente descritos. A
diferena entre o clculo dos coeficientes cepstrais
e dos coeficientes mel-cepstrais est na aplicao de
um banco de filtros digitais ao espectro real do
sinal, antes da aplicao da funo logartmica. Tais
filtros no esto linearmente espaados no domnio
freqncia. O objetivo de tais filtros uma tentativa
de aproximar a resposta humana a sinais sonoros.
Mel a unidade de medida de freqncias ou picos
percebidos de um tom. Essa unidade no
corresponde linearmente freqncia fsica bem
como, aparentemente, o ouvido humano tambm
no o faz. possvel traar uma comparao entre a
freqncia real (medida em Hz) e a freqncia
percebida (medida em mels). Logo, o espaamento
dos filtros digitais deve respeitar a escala de
freqncias percebidas (escala Mel). Podemos
definir uma funo para mapeamento da freqncia
acstica f (em Hz) para uma escala de freqncias
percebidas Mel (em mels) como mostra a equao
7.
,
_
+
700
1 log . 2595
10
f
Mel
(7)
Uma forma de aplicar os filtros digitais de forma
espaada segundo a escala Mel seria primeiramente
mapear as freqncias acsticas (em Hz) para a
escala de freqncias percebidas (em mels), e aps
aplicar um banco de filtros espaados linearmente
nesse domnio (domnio mel). Isso corresponderia
aplicao de filtros digitais espaados segundo a
escala mel, no domnio das freqncias reais.
O processo de obteno dos MFCC
matematicamente descrito na equao 8.
1
]
1
,
_
K
k
K
k n k S n c
1
2
1
cos . ) ( log ) (
(8)
para
P n < 0
, onde c(n) o n-simo coeficiente
mel-cepstral, P o nmero de coeficientes mel-
cepstrais extrados, K o nmero de filtros digitais
utilizados e S(k) o sinal de sada do banco de
filtros digitais. Usualmente utilizada a
transformada inversa do coseno (ICT) para
obteno dos MFCC ao invs da transformada
inversa discreta de Fourier. A utilizao dessa
transformada inversa refora a informao til nos
MFCC iniciais.
A aplicao de uma janela de ponderao aos
coeficientes mel-cepstrais obtidos, chamada janela
de janela de liftro, amplamente empregada em
reconhecimento de voz (Deller, Proakis e Hansen,
1987), apresentando bons resultados. Seu objetivo
enfatizar componentes com maior informao
espectral til. Tal ponderao ln) dada pela
equao 9.
,
_
+
Q
n Q
n l
sin
2
1 ) (
(9)
para
P n < 0
, onde Q uma constante chamada
de coeficiente de liftro (usualmente igual a 22) e P
o nmero de coeficientes previamente extrados.
5 CLASSIFICAO DOS PADRES
A partir dos coeficientes extrados, procedemos
ao reconhecimento de padres. Neste trabalho, a
tcnica utilizada para o reconhecimento de padres
a Quantizao Vetorial Multiseco. Um padro
o conjunto de vetores oriundos de uma locuo.
Denomina-se vetor o conjunto de coeficientes
extrados de um frame de voz. Existem trs etapas
distintas no processo de classificao de padres
atravs da quantizao vetorial (Makhoul, Roucos e
Gish,1985; Gray,1984; Burton,1987; Rosenberg e
Soong,1987; Soong, Rosenberg e Juang,1987), que
so a gerao de codebook, a quantizao de um
padro desconhecido, e a comparao ou medida
de distoro. Adicionalmente, mostrado como a
tcnica de quantizao vetorial pode ser melhorada
utilizando-se um artifcio chamado multiseco.
Tendo-se um universo de vetores p-
dimensionais, so estabelecidos vetores (tambm p-
dimensionais) representantes desse universo. Esses
vetores representantes so chamados centrides. O
conjunto de todos os centrides chamado de
codebook. Os centrides so em nmero muito
menor que o nmero de vetores que compem o
universo. Assim, podemos discretizar qualquer
vetor p-dimensional em um entre os centrides
previamente treinados. Quantizao a converso
de um vetor de entrada em um cdigo relacionado a
vetores de mesma dimenso previamente treinados
(centrides).
5.1 Gerao de Codebook
O objetivo da etapa de gerao de codebook
estabelecer referncias para posterior classificao.
Nessa etapa, criado um codebook por locutor
cadastrado no sistema. Nesse caso, estabelecido
tambm um limiar associado a cada codebook.
A etapa de gerao de codebook consiste na
gerao dos nveis discretos que cada vetor poder
assumir os centrides. Esses nveis so
armazenados em um codebook. Para a gerao de
tal codebook, utilizado um grupo de vetores de
treinamento. Os centrides encontrados nessa etapa
devem ser os melhores representantes dos vetores
de treinamento. Em outras palavras, os centrides
devem ser tais que minimizem o somatrio da
distoro de cada vetor de treinamento relacionado
com seu respectivo centride. Um determinado
codebook chamado timo (ou globalmente timo)
se, para um nmero T de centrides, a distoro
mdia de todos os vetores de treinamento (distoro
mdia global), quando comparados com o centride
associado, menor que a distoro mdia produzida
por qualquer outro codebook de T centrides. A
associao entre um vetor qualquer e o centride
que melhor o representa feita utilizando a regra de
seleo pela mnima distoro (nearest neighbor).
O clculo da distoro mdia global (DMG)
realizado de acordo com a equao 10.
[ ]
D
Tr
d x y
n n
n
Tr
1
1
,
(10)
onde D a distoro mdia global, Tr o nmero
de vetores de treinamento, x
n
o n-simo vetor de
treinamento, y
n
o centride associado a x
n
, e
[ ] y x d ,
a medida de distoro entre os vetores x
e y.
O algoritmo para gerao de centrides utilizado
o Linde, Buzo e Gray (LBG) (Makhoul, Roucos e
Gish,1985; Soong, Rosenberg e Juang,1987).
5.2 Quantizao
A quantizao de um padro a escolha do
centride que melhor representa cada vetor. Isso
feito levando-se em conta a distncia entre o vetor
em questo e todos os centrides existentes no
codebook que est sendo utilizado.
O mtodo mais simples para realizar uma
quantizao de uma seqncia de vetores, chamado
full search, seria o de comparar cada vetor da
seqncia com todos os centrides armazenados no
codebook. O centride mais "semelhante"
assumido como representante do vetor em questo.
O processamento necessrio para executarmos uma
quantizao atravs desse mtodo, porm,
enorme. Um outro mtodo, chamado tree search,
armazena todos os centrides que foram sendo
duplicados e considerados "estveis" ou prontos
para prxima duplicao, e a quantizao
realizada atravs da comparao entre o vetor em
questo e os dois centrides que as comparaes
anteriores indicaram. A figura 2 ilustra o mtodo
tree search, onde o vetor a ser quantizado
primeiramente comparado com os dois centrides
iniciais. Decidido qual dos dois centrides mais
"semelhante", o vetor comparado ento com os
prximos dois centrides que foram derivados do
primeiro centride "vencedor", e assim por diante.
O centride associado ao vetor em questo ser
escolhido na ltima comparao.
Vetor a ser
quantizado
...
...
...
...
Centrides
Resultantes
FIGURA 2: Mtodo tree search para
quantizao de um vetor.
5.3 Comparao
Como ltima etapa do processo de classificao
de padres temos a comparao entre dois vetores.
A comparao realizada atravs do clculo da
distoro entre eles. H vrios tipos de medidas de
distoro entre vetores que podem ser utilizadas em
reconhecimento de voz. A medida de distoro
mnima ou euclidiana a medida mais conhecida.
Outro tipo de medida de distoro que aproxima
com maior fidelidade a medida de distoro de
mxima verossimilhana (que a medida que
espelha a distoro entre variveis aleatrias com
distribuio gaussiana), chamada de distncia de
Mahalanobis, descrita pela equao 11.
) ( ) ( ] , [
1
y x y x y x d
T
(11)
onde
[ ] y x d ,
a medida de distoro entre o vetor
x e o vetor y, e
a matriz diagonal de
covarincia do vetor y.
Podemos reescrever a equao 11, como mostra
a equao 12.
p
p p
y x
y x y x
y x d
2
2
2
2 2
1
2
1 1
) (
...
) ( ) (
] , [
+ +
(12)
onde
[ ] y x d ,
a medida de distoro entre o vetor
x e o vetor y, p a dimenso do vetor y e do vetor x,
x
i
a i-sima componente dimensional do vetor x,
y
i
a i-sima componente dimensional do vetor
y,
i
(13)
onde Li o limiar associado ao i-simo codebook,
in
i
o desvio
padro correspondente s distores obtidas com as
amostras de voz que pertencem ao i-simo locutor,
e
out
i