Você está na página 1de 7

UTILIZAO DE TCNICAS DE PROCESSAMENTO DIGITAL DE SINAIS PARA A

IDENTIFICAO AUTOMTICA DE PESSOAS PELA VOZ


Adriano Petry, Adriano Zanuz, Dante Augusto Couto Barone
Instituto de Informtica
Universidade Federal do Rio Grande do Sul
Porto Alegre - RS
{adpetry, zanuz, barone}@inf.ufrgs.br
RESUMO
Este trabalho apresenta os resultados obtidos com a utilizao de tcnicas de processamento digital de sinais para a
identificao automtica de pessoas pela voz. So descritas as metodologias utilizadas nas etapas de aquisio do
sinal vocal, deteco automtica dos limites das palavras, pr-processamento, extrao das caractersticas e
classificao dos padres vocais. Obteve-se com os testes realizados uma performance de 90% de aceitao das
pessoas com direito de acesso e 96% de rejeio de impostores.
ABSTRACT
This work presents the results obtained using digital signal processing techniques to accomplish automatic people
identity verification through speech. It is described the methodologies used in speech signal acquisition, automatic
word limits detection, pre-processing, features extraction and vocal pattern recognition. The results have been
provided 90% for registered people acceptation rate and 96% for impostors rejection rate.
1 INTRODUO
A rea de processamento da fala possui uma
grande variedade de aplicaes. Por exemplo, sinais
de voz podem ser analisados de uma forma
particular para se obter uma melhor compresso de
dados visando sua transmisso. Um uso mais
recente para o processamento de voz o
reconhecimento automtico de voz (RAV), onde
uma pessoa pode interagir com mquinas atravs da
fala. Outra aplicao so os sistemas de segurana,
que podem analisar uma amostra de voz e
identificar a pessoa que a produziu. Esses sistemas
utilizam tecnologia para o reconhecimento
automtico de locutores (RAL).
Em aplicaes de RAL, o sinal de voz no
apenas amostrado e classificado utilizando tcnicas
de reconhecimento de padres. A identidade de um
locutor est intrinsecamente associada s
caractersticas fisiolgicas e comportamentais da
voz. As principais informaes contidas no sinal
devem ser filtradas do sinal amostrado. Para obter
esta informao representativa, a voz
primeiramente pr-processada e ento so utilizados
algoritmos para extrao dos parmetros do sinal
vocal. O conjunto de parmetros de uma amostra de
voz compe um padro, que pode ser classificado.
Este trabalho apresenta os resultados obtidos
utilizando-se tcnicas de processamento digital de
sinais para a identificao automtica de pessoas
pela voz. A primeira seo mostra a metodologia
empregada para realizar a aquisio automtica do
sinal vocal, e simultnea deteco dos limites das
palavras. A seguir, so mostradas as tcnicas usadas
para a realizao do pr-processamento do sinal e
extrao das caractersticas representativas do sinal
pr-processado. Aps, uma tcnica para
classificao dos padres mostrada. Concluindo,
so analisados os resultados obtidos com a
implementao prtica das tcnicas descritas
anteriormente para o reconhecimento de pessoas
pela voz.
2 AQUISIO DO SINAL DE VOZ E
DETECO AUTOMTICA DOS LIMITES
DAS PALAVRAS
A aquisio do sinal de voz realizada
utilizando-se um microfone conectado a um filtro
passa baixas, cuja sada est ligada a uma placa de
som instalada em um computador pessoal. A
freqncia de corte do filtro de 4,5KHz. A placa
de som transforma o sinal analgico filtrado em
amostras digitais, a uma taxa de 11025Hz, com
resoluo de 16 bits por amostra. Tais amostras so
processadas por um algoritmo de deteco de
limites de palavras (Luft, 1991), que identifica
quando uma palavra iniciou e terminou, gravando
os dados da palavra em um arquivo.
O parmetro de medida utilizado pelo algoritmo
de deteco de limites de palavras a energia mdia
contida em um bloco. Um bloco um conjunto
composto por um nmero fixo de amostras de voz.
O clculo da energia mdia pode ser visto na
equao 1. O incio de uma possvel palavra
considerado a partir do primeiro bloco onde a
energia ultrapassa um limiar pr-determinado. Para
que os blocos seguintes constituam realmente um
incio de palavra, a energia deles deve permanecer
acima do limiar durante um perodo de tempo pr-
estabelecido chamado tempo de incio. Caso a
energia de um bloco caia abaixo do limiar antes do
fim deste perodo, as amostras at ento
armazenadas so descartadas e a procura pelo incio
de palavra recomea. Caso a energia mdia dos
blocos se mantenha superior ao limiar por todo o
tempo de incio, comeamos a procura pelo fim da
palavra. O mtodo de deteco do fim de palavra
idntico ao mtodo de deteco de incio, descrito
anteriormente. A diferena est na procura de
blocos com energia inferior estabelecida no
limiar. Da mesma forma, os blocos devem
permanecer com energia inferior ao limiar por um
certo perodo de tempo para que se considere
atingido o fim de palavra. Tal perodo de tempo
chamado tempo de fim. Os blocos que compem o
tempo de fim no so considerados como
componentes da palavra. O algoritmo de deteco
de limites de palavra mostrado na figura 1.

1
0
) (
1
N
k
k x
N
En
(1)
onde En a energia mdia de um bloco composto
por N amostras de voz, e x(k) a amplitude da k-
sima amostra de voz de um bloco.
O sistema faz a deteco dos limites das
palavras de forma automtica. Assim, utilizou-se o
algoritmo descrito para realizar tal tarefa, que
permite ao usurio, a qualquer momento, iniciar
uma locuo sem a necessidade de "avisar" o
sistema.
Incio
Preenche
bloco com
dados de Voz
Calcula
energia (En)
do bloco
En > limiar
Contador=0
Descarta
dados do
bloco
incrementa
Contador
Incio de palavra
detectado
Contador = 0
Preenche
bloco com
dados de Voz
Calcula
energia (En)
do bloco
En < limiar
Contador=0
Descarta
dados do
bloco
incrementa
Contador
Contador >
Tempo de Fim
Fimde palavra
detectado
no
sim
Contador >
Tempo de Incio
sim
no
sim
no
sim no
FIGURA 1: Algoritmo para deteco de limites de
palavra.
Foram utilizados blocos de 32 bytes ou 16
amostras de voz, tempo de incio de 70ms ou 48
blocos, tempo de fim igual a 150ms ou 103 blocos.
3 PR-PROCESSAMENTO DO SINAL
Aps a aquisio do sinal de voz, realizado um
pr-processamento nas amostras a fim de prepar-
las para a extrao de suas caractersticas
(Papamichalis, 1987; Kil e Shin, 1996; Picone,
1993). Tais caractersticas so utilizadas no
algoritmo de reconhecimento de padres. O pr-
processamento composto pelas etapas de pr-
nfase, diviso do sinal em frames e janelamento.
3.1 Pr-nfase
A pr-nfase objetiva eliminar uma tendncia
espectral de aproximadamente -6dB/oitava na fala
irradiada dos lbios. Essa distoro espectral no
traz informao adicional e pode ser eliminada
atravs da aplicao de um filtro, de resposta
aproximadamente +6dB/oitava, que ocasionaria um
nivelamento no espectro. Para um sistema digital,
tais pr-nfases podem ser implementadas como um
circuito analgico, o qual precede o filtro e o
amostrador, ou como uma operao digital no sinal
amostrado, atravs de um filtro FIR de primeira
ordem. O efeito de ascenso de +6dB/oitava pode
ser obtido pela diferenciao da entrada. A equao
2 descreve o pr-enfatizamento realizado no sinal
amostrado.
) 1 ( . ) ( ) ( n x a n x n y
(2)
para
M n < 1
, onde M o nmero de amostras
do sinal amostrado x(n), y(n) o sinal pr-
enfatizado e o parmetro constante "a"
usualmente escolhido entre 0,9 e 1. Foi utilizado
"a" igual a 0,95.
3.2 Diviso do Sinal em Frames e Janelamento
Em todas as aplicaes prticas de
processamento de sinais, necessrio trabalhar com
"pequenas pores" ou frames do sinal, a no ser
que o sinal seja de curtssima durao. Isso
verdade especialmente se estivermos utilizando
tcnicas de anlise convencionais de sistemas
lineares invariantes no tempo (LTI). Nesse caso
necessrio selecionar uma poro de sinal que possa
ser razoavelmente assumida como estacionria.
Formalmente, definimos um frame de voz como
sendo o produto de uma janela discreta w(n) de
tamanho L e terminando no tempo "l", com relao
seqncia de voz discreta (pr-enfatizada) y(n),
resultando na seleo de um pedao do sinal pr-
enfatizado, como mostra a equao 3.
) ( ). ( ) ( n l w n y n f
(3)
onde f(n) um frame do sinal pr-enfatizado y(n), e
w(n) a janela aplicada.
A janela de hamming foi utilizada, por
apresentar caractersticas espectrais interessantes e
por atenuar a transio entre frames adjacentes. Sua
descrio matemtica pode ser vista na equao 4.
As janelas usualmente so sobrepostas entre si, para
que a variao dos parmetros entre janelas
sucessivas seja mais gradual. Foram utilizadas
janelas de tamanho igual a 330 amostras ou 30ms,
aplicadas a cada 10ms de sinal.

'

<
,
_

<

L n
L n
n
n
n w
0
0
1 330
2
cos 46 , 0 54 , 0
0 0
) (

(4)
4 EXTRAO DOS PARMETROS
A partir das amostras que compem um frame
de voz, so utilizadas tcnicas para obteno dos
coeficientes representantes do mesmo. Nesse
trabalho, so utilizados dois tipos de coeficientes:
os cepstrais e os mel-cepstrais. Esses coeficientes
proporcionam uma reduo no volume de dados,
sem perda significativa de informao til. Essa
reduo de dimenso nos fornece sistemas
reconhecedores mais robustos e eficientes.
4.1 Coeficientes Mel-cepstrais
A anlise homomrfica foi desenvolvida como
uma forma de desconvoluir dois sinais. Anlise
homomrfica considerada til para o
processamento da fala, pois oferece uma
metodologia para a separao do sinal de excitao
da resposta impulsiva do trato vocal. No
modelamento matemtico para a produo do sinal
vocal (Deller, Proakis e Hansen, 1987; Rabiner e
Juang, 1993), temos que um frame f(n) do sinal
vocal (pr-enfatizado) y(n) pode ser escrito como o
produto da convoluo do sinal de excitao u(n)
com a resposta impulsiva do trato vocal h(n), como
visto na equao 5.
) ( ) ( ) ( n h n u n f
(5)
A representao no domnio freqncia desse
processo atravs da aplicao da transformada de
Fourier, transforma a operao de convoluo em
multiplicao. Aplicando-se a funo logartmica,
transformamos a multiplicao na soma (ou
sobreposio) de sinais, como mostra a equao 6.
{ } ( ) { } ( ) { } ( ) ) ( log ) ( log ) ( log n h n u n f F F F +
(6)
onde
{ } F
representa a aplicao da transformada
discreta de Fourier (DFT).
Aplicando-se a transformada inversa nesse sinal
tem-se o cepstrum ou coeficientes cepstrais do sinal
de voz. Sabe-se que a parcela do sinal de excitao
varia mais rapidamente que a resposta impulsiva do
trato vocal, ento os dois sinais poderiam ser
separados no domnio cepstral. Na prtica, so
utilizados apenas os primeiros coeficientes
componentes do cepstrum. Tais coeficientes contm
a informao relativa ao trato vocal, que est
intimamente relacionada com o locutor.
Atualmente, muitos sistemas utilizam os
coeficientes mel-cepstrais (mel frequency cepstral
coefficients MFCC) para o reconhecimento de voz
(Picone, 1993; Deller, Proakis e Hansen, 1987). A
anlise mel-cepstral vem progressivamente
substituindo a forma tradicional de utilizao de
parmetros cepstais previamente descritos. A
diferena entre o clculo dos coeficientes cepstrais
e dos coeficientes mel-cepstrais est na aplicao de
um banco de filtros digitais ao espectro real do
sinal, antes da aplicao da funo logartmica. Tais
filtros no esto linearmente espaados no domnio
freqncia. O objetivo de tais filtros uma tentativa
de aproximar a resposta humana a sinais sonoros.
Mel a unidade de medida de freqncias ou picos
percebidos de um tom. Essa unidade no
corresponde linearmente freqncia fsica bem
como, aparentemente, o ouvido humano tambm
no o faz. possvel traar uma comparao entre a
freqncia real (medida em Hz) e a freqncia
percebida (medida em mels). Logo, o espaamento
dos filtros digitais deve respeitar a escala de
freqncias percebidas (escala Mel). Podemos
definir uma funo para mapeamento da freqncia
acstica f (em Hz) para uma escala de freqncias
percebidas Mel (em mels) como mostra a equao
7.

,
_

+
700
1 log . 2595
10
f
Mel
(7)
Uma forma de aplicar os filtros digitais de forma
espaada segundo a escala Mel seria primeiramente
mapear as freqncias acsticas (em Hz) para a
escala de freqncias percebidas (em mels), e aps
aplicar um banco de filtros espaados linearmente
nesse domnio (domnio mel). Isso corresponderia
aplicao de filtros digitais espaados segundo a
escala mel, no domnio das freqncias reais.
O processo de obteno dos MFCC
matematicamente descrito na equao 8.

1
]
1

,
_


K
k
K
k n k S n c
1
2
1
cos . ) ( log ) (

(8)
para
P n < 0
, onde c(n) o n-simo coeficiente
mel-cepstral, P o nmero de coeficientes mel-
cepstrais extrados, K o nmero de filtros digitais
utilizados e S(k) o sinal de sada do banco de
filtros digitais. Usualmente utilizada a
transformada inversa do coseno (ICT) para
obteno dos MFCC ao invs da transformada
inversa discreta de Fourier. A utilizao dessa
transformada inversa refora a informao til nos
MFCC iniciais.
A aplicao de uma janela de ponderao aos
coeficientes mel-cepstrais obtidos, chamada janela
de janela de liftro, amplamente empregada em
reconhecimento de voz (Deller, Proakis e Hansen,
1987), apresentando bons resultados. Seu objetivo
enfatizar componentes com maior informao
espectral til. Tal ponderao ln) dada pela
equao 9.

,
_

+
Q
n Q
n l

sin
2
1 ) (
(9)
para
P n < 0
, onde Q uma constante chamada
de coeficiente de liftro (usualmente igual a 22) e P
o nmero de coeficientes previamente extrados.
5 CLASSIFICAO DOS PADRES
A partir dos coeficientes extrados, procedemos
ao reconhecimento de padres. Neste trabalho, a
tcnica utilizada para o reconhecimento de padres
a Quantizao Vetorial Multiseco. Um padro
o conjunto de vetores oriundos de uma locuo.
Denomina-se vetor o conjunto de coeficientes
extrados de um frame de voz. Existem trs etapas
distintas no processo de classificao de padres
atravs da quantizao vetorial (Makhoul, Roucos e
Gish,1985; Gray,1984; Burton,1987; Rosenberg e
Soong,1987; Soong, Rosenberg e Juang,1987), que
so a gerao de codebook, a quantizao de um
padro desconhecido, e a comparao ou medida
de distoro. Adicionalmente, mostrado como a
tcnica de quantizao vetorial pode ser melhorada
utilizando-se um artifcio chamado multiseco.
Tendo-se um universo de vetores p-
dimensionais, so estabelecidos vetores (tambm p-
dimensionais) representantes desse universo. Esses
vetores representantes so chamados centrides. O
conjunto de todos os centrides chamado de
codebook. Os centrides so em nmero muito
menor que o nmero de vetores que compem o
universo. Assim, podemos discretizar qualquer
vetor p-dimensional em um entre os centrides
previamente treinados. Quantizao a converso
de um vetor de entrada em um cdigo relacionado a
vetores de mesma dimenso previamente treinados
(centrides).
5.1 Gerao de Codebook
O objetivo da etapa de gerao de codebook
estabelecer referncias para posterior classificao.
Nessa etapa, criado um codebook por locutor
cadastrado no sistema. Nesse caso, estabelecido
tambm um limiar associado a cada codebook.
A etapa de gerao de codebook consiste na
gerao dos nveis discretos que cada vetor poder
assumir os centrides. Esses nveis so
armazenados em um codebook. Para a gerao de
tal codebook, utilizado um grupo de vetores de
treinamento. Os centrides encontrados nessa etapa
devem ser os melhores representantes dos vetores
de treinamento. Em outras palavras, os centrides
devem ser tais que minimizem o somatrio da
distoro de cada vetor de treinamento relacionado
com seu respectivo centride. Um determinado
codebook chamado timo (ou globalmente timo)
se, para um nmero T de centrides, a distoro
mdia de todos os vetores de treinamento (distoro
mdia global), quando comparados com o centride
associado, menor que a distoro mdia produzida
por qualquer outro codebook de T centrides. A
associao entre um vetor qualquer e o centride
que melhor o representa feita utilizando a regra de
seleo pela mnima distoro (nearest neighbor).
O clculo da distoro mdia global (DMG)
realizado de acordo com a equao 10.
[ ]
D
Tr
d x y
n n
n
Tr

1
1
,
(10)
onde D a distoro mdia global, Tr o nmero
de vetores de treinamento, x
n
o n-simo vetor de
treinamento, y
n
o centride associado a x
n
, e
[ ] y x d ,
a medida de distoro entre os vetores x
e y.
O algoritmo para gerao de centrides utilizado
o Linde, Buzo e Gray (LBG) (Makhoul, Roucos e
Gish,1985; Soong, Rosenberg e Juang,1987).
5.2 Quantizao
A quantizao de um padro a escolha do
centride que melhor representa cada vetor. Isso
feito levando-se em conta a distncia entre o vetor
em questo e todos os centrides existentes no
codebook que est sendo utilizado.
O mtodo mais simples para realizar uma
quantizao de uma seqncia de vetores, chamado
full search, seria o de comparar cada vetor da
seqncia com todos os centrides armazenados no
codebook. O centride mais "semelhante"
assumido como representante do vetor em questo.
O processamento necessrio para executarmos uma
quantizao atravs desse mtodo, porm,
enorme. Um outro mtodo, chamado tree search,
armazena todos os centrides que foram sendo
duplicados e considerados "estveis" ou prontos
para prxima duplicao, e a quantizao
realizada atravs da comparao entre o vetor em
questo e os dois centrides que as comparaes
anteriores indicaram. A figura 2 ilustra o mtodo
tree search, onde o vetor a ser quantizado
primeiramente comparado com os dois centrides
iniciais. Decidido qual dos dois centrides mais
"semelhante", o vetor comparado ento com os
prximos dois centrides que foram derivados do
primeiro centride "vencedor", e assim por diante.
O centride associado ao vetor em questo ser
escolhido na ltima comparao.
Vetor a ser
quantizado
...
...
...
...
Centrides
Resultantes
FIGURA 2: Mtodo tree search para
quantizao de um vetor.
5.3 Comparao
Como ltima etapa do processo de classificao
de padres temos a comparao entre dois vetores.
A comparao realizada atravs do clculo da
distoro entre eles. H vrios tipos de medidas de
distoro entre vetores que podem ser utilizadas em
reconhecimento de voz. A medida de distoro
mnima ou euclidiana a medida mais conhecida.
Outro tipo de medida de distoro que aproxima
com maior fidelidade a medida de distoro de
mxima verossimilhana (que a medida que
espelha a distoro entre variveis aleatrias com
distribuio gaussiana), chamada de distncia de
Mahalanobis, descrita pela equao 11.
) ( ) ( ] , [
1
y x y x y x d
T


(11)
onde
[ ] y x d ,
a medida de distoro entre o vetor
x e o vetor y, e

a matriz diagonal de
covarincia do vetor y.
Podemos reescrever a equao 11, como mostra
a equao 12.
p
p p
y x
y x y x
y x d

2
2
2
2 2
1
2
1 1
) (
...
) ( ) (
] , [

+ +

(12)
onde
[ ] y x d ,
a medida de distoro entre o vetor
x e o vetor y, p a dimenso do vetor y e do vetor x,
x
i
a i-sima componente dimensional do vetor x,
y
i
a i-sima componente dimensional do vetor
y,
i

a varincia da i-sima componente


dimensional do vetor y.
5.4 Multiseco
A tcnica de quantizao vetorial descrita utiliza
um codebook para cada locutor. Essa tcnica no
preserva a caracterstica temporal de tais amostras.
Essa falta de caracterizao explcita de aspectos
seqenciais das amostras pode ser remediada.
Utiliza-se para isso a tcnica chamada Quantizao
Vetorial Multiseo (Multi-Section Vector
Quantization MSVQ).
O processo de MSVQ idntico ao processo
usual de quantizao vetorial, com a diferena que
as amostras de treinamento so divididas em
pedaos de mesmo tamanho. Uma palavra falada
com determinada durao, e se for repetida pelo
mesmo locutor ter sua durao diferente da
anterior. Mas se repartssemos a palavra em partes
de tamanhos idnticos, teramos cada pedao com,
praticamente, a mesma informao. Geramos ento
um codebook para cada pedao da palavra. Quando
desejssemos avaliar uma palavra a ser classificada,
repartiramos tambm tal palavra e cada pedao
seria avaliado com o codebook correspondente. Isso
evita que vetores localizados, por exemplo, no final
da amostra a ser classificada sejam associados a
centrides gerados com vetores do incio das
amostras de treinamento. Dessa forma, a MSVQ faz
com que cada vetor da amostra a ser classificada s
possa ser associado a um centride com alguma
correspondncia temporal com tal vetor. A figura 3
ilustra o processo de treinamento ou gerao dos
codebooks utilizando, por exemplo, N amostras de
treinamento, subdivididas em trs partes iguais.
Quando uma amostra fosse classificada, ela seria
tambm repartida em trs partes iguais e cada parte
s poderia ter seus vetores associados aos
centrides pertencentes ao codebook
correspondente quela parte.
Codebook 1 Codebook 2 Codebook 3
Amostra 1
Amostra 2
Amostra 3
Amostra N
FIGURA 3: Treinamento da quantizao
multiseo
5.5 Metodologia Utilizada para Classificao
Toda a anlise terica mostrada anteriormente
no evidencia claramente como utilizada a tcnica
de quantizao vetorial para a classificao de um
padro vocal desconhecido. Aps o sistema ter sido
treinado, efetuada a verificao de locutor, que
definir se o usurio foi previamente cadastrado.
Treinamento
Para a realizao do processo de treinamento do
sistema, tem-se um codebook para cada um dos
locutores cadastrados no sistema. O codebook de
um determinado locutor obtido utilizando
amostras de voz daquele locutor especfico.
tambm estabelecido um limiar associado a cada
codebook. O clculo do limiar associado a cada
codebook assume distribuio gaussiana
(Burton,1987). Ele estabelecido levando-se em
conta as distores geradas por dois tipos de
amostras de voz: as que geraram o codebook as que
sabidamente no pertencem quele locutor. O limiar
calculado de acordo com a equao 13.
in
i
out
i
in
i
out
i
out
i
in
i
i
L


+
+

(13)
onde Li o limiar associado ao i-simo codebook,
in
i

a mdia entre os valores de distoro obtidos


com as amostras de voz que pertencem ao i-simo
locutor,
out
i

a mdia entre os valores de


distoro obtidos com as amostras de voz que no
pertencem ao i-simo locutor,
in
i

o desvio
padro correspondente s distores obtidas com as
amostras de voz que pertencem ao i-simo locutor,
e
out
i

o desvio padro correspondente s


distores obtidas com as amostras de voz que no
pertencem ao i-simo locutor.
Verificao de Locutor
Para verificar a amostra de voz como
pertencente a um determinado locutor
primeiramente calcula-se a distoro acumulada
obtida quantizando o padro desconhecido com o
codebook daquele locutor e comparando os vetores
resultantes com os vetores do padro inicial, vetor a
vetor. Aps, feita uma comparao entre tal
distoro e o limiar associado. Se a distoro
acumulada for superior ao limiar, a amostra de voz
que est sendo avaliada no reconhecida como
pertencente ao locutor em questo. Caso contrrio,
aceita-se a amostra de voz como pertencente quele
locutor. Faz-se realmente apenas uma verificao de
locutor, ou seja, a amostra avaliada pertence ou no
ao locutor.
6 TESTES REALIZADOS
O treinamento de locutores foi realizado
utilizando 50 locutores. Foram usadas 10 repeties
da palavra "andar" para cada locutor, totalizando
500 arquivos. O clculo do limiar necessita
amostras de voz faladas por locutores no
cadastrados. Assim, para cada um dos 50 locutores
tambm so utilizados no treinamento 1 repetio
da palavra "andar" falada por 37 locutores
diferentes do 50 cadastrados.
No reconhecimento dos locutores cada um dos
50 locutores tentou acessar 10 vezes o sistema no
qual foi cadastrado. Essas verificaes compem a
taxa de aceitao de locutores com direito de
acesso, ou apenas aceitao. Cada um dos 50
locutores tambm tentou 4500 vezes o acesso sem
permisso. Essas tentativas de acesso compem a
taxa de rejeio de impostores, ou apenas rejeio.
Na figura 4 nota-se que a rejeio a impostores
aumenta, quando aumenta-se o nmero de
centrides em cada codebook de 2 (figura 4-a) para
4 (figura 4-b). Entretanto, a taxa de aceitao de
locutores cadastrados cai de forma mais acentuada.
Como nosso sistema deve otimizar ambas taxas,
codebooks com 2 centrides so preferidos,
apresentando inclusive menor necessidade de
processamento.
(a)
(b)
FIGURA 4: Taxa de verificao de locutor para 14
MFCC utilizando (a) 2 centrides por codebook e
(b) 4 centrides por codebook
Podemos notar na figura 5 uma queda gradual
na taxa de rejeio de impostores, com o aumento
do nmero de coeficientes mel-cepstrais utilizados.
A taxa de aceitao de locutores com acesso no
varia muito no intervalo para o nmero de
coeficientes proposto. Fica claro, ento, que a
utilizao de coeficientes excessivos prejudica a
verificao de locutores, da mesma forma que o faz
com as taxas de reconhecimento de comandos.
FIGURA 5: Taxa de verificao de locutor variando
o nmero de coeficientes mel-cepstrais
Para os testes realizados, o melhor resultado que
maximiza as taxas de aceitao e rejeio
apresentou 90% de aceitao de locutores com
direito de acesso e 96% de rejeio de impostores.
7 CONCLUSES
Neste trabalho foram apresentadas tcnicas
utilizadas para o reconhecimento automtico de
pessoas pela voz.
O reconhecimento de locutor uma rea
especfica que ainda tem muito a desenvolver. A
extrao de novos coeficientes, que representem de
forma mais fiel as caractersticas singulares do
locutor poder nos levar criao de sistemas mais
confiveis e robustos. Seria ainda importante que
tais coeficientes fossem cada vez mais
independentes do estado emocional do locutor, de
anomalias momentneas no aparelho respiratrio
(como resfriados ou inflamaes) ou do ambiente
onde realizada a aquisio da voz. Isso facilitaria
a implementao de sistemas onde a segurana e
confiabilidade imperativo, como o sistema
descrito anteriormente.
AGRADECIMENTOS
Os autores agradecem a Fundao de Amparo
Pesquisa do Estado do Rio Grande do Sul
(FAPERGS) e o Conselho Nacional de
Desenvolvimento Cientfico e Tecnolgico (CNPq)
por seu apoio financeiro.
REFERNCIAS BIBLIOGRFICAS
LUFT, Joel Augusto, Reconhecimento Automtico
de Voz para Palavras Isoladas e Independente
de Locutor. Dissertao de mestrado,
Universidade Federal do Rio Grande do Sul -
Escola de Engenharia, 1991.
PAPAMICHALIS, Panos E., Pratical Approaches
to Speech Coding. Prentice Hall, 1987.
KIL, David H.; SHIN, Frances B., Pattern
Recognition and Prediction with Applications to
Signal Characterization. AIP Press, American
Institute of Physics, 1996.
PICONE, Joseph W, Signal Modeling Techniques
in Speech Recognition. Proceedings of The
IEEE, vol. 81, no. 9, september 1993, 1215-
1247.
DELLER, John R.; PROAKIS, John G.; HANSEN,
John H. L., Discrete-time Processing of Speech
Signals. Prentice Hall, 1987.
RABINER, Lawrence; JUANG, Biing-Hwang,
Fundamentals of Speech Recognition.
Prentice Hall, 1993.
MAKHOUL, John; ROUCOS, Salim; GISH,
Herbert, Vector Quantization in Speech
Coding. Proceedings of the IEEE, vol. 73, no.
11, novembre 1985, 1551-1587, 1985.
GRAY, Robert M., Vector Quantization.
Readings in Speech Recognition, 75-100, 1984.
BURTON, David K., Text-Dependent Speaker
Verification Using Vector Quantization Source
Coding. IEEE Transactions on Acoustics,
Speech, and Signal Processing, , vol. ASSP-35,
133-143, 1987.
ROSENBERG, A. E.; SOONG, F. K., Evaluation
of a Vector Quantization Talker Recognition
System in Text Independent and Text
Dependent Modes. Computer Speech and
Language, 22, 143-157, 1987.
SOONG, Frank K., ROSENBERG, Aaron E.,
JUANG, Biing-Hwang, RABINER, Lawrence
R., A Vector Quantization Approach to
Speaker Recognition. AT&T Technical
Journal, vol. 66, Issue 2, march/april 1987, 14-
26, 1987.

Você também pode gostar