Escolar Documentos
Profissional Documentos
Cultura Documentos
VIOSA
MINAS GERAIS BRASIL
JUNHO/2005
______________________________
______________________________
______________________________
______________________________
-2-
-3-
Agradecimentos
-4-
RESUMO
REDES NEURAIS ARTIFICIAIS APLICADAS AO RECONHECIMENTO DE
COMANDOS DE VOZ
-5-
ABSTRACT
-6-
Lista de Figuras
Figura 1 - Diagrama de blocos do modelo geral de um sistema RAV ....................................................... 14
Figura 2 - Diagrama de blocos do filtro digital tipo FIR forma direta ..................................................... 16
Figura 3 - (a) Comando de Voz (CVZ) no tempo (b) Energia de um CVZ no normalizado ..................... 20
Figura 4 - Neurnio de McCulloch e Pitts ................................................................................................. 22
Figura 5 - Classificao das RNA. (a) Rede de Camada nica (b) Redes de mltiplas camadas (c) Redes
feedback. (a) e (b) so exemplos de redes feed forward. ............................................................. 23
Figura 6 - Arquitetura das Redes MLP ...................................................................................................... 24
Figura 7 - Pronncia de um comando de voz (a) Amostra do padro pra no-saturada (b) Amostra
do padro atrs saturada ........................................................................................................ 30
Figura 8 - Pronncia do padro direita para visualizao de rudos de fundo na zona de silncio ..... 30
Figura 9 - Amplificao de rudo por aplicao indevido de janela de Hamming sobre uma amostra do
padro atrs (a) Sinal original adquirido (b) Sinal janelado.................................................. 31
Figura 10 - Pronncia do padro esquerda, anlise de energia do sinal e centralizao do sinal com
base no bico de energia................................................................................................................ 32
Figura 11 - (a) Sinal de voz filtrado e no normalizado (b) Sinal de voz normalizado tomando como base
o maior valor em mdulo do sinal (c) Sinal de voz normalizado tomando como referncia o
mximo valor negativo e positivo do sinal. .................................................................................. 35
Figura 12 - Deteco de incio e fim utilizando o mtodo de energia do sinal. Ei1, Ei2, Ef1 e Ef2 so os
patamares predefinidos de energia, bem como a largura do salto. ............................................. 36
Figura 13 - Anlise de energia do Filtro Bilinear e Butterworth............................................................... 39
Figura 14 - Anlise de Fourier para o sinal original e processado ........................................................... 40
Figura 15 - Comparao entre a amostra do sinal original e do processado ........................................... 41
Figura 16 - Diagrama de Funcionamento do Sistema RAV em Execuo no Prottipo ............................ 48
-7-
Lista de Tabelas
Tabela 1 Tipos de janelas generalizadas de co-seno .............................................................................. 17
Tabela 2 - RNA treinada pelo algoritmo BR para 8 LPC ......................................................................... 42
Tabela 3 RNA treinada pelo algoritmo BR para 10 LPC ........................................................................ 42
Tabela 4 RNA treinada pelo algoritmo BR para 12 LPC ........................................................................ 43
Tabela 5 RNA treinada pelo algoritmo LM para 8 LPC ......................................................................... 43
Tabela 6 RNA treinada pelo algoritmo LM para 10 LPC ....................................................................... 44
Tabela 7 RNA treinada pelo algoritmo LM para 12 LPC ....................................................................... 44
Tabela 8 Resumo dos resultados alcanado nos treinamentos dos padres pelos algoritmos de
Levenberg - Marquard e Regularizao Bayesiana ..................................................................... 45
Tabela 9 - Codificao das aes de acordo com o CVZ pronunciado ..................................................... 49
Tabela 10 - Lista de comandos e os resultados de um locutor previamente treinado perante a RNA para a
validao do sistema RAV ............................................................................................................ 50
Tabela 11 - Lista de comandos e os resultados de um locutor desconhecido perante a RNA para a
validao do sistema RAV ............................................................................................................ 51
Tabela 12 Comparao do comando de voz antes e aps processamento digital de sinais .................... 53
-8-
Abreviaes
BR
Bayesian Regularization
FFT
FIR
IIR
LPC
LM
Levenberg - Marquardt
Reconhecimento de Locutor
-9-
Sumrio
Introduo ______________________________________________________ 11
2.2
2.2.1
2.2.2
2.2.3
2.3
2.3.1
2.3.2
2.3.3
2.3.4
Objetivos ________________________________________________________ 28
3.1
3.2
Materiais e Mtodos_______________________________________________ 29
4.1
4.2
4.2.1
4.3
Concluses ______________________________________________________ 46
Desenvolvimento ___________________________________________________ 48
A.2
A.3
Concluso_________________________________________________________ 52
- 10 -
Introduo
A fala para as pessoas dotadas desta habilidade uma tarefa trivial que
Reviso Bibliogrfica
2.1
2.1.1 Introduo
Um sistema de reconhecimento de sinais de fala pode ser classificado de acordo
com o tamanho do vocabulrio, o grau de independncia do locutor e o tipo de
pronncia [3].
Considerando o tamanho do vocabulrio, este pode ser pequeno (at uma
centena de palavras distintas), mdio (com algumas centenas de palavras), grande (com
milhares de palavras). O sistema de reconhecimento torna-se mais complexo, medida
que o vocabulrio aumenta, pois treinar milhares de padres de referncia, por exemplo,
tornaria o processo bastante custoso, logo, invivel.
Quanto ao grau de dependncia do locutor, temos os sistemas dependente e
independente de locutor. No primeiro caso, o sistema est restrito a um conjunto
especfico de locutores previamente treinados. No segundo, encontramos um sistema
generalizado capaz de reconhecer Comandos de Voz (CVZ) de uma infinidade de
locutores, em contrapartida um sistema mais difcil de ser construdo.
A pronncia dos CVZ, por sua vez, pode ser executada de forma contnua ou
pausada. Existem sistemas de reconhecimento que utilizam palavras isoladas (palavras
pronunciadas com pausas entre si), palavras concatenadas (seqncias de palavras prestabelecidas faladas de forma contnua) e fala contnua (frases e oraes pronunciadas
de forma contnua). No ltimo sistema encontramos o maior grau de complexidade, pois
os limites de incio e fim de um padro de referncia so mais difceis de encontrar,
devido aos efeitos de coarticulao entre as palavras.
- 12 -
- 13 -
Padres de Referncia
Os padres so estabelecidos no momento em que se definem quais as palavras
sero reconhecidas, entretanto os padres de referncia so escolhidos aleatoriamente
entre todas as amostras adquiridas. Estes padres so utilizados para treinar o sistema e
as demais amostras para fazer o teste e a validao do mesmo [19]. Quanto maior for a
diversidade existente entre os padres de referncia de uma mesma unidade, maior ser
a robustez do sistema, pois a quantidade de informao abstrada tambm ser maior
durante a etapa de treinamento.
Comparao de Padres
Aps a etapa de treinamento, outro conjunto de amostras distintas dos padres
de referncia inserido no sistema para que se possa analisar a eficincia do
reconhecedor. As amostras desconhecidas so comparadas com os padres de referncia
- 14 -
2.2
2.2.1 Introduo
Para um sistema de RAV vivel converter um sinal de udio em um conjunto
estreito de parmetros que contenham as informaes relevantes do CVZ a fim de
facilitar a etapa de treinamento do sistema e minimizar o nmero de operaes
matemticas a serem executadas.
Nesta etapa ocorre a converso do sinal de modo que o computador possa
interpret-lo. Esta converso realizada no momento da aquisio do sinal durante a
criao da base de dados, onde ocorre a converso analgico-digital. Nesta etapa
tambm ocorre a deteco de incio e fim, aplicao de filtros e extrao dos
Coeficientes de Predio Linear (LPC Linear Prediction Coefficients). Este texto
uma adaptao de [17] [18] [11].
- 15 -
q =0
p =1
y (n) = bq x(n q ) a p y (n p )
eq. ( 1 )
- 16 -
2 .n
4 .n
y (n) = A B cos
+ C cos
N
N
eq. ( 2 )
Parmetros
Nome da
Janela
Hanning
0.50
0.50
0.00
Hamming
0.54
0.46
0.00
Blackman
0.42
0.5
0.08
H ( z ) = H ( s) s =2 f
eq. ( 3 )
z 1
z +1
- 17 -
H ( s) =
Ks
s + as + b
eq. ( 4 )
H ( j ) max =
K
a
eq. ( 5 )
H ( j c ) =
1
2
H ( j ) max
eq. ( 6 )
c1 =
a + a 2 + 4b
a + a 2 + 4b
e c2 =
2
2
eq. ( 7 )
H ( j ) =
1
1 +
c
eq. ( 8 )
2N
- 18 -
eq. ( 9 )
Ho
H (s ) =
eq. ( 10 )
(s p )
k
k =1
Onde:
H o = ( p k )
eq. ( 11 )
k =1
s' =
s 2 + o2
Bs
eq. ( 12 )
0 = c c
1
eq. ( 13 )
B = c 2 c1
E = x ( n) 2
eq. ( 15 )
n =1
Figura 3 - (a) Comando de Voz (CVZ) no tempo (b) Energia de um CVZ no normalizado
2.3
2.3.1 Introduo
As Redes Neurais Artificiais (RNA) so estruturas matemticas capazes de
aprender, memorizar e generalizar determinadas situaes e problemas a elas
apresentadas. Texto adaptado de [20] [21] [22].
- 20 -
2.3.2 Definio
O crebro humano constitudo por cerca 1011 neurnios, que recebem e enviam
informaes para milhares de outros a eles conectados. O crebro destinado a cuidar
em nosso corpo no que se trata de emoo, raciocnio e funes motoras. As RNA, por
sua vez, tm como ambio simular este mundo de atividades realizadas pelo crebro,
implementando o seu comportamento bsico e sua dinmica.
O modelo matemtico de um neurnio artificial foi proposto por Warren
McCulloch, psiquiatra e neuroanatomista, e Walter Pitts, matemtico, em 1943. O
modelo em si era uma simplificao do neurnio biolgico at ento conhecido na
poca. Para representar os dendritos, o modelo constou de n terminais de entrada de
informaes x1, x2, ..., xn e simplesmente um terminal de sada y, para representar o
axnio. Cada entrada apresenta um coeficiente ponderador que visa simulao das
sinapses, sendo que estes coeficientes so valores reais. De forma anloga ao neurnio
- 21 -
biolgico, a sinapse s ocorre quando a soma ponderada dos sinais de entrada ultrapassa
um limiar pr-definido, realizando, portanto uma atividade semelhante a do corpo. No
modelo proposto, o limiar foi definido de forma Booleana, dispara ou no dispara,
resultante de uma funo de ativao, conforme pode ser visto na Figura 4.
y = f ( x i wi + b )
eq. ( 16 )
i =1
Figura 5 - Classificao das RNA. (a) Rede de Camada nica (b) Redes de mltiplas camadas (c)
Redes feedback. (a) e (b) so exemplos de redes feed forward.
c) Quanto ao treinamento:
- 23 -
- 24 -
mse =
k
1
dip yip
k p i =1
eq. ( 17 )
msw =
k
1
wip
k p i =1
( )
eq. ( 18 )
eq. ( 19 )
- 26 -
- 27 -
Objetivos
3.1
Objetivo Geral
Este trabalho tem como objetivo identificar comandos de voz (CVZ) de palavras
3.2
Objetivos Especficos
Verificar
possibilidade
de
implementao
de
um
- 28 -
sistema
de
Materiais e Mtodos
4.1
Base de Dados
Visando um aprendizado inicial sobre RAV, os padres escolhidos para
- 29 -
Figura 7 - Pronncia de um comando de voz (a) Amostra do padro pra no-saturada (b)
Amostra do padro atrs saturada
4.2
Figura 8 - Pronncia do padro direita para visualizao de rudos de fundo na zona de silncio
- 30 -
Figura 9 - Amplificao de rudo por aplicao indevido de janela de Hamming sobre uma amostra
do padro atrs (a) Sinal original adquirido (b) Sinal janelado
Para evitar problemas futuros como este, durante a aplicao de janelas, faz-se a
centralizao do CVZ tomando como base o valor absoluto de maior valor energtico.
Aps encontrar este valor, verifica-se distncia entre o incio da amostra e o ponto de
pico e a distncia entre o pico e o fim. A menor distncia adotada e espelhada sobre o
maior de modo que o pico de energia esteja no centro da amostra (Figura 10) e
conseqentemente h uma reduo no tamanho da zona de silncio.
- 31 -
[7]. Neste trabalho implementada a primeira tcnica. Contudo antes de separar a zona
de silncio do sinal relevante de voz necessrio trabalhar sobre o sinal adquirido e
tentar minimizar os rudos inerentes do processo de aquisio, filtrar as freqncias
indevidas e normalizar a amplitude do sinal [8].
Primeiramente, aplica-se um filtro digital do tipo FIR (Finite Impulse Response),
denominado filtro de pr-nfase, que apresenta a seguinte transformada Z:
f ( z ) = 1 .z 1
eq. ( 20 )
- 32 -
y (n ) = x(n ) .x(n 1)
eq. ( 21 )
Onde x(n) o sinal amostrado e o parmetro pode variar entre 0,9 e 1,0 para
sinais sonoros, e ter valores prximos de zero, para sinais surdos [12]. Neste trabalho
adotou-se o valor de 0,95, pois sinais de voz apresentam caractersticas sonoras. Esta
diferenciao age como um filtro passa alta, com o objetivo de compensar a atenuao
de 6dB/oitava nas altas freqncias, devido radiao da fala nos lbios de
(+6dB/oitava) [9]. O filtro de pr-nfase atua como um atenuador da tenso de off-set
inserida no sinal de voz no momento da aquisio.
Com a finalidade de atenuar parte do rudo branco inerente no processo de
aquisio, foi utilizado um filtro mdia mvel de terceira ordem, composto
simplesmente zeros, conseqentemente, estveis, dado pela equao (25):
y (n ) =
1 2
x(n k )
3 k =0
eq. ( 22 )
H (s ) =
4900 s
s + 4900 s + 500000
eq. ( 23 )
- 33 -
eq. ( 24 )
y (n ) =
x(n )
max x(n )
eq. ( 25 )
Outro mtodo utilizado foi encontrar o maior valor positivo e negativo e lev-los
a unidade atentando para o sinal correspondente (equao (26)). Porm esta ltima
apresenta a desvantagem de deslocar o zero caso os mximos no apresentem simetria
de valor com a origem (distintos em mdulo), o que no ocorre no primeiro caso.
y (n ) = 2
eq. ( 26 )
- 34 -
Figura 11 - (a) Sinal de voz filtrado e no normalizado (b) Sinal de voz normalizado tomando como
base o maior valor em mdulo do sinal (c) Sinal de voz normalizado tomando como referncia o
mximo valor negativo e positivo do sinal.
Anlise de Energia
A anlise de energia foi apresentada anteriormente com o objetivo de centralizar
o CVZ a partir do pico mximo de energia do sinal e neste momento ter como
finalidade encontrar os limites das palavras.
Encontrar os limites precisos de incio e fim de um CVZ um problema difcil
de ser resolvido [16], todavia para um sinal normalizado, a deteco dos limites pela
anlise de energia se torna mais simples, pois possibilita estipular patamares fixos. Para
o caso em que o nvel de rudo de fundo de baixa intensidade, a tarefa de encontrar os
limites trivial, pois basta determinar um patamar de energia acima da energia do rudo
e comparar durante o comando de voz. Contudo, pode ocorrer que em certos casos
imprevisveis um nvel de rudo ultrapasse este patamar, sendo necessrio, portanto,
determinar outro patamar de maior intensidade com a finalidade de indicar que a
energia do sinal est se elevando. Outro artifcio a ser utilizado dar saltos (incrementos
- 35 -
Figura 12 - Deteco de incio e fim utilizando o mtodo de energia do sinal. Ei1, Ei2, Ef1 e Ef2 so os
patamares predefinidos de energia, bem como a largura do salto.
Neste trabalho foi adotado um salto equivalente a 20ms, pois para um sinal de
voz no h tanta alterao na amplitude como ocorre nos casos de rudos de impacto,
conforme acontece na regio desprezada na Figura 12. Os patamares de energia Ei1 e Ef1
so denominados patamares de silncio de incio e de fim da pronncia,
respectivamente. Os percentuais adotados para estes patamares so 1% para o incio e
0,2% para o fim em relao amplitude unitria da energia do CVZ. Os patamares Ei2 e
Ef2 so destinados confirmao de que a energia do comando de voz ainda cresce
- 36 -
mesmo aps o salto, tanto do incio para o fim da amostra quanto do fim para o incio.
Os valores adotados foram 2,5% e 0,5% da energia mxima do CVZ.
Aps encontrar os limites do CVZ define-se um novo vetor, desprezando o que o
algoritmo interpretou como zona de silncio ou rudo de fundo. Este novo vetor
apresenta um menor volume de dados com as mesmas informaes de interesse. Aps o
corte na amostra original, aplica-se uma janela de Hamming para atenuar a insero de
freqncia nas bordas devido ao novo truncamento do sinal e realiza-se uma nova
normalizao da amostra.
4.3
Redes Neurais
Aps a etapa de processamento do CVZ suposto que o mesmo apresente
- 37 -
eq. ( 27 )
- 38 -
Resultados e Discusses
A definio do tipo de filtro a ser utilizado dentre os citados anteriormente para
- 39 -
- 40 -
- 41 -
da camada oculta (nnco) e a resposta final da rede. A resposta final (rf) determinada
pela porcentagem de todas as amostras que a rede ou equivocou ou errou.
Tabela 2 - RNA treinada pelo algoritmo BR para 8 LPC
algoritmo
NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
Regularizao Bayesiana
8 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
0,00
0,00
0,00
7,50
0,00
10,00
0,00
0,00
0,62
0,00
0,00
0,00
0,00
5,00
0,00
0,00
0,00
0,00
0,62
0,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,62
0,00
0,00
0,00
1,88
7,50
0,00
2,50
0,00
0,00
0,62
validao
erro
equvoco
5,00
5,00
0,00
6,25
15,00
2,50
15,00
10,00
0,00
8,75
10,00
5,00
0,00
5,00
15,00
7,50
25,00
11,25
15,00
7,50
10,00
3,75
5,00
1,25
20,00
8,75
15,00
5,00
15,00
3,75
15,00
5,00
5,00
6,25
10,00
3,75
20,00
8,75
5,00
3,75
RF
1,67
1,67
2,67
5,00
2,67
2,00
1,33
3,67
4,67
3,33
1,67
0,67
4,00
2,33
2,33
2,33
3,00
2,67
4,00
1,67
algoritmo
NNCO
Regularizao Bayesiana
10 coeficientes LPC
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
treinamento
erro
equvoco
0,00
0,62
0,00
0,00
2,50
0,00
2,50
0,00
0,00
0,00
5,00
1,88
0,00
0,00
10,00
0,00
7,50
0,00
0,00
0,00
2,50
1,88
2,50
0,00
5,00
0,62
20,00
1,88
5,00
0,00
7,50
1,88
5,00
0,00
5,00
0,00
5,00
0,00
10,00
0,00
- 42 -
validao
erro
equvoco
30,00
1,25
5,00
6,25
20,00
3,75
25,00
5,00
5,00
2,50
20,00
6,25
15,00
2,50
35,00
11,25
35,00
7,50
20,00
2,50
15,00
6,25
10,00
3,75
35,00
2,50
20,00
3,75
0,00
3,75
20,00
7,50
0,00
7,50
25,00
5,00
30,00
11,25
35,00
3,75
RF
2,67
2,00
2,67
3,33
1,00
4,67
1,67
6,67
5,33
2,00
4,00
2,00
4,00
6,00
1,67
5,33
2,67
3,67
5,67
4,67
algoritmo NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
5
Regularizao Bayesiana
12 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
0,00
0,00
0,62
17,50
0,62
5,00
0,00
0,00
0,00
0,00
0,00
2,50
0,00
7,50
1,25
7,50
0,00
0,00
0,62
0,00
0,00
0,00
0,00
5,00
0,00
2,50
0,00
2,50
0,62
0,00
0,00
0,00
0,00
5,00
0,62
7,50
0,00
0,00
0,62
validao
erro
equvoco
20,00
3,75
5,00
6,25
25,00
7,50
30,00
7,50
10,00
1,25
20,00
11,25
10,00
1,25
30,00
23,75
30,00
6,25
10,00
3,75
25,00
7,50
25,00
2,50
30,00
22,50
25,00
11,25
5,00
1,25
20,00
7,50
5,00
3,75
55,00
17,50
40,00
6,25
10,00
5,00
RF
2,33
2,33
6,33
4,67
1,00
4,33
1,33
10,00
4,67
2,00
3,67
2,33
8,67
5,00
1,33
3,33
1,33
9,33
5,33
2,33
algoritmo NNCO
Levenberg-Marquardt
8 coeficientes LPC
5
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
treinamento
erro
equvoco
0,00
0,00
0,00
0,62
10,00
0,00
2,50
0,00
0,00
0,62
2,50
0,00
2,50
1,25
7,50
0,00
7,50
0,00
0,00
1,25
0,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
5,00
0,00
7,50
0,00
0,00
1,25
- 43 -
validao
erro
equvoco
5,00
3,75
10,00
3,75
5,00
3,75
30,00
3,75
10,00
2,50
10,00
2,50
5,00
11,25
20,00
6,25
30,00
7,50
5,00
1,25
20,00
2,50
5,00
6,25
5,00
13,75
30,00
6,25
10,00
5,00
10,00
6,25
0,00
7,50
10,00
2,50
30,00
10,00
10,00
2,50
RF
1,33
2,00
2,67
3,33
1,67
1,67
4,33
4,00
5,00
1,33
2,00
2,00
4,33
3,67
2,00
2,33
2,00
2,00
5,67
2,00
algoritmo NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
5
Levenberg-Marquardt
10 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
1,25
0,00
0,62
5,00
0,00
15,00
0,00
0,00
0,62
2,50
1,25
2,50
0,62
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,62
2,50
0,00
2,50
0,00
7,50
0,00
2,50
0,00
0,00
0,62
2,50
0,00
7,50
1,25
5,00
0,62
2,50
0,00
validao
erro
equvoco
10,00
10,00
15,00
2,50
15,00
2,50
30,00
5,00
0,00
6,25
10,00
6,25
5,00
2,50
20,00
3,75
15,00
10,00
10,00
2,50
30,00
7,50
0,00
3,75
30,00
13,75
20,00
16,25
15,00
1,25
15,00
3,75
25,00
2,50
25,00
3,75
20,00
12,50
10,00
0,00
RF
4,00
2,00
2,33
5,33
2,00
3,33
1,67
2,67
3,67
1,33
4,33
1,33
6,00
6,67
1,67
2,33
2,67
4,33
5,67
1,00
algoritmo NNCO
Levenberg-Marquardt
12 coeficientes LPC
5
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
Treinamento
erro
equvoco
2,50
0,00
0,00
0,00
7,50
0,00
7,50
0,00
0,00
0,00
5,00
0,00
0,00
0,00
7,50
1,88
10,00
0,62
0,00
0,62
0,00
0,00
0,00
0,00
10,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,00
5,00
0,00
0,00
0,00
- 44 -
validao
erro
equvoco
20,00
6,25
5,00
3,75
5,00
1,25
15,00
3,75
10,00
0,00
10,00
2,50
5,00
5,00
40,00
11,25
35,00
7,50
5,00
3,75
25,00
3,75
5,00
5,00
40,00
20,00
40,00
10,00
5,00
5,00
15,00
18,75
0,00
1,25
35,00
10,00
35,00
7,50
30,00
5,00
RF
3,33
1,33
1,67
3,00
0,67
2,00
1,67
7,67
6,00
1,67
2,67
1,67
9,33
5,33
2,00
6,00
0,33
5,00
5,00
3,33
As linhas em negrito indicam a estrutura com RF mais baixa para cada padro
em funo do algoritmo de treinamento e do nmero de LPC extrados, variando
simplesmente o NNCO.
As Tabelas mostraram que alguns padres obtiveram um baixo ndice de erro ou
equvoco como, por exemplo, pra e atrs.
A Tabela 8 a seguir explicita um resumo dos resultados tomando como base o
algoritmo de treinamento das estruturas neurais.
Tabela 8 Resumo dos resultados alcanado nos treinamentos dos padres pelos algoritmos de
Levenberg - Marquard e Regularizao Bayesiana
Algoritmo
Padro
Frente
Atrs
Direita
Esquerda
Pra
Levenberg - Marquard
Erro da Rede
Estrutura
1,33%
[8 5 1]
0,33%
[12 20 1]
1,67%
[12 5 1]
3,00%
[12 5 1]
0,67%
[12 5 1]
Regularizao Bayesiana
Erro da Rede
Estrutura
1,67%
[8 15 1]
0,67%
[8 15 1]
2,67%
[10 5 1]
2,33%
[8 15 1]
1,00%
[10 5 1]
Segundo Adami [2], um sistema RAV deve ter um erro da rede inferior a 2,50%
e conforme explicitado na Tabela 8, os padres esquerda e direita resultantes do
algoritmo de treinamento de Levenberg - Maquard e Regularizao Bayesiana,
respectivamente, extrapolam este valor.
Foi possvel verificar durante teste que medida que cresce o nmero de
parmetros efetivos da RNA no h uma melhora to significativa, como ocorre nos
algoritmos de treinamento LM e BR para 12 LPC e 20 neurnios na camada
intermediria. Logo, para nmeros superiores de parmetros no haver reduo de erro
ou equvoco, provavelmente.
Foram testadas RNA com duas camadas intermedirias, as quais no
apresentaram respostas satisfatrias, alm de serem muito mais complexas
matematicamente e difceis de treinar.
- 45 -
Concluses
Primeiramente, a reduo da quantidade de elementos da amostra de CVZ
- 46 -
Referncias Bibliogrficas
[01] Moreira, F. (1998). Reconhecimento automtico de fala contnua. Trabalho de Concluso de Curso.
Engenharia Eltrica AAPS. Portugal 1998. ........................................................................................ 11
[02] Adami, A.G. (1997). Sistemas de reconhecimento de locutor utilizando Redes Neurais Artificiais.
Tese de Mestrado. Cincia da Computao - Universidade Federal do Rio Grande do Sul 1997. .... 11,
17, 37
[03] Furui, S. (1989). Digital speech processing, synthesis and recognitions. Marcel Dekker, Inc 1989.
............................................................................................................................................................... 12
[04] Lee, K. F. (1990). Context-dependent phonetic hidden Markov models for speaker-independent
continous speech recognition. IEEE transactions on acoustics speech and signal processing. April
1990. ...................................................................................................................................................... 13
[05] Ynoguti, C. A. (1999). Reconhecimento de fala contnua usando modelos ocultos de Markov. Tese
de Doutorado. UNICAMP, 1999. .......................................................................................................... 13
[06] Cox, R.V., Rabiner, L.R. (1999). Digital signal processing handbook, speech processing.Chapman &
Hall 1999. ........................................................................................................................................... 13
[07] Rabiner, L. R. (1974). An Algorithm for Locating the Beginning and End of an Utterance Using
ADPCM Coded. Speech, L. H. Rosenthal, R. W. Schafer and L. R. Rabiner, Bell System Tech. Journ.,
Vol. 53, No. 6, pp. 1127-1135, July-August 1974 ................................................................................. 32
[08] Ribas, J. C., Cunha, F. L., Cliquet Jr, A. (2002). Sistema de Controle por Voz Aplicado
Reabilitao Humana. XVIII Congresso Brasileiro de Engenharia Biomdica, Vol. 1, pp 149-154, So
Jos dos Campos, SP, Brasil 2002.. .................................................................................................... 32
[09] Dias, R. S. F. (2000). Normalizao de locutor em sistema de reconhecimento de fala. Tese de
Mestrado, UNICAMP 2000. ............................................................................................................... 33
[10] The MathWorks Inc. (2000). Signal Processing Toolbox User's Guide for Use with Matlab 2000..
............................................................................................................................................................... 16
[11] Johnson, D. E., Hilburn, J. L., Johnson, J. R. (1994). Fundamentos de Anlise de Circuitos Eltricos.
Ed LTC - 2000. ...................................................................................................................................... 15
[12] Sotomayor, C. A. M. (2003). Realce de Voz Aplicado Verificao Automtica de Locutor. Tese de
Mestrado, IME 2003. .......................................................................................................................... 33
[13] The Mathworks, Inc. (2000). Neural Network Toolbox, User's Guide for Use with Matlab 2000. . 26
[14] Cunha, A. R., Racz, A., da Silva, V. F. (2002). Sistema de Reconhecimento de Escrita Baseado em
Redes Neurais Artificiais. Projeto Final de Curso da USP 2002. ....................................................... 38
[15] Tanprasert, C., Wutiwiwatchai, C., Sae-Tang, S. (1999). Text-dependent Speaker Identification
Using Neural Network on Distinctive Thai Tone Marks. Internacional joint Conference on Neural
Network, July, 1999............................................................................................................................... 37
[16] Scavone, A. P. R. (1996). Reconhecimento de Palavrras por Modelos Ocultos de Markov. Tese de
Mestrado, USP - 1996............................................................................................................................ 35
[17] Diniz, P. S. R., da Silva, E. A. B., Netto, S. L. (2004). Processamento Digital de Sinais, Projeto e
Anlise de Sistemas. Ed. Bookman - 2004. ........................................................................................... 15
[18] Haykin, S., Veen, B. V. (2001). Sinais e Sistemas. Ed Bookman - 2002. .......................................... 15
[19] Martins, J. A. (1997). Avaliao de Diferentes Tcnicas para Reconhecimento de Fala. Tese de
Doutorada, UNICAMP - 1997. .............................................................................................................. 14
[20] Braga, A. P., Carvalho, A. C. P. L. F., Ludermir, T. B. (2000). Redes Neurais Artificiais, Teoria e
Aplicaes. Ed LTC - 2000. .................................................................................................................. 20
[21] Haykin, S. (2001). Redes Neurais, Princpios e Prtica. Ed. Bookman - 2001. .................................. 20
[22] Pgina na internet acecssada no dia 27 de fevereiro de 2005:
http://www.din.uem.br/ia/neurais/#neural ............................................................................................. 20
- 47 -
- 48 -
Comandos
Frente
Atrs
Direita
Esquerda
Pra
Motor Direito
Rotao
Rotao
AntiHorria
horria
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Desligado
Motor Esquerdo
Rotao
Rotao
AntiHorria
horria
Desligado
Ligado
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Desligado
Desligado
Codificao
(4 bits)
1001
0110
0001
1000
0000
- 49 -
frente
1
1
1
atrs
direita
esquerda
pra
2
1
1
no ind
1
2
1
1
1
2
1
2
1
1
2
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
- 50 -
frente
1
2
1
atrs
direita
esquerda
pra
no ind
1
2
2
2
1
1
1
1
1
2
2
2
1
2
1
2
1
1
2
1
2
1
1
1
1
1
2
2
1
1
1
1
1
1
2
2
1
1
2
1
1
1
2
1
1
2
1
1
1
- 51 -
sistema responde que o comando no foi identificado em 89,7% dos casos durante a
validao do sistema. Para locutores desconhecidos pelas RNA este nmero reduz para
51,7%, existindo, por conseguinte, uma tendncia maior de um locutor desconhecido
pronunciar um CVZ, por exemplo, frente e o sistema RAV classificar como direita.
O sistema RAV desenvolvido como qualquer outro sistema tem o atraso de
tempo inerente aos clculos realizados para a determinao da sada classificada, neste
trabalho o sistema apresentou um tempo de processamento em mdia de 4,74 segundos.
Esta medida foi realizada a partir do momento em que o locutor inicia a pronuncia do
comando de voz at o instante em que o motor responde ao comando dado ou o
programa em execuo exibe a mensagem de comando no identificado. importante
salientar que a parcela fixa de 3,00 segundos destinada aquisio do CVZ e o tempo
restante, denominado tempo morto ou tempo de resposta, em mdia de 1,74 segundos
aquele no qual o sistema entra em processo de clculo matemtico.
A.3 Concluso
Para um sistema RAV dependente de locutor torna-se evidente a relao entre os
locutores previamente treinados e outros desconhecidos durante o processo de
reconhecimento dos comandos de voz. Os locutores treinados se destacam at no
momento de equvoco, onde mais de uma RNA excitada e o sistema permanece
estvel ou repouso exigindo que um novo comando seja pronunciado em 89,7% dos
casos. Este fato ocorre tambm para locutores desconhecidos, todavia em menores
propores, 51,7% dos casos, enfatizando o erro que resulta na operao indevida da
sada do sistema, neste caso, a operao dos motores.
- 52 -
Padro
Antes
Aps
Frente
Atrs
Direita
Esquerda
Pra
- 53 -