Redes Neurais Artificiais Aplicadas Ao Reconhecimento de Comandos de Voz

UNIVERSIDADE FEDERAL DE VIOSA
CENTRO DE CINCIAS EXATAS E TECNOLGICAS

DEPARTAMENTO DE ENGENHARIA ELTRICA E DE PRODUO
CURSO DE ENGENHARIA ELTRICA
REDES NEURAIS ARTIFICIAIS APLICADAS AO

RECONHECIMENTO DE COMANDOS DE VOZ
ALEXANDRE SANTOS BRANDO
VIOSA
MINAS GERAIS BRASIL
JUNHO/2005
REDES NEURAIS ARTIFICIAIS APLICADAS AO

RECONHECIMENTO DE COMANDOS DE VOZ
ALEXANDRE SANTOS BRANDO
Trabalho de Concluso de Curso submetido

Universidade Federal de Viosa para a
obteno dos crditos referentes disciplina
Monografia e Seminrio do curso de
Engenharia Eltrica.
Aprovada: 29 de junho de 2005.
______________________________
______________________________
Prof. David Calhau Jorge

(Membro)
Prof. Ricardo dos Santos Ferreira

(Membro)
______________________________
______________________________
Prof. Jos Mrcio Costa

(Coordenador da Disciplina)
Prof. Tarcsio de Assuno Pizziolo

(Orientador)
-2-
A meus pais Osas e Ceclia e a

minha irm Simone pelo incentivo e
confiana depositados em mim.
-3-
Agradecimentos
Em primeiro lugar gostaria de agradecer ao professor Roselito de Albuquerque

Teixeira pela pacincia ao me mostrar os primeiros caminhos a seguir e muitas vezes
sanar minhas principais dvidas. E, principalmente, por ter cedido este projeto no qual
me dediquei durante a minha iniciao cientfica e nos trabalhos restantes para a
concluso deste projeto final de curso.
Ao meu orientador, Tarcsio de Assuno Pizziolo, deixo um agradecimento
especial pela escolha, norteamento e por acreditar na minha capacidade para a
realizao deste trabalho.
Aos colegas de trabalho, Renan Nominato e Matheus Faria, pelo auxlio nas
atividades de construo do prottipo e confeco do banco de dados.
Gostaria de agradecer a Isabele Costa, Daniel Cavalieri e Antonio Ribeiro Jr
por tantas vezes que me ouviram comentar minhas atividades e s vezes mesmo sem
entender prestavam ateno nas minhas palavras.
Aos amigos de classe que fazem parte da minha vida, agradeo pela
convivncia destes anos que passamos unidos e transpassando todas as barreiras a
ns impostas.
Agradeo profundamente aos meus pais, Ceclia dos Santos e Osas Brando,
a minha tia Celina dos Santos e a minha irm Simone Brando por me amar, apoiar e
incentivar concluso deste curso mesmo estando a vrios quilmetros de distncia.
A Deus por me conceder sabedoria e foras para executar este trabalho e vida
para que hoje eu possa agradecer a todas estas pessoas.
-4-
RESUMO
REDES NEURAIS ARTIFICIAIS APLICADAS AO RECONHECIMENTO DE
COMANDOS DE VOZ
Resumo: O presente trabalho tem como objetivo a implementao de um sistema de

reconhecimento automtico de voz (RAV) com vocabulrio e nmero de locutores
restritos. Tcnicas de processamento digital de sinais e Redes Neurais Artificiais (RNA)
so aqui utilizadas. A filtragem do sinal de voz realizada por software atravs da
aplicao de filtros digitais a fim de minimizar o efeito de borda devido ao truncamento
do sinal na etapa de aquisio e os rudos de fundo inerentes ao sinal. Rotinas para
deteco de incio e fim de cada Comando de Voz (CVZ) foram implementadas com a
finalidade de diminuir o tamanho do vetor o qual contem as amostras do sinal de voz.
Na fase de extrao de caractersticas, utilizam-se os Coeficientes de Predio Linear
(LPC). Os coeficientes extrados so normalizados e utilizados para treinar a RNA. A
fim de minimizar o overfitting (superajuste) por parte da RNA, utiliza-se um algoritmo
de retropropagao de erro com regularizao Bayesiana, que visa a maximizao da
capacidade de generalizao da rede. Esta, aps as etapas de treinamento e validao,
capaz de reconhecer CVZ de palavras isoladas para um vocabulrio restrito a cinco
comandos e um conjunto restrito de trs locutores. Executado estas operaes sobre um
CVZ, pde-se verificar uma reduo no esforo computacional na etapa de extrao de
caractersticas, devido a um menor volume de dados a interpretar, em mdia 73,6% em
relao ao vetor original.
Palavras-chave: comandos de voz, processamento digital de sinais, redes neurais
artificiais.
-5-
ABSTRACT
The present work has as objective the implementation of an Automatic Voice

Recognition (AVR) system with restricted vocabulary and number of speakers.
Techniques of Digital Signal Processing (DSP) and Artificial Neural Network (ANN)
were used. The voice signals filtering was realized in software by the application of
digital filters. Routines to find the begin and the end of each voice command were
implemented to reduce the vectors length whom contains the voice signal samples.
Linear Prediction Coefficients (LPC) were utilized to extract the voices characteristics.
These coefficients extracted were standardized and used to train ANN structure. For the
purpose to minimize the ANN overfitting, in this work was utilized the back-propagation
algorithm with Bayesian regularization. After training and validation, the ANN is
capable to recognize voice command of single words in a restricted vocabulary with
five commands and a restricted set of three speakers. With these operations, its
possible to minimize 73,6% of the dates and verify a reduction into the computational
strive.
Keywords: Voice Command, Digital Processing Signal, Artificial Neural Network
-6-
Lista de Figuras
Figura 1 - Diagrama de blocos do modelo geral de um sistema RAV ....................................................... 14
Figura 2 - Diagrama de blocos do filtro digital tipo FIR forma direta ..................................................... 16
Figura 3 - (a) Comando de Voz (CVZ) no tempo (b) Energia de um CVZ no normalizado ..................... 20
Figura 4 - Neurnio de McCulloch e Pitts ................................................................................................. 22
Figura 5 - Classificao das RNA. (a) Rede de Camada nica (b) Redes de mltiplas camadas (c) Redes
feedback. (a) e (b) so exemplos de redes feed forward. ............................................................. 23
Figura 6 - Arquitetura das Redes MLP ...................................................................................................... 24
Figura 7 - Pronncia de um comando de voz (a) Amostra do padro pra no-saturada (b) Amostra
do padro atrs saturada ........................................................................................................ 30
Figura 8 - Pronncia do padro direita para visualizao de rudos de fundo na zona de silncio ..... 30
Figura 9 - Amplificao de rudo por aplicao indevido de janela de Hamming sobre uma amostra do
padro atrs (a) Sinal original adquirido (b) Sinal janelado.................................................. 31
Figura 10 - Pronncia do padro esquerda, anlise de energia do sinal e centralizao do sinal com
base no bico de energia................................................................................................................ 32
Figura 11 - (a) Sinal de voz filtrado e no normalizado (b) Sinal de voz normalizado tomando como base
o maior valor em mdulo do sinal (c) Sinal de voz normalizado tomando como referncia o
mximo valor negativo e positivo do sinal. .................................................................................. 35
Figura 12 - Deteco de incio e fim utilizando o mtodo de energia do sinal. Ei1, Ei2, Ef1 e Ef2 so os
patamares predefinidos de energia, bem como a largura do salto. ............................................. 36
Figura 13 - Anlise de energia do Filtro Bilinear e Butterworth............................................................... 39
Figura 14 - Anlise de Fourier para o sinal original e processado ........................................................... 40
Figura 15 - Comparao entre a amostra do sinal original e do processado ........................................... 41
Figura 16 - Diagrama de Funcionamento do Sistema RAV em Execuo no Prottipo ............................ 48
-7-
Lista de Tabelas
Tabela 1 Tipos de janelas generalizadas de co-seno .............................................................................. 17
Tabela 2 - RNA treinada pelo algoritmo BR para 8 LPC ......................................................................... 42
Tabela 3 RNA treinada pelo algoritmo BR para 10 LPC ........................................................................ 42
Tabela 4 RNA treinada pelo algoritmo BR para 12 LPC ........................................................................ 43
Tabela 5 RNA treinada pelo algoritmo LM para 8 LPC ......................................................................... 43
Tabela 6 RNA treinada pelo algoritmo LM para 10 LPC ....................................................................... 44
Tabela 7 RNA treinada pelo algoritmo LM para 12 LPC ....................................................................... 44
Tabela 8 Resumo dos resultados alcanado nos treinamentos dos padres pelos algoritmos de
Levenberg - Marquard e Regularizao Bayesiana ..................................................................... 45
Tabela 9 - Codificao das aes de acordo com o CVZ pronunciado ..................................................... 49
Tabela 10 - Lista de comandos e os resultados de um locutor previamente treinado perante a RNA para a
validao do sistema RAV ............................................................................................................ 50
Tabela 11 - Lista de comandos e os resultados de um locutor desconhecido perante a RNA para a
validao do sistema RAV ............................................................................................................ 51
Tabela 12 Comparao do comando de voz antes e aps processamento digital de sinais .................... 53
-8-
Abreviaes
BR
Bayesian Regularization
CVZ Comando de Voz

DSP
Digital Signal Processing
FFT
Fast Fourier Transform
FIR
Finite Impulse Response
IIR
Infinity Impulse Response
LPC
Linear Prediction Coefficient
LM
Levenberg - Marquardt
MLP Multi Layer Perceptron

MSE Mean Square Error
RAV Reconhecimento Automtico de Voz
RL
Reconhecimento de Locutor
RNA Redes Neurais Artificiais
-9-
Sumrio
Lista de Figuras _______________________________________________________ 7

Lista de Tabelas _______________________________________________________ 8
Abreviaes __________________________________________________________ 9
1
Introduo ______________________________________________________ 11
Reviso Bibliogrfica _____________________________________________ 12

2.1
2.1.1
2.1.2
2.1.3
2.2
2.2.1
2.2.2
2.2.3
2.3
2.3.1
2.3.2
2.3.3
2.3.4
Sistemas de Reconhecimento de Voz ___________________________________ 12

Introduo _____________________________________________________________ 12
Base de Dados __________________________________________________________ 13
Reconhecimento do Sinal de Voz Baseado na Comparao de Padres ______________ 13
Processamento do Sinal de Fala ______________________________________ 15

Introduo _____________________________________________________________ 15
Filtros Digitais __________________________________________________________ 15
Anlise de Energia _______________________________________________________ 19
Redes Neurais Artificiais ____________________________________________ 20

Introduo _____________________________________________________________ 20
Definio ______________________________________________________________ 21
Classificao das RNA ___________________________________________________ 22
Redes de Mltiplas Camadas _______________________________________________ 24
Objetivos ________________________________________________________ 28
3.1
Objetivo Geral _____________________________________________________ 28
3.2
Objetivos Especficos _______________________________________________ 28
Materiais e Mtodos_______________________________________________ 29
4.1
Base de Dados _____________________________________________________ 29
4.2
Processamento do Sinal de Fala ______________________________________ 30
4.2.1
4.3
Deteco de Incio e Fim __________________________________________________ 30
Redes Neurais _____________________________________________________ 37
Resultados e Discusses ___________________________________________ 39
Concluses ______________________________________________________ 46
Referncias Bibliogrficas _________________________________________ 47
Apndice A Exemplo de Aplicao _____________________________________ 48

A.1
Desenvolvimento ___________________________________________________ 48
A.2
Resultados e Discusses _____________________________________________ 49
A.3
Concluso_________________________________________________________ 52
Apndice B Padres de Voz Antes e Aps Processamento Digital de Sinais _____ 53
- 10 -
Introduo
A fala para as pessoas dotadas desta habilidade uma tarefa trivial que
desenvolvemos continuamente no decorrer da vida. De forma similar entendemos ou

tentamos entender o que as outras pessoas estejam pronunciando. Todavia, para
mquinas e computadores, o processo de reconhecimento de uma locuo uma tarefa
bastante complexa, sendo necessrio um treinamento prvio e um processamento do
sinal de voz.
Segundo Moreira, 1998 [1], o modelo de comunicao utilizando a fala
apresenta trs etapas: a produo, a transmisso e a recepo da fala. Na produo do
sinal de fala, o locutor codifica a informao que pretende transmitir em smbolos de
uma estrutura lingstica e, posteriormente, materializa esses smbolos em unidades
acsticas. Tendo no prprio aparelho auditivo uma realimentao para avaliar a
qualidade do sinal pronunciado. Na transmisso ocorrem as maiores interferncias sobre
o sinal falado, pois pode haver sobreposio do sinal por rudos proveniente de outras
pessoas que por eventualidade estejam emitindo outros sinais sonoros irrelevantes,
como tambm rudos de fundo gerados por equipamentos e mquinas. Finalmente,
realizando um processo inverso ao de produo, os ouvintes tentam extrair as
informaes contidas no sinal pronunciado, na etapa recepo da fala.
Para uma integrao perfeita homem-mquina seria necessrio uma simulao
da realidade, pois parte do processo de comunicao entre os seres humanos
constituda por meios explcitos (por exemplo, sorrisos, gestos, olhares, dentre outros),
os quais so desconsiderados durante a aquisio de um sinal de voz.
Um sistema de reconhecimento de voz pode objetivar reconhecer o locutor ou o
que foi dito por este locutor [2]. O Reconhecimento de Locutor (RL) deve verificar se o
locutor que pronunciou uma cadeia de caracteres realmente quem ele diz ser, ou ainda,
verificar dentre um conjunto de oradores, qual deles efetuou uma declarao. O
Reconhecimento Automtico de Voz (RAV) tem como base a identificao de padres
previamente treinados por algum algoritmo de reconhecimento que porventura foi
pronunciado por um locutor.
- 11 -
Reviso Bibliogrfica
2.1
Sistemas de Reconhecimento de Voz
2.1.1 Introduo
Um sistema de reconhecimento de sinais de fala pode ser classificado de acordo
com o tamanho do vocabulrio, o grau de independncia do locutor e o tipo de
pronncia [3].
Considerando o tamanho do vocabulrio, este pode ser pequeno (at uma
centena de palavras distintas), mdio (com algumas centenas de palavras), grande (com
milhares de palavras). O sistema de reconhecimento torna-se mais complexo, medida
que o vocabulrio aumenta, pois treinar milhares de padres de referncia, por exemplo,
tornaria o processo bastante custoso, logo, invivel.
Quanto ao grau de dependncia do locutor, temos os sistemas dependente e
independente de locutor. No primeiro caso, o sistema est restrito a um conjunto
especfico de locutores previamente treinados. No segundo, encontramos um sistema
generalizado capaz de reconhecer Comandos de Voz (CVZ) de uma infinidade de
locutores, em contrapartida um sistema mais difcil de ser construdo.
A pronncia dos CVZ, por sua vez, pode ser executada de forma contnua ou
pausada. Existem sistemas de reconhecimento que utilizam palavras isoladas (palavras
pronunciadas com pausas entre si), palavras concatenadas (seqncias de palavras prestabelecidas faladas de forma contnua) e fala contnua (frases e oraes pronunciadas
de forma contnua). No ltimo sistema encontramos o maior grau de complexidade, pois
os limites de incio e fim de um padro de referncia so mais difceis de encontrar,
devido aos efeitos de coarticulao entre as palavras.
- 12 -
2.1.2 Base de Dados

Conforme mencionada anteriormente, a fala uma das maneiras mais naturais
de comunicao entre os seres humanos, todavia h uma srie de fatores, que
influenciam na identificao de um padro, como por exemplo: sotaque, dialeto,
tamanho do trato vocal, velocidade da pronncia, dentre outros. Como tambm, o estado
fsico-psicolgico e cultura do narrador.
Para a confeco de uma base de dados necessrio estabelecer algumas
unidades bsicas finitas que tenham como caractersticas: consistncia e treinabilidade.
Consistncia, a fim de que uma subunidade fontica apresente caractersticas similares
independentemente do instante em que ocorreu a aquisio; e treinabilidade, para que o
sistema conste de um nmero considervel de amostras visando um modelo mais
robusto [4]. Unidades maiores, tais como frase ou palavras, so consistentes, todavia so
depreciadas quando tratamos da treinabilidade. Por outro lado, o inverso ocorre nas
unidades menores, tais como fones, que so treinveis, porm inconsistentes [5].
Para tornar o modelo o mais robusto possvel so necessrias aquisies de um
nmero grande de amostras de modo a facilitar a distino entre os padres utilizados
para treinamento do sistema de reconhecimento.
2.1.3 Reconhecimento do Sinal de Voz Baseado na Comparao de

Padres
A estrutura de processamento para reconhecimento de um sinal de voz deste
trabalho pode ser seguida segundo diagrama de blocos da Figura 1 [6].
Processamento do Sinal
Nesta etapa, o sinal analgico de voz representado sob a forma digital e
processado de forma a eliminar ou atenuar rudos no canal, variaes na amplitude ou,
ainda, estresses do locutor (estado emocional).
- 13 -
Para reconhecedores de palavras isoladas, como o caso deste trabalho, torna-se

necessrio determinar o incio e o fim de uma amostra de voz a fim de separar rudos de
fundo do sinal. Para tornar o sinal mais puro possvel, para posteriormente extrair as
caractersticas, filtros digitais so aplicados com objetivo de excluir freqncias
irrelevantes.
Figura 1 - Diagrama de blocos do modelo geral de um sistema RAV
Padres de Referncia
Os padres so estabelecidos no momento em que se definem quais as palavras
sero reconhecidas, entretanto os padres de referncia so escolhidos aleatoriamente
entre todas as amostras adquiridas. Estes padres so utilizados para treinar o sistema e
as demais amostras para fazer o teste e a validao do mesmo [19]. Quanto maior for a
diversidade existente entre os padres de referncia de uma mesma unidade, maior ser
a robustez do sistema, pois a quantidade de informao abstrada tambm ser maior
durante a etapa de treinamento.
Comparao de Padres
Aps a etapa de treinamento, outro conjunto de amostras distintas dos padres
de referncia inserido no sistema para que se possa analisar a eficincia do
reconhecedor. As amostras desconhecidas so comparadas com os padres de referncia
- 14 -
e o reconhecedor apresenta um resultado possibilitando a verificao ou no da

generalizao do sistema de reconhecimento.
Ps-processador
Designado como a ltima etapa do sistema RAV, o ps-processador tem como
objetivo fazer os ajustes finais de amplitude da sada da estrutura neural avaliada e
conceber a afirmao de que o comando de voz foi identificado sem que haja dupla
interpretao das demais estruturas envolvidas, ou seja, uma amostra de CVZ seja
identificada unicamente pela estrutura que a representa.
2.2
Processamento do Sinal de Fala
2.2.1 Introduo
Para um sistema de RAV vivel converter um sinal de udio em um conjunto
estreito de parmetros que contenham as informaes relevantes do CVZ a fim de
facilitar a etapa de treinamento do sistema e minimizar o nmero de operaes
matemticas a serem executadas.
Nesta etapa ocorre a converso do sinal de modo que o computador possa
interpret-lo. Esta converso realizada no momento da aquisio do sinal durante a
criao da base de dados, onde ocorre a converso analgico-digital. Nesta etapa
tambm ocorre a deteco de incio e fim, aplicao de filtros e extrao dos
Coeficientes de Predio Linear (LPC Linear Prediction Coefficients). Este texto
uma adaptao de [17] [18] [11].
2.2.2 Filtros Digitais

Filtros digitais so operadores lineares empregados sobre dados digitalizados (ou
amostrados) que permitem a passagem ou o corte de certas freqncias conforme as
caractersticas do filtro. Estes operadores lineares podem ser descritos pela equao (1).
- 15 -
q =0
p =1
y (n) = bq x(n q ) a p y (n p )
eq. ( 1 )
Onde x(n) so os dados amostrados de entrada para o filtro e y(n) a sada

resultante do mesmo. Os coeficientes bq e ap so os coeficientes de entrada e sada do
filtro, respectivamente.
Existem duas grandes classes de filtros digitais. Na primeira, encontram-se os
filtros recorrentes, ou filtros IIR (Infinite Impulse Response), onde os coeficientes bq e
ap so valores reais. Na segunda, encontram-se os filtros de resposta finita (FIR Finite
Impulse Response), onde os coeficientes ap apresentam valor nulo para todo valor de p.
Este ltimo tem como caracterstica a extino do impulso para um nmero finito de
amostra, alm de apresentar uma resposta em fase linear; tornando, portanto vivel sua
aplicao em tratamento de sinais de voz.
O diagrama de blocos da Figura 2 apresenta as operaes realizadas para
calcular cada elemento do vetor de sada y(n) por um filtro digital FIR.
Figura 2 - Diagrama de blocos do filtro digital tipo FIR forma direta
As janelas so filtros digitais que visam reduzir descontinuidades causadas

devido ao truncamento do sinal no tempo (denominado janela retangular) tratando
suavemente o sinal em suas extremidades e destacando as informaes contidas na
regio central da amostra. Algumas janelas denominadas janelas generalizadas de coseno apresentam a equao (2) [10]:
- 16 -
2 .n
4 .n
y (n) = A B cos
+ C cos
N
N
eq. ( 2 )
Onde N indica o tamanho da janela, que equivalente ao tamanho da amostra. A

variao dos parmetros A, B e C possibilita a obteno de diversas janelas, conforme
descrito na Tabela 1 a seguir.
Tabela 1 Tipos de janelas generalizadas de co-seno
Parmetros
Nome da
Janela
Hanning
0.50
0.50
0.00
Hamming
0.54
0.46
0.00
Blackman
0.42
0.5
0.08
Um outro tipo de filtro digital pode ser conseguido atravs da transformao

bilinear, que converte uma funo no domnio da freqncia em uma funo discreta
equivalente. A transformao bilinear mapeia o plano s no plano z atravs da seguinte
funo de transferncia:
H ( z ) = H ( s) s =2 f
eq. ( 3 )
z 1
z +1
Os filtros digitais so necessrios para suprimir de um sinal de voz informaes

irrelevantes. Segundo Adami [2], um sinal de voz para efeito de percepo da fala
apresenta freqncias entre 100Hz e 5kHz. Estas freqncias, denominadas formantes,
so suportadas por uma outra denominada freqncia fundamental ou pitch, que uma
oscilao quase peridica em torno de 80 a 200 Hz.
A partir das informaes de freqncia, pode-se filtrar o sinal de voz, a fim de
que este apresente em seu espectro de freqncia, simplesmente as freqncias de
interesse. Como por exemplo, um filtro passa faixa de segunda ordem analgico
idealizado de acordo com a funo de transferncia dada pela equao (4).
- 17 -
H ( s) =
Ks
s + as + b
eq. ( 4 )
Onde o mdulo mximo da funo de transferncia dado por:
H ( j ) max =
K
a
eq. ( 5 )
Na freqncia de corte c tem-se que:
H ( j c ) =
1
2
H ( j ) max
eq. ( 6 )
Desta forma, as freqncias de corte podem ser calculadas por:
c1 =
a + a 2 + 4b
a + a 2 + 4b
e c2 =
2
2
eq. ( 7 )
Tendo em mos as freqncias de corte, basta encontrar os parmetros que

modelem o filtro desejado.
Os filtros Butterworth de ordem N so tambm filtros digitais, cuja resposta em
mdulo dada pela equao (8), e se enquadram no critrio de qualidade de resposta
em mdulo maximamente plana quando tende a ser igual a zero.
H ( j ) =
1

1 +
c
eq. ( 8 )
2N
Onde c a freqncia de corte deste filtro passa baixa. Considerando que os

filtros Butterworth definidos desta forma so isentos de zeros, os seus plos podem ser
obtidos de acordo com a equao (9), a seguir:
sk = c e j (2 k + N 1) / 2 N , para k = 0, 1, ..., 2N-1.
- 18 -
eq. ( 9 )
Os plos determinados se encontram direita do plano complexo, indicando a

estabilidade do filtro, cuja funo de transferncia pode ser dada por:
Ho
H (s ) =
eq. ( 10 )
(s p )
k
k =1
Onde:
H o = ( p k )
eq. ( 11 )
k =1
E pk so os plos encontrados pela equao (9). Para tornar a funo de

transferncia do filtro Butterworth passa baixa em uma passa faixa, faz-se a seguinte
transformao de variveis:
s' =
s 2 + o2
Bs
eq. ( 12 )
Onde o a freqncia central do filtro definida por:
0 = c c
1
eq. ( 13 )
E B a largura da faixa de passagem dada por:

eq. ( 14 )
B = c 2 c1
2.2.3 Anlise de Energia

Toda pronncia de um sinal de voz possui uma curva de energia caracterstica,
que pode ser interpretada como o quadrado do valor ponto a ponto do sinal amostrado.
A medida da energia ou potncia de um CVZ dada por:
- 19 -
E = x ( n) 2
eq. ( 15 )
n =1
A partir da curva de energia possvel localizar os limites de uma palavra

isolada, como o caso de um CVZ, que apresenta picos de energia durante a evoluo
do tempo e so nestes picos que se encontram as informaes a serem processadas. A
Figura 3a mostra um sinal de voz no tempo aps aquisio e a Figura 3b, a energia deste
sinal no normalizado.
Figura 3 - (a) Comando de Voz (CVZ) no tempo (b) Energia de um CVZ no normalizado
2.3
Redes Neurais Artificiais
2.3.1 Introduo
As Redes Neurais Artificiais (RNA) so estruturas matemticas capazes de
aprender, memorizar e generalizar determinadas situaes e problemas a elas
apresentadas. Texto adaptado de [20] [21] [22].
- 20 -
As RNA so sistemas paralelos compostos por unidades elementares,

denominadas neurnios, que calculam determinadas funes matemticas geralmente
no-lineares, cujo funcionamento inspirado no prprio crebro humano.
As solues por meio das RNA podem se equivaler ou mesmo superar as
solues apresentadas pela programao tradicional. O procedimento pelo qual uma
RNA encontra as solues passa por um processo de aprendizado, onde uma srie de
amostras de entrada e sada apresentada s suas unidades elementares que por si s
encontram as caractersticas necessrias para representar a informao fornecida, e
posteriormente, definir o sistema resultante.
As RNA tm como capacidade aprender com os exemplos que lhe so
apresentados e generalizar a informao aprendida, sendo possvel, portanto, a
classificao de amostras de dados desconhecidos, mas que se assemelhe com a
informao contida na etapa de treinamento. As RNA so capazes de extrair
caractersticas que no estejam explicitamente apresentadas sob a forma de exemplos
(ou amostras de entrada).
2.3.2 Definio
O crebro humano constitudo por cerca 1011 neurnios, que recebem e enviam
informaes para milhares de outros a eles conectados. O crebro destinado a cuidar
em nosso corpo no que se trata de emoo, raciocnio e funes motoras. As RNA, por
sua vez, tm como ambio simular este mundo de atividades realizadas pelo crebro,
implementando o seu comportamento bsico e sua dinmica.
O modelo matemtico de um neurnio artificial foi proposto por Warren
McCulloch, psiquiatra e neuroanatomista, e Walter Pitts, matemtico, em 1943. O
modelo em si era uma simplificao do neurnio biolgico at ento conhecido na
poca. Para representar os dendritos, o modelo constou de n terminais de entrada de
informaes x1, x2, ..., xn e simplesmente um terminal de sada y, para representar o
axnio. Cada entrada apresenta um coeficiente ponderador que visa simulao das
sinapses, sendo que estes coeficientes so valores reais. De forma anloga ao neurnio
- 21 -
biolgico, a sinapse s ocorre quando a soma ponderada dos sinais de entrada ultrapassa
um limiar pr-definido, realizando, portanto uma atividade semelhante a do corpo. No
modelo proposto, o limiar foi definido de forma Booleana, dispara ou no dispara,
resultante de uma funo de ativao, conforme pode ser visto na Figura 4.
Figura 4 - Neurnio de McCulloch e Pitts
A sada y do neurnio de McCulloch e Pitts pode ser equacionada por:
y = f ( x i wi + b )
eq. ( 16 )
i =1
Onde n o nmero de entradas do neurnio, wi o peso associado entrada xi e

f a funo de ativao utilizada.
Todavia, uma restrio existente no modelo criado que as redes desenvolvidas

s conseguem implementar funes linearmente separveis, ou seja, aquelas que se
podem separar os padres por meio de uma reta.
2.3.3 Classificao das RNA

As RNA podem ser classificadas:
a) Quanto a sua estrutura:
Redes de camada nica: existe simplesmente um n entre o vetor de

dados de entrada e o vetor de sada (Figura 5a);
Redes de mltiplas camadas: existem mais de uma camada de neurnios

entre o vetor de entrada de dados e o vetor de sada (Figuras 5b e 5c).
- 22 -
b) Quanto as suas conexes:
Redes feed forward: so estruturas neurais, onde a sada de um neurnio

de uma dada camada realiza conexes com os neurnios das camadas
seguintes e no com os das camadas antecessoras (Figuras 5a e 5b).
Redes feedback: so aquelas cuja sada de uma camada, tambm pode

atuar tanto na entrada dos neurnios das camadas antecessoras como das
posteriores (Figura 5c).
A Figura 5 ilustra as estruturas e conexes das RNA.
Figura 5 - Classificao das RNA. (a) Rede de Camada nica (b) Redes de mltiplas camadas (c)
Redes feedback. (a) e (b) so exemplos de redes feed forward.
c) Quanto ao treinamento:
Supervisionado: caracteriza-se pela existncia de um professor, ou

supervisor, que monitora a resposta da rede e compara esta com a
resposta desejada, e a partir do erro existente entre estas respostas faz-se
o ajuste dos pesos sinpticos at que um erro mnimo estabelecido seja
alcanado ou o nmero de iteraes pr-estabelecido seja superado.
No supervisionado: caracteriza-se pela no existncia de sadas

desejadas, sendo, portanto, o conjunto de treinamento estabelecido
somente pelo vetor de entrada. A atualizao dos pesos sinpticos
obtida com base nos prprios valores de entrada. Este tipo de
treinamento aplicado a problemas de categorizao de dados.
Reforo: um treinamento que mescla as caractersticas do treinamento

supervisionado e do no supervisionado. O conjunto de treinamento
- 23 -
formado simplesmente por dados de entrada, todavia h um crtico,

similar ao supervisor, que refora ou penaliza a sada da rede.
2.3.4 Redes de Mltiplas Camadas

Conforme dito anteriormente, as RNA com uma camada de neurnio so
capazes de resolver problemas linearmente separveis, contudo apesar de resolver uma
gama vasta de problemas, existe, por outro lado, uma outra vasta coleo de problemas
no linearmente separveis. Este problema foi proposto por Minsky e Pappert na dcada
de 70, quando, em suas publicaes, depreciaram a habilidade das RNA de encontrar
solues para simples problemas, como por exemplo, a modelagem do Ou Exclusivo
da lgica digital. A soluo encontrada para contornar este problema e como
conseqncia retomar as pesquisas sobre RNA, at ento desacreditas por Minsky e
Pappert, foram as estruturas neurais de mltiplas camadas, tambm conhecida como
redes MLP (Multi Layer Perceptron), na dcada de 80.
As redes MLP apresentam a arquitetura mostrada na Figura 6, onde se
encontram a camada de entrada, as camadas intermedirias (ou ocultas) e a camada de
sada. O nmero de variveis da camada de entrada depende diretamente do nmero de
caractersticas agrupadas no vetor das amostras. O nmero de neurnios das camadas
intermedirias depende da complexidade do problema. E a camada de sada contm o
nmero de neurnios necessrio para executar a codificao das amostras de entrada.
Figura 6 - Arquitetura das Redes MLP
- 24 -
O nmero de neurnios das camadas intermedirias determinado de forma

emprica, atentando para o caso de overfitting (ou superajuste), que o caso onde existe
uma grande quantidade de neurnios e a estrutura ao invs de generalizar as
informaes, acabar por memorizar os padres apresentados, no sendo capaz de
classificar padres semelhantes. Outro efeito do superajuste que a RNA alm de
armazenar as caractersticas relevantes extradas das amostras, esta guarda em seus
pesos informaes de rudos que a princpio no revelam interesse. Por outro lado, caso
o nmero de neurnios seja inferior ao desejado, pode ocorrer um underfitting e a RNA
no convergir para uma resposta devido a uma sobrecarga de informaes a serem
armazenadas em poucos pesos.
O treinamento das redes MLP normalmente realizado pelo algoritmo de retropropagao do erro (ou back-propagation), um algoritmo supervisionado que realiza o
ajuste dos pesos, a partir do erro existente entre os pares de amostra de dados de entrada
e sada da RNA. Este algoritmo apresenta duas fases denominadas forward e backward.
A fase forward utilizada para que seja encontrada uma sada a partir dos valores de
entrada de um dado padro. A fase backward compara esta sada com a sada desejada e
retorna atualizando os valores dos pesos das conexes dos neurnios da estrutura.
Basicamente, o processo de treinamento da rede MLP tem como objetivo,
durante o treinamento, a minimizao da funo de erro quadrtico mdio (mse mean
square error), definida pela equao (17). O treinamento da RNA deve ocorre at que
se complete um nmero predeterminado de iteraes para atualizao dos pesos ou

quando o erro quadrtico mdio encontrar-se abaixo de um valor pr-estabelecido.
mse =
k
1
dip yip
k p i =1
eq. ( 17 )
Onde p o nmero de padres apresentados estrutura neural, k o nmero de

unidades de sada, di a i-sima sada desejada e yi a i-sima sada gerada pela rede.
Uma grande dificuldade de encontrar uma soluo vivel diz respeito aos
mnimos locais, que apresentam caractersticas semelhantes s do mnimo absoluto,
- 25 -
todavia resultam em resposta equivocadas e geralmente incorretas. Existem algumas

formas de aumentar a generalizao das RNA evitando a priori a incidncia dos
mnimos locais, dentre estas esto a regularizao e a parada precoce [13].
A regularizao envolve diretamente uma modificao na funo de
desempenho, que a funo de erro quadrtico mdio. A modificao realizada ao
acrescentar um termo que estar diretamente ligado soma dos quadrados dos pesos da
rede neural, definido por:
msw =
k
1
wip
k p i =1
( )
eq. ( 18 )
E o erro quadrtico mdio da regularizao dado por:
msereg = mse + (1 ) msw
eq. ( 19 )
Onde a razo de desempenho. Este tipo de funo de desempenho fora uma

reduo nos valores dos pesos e conseqentemente fora uma reduo do superajuste.
Contudo um outro problema encontrado a determinao do valor timo para o
coeficiente . Tendo em vista que deve estar compreendido na faixa 0 1, se
houver uma elevao do valor da razo de desempenho acima do necessrio, poder
ocorrer um superajuste; por outro lado, se a razo for muito pequena, a rede no estar
ajustando adequadamente os dados de treinamento. Para facilitar a busca por este ponto
timo, foi desenvolvido por David Mackay um algoritmo de regularizao automtica
dos parmetros, denominado regularizao Bayesiana, que computa, aps cada iterao,
o valor de a ser utilizado.
O mtodo de parada precoce (ou early stopping) um mtodo de melhoria da
generalizao das RNA, que oferece modificao durante a etapa de treinamento. Esta
tcnica fraciona as amostras em trs grupos distintos. O primeiro grupo so as amostras
de treinamento, que so utilizadas para ajustar os pesos. O segundo grupo so as
amostras de validao. O erro de validao monitorado durante a etapa de
treinamento, caso este cresa o treinamento pra, independente se o erro obtido na etapa
- 26 -
de treinamento esteja decrescendo. Normalmente, no incio do treinamento, tanto o erro

de treinamento quanto o erro de validao decrescem no decorre das iteraes,
entretanto, medida que comea a ocorre um overfitting o erro de validao comea a
crescer. O terceiro grupo constitudo das amostras de teste, as quais devero se
apresentadas RNA treinada.
- 27 -
Objetivos
3.1
Objetivo Geral
Este trabalho tem como objetivo identificar comandos de voz (CVZ) de palavras
isoladas com dependncia do locutor que as pronuncia utilizando tcnicas de

Processamento Digital de Sinais (DSP Digital Signal Processing), para aquisio,
filtragem e extrao de caractersticas do sinal de voz e Redes Neurais Artificiais
(RNA) para realizar a tarefa de reconhecimento de padres.
3.2
Objetivos Especficos
Estudar o processo de formao da fala;
Identificar as caractersticas do sinal de voz a serem utilizadas para facilitar o

processo de reconhecimento do mesmo;
Estudar Redes Neurais Artificiais (RNA) e, posteriormente, aprofundar na

rea dos problemas envolvendo reconhecimento de sinais de voz;
Estudar mtodos de reconhecimento por comparao de padres; e,
Verificar
possibilidade
de
implementao
de
um
Reconhecimento Automtico de Voz (RAV) em tempo real.
- 28 -
sistema
de
Materiais e Mtodos
4.1
Base de Dados
Visando um aprendizado inicial sobre RAV, os padres escolhidos para
constituir a base de dados so as posies: frente, atrs, direita, esquerda e pra. O

objetivo futuro manipular uma mquina especfica que possa ter seu controle ativado
por voz.
Para a confeco da base de dados, foram selecionados trs locutores do sexo
masculino estudantes de graduao. Cada locutor pronunciou os padres supracitados
na ordem descrita por vinte vezes, para no ocorrer depreciao do sistema devido a
treinabilidade do padro.
Como caracterstica, o sinal de voz apresenta sua natureza contnua, logo foi
necessria uma converso analgico-digital, para que o mesmo pudesse ser armazenado
no disco rgido. A aquisio dos dados foi realizada num ambiente de laboratrio
relativamente silencioso a fim de facilitar a extrao das caractersticas, atravs de um
microfone direcional e uma placa de som SoundBlaster AWE 64. As amostras foram
adquiridas a uma taxa de amostragem de 22.050Hz com resoluo de 16 bits e
armazenadas no formato wave. Logo, segundo o Teorema da Amostragem de Nyquist,
as amostras possuem freqncias de at 11kHz.
Depois de realizada a aquisio, cada amostra de cada padro teve sua forma de
onda analisada em um programa grfico e, utilizando fones de ouvido, verificou-se a
qualidade do sinal. Excluram-se as amostras onde ocorriam saturao pela placa de
som e que ocasionaria rudos irreversveis (Figura 7). Para manter a igualdade de
nmero de amostras por padro, foram realizadas novas aquisies pelos mesmos
locutores das amostras saturadas, a fim de substitu-las.
- 29 -
Figura 7 - Pronncia de um comando de voz (a) Amostra do padro pra no-saturada (b)
Amostra do padro atrs saturada
4.2
Processamento do Sinal de Fala
4.2.1 Deteco de Incio e Fim

A Figura 8 apresenta uma grande parte do CVZ que constitudo simplesmente
de rudos de fundo na zona de silncio, sendo, portanto irrelevante para o sistema de
RAV. A deteco de incio e fim do CVZ visa eliminar esta zona e resultar
simplesmente na regio onde realmente se encontra a pronncia do padro.
Figura 8 - Pronncia do padro direita para visualizao de rudos de fundo na zona de silncio
- 30 -
Centralizao do Comando de Voz

Nem todas as amostras adquiridas apresentam o pico de maior amplitude em
mdulo nas proximidades da regio central conforme Figura 8 e este fato pode ser
visualizado na Figura 9, onde o CVZ no est centralizado.
Uma amostra de padro no centralizada no apresenta uma depreciao quanto
qualidade do sinal, contudo, caso seja necessrio aplicar uma janela de Hamming para
atenuar os efeitos do truncamento durante a aquisio, por exemplo; isto ocasionaria
uma amplificao dos rudos (Figura 9).
Figura 9 - Amplificao de rudo por aplicao indevido de janela de Hamming sobre uma amostra
do padro atrs (a) Sinal original adquirido (b) Sinal janelado
Para evitar problemas futuros como este, durante a aplicao de janelas, faz-se a
centralizao do CVZ tomando como base o valor absoluto de maior valor energtico.
Aps encontrar este valor, verifica-se distncia entre o incio da amostra e o ponto de
pico e a distncia entre o pico e o fim. A menor distncia adotada e espelhada sobre o
maior de modo que o pico de energia esteja no centro da amostra (Figura 10) e
conseqentemente h uma reduo no tamanho da zona de silncio.
- 31 -
Figura 10 - Pronncia do padro esquerda, anlise de energia do sinal e centralizao do sinal

com base no bico de energia.
Filtragem do Sinal de Voz

A determinao dos limites de um CVZ utiliza basicamente a tcnica da anlise
de energia, e em alguns casos a tcnica da taxa de cruzando por zero do sinal no tempo
[7]. Neste trabalho implementada a primeira tcnica. Contudo antes de separar a zona
de silncio do sinal relevante de voz necessrio trabalhar sobre o sinal adquirido e
tentar minimizar os rudos inerentes do processo de aquisio, filtrar as freqncias
indevidas e normalizar a amplitude do sinal [8].
Primeiramente, aplica-se um filtro digital do tipo FIR (Finite Impulse Response),
denominado filtro de pr-nfase, que apresenta a seguinte transformada Z:
f ( z ) = 1 .z 1
eq. ( 20 )
Implementado f(z) atravs da diferenciao a seguir:
- 32 -
y (n ) = x(n ) .x(n 1)
eq. ( 21 )
Onde x(n) o sinal amostrado e o parmetro pode variar entre 0,9 e 1,0 para
sinais sonoros, e ter valores prximos de zero, para sinais surdos [12]. Neste trabalho
adotou-se o valor de 0,95, pois sinais de voz apresentam caractersticas sonoras. Esta
diferenciao age como um filtro passa alta, com o objetivo de compensar a atenuao
de 6dB/oitava nas altas freqncias, devido radiao da fala nos lbios de
(+6dB/oitava) [9]. O filtro de pr-nfase atua como um atenuador da tenso de off-set
inserida no sinal de voz no momento da aquisio.
Com a finalidade de atenuar parte do rudo branco inerente no processo de
aquisio, foi utilizado um filtro mdia mvel de terceira ordem, composto
simplesmente zeros, conseqentemente, estveis, dado pela equao (25):
y (n ) =
1 2
x(n k )
3 k =0
eq. ( 22 )
Conforme foi descrito anteriormente, as freqncias formantes dos sinais de voz

correspondem faixa de 100Hz a 5kHz. Com vista nestas freqncias, foram
implementados filtros para desprezar as freqncias que se encontrassem fora desta
regio.
De acordo com a equao (4), um filtro analgico passa faixa pode ser
implementado simplesmente ajustando os parmetros a e b, de acordo com a equao
(7). No entanto a funo de transferncia de um filtro passa faixa analgico no plano s
dada por:
H (s ) =
4900 s
s + 4900 s + 500000
eq. ( 23 )
Onde os parmetros encontrados para a e b so:

a = 4900
b = 500000
- 33 -
Adotou-se K = a com o objetivo de manter o mdulo mximo igual unidade.

Tendo em vista que uma amostra de CVZ discreta, torna-se necessrio converter o
filtro descrito acima para o domnio discreto, para isto utiliza-se transformao
bilinear (equao (3)) que resultar na seguinte funo de transferncia:
0.3278 0.3278 z 2
H ( z) =
1 1.3311z 1 + 0.3445 z 2
eq. ( 24 )
Implementou-se dois filtros digitais destinados a executar funes similares ao

filtro IIR resultante da transformao linear. O primeiro um do tipo FIR passa baixa de
20a ordem com freqncia de corte c de 5kHz, ou 5 11rad s na freqncia de
Nyquist. O segundo um Butterworth passa faixa de 5a ordem com freqncias de corte
definidas pela faixa das freqncias formantes.
Aps a etapa de filtragem fez-se a normalizao do CVZ visando enquadr-lo
entre os limites unitrios x(n ) 1 . Um mtodo de normalizao da amostra seria
encontrar o maior valor em mdulo do sinal e, posteriormente, efetuar a diviso de
todos elementos do vetor por este valor. A equao (25) descreve esta operao:
y (n ) =
x(n )
max x(n )
eq. ( 25 )
Outro mtodo utilizado foi encontrar o maior valor positivo e negativo e lev-los
a unidade atentando para o sinal correspondente (equao (26)). Porm esta ltima
apresenta a desvantagem de deslocar o zero caso os mximos no apresentem simetria
de valor com a origem (distintos em mdulo), o que no ocorre no primeiro caso.
y (n ) = 2
x(n ) min ( x(n ))

1
max ( x(n )) min ( x(n ))
eq. ( 26 )
Ambas operaes de normalizao podem ser observadas na Figura 11.
- 34 -
Figura 11 - (a) Sinal de voz filtrado e no normalizado (b) Sinal de voz normalizado tomando como
base o maior valor em mdulo do sinal (c) Sinal de voz normalizado tomando como referncia o
mximo valor negativo e positivo do sinal.
Anlise de Energia
A anlise de energia foi apresentada anteriormente com o objetivo de centralizar
o CVZ a partir do pico mximo de energia do sinal e neste momento ter como
finalidade encontrar os limites das palavras.
Encontrar os limites precisos de incio e fim de um CVZ um problema difcil
de ser resolvido [16], todavia para um sinal normalizado, a deteco dos limites pela
anlise de energia se torna mais simples, pois possibilita estipular patamares fixos. Para
o caso em que o nvel de rudo de fundo de baixa intensidade, a tarefa de encontrar os
limites trivial, pois basta determinar um patamar de energia acima da energia do rudo
e comparar durante o comando de voz. Contudo, pode ocorrer que em certos casos
imprevisveis um nvel de rudo ultrapasse este patamar, sendo necessrio, portanto,
determinar outro patamar de maior intensidade com a finalidade de indicar que a
energia do sinal est se elevando. Outro artifcio a ser utilizado dar saltos (incrementos
- 35 -
em relao ao primeiro ponto) no vetor que contenha o CVZ no momento em que o

algoritmo de busca encontra um valor que ultrapasse o primeiro patamar. O salto tem a
finalidade de evitar rudos pontuais, os quais so desconsiderveis.
O incio de uma palavra definido no primeiro ponto que ultrapassa o primeiro
patamar de energia e tem, aps o salto, um seu sucessor com uma energia superior ao
segundo patamar estabelecido. A busca pelo fim do CVZ ocorre de modo semelhante,
porm ocorre do ltimo para o primeiro elemento do vetor. A Figura 12 exemplifica as
etapas para a deteco de incio e fim de um CVZ.
Figura 12 - Deteco de incio e fim utilizando o mtodo de energia do sinal. Ei1, Ei2, Ef1 e Ef2 so os
patamares predefinidos de energia, bem como a largura do salto.
Neste trabalho foi adotado um salto equivalente a 20ms, pois para um sinal de
voz no h tanta alterao na amplitude como ocorre nos casos de rudos de impacto,
conforme acontece na regio desprezada na Figura 12. Os patamares de energia Ei1 e Ef1
so denominados patamares de silncio de incio e de fim da pronncia,
respectivamente. Os percentuais adotados para estes patamares so 1% para o incio e
0,2% para o fim em relao amplitude unitria da energia do CVZ. Os patamares Ei2 e
Ef2 so destinados confirmao de que a energia do comando de voz ainda cresce
- 36 -
mesmo aps o salto, tanto do incio para o fim da amostra quanto do fim para o incio.
Os valores adotados foram 2,5% e 0,5% da energia mxima do CVZ.
Aps encontrar os limites do CVZ define-se um novo vetor, desprezando o que o
algoritmo interpretou como zona de silncio ou rudo de fundo. Este novo vetor
apresenta um menor volume de dados com as mesmas informaes de interesse. Aps o
corte na amostra original, aplica-se uma janela de Hamming para atenuar a insero de
freqncia nas bordas devido ao novo truncamento do sinal e realiza-se uma nova
normalizao da amostra.
4.3
Redes Neurais
Aps a etapa de processamento do CVZ suposto que o mesmo apresente
simplesmente o que relevante para o reconhecimento. Todavia, mesmo excluindo

grande parte da zona de silncio, a amostra de CVZ ainda contm milhares de
elementos no vetor de dados sendo, portanto invivel criar uma estrutura neural com
esta infinidade de entradas.
Os Coeficientes de Predio Linear (LPC), por sua vez, so aqui utilizados para
extrair as caractersticas do CVZ pr-processado e representar os milhares de dados em
algumas unidades ou dezenas pr-determinadas. A idia da predio linear que uma
amostra de voz pode ser representada por uma combinao linear de amostras de voz
passadas [15][2]. Neste trabalho foram utilizando LPC de 8a, 10a e 12a ordem. Aps a
determinao dos LPC, estes foram normalizados pela equao (26) com o objetivo de
proporcionar uma convergncia mais rpida na etapa de treinamento das RNA.
Sabendo quantos parmetros de entrada sero utilizados, a camada de entrada na
RNA j est definida. O nmero de neurnios da camada oculta foi pr-estabelecido em
5, 10, 15 e 20, para que fosse possvel analisar dentre as possveis combinaes a que
apresentaria a melhor resposta. A camada de sada apresenta simplesmente um neurnio
cuja resposta positiva para o padro a ser reconhecido ou negativa para a rejeio dos
demais padres. Para cada padro foi treinada uma RNA especfica com uma taxa de
- 37 -
aprendizagem do algoritmo back-propagation de 0,010. Cada estrutura de redes foi

avaliada cinco vezes e salvando aquele que obtivesse menor erro dentre as repeties.
Foram utilizadas funes sigmides tangente hiperblico dada pela equao 27
para as funes de ativao dos neurnios da camada intermediria e de sada.
1 e b .n
fa (n) =
1 + e b .n
eq. ( 27 )
Para treinamento do sistema foram utilizados os algoritmos back-propagation de

Levenberg-Marquardt (LM) e de Regularizao Bayesiana (BR) para efeito de
comparao. O algoritmo LM apresenta como vantagem principal agilidade na qual
converge para uma soluo quando o problema de reconhecimento de padres seja
linear. A principal desvantagem deste algoritmo o intenso consumo de memria
computacional. O algoritmo LM baseado no mtodo de Newton, o qual utiliza o
Jacobiano da funo erro para ajuste dos pesos durante uma poca. O grande esforo
computacional se concentra no clculo da matriz Hessiana (segunda derivada) a partir
do Jacobiano [14]. O algoritmo BR uma modificao do algoritmo LM com as
vantagens da regularizao citadas anteriormente.
As atualizaes dos pesos foram realizadas em at 200 ciclos ou ento quando o
erro quadrtico mdio (mse) atingisse um valor inferior a 0,012.
As amostras de cada padro foram separadas aleatoriamente constando com a
razo de 2/3 das amostras destinadas ao treinamento da RNA e 1/3 para validao e
teste da estrutura treinada. O treinamento foi realizado separadamente para cada padro.
Para as RNA especficas foram apresentados 40 amostras de CVZ considerados
verdadeiros perante a estrutura, como tambm foram apresentados 160 amostras de
CVZ falsos.
- 38 -
Resultados e Discusses
A definio do tipo de filtro a ser utilizado dentre os citados anteriormente para
a determinao do incio e fim do CVZ foi escolhida analisando a energia normalizada

da resposta destes. A Figura 13 ilustra estas respostas.
Figura 13 - Anlise de energia do Filtro Bilinear e Butterworth
Como possvel visualizar, a energia do filtro analgico digitalizado pela

transformao bilinear mais bem definida na fase final do comando de voz.
Visualmente uma diferena sutil, todavia para efeitos computacionais a determinao
do ponto de trmino do comando se torna uma tarefa mais simples.
Todavia a qualidade sonora apresentada pelo filtro Butterworth bem superior a
do filtro supracitado, logo o que se fez foi encontrar os elementos que determinam os
limites na resposta do filtro analgico e procur-los na resposta do filtro Butterworth,
para que o corte da amostra pudesse ser efetuado.
- 39 -
Foram testados tambm modelos hbridos entre o filtro Butterworth e o da

transformao linear, os quais no obtiveram bons resultados quanto definio clara
dos limites das palavras.
Foi feita uma comparao entre o filtro FIR de 20a ordem e o filtro Butterworth
de 5a ordem, ambos obtiveram uma resposta aceitvel, todavia o Butterworth computa a
resposta com esforo computacional muito menor que o FIR.
Para a avaliao do processamento do sinal de voz, foi verificado o espectro de
freqncia da amostra antes e aps a filtragem e a normalizao (Figura 14) atravs da
transformada rpida de Fourier (FFT Fast Fourier Transform). fcil observar que a
amostra de voz ps-processada no apresenta amplitudes significativas na regio
inferior a 125Hz e superior a 5kHz, o que caracteriza a funcionalidade dos filtros
digitais aplicados aos CVZ.
Figura 14 - Anlise de Fourier para o sinal original e processado
A Figura 15 destaca a discrepncia existente entre o sinal original e o sinal

resultante aps a aplicao dos filtros diferencial, mdia mvel, Butterworth e janela de
Hamming.
- 40 -
Figura 15 - Comparao entre a amostra do sinal original e do processado
Como possvel verificar na Figura 15, a amostra de CVZ ps-processada

apresenta uma amplitude bem definida como tambm uma atenuao dos rudos e
eliminao da tenso de off-set.
Realizando as operaes de processamento de sinais e de deteco de incio e
fim do CVZ foi possvel obter uma reduo de 73,6% em mdia no nmero de dados do
vetor que continha a amostra, tendo, por isso, uma reduo de esforo computacional.
Quanto ao desempenho das RNA treinadas foram avaliados dois aspectos
destinados qualificao do sistema:
a) Erro: o percentual da amostras que foram identificadas para um dado padro,
mas que na verdade pertencem outra classe;
b) Equvoco: o percentual de amostras de um dado padro que foi indevidamente
rejeitado, sendo, portanto considerado de outra classe.
As Tabelas de 2 a 7 demonstram o percentual de erro e equvoco encontrados
tanto na etapa de treinamento quanto na etapa de validao e testes. As linhas indicam a
funo de treinamento predefinida, o nmero de LPC extrados, o nmero de neurnios
- 41 -
da camada oculta (nnco) e a resposta final da rede. A resposta final (rf) determinada
pela porcentagem de todas as amostras que a rede ou equivocou ou errou.
Tabela 2 - RNA treinada pelo algoritmo BR para 8 LPC
algoritmo
NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
Regularizao Bayesiana
8 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
0,00
0,00
0,00
7,50
0,00
10,00
0,00
0,00
0,62
0,00
0,00
0,00
0,00
5,00
0,00
0,00
0,00
0,00
0,62
0,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,62
0,00
0,00
0,00
1,88
7,50
0,00
2,50
0,00
0,00
0,62
validao
erro
equvoco
5,00
5,00
0,00
6,25
15,00
2,50
15,00
10,00
0,00
8,75
10,00
5,00
0,00
5,00
15,00
7,50
25,00
11,25
15,00
7,50
10,00
3,75
5,00
1,25
20,00
8,75
15,00
5,00
15,00
3,75
15,00
5,00
5,00
6,25
10,00
3,75
20,00
8,75
5,00
3,75
RF
1,67
1,67
2,67
5,00
2,67
2,00
1,33
3,67
4,67
3,33
1,67
0,67
4,00
2,33
2,33
2,33
3,00
2,67
4,00
1,67
Tabela 3 RNA treinada pelo algoritmo BR para 10 LPC
algoritmo
NNCO
10 coeficientes LPC
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
treinamento
erro
equvoco
0,00
0,62
0,00
0,00
2,50
0,00
2,50
0,00
0,00
0,00
5,00
1,88
0,00
0,00
10,00
0,00
7,50
0,00
0,00
0,00
2,50
1,88
2,50
0,00
5,00
0,62
20,00
1,88
5,00
0,00
7,50
1,88
5,00
0,00
5,00
0,00
5,00
0,00
10,00
0,00
- 42 -
validao
erro
equvoco
30,00
1,25
5,00
6,25
20,00
3,75
25,00
5,00
5,00
2,50
20,00
6,25
15,00
2,50
35,00
11,25
35,00
7,50
20,00
2,50
15,00
6,25
10,00
3,75
35,00
2,50
20,00
3,75
0,00
3,75
20,00
7,50
0,00
7,50
25,00
5,00
30,00
11,25
35,00
3,75
RF
2,67
2,00
2,67
3,33
1,00
4,67
1,67
6,67
5,33
2,00
4,00
2,00
4,00
6,00
1,67
5,33
2,67
3,67
5,67
4,67
Tabela 4 RNA treinada pelo algoritmo BR para 12 LPC
algoritmo NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
5
12 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
0,00
0,00
0,62
17,50
0,62
5,00
0,00
0,00
0,00
0,00
0,00
2,50
0,00
7,50
1,25
7,50
0,00
0,00
0,62
0,00
0,00
0,00
0,00
5,00
0,00
2,50
0,00
2,50
0,62
0,00
0,00
0,00
0,00
5,00
0,62
7,50
0,00
0,00
0,62
validao
erro
equvoco
20,00
3,75
5,00
6,25
25,00
7,50
30,00
7,50
10,00
1,25
20,00
11,25
10,00
1,25
30,00
23,75
30,00
6,25
10,00
3,75
25,00
7,50
25,00
2,50
30,00
22,50
25,00
11,25
5,00
1,25
20,00
7,50
5,00
3,75
55,00
17,50
40,00
6,25
10,00
5,00
RF
2,33
2,33
6,33
4,67
1,00
4,33
1,33
10,00
4,67
2,00
3,67
2,33
8,67
5,00
1,33
3,33
1,33
9,33
5,33
2,33
Tabela 5 RNA treinada pelo algoritmo LM para 8 LPC
algoritmo NNCO
Levenberg-Marquardt
8 coeficientes LPC
5
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
treinamento
erro
equvoco
0,00
0,00
0,00
0,62
10,00
0,00
2,50
0,00
0,00
0,62
2,50
0,00
2,50
1,25
7,50
0,00
7,50
0,00
0,00
1,25
0,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
5,00
0,00
7,50
0,00
0,00
1,25
- 43 -
validao
erro
equvoco
5,00
3,75
10,00
3,75
5,00
3,75
30,00
3,75
10,00
2,50
10,00
2,50
5,00
11,25
20,00
6,25
30,00
7,50
5,00
1,25
20,00
2,50
5,00
6,25
5,00
13,75
30,00
6,25
10,00
5,00
10,00
6,25
0,00
7,50
10,00
2,50
30,00
10,00
10,00
2,50
RF
1,33
2,00
2,67
3,33
1,67
1,67
4,33
4,00
5,00
1,33
2,00
2,00
4,33
3,67
2,00
2,33
2,00
2,00
5,67
2,00
algoritmo NNCO
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
5
Levenberg-Marquardt
10 coeficientes LPC
posio
10
15
20
treinamento
erro
equvoco
0,00
1,25
0,00
0,62
5,00
0,00
15,00
0,00
0,00
0,62
2,50
1,25
2,50
0,62
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,62
2,50
0,00
2,50
0,00
7,50
0,00
2,50
0,00
0,00
0,62
2,50
0,00
7,50
1,25
5,00
0,62
2,50
0,00
validao
erro
equvoco
10,00
10,00
15,00
2,50
15,00
2,50
30,00
5,00
0,00
6,25
10,00
6,25
5,00
2,50
20,00
3,75
15,00
10,00
10,00
2,50
30,00
7,50
0,00
3,75
30,00
13,75
20,00
16,25
15,00
1,25
15,00
3,75
25,00
2,50
25,00
3,75
20,00
12,50
10,00
0,00
RF
4,00
2,00
2,33
5,33
2,00
3,33
1,67
2,67
3,67
1,33
4,33
1,33
6,00
6,67
1,67
2,33
2,67
4,33
5,67
1,00
algoritmo NNCO
Levenberg-Marquardt
12 coeficientes LPC
5
10
15
20
posio
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
frente
atrs
direita
esquerda
para
Treinamento
erro
equvoco
2,50
0,00
0,00
0,00
7,50
0,00
7,50
0,00
0,00
0,00
5,00
0,00
0,00
0,00
7,50
1,88
10,00
0,62
0,00
0,62
0,00
0,00
0,00
0,00
10,00
0,00
0,00
0,00
2,50
0,00
0,00
0,00
0,00
0,00
0,00
0,00
5,00
0,00
0,00
0,00
- 44 -
validao
erro
equvoco
20,00
6,25
5,00
3,75
5,00
1,25
15,00
3,75
10,00
0,00
10,00
2,50
5,00
5,00
40,00
11,25
35,00
7,50
5,00
3,75
25,00
3,75
5,00
5,00
40,00
20,00
40,00
10,00
5,00
5,00
15,00
18,75
0,00
1,25
35,00
10,00
35,00
7,50
30,00
5,00
RF
3,33
1,33
1,67
3,00
0,67
2,00
1,67
7,67
6,00
1,67
2,67
1,67
9,33
5,33
2,00
6,00
0,33
5,00
5,00
3,33
As linhas em negrito indicam a estrutura com RF mais baixa para cada padro
em funo do algoritmo de treinamento e do nmero de LPC extrados, variando
simplesmente o NNCO.
As Tabelas mostraram que alguns padres obtiveram um baixo ndice de erro ou
equvoco como, por exemplo, pra e atrs.
A Tabela 8 a seguir explicita um resumo dos resultados tomando como base o
algoritmo de treinamento das estruturas neurais.
Tabela 8 Resumo dos resultados alcanado nos treinamentos dos padres pelos algoritmos de
Levenberg - Marquard e Regularizao Bayesiana
Algoritmo
Padro
Frente
Atrs
Direita
Esquerda
Pra
Levenberg - Marquard
Erro da Rede
Estrutura
1,33%
[8 5 1]
0,33%
[12 20 1]
1,67%
[12 5 1]
3,00%
[12 5 1]
0,67%
[12 5 1]
Erro da Rede
Estrutura
1,67%
[8 15 1]
0,67%
[8 15 1]
2,67%
[10 5 1]
2,33%
[8 15 1]
1,00%
[10 5 1]
Segundo Adami [2], um sistema RAV deve ter um erro da rede inferior a 2,50%
e conforme explicitado na Tabela 8, os padres esquerda e direita resultantes do
algoritmo de treinamento de Levenberg - Maquard e Regularizao Bayesiana,
respectivamente, extrapolam este valor.
Foi possvel verificar durante teste que medida que cresce o nmero de
parmetros efetivos da RNA no h uma melhora to significativa, como ocorre nos
algoritmos de treinamento LM e BR para 12 LPC e 20 neurnios na camada
intermediria. Logo, para nmeros superiores de parmetros no haver reduo de erro
ou equvoco, provavelmente.
Foram testadas RNA com duas camadas intermedirias, as quais no
apresentaram respostas satisfatrias, alm de serem muito mais complexas
matematicamente e difceis de treinar.
- 45 -
Concluses
Primeiramente, a reduo da quantidade de elementos da amostra de CVZ
devido ao processamento agilizou o processo de extrao de caractersticas atravs dos

coeficientes de predio linear (LPC).
Outro fato observado foi que nem sempre o aumento da quantidade de variveis
do sistema de reconhecimento, como por exemplo, o nmero de neurnios da camada
intermediria ou o nmero de coeficientes de predio extrados, reduzem os erros
inerentes ao processo de classificao de padres. H sempre um ponto intermedirio
onde a resposta mais favorvel se encontra, todavia a busca por este um processo
emprico.
Uma melhoria do sistema RAV com reduo de erro e equvoco poderia ser
conseguida se houvesse uma quantidade maior de amostras e um nvel menor de rudos
de fundos. Uma quantidade maior de indivduos auxiliaria na diversidade do sistema e
um nvel mais baixo de rudo contibuiria na deteco dos limites do CVZ e na extrao
das caractersticas.
Este trabalho alcanou o objetivo de contribuir para o aperfeioamento de
sistemas de reconhecimento automtico de voz e estimular a implementao real do
sistema para atuar em equipamentos ou como uma interface auxiliar para computadores.
Para trabalhos futuros, com os conhecimentos aqui adquiridos, interessante
verificar, por exemplo, se existem outros mtodos mais eficientes que coeficientes de
predio para extrao de caractersticas, como por exemplo, coeficientes espectrais. E
outras tcnicas diferentes de redes neurais artificiais para reconhecimento de padres,
tais como Modelos Ocultos de Markov.
- 46 -
Referncias Bibliogrficas
[01] Moreira, F. (1998). Reconhecimento automtico de fala contnua. Trabalho de Concluso de Curso.
Engenharia Eltrica AAPS. Portugal 1998. ........................................................................................ 11
[02] Adami, A.G. (1997). Sistemas de reconhecimento de locutor utilizando Redes Neurais Artificiais.
Tese de Mestrado. Cincia da Computao - Universidade Federal do Rio Grande do Sul 1997. .... 11,
17, 37
[03] Furui, S. (1989). Digital speech processing, synthesis and recognitions. Marcel Dekker, Inc 1989.
............................................................................................................................................................... 12
[04] Lee, K. F. (1990). Context-dependent phonetic hidden Markov models for speaker-independent
continous speech recognition. IEEE transactions on acoustics speech and signal processing. April
1990. ...................................................................................................................................................... 13
[05] Ynoguti, C. A. (1999). Reconhecimento de fala contnua usando modelos ocultos de Markov. Tese
de Doutorado. UNICAMP, 1999. .......................................................................................................... 13
[06] Cox, R.V., Rabiner, L.R. (1999). Digital signal processing handbook, speech processing.Chapman &
Hall 1999. ........................................................................................................................................... 13
[07] Rabiner, L. R. (1974). An Algorithm for Locating the Beginning and End of an Utterance Using
ADPCM Coded. Speech, L. H. Rosenthal, R. W. Schafer and L. R. Rabiner, Bell System Tech. Journ.,
Vol. 53, No. 6, pp. 1127-1135, July-August 1974 ................................................................................. 32
[08] Ribas, J. C., Cunha, F. L., Cliquet Jr, A. (2002). Sistema de Controle por Voz Aplicado
Reabilitao Humana. XVIII Congresso Brasileiro de Engenharia Biomdica, Vol. 1, pp 149-154, So
Jos dos Campos, SP, Brasil 2002.. .................................................................................................... 32
[09] Dias, R. S. F. (2000). Normalizao de locutor em sistema de reconhecimento de fala. Tese de
Mestrado, UNICAMP 2000. ............................................................................................................... 33
[10] The MathWorks Inc. (2000). Signal Processing Toolbox User's Guide for Use with Matlab 2000..
............................................................................................................................................................... 16
[11] Johnson, D. E., Hilburn, J. L., Johnson, J. R. (1994). Fundamentos de Anlise de Circuitos Eltricos.
Ed LTC - 2000. ...................................................................................................................................... 15
[12] Sotomayor, C. A. M. (2003). Realce de Voz Aplicado Verificao Automtica de Locutor. Tese de
Mestrado, IME 2003. .......................................................................................................................... 33
[13] The Mathworks, Inc. (2000). Neural Network Toolbox, User's Guide for Use with Matlab 2000. . 26
[14] Cunha, A. R., Racz, A., da Silva, V. F. (2002). Sistema de Reconhecimento de Escrita Baseado em
Redes Neurais Artificiais. Projeto Final de Curso da USP 2002. ....................................................... 38
[15] Tanprasert, C., Wutiwiwatchai, C., Sae-Tang, S. (1999). Text-dependent Speaker Identification
Using Neural Network on Distinctive Thai Tone Marks. Internacional joint Conference on Neural
Network, July, 1999............................................................................................................................... 37
[16] Scavone, A. P. R. (1996). Reconhecimento de Palavrras por Modelos Ocultos de Markov. Tese de
Mestrado, USP - 1996............................................................................................................................ 35
[17] Diniz, P. S. R., da Silva, E. A. B., Netto, S. L. (2004). Processamento Digital de Sinais, Projeto e
Anlise de Sistemas. Ed. Bookman - 2004. ........................................................................................... 15
[18] Haykin, S., Veen, B. V. (2001). Sinais e Sistemas. Ed Bookman - 2002. .......................................... 15
[19] Martins, J. A. (1997). Avaliao de Diferentes Tcnicas para Reconhecimento de Fala. Tese de
Doutorada, UNICAMP - 1997. .............................................................................................................. 14
[20] Braga, A. P., Carvalho, A. C. P. L. F., Ludermir, T. B. (2000). Redes Neurais Artificiais, Teoria e
Aplicaes. Ed LTC - 2000. .................................................................................................................. 20
[21] Haykin, S. (2001). Redes Neurais, Princpios e Prtica. Ed. Bookman - 2001. .................................. 20
[22] Pgina na internet acecssada no dia 27 de fevereiro de 2005:
http://www.din.uem.br/ia/neurais/#neural ............................................................................................. 20
- 47 -
Apndice A Exemplo de Aplicao

A.1 Desenvolvimento
Um prottipo foi desenvolvido durante a execuo deste trabalho para validar o
sistema de Reconhecimento Automtico de Voz (RAV). Este tem como objetivo agir no
meio externo ao microcomputador segundo os Comandos de Voz (CVZ) previamente
treinados.
Os comandos selecionados para a confeco do banco de dados e utilizados para
treinar, validar e testar as estruturas neurais foram frente, atrs, direita, esquerda e pra.
Estes comandos almejam o controle do dispositivo de posicionamento de um carro
guiado por voz. O prottipo do carro apresenta duas rodas que atuam de forma
independente.
O princpio de funcionamento do sistema RAV descrito segundo o diagrama
da Figura 16.
Figura 16 - Diagrama de Funcionamento do Sistema RAV em Execuo no Prottipo
Primeiramente realizada a aquisio do CVZ o qual processado, filtrado e,

posteriormente, classificado segundo as RNA treinadas. A RNA que for excitada pelo
CVZ ps-processado ser a responsvel pelo envio do cdigo referente ao a ser
executada. Foram estabelecidos conforme apresentados na Tabela 1 os cdigos
referentes s aes.
- 48 -
Tabela 9 - Codificao das aes de acordo com o CVZ pronunciado
Comandos
Frente
Atrs
Direita
Esquerda
Pra
Motor Direito
Rotao
Rotao
AntiHorria
horria
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Desligado
Motor Esquerdo
Rotao
Rotao
AntiHorria
horria
Desligado
Ligado
Ligado
Desligado
Desligado
Ligado
Desligado
Desligado
Desligado
Desligado
Codificao
(4 bits)
1001
0110
0001
1000
0000
Caso duas ou mais RNA tenham suas sadas excitadas simultaneamente o

algoritmo desenvolvido estabelece que a ao a ser executada referente ao comando
pra e a mensagem Comando no identificado exibida ao usurio.
O cdigo binrio enviado atravs da porta paralela do microcomputador (PC)
para o meio externo. A fim de eliminar o acoplamento eltrico entre o circuito de
comando e o circuito de carga (motor) foram utilizados um buffer e acopladores pticos
protegendo, pois, este dispositivo de sada do PC.
E por fim, foi montado o circuito de uma ponte H para cada motor de corrente
contnua acoplado s rodas para atuar invertendo a rotao do mesmo e agir de acordo
com os CVZ pronunciados por alguns dos locutores previamente treinados.
A.2 Resultados e Discusses

Para validao do sistema de simulao foi estabelecida uma Tabela de
comandos para que fosse possvel analisar o comportamento do sistema perante
locutores previamente treinados pelas RNA e outros locutores desconhecidos por estas.
As Tabelas 9 e 10 destacam a situao de reconhecimento ou no de CVZ para um
locutor previamente treinado e outro desconhecido, respectivamente. Os comandos
desejados esto selecionados com a cor cinza e os comandos pronunciados e
classificados pelas RNA so denotados pela cor preta. Para os casos onde ocorra a
sobreposio de cores h, portanto a evidncia de que o comando foi identificado
corretamente pelo sistema RAV. Para o caso em que numa mesma linha existam duas
- 49 -
clulas preenchidas h neste caso a situao de comando no identificado (equvoco) ou

classificao de um comando em uma outra classe (erro).
Tabela 10 - Lista de comandos e os resultados de um locutor previamente treinado perante a RNA
para a validao do sistema RAV
comando
frente
frente
frente
atrs
atrs
atrs
direita
direita
direita
esquerda
esquerda
esquerda
pra
pra
pra
frente
atrs
direita
esquerda
pra
pra
esquerda
direita
atrs
frente
esquerda
pra
direita
frente
atrs
esquerda
direita
pra
atrs
frente
esquerda
atrs
direita
pra
frente
frente
1
1
1
atrs
direita
esquerda
pra
2
1
1
no ind
1
2
1
1
1
2
1
2
1
1
2
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
- 50 -
Tabela 11 - Lista de comandos e os resultados de um locutor desconhecido perante a RNA para a

validao do sistema RAV
comando
frente
frente
frente
atrs
atrs
atrs
direita
direita
direita
esquerda
esquerda
esquerda
pra
pra
pra
frente
atrs
direita
esquerda
pra
pra
esquerda
direita
atrs
frente
esquerda
pra
direita
frente
atrs
esquerda
direita
pra
atrs
frente
esquerda
atrs
direita
pra
frente
frente
1
2
1
atrs
direita
esquerda
pra
no ind
1
2
2
2
1
1
1
1
1
2
2
2
1
2
1
2
1
1
2
1
2
1
1
1
1
1
2
2
1
1
1
1
1
1
2
2
1
1
2
1
1
1
2
1
1
2
1
1
1
Nas Tabelas 9 e 10 possvel verificar a influncia de um treinamento prvio do

locutor, recordando que o sistema RAV desenvolvido dependente de locutor. As
discrepncias existentes nas Tabelas destacam o fato de que locutores previamente
treinados ao pronunciar erroneamente um comando, mais de uma RNA excitada e o
- 51 -
sistema responde que o comando no foi identificado em 89,7% dos casos durante a
validao do sistema. Para locutores desconhecidos pelas RNA este nmero reduz para
51,7%, existindo, por conseguinte, uma tendncia maior de um locutor desconhecido
pronunciar um CVZ, por exemplo, frente e o sistema RAV classificar como direita.
O sistema RAV desenvolvido como qualquer outro sistema tem o atraso de
tempo inerente aos clculos realizados para a determinao da sada classificada, neste
trabalho o sistema apresentou um tempo de processamento em mdia de 4,74 segundos.
Esta medida foi realizada a partir do momento em que o locutor inicia a pronuncia do
comando de voz at o instante em que o motor responde ao comando dado ou o
programa em execuo exibe a mensagem de comando no identificado. importante
salientar que a parcela fixa de 3,00 segundos destinada aquisio do CVZ e o tempo
restante, denominado tempo morto ou tempo de resposta, em mdia de 1,74 segundos
aquele no qual o sistema entra em processo de clculo matemtico.
A.3 Concluso
Para um sistema RAV dependente de locutor torna-se evidente a relao entre os
locutores previamente treinados e outros desconhecidos durante o processo de
reconhecimento dos comandos de voz. Os locutores treinados se destacam at no
momento de equvoco, onde mais de uma RNA excitada e o sistema permanece
estvel ou repouso exigindo que um novo comando seja pronunciado em 89,7% dos
casos. Este fato ocorre tambm para locutores desconhecidos, todavia em menores
propores, 51,7% dos casos, enfatizando o erro que resulta na operao indevida da
sada do sistema, neste caso, a operao dos motores.
- 52 -
Apndice B Padres de Voz Antes e Aps

Processamento Digital de Sinais
Tabela 12 Comparao do comando de voz antes e aps processamento digital de sinais
Padro
Antes
Aps
Frente
Atrs
Direita
Esquerda
Pra
- 53 -

Redes Neurais Artificiais Aplicadas Ao Reconhecimento de Comandos de Voz

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Redes Neurais Artificiais Aplicadas Ao Reconhecimento de Comandos de Voz

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE VIOSA

CENTRO DE CINCIAS EXATAS E TECNOLGICAS

REDES NEURAIS ARTIFICIAIS APLICADAS AO

ALEXANDRE SANTOS BRANDO

REDES NEURAIS ARTIFICIAIS APLICADAS AO

ALEXANDRE SANTOS BRANDO

Trabalho de Concluso de Curso submetido

Aprovada: 29 de junho de 2005.

Prof. David Calhau Jorge

Prof. Ricardo dos Santos Ferreira

Prof. Jos Mrcio Costa

Prof. Tarcsio de Assuno Pizziolo

A meus pais Osas e Ceclia e a

Em primeiro lugar gostaria de agradecer ao professor Roselito de Albuquerque

Resumo: O presente trabalho tem como objetivo a implementao de um sistema de

The present work has as objective the implementation of an Automatic Voice

CVZ Comando de Voz

Digital Signal Processing

Fast Fourier Transform

Finite Impulse Response

Infinity Impulse Response

Linear Prediction Coefficient

MLP Multi Layer Perceptron

RNA Redes Neurais Artificiais

Lista de Figuras _______________________________________________________ 7

Reviso Bibliogrfica _____________________________________________ 12

Sistemas de Reconhecimento de Voz ___________________________________ 12

Processamento do Sinal de Fala ______________________________________ 15

Redes Neurais Artificiais ____________________________________________ 20

Objetivo Geral _____________________________________________________ 28

Objetivos Especficos _______________________________________________ 28

Base de Dados _____________________________________________________ 29

Processamento do Sinal de Fala ______________________________________ 30

Deteco de Incio e Fim __________________________________________________ 30

Redes Neurais _____________________________________________________ 37

Resultados e Discusses ___________________________________________ 39

Referncias Bibliogrficas _________________________________________ 47

Apndice A Exemplo de Aplicao _____________________________________ 48

Resultados e Discusses _____________________________________________ 49

Apndice B Padres de Voz Antes e Aps Processamento Digital de Sinais _____ 53

desenvolvemos continuamente no decorrer da vida. De forma similar entendemos ou

Sistemas de Reconhecimento de Voz

2.1.2 Base de Dados

2.1.3 Reconhecimento do Sinal de Voz Baseado na Comparao de

Para reconhecedores de palavras isoladas, como o caso deste trabalho, torna-se

Figura 1 - Diagrama de blocos do modelo geral de um sistema RAV

e o reconhecedor apresenta um resultado possibilitando a verificao ou no da

Processamento do Sinal de Fala

2.2.2 Filtros Digitais

Onde x(n) so os dados amostrados de entrada para o filtro e y(n) a sada

Figura 2 - Diagrama de blocos do filtro digital tipo FIR forma direta

As janelas so filtros digitais que visam reduzir descontinuidades causadas

Onde N indica o tamanho da janela, que equivalente ao tamanho da amostra. A

Tabela 1 Tipos de janelas generalizadas de co-seno

Um outro tipo de filtro digital pode ser conseguido atravs da transformao

Os filtros digitais so necessrios para suprimir de um sinal de voz informaes

Onde o mdulo mximo da funo de transferncia dado por:

Na freqncia de corte c tem-se que:

Desta forma, as freqncias de corte podem ser calculadas por:

Tendo em mos as freqncias de corte, basta encontrar os parmetros que

Onde c a freqncia de corte deste filtro passa baixa. Considerando que os

Os plos determinados se encontram direita do plano complexo, indicando a

E pk so os plos encontrados pela equao (9). Para tornar a funo de