Escolar Documentos
Profissional Documentos
Cultura Documentos
Redes Neurais Artificiais Aplicadas Ao R PDF
Redes Neurais Artificiais Aplicadas Ao R PDF
VIÇOSA
MINAS GERAIS – BRASIL
JUNHO/2005
REDES NEURAIS ARTIFICIAIS APLICADAS AO
RECONHECIMENTO DE COMANDOS DE VOZ
______________________________ ______________________________
Prof. David Calhau Jorge Prof. Ricardo dos Santos Ferreira
(Membro) (Membro)
______________________________ ______________________________
Prof. José Márcio Costa Prof. Tarcísio de Assunção Pizziolo
(Coordenador da Disciplina) (Orientador)
-2-
A meus pais Oséas e Cecília e a
minha irmã Simone pelo incentivo e
confiança depositados em mim.
-3-
Agradecimentos
Aos colegas de trabalho, Renan Nominato e Matheus Faria, pelo auxílio nas
atividades de construção do protótipo e confecção do banco de dados.
Aos amigos de classe que fazem parte da minha vida, agradeço pela
convivência destes anos que passamos unidos e transpassando todas as barreiras a
nós impostas.
Agradeço profundamente aos meus pais, Cecília dos Santos e Oséas Brandão,
a minha tia Celina dos Santos e a minha irmã Simone Brandão por me amar, apoiar e
incentivar à conclusão deste curso mesmo estando a vários quilômetros de distância.
A Deus por me conceder sabedoria e forças para executar este trabalho e vida
para que hoje eu possa agradecer a todas estas pessoas.
-4-
RESUMO
-5-
ABSTRACT
-6-
Lista de Figuras
-7-
Lista de Tabelas
-8-
Abreviações
BR Bayesian Regularization
CVZ Comando de Voz
DSP Digital Signal Processing
FFT Fast Fourier Transform
FIR Finite Impulse Response
IIR Infinity Impulse Response
LPC Linear Prediction Coefficient
LM Levenberg - Marquardt
MLP Multi Layer Perceptron
MSE Mean Square Error
RAV Reconhecimento Automático de Voz
RL Reconhecimento de Locutor
RNA Redes Neurais Artificiais
-9-
Sumário
- 10 -
1 Introdução
A fala para as pessoas dotadas desta habilidade é uma tarefa trivial que
desenvolvemos continuamente no decorrer da vida. De forma similar entendemos ou
tentamos entender o que as outras pessoas estejam pronunciando. Todavia, para
máquinas e computadores, o processo de reconhecimento de uma locução é uma tarefa
bastante complexa, sendo necessário um treinamento prévio e um processamento do
sinal de voz.
- 11 -
2 Revisão Bibliográfica
2.1.1 Introdução
A pronúncia dos CVZ, por sua vez, pode ser executada de forma contínua ou
pausada. Existem sistemas de reconhecimento que utilizam palavras isoladas (palavras
pronunciadas com pausas entre si), palavras concatenadas (seqüências de palavras pré-
estabelecidas faladas de forma contínua) e fala contínua (frases e orações pronunciadas
de forma contínua). No último sistema encontramos o maior grau de complexidade, pois
os limites de início e fim de um padrão de referência são mais difíceis de encontrar,
devido aos efeitos de coarticulação entre as palavras.
- 12 -
2.1.2 Base de Dados
Processamento do Sinal
- 13 -
Para reconhecedores de palavras isoladas, como é o caso deste trabalho, torna-se
necessário determinar o início e o fim de uma amostra de voz a fim de separar ruídos de
fundo do sinal. Para tornar o sinal mais puro possível, para posteriormente extrair as
características, filtros digitais são aplicados com objetivo de excluir freqüências
irrelevantes.
Padrões de Referência
Comparação de Padrões
- 14 -
e o reconhecedor apresenta um resultado possibilitando a verificação ou não da
generalização do sistema de reconhecimento.
Pós-processador
2.2.1 Introdução
Filtros digitais são operadores lineares empregados sobre dados digitalizados (ou
amostrados) que permitem a passagem ou o corte de certas freqüências conforme as
características do filtro. Estes operadores lineares podem ser descritos pela equação (1).
- 15 -
M N
y (n) = ∑ bq x(n − q ) − ∑ a p y (n − p ) eq. ( 1 )
q =0 p =1
Onde x(n) são os dados amostrados de entrada para o filtro e y(n) é a saída
resultante do mesmo. Os coeficientes bq e ap são os coeficientes de entrada e saída do
filtro, respectivamente.
- 16 -
2π .n 4π .n
y (n) = A − B cos + C cos eq. ( 2 )
N N
Nome da Parâmetros
Janela A B C
Hanning 0.50 0.50 0.00
Hamming 0.54 0.46 0.00
Blackman 0.42 0.5 0.08
H ( z ) = H ( s) s =2 f z −1 eq. ( 3 )
s
z +1
- 17 -
Ks
H ( s) = 2
eq. ( 4 )
s + as + b
K
H ( jω ) max = eq. ( 5 )
a
1
H ( jω c ) = H ( jω ) max eq. ( 6 )
2
− a + a 2 + 4b a + a 2 + 4b
ω c1 = e ω c2 = eq. ( 7 )
2 2
2 1
H ( jω ) = 2N
eq. ( 8 )
ϖ
1 +
ωc
- 18 -
Os pólos determinados se encontram à direita do plano complexo, indicando a
estabilidade do filtro, cuja função de transferência pode ser dada por:
Ho
H (s ) = N
eq. ( 10 )
∏ (s − p )
k =1
k
Onde:
N
H o = ∏ (− p k ) eq. ( 11 )
k =1
s 2 + ωo2
s' = eq. ( 12 )
Bs
ϖ0 = ϖc ϖc 1 2
eq. ( 13 )
B = ϖ c 2 − ϖ c1 eq. ( 14 )
- 19 -
N
E = ∑ x ( n) 2 eq. ( 15 )
n =1
Figura 3 - (a) Comando de Voz (CVZ) no tempo (b) Energia de um CVZ não normalizado
2.3.1 Introdução
- 20 -
As RNA são sistemas paralelos compostos por unidades elementares,
denominadas neurônios, que calculam determinadas funções matemáticas geralmente
não-lineares, cujo funcionamento é inspirado no próprio cérebro humano.
As RNA têm como capacidade aprender com os exemplos que lhe são
apresentados e generalizar a informação aprendida, sendo possível, portanto, a
classificação de amostras de dados desconhecidos, mas que se assemelhe com a
informação contida na etapa de treinamento. As RNA são capazes de extrair
características que não estejam explicitamente apresentadas sob a forma de exemplos
(ou amostras de entrada).
2.3.2 Definição
O cérebro humano é constituído por cerca 1011 neurônios, que recebem e enviam
informações para milhares de outros a eles conectados. O cérebro é destinado a cuidar
em nosso corpo no que se trata de emoção, raciocínio e funções motoras. As RNA, por
sua vez, têm como ambição simular este mundo de atividades realizadas pelo cérebro,
implementando o seu comportamento básico e sua dinâmica.
- 21 -
biológico, a sinapse só ocorre quando a soma ponderada dos sinais de entrada ultrapassa
um limiar pré-definido, realizando, portanto uma atividade semelhante a do corpo. No
modelo proposto, o limiar foi definido de forma Booleana, dispara ou não dispara,
resultante de uma função de ativação, conforme pode ser visto na Figura 4.
n
y = f ( ∑ x i wi + b ) eq. ( 16 )
i =1
- 22 -
b) Quanto as suas conexões:
• Redes feed forward: são estruturas neurais, onde a saída de um neurônio
de uma dada camada realiza conexões com os neurônios das camadas
seguintes e não com os das camadas antecessoras (Figuras 5a e 5b).
• Redes feedback: são aquelas cuja saída de uma camada, também pode
atuar tanto na entrada dos neurônios das camadas antecessoras como das
posteriores (Figura 5c).
Figura 5 - Classificação das RNA. (a) Rede de Camada única (b) Redes de múltiplas camadas (c)
Redes feedback. (a) e (b) são exemplos de redes feed forward.
c) Quanto ao treinamento:
• Supervisionado: caracteriza-se pela existência de um professor, ou
supervisor, que monitora a resposta da rede e compara esta com a
resposta desejada, e a partir do erro existente entre estas respostas faz-se
o ajuste dos pesos sinápticos até que um erro mínimo estabelecido seja
alcançado ou o número de iterações pré-estabelecido seja superado.
• Não supervisionado: caracteriza-se pela não existência de saídas
desejadas, sendo, portanto, o conjunto de treinamento é estabelecido
somente pelo vetor de entrada. A atualização dos pesos sinápticos é
obtida com base nos próprios valores de entrada. Este tipo de
treinamento é aplicado a problemas de categorização de dados.
• Reforço: é um treinamento que mescla as características do treinamento
supervisionado e do não supervisionado. O conjunto de treinamento é
- 23 -
formado simplesmente por dados de entrada, todavia há um crítico,
similar ao supervisor, que reforça ou penaliza a saída da rede.
- 24 -
O número de neurônios das camadas intermediárias é determinado de forma
empírica, atentando para o caso de overfitting (ou superajuste), que é o caso onde existe
uma grande quantidade de neurônios e a estrutura ao invés de generalizar as
informações, acabar por memorizar os padrões apresentados, não sendo capaz de
classificar padrões semelhantes. Outro efeito do superajuste é que a RNA além de
armazenar as características relevantes extraídas das amostras, esta guarda em seus
pesos informações de ruídos que a princípio não revelam interesse. Por outro lado, caso
o número de neurônios seja inferior ao desejado, pode ocorrer um underfitting e a RNA
não convergir para uma resposta devido a uma sobrecarga de informações a serem
armazenadas em poucos pesos.
1 k
mse = ∑∑
k p i =1
(dip − yip )
2
eq. ( 17 )
Uma grande dificuldade de encontrar uma solução viável diz respeito aos
mínimos locais, que apresentam características semelhantes às do mínimo absoluto,
- 25 -
todavia resultam em resposta equivocadas e geralmente incorretas. Existem algumas
formas de aumentar a generalização das RNA evitando a priori a incidência dos
mínimos locais, dentre estas estão a regularização e a parada precoce [13].
2
1 k
msw = ∑∑
k p i =1
( )
wip eq. ( 18 )
- 26 -
de treinamento esteja decrescendo. Normalmente, no início do treinamento, tanto o erro
de treinamento quanto o erro de validação decrescem no decorre das iterações,
entretanto, à medida que começa a ocorre um overfitting o erro de validação começa a
crescer. O terceiro grupo é constituído das amostras de teste, as quais deverão se
apresentadas à RNA treinada.
- 27 -
3 Objetivos
Este trabalho tem como objetivo identificar comandos de voz (CVZ) de palavras
isoladas com dependência do locutor que as pronuncia utilizando técnicas de
Processamento Digital de Sinais (DSP – Digital Signal Processing), para aquisição,
filtragem e extração de características do sinal de voz e Redes Neurais Artificiais
(RNA) para realizar a tarefa de reconhecimento de padrões.
- 28 -
4 Materiais e Métodos
Como característica, o sinal de voz apresenta sua natureza contínua, logo foi
necessária uma conversão analógico-digital, para que o mesmo pudesse ser armazenado
no disco rígido. A aquisição dos dados foi realizada num ambiente de laboratório
relativamente silencioso a fim de facilitar a extração das características, através de um
microfone direcional e uma placa de som SoundBlaster AWE 64. As amostras foram
adquiridas a uma taxa de amostragem de 22.050Hz com resolução de 16 bits e
armazenadas no formato wave. Logo, segundo o Teorema da Amostragem de Nyquist,
as amostras possuem freqüências de até 11kHz.
Depois de realizada a aquisição, cada amostra de cada padrão teve sua forma de
onda analisada em um programa gráfico e, utilizando fones de ouvido, verificou-se a
qualidade do sinal. Excluíram-se as amostras onde ocorriam à saturação pela placa de
som e que ocasionaria ruídos irreversíveis (Figura 7). Para manter a igualdade de
número de amostras por padrão, foram realizadas novas aquisições pelos mesmos
locutores das amostras saturadas, a fim de substituí-las.
- 29 -
Figura 7 - Pronúncia de um comando de voz (a) Amostra do padrão “pára” não-saturada (b)
Amostra do padrão “atrás” saturada
Figura 8 - Pronúncia do padrão “direita” para visualização de ruídos de fundo na zona de silêncio
- 30 -
Centralização do Comando de Voz
Uma amostra de padrão não centralizada não apresenta uma depreciação quanto
à qualidade do sinal, contudo, caso seja necessário aplicar uma janela de Hamming para
atenuar os efeitos do truncamento durante a aquisição, por exemplo; isto ocasionaria
uma amplificação dos ruídos (Figura 9).
Figura 9 - Amplificação de ruído por aplicação indevido de janela de Hamming sobre uma amostra
do padrão “atrás” (a) Sinal original adquirido (b) Sinal janelado
Para evitar problemas futuros como este, durante a aplicação de janelas, faz-se a
centralização do CVZ tomando como base o valor absoluto de maior valor energético.
Após encontrar este valor, verifica-se à distância entre o início da amostra e o ponto de
pico e a distância entre o pico e o fim. A menor distância é adotada e espelhada sobre o
maior de modo que o pico de energia esteja no centro da amostra (Figura 10) e
conseqüentemente há uma redução no tamanho da zona de silêncio.
- 31 -
Figura 10 - Pronúncia do padrão “esquerda”, análise de energia do sinal e centralização do sinal
com base no bico de energia.
f ( z ) = 1 − α .z −1 eq. ( 20 )
- 32 -
y (n ) = x(n ) − α .x(n − 1) eq. ( 21 )
Onde x(n) é o sinal amostrado e o parâmetro α pode variar entre 0,9 e 1,0 para
sinais sonoros, e ter valores próximos de zero, para sinais surdos [12]. Neste trabalho
adotou-se o valor de 0,95, pois sinais de voz apresentam características sonoras. Esta
diferenciação age como um filtro passa alta, com o objetivo de compensar a atenuação
de 6dB/oitava nas altas freqüências, devido à radiação da fala nos lábios de
(+6dB/oitava) [9]. O filtro de pré-ênfase atua como um atenuador da tensão de off-set
inserida no sinal de voz no momento da aquisição.
1 2
y (n ) = ∑ x(n − k )
3 k =0
eq. ( 22 )
De acordo com a equação (4), um filtro analógico passa faixa pode ser
implementado simplesmente ajustando os parâmetros a e b, de acordo com a equação
(7). No entanto a função de transferência de um filtro passa faixa analógico no plano s é
dada por:
4900 s
H (s ) = 2
eq. ( 23 )
s + 4900 s + 500000
a = 4900
b = 500000
- 33 -
Adotou-se K = a com o objetivo de manter o módulo máximo igual à unidade.
Tendo em vista que uma amostra de CVZ é discreta, torna-se necessário converter o
filtro descrito acima para o domínio discreto, para isto utiliza-se à transformação
bilinear (equação (3)) que resultará na seguinte função de transferência:
0.3278 − 0.3278 z −2
H ( z) = eq. ( 24 )
1 − 1.3311z −1 + 0.3445 z − 2
x(n )
y (n ) = eq. ( 25 )
max x(n )
Outro método utilizado foi encontrar o maior valor positivo e negativo e levá-los
a unidade atentando para o sinal correspondente (equação (26)). Porém esta última
apresenta a desvantagem de deslocar o zero caso os máximos não apresentem simetria
de valor com a origem (distintos em módulo), o que não ocorre no primeiro caso.
- 34 -
Figura 11 - (a) Sinal de voz filtrado e não normalizado (b) Sinal de voz normalizado tomando como
base o maior valor em módulo do sinal (c) Sinal de voz normalizado tomando como referência o
máximo valor negativo e positivo do sinal.
Análise de Energia
- 35 -
em relação ao primeiro ponto) no vetor que contenha o CVZ no momento em que o
algoritmo de busca encontra um valor que ultrapasse o primeiro patamar. O salto tem a
finalidade de evitar ruídos pontuais, os quais são desconsideráveis.
Figura 12 - Detecção de início e fim utilizando o método de energia do sinal. Ei1, Ei2, Ef1 e Ef2 são os
patamares predefinidos de energia, bem como a largura do salto.
Neste trabalho foi adotado um salto equivalente a 20ms, pois para um sinal de
voz não há tanta alteração na amplitude como ocorre nos casos de ruídos de impacto,
conforme acontece na região desprezada na Figura 12. Os patamares de energia Ei1 e Ef1
são denominados patamares de silêncio de início e de fim da pronúncia,
respectivamente. Os percentuais adotados para estes patamares são 1% para o início e
0,2% para o fim em relação à amplitude unitária da energia do CVZ. Os patamares Ei2 e
Ef2 são destinados à confirmação de que a energia do comando de voz ainda cresce
- 36 -
mesmo após o salto, tanto do início para o fim da amostra quanto do fim para o início.
Os valores adotados foram 2,5% e 0,5% da energia máxima do CVZ.
Os Coeficientes de Predição Linear (LPC), por sua vez, são aqui utilizados para
extrair as características do CVZ pré-processado e representar os milhares de dados em
algumas unidades ou dezenas pré-determinadas. A idéia da predição linear é que uma
amostra de voz pode ser representada por uma combinação linear de amostras de voz
passadas [15][2]. Neste trabalho foram utilizando LPC de 8a, 10a e 12a ordem. Após a
determinação dos LPC, estes foram normalizados pela equação (26) com o objetivo de
proporcionar uma convergência mais rápida na etapa de treinamento das RNA.
- 37 -
aprendizagem do algoritmo back-propagation de 0,010. Cada estrutura de redes foi
avaliada cinco vezes e salvando aquele que obtivesse menor erro dentre as repetições.
1 − e − b .n
fa (n) = eq. ( 27 )
1 + e − b .n
As atualizações dos pesos foram realizadas em até 200 ciclos ou então quando o
erro quadrático médio (mse) atingisse um valor inferior a 0,012.
- 38 -
5 Resultados e Discussões
- 39 -
Foram testados também modelos híbridos entre o filtro Butterworth e o da
transformação linear, os quais não obtiveram bons resultados quanto à definição clara
dos limites das palavras.
Foi feita uma comparação entre o filtro FIR de 20a ordem e o filtro Butterworth
de 5a ordem, ambos obtiveram uma resposta aceitável, todavia o Butterworth computa a
resposta com esforço computacional muito menor que o FIR.
- 40 -
Figura 15 - Comparação entre a amostra do sinal original e do processado
- 41 -
da camada oculta (nnco) e a resposta final da rede. A resposta final (rf) é determinada
pela porcentagem de todas as amostras que a rede ou equivocou ou errou.
- 42 -
Tabela 4 – RNA treinada pelo algoritmo BR para 12 LPC
treinamento validação
algoritmo NNCO posição RF
erro equívoco erro equívoco
frente 0,00 0,00 20,00 3,75 2,33
atrás 0,00 0,62 5,00 6,25 2,33
5 direita 17,50 0,62 25,00 7,50 6,33
esquerda 5,00 0,00 30,00 7,50 4,67
para 0,00 0,00 10,00 1,25 1,00
frente 0,00 0,00 20,00 11,25 4,33
Regularização Bayesiana
10
8 coeficientes LPC
- 43 -
Tabela 6 – RNA treinada pelo algoritmo LM para 10 LPC
treinamento validação
algoritmo NNCO posição RF
erro equívoco erro equívoco
frente 0,00 1,25 10,00 10,00 4,00
atrás 0,00 0,62 15,00 2,50 2,00
5 direita 5,00 0,00 15,00 2,50 2,33
esquerda 15,00 0,00 30,00 5,00 5,33
para 0,00 0,62 0,00 6,25 2,00
frente 2,50 1,25 10,00 6,25 3,33
atrás 2,50 0,62 5,00 2,50 1,67
Levenberg-Marquardt
10 coeficientes LPC
- 44 -
As linhas em negrito indicam a estrutura com RF mais baixa para cada padrão
em função do algoritmo de treinamento e do número de LPC extraídos, variando
simplesmente o NNCO.
Tabela 8 – Resumo dos resultados alcançado nos treinamentos dos padrões pelos algoritmos de
Levenberg - Marquard e Regularização Bayesiana
Algoritmo Levenberg - Marquard Regularização Bayesiana
Padrão Erro da Rede Estrutura Erro da Rede Estrutura
Frente 1,33% [8 – 5 – 1] 1,67% [8 – 15 – 1]
Atrás 0,33% [12 – 20 – 1] 0,67% [8 – 15 – 1]
Direita 1,67% [12 – 5 – 1] 2,67% [10 – 5 – 1]
Esquerda 3,00% [12 – 5 – 1] 2,33% [8 – 15 – 1]
Pára 0,67% [12 – 5 – 1] 1,00% [10 – 5 – 1]
Segundo Adami [2], um sistema RAV deve ter um erro da rede inferior a 2,50%
e conforme explicitado na Tabela 8, os padrões esquerda e direita resultantes do
algoritmo de treinamento de Levenberg - Maquard e Regularização Bayesiana,
respectivamente, extrapolam este valor.
Foi possível verificar durante teste que à medida que cresce o número de
parâmetros efetivos da RNA não há uma melhora tão significativa, como ocorre nos
algoritmos de treinamento LM e BR para 12 LPC e 20 neurônios na camada
intermediária. Logo, para números superiores de parâmetros não haverá redução de erro
ou equívoco, provavelmente.
- 45 -
6 Conclusões
Outro fato observado foi que nem sempre o aumento da quantidade de variáveis
do sistema de reconhecimento, como por exemplo, o número de neurônios da camada
intermediária ou o número de coeficientes de predição extraídos, reduzem os erros
inerentes ao processo de classificação de padrões. Há sempre um ponto intermediário
onde a resposta mais favorável se encontra, todavia a busca por este é um processo
empírico.
Uma melhoria do sistema RAV com redução de erro e equívoco poderia ser
conseguida se houvesse uma quantidade maior de amostras e um nível menor de ruídos
de fundos. Uma quantidade maior de indivíduos auxiliaria na diversidade do sistema e
um nível mais baixo de ruído contibuiria na detecção dos limites do CVZ e na extração
das características.
- 46 -
7 Referências Bibliográficas
[01] Moreira, F. (1998). Reconhecimento automático de fala contínua. Trabalho de Conclusão de Curso.
Engenharia Elétrica AAPS. Portugal – 1998. ........................................................................................ 11
[02] Adami, A.G. (1997). Sistemas de reconhecimento de locutor utilizando Redes Neurais Artificiais.
Tese de Mestrado. Ciência da Computação - Universidade Federal do Rio Grande do Sul – 1997. .... 11,
17, 37
[03] Furui, S. (1989). Digital speech processing, synthesis and recognitions. Marcel Dekker, Inc – 1989.
............................................................................................................................................................... 12
[04] Lee, K. F. (1990). Context-dependent phonetic hidden Markov models for speaker-independent
continous speech recognition. IEEE transactions on acoustics speech and signal processing. April
1990. ...................................................................................................................................................... 13
[05] Ynoguti, C. A. (1999). Reconhecimento de fala contínua usando modelos ocultos de Markov. Tese
de Doutorado. UNICAMP, 1999. .......................................................................................................... 13
[06] Cox, R.V., Rabiner, L.R. (1999). Digital signal processing handbook, speech processing.Chapman &
Hall – 1999. ........................................................................................................................................... 13
[07] Rabiner, L. R. (1974). An Algorithm for Locating the Beginning and End of an Utterance Using
ADPCM Coded. Speech, L. H. Rosenthal, R. W. Schafer and L. R. Rabiner, Bell System Tech. Journ.,
Vol. 53, No. 6, pp. 1127-1135, July-August 1974 ................................................................................. 32
[08] Ribas, J. C., Cunha, F. L., Cliquet Jr, A. (2002). Sistema de Controle por Voz Aplicado à
Reabilitação Humana. XVIII Congresso Brasileiro de Engenharia Biomédica, Vol. 1, pp 149-154, São
José dos Campos, SP, Brasil – 2002.. .................................................................................................... 32
[09] Dias, R. S. F. (2000). Normalização de locutor em sistema de reconhecimento de fala. Tese de
Mestrado, UNICAMP – 2000. ............................................................................................................... 33
[10] The MathWorks Inc. (2000). Signal Processing Toolbox User's Guide for Use with Matlab – 2000..
............................................................................................................................................................... 16
[11] Johnson, D. E., Hilburn, J. L., Johnson, J. R. (1994). Fundamentos de Análise de Circuitos Elétricos.
Ed LTC - 2000. ...................................................................................................................................... 15
[12] Sotomayor, C. A. M. (2003). Realce de Voz Aplicado à Verificação Automática de Locutor. Tese de
Mestrado, IME – 2003. .......................................................................................................................... 33
[13] The Mathworks, Inc. (2000). Neural Network Toolbox, User's Guide for Use with Matlab – 2000. . 26
[14] Cunha, A. R., Racz, A., da Silva, V. F. (2002). Sistema de Reconhecimento de Escrita Baseado em
Redes Neurais Artificiais. Projeto Final de Curso da USP – 2002. ....................................................... 38
[15] Tanprasert, C., Wutiwiwatchai, C., Sae-Tang, S. (1999). Text-dependent Speaker Identification
Using Neural Network on Distinctive Thai Tone Marks. Internacional joint Conference on Neural
Network, July, 1999............................................................................................................................... 37
[16] Scavone, A. P. R. (1996). Reconhecimento de Palavrras por Modelos Ocultos de Markov. Tese de
Mestrado, USP - 1996............................................................................................................................ 35
[17] Diniz, P. S. R., da Silva, E. A. B., Netto, S. L. (2004). Processamento Digital de Sinais, Projeto e
Análise de Sistemas. Ed. Bookman - 2004. ........................................................................................... 15
[18] Haykin, S., Veen, B. V. (2001). Sinais e Sistemas. Ed Bookman - 2002. .......................................... 15
[19] Martins, J. A. (1997). Avaliação de Diferentes Técnicas para Reconhecimento de Fala. Tese de
Doutorada, UNICAMP - 1997. .............................................................................................................. 14
[20] Braga, A. P., Carvalho, A. C. P. L. F., Ludermir, T. B. (2000). Redes Neurais Artificiais, Teoria e
Aplicações. Ed LTC - 2000. .................................................................................................................. 20
[21] Haykin, S. (2001). Redes Neurais, Princípios e Prática. Ed. Bookman - 2001. .................................. 20
[22] Página na internet acecssada no dia 27 de fevereiro de 2005:
http://www.din.uem.br/ia/neurais/#neural ............................................................................................. 20
- 47 -
Apêndice A – Exemplo de Aplicação
A.1 Desenvolvimento
- 48 -
Tabela 9 - Codificação das ações de acordo com o CVZ pronunciado
E por fim, foi montado o circuito de uma ponte H para cada motor de corrente
contínua acoplado às rodas para atuar invertendo a rotação do mesmo e agir de acordo
com os CVZ pronunciados por alguns dos locutores previamente treinados.
- 49 -
células preenchidas há neste caso a situação de comando não identificado (equívoco) ou
classificação de um comando em uma outra classe (erro).
- 50 -
Tabela 11 - Lista de comandos e os resultados de um locutor desconhecido perante a RNA para a
validação do sistema RAV
- 51 -
sistema responde que o comando não foi identificado em 89,7% dos casos durante a
validação do sistema. Para locutores desconhecidos pelas RNA este número reduz para
51,7%, existindo, por conseguinte, uma tendência maior de um locutor desconhecido
pronunciar um CVZ, por exemplo, “frente” e o sistema RAV classificar como “direita”.
A.3 Conclusão
- 52 -
Apêndice B – Padrões de Voz Antes e Após
Processamento Digital de Sinais
Frente
Atrás
Direita
Esquerda
Pára
- 53 -