Escolar Documentos
Profissional Documentos
Cultura Documentos
INPE
So Jos dos Campos
2005
Junho 2005
II
SUMRIO
1 - INTRODUO ......................................................................................................................................... 1
1.1 - APRESENTAO DO TEMA ..................................................................................................................... 1
1.2 - OBJETIVOS ............................................................................................................................................ 3
1.2.1 - Objetivos Gerais............................................................................................................................ 3
1.2.2 - Objetivos Especficos .................................................................................................................... 3
1.2.3 - Organizao do Trabalho ............................................................................................................. 4
2 - VOZ HUMANA ......................................................................................................................................... 5
2.1 2.2 2.3 2.4 2.5 -
INTRODUO......................................................................................................................................... 5
FORMAO DA VOZ .............................................................................................................................. 5
PROPRIEDADES DA VOZ......................................................................................................................... 7
TIPOS DE LESES NA VOZ ...................................................................................................................... 8
MANUTENO DA VOZ ....................................................................................................................... 11
III
Lista de Figuras
Figura 2.1 Anatomia da garganta......................................................................................4
Figura 2.2 Ndulo - Sintoma provocado na garganta.......................................................5
Figura 2.3 Plipos na laringe ............................................................................................7
Figura 2.4 Edema provocado na garganta ......................................................................13
Figura 2.5 Garganta com cisto........................................................................................15
Figura 3.1 Paradigma dos Quatro Universos ..................................................................16
Figura 3.2 Jean Baptiste Joseph Fourier (1768 1830) .................................................17
Figura 3.3 Pierre Simon Laplace ....................................................................................18
Figura 3.4 Analogia entre Continuidade e Periodicidade ...............................................19
Figura 3.5 Software MATLAB.......................................................................................28
Figura 3.6 Espectro de potncia......................................................................................29
Figura 3.7 Sinal de voz de 2 segundos............................................................................30
Figura 3.8 Espectro de potncia do sinal de voz de 2 segundos.....................................31
Figura 4.1 Software Sound Forge ...................................................................................32
Figura 4.2 Ilustrao das vozes gravadas........................................................................33
Figura 4.3 Ilustrao das etapas utilizadas no treinamento da rede MLP sem
o pr-processamento da DFT.........................................................................34
Figura 4.4 Erro encontrado no treinamento da rede MLP ..............................................35
Figura 4.5 Filtragem do sinal de voz ..............................................................................36
Figura 4.6 Ilustrao das Etapas utilizadas no treinamento da rede MLP com
o pr-processamento da DFT.........................................................................37
Figura 4.7 Erro encontrado no treinamento da rede MLP ..............................................39
IV
Lista de Tabelas
Tabela 2.1 - Cordas vocais humana ...................................................................................33
Tabela 3.1 Relaes de domnios de tempos dos sinais .................................................43
Tabela 3.2 Freqncias e tempos do sinal a ser analisado..............................................44
Tabela 3.3 Etapas da Transformada Discreta de Fourier................................................45
Tabela 3.4 Etapas do algoritmo da DFT .........................................................................45
Tabela 3.5 Comparao entre o sinal original e sua inversa...........................................46
Tabela 3.6 Correlao entre a voz de 2 segundo e sua inversa.......................................47
Tabela 4.1 Disposio das vozes utilizadas na rede MLP ..............................................48
Tabela 4.2 Codificao dos diagnsticos de voz ............................................................48
Tabela 4.3 Porcentagem de acerto das vozes treinadas na rede MLP............................49
Tabela 4.4 Porcentagem de acerto das vozes generalizadas pela rede MLP .................51
Tabela 4.5 Comparao entre as vozes calmas e de estresse..........................................52
Tabela 4.6 Clculo do espectro de potncia das vozes ...................................................53
Tabela 4.7 Comparao entre a voz original e a inversa do sinal...................................54
Tabela 4.8 Disposio das vozes pr-processadas utilizadas na rede MLP....................54
Tabela 4.9 - Codificao dos diagnsticos das vozes pr-processadas .............................56
Tabela 4.10 Porcentagem de acerto das vozes treinadas pela rede MLP.......................57
Tabela 4.11 Porcentagem de acerto das vozes generalizadas pela rede MLP ...............58
Tabela 4.12 Comparao entre as vozes pr-processadas calmas e nervosas ................59
Tabela 4.13 Comparao entre os dois treinamentos realizados ....................................60
RESUMO
1 - INTRODUO
2
VARK desenvolvido por Fleming e Mills (1992), o qual tem por finalidade investigar as
preferncias por modos pelos quais as pessoas trabalham com informao. Este teste foi
treinado e comparado usando todas as arquiteturas de RNAs citadas, buscando o grau de
aprendizado e a mais indicada para a identificao destes padres.
Em outro experimento, utilizou-se o teste psicolgico MPCL (Mooney Problem
Check List) desenvolvido por Leonard V. Gordon e Roos L. Mooney (1950), que tem como
objetivo ajudar indivduos a expressarem seus problemas pessoais. Este teste til, por
exemplo, para aumentar a compreenso do professor sobre seus estudantes onde os
questionrios so separados por faixa etria e abrangem reas como: sade e
desenvolvimento, repouso e famlia, moral e religio, sexo e casamento. Este teste foi
treinado nas arquiteturas de RNAs mencionadas para comparao e verificao da rede que
produz um melhor diagnstico para esta avaliao.
Como um ltimo experimento procurou-se analisar sinais de voz para a identificao
de nveis de stress. Atravs de um gravador porttil foi produzido um banco de dados
contendo vozes de pessoas em situaes calmas e de stress, atravs da leitura de um texto
pr-determinado. Uma parte desse banco de vozes foi treinado pela rede Perceptron de
Mltiplas Camadas obtendo 98,78% de reconhecimento pela rede neural. Aps o
treinamento, foi verificada a capacidade da rede de generalizar vozes nunca vistas
anteriormente, apresentando a segunda parte do banco de vozes para o seu reconhecimento
constatando um reconhecimento de 50,2%.
Uma desvantagem percebida neste experimento foi durante a formulao do banco de
vozes pelo gravador porttil. Junto gravao percebeu-se a presena de rudos anexados
s vozes como chiado e fatores externos em geral, dados que influenciaram a qualidade de
aprendizado pela rede neural.
Este projeto tem o objetivo de produzir uma avaliao com maior confiabilidade na
identificao de padres de stress presentes na voz, pois acredita-se no fato de que a voz
pode ser um grande indicador de padres emocionais presentes no ser humano. Assim,
procurou-se realizar estudos de tcnicas de pr-processamento de dados, para o treinamento
das redes neurais, com o objetivo de reduzir as fontes de rudos e chiados que podem ser a
causa de um baixo desempenho das redes neurais na identificao de padres de voz.
Para a identificao desses padres essenciais da voz h alguns mecanismos
existentes na literatura que processam o sinal de voz armazenando somente suas
caractersticas fundamentais, como por exemplo, a Transformada de Wavelet (muito
utilizadas na extrao de padres de variao de temperatura), Transformada de Laplace
(transformada de varivel), Transformada K, Transformada Z, entre outros.[GM 99]
Em Matuck (2004) o treinamento das RNAs baseava-seno sinal no domnio do tempo,
onde o sinal era analisado na sua forma original pela rede. Para a grande parte das
aplicaes em processamento digital de sinais, a representao destes no domnio do tempo
no a mais adequada. Muitas vezes, as informaes cruciais esto contidas no chamado
espectro em freqncia do sinal, que mostra as freqncias existem no sinal que est sendo
analisado. Por exemplo, o espectro em freqncia de um sinal de eletrocardiograma de
grande valia para que um cardiologista possa saber se o paciente apresenta alguma
patologia ou no. Baseando-se nisso h o interesse de um tratamento do sinal e sua
3
utilizao no domnio da freqncia armazenado as caractersticas fundamentais especficas
de cada voz para utiliz-las no treinamento e reconhecimento das RNAs.
Neste projeto utilizou-se a Transformada de Fourier para o pr-processamento da voz
antes do treinamento das Redes Neurais Artificiais. A Transformada de Fourier utilizada
em diversas aplicaes como: anlise, sntese e codificao de voz; sinais de radar;
avaliao de falhas mecnicas (motores); anlise de imagens; telecomunicaes; entre
outras. Acredita-se que com o pr-processamento da voz, o treinamento da rede neural
otimizado e a capacidade de aprendizagem e identificao a novos padres mais
promissora.
1.2 - Objetivos
4
1.2.3 - Organizao do Trabalho
Este trabalho est disposto em 5 captulos. O captulo 1 trata dos aspectos introdutrios
do trabalho, como a apresentao do tema e sua ligao com o trabalho anterior em Matuck
(2004).
O captulo 2 faz uma abordagem geral sobre a voz humana, demonstrando sua
estrutura fsica bem como algumas propriedades inerentes voz. Tambm comentado
sobre algumas leses que podem ocorrer e prejudicar a voz e algumas recomendaes para
uma manuteno saudvel.
No captulo 3 feita uma introduo sobre a rea de processamento digital de sinal,
bem como o seu surgimento para mundo. Tambm so abordados conceitos da
Transformada de Fourier como sua histria, alguns tipos de transformadas existentes na
literatura e algumas aplicaes desta tcnica de processamento. Foi realizado neste captulo
todo um estudo abordando tcnicas da Transformada de Fourier como o seu algoritmo,
algumas propriedades pertinentes a esta metodologia e um exemplo matemtico prtico.
Neste captulo tambm se encontra uma implementao da Transformada Discreta de
Fourier atravs do software Matlab e alguns exemplos utilizando este procedimento.
J no captulo 4 so referenciados dois procedimentos abordando o reconhecimento de
stress da voz humana por tcnicas de Redes Neurais Artificiais. O primeiro procedimento
mostra o treinamento das vozes pela rede Perceptron de Mltiplas Camadas (MLP
Multilayer Perceptron) sem o pr-processamento pela Transformada Discreta de Fourier. J
o segundo experimento mostra o mesmo treinamento, mas com o pr-processamento das
vozes para o domnio da freqncia. No trmino deste captulo so realizadas comparaes
sobre estas duas aplicaes.
No captulo 5 so feitas as consideraes finais, propostas para trabalhos futuros dando
de certa forma uma continuidade ao estudo geral deste projeto e concluses do trabalho.
2 - VOZ HUMANA
2.1 - Introduo
A voz existe pelo desejo que o ser humano possui de verbalizar pensamentos,
emoes e opinies, sendo parte integrante da nossa identidade. uma das extenses mais
fortes da nossa personalidade, muitas vezes possvel reconhecer algum s pela voz. A
voz transmite carinho, simpatia, ansiedade, tenso, emoo, inclusive a nossa idade e
experincia de vida. O seu uso incorreto pode levar a uma disfonia, que um sintoma de
dificuldade na emisso normal da voz, podendo gerar alteraes nas pregas vocais
(hiperemia, edema, ndulo, plipo, etc).
Para que a produo vocal seja adequada, h necessidade do equilbrio entre os
parmetros vocais que so os representados pelas qualidades vocais, constitudas por:
ressonncia, tipo de voz, intensidade, freqncia, articulao, velocidade de fala, pronncia
e aspectos referentes emisso. Em algumas situaes este equilbrio no acontece sendo
responsvel por aspectos como rouquido, aspereza, tenso, hiper-nasalidade, dentre outras
que podem ser encontradas, tanto na voz do adulto como na infantil.
Desde sempre a espcie humana pretendeu criar mquinas que produzissem e
entendessem a voz humana. A utilizao de voz para interagir com sistemas automticos
tem um vasto campo de aplicaes. A combinao com a rede telefnica permite acesso
remoto a bases de dados e a novos servios como, por exemplo, a consulta de correio
eletrnico via telefone de qualquer ponto do mundo e a consulta de horrios de vos sem
necessidade de um operador. A utilizao destas tecnologias facilita a integrao de pessoas
com deficincias. Por exemplo, o uso de sntese de voz permite a uma pessoa muda, usando
um teclado, usar o telefone para fazer coisas simples como encomendar uma pizza.
6
produzimos os sons colocando a boca e a lngua em determinadas posies sem fazer vibrar
as cordas vocais. O timbre da voz humana depende dos inmeros espaos que vibram em
ressonncia com as cordas vocais. A se incluem as cavidades sseas, cavidades nasais, a
boca, a garganta, a traquia e os pulmes, bem como a prpria laringe.
Cordas vocais
encostadas.
Cordas vocais
entreabertas.
Produo de som
Sussurro
7
A mais baixa freqncia que pode dar a audibilidade de um tom mais ou menos a de
20 vibraes por segundo, enquanto a mais alta se encontra entre 10.000 e 20.000 vibraes
por segundo. A freqncia comum de um piano de 40 a 4.000 vibraes por segundo. A
freqncia da voz humana se encontra entre 60 e 1.300 vibraes por segundo
Para emitir corretamente a voz, necessria uma colocao correta da respirao, sem
tenso ou relaxao das pregas vocais. Estas devem ter uma tonicidade "ideal" para que sua
movimentao ocorra normalmente. A respirao dever ter uma coordenao entre
inspirao e expirao, coordenao fono-respiratria, diretividade do sopro expiratrio,
movimentos livres da musculatura da regio torcica e do msculo diafragmtico. Uma
respirao ideal provoca o alargamento da base dos pulmes, permitindo maior entrada de
ar e menor contrao da musculatura torcica, pescoo e parte inferior da face (mandbula e
lngua).
A fonao um poderoso veculo de comunicao pelos seus aspectos lingsticos e
pela entonao da voz. Para que a fonao seja normal necessrio que, alm do aparelho
fonador, a laringe funcione adequadamente e em sinergia, que os mecanismos respiratrios,
os de ressonncia e com o sistema nervoso estejam adaptados fonao. Mas as qualidades
vocais vm junto com o nascimento do indivduo. Seria necessrio aperfeio-lo, a partir
dessas condies inatas. O principal perceber as virtudes ou defeitos da prpria voz, para
aproveitar as primeiras e corrigir, na medida do possvel, as segundas.
Tom - a altura musical da voz. Segundo o tom, as vozes humanas classificamse em agudas ou graves. A escala de registro e de altura permite classificar as
vozes masculinas, geralmente em trs categorias: tenor, bartono e baixo.
Tambm existem tipos de vozes intermedirias. Sob o ponto de vista oratrio, a
melhor voz, a do bartono;
8
etc. A quantidade depende, geralmente, das caractersticas de cada lngua, dos
costumes lingsticos das regies ou pases, da psicologia do habitante, etc.
Articulao definida como a produo dos sons da fala por meio de paradas
ou constries da corrente de ar, vocalizada ou no-vocalizada, pelos
movimentos dos lbios, lngua, vu palatino ou faringe. Isto exige os
movimentos dos lbios, da lngua, dos dentes, do palato duro ou mole;
Ndulos
Plipos
10
Infeces em geral
Laringite
11
um longo perodo. Os sintomas so: rouquido e tosse, com sensao de corpo estranho na
garganta, aumento de secreo, pigarro e, ocasionalmente, dor de garganta.
A laringite aguda geralmente causada por um vrus, mas pode resultar de uma
infeco bacteriana. A laringite crnica pode ser causada por tabagismo (ritmo intenso), uso
intenso da voz (quando se fala ou canta em tom muito alto), tosse forte, ou exposio a
substncias irritantes.
O tratamento envolve a eliminao dos fatores que provocam a irritao da laringe
(exposio a produtos qumicos e txicos, nvel elevado de rudos, maus hbitos
alimentares, refluxo alimentar devido a gorduras, pigarro crnico, etc.), alm da promoo
de hbitos que melhoram a higiene vocal, evitando os abusos da voz.
Cisto
O Cisto (Figura 2.5) so leses benignas que se parecem com pequenas esferas nas
margens das pregas vocais. Geralmente so congnitos (nasce com a pessoa). Podem
ser decorrentes do bloqueio de um ducto glandular da mucosa cordal, no qual h
reteno de muco, principalmente aps abusos vocais. O tratamento, geralmente,
cirrgico. O principal sintoma vocal a rouquido.
12
Nota-se ento a importncia de ser ter um bom cuidado com a voz para que no
possibilite o surgimento de leses abordadas neste tpico. Para uma pessoa que faz da voz
um instrumento de trabalho imprescindvel que est manuteno seja praticada
diariamente e sempre antes de utiliz-la deve-se realizar algumas tcnicas de aquecimento
da voz, entre outros procedimentos.
13
3.1 - Introduo
Deve-se ressaltar que s ser abordado neste captulo apenas alguns conceitos
introdutrios relacionados a tcnicas de processamento digital de sinal, tendo-se como foco
principal o estudo da Transformada de Fourier.
Toda a nossa vida se baseia em sinais, que so medidos, processados, analisados, e
do origem a decises. O som, a temperatura e a luz so exemplos de sinais que utilizamos
no dia a dia. Os ouvidos convertem o som em sinais eltricos, que chegam ao crebro, e
este capaz de analisar algumas das suas propriedades, tais como amplitude, freqncia e
fase, determinar a direo em que se encontra a fonte de som, e reconhec-lo, como msica,
fala, o rudo de um automvel, etc. Os nervos colocados nas partes expostas da pele sentem
a temperatura e enviam para o crebro sinais eltricos, que podem originar decises tais
como ligar um aquecedor, abrir uma janela, etc. Os olhos focam as imagens na retina, que
converte essas imagens em sinais eltricos e os envia para o crebro, que, pela anlise da
cor, da forma, da intensidade, etc., da luz capaz de reconhecer objetos, medir distncias,
detectar o movimento, etc.
Os fantsticos desenvolvimentos nos ltimos anos presenciados na rea da
microeletrnica tornaram possvel pr em prtica este pensamento de uma forma efetiva, e
est na origem do Processamento Digital de Sinal (PDS), disciplina que hoje ocupa um
papel preponderante em vrias reas da cincia. Do ponto de vista da engenharia, sinais so
funes ou seqncias que servem para transportar informao de uma fonte de mensagens
a um destinatrio. As caractersticas especficas dos sinais dependem do canal de
comunicaes utilizado para este transporte. Estes sinais so processados no lado do
transmissor com a finalidade de produzi-los e configur-los, e no lado receptor para extrair
a informao neles contida, se possvel com a mxima eficincia.
Em sistemas eletrnicos a fonte geradora de informao, o canal de comunicao e o
destinatrio so elementos pr-definidos com caractersticas em geral muito bem definidas,
como por exemplo, em sistemas de transmisso telefnica, de irradiao, de sinais de rdio
ou de televiso ou de deteco de alvos com radar sonar. Em outras situaes, como nos
processos de medio em investigao cientfica, a fonte de mensagens e o canal de
comunicaes podero estar apenas parcialmente caracterizados. Sinais bioeltricos como o
eletrocardiograma, eletroencefalograma, entre outros, so estudados h dcadas com a
finalidade de se extrair informao sobre estados patolgicos de rgos, sem que se tenha
muitas vezes a mnima certeza de que tal informao de fato transportada por estes sinais.
Os sinais que constituem a voz humana codificam uma variedade de informaes
como, por exemplo, sobre a semntica do que est sendo dito, sobre a identidade do locutor
e at sobre o seu estado de esprito. As redes neurais biolgicas do sistema nervoso humano
tm um desempenho de invejvel eficincia na extrao desta informao.
14
3.2 - Breve Histrico
por volta do sculo XIX que apareceram os modelos matemticos bsicos dos
sinais e sistemas contnuos, com as Transformadas de Laplace e de Fourier onde seus
trabalhos contriburam para muitas reas da matemtica, cincia e engenharia. Pierre
Simon, Marqus de Laplace, o maior astrnomo terico depois de Newton, nascido vinte
anos antes de Fourier, aplicou os seus conhecimentos matemticos ao estudo dos
movimentos planetrios, dando origem hoje designada transformada de Laplace, que cedo
encontrou aplicao em muitas outras reas cientficas.
Tambm De Moivre, que em 1730 introduziu a hoje chamada transformada em z,
deve ser creditado como um dos precursores do Processamento Digital de Sinal. No
entanto, ao advento dos computadores digitais, verificado nos anos 40, que se deve o
nascimento do PDS como disciplina. Nos anos 50, engenheiros e cientistas como Shannon
e Bode nos Bell Telephone Laboratories e Linville no MIT foram certamente dos primeiros
a equacionar a utilizao de computadores de sinal em processamento de sinal. No incio
dos anos 60, Kaiser, nos laboratrios Bell, apresentou importantes contribuies para a
anlise e a sntese de filtros digitais.
J em 1965, James W. Cooley e Jhon Tukey publicaram um artigo em que
apresentavam um algoritmo que reduz consideravelmente o tempo de calculo da
Transformada Discreta de Fourier. O algoritmo veio a ser conhecido como Transformada
Rpida de Fourier ou simplesmente FFT (Fast Fourier Transform) e considerado o mais
avanado, deste sculo, no campo da anlise numrica. Posteriormente, encontraram-se na
literatura trabalhos anteriores aos de Cooley e Tukey em que so apresentados algoritmos
semelhantes a FFT. Os trabalhos de Runge, por exemplo, foram publicados em 1903 e 1905
[BRI-74]. Talvez esses trabalhos anteriores ao de Cooley e Tukey no tenham tido grande
repercusso porque na poca no havia computadores suficientemente rpidos.
Na dcada de 1970 surgiram microcomputadores menores, mais rpidos e mais
baratos que os computadores mais antigos. Esse fato, juntamente com a repercusso do
artigo de Cooley e Tukey, resultou num renovado interesse na Transformada Rpida de
Fourier. Atualmente, o clculo da FFT no est mais limitado a funes expressas
analiticamente e isso, por sua vez, possibilitou avanos tecnolgicos em diversas reas
como, por exemplo, processamento de sinais e espectroscopia atmica e molecular.
Atualmente, o PDS emergiu das aplicaes militares onde nasceu e desempenha um
papel chave em produtos de consumo, industriais e de telecomunicaes.
Microprocessadores de sinal de baixo custo so componentes essenciais de jogos
eletrnicos, telefones celulares, brinquedos, leitores de CDs, discos de computadores,
modems, impressoras, sistemas de reconhecimento de voz e de conferncia vdeo, e muitos
outros produtos familiares. Cada vez mais aplicaes tradicionalmente do domnio dos
sistemas analgicos esto a encontrar solues digitais mais baratas e mais confiveis.
15
3.3 - O Paradigma dos Quatro Universos
Para se entender melhor este conceito que se chama processamento digital de sinais
deve-se abordar o processo que sair do mundo real onde os sinais so contnuos, e ir para
o mundo do computador onde tudo discreto. Este paradigma conhecido como o
Paradigma dos Quatro Universos (Figura 3.1) e estruturado da seguinte maneira:
O Universo Fsico, onde esto localizados os objetos do mundo real onde ser focado o
estudo em questo. Estes objetos se caracterizam atravs da variao de uma
determinada grandeza, podendo ocorrer em relao ao espao ou tempo;
O Universo de Representao, que vai permitir trazer essas descries abstratas para o
mundo digital, e onde se dar a discretizaco dos sinais contnuos. Este universo
constitudo por descries simblicas e finitas associadas a componentes do universo
matemtico. Neste nvel realizado o mapeamento dos objetos conceituais para
representaes geomtricas.
Universo
Matemtico
Reconstruo
Discretizaco
Universo de
Representao
Codificao
Decodificao
Universo de
Implementao
Figura 3.1 Paradigma dos Quatro Universos.
16
Portanto, para estudar um determinado fenmeno, ou objeto da natureza, no
computador, ns precisamos associ-lo a um modelo matemtico e ento encontrar uma
representao discreta para esse modelo que pode ser implementada no computador. A
codificao dos dados pode ser decodificada e depois reconstruda para podermos voltar
com o fenmeno estudado para o mundo real.
3.4.1 - Introduo
Novas tecnologias em sistema informatizados tm ganhado cada vez mais mercado e
espao dentre usurios de computadores do tipo PC (Personal Computer). Muitas dessas
tecnologias tm como fundamento bsico aquisio e o processamento lgico de sinais.
No obstante, tcnicas de processamento de sinais se fazem presentes com o intuito de
melhorar e apurar melhor as informaes obtidas de forma analgica.
Uma dessas tcnicas a transformao ou mapeamento de coordenadas. Usualmente,
essa tcnica especfica fruto da utilizao de uma ferramenta matemtica poderosa, a
Transformada. A Transformada um procedimento matemtico que tem como principal
finalidade mudana ou o mapeamento de um conjunto de coordenadas em outro conjunto.
Uma ferramenta muito utilizada neste processamento a transformada de Fourier, a
qual nos permite ter uma viso do sinal a ser analisado no domnio da freqncia,
facilitando sobremaneira esta anlise e o seu processamento, normalmente, aplicando-se
tcnicas de filtragem digital.
Um problema computacional surge quando se quer implementar essa ferramenta, o
tempo de processamento ou converso de um sinal em um sistema de coordenada para um
outro em um sistema de interesse considervel. Na prtica esse problema pode ser
solucionado com a utilizao de algoritmos mais rpidos de transformadas que juntamente
com os teoremas de convoluo e da correlao permite, de maneira simplificada, a
implementao das tcnicas de filtragens para eliminao de rudos e interferncias dos
sinais em anlise.
Para entrarmos mais a fundo sobre estes conceitos de processamento de sinais e
abordarmos a Transformada de Fourier necessrio antes saber quem idealizou esta tcnica
que muito utilizada at hoje em vrios ramos da cincia.
17
3.4.2 - Histrico
Jean-Baptiste Joseph Fourier, nasceu em 21 de Maro de 1768, em Auxerre na Frana
(Figura 3.2). Aos 12 anos, Fourier comeou a mostrar parte do seu talento, redigindo
sermes para sacerdotes de vrias cidades. Dois anos mais tarde iniciou seus estudos de
Matemtica, conseguindo grande destaque. Considerado menino-prodgio, foi convidado a
ingressar na ordem dos beneditinos, mas antes de ordenar-se, chegou a Revoluo de 1789.
Fourier que sempre desejara ser militar aderiu com entusiasmo causa da Revoluo.
Com a criao da Escola Normal e da Escola Politcnica, das quais foi conferencista,
Fourier comeou a desenvolver os trabalhos que o imortalizaram como matemtico. Data
dessa poca sua teoria para calcular razes irracionais das equaes algbricas, cujo estudo
Newton iniciara. Tendo acompanhado Napoleo no Egito, Fourier desenvolveu ali estudos
de arqueologia, tornando-se especialista em egiptologia. Fourier trabalhou nessa poca
como engenheiro, dirigindo uma fbrica de armamentos do exrcito francs no Egito.
18
diferente do mtodo de Taylor por empregar funes peridicas em vez de potncias, e que
recebeu seu nome.
Antes de 1930 iniciou o estudo de wavelet (funes que satisfazem a certos
requisitos matemticos e so usadas na representao de dados ou de outras funes) com
suas teorias de anlise de freqncia. Fourier afirmava que a anlise em wavelets no feita
segundo a freqncia, mas sim segundo a escala. Os algoritmos wavelet processam dados
em diferentes escalas e resolues, permitindo que sejam vistos tanto o global quanto os
detalhes.
Fourier deu um passo decisivo, ao usar indiferentemente os smbolos de integrao
e o de somatria infinita, que conduziu s chamadas sries de Fourier. Coube a Fourier o
mrito de haver criado esse instrumento matemtico, de extraordinria fecundidade, com o
qual as funes peridicas descontnuas pudessem ser apresentadas atravs de funes
contnuas. Com o objetivo de definir a propriedades de condutividade trmica entre os
materiais atravs de observaes experimentais, Fourier definiu a lei bsica de conduo de
calor entre slidos avanando em muito as pesquisas nessa rea. Em 1830 Fourier morreu;
vtima de um aneurisma cerebral.
Conduo de Calor
Q
t
(3.1)
A lei de Fourier diz que, conforme exibido na Equao 3.2, a quantidade de calor Q
que atravessa uma parede, sob uma diferena de temperatura constante, diretamente
19
proporcional rea da seco transversal A, diferena de temperatura () entre as regies
separadas pela parede e ao tempo (t) de transmisso e inversamente proporcional
extenso atravessada, ou espessura (e) da parede.
Q=
k . A. .t
e
(3.2)
Como o calor se propaga de partcula para partcula, corpos mais densos, com maior
nmero de partcula por unidade de volume, especialmente partculas livres, so bons
condutores. Isto explica por que os metais so bons condutores. Pelo mesmo motivo, os
lquidos e gases no so bons condutores de calor. Os materiais em que a conduo trmica
praticamente no ocorre so chamados isolantes trmicos, por exemplo, a madeira e o
isopor.
3.4.3 - Transformadas
Sinais so quantidades fsicas ou variveis detectveis por meio das quais
informaes podem ser transmitidas. Existem duas formas tradicionais de se representar
sinais fsicos:
Transformada Z
20
A Transformada Z desempenha para os sinais discretos o mesmo papel que a
Transformada de Laplace para os sinais contnuos. Para uma seqncia x(n), definido para
todo n, a Transformada Z de x(n) exibida pela Equao 3.3, onde z uma varivel
complexa e X(z) a funo desta varivel complexa.
X ( z) =
x ( n) z
n =
(3.3)
Transformada de Laplace
F ( s ) = {f(t)} = e s .t f (t ) dt
0
(3 .4 )
21
As propriedades desta transformada a tornam til para a anlise de sistemas dinmicos
lineares. A vantagem mais interessante desta transformada que a integrao e a derivao
tornam-se multiplicaes e divises, da mesma maneira que o logaritmo transforma a
multiplicao em adio. Ela permite levar a resoluo de equaes diferenciais resoluo
de equaes polinomiais, que so muito mais simples de resolver.
Transformada de Wavelet
22
Transformada de Mellin
F ( s) = { f ( x)} = x s 1 f ( x)dx
0
(3.5)
Transformada de Hilbert
H [ s(t )] =
s
dt
t
1
(3 .6 )
23
3.4.4 - Aplicaes
A Transformada de Fourier possui muitas aplicaes em disciplinas cientficas.
Como exemplo pode-se citar:
Fsica;
Anlise combinatria;
Processamento de sinais;
Teoria da probabilidade;
Estatstica;
Criptografia;
Acstica;
Oceanografia;
ptica;
Geometria;
24
De acordo com Fourier, toda funo real peridica de perodo 2, pode ser escrita
como uma soma infinita de senos e co-senos, conforme mostra a Equao 3.6 abaixo:
f ( x) = ao +
(a
k =1
cos( k . x ) + b k sen ( k . x ) )
(3.6)
1
a0 =
2
ak =
bk =
f ( x)dx
(3.7)
f ( x) cos(k.x)dx
(3.8)
f ( x)sen(k.x)dx
(3.9)
F ( p ) =
1
2N
2 N 1
p =0
f (t k ) e
i p t k
1
2N
2 N 1
f (t
p =0
)[cos( p t k ) + i sen( p t k )]
(3.10)
25
Domnio do Tempo
Real
Imaginria
Parte real par
Parte imaginria mpar
Parte real mpar
Parte imaginria par
Domnio da Freqncia
Real e par
Real e par
Real e mpar
Imaginria e mpar
Imaginria e par
Imaginria e par
Imaginria e mpar
Real e mpar
26
3.4.6 - Propriedades da Transformada de Fourier
Sabe-se ento que h duas maneiras de representar uma mesma funo ou sinal:
uma representao no domnio do tempo ou do espao e outra no domnio da freqncia.
A representao de um sinal no domnio do tempo est presente, naturalmente, no nosso dia
a dia. Contudo, certas operaes, principalmente na engenharia, tornam-se muito mais
simples e esclarecedoras se trabalharmos no domnio da freqncia, domnio este,
conseguido atravs das Transformadas de Fourier. muito importante observar o que
ocorre em um domnio, quando efetuamos certas operaes no outro domnio.
A seguir sero citadas apenas algumas propriedades da Transformada de Fourier.
Desde j se deve enfatizar que as frmulas e variveis apresentadas a seguir no sero
provadas matematicamente, mas somente citadas de acordo com a propriedade em questo,
pois se tem como objetivo apenas mostrar algumas propriedades desta metodologia.
Separabilidade
Esta propriedade nos mostra que o par de transformadas F(u,v) e f(x,y) pode ser
obtido em dois passos separados. Em outras palavras, a funo F(u,v) obtida pela
transformao em cada linha de f(x,y) e o resultado multiplicado pelo nmero total das
mesmas, M, obtendo-se F(x,v). F(u,v) obtida, agora, transformando-se F(x,v) coluna por
coluna. A Equao 3.11 abaixo mostra esta propriedade.
1
F (u, v) =
M
M 1
e
x =0
j 2ux / M
1 N 1
f ( x, y )e j 2yv / N
N y =0
(3.11)
Translao
Esta propriedade mostra, conforme exibido pela Equao 3.12, que a multiplicao
de f(x,y) pela exponencial ej2p(u0 x/M + v0 y/N) resulta num deslocamento na freqncia para o
ponto (u0, v0). De maneira anloga, se multiplicarmos a transformada F(u,v) pela mesma
exponencial e tomarmos a transformada inversa, efetuamos um deslocamento espacial da
origem para o ponto (x0, y0).
[ f ( x, y )e j 2 (u0 x / M + v0 y / N ) ] = F (u u 0 , v v0 )
(3.12)
27
[ f ( x + M , y + N )] = F (u + M , v + N ) = F (u, v)
(3.13)
DOMNIO DA FREQNCIA
DOMNIO DO TEMPO
Continuidade
Periodicidade
Discreto
Peridico
Contnuo
No-Peridico
Peridico
Discreto
No-Peridico
Contnuo
Periodicidade
Continuidade
Rotao
Esta propriedade nos mostra que uma rotao em f(x,y) por ngulo , produz a
mesma rotao em F(u,v) e vice-versa Equao 3.14.
(3.14)
Teorema da Convoluo
[ f ( x) * g ( x)] =
f ( )e
j 2u
dG (u ) = F (u )G (u )
(3.15)
28
Linearidade
Antes de aplicar na prtica esta metodologia num computador, teve-se como interesse a
resoluo de um teste de mesa para comprovar matematicamente o funcionamento da
Transformada Discreta de Fourier. A partir de um sinal f(tk) com apenas quatro amplitudes
foram transformadas do domnio do tempo para o domnio da freqncia, conforme
ilustrado abaixo. Para este exemplo s foram capturadas quatro freqncias (0, 1, 2 e 3) do
sinal apenas como demonstrao da veracidade da aplicao.
Sinal = 0,1,1, = f (t k )
2
F (wp ) =
1
2N
f (t ) [cos(w
3
k =0
t k ) + i sen(w p t k )
(3.16)
wp =
2 p
T
tk =
K T
2 N
T = 2
29
2 0
=0
2
2 1
w1 =
=1
2
w0 =
Tempos
2 2
=2
2
2 3
w3 =
=3
2
w2 =
0 2
=0
22
1 2
t1 =
=
22
2
t0 =
2 2
=
22
3 2 3
t3 =
=
22
2
t2 =
1
F (w0 ) =
2 N
+
= ... = = 0,125
8
f (t ) [cos(w t ) + i sen(w t )] + f (t ) [cos(w t ) + i sen(w t )]
0
2
0
2
3
0
3
0
3
2
F (w1 ) =
+
= ... = = 0,25 0,375i
4 8
2 N
F (w2 ) =
+
= .. = = 0,375
2 N
8
F (w3 ) =
1
2 N
+
= ... = + = 0,25 + 0,375i
4 8
f (t ) [cos(w t ) + i sen(w t )] + f (t ) [cos(w t ) + i sen(w t )]
3
2
3
2
3
3
3
3
3
2
1
1
+ 0 = 0,125
8
8
Freqncia 0:
1 3i
1 3
Freqncia 1: + = 0,450
4 8
4 8
3
3
Freqncia 2: = 0,375
8
8
30
1 3i
1 3
Freqncia 3: + + = 0,450
4 8
4 8
Para a verificao da confiabilidade do sinal obtido no domnio da freqncia tornase necessrio realizao do processo inverso para a obteno do sinal original
novamente (domnio do tempo). Para isso utilizado a Transformada Discreta Inversa
de Fourier (IDFT Inverse Discrete Fourier Transform), conforme ilustrado pela
Equao 3.17 abaixo:
(3.17)
p =0
F (t 0 ) = +
= ... = 0
f (w ) [cos(w t ) i sen(w t )] + f (w ) [cos(w t ) i sen(w t )]
2
2
0
2
0
3
3
0
3
0
F (t1 ) = +
= ... = 1
f (w ) [cos(w t ) i sen(w t )] + f (w ) [cos(w t ) i sen(w t )]
2
2
1
2 1
3
3 1
3 1
F (t 2 ) = +
= ... = 1
f (w ) [cos(w t ) i sen(w t )] + f (w ) [cos(w t ) i sen(w t )]
2
2
2
2
2
3
3
2
3
2
F (t 3 ) = +
= ... =
2
f (w ) [cos(w t ) i sen(w t )] + f (w ) [cos(w t ) i sen(w t )]
2
2
3
2
3
3
3
3
3
3
Verificou-se ento que este processamento funciona realmente, j que dado um sinal
qualquer no domnio do tempo, foi possvel calcular os coeficientes do sinal (DFT), o seu
espectro de potncia, e o retorno para o sinal original atravs da IDFT. A tabela 3.3 mostra
as etapas desta aplicao.
31
-1
1
2
Clculo da DFT
1
8
1 3i
4 8
3
8
1 3i
+
4 8
Espectro de Potncia
0,125
0,450
0,375
0,450
Clculo da IDFT
-1
1
2
32
Procedimento
II
III
IV
VI
33
ALGORITMO DA TRANSFORMADA DISCRETA DE FOURIER
I Varivel que ir receber o sinal que ser analisado:
x = sinal que ser processado.
34
o x = [0 1 -1 0.5];
w= 0:3;
F (w0 ) ==
1
= 0,125
8
F (w1 ) =
1 3i
= 0,25 0,375i
4 8
F (w 2 ) =
1 3i
F (w3 ) = + = 0,25 + 0,375i
4 8
3
= 0,375
8
35
A seguir foi realizado o clculo da Inversa da Transformada Discreta de Fourier.
Atravs da varivel inversa da implementao da etapa V, o sinal retornado do
domnio da freqncia para o domnio do tempo conforme ilustrado pela Tabela 3.5.
Pela etapa VI da implementao da DFT, foi comparado o sinal original com a sua
transformada inversa, obtendo uma correlao de 100% de acerto.
.
36
Dado a implementao da DFT do tpico 3.5, segue abaixo algumas etapas que sero
alteradas como ilustradas a seguir.
Aps o clculo dos coeficientes do sinal, foi produzido o espectro de potncia da voz
exibido pela Figura 3.8.
37
Com os resultados mostrados pela Tabela 3.6, est claro que a transformao do
sinal do domnio do tempo para o domnio da freqncia confivel j que o retorno desta
para tempo contnuo mostra sua confiabilidade nas informaes contidas no sinal.
Com esta aplicao torna-se possvel e principalmente confivel o desenvolvimento
do prottipo computacional proposto neste projeto que a utilizao das vozes prprocessadas pela DFT (espectro de potncia das vozes) que sero utilizadas no treinamento
de Redes Neurais Artificiais para o reconhecimento de padres emocionais na voz.
38
39
No total, foram capturadas 35 vozes calmas e 35 vozes nervosas, retiradas de diversos
programas como, novelas, filmes, jornais de notcias, programas esportivos, entre outros.
Abaixo so ilustradas duas vozes de cada tipo.
Voz 1 Nervosa
Voz 2 calma
Voz 2 nervosa
40
duas aplicaes para identificar qual a tcnica a mais qualificada para o problema em
questo.
4.2.1 - Aplicao
As trinta e seis vozes gravadas foram divididas e utilizadas no treinamento e
generalizao da rede Perceptron de Mltiplas Camadas (Back-Propagation) conforme
mostra a tabela 4.1.
Vozes
Diagnsticos
Treinamento
1 a 25
Calmas e Nervosas
26 a 36
Calmas e Nervosas
Generalizao
Diagnstico
Codificao
Voz calma
01
Voz nervosa
10
Como cada vetor de voz possui uma dimenso muito grande (441000 x 1), este foi
divididos em blocos de mil dados (441 blocos com o tamanho: 1000 x 1 ) e assim
colocados seqencialmente cada bloco na camada de entrada da rede MLP. A Figura 4.3
ilustra esse processo.
41
V
O
Z
V
O
Z
V
O
Z
V
O
Z
25
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
N
E
R
V
O
S
A
X1
V
O
Z
X2
Matriz de voz
Tamanho: 441000 x 25
T
T
C
A
L
M
A
Tamanho: 441000 x 1
13 x 1
X1000
Camada de Sada
(Output Layer)
Camada Oculta
Camada de Entrada (Hidden Layer)
(Input Layer)
Figura 4.3 Ilustrao das etapas utilizadas no treinamento da rede MLP sem o prprocessamento da DFT
42
Para o treinamento da rede foi utilizada uma taxa de aprendizado (velocidade com
que a rede ir aprender) variada, onde a cada poca (perodo em que todos os exemplos de
voz so apresentados para a rede) a taxa era adaptada de acordo com o erro encontrado na
sada da rede. Se o erro da poca atual menor que o erro da poca anterior, a taxa de
aprendizado aumentada, caso contrrio diminudo.
A funo de ativao utilizada na rede foi funo logstica sigmoidal, com apenas
uma camada oculta (hidden layer) com 100 neurnios, ou seja, o nmero de neurnios
equivalente a apenas 10% da camada de entrada da rede, que possui 1000 entradas. A rede
MLP foi processada durante 13.754 pocas, ou seja, as 50 vozes (entre calmas e nervosas)
foram apresentadas 13.754 vezes com o objetivo de diminuir o erro quadrtico mdio da
rede adaptando os pesos sinpticos da melhor maneira possvel.
Neste treinamento o menor erro encontrado pela rede foi de 26.8855, ou seja, este
erro definido pela soma dos erros de todas as entradas da rede que o produto das 50
vozes por 441.000 (nmero de entrada de cada voz) dando um total de 22.050.000 dados. A
Figura 4,4 mostra o erro encontrado na rede em funo do nmero de pocas
43
Voz
1
2
3
4
5
6
7
8
9
10
11
12
13
Diagnstico
Acerto
Calmo
95.01 %
Nervoso
20.41 %
Calmo
95.92 %
Nervoso
27.21 %
Calmo
95.01 %
Nervoso
35.37 %
Calmo
85.94 %
Nervoso
19.05 %
Calmo
97.73 %
Nervoso
90.48 %
Calmo
90.02 %
Nervoso
16.55 %
Calmo
63.95 %
Nervoso
88.89 %
Calmo
90.70 %
Nervoso
88.21 %
Calmo
92.97 %
Nervoso
92.52 %
Calmo
91.16 %
Nervoso
93.20 %
Calmo
91.16 %
Nervoso
36.73 %
Calmo
92.97 %
Nervoso
63.95 %
Calmo
93.20 %
Nervoso
75.06 %
Voz
14
15
16
17
18
19
20
21
22
23
24
25
Diagnstico
Acerto
Calmo
90.48 %
Nervoso
70.29 %
Calmo
96.60 %
Nervoso
94.78 %
Calmo
74.38 %
Nervoso
96.37 %
Calmo
92.97 %
Nervoso
50.57 %
Calmo
95.46 %
Nervoso
28.12 %
Calmo
90.25 %
Nervoso
56.92 %
Calmo
90.48 %
Nervoso
93.88 %
Calmo
92.74 %
Nervoso
20.41 %
Calmo
96.37 %
Nervoso
94.56 %
Calmo
96.60 %
Nervoso
93.65 %
Calmo
93.88 %
Nervoso
60.32 %
Calmo
96.37 %
Nervoso
24.49 %
44
quadrtico mdio encontrado na generalizao de 18.365. A porcentagem de acerto dos
diagnsticos de cada voz pode ser visto na tabela 4.4 abaixo.
Voz
1
2
3
4
5
6
Diagnstico
Acerto
Calmo
86.39 %
Nervoso
83.90 %
Calmo
89.57 %
Nervoso
78.91 %
Calmo
85.71 %
Nervoso
91.16 %
Calmo
89.34 %
Nervoso
92.97 %
Calmo
83.90 %
Nervoso
95.01 %
Calmo
78.00 %
Nervoso
36.96 %
Voz
7
8
9
10
11
Diagnstico
Acerto
Calmo
56.91 %
Nervoso
69.84 %
Calmo
84.35 %
Nervoso
49.89 %
Calmo
72.79 %
Nervoso
51.32 %
Calmo
84.13 %
Nervoso
41.50 %
Calmo
87,98 %
Nervoso
75,96 %
4.2.2 - Concluso
Atravs desta aplicao percebe-se que com a formulao de um banco de vozes de
maior qualidade quando comparadas com os resultados de Matuck (2004), a capacidade de
aprendizado dos padres de voz pela rede neural mais eficiente. O reconhecimento das
vozes calmas e nervosas tanto no treinamento como na generalizao pode ser vista na
Tabela 4.5 abaixo.
Generalizao da rede
Vozes
calmas
91,29 %
Vozes
calmas
80,13 %
Vozes
nervosas
61,28 %
Vozes
nervosas
32,98 %
45
Sinal 441.000
=
= 44.100
tempo
10
Etapa I Varivel que ir receber o sinal que ser analisado A voz 1 calma,
por exemplo:
o x = wavread(voz_01_calma.wav);
w= 0:0,5:22050;
46
Para exemplificar este procedimento, so ilustradas duas vozes (uma calma e uma
nervosa tabela 4.6) no seu estado original e no domnio da freqncia aps realizado o
clculo da Transformada Discreta de Fourier (etapa III da implementao do tpico 3.5) e
do seu espectro de potncia (etapa IV da implementao do tpico 3.5).
Voz Nervosa
Espectro de Potncia
Voz Original
Voz Calma
47
Voz 1 Nervosa
Inversa do sinal
Voz Original
Voz 1 Calma
48
49
Aps a realizao do pr-processamento das vozes pela DFT as trinta e seis vozes
foram divididas, igualmente a aplicao anterior, e utilizadas no treinamento e
generalizao da rede Perceptron de Mltiplas Camadas (Back-Propagation) conforme
mostra a tabela 4.8.
Vozes
Diagnsticos
Treinamento
1 a 25
Calmas e Nervosas
26 a 36
Calmas e Nervosas
Generalizao
Atravs da Tabela 4.9 abaixo so ilustradas as respostas desejadas para cada padro
de voz que fornecida na camada de entrada da rede Perceptron de Mltiplas Camadas.
Diagnstico
Codificao
Voz calma
01
Voz nervosa
10
Tambm para este procedimento cada vetor de voz (13.000 x 1) foi dividido em
blocos de mil (13 blocos com o tamanho: 1000 x 1 ) e inserido na camada de entrada da
rede MLP. A seguir so ilustradas todas as etapas que sero utilizadas para o
reconhecimento de nveis de stress na voz humana com vozes pr-processadas pela
Transformada Discreta de Fourier.
50
Tamanho: 441000 x 1
V
O
Z
V
O
Z
V
O
Z
V
O
Z
V
O
Z
25
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
Pr-processamento
DFT
FILTRAGEM DO SINAL
X1
V
O
Z
X2
F
I
L
T
R
A
D
A
T
T
13 x 1
X1000
Camada de Sada
(Output Layer)
Tamanho: 13000 x 1
Camada Oculta
Camada de Entrada (Hidden Layer)
(Input Layer)
51
Figura 4.6 Ilustrao das Etapas utilizadas no treinamento da rede MLP com o prprocessamento da DFT
Para o treinamento da rede, como na aplicao anterior, foi utilizada uma taxa de
aprendizado variada, onde a cada poca a taxa era adaptada de acordo com o erro
encontrado na sada da rede. A funo logstica utilizada na rede foi funo de ativao
sigmoidal, com apenas uma camada oculta (hidden layer) com 100 neurnios.
A rede MLP foi processada durante 56.622 pocas, ou seja, as 50 vozes (entre calmas
e nervosas) foram apresentadas 56.622 vezes com o objetivo de diminuir o erro quadrtico
mdio da rede adaptando os pesos sinpticos da melhor maneira possvel. Neste
experimento o menor erro encontrado pela rede foi de 2.128, ou seja, este erro a soma dos
erros de todas as entradas que so apresentadas rede. A Figura 4.7 ilustra a trajetria do
erro em funo do nmero de pocas no processo de treinamento.
O procedimento seguinte consistiu em fazer a generalizao das dez vozes que foram
utilizadas no treinamento, para saber se a rede Perceptron de Mltiplas Camadas aprendeu
os padres o qual treinou. Na ativao (generalizao) da rede com as vozes que foram
treinadas, observou um acerto de 90% com um erro quadrtico mdio de 0.04. Cada voz
52
utilizada no treinamento conseguiu determinada taxa de acerto conforme mostra a tabela
4.10, com destaque para algumas vozes nervosas que obtiveram um acerto de 100%.
Voz
1
2
3
4
5
6
7
8
9
10
11
12
13
Diagnstico
Acerto
Calmo
92.31 %
Nervoso
84.62 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
76.92 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
53.85 %
Calmo
84.62 %
Nervoso
69.23 %
Voz
14
15
16
17
18
19
20
21
22
23
24
25
Diagnstico
Acerto
Calmo
92.31 %
Nervoso
84.62 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
76.92 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
76.92 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
100.00 %
Tabela 4.10 Porcentagem de acerto das vozes treinadas pela rede MLP.
Num segundo experimento, foram mostradas rede as vinte e duas vozes (entre
calmas e nervosas) que no foram utilizadas no treinamento, com o intuito de verificar a
53
porcentagem de acerto com padres de vozes nunca vistos anteriormente pela rede MLP.
Verificou-se que na ativao a rede conseguiu obter um acerto de 71,33% com um erro
quadrtico mdio encontrado na generalizao de 0.266461. A porcentagem de acerto dos
diagnsticos de cada voz pode ser visto na tabela 4.11 abaixo.
Voz
1
2
3
4
5
Diagnstico
Acerto
Calmo
69.23 %
Nervoso
69.23 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
38.46 %
Nervoso
76.92 %
Calmo
76.92 %
Nervoso
84.62 %
Calmo
76.92 %
Nervoso
84.62 %
Calmo
61.54 %
Nervoso
84.62 %
Voz
7
8
9
10
11
Diagnstico
Acerto
Calmo
15.38 %
Nervoso
61.54 %
Calmo
61.54 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
69.23 %
Calmo
76.92 %
Nervoso
61.54 %
Tabela 4.11 Porcentagem de acerto das vozes generalizadas pela rede MLP.
4.3.3 - Concluso
Generalizao da rede
Vozes
calmas
89,95 %
Vozes
calmas
67,83 %
Vozes
nervosas
90,15 %
Vozes
nervosas
74,83 %
54
Tabela 4.12 Comparao entre vozes pr-processadas calmas e de estresse.
Treinamento da RNA
COM a DFT
SEM a DFT
15 segundos
8 minutos
56.622 mil
13.754 mil
Cerca de 3 semanas
Cerca de 4 meses
2,128
26,8855
90 %
96,15 %
89,95 %
91.29 %
90,15 %
61,07 %
71,33 %
56,56 %
67,83 %
80,13 %
74,83 %
32,98 %
Na tabela 4.13 acima, foi realizada uma comparao entre o aprendizado da RNA
com o pr-processamento da voz pela DFT e o aprendizado sem este procedimento. Tornase claro ento que para a realizao de diagnsticos de voz numa rede neural artificial o
pr-processamento do sinal de voz para o domnio da freqncia muito mais eficiente,
diminuindo consideravelmente o tempo de processamento e com um reconhecimento muito
maior por parte das Redes Neurais Artificiais.
55
5 - CONCLUSES E RECOMENDAES
FINAIS
O principal objetivo deste trabalho foi mostrar que o pr-processamento do sinal de
voz pode propiciar uma melhora no reconhecimento de padres de voz pelas Redes Neurais
Artificiais. Para isto foi realizado um breve estudo sobre os conceitos de processamento de
sinais e das caractersticas da voz humana.
O estudo realizado sobre tcnicas de Fourier (Transformada Discreta de Fourier)
propiciou o conhecimento e a implementao de alguns exemplos prticos para demonstrar
a confiabilidade na transformao de um sinal no domnio do tempo para o domnio da
freqncia. O processamento digital dos sinais de voz realizado no domnio da
freqncia.
A realizao do pr-processamento pela Transformada Discreta de Fourier mostrou
que uma capacidade melhor de aprendizado de padres de vozes por uma rede neural do
tipo Perceptron de Mltiplas Camadas, obtendo-se um desempenho de mais promissor
(73,07%) do que o aprendizado utilizando os sinais de voz no estado original (56,5% domnio do tempo). Outro fator relevante foi o tempo de treinamento da RNA realizado
com as vozes pr-processadas que correspondeu cerca de 97% mais rpido do que o
treinamento sem o pr-processamento pela DFT.
Acredita-se na possibilidade de que, com um banco de dados com um nmero maior de
vozes pr-processadas pela Transformada de Fourier e um tempo maior destinado ao
treinamento da RNAs, os diagnsticos de ndices de stress humano podem atingir ndices
de confiabilidade maiores, permitindo que se faa uma avaliao eficiente de pessoas que
se encontram em estado de isolamento social.
Os resultados apresentados neste trabalho poderiam ser melhores. Mas muito tempo
teve de ser dedicado ao estudo das tcnicas de Transformada de Fourier, em detrimento do
treinamento dos padres de vozes.
Para a continuidade deste trabalho, tem-se como sugesto a utilizao de outras
tcnicas em conjunto com a de processamento de sinais de voz, como por exemplo, a
captura de freqncias fundamentais caractersticas de uma voz em seu estado calmo ou de
estresse. Outros mecanismos podem ser utilizados tambm para melhorar a identificao de
uma pessoa em estado de isolamento social como, por exemplo, a utilizao de testes
psicolgicos especficos na identificao de uma pessoa em confinamento, a presso com
que uma pessoa responde um questionrio atravs de um teclado, a expresso facial,
dispositivo de medio de batimentos cardacos, da sudorese humana, impulsos eltricos
emitidos pelo crebro entre outros.
56
6 - EFERNCIAS BIBLIOGRFICAS
[HAY-94]
[FAU-94]
[BRI-74]
BRIGHAM, R., 1974, The Fast Fourier Transform: Time sequence Analysis
in Geophysics.
[KOV-96]
[GUE-77]
[ALB-XX]
[SED-95]
[BOY-96]
[GOL-97]
[ALB-67]