Processamento Sinais

INPE-12997-PRE/8274
PROCESSAMENTO DE SINAIS DE VOZ PADRES

COMPORTAMENTAIS POR REDES NEURAIS ARTIFICIAIS
Gustavo Ravanhani Matuck
Relatrio Final de Projeto de Iniciao Cientfica (PIBIC/CNPq/INPE), orientado pelo

Dr. Jos Demisio Simes da Silva
INPE
So Jos dos Campos
2005
RELATRIO FINAL DE PROJETO DE INICIAO CIENTFICA

(PIBIC/CNPq/INPE)
PROCESSAMENTO DE SINAIS DE VOZ NA IDENTIFICAO DE

PADRES COMPORTAMENTAIS POR REDES NEURAIS ARTIFICIAIS
Gustavo Ravanhani Matuck (Bolsista PIBIC/CNPq)

E-mail: gmatuck@hotmail.com
Dr. Jos Demisio Simes da Silva (LAC/INPE, Orientador)

E-mail: demisio@lac.inpe.br
Junho 2005
II
SUMRIO
1 - INTRODUO ......................................................................................................................................... 1
1.1 - APRESENTAO DO TEMA ..................................................................................................................... 1
1.2 - OBJETIVOS ............................................................................................................................................ 3
1.2.1 - Objetivos Gerais............................................................................................................................ 3
1.2.2 - Objetivos Especficos .................................................................................................................... 3
1.2.3 - Organizao do Trabalho ............................................................................................................. 4
2 - VOZ HUMANA ......................................................................................................................................... 5
2.1 2.2 2.3 2.4 2.5 -
INTRODUO......................................................................................................................................... 5
FORMAO DA VOZ .............................................................................................................................. 5
PROPRIEDADES DA VOZ......................................................................................................................... 7
TIPOS DE LESES NA VOZ ...................................................................................................................... 8
MANUTENO DA VOZ ....................................................................................................................... 11
3 - PROCESSAMENTO DIGITAL DE SINAL ......................................................................................... 13

3.1 - INTRODUO....................................................................................................................................... 13
3.2 - BREVE HISTRICO............................................................................................................................... 14
3.3 - O PARADIGMA DOS QUATRO UNIVERSOS ........................................................................................... 15
3.4 - TRANSFORMADA DE FOURIER ............................................................................................................. 16
3.4.1 - Introduo ................................................................................................................................... 16
3.4.2 - Histrico...................................................................................................................................... 17
3.4.3 - Transformadas ............................................................................................................................ 19
3.4.4 - Aplicaes ................................................................................................................................... 23
3.4.5 - Algoritmo da Transformada de Fourier...................................................................................... 23
3.4.6 - Propriedades da Transformada de Fourier ................................................................................ 26
3.4.7 - Exemplo Prtico .......................................................................................................................... 28
3.5 - IMPLEMENTAO DA TRANSFORMADA DE FOURIER ........................................................................... 31
3.6 - APLICAES DA IMPLEMENTAO DA DFT ........................................................................................ 33
3.6.1 - Primeiro Procedimento ............................................................................................................... 34
3.6.2 - Segundo Procedimento................................................................................................................ 35
4 - RNAS NO RECONHECIMENTO DE STRESS NA VOZ .................................................................. 38
4.1 - APLICAO ......................................................................................................................................... 38
4.2 - TREINAMENTO DAS RNAS SEM O PR-PROCESSAMENTO DA DFT ....................................................... 40
4.2.1 - Aplicao..................................................................................................................................... 40
4.2.2 - Concluso.................................................................................................................................... 44
4.3 - TREINAMENTO DAS RNAS COM O PR-PROCESSAMENTO DA DFT ...................................................... 45
4.3.1 - Pr-processamento da DFT nas vozes ........................................................................................ 45
4.3.2 - Processamento das vozes pela RNA ............................................................................................ 49
4.3.3 - Concluso.................................................................................................................................... 53
5 - CONCLUSES E RECOMENDAES FINAIS ............................................................................... 55
6 - REFERNCIAS BIBLIOGRFICAS................................................................................................... 56
III
Lista de Figuras
Figura 2.1 Anatomia da garganta......................................................................................4
Figura 2.2 Ndulo - Sintoma provocado na garganta.......................................................5
Figura 2.3 Plipos na laringe ............................................................................................7
Figura 2.4 Edema provocado na garganta ......................................................................13
Figura 2.5 Garganta com cisto........................................................................................15
Figura 3.1 Paradigma dos Quatro Universos ..................................................................16
Figura 3.2 Jean Baptiste Joseph Fourier (1768 1830) .................................................17
Figura 3.3 Pierre Simon Laplace ....................................................................................18
Figura 3.4 Analogia entre Continuidade e Periodicidade ...............................................19
Figura 3.5 Software MATLAB.......................................................................................28
Figura 3.6 Espectro de potncia......................................................................................29
Figura 3.7 Sinal de voz de 2 segundos............................................................................30
Figura 3.8 Espectro de potncia do sinal de voz de 2 segundos.....................................31
Figura 4.1 Software Sound Forge ...................................................................................32
Figura 4.2 Ilustrao das vozes gravadas........................................................................33
Figura 4.3 Ilustrao das etapas utilizadas no treinamento da rede MLP sem
o pr-processamento da DFT.........................................................................34
Figura 4.4 Erro encontrado no treinamento da rede MLP ..............................................35
Figura 4.5 Filtragem do sinal de voz ..............................................................................36
Figura 4.6 Ilustrao das Etapas utilizadas no treinamento da rede MLP com
o pr-processamento da DFT.........................................................................37
Figura 4.7 Erro encontrado no treinamento da rede MLP ..............................................39
IV
Lista de Tabelas
Tabela 2.1 - Cordas vocais humana ...................................................................................33
Tabela 3.1 Relaes de domnios de tempos dos sinais .................................................43
Tabela 3.2 Freqncias e tempos do sinal a ser analisado..............................................44
Tabela 3.3 Etapas da Transformada Discreta de Fourier................................................45
Tabela 3.4 Etapas do algoritmo da DFT .........................................................................45
Tabela 3.5 Comparao entre o sinal original e sua inversa...........................................46
Tabela 3.6 Correlao entre a voz de 2 segundo e sua inversa.......................................47
Tabela 4.1 Disposio das vozes utilizadas na rede MLP ..............................................48
Tabela 4.2 Codificao dos diagnsticos de voz ............................................................48
Tabela 4.3 Porcentagem de acerto das vozes treinadas na rede MLP............................49
Tabela 4.4 Porcentagem de acerto das vozes generalizadas pela rede MLP .................51
Tabela 4.5 Comparao entre as vozes calmas e de estresse..........................................52
Tabela 4.6 Clculo do espectro de potncia das vozes ...................................................53
Tabela 4.7 Comparao entre a voz original e a inversa do sinal...................................54
Tabela 4.8 Disposio das vozes pr-processadas utilizadas na rede MLP....................54
Tabela 4.9 - Codificao dos diagnsticos das vozes pr-processadas .............................56
Tabela 4.10 Porcentagem de acerto das vozes treinadas pela rede MLP.......................57
Tabela 4.11 Porcentagem de acerto das vozes generalizadas pela rede MLP ...............58
Tabela 4.12 Comparao entre as vozes pr-processadas calmas e nervosas ................59
Tabela 4.13 Comparao entre os dois treinamentos realizados ....................................60
RESUMO
Em trabalho anterior (Matuck, 2004), alm do estudo conduzido abordando tcnicas

de Redes Neurais Artificiais (RNAs), foi realizado um processamento para reconhecimento
de estados emocionais de falantes atravs de sinais de vozes captadas digitalmente, sem
qualquer pr-processamento. Os resultados mostraram-se inconclusivos sobre a capacidade
da rede neural de identificar o estado emocional dos falantes, j que o ndice de acerto foi
em torno de 50%. A motivao para o trabalho veio da hiptese de que possvel utilizar
sinais de voz para anlise de nveis de stress de uma pessoa que se encontra em estado de
isolamento social (confinamento). Como tentativa de caracterizar melhor os padres de voz
para o reconhecimento, este trabalho tem como foco a aplicao de tcnicas de Fourier para
o pr-processamento de dados visando a reduo de rudos presentes nos sinais. A melhoria
no reconhecimento das vozes mostra que os rudos originados pelo processo de aquisio
das vozes precisam ser removidos para melhorar a eficincia do sistema de
reconhecimento.
1 - INTRODUO
1.1 - Apresentao do tema

Em Matuck (2004) foi abordado o problema das conseqncias relacionadas ao
isolamento social forado, como exemplo indivduos que trabalham em locais de difcil
acesso e com grupo muito reduzido de pessoas, quando no h possibilidades de se fazer
avaliaes diretas, no sentido mdico-paciente para diagnosticar alteraes
comportamentais. Como esse confinamento pode produzir mudanas no estado emocional
(aumento do nvel de stress, por exemplo), este trabalho foca um estudo relacionado voz
humana que possa permitir uma avaliao capaz de identificar, com confiabilidade, padres
na mudana do estado emocional de indivduos nessas condies. Assim, neste trabalho
utiliza-se tcnicas de Redes Neurais Artificiais (RNAs - Neural Networks [HAY 94])
para realizar tal avaliao.
As RNAs so sistemas computacionais com propriedades particulares como:
capacidade de aprendizagem ou de adaptao aos dados utilizados durante o seu
treinamento; generalizao, ou seja, a capacidade de reconhecer dados nunca vistos
anteriormente; e so tolerantes a falhas. A capacidade de aprendizagem permite que as
RNAs possam diferenciar padres de comportamentos atravs da sua exposio de
exemplos, que so apresentados vrias vezes para as Redes Neurais durante o processo de
treinamento, o que faz com que estas extraiam as principais caractersticas inerentes dos
dados.
Durante boa parte do tempo destinado ao projeto foi conduzido um estudo
relacionado tecnologia de RNAs bem como implementao de alguns modelos
especficos existentes na literatura. Para a realizao de tal estudo, foi necessrio um estudo
prvio relacionado ao funcionamento do sistema nervoso humano, abordando os nveis de
organizao estrutural do crebro, a plasticidade neuronal e todo funcionamento de um
neurnio biolgico.
Para colocar em prtica o aprendizado relacionado aos estudos das Redes Neurais
Artificiais foram implementados alguns tipos de arquiteturas como a rede Perceptron de
Mltiplas Camadas (Multilayer Perceptron), a rede Perceptron de Camada Simples
(Singlelayer Percepton), a rede Kohonen, a rede Adaline e a rede Madaline (extenso do
modelo Adaline). Essas redes foram utilizadas em aplicaes como, por exemplo, o
reconhecimento de caracteres e testes com portas lgicas (portas AND, OR e XOR). Aps
o treinamento destas aplicaes foi verificada a capacidade destas redes de generalizarem
aos novos dados nunca vistos anteriormente e tambm foi realizada a comparao entre
estas arquiteturas para verificar qual rede era mais adequada para os problemas citados.
Em outro estudo realizado se verificou a capacidade das RNAs de identificao de
padres em testes psicolgicos que so utilizados no reconhecimento na mudana do estado
emocional de uma pessoa. Para tal utilizou-se dois testes especficos. O primeiro o teste
2
VARK desenvolvido por Fleming e Mills (1992), o qual tem por finalidade investigar as
preferncias por modos pelos quais as pessoas trabalham com informao. Este teste foi
treinado e comparado usando todas as arquiteturas de RNAs citadas, buscando o grau de
aprendizado e a mais indicada para a identificao destes padres.
Em outro experimento, utilizou-se o teste psicolgico MPCL (Mooney Problem
Check List) desenvolvido por Leonard V. Gordon e Roos L. Mooney (1950), que tem como
objetivo ajudar indivduos a expressarem seus problemas pessoais. Este teste til, por
exemplo, para aumentar a compreenso do professor sobre seus estudantes onde os
questionrios so separados por faixa etria e abrangem reas como: sade e
desenvolvimento, repouso e famlia, moral e religio, sexo e casamento. Este teste foi
treinado nas arquiteturas de RNAs mencionadas para comparao e verificao da rede que
produz um melhor diagnstico para esta avaliao.
Como um ltimo experimento procurou-se analisar sinais de voz para a identificao
de nveis de stress. Atravs de um gravador porttil foi produzido um banco de dados
contendo vozes de pessoas em situaes calmas e de stress, atravs da leitura de um texto
pr-determinado. Uma parte desse banco de vozes foi treinado pela rede Perceptron de
Mltiplas Camadas obtendo 98,78% de reconhecimento pela rede neural. Aps o
treinamento, foi verificada a capacidade da rede de generalizar vozes nunca vistas
anteriormente, apresentando a segunda parte do banco de vozes para o seu reconhecimento
constatando um reconhecimento de 50,2%.
Uma desvantagem percebida neste experimento foi durante a formulao do banco de
vozes pelo gravador porttil. Junto gravao percebeu-se a presena de rudos anexados
s vozes como chiado e fatores externos em geral, dados que influenciaram a qualidade de
aprendizado pela rede neural.
Este projeto tem o objetivo de produzir uma avaliao com maior confiabilidade na
identificao de padres de stress presentes na voz, pois acredita-se no fato de que a voz
pode ser um grande indicador de padres emocionais presentes no ser humano. Assim,
procurou-se realizar estudos de tcnicas de pr-processamento de dados, para o treinamento
das redes neurais, com o objetivo de reduzir as fontes de rudos e chiados que podem ser a
causa de um baixo desempenho das redes neurais na identificao de padres de voz.
Para a identificao desses padres essenciais da voz h alguns mecanismos
existentes na literatura que processam o sinal de voz armazenando somente suas
caractersticas fundamentais, como por exemplo, a Transformada de Wavelet (muito
utilizadas na extrao de padres de variao de temperatura), Transformada de Laplace
(transformada de varivel), Transformada K, Transformada Z, entre outros.[GM 99]
Em Matuck (2004) o treinamento das RNAs baseava-seno sinal no domnio do tempo,
onde o sinal era analisado na sua forma original pela rede. Para a grande parte das
aplicaes em processamento digital de sinais, a representao destes no domnio do tempo
no a mais adequada. Muitas vezes, as informaes cruciais esto contidas no chamado
espectro em freqncia do sinal, que mostra as freqncias existem no sinal que est sendo
analisado. Por exemplo, o espectro em freqncia de um sinal de eletrocardiograma de
grande valia para que um cardiologista possa saber se o paciente apresenta alguma
patologia ou no. Baseando-se nisso h o interesse de um tratamento do sinal e sua
3
utilizao no domnio da freqncia armazenado as caractersticas fundamentais especficas
de cada voz para utiliz-las no treinamento e reconhecimento das RNAs.
Neste projeto utilizou-se a Transformada de Fourier para o pr-processamento da voz
antes do treinamento das Redes Neurais Artificiais. A Transformada de Fourier utilizada
em diversas aplicaes como: anlise, sntese e codificao de voz; sinais de radar;
avaliao de falhas mecnicas (motores); anlise de imagens; telecomunicaes; entre
outras. Acredita-se que com o pr-processamento da voz, o treinamento da rede neural
otimizado e a capacidade de aprendizagem e identificao a novos padres mais
promissora.
1.2 - Objetivos
1.2.1 - Objetivos Gerais

O principal objetivo desse trabalho a realizao de um processamento de sinais de
voz para identificao de padres comportamentais por Redes Neurais Artificiais.
1.2.2 - Objetivos Especficos
Adquirir conhecimentos sobre Transformada de Fourier (Fourier Transform);
Implementao de alguns modelos de Fourier em aplicaes existentes atualmente

na literatura;
Utilizao de Redes Neurais Artificiais na caracterizao de caractersticas

comportamentais de um falante;
Complementao de conhecimento sobre Redes Neurais Artificiais;
Implementao do prottipo bsico.
4
1.2.3 - Organizao do Trabalho
Este trabalho est disposto em 5 captulos. O captulo 1 trata dos aspectos introdutrios
do trabalho, como a apresentao do tema e sua ligao com o trabalho anterior em Matuck
(2004).
O captulo 2 faz uma abordagem geral sobre a voz humana, demonstrando sua
estrutura fsica bem como algumas propriedades inerentes voz. Tambm comentado
sobre algumas leses que podem ocorrer e prejudicar a voz e algumas recomendaes para
uma manuteno saudvel.
No captulo 3 feita uma introduo sobre a rea de processamento digital de sinal,
bem como o seu surgimento para mundo. Tambm so abordados conceitos da
Transformada de Fourier como sua histria, alguns tipos de transformadas existentes na
literatura e algumas aplicaes desta tcnica de processamento. Foi realizado neste captulo
todo um estudo abordando tcnicas da Transformada de Fourier como o seu algoritmo,
algumas propriedades pertinentes a esta metodologia e um exemplo matemtico prtico.
Neste captulo tambm se encontra uma implementao da Transformada Discreta de
Fourier atravs do software Matlab e alguns exemplos utilizando este procedimento.
J no captulo 4 so referenciados dois procedimentos abordando o reconhecimento de
stress da voz humana por tcnicas de Redes Neurais Artificiais. O primeiro procedimento
mostra o treinamento das vozes pela rede Perceptron de Mltiplas Camadas (MLP
Multilayer Perceptron) sem o pr-processamento pela Transformada Discreta de Fourier. J
o segundo experimento mostra o mesmo treinamento, mas com o pr-processamento das
vozes para o domnio da freqncia. No trmino deste captulo so realizadas comparaes
sobre estas duas aplicaes.
No captulo 5 so feitas as consideraes finais, propostas para trabalhos futuros dando
de certa forma uma continuidade ao estudo geral deste projeto e concluses do trabalho.
2 - VOZ HUMANA
2.1 - Introduo
A voz existe pelo desejo que o ser humano possui de verbalizar pensamentos,
emoes e opinies, sendo parte integrante da nossa identidade. uma das extenses mais
fortes da nossa personalidade, muitas vezes possvel reconhecer algum s pela voz. A
voz transmite carinho, simpatia, ansiedade, tenso, emoo, inclusive a nossa idade e
experincia de vida. O seu uso incorreto pode levar a uma disfonia, que um sintoma de
dificuldade na emisso normal da voz, podendo gerar alteraes nas pregas vocais
(hiperemia, edema, ndulo, plipo, etc).
Para que a produo vocal seja adequada, h necessidade do equilbrio entre os
parmetros vocais que so os representados pelas qualidades vocais, constitudas por:
ressonncia, tipo de voz, intensidade, freqncia, articulao, velocidade de fala, pronncia
e aspectos referentes emisso. Em algumas situaes este equilbrio no acontece sendo
responsvel por aspectos como rouquido, aspereza, tenso, hiper-nasalidade, dentre outras
que podem ser encontradas, tanto na voz do adulto como na infantil.
Desde sempre a espcie humana pretendeu criar mquinas que produzissem e
entendessem a voz humana. A utilizao de voz para interagir com sistemas automticos
tem um vasto campo de aplicaes. A combinao com a rede telefnica permite acesso
remoto a bases de dados e a novos servios como, por exemplo, a consulta de correio
eletrnico via telefone de qualquer ponto do mundo e a consulta de horrios de vos sem
necessidade de um operador. A utilizao destas tecnologias facilita a integrao de pessoas
com deficincias. Por exemplo, o uso de sntese de voz permite a uma pessoa muda, usando
um teclado, usar o telefone para fazer coisas simples como encomendar uma pizza.
2.2 - Formao da Voz

Como todos os outros sons, a voz produzida por vibraes. No interior da laringe
estende-se um tecido esticado com duas pregas, chamadas cordas vocais. So elas que
vibram quando falamos. As cordas so fibras elsticas que se distendem ou se relaxam pela
ao dos msculos da laringe conforme exibido na Figura 2.1. A freqncia natural da voz
determinada, em grande parte, pelo comprimento das cordas vocais. As mulheres tm voz
mais aguda que os homens porque suas cordas vocais so mais curtas. Pela mesma razo, as
vozes das crianas so mais agudas do que as dos adultos.
A laringe no o nico rgo responsvel pela fonao. Os lbios, a lngua, os
dentes, o vu palatino e a boca concorrem para a formao dos sons. Quando murmuramos
6
produzimos os sons colocando a boca e a lngua em determinadas posies sem fazer vibrar
as cordas vocais. O timbre da voz humana depende dos inmeros espaos que vibram em
ressonncia com as cordas vocais. A se incluem as cavidades sseas, cavidades nasais, a
boca, a garganta, a traquia e os pulmes, bem como a prpria laringe.
Figura 2.1 Anatomia da garganta.

Todo o ar inspirado e expirado passa pela laringe onde nos dois lados dela se
encontram as cordas vocais relaxadas sem produzir som. Quando uma pessoa fala ou canta,
seu crebro envia mensagens pelos nervos at os msculos que controlam as cordas vocais.
Os msculos fazem a aproximao das cordas de modo que fique apenas um espao estreito
entre elas. Quando o diafragma e os msculos do trax empurram o ar para fora dos
pulmes, ele produz a vibrao das cordas vocais. O controle da altura do som se faz
aumentando-se ou diminuindo-se a tenso das cordas vocais. Os diferentes estados das
cordas vocais humana exibido na tabela 2.1 abaixo.
Cordas vocais afastadas.
Silncio
Cordas vocais
encostadas.
Cordas vocais
entreabertas.
Produo de som
Sussurro
Tabela 2.1 Cordas vocais humana.
7
A mais baixa freqncia que pode dar a audibilidade de um tom mais ou menos a de
20 vibraes por segundo, enquanto a mais alta se encontra entre 10.000 e 20.000 vibraes
por segundo. A freqncia comum de um piano de 40 a 4.000 vibraes por segundo. A
freqncia da voz humana se encontra entre 60 e 1.300 vibraes por segundo
Para emitir corretamente a voz, necessria uma colocao correta da respirao, sem
tenso ou relaxao das pregas vocais. Estas devem ter uma tonicidade "ideal" para que sua
movimentao ocorra normalmente. A respirao dever ter uma coordenao entre
inspirao e expirao, coordenao fono-respiratria, diretividade do sopro expiratrio,
movimentos livres da musculatura da regio torcica e do msculo diafragmtico. Uma
respirao ideal provoca o alargamento da base dos pulmes, permitindo maior entrada de
ar e menor contrao da musculatura torcica, pescoo e parte inferior da face (mandbula e
lngua).
A fonao um poderoso veculo de comunicao pelos seus aspectos lingsticos e
pela entonao da voz. Para que a fonao seja normal necessrio que, alm do aparelho
fonador, a laringe funcione adequadamente e em sinergia, que os mecanismos respiratrios,
os de ressonncia e com o sistema nervoso estejam adaptados fonao. Mas as qualidades
vocais vm junto com o nascimento do indivduo. Seria necessrio aperfeio-lo, a partir
dessas condies inatas. O principal perceber as virtudes ou defeitos da prpria voz, para
aproveitar as primeiras e corrigir, na medida do possvel, as segundas.
2.3 - Propriedades da Voz

Existem trs elementos determinantes da voz humana: o organismo, o ambiente e a
personalidade. A parte orgnica condiciona a voz, pois esta depende especialmente da
conformidade do aparelho vocal e do estado fsico geral. O ambiente, tambm tem a sua
importncia, pois muitos hbitos de locuo provm da imitao ou contgio, como por
exemplo, o sotaque regional. Por ltimo, a personalidade tambm influi. A inteligncia, a
entoao, a dico, etc, revelam, sem dvida alguma, o carter e o prprio eu. A voz
humana tem, como qualquer outro som, qualidades prprias:
Tom - a altura musical da voz. Segundo o tom, as vozes humanas classificamse em agudas ou graves. A escala de registro e de altura permite classificar as
vozes masculinas, geralmente em trs categorias: tenor, bartono e baixo.
Tambm existem tipos de vozes intermedirias. Sob o ponto de vista oratrio, a
melhor voz, a do bartono;
Timbre - o matiz pessoal da voz. um fenmeno complexo e est determinado

pelo tom fundamental e pelos seus harmnicos ou secundrios. Reconhece-se
pelo timbre caracterstico a pessoa com a qual se fala. H vozes bem timbradas e
agradveis, mas tambm existem roucas, agudas e chiadas;
Quantidade - a durao do som. Segundo a quantidade, os sons podem ser

longos ou curtos, com toda a gama intermediria de semi-longos, semi-curtos,
8
etc. A quantidade depende, geralmente, das caractersticas de cada lngua, dos
costumes lingsticos das regies ou pases, da psicologia do habitante, etc.
Intensidade - a maior ou menor fora com que se produz a voz. H vozes

fracas e vozes fortes.
Em fontica denomina-se sotaque ao conjunto dos elementos anteriores, cuja

combinao especial em cada lngua e mesmo em cada indivduo, d a essa lngua uma
caracterstica diferente daquela ouvida no ingls ou no francs. Por exemplo, dentro do
campo lingstico do espanhol, h um sotaque argentino, um outro mexicano e tantos
sotaques quantos pases onde o espanhol falado. A diferena existe tambm entre zonas
ou estados de um mesmo pas. Tambm podemos dizer que se encontram diferenas em
bairros de uma mesma cidade.
Existem na literatura, cinco sistemas bsicos de fala em aspectos referentes
emisso da voz:
Respirao - Exerce um papel especial na fala. O flego e o controle

respiratrio so instrumentos vitais para que no ocorram frases interrompidas e
freqentes interrupes durante a fala;
Fonao - Se refere qualidade e s caractersticas da voz produzida pela

laringe;
Ressonncia - a modificao seletiva da inflexo na voz quando a corrente de

ar passa atravs da rinofaringe, orofaringe e da boca. Esta modulao ou
amplificao cria as caractersticas individuais da voz;
Articulao definida como a produo dos sons da fala por meio de paradas
ou constries da corrente de ar, vocalizada ou no-vocalizada, pelos
movimentos dos lbios, lngua, vu palatino ou faringe. Isto exige os
movimentos dos lbios, da lngua, dos dentes, do palato duro ou mole;
Prosdia - Refere-se qualidade normal da fala, incluindo velocidade,

sincronizao, intervalo, regulagem, melodia e nfase.
Finalmente, os sons tm uma escala diferente de percepo ou alcance. Existem sons

que, por natureza prpria, conseguem-se ouvir de muito longe, como a vogal "a", enquanto
outros so escutados a uma distncia mais curta, como a "u". As vozes tm tambm
diferente alcance ou percepo, segundo as pessoas.
2.4 - Tipos de leses na Voz

Os principais tipos de leses orgnicas resultantes das disfonia funcionais so:
ndulos, plipos e edemas das pregas vocais. Estas trs alteraes da mucosa da prega
vocal tm como caracterstica comum, o fato de representarem uma resposta inflamatria
da tnica mucosa a agentes agressivos, quer sejam de natureza externa, quer sejam
decorrente do prprio comportamento vocal. Ser abordado agora alguns tipos de leses
provocadas na voz.
Ndulos
Os ndulos (Figura 2.2) resultam de: fatores anatmicos predisponentes (fendas

triangulares), personalidade (ansiedade, agressividade, perfeccionismo) e do
comportamento vocal inadequado (uso excessivo e abusivo da voz). O tratamento dos
ndulos fonoterpico. A indicao cirrgica, todavia, pode ser feita quando os mesmos
apresentam caractersticas esbranquiada, dura e fibrosada, ou ainda quando existe dvida
diagnstica.
Figura 2.2 Ndulo Sintoma provocado na garganta.
Plipos
Os plipos (Figura 2.3) so inflamaes decorrentes de traumas em camadas mais

profundas da lmina prpria da laringe, de aparncia vascularizada. O tratamento
cirrgico. A voz tpica rouca. As causas podem estar relacionadas a fatores como abuso
da voz ou agentes irritantes, alergias, infeces agudas, etc.
Figura 2.3 Plipos na laringe.
10
Edemas das cordas vocais
Os edemas relacionam-se com o uso da voz, sendo. Normalmente so localizados e

agudos (Figura 2.4). O tratamento medicamentoso ou atravs de repouso vocal. Os
edemas generalizados e bilaterais representam a laringite crnica, denominada Edema de
Reinke. Este sintoma encontrado em pessoas expostas a fatores irritantes externos,
especialmente o tabagismo (fumo) e o elitismo, sendo o mais importante fator associado ao
uso excessivo e abusivo da voz. Quando discretos, os edemas podem ser tratados com
medicamentos e fonoterapia, assegurando-se a eliminao de seu fator causal. Os edemas
quando volumosos, necessitam de remoo cirrgica, seguida de reabilitao
fonoaudiolgica.
Figura 2.4 Edema provocado na garganta.
Infeces em geral
Os fatores infecciosos, incluindo as sinusites, diminuem a ressonncia e alteram a

funo respiratria, produzindo modificaes na voz. O efeito primrio das infeces das
vias areas superiores tm efeito direto sobre a faringe e a laringe, podendo provocar
irritao e edema das pregas vocais. Estes processos infecciosos podem gerar atividades
danosas, como o pigarro e a tosse que, por sua vez, podem causar traumatismos nas pregas
vocais. H tambm fatores imunolgicos, endcrinos, auditivos e emocionais, que podem
causar transtornos na emisso da voz.
Laringite
A laringite a inflamao da laringe (onde esto as cordas vocais) e das reas

prximas. um sintoma que ocorre no resfriado, bronquite, pneumonia, e outras infeces
respiratrias. H duas formas de laringite: aguda e crnica. A laringite aguda acontece de
repente e no dura muito tempo. A laringite chamada crnica quando a rouquido dura
11
um longo perodo. Os sintomas so: rouquido e tosse, com sensao de corpo estranho na
garganta, aumento de secreo, pigarro e, ocasionalmente, dor de garganta.
A laringite aguda geralmente causada por um vrus, mas pode resultar de uma
infeco bacteriana. A laringite crnica pode ser causada por tabagismo (ritmo intenso), uso
intenso da voz (quando se fala ou canta em tom muito alto), tosse forte, ou exposio a
substncias irritantes.
O tratamento envolve a eliminao dos fatores que provocam a irritao da laringe
(exposio a produtos qumicos e txicos, nvel elevado de rudos, maus hbitos
alimentares, refluxo alimentar devido a gorduras, pigarro crnico, etc.), alm da promoo
de hbitos que melhoram a higiene vocal, evitando os abusos da voz.
Cisto
O Cisto (Figura 2.5) so leses benignas que se parecem com pequenas esferas nas
margens das pregas vocais. Geralmente so congnitos (nasce com a pessoa). Podem
ser decorrentes do bloqueio de um ducto glandular da mucosa cordal, no qual h
reteno de muco, principalmente aps abusos vocais. O tratamento, geralmente,
cirrgico. O principal sintoma vocal a rouquido.
Figura 2.5 Garganta com cisto.
2.5 - Manuteno da Voz

importante a preservao da voz para mant-la sempre apta a ser usada,
principalmente para aqueles que a tem como instrumento de trabalho. Os cuidados
apresentados a seguir foram pensados de forma que a pessoa possa preservar a sua voz e
conscientizar-se da importncia de sua manuteno:
Beber de sete a oito copos de gua por dia;
12
Buscar atendimento especializado se a voz for o seu principal instrumento de

trabalho;
Manter uma higiene bucal;
Pastilhas, sprays ou medicamentos, s indicados por Mdicos;
Evitar auto-medicao e solues caseiras (gengibre, rom, etc.);
Fumo: Ao tragar, a fumaa agride todo o sistema respiratrio e, tambm, as pregas

vocais. O fumo considerado um dos principais fatores desencadeantes do cncer
de laringe e pulmo;
Drogas: O uso de drogas tem ao direta sobre a laringe. A maconha

extremamente lesiva, irritando a mucosa da regio do trato vocal;
Evitar bebidas alcolicas, pois o lcool tem um efeito anestsico, provocando a

reduo da sensibilidade, quando na maioria das vezes ocorre um abuso vocal,
lesando as pregas vocais;
Evitar a competio sonora - Falar com um rudo de fundo leva a pessoa

"competir" com o som, ou seja, a pessoa fala mais alto para que possa ser
entendida. fundamental que se mantenha a intensidade vocal em um nvel
moderado, sem falar nem muito alto e nem sussurrado, pois ambas apresentam um
esforo maior do que o necessrio;
Evitar mudanas bruscas de temperatura interna (ingesto sucessiva de alimentos

quentes e muito gelados), ou mesmo externa, principalmente quando ao ar livre ou
em ambientes aquecidos ou resfriados artificialmente;
Manter uma postura relaxada ao falar ou cantar.
Nota-se ento a importncia de ser ter um bom cuidado com a voz para que no
possibilite o surgimento de leses abordadas neste tpico. Para uma pessoa que faz da voz
um instrumento de trabalho imprescindvel que est manuteno seja praticada
diariamente e sempre antes de utiliz-la deve-se realizar algumas tcnicas de aquecimento
da voz, entre outros procedimentos.
13
3 - PROCESSAMENTO DIGITAL DE SINAL
3.1 - Introduo
Deve-se ressaltar que s ser abordado neste captulo apenas alguns conceitos
introdutrios relacionados a tcnicas de processamento digital de sinal, tendo-se como foco
principal o estudo da Transformada de Fourier.
Toda a nossa vida se baseia em sinais, que so medidos, processados, analisados, e
do origem a decises. O som, a temperatura e a luz so exemplos de sinais que utilizamos
no dia a dia. Os ouvidos convertem o som em sinais eltricos, que chegam ao crebro, e
este capaz de analisar algumas das suas propriedades, tais como amplitude, freqncia e
fase, determinar a direo em que se encontra a fonte de som, e reconhec-lo, como msica,
fala, o rudo de um automvel, etc. Os nervos colocados nas partes expostas da pele sentem
a temperatura e enviam para o crebro sinais eltricos, que podem originar decises tais
como ligar um aquecedor, abrir uma janela, etc. Os olhos focam as imagens na retina, que
converte essas imagens em sinais eltricos e os envia para o crebro, que, pela anlise da
cor, da forma, da intensidade, etc., da luz capaz de reconhecer objetos, medir distncias,
detectar o movimento, etc.
Os fantsticos desenvolvimentos nos ltimos anos presenciados na rea da
microeletrnica tornaram possvel pr em prtica este pensamento de uma forma efetiva, e
est na origem do Processamento Digital de Sinal (PDS), disciplina que hoje ocupa um
papel preponderante em vrias reas da cincia. Do ponto de vista da engenharia, sinais so
funes ou seqncias que servem para transportar informao de uma fonte de mensagens
a um destinatrio. As caractersticas especficas dos sinais dependem do canal de
comunicaes utilizado para este transporte. Estes sinais so processados no lado do
transmissor com a finalidade de produzi-los e configur-los, e no lado receptor para extrair
a informao neles contida, se possvel com a mxima eficincia.
Em sistemas eletrnicos a fonte geradora de informao, o canal de comunicao e o
destinatrio so elementos pr-definidos com caractersticas em geral muito bem definidas,
como por exemplo, em sistemas de transmisso telefnica, de irradiao, de sinais de rdio
ou de televiso ou de deteco de alvos com radar sonar. Em outras situaes, como nos
processos de medio em investigao cientfica, a fonte de mensagens e o canal de
comunicaes podero estar apenas parcialmente caracterizados. Sinais bioeltricos como o
eletrocardiograma, eletroencefalograma, entre outros, so estudados h dcadas com a
finalidade de se extrair informao sobre estados patolgicos de rgos, sem que se tenha
muitas vezes a mnima certeza de que tal informao de fato transportada por estes sinais.
Os sinais que constituem a voz humana codificam uma variedade de informaes
como, por exemplo, sobre a semntica do que est sendo dito, sobre a identidade do locutor
e at sobre o seu estado de esprito. As redes neurais biolgicas do sistema nervoso humano
tm um desempenho de invejvel eficincia na extrao desta informao.
14
3.2 - Breve Histrico
por volta do sculo XIX que apareceram os modelos matemticos bsicos dos
sinais e sistemas contnuos, com as Transformadas de Laplace e de Fourier onde seus
trabalhos contriburam para muitas reas da matemtica, cincia e engenharia. Pierre
Simon, Marqus de Laplace, o maior astrnomo terico depois de Newton, nascido vinte
anos antes de Fourier, aplicou os seus conhecimentos matemticos ao estudo dos
movimentos planetrios, dando origem hoje designada transformada de Laplace, que cedo
encontrou aplicao em muitas outras reas cientficas.
Tambm De Moivre, que em 1730 introduziu a hoje chamada transformada em z,
deve ser creditado como um dos precursores do Processamento Digital de Sinal. No
entanto, ao advento dos computadores digitais, verificado nos anos 40, que se deve o
nascimento do PDS como disciplina. Nos anos 50, engenheiros e cientistas como Shannon
e Bode nos Bell Telephone Laboratories e Linville no MIT foram certamente dos primeiros
a equacionar a utilizao de computadores de sinal em processamento de sinal. No incio
dos anos 60, Kaiser, nos laboratrios Bell, apresentou importantes contribuies para a
anlise e a sntese de filtros digitais.
J em 1965, James W. Cooley e Jhon Tukey publicaram um artigo em que
apresentavam um algoritmo que reduz consideravelmente o tempo de calculo da
Transformada Discreta de Fourier. O algoritmo veio a ser conhecido como Transformada
Rpida de Fourier ou simplesmente FFT (Fast Fourier Transform) e considerado o mais
avanado, deste sculo, no campo da anlise numrica. Posteriormente, encontraram-se na
literatura trabalhos anteriores aos de Cooley e Tukey em que so apresentados algoritmos
semelhantes a FFT. Os trabalhos de Runge, por exemplo, foram publicados em 1903 e 1905
[BRI-74]. Talvez esses trabalhos anteriores ao de Cooley e Tukey no tenham tido grande
repercusso porque na poca no havia computadores suficientemente rpidos.
Na dcada de 1970 surgiram microcomputadores menores, mais rpidos e mais
baratos que os computadores mais antigos. Esse fato, juntamente com a repercusso do
artigo de Cooley e Tukey, resultou num renovado interesse na Transformada Rpida de
Fourier. Atualmente, o clculo da FFT no est mais limitado a funes expressas
analiticamente e isso, por sua vez, possibilitou avanos tecnolgicos em diversas reas
como, por exemplo, processamento de sinais e espectroscopia atmica e molecular.
Atualmente, o PDS emergiu das aplicaes militares onde nasceu e desempenha um
papel chave em produtos de consumo, industriais e de telecomunicaes.
Microprocessadores de sinal de baixo custo so componentes essenciais de jogos
eletrnicos, telefones celulares, brinquedos, leitores de CDs, discos de computadores,
modems, impressoras, sistemas de reconhecimento de voz e de conferncia vdeo, e muitos
outros produtos familiares. Cada vez mais aplicaes tradicionalmente do domnio dos
sistemas analgicos esto a encontrar solues digitais mais baratas e mais confiveis.
15
3.3 - O Paradigma dos Quatro Universos
Para se entender melhor este conceito que se chama processamento digital de sinais
deve-se abordar o processo que sair do mundo real onde os sinais so contnuos, e ir para
o mundo do computador onde tudo discreto. Este paradigma conhecido como o
Paradigma dos Quatro Universos (Figura 3.1) e estruturado da seguinte maneira:
O Universo Fsico, onde esto localizados os objetos do mundo real onde ser focado o
estudo em questo. Estes objetos se caracterizam atravs da variao de uma
determinada grandeza, podendo ocorrer em relao ao espao ou tempo;
O Universo Matemtico, onde so formuladas descries abstratas desses objetos.

Contm uma descrio matemtica formal dos objetos do mundo real, conhecido
tambm como a conceitualizao dos objetos do universo do mundo real;
O Universo de Representao, que vai permitir trazer essas descries abstratas para o
mundo digital, e onde se dar a discretizaco dos sinais contnuos. Este universo
constitudo por descries simblicas e finitas associadas a componentes do universo
matemtico. Neste nvel realizado o mapeamento dos objetos conceituais para
representaes geomtricas.
O Universo de Implementao um conjunto de regras especficas implementao

do modelo dentro de um ambiente computacional. nesta arquitetura que acontece a
codificao do sinal discretizado na memria do computador atravs de uma estrutura
de dados. Vrias estruturas de dados podem ser implementadas para um mesmo modelo
conceitual, levando-se em conta alguns requisitos como, por exemplo, o desempenho,
capacidade do equipamento, o volume de dados a ser processado, entre outros.
Universo
Fsico
Universo
Matemtico
Reconstruo
Discretizaco
Universo de
Representao
Codificao
Decodificao
Universo de
Implementao
Figura 3.1 Paradigma dos Quatro Universos.
16
Portanto, para estudar um determinado fenmeno, ou objeto da natureza, no
computador, ns precisamos associ-lo a um modelo matemtico e ento encontrar uma
representao discreta para esse modelo que pode ser implementada no computador. A
codificao dos dados pode ser decodificada e depois reconstruda para podermos voltar
com o fenmeno estudado para o mundo real.
3.4 - Transformada de Fourier
3.4.1 - Introduo
Novas tecnologias em sistema informatizados tm ganhado cada vez mais mercado e
espao dentre usurios de computadores do tipo PC (Personal Computer). Muitas dessas
tecnologias tm como fundamento bsico aquisio e o processamento lgico de sinais.
No obstante, tcnicas de processamento de sinais se fazem presentes com o intuito de
melhorar e apurar melhor as informaes obtidas de forma analgica.
Uma dessas tcnicas a transformao ou mapeamento de coordenadas. Usualmente,
essa tcnica especfica fruto da utilizao de uma ferramenta matemtica poderosa, a
Transformada. A Transformada um procedimento matemtico que tem como principal
finalidade mudana ou o mapeamento de um conjunto de coordenadas em outro conjunto.
Uma ferramenta muito utilizada neste processamento a transformada de Fourier, a
qual nos permite ter uma viso do sinal a ser analisado no domnio da freqncia,
facilitando sobremaneira esta anlise e o seu processamento, normalmente, aplicando-se
tcnicas de filtragem digital.
Um problema computacional surge quando se quer implementar essa ferramenta, o
tempo de processamento ou converso de um sinal em um sistema de coordenada para um
outro em um sistema de interesse considervel. Na prtica esse problema pode ser
solucionado com a utilizao de algoritmos mais rpidos de transformadas que juntamente
com os teoremas de convoluo e da correlao permite, de maneira simplificada, a
implementao das tcnicas de filtragens para eliminao de rudos e interferncias dos
sinais em anlise.
Para entrarmos mais a fundo sobre estes conceitos de processamento de sinais e
abordarmos a Transformada de Fourier necessrio antes saber quem idealizou esta tcnica
que muito utilizada at hoje em vrios ramos da cincia.
17
3.4.2 - Histrico
Jean-Baptiste Joseph Fourier, nasceu em 21 de Maro de 1768, em Auxerre na Frana
(Figura 3.2). Aos 12 anos, Fourier comeou a mostrar parte do seu talento, redigindo
sermes para sacerdotes de vrias cidades. Dois anos mais tarde iniciou seus estudos de
Matemtica, conseguindo grande destaque. Considerado menino-prodgio, foi convidado a
ingressar na ordem dos beneditinos, mas antes de ordenar-se, chegou a Revoluo de 1789.
Fourier que sempre desejara ser militar aderiu com entusiasmo causa da Revoluo.
Com a criao da Escola Normal e da Escola Politcnica, das quais foi conferencista,
Fourier comeou a desenvolver os trabalhos que o imortalizaram como matemtico. Data
dessa poca sua teoria para calcular razes irracionais das equaes algbricas, cujo estudo
Newton iniciara. Tendo acompanhado Napoleo no Egito, Fourier desenvolveu ali estudos
de arqueologia, tornando-se especialista em egiptologia. Fourier trabalhou nessa poca
como engenheiro, dirigindo uma fbrica de armamentos do exrcito francs no Egito.
Figura 3.2 - Jean Baptiste Joseph Fourier (1768 - 1830).

Em 1802, Fourier lanou sua obra mais notvel, a Teoria Analtica do Calor
(Thorie Analytique de la Chaleur). Em seu livro, ele dedica toda uma seo soluo do
problema de desenvolvimento de uma funo qualquer em srie de senos e co-senos de
arcos mltiplos. Generalizou o procedimento, partindo de um caso especfico para
empreg-lo em qualquer caso.
Voltando Frana em 1812, Fourier desenvolveu, na sua obra "Memorial", uma
teoria sobre a conduo do calor, tornando-se precursor da Fsica-Matemtica. Neste ltimo
estudo, o matemtico francs foi levado a criar um novo tipo de desenvolvimento em srie,
18
diferente do mtodo de Taylor por empregar funes peridicas em vez de potncias, e que
recebeu seu nome.
Antes de 1930 iniciou o estudo de wavelet (funes que satisfazem a certos
requisitos matemticos e so usadas na representao de dados ou de outras funes) com
suas teorias de anlise de freqncia. Fourier afirmava que a anlise em wavelets no feita
segundo a freqncia, mas sim segundo a escala. Os algoritmos wavelet processam dados
em diferentes escalas e resolues, permitindo que sejam vistos tanto o global quanto os
detalhes.
Fourier deu um passo decisivo, ao usar indiferentemente os smbolos de integrao
e o de somatria infinita, que conduziu s chamadas sries de Fourier. Coube a Fourier o
mrito de haver criado esse instrumento matemtico, de extraordinria fecundidade, com o
qual as funes peridicas descontnuas pudessem ser apresentadas atravs de funes
contnuas. Com o objetivo de definir a propriedades de condutividade trmica entre os
materiais atravs de observaes experimentais, Fourier definiu a lei bsica de conduo de
calor entre slidos avanando em muito as pesquisas nessa rea. Em 1830 Fourier morreu;
vtima de um aneurisma cerebral.
Conduo de Calor
Conduo de calor o processo de transferncia de energia trmica de uma regio mais

quente para outra mais fria, atravs das partculas presentes no meio que as separa sem que
haja deslocamento de matria. Essa transferncia de energia ocorre pois, a regio de maior
temperatura possui molculas vibrando com intensidade maior (maior energia cintica).
Com uma vibrao mais acentuada cada molcula transmite energia para a molcula
vizinha que passa a vibrar mais intensamente e assim sucessivamente.
Evidentemente, h materiais com propriedades de conduo de calor mais eficientes
que outros. Portanto diz-se que a transferncia de calor mais eficaz quanto melhor
condutor for o material (o ao um timo condutor). Essa eficincia de conduo de calor
medida pela constante de proporcionalidade denominada condutividade trmica. Devido a
maior aproximao de suas molculas, os slidos tendem a apresentar maiores valores de
condutividade trmica em comparao com lquidos e gases. Como se percebe a conduo
de calor um fenmeno que exige a presena de um meio material e que,
conseqentemente, no ocorre no vcuo.
De acordo com Fourier, a quantidade de calor que atravessa um condutor, por
unidade de tempo, chama-se fluxo de calor () e calculado por:
Q
t
(3.1)
A lei de Fourier diz que, conforme exibido na Equao 3.2, a quantidade de calor Q
que atravessa uma parede, sob uma diferena de temperatura constante, diretamente
19
proporcional rea da seco transversal A, diferena de temperatura () entre as regies
separadas pela parede e ao tempo (t) de transmisso e inversamente proporcional
extenso atravessada, ou espessura (e) da parede.
Q=
k . A. .t
e
(3.2)
Como o calor se propaga de partcula para partcula, corpos mais densos, com maior
nmero de partcula por unidade de volume, especialmente partculas livres, so bons
condutores. Isto explica por que os metais so bons condutores. Pelo mesmo motivo, os
lquidos e gases no so bons condutores de calor. Os materiais em que a conduo trmica
praticamente no ocorre so chamados isolantes trmicos, por exemplo, a madeira e o
isopor.
3.4.3 - Transformadas
Sinais so quantidades fsicas ou variveis detectveis por meio das quais
informaes podem ser transmitidas. Existem duas formas tradicionais de se representar
sinais fsicos:
Representao no domnio do tempo - onde a amplitude do sinal

representada como uma funo do tempo;
Representao no domnio da freqncia - onde a funo que representa o

sinal mostra a amplitude de cada freqncia que o compe.
Diversos estudos vm sendo feitos na rea de processamento digital de sinais com o

intuito de melhorar a aquisio dos sinais que registram informaes, necessrias para uma
avaliao confivel. Na literatura existem vrios tipos de transformadas que auxiliam na
captura e interpretao da informao de um sinal, mtodos que definem a melhor forma de
sinal a ser utilizada, por exemplo, como entrada de uma Rede Neural Artificial. A seguir
sero citadas algumas transformadas que so muito utilizadas em processamento digital de
sinais.
Transformada Z
A Transformada Z uma generalizao da Transformada de Fourier de sinais discretos

desenvolvido por De Moivre em 1730. Tal como a Transformada de Laplace, a
Transformada Z permite que sistemas com funo de transferncia racional sejam
caracterizados pelo seu mapa de plos e zeros.
20
A Transformada Z desempenha para os sinais discretos o mesmo papel que a
Transformada de Laplace para os sinais contnuos. Para uma seqncia x(n), definido para
todo n, a Transformada Z de x(n) exibida pela Equao 3.3, onde z uma varivel
complexa e X(z) a funo desta varivel complexa.
X ( z) =
x ( n) z
n =
(3.3)
A localizao dos plos e da regio de convergncia permite determinar caractersticas

como a causalidade e a estabilidade. O mapa de plos e zeros permite esboar
geometricamente a Transformada de Fourier parte um fator de escala.
Transformada de Laplace
Est tcnica est presente quase sempre em estudos da dinmica e do controle de

processos. usada em sistemas lineares e permite converter equaes diferenciais comuns
em equaes algbricas. A transformada de Laplace tem seu nome em homenagem ao
matemtico francs Pierre Simon Laplace (Figura 3.3).
Figura 3.3 - Pierre Simon Laplace.

Em Matemtica, e em particular na anlise funcional, a transformada de Laplace de
uma funo f(t) definida para todo nmero real t 0 a funo F(s), definida abaixo pela
Equao 3.4.
F ( s ) = {f(t)} = e s .t f (t ) dt
0
(3 .4 )
21
As propriedades desta transformada a tornam til para a anlise de sistemas dinmicos
lineares. A vantagem mais interessante desta transformada que a integrao e a derivao
tornam-se multiplicaes e divises, da mesma maneira que o logaritmo transforma a
multiplicao em adio. Ela permite levar a resoluo de equaes diferenciais resoluo
de equaes polinomiais, que so muito mais simples de resolver.
Transformada de Wavelet
As wavelets so funes matemticas que surgiram em meados da dcada de 80 e que

se destacaram em diversas reas da cincia e da engenharia. A principal motivao atrs do
desenvolvimento das wavelets foi busca por um algoritmo rpido que representasse
funes e conjuntos de dados de forma compacta.
As funes da Transformada Discreta de Wavelet (Discrete Wavelet Transform
DWT) so operaes lineares em um vetor cujo tamanho uma potncia de dois,
transformando-o em outro vetor, numericamente diferente e de mesmo tamanho.
Estudos na rea de processamento de sinais destacaram as wavelets como uma
transformada capaz de capturar a essncia de um conjunto de dados com apenas um
pequeno conjunto de coeficientes, de forma superior s tradicionais transformadas, o que
contribui para a compactao dos udios digitais. Existem algumas famlias de wavelets,
citadas abaixo:
Haar - a primeira e a mais simples de todas. descontnua e equivale a

Daubechies citada a seguir;
Daubechies - Compactly-supported orthonormal wavelets;
Biortogonal - Apresenta a propriedade de fase linear, que necessria na

reconstruo de sinais e imagens. Utiliza duas wavelets, uma para decomposio
e outra para reconstruo, o que gera propriedades interessantes;
Coiflets - A funo wavelet possui 2N momentos iguais a zero e a funo escala

tem 2N-1 momentos iguais a zero;
Symlets - So wavelets simtricas. Foi proposta como uma modificao da

famlia Daubechies pela prpria, possuindo caractersticas similares as desta
famlia;
Morlet - No possui funo escala e explcita;
Mexican Hat - Tambm no possui funo escala, mas no explcita;
Meyer - A wavelet e a funo de escala esto definidas no domnio de

freqncia.
22
Transformada de Mellin
Em matemtica, a Transformada de Mellin uma transformada integral que pode ser

vista como uma verso multiplicativa da Transformada de Laplace. Esta transformada
integral extremamente conectada com as Sries de Dirichlet freqentemente usada na
teoria numrica e a teoria de expanses assintticas, sendo muito relacionada com a
Transformada de Laplace e a Transformada de Fourier. A transformada de Mellin de uma
funo F exibida na Equao 3.5 abaixo:
F ( s) = { f ( x)} = x s 1 f ( x)dx
0
(3.5)
Transformada de Hilbert
Em processamento digital de sinais freqentemente necessrio olhar as relaes entre

as partes reais e imaginrias de um sinal complexo. Essas relaes so geralmente descritas
pelas Transformadas de Hilbert. Esta metodologia utilizada em anlises complexas para
gerar funes analticas de valores complexos de funes reais. A transformada de Hilbert
usada para gerar funes o quais os componentes so conjugados harmnicos.
A transformada de Hilbert de um sinal x(t) definido a ser um sinal o quais
componentes da freqncia so todas divididas em fases por ( / 2) radianos. A
transformada de Hilbert de um sinal real dada pela Equao 3.6 abaixo:
H [ s(t )] =
s
dt
t
1
(3 .6 )
Com a transformada de Hilbert, pode-se calcular diretamente a fase acstica atravs da

freqncia de resposta. Ou seja, dada uma freqncia de resposta de magnitude acstica de
um sistema de caixas de auto-falante, por exemplo, pode-se transformar os dados em
freqncia de resposta de fase acstica, atravs da Transformada de Hilbert.
Alm dessas transformadas abordadas, h outras tambm muito utilizadas em
processamento digital de sinais como, por exemplo, a Transformada K que a reviso das
transformadas de Fourier, Mellin e Hilbert o qual propiciou a fundao do projeto para o
desenvolvimento desta nova transformada.
23
3.4.4 - Aplicaes
A Transformada de Fourier possui muitas aplicaes em disciplinas cientficas.
Como exemplo pode-se citar:
Fsica;
Teoria dos nmeros;
Anlise combinatria;
Processamento de sinais;
Teoria da probabilidade;
Estatstica;
Criptografia;
Acstica;
Oceanografia;
ptica;
Geometria;
Nos campos relacionados com o processamento digital de sinal, a Transformada de

Fourier tipicamente utilizada para decompor sinais nos seus componentes em freqncia e
sua amplitudes. Atualmente existem diversas ferramentas matemticas que provm
transformao de uma funo (sinal) do domnio do tempo para o domnio da freqncia.
Em muitas aplicaes necessrio conhecer no apenas quais as freqncias que
compem um sinal, mas a localizao desta freqncia no domnio do tempo (exemplo: a
freqncia de 50 Hertz existe no intervalo de tempo de 100ms a 125 ms). Como exemplo,
pode-se fazer uma analogia com o processamento de um radar onde a existncia de
determinada freqncia detecta a presena de um objeto e a localizao dessa freqncia
permite determinar a posio deste objeto.
3.4.5 - Algoritmo da Transformada de Fourier

A Transformada de Fourier uma transformada integral que expressa uma funo em
termos de funes de base senoidal, como soma ou integral de funes senoidais
multiplicadas por coeficientes (amplitudes). Existem vrias variaes diretamente
relacionadas desta transformada, dependendo do tipo de funo a transformar.
A Transformada de Fourier normalmente apresentada em sua forma contnua. No
entanto a sua implementao computacional invivel j que os computadores s realizam
clculos discretos. Da a importncia do entendimento da Transformada Discreta de Fourier
(DFT Discrete Fourier Transform).
24
De acordo com Fourier, toda funo real peridica de perodo 2, pode ser escrita
como uma soma infinita de senos e co-senos, conforme mostra a Equao 3.6 abaixo:
f ( x) = ao +
(a
k =1
cos( k . x ) + b k sen ( k . x ) )
(3.6)
Onde os coeficientes a0, ak e bk so calculados segundo as equaes a seguir:

2
1
a0 =
2
ak =
bk =
f ( x)dx
(3.7)
f ( x) cos(k.x)dx
(3.8)
f ( x)sen(k.x)dx
(3.9)
A Tabela 3.1 abaixo apresenta a correspondncia entre a funo no domnio do tempo e

a funo correspondente no domnio da freqncia, para vrios tipos de funo [BRI - 74].
A transformada de Fourier construda a partir da srie de Fourier dada pela Equao 3.6 e
sua forma discreta descrita conforme a Equao 3.10 abaixo:
F ( p ) =
1
2N
2 N 1
p =0
f (t k ) e
i p t k
1
2N
2 N 1
f (t
p =0
)[cos( p t k ) + i sen( p t k )]
(3.10)
Esta transformada recebe um sinal de entrada no domnio do tempo, f (t k ) , e retorna um

sinal no domnio da freqncia, F ( p ) .
25
Domnio do Tempo
Real
Imaginria
Parte real par
Parte imaginria mpar
Parte real mpar
Parte imaginria par
Domnio da Freqncia
Parte real par

Parte imaginria mpar
Parte real mpar
Parte imaginria par
Real
Imaginria
Real e par
Real e par
Real e mpar
Imaginria e mpar
Imaginria e par
Imaginria e par
Imaginria e mpar
Real e mpar
Tabela 3.1 Relaes de domnios de tempos dos sinais
Para se realizar o clculo da Transformada de Fourier de um sinal, necessrio

saber qual ser a sua taxa de amostragem. A taxa de amostragem indica quantas vezes num
segundo se podem tirar amostras de voz ou msica analgica. A taxa de amostragem
exprime-se em hertz, isto , nmero de amostras por segundo onde as mais comuns so
5.500, 11.025, 22.050 e 44.100 Hertz. Um mtodo prtico mostra que a taxa de amostragem
tem de ter uma freqncia pelo menos duas vezes mais elevada que o som que se est a
registrar. Por outras palavras, se quisermos converter um som numa representao digital
utilizando toda a capacidade de audio humana (20 - 20.000 Hertz), as amostras do sinal
tm de ser registradas a uma taxa igual utilizada pelos leitores de CD - 44.100 Hertz.
A preciso da amostragem indica a quantidade de valores numricos diferentes que
uma amostra pode conter. Tanto a taxa como a preciso da amostragem afeta a qualidade
do som e o nmero de bits necessrio para os representar. Quanto mais elevada for a taxa e
a preciso da amostragem, melhor ser a qualidade do som. Contudo, um maior nmero de
bits requer mais espao de armazenagem e maior capacidade de transmisso de dados.
26
3.4.6 - Propriedades da Transformada de Fourier
Sabe-se ento que h duas maneiras de representar uma mesma funo ou sinal:
uma representao no domnio do tempo ou do espao e outra no domnio da freqncia.
A representao de um sinal no domnio do tempo est presente, naturalmente, no nosso dia
a dia. Contudo, certas operaes, principalmente na engenharia, tornam-se muito mais
simples e esclarecedoras se trabalharmos no domnio da freqncia, domnio este,
conseguido atravs das Transformadas de Fourier. muito importante observar o que
ocorre em um domnio, quando efetuamos certas operaes no outro domnio.
A seguir sero citadas apenas algumas propriedades da Transformada de Fourier.
Desde j se deve enfatizar que as frmulas e variveis apresentadas a seguir no sero
provadas matematicamente, mas somente citadas de acordo com a propriedade em questo,
pois se tem como objetivo apenas mostrar algumas propriedades desta metodologia.
Separabilidade
Esta propriedade nos mostra que o par de transformadas F(u,v) e f(x,y) pode ser
obtido em dois passos separados. Em outras palavras, a funo F(u,v) obtida pela
transformao em cada linha de f(x,y) e o resultado multiplicado pelo nmero total das
mesmas, M, obtendo-se F(x,v). F(u,v) obtida, agora, transformando-se F(x,v) coluna por
coluna. A Equao 3.11 abaixo mostra esta propriedade.
1
F (u, v) =
M
M 1
e
x =0
j 2ux / M
1 N 1
f ( x, y )e j 2yv / N
N y =0
(3.11)
Translao
Esta propriedade mostra, conforme exibido pela Equao 3.12, que a multiplicao
de f(x,y) pela exponencial ej2p(u0 x/M + v0 y/N) resulta num deslocamento na freqncia para o
ponto (u0, v0). De maneira anloga, se multiplicarmos a transformada F(u,v) pela mesma
exponencial e tomarmos a transformada inversa, efetuamos um deslocamento espacial da
origem para o ponto (x0, y0).
[ f ( x, y )e j 2 (u0 x / M + v0 y / N ) ] = F (u u 0 , v v0 )
(3.12)
Periodicidade e Continuidade das Funes
A periodicidade mostra que se f(x,y) peridica, somente um perodo necessrio

para especificar completamente F(u,v) no domnio da freqncia. O mesma se aplica a
f(x,y) no domnio espacial Equao 3.13.
27
[ f ( x + M , y + N )] = F (u + M , v + N ) = F (u, v)
(3.13)
Verifica-se, atravs da Figura 3.4, a analogia entre continuidade e periodicidade que

esta propriedade est relacionada com a natureza do sinal, da mesma maneira que o tipo de
representao de Fourier est relacionado com a natureza do sinal. Esta propriedade
permite se ter uma anlise qualitativa da funo, seja qual for o domnio, evitando assim
um trabalho quantitativo exaustivo e, s vezes, desnecessrio.
DOMNIO DA FREQNCIA
DOMNIO DO TEMPO
Continuidade
Periodicidade
Discreto
Peridico
Contnuo
No-Peridico
Peridico
Discreto
No-Peridico
Contnuo
Periodicidade
Continuidade
Figura 3.4 - Analogia entre Continuidade e Periodicidade.
Rotao
Esta propriedade nos mostra que uma rotao em f(x,y) por ngulo , produz a
mesma rotao em F(u,v) e vice-versa Equao 3.14.
{ f [r cos( + )]} = F [ cos( + )]
(3.14)
Teorema da Convoluo
O teorema da convoluo , provavelmente, uma das ferramentas mais eficazes na

anlise em freqncia. A importncia da convoluo no domnio da freqncia consiste no
fato que se f(x) tem a transformada de Fourier F(u) e g(x) tem sua transformada de Fourier
G(u) ento f(x)*g(x) tem F(u)G(u) como transformada, ou seja f(x)*g(x) F(u)G(u)
como exibido na Equao 3.15 abaixo.
[ f ( x) * g ( x)] =
f ( )e
j 2u
dG (u ) = F (u )G (u )
(3.15)
28
Linearidade
Esta propriedade utilizada na soluo de funes complexas, quando estas so

fracionadas em sub-funes mais simples. Este mtodo conhecido como fatorao em
fraes parciais. Deve-se observar, entretanto, que no caso de funes peridicas, o prsuposto bsico de que as sub-funes possuam o mesmo perodo fundamental. A tcnica
de fatorao de uma funo no domnio da freqncia realizada, normalmente, com base
na natureza das razes do polinmio-denominador desta funo.
3.4.7 - Exemplo Prtico
Antes de aplicar na prtica esta metodologia num computador, teve-se como interesse a
resoluo de um teste de mesa para comprovar matematicamente o funcionamento da
Transformada Discreta de Fourier. A partir de um sinal f(tk) com apenas quatro amplitudes
foram transformadas do domnio do tempo para o domnio da freqncia, conforme
ilustrado abaixo. Para este exemplo s foram capturadas quatro freqncias (0, 1, 2 e 3) do
sinal apenas como demonstrao da veracidade da aplicao.
Sinal = 0,1,1, = f (t k )
2
Para o clculo dos coeficientes e utilizada a frmula da Transformada Discreta de

Fourier, conforme exibido pela Equao 3.16:
F (wp ) =
1
2N
f (t ) [cos(w
3
k =0
t k ) + i sen(w p t k )
(3.16)
Onde as freqncias, tempos e o perodo so definidos a seguir:

o A varivel wp o clculo da freqncia no perodo (T) em que se quer
analisar o sinal:
wp =
2 p
T
o A varivel tk o tempo que se pega do sinal de entrada:
tk =
K T
2 N
o A varivel T a determinao da taxa de amostragem:
T = 2
29
Calculando as freqncias e os tempos do sinal de acordo com a tabela 3.2:

Freqncias
2 0
=0
2
2 1
w1 =
=1
2
w0 =
Tempos
2 2
=2
2
2 3
w3 =
=3
2
w2 =
0 2
=0
22
1 2
t1 =
=
22
2
t0 =
2 2
=
22
3 2 3
t3 =
=
22
2
t2 =
Tabela 3.2 Freqncias e tempos do sinal a ser analisado.
A seguir so apresentados todos os clculos para a obteno dos coeficientes:
1
F (w0 ) =
2 N
f (t 0 ) [cos(w0 t 0 ) + i sen(w0 t 0 )] + f (t1 ) [cos(w0 t1 ) + i sen(w0 t1 )]

1
+
= ... = = 0,125
8
f (t ) [cos(w t ) + i sen(w t )] + f (t ) [cos(w t ) + i sen(w t )]
0
2
0
2
3
0
3
0
3
2

1 3i
1
F (w1 ) =
+
= ... = = 0,25 0,375i
4 8
2 N
f (t 2 ) [cos(w1 t 2 ) + i sen(w1 t 2 )] + f (t 3 ) [cos(w1 t 3 ) + i sen(w1 t 3 )]

1
3
F (w2 ) =
+
= .. = = 0,375
2 N
8
f (t 2 ) [cos(w2 t 2 ) + i sen(w2 t 2 )] + f (t 3 ) [cos(w2 t 3 ) + i sen(w2 t 3 )]
F (w3 ) =
1
2 N

1 3i
+
= ... = + = 0,25 + 0,375i
4 8
f (t ) [cos(w t ) + i sen(w t )] + f (t ) [cos(w t ) + i sen(w t )]
3
2
3
2
3
3
3
3
3
2
A seguir so calculados os espectros de potncia para os quatro coeficientes

calculados:
2
1
1
+ 0 = 0,125
8
8
Freqncia 0:
1 3i
1 3
Freqncia 1: + = 0,450
4 8
4 8
3
3
Freqncia 2: = 0,375
8
8
30
1 3i
1 3
Freqncia 3: + + = 0,450
4 8
4 8
Para a verificao da confiabilidade do sinal obtido no domnio da freqncia tornase necessrio realizao do processo inverso para a obteno do sinal original
novamente (domnio do tempo). Para isso utilizado a Transformada Discreta Inversa
de Fourier (IDFT Inverse Discrete Fourier Transform), conforme ilustrado pela
Equao 3.17 abaixo:
F ( w p ) = f (tk ) cos(w p tk ) i sen(w p tk )

3
(3.17)
p =0
A seguir so apresentados todos os clculos para o retorno ao sinal original:
f (w0 ) [cos(w0 t 0 ) i sen(w0 t 0 )] + f (w1 ) [cos(w1 t 0 ) i sen(w1 t 0 )]
F (t 0 ) = +
= ... = 0
f (w ) [cos(w t ) i sen(w t )] + f (w ) [cos(w t ) i sen(w t )]
2
2
0
2
0
3
3
0
3
0
f (w0 ) [cos(w0 t1 ) i sen(w0 t1 )] + f (w1 ) [cos(w1 t1 ) i sen(w1 t1 )]
F (t1 ) = +
= ... = 1
2
2
1
2 1
3
3 1
3 1
F (t 2 ) = +
= ... = 1
2
2
2
2
2
3
3
2
3
2

1
F (t 3 ) = +
= ... =
2
2
2
3
2
3
3
3
3
3
3
Verificou-se ento que este processamento funciona realmente, j que dado um sinal
qualquer no domnio do tempo, foi possvel calcular os coeficientes do sinal (DFT), o seu
espectro de potncia, e o retorno para o sinal original atravs da IDFT. A tabela 3.3 mostra
as etapas desta aplicao.
31
Processos da Transformada Discreta de Fourier

Sinal Original
-1
1
2
Clculo da DFT
1
8
1 3i

4 8
3
8
1 3i
+
4 8
Espectro de Potncia
0,125
0,450
0,375
0,450
Clculo da IDFT
-1
1
2
Tabela 3.3 Etapas da Transformada Discreta de Fourier
3.5 - Implementao da Transformada de Fourier

Para colocar em prtica todos os estudos relacionados a tcnicas de Fourier, foi
realizada uma implementao da Transformada Discreta de Fourier e nela utilizadas
algumas aplicaes existentes na literatura. Para isso, foi utilizando a ferramenta
MATLAB 7.0 como mostra a Figura 3.5 abaixo. Foi escolhido este aplicativo, pois o
MATLAB (MATrix LABoratory) um software interativo de alta performance voltado
para o clculo numrico e cientfico. O MATLAB integra anlise numrica, clculo
com matrizes, processamento de sinais e construo de grficos em ambiente fcil de
usar onde problemas e solues podem ser expressos como eles so escritos na
matemtica ou na forma de uma linguagem de programao.
32
Figura 3.5 Software MATLAB.

A implementao da Transformada Discreta de Fourier abaixo mostra todo o
processo de clculos dos coeficientes do sinal, seu espectro de potncia, o clculo da
Transformada Inversa de Fourier bem como a comparao desta com o sinal original.
Pode-se perceber que esta implementao realizada no MATLAB comparada com
outras arquiteturas muito mais simples, pois o elemento bsico de informao uma
matriz que no requer dimensionamento permitindo a resoluo de muitos problemas
numricos em apenas uma frao do tempo que se gastaria para escrever um programa
semelhante em linguagem Fortran, Basic ou C.
Com base neste software, foi produzido um algoritmo no que realizasse a
Transformada Discreta de Fourier que ilustrada a seguir. Neste algoritmo so
executados procedimentos divididos por etapas conforme a tabela 3.4 abaixo.
Algoritmo da Transformada Discreta de Fourier

Etapas
Procedimento
Leitura do sinal que se deseja processar
II
Configurao das freqncias que sero obtidas a partir do sinal
III
Clculo da Transformada Discreta de Fourier
IV
Clculo do espectro de potncia
Clculo da Inversa da Transformada Discreta de Fourier
VI
Verificando a correlao entre o sinal original e sua inversa
Tabela 3.4 Etapas do algoritmo da DFT.
33
ALGORITMO DA TRANSFORMADA DISCRETA DE FOURIER
I Varivel que ir receber o sinal que ser analisado:
x = sinal que ser processado.
II - Configurando os dados para o clculo a partir do sinal (x):

N = size(x,2);
w= freqncias que sero capturadas do sinal;
M = size(w,2);
soma=0;
cont2=1:N;
tempo= ((cont2-1)*2*pi)/N;
III - Clculo da DFT do sinal:

for cont=1:M
coeficientes(cont) = sum(x.*(cos(w(cont)*tempo) + i*sin(w(cont)*tempo)))/N;
end
IV - Clculo do espectro do sinal:

espectro = sqrt( real(fw).^2 + imag(fw).^2 );
V - Clculo da IDFT:
for cont=1:N
inversa(cont) = sum(fw.*(cos(w*tempo(cont)) - i*sin(w*tempo(cont))));
end
VI - Verificando a correlao da inversa do sinal com o sinal original:

corrcoef(x,inversa)
3.6 - Aplicaes da implementao da DFT

Como aplicaes para teste teve-se como interesse abordar alguns tipos de sinais para
verificar se a implementao da Transformada de Fourier no MatLab obtm os resultados
desejados no domnio da freqncia.
34
3.6.1 - Primeiro Procedimento

Neste procedimento teve-se como interesse utilizar o sinal do exemplo prtico do
tpico 3.4.7 para verificar se esta implementao da Transformada de Fourier obtm os
mesmos resultados. Dado a implementao do tpico 3.5, algumas etapas para esta
aplicao so alteradas como ilustradas a seguir.
Etapa I Varivel que ir receber o sinal que ser analisado:
o x = [0 1 -1 0.5];
Etapa II - Configurando as freqncias que sero adquiridas:

o
w= 0:3;
A seguir so exibidos os clculos dos coeficientes atravs da varivel chamada

coeficientes da etapa III:
F (w0 ) ==
1
= 0,125
8
F (w1 ) =
1 3i
= 0,25 0,375i
4 8
F (w 2 ) =
1 3i
F (w3 ) = + = 0,25 + 0,375i
4 8
3
= 0,375
8
A seguir so calculados os espectros de potncia para os quatro coeficientes

calculados atravs da varivel chamada espectro da etapa IV, onde o resultado pode ser
exibido pela Figura 3.6:
F (w0 ) = 0,125 = ... = 0,125
F (w1 ) = 0,25 0,375i = ... = 0,450
F (w2 ) = 0,375 = ... = 0,375
F (w3 ) = 0,25 + 0,375i = ... = 0,450
Figura 3.6 Espectro de potncia
35
A seguir foi realizado o clculo da Inversa da Transformada Discreta de Fourier.
Atravs da varivel inversa da implementao da etapa V, o sinal retornado do
domnio da freqncia para o domnio do tempo conforme ilustrado pela Tabela 3.5.
Pela etapa VI da implementao da DFT, foi comparado o sinal original com a sua
transformada inversa, obtendo uma correlao de 100% de acerto.
.
Sinal original (x)
IDFT do sinal (inversa)
Tabela 3.5 Comparao entre o sinal original e sua inversa
3.6.2 - Segundo Procedimento

Para o prximo teste da implementao da DFT foi utilizado um sinal de voz de 2
segundos (88.200 x 1), conforme ilustrado na Figura 3.7.
Figura 3.7 - Sinal de voz de 2 segundos.
36
Dado a implementao da DFT do tpico 3.5, segue abaixo algumas etapas que sero
alteradas como ilustradas a seguir.
Etapa I Varivel que ir receber o sinal de voz que ser analisado:

o x = wavread(sinal_2_segundos);
Etapa II - Configurando as freqncias que sero adquiridas:

o w= 0:0.5:22050;
Aps o clculo dos coeficientes do sinal, foi produzido o espectro de potncia da voz
exibido pela Figura 3.8.
Figura 3.8 Espectro de potncia do sinal de voz de 2 segundos.
Para verificao da confiabilidade do espectro de potncia do sinal de voz, foi

calculada a Transformada Discreta Inversa de Fourier e comparado com o sinal original
(Tabela 3.6), obtendo uma correlao de 100%.
.
37
Sinal original (x)
IDFT do sinal (inversa)
Tabela 3.6 Correlao entre a voz de 2 segundo e sua inversa.
Com os resultados mostrados pela Tabela 3.6, est claro que a transformao do
sinal do domnio do tempo para o domnio da freqncia confivel j que o retorno desta
para tempo contnuo mostra sua confiabilidade nas informaes contidas no sinal.
Com esta aplicao torna-se possvel e principalmente confivel o desenvolvimento
do prottipo computacional proposto neste projeto que a utilizao das vozes prprocessadas pela DFT (espectro de potncia das vozes) que sero utilizadas no treinamento
de Redes Neurais Artificiais para o reconhecimento de padres emocionais na voz.
38
4 - RNAS NO RECONHECIMENTO DE STRESS

NA VOZ
4.1 - Aplicao
O objetivo desta aplicao verificar se, com o pr-processamento da voz humana
atravs da aplicao da Transformada Discreta de Fourier, o treinamento realizado pela
Rede Neural Artificial se torna mais otimizado, possibilitando um aprendizado maior pela
rede comparado com um treinamento sem este pr-processamento.
Em Matuck (2004) foi produzido um banco de dados contendo vozes de 14 pessoas,
todas geradas com a leitura de um texto pr-determinado. As vozes foram capturadas
atravs de um gravador de mo porttil, o qual foram observados vrios fatores externos
que estavam presentes junto voz como chiados, rudos, entre outros. Parte deste banco de
dados (10 vozes calmas e nervosas) foi treinado pela rede Perceptron de Mltiplas Camadas
e a segunda parte (4 vozes calmas e nervosas) foi utilizada no processo de generalizao da
rede o qual obteve um reconhecimento de 50,2% das vozes nunca vistas anteriormente pela
rede neural.
Para este projeto teve-se como interesse melhorar o modo de captura das vozes
calmas e nervosas bem como a melhorar a capacidade de aprendizado pela RNAs. Para tal,
foi formulado um banco de dados contendo falas de diversas pessoas em estado de estresse
e normal. Para aumentar a qualidade do banco de dados das vozes, foram capturadas vozes
da televiso, onde o nico som emitido por esta era a voz de uma pessoa (estressada ou
calma).
Todas as vozes foram gravadas da televiso para o computador no formato WAV
utilizando, para isto, o software Sound Forge 4.5 (Figura 4.1) considerado um dos melhores
editores de udio existentes no mercado atualmente. Neste programa foi realizado a edio
de todas as vozes para utilizao no reconhecimento pelas RNAs, onde o tempo de cada
voz foi estipulado para dez segundos (10s).
Figura 4.1 Software Sound Forge.
39
No total, foram capturadas 35 vozes calmas e 35 vozes nervosas, retiradas de diversos
programas como, novelas, filmes, jornais de notcias, programas esportivos, entre outros.
Abaixo so ilustradas duas vozes de cada tipo.
Banco de dados de vozes calmas e nervosas

Voz 1 Calma
Voz 1 Nervosa
Voz 2 calma
Voz 2 nervosa
Figura 4.2 - Ilustrao das vozes gravadas.

Este banco de dados de voz foram bases para a aplicao em dois procedimentos
especficos em Redes Neurais Artificiais envolvendo a rede Perceptron de Mltiplas
Camadas (MLP Multilayer Perceptron). A primeira aplicao tinha como objetivo o
treinamento das vozes pelas RNAs sem o pr-processamento destas pela Transformada
Discreta de Fourier, ou seja, no seu estado original de como foram capturadas e
digitalizadas.
J o segundo procedimento consistiu em pr-processar as vozes pela Transformada
Discreta de Fourier, transformando-as para o domnio da freqncia. Em seguida, estas
vozes foram tambm utilizadas no treinamento das RNAs pela rede Perceptron de
Mltiplas Camadas. Aps os dois procedimentos foi realizada uma comparao entre as
40
duas aplicaes para identificar qual a tcnica a mais qualificada para o problema em
questo.
4.2 - Treinamento das RNAs sem o pr-processamento da DFT
4.2.1 - Aplicao
As trinta e seis vozes gravadas foram divididas e utilizadas no treinamento e
generalizao da rede Perceptron de Mltiplas Camadas (Back-Propagation) conforme
mostra a tabela 4.1.
Vozes
Diagnsticos
Treinamento
1 a 25
Calmas e Nervosas
26 a 36
Calmas e Nervosas
Generalizao
Tabela 4.1 - Disposio das vozes utilizadas na rede MLP

Como a rede Perceptron de Mltiplas Camadas possui um aprendizado
supervisionado, h a necessidade de um professor externo auxiliando o seu treinamento, o
que chamamos de sada desejada para cada padro que fornecido a rede. A sada desejada
para essas vozes pode ser vista codificada na tabela 4.2 onde a voz s pode ser
diagnosticada como calma ou nervosa.
Diagnstico
Codificao
Voz calma
01
Voz nervosa
10
Tabela 4.2 Codificao dos diagnsticos de voz
Como cada vetor de voz possui uma dimenso muito grande (441000 x 1), este foi
divididos em blocos de mil dados (441 blocos com o tamanho: 1000 x 1 ) e assim
colocados seqencialmente cada bloco na camada de entrada da rede MLP. A Figura 4.3
ilustra esse processo.
41
V
O
Z
V
O
Z
V
O
Z
V
O
Z
25
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
N
E
R
V
O
S
A
X1
V
O
Z
X2
Matriz de voz
Tamanho: 441000 x 25
T
T
C
A
L
M
A
Tamanho: 441000 x 1
13 x 1
X1000
Camada de Sada
(Output Layer)
Camada Oculta
Camada de Entrada (Hidden Layer)
(Input Layer)
Figura 4.3 Ilustrao das etapas utilizadas no treinamento da rede MLP sem o prprocessamento da DFT
42
Para o treinamento da rede foi utilizada uma taxa de aprendizado (velocidade com
que a rede ir aprender) variada, onde a cada poca (perodo em que todos os exemplos de
voz so apresentados para a rede) a taxa era adaptada de acordo com o erro encontrado na
sada da rede. Se o erro da poca atual menor que o erro da poca anterior, a taxa de
aprendizado aumentada, caso contrrio diminudo.
A funo de ativao utilizada na rede foi funo logstica sigmoidal, com apenas
uma camada oculta (hidden layer) com 100 neurnios, ou seja, o nmero de neurnios
equivalente a apenas 10% da camada de entrada da rede, que possui 1000 entradas. A rede
MLP foi processada durante 13.754 pocas, ou seja, as 50 vozes (entre calmas e nervosas)
foram apresentadas 13.754 vezes com o objetivo de diminuir o erro quadrtico mdio da
rede adaptando os pesos sinpticos da melhor maneira possvel.
Neste treinamento o menor erro encontrado pela rede foi de 26.8855, ou seja, este
erro definido pela soma dos erros de todas as entradas da rede que o produto das 50
vozes por 441.000 (nmero de entrada de cada voz) dando um total de 22.050.000 dados. A
Figura 4,4 mostra o erro encontrado na rede em funo do nmero de pocas
Figura 4.4 - Erro encontrado no treinamento da rede MLP.

O prximo passo foi fazer a generalizao das dez vozes que foram utilizadas no
treinamento, para saber se a rede Perceptron de Mltiplas Camadas aprendeu os padres o
qual treinou. Na ativao da rede com as vozes que foram treinadas, observou um acerto de
96,15%. Cada voz utilizada no treinamento conseguiu determinada taxa de acerto
conforme mostra a tabela 4.3.
43
Voz
1
2
3
4
5
6
7
8
9
10
11
12
13
Diagnstico
Acerto
Calmo
95.01 %
Nervoso
20.41 %
Calmo
95.92 %
Nervoso
27.21 %
Calmo
95.01 %
Nervoso
35.37 %
Calmo
85.94 %
Nervoso
19.05 %
Calmo
97.73 %
Nervoso
90.48 %
Calmo
90.02 %
Nervoso
16.55 %
Calmo
63.95 %
Nervoso
88.89 %
Calmo
90.70 %
Nervoso
88.21 %
Calmo
92.97 %
Nervoso
92.52 %
Calmo
91.16 %
Nervoso
93.20 %
Calmo
91.16 %
Nervoso
36.73 %
Calmo
92.97 %
Nervoso
63.95 %
Calmo
93.20 %
Nervoso
75.06 %
Voz
14
15
16
17
18
19
20
21
22
23
24
25
Diagnstico
Acerto
Calmo
90.48 %
Nervoso
70.29 %
Calmo
96.60 %
Nervoso
94.78 %
Calmo
74.38 %
Nervoso
96.37 %
Calmo
92.97 %
Nervoso
50.57 %
Calmo
95.46 %
Nervoso
28.12 %
Calmo
90.25 %
Nervoso
56.92 %
Calmo
90.48 %
Nervoso
93.88 %
Calmo
92.74 %
Nervoso
20.41 %
Calmo
96.37 %
Nervoso
94.56 %
Calmo
96.60 %
Nervoso
93.65 %
Calmo
93.88 %
Nervoso
60.32 %
Calmo
96.37 %
Nervoso
24.49 %
Tabela 4.3 Porcentagem de acerto das vozes treinadas na rede MLP

Num segundo experimento, foram mostradas rede as 22 vozes (entre calmas e
nervosas) que no foram utilizadas no treinamento, com o intuito de verificar a
porcentagem de acerto com padres de vozes nunca vistos anteriormente pela rede MLP.
Verificou-se que na ativao a rede conseguiu obter um acerto de 56,56% com um erro
44
quadrtico mdio encontrado na generalizao de 18.365. A porcentagem de acerto dos
diagnsticos de cada voz pode ser visto na tabela 4.4 abaixo.
Voz
1
2
3
4
5
6
Diagnstico
Acerto
Calmo
86.39 %
Nervoso
83.90 %
Calmo
89.57 %
Nervoso
78.91 %
Calmo
85.71 %
Nervoso
91.16 %
Calmo
89.34 %
Nervoso
92.97 %
Calmo
83.90 %
Nervoso
95.01 %
Calmo
78.00 %
Nervoso
36.96 %
Voz
7
8
9
10
11
Diagnstico
Acerto
Calmo
56.91 %
Nervoso
69.84 %
Calmo
84.35 %
Nervoso
49.89 %
Calmo
72.79 %
Nervoso
51.32 %
Calmo
84.13 %
Nervoso
41.50 %
Calmo
87,98 %
Nervoso
75,96 %
Tabela 4.4 Porcentagem de acerto das vozes generalizadas na rede MLP
4.2.2 - Concluso
Atravs desta aplicao percebe-se que com a formulao de um banco de vozes de
maior qualidade quando comparadas com os resultados de Matuck (2004), a capacidade de
aprendizado dos padres de voz pela rede neural mais eficiente. O reconhecimento das
vozes calmas e nervosas tanto no treinamento como na generalizao pode ser vista na
Tabela 4.5 abaixo.
Rede Perceptron de Mltiplas Camadas - MLP

Treinamento da rede
Generalizao da rede
Vozes
calmas
91,29 %
Vozes
calmas
80,13 %
Vozes
nervosas
61,28 %
Vozes
nervosas
32,98 %
Tabela 4.5 Comparao entre vozes calmas e de estresse.
45
Torna-se necessrio ressaltar algumas desvantagens percebidas durante o processo de

treinamento da rede neural nesta aplicao. O tempo demandado para o treinamento de
cada poca foi estipulado em torno de 8 minutos, o que necessitou o treinamento da rede
durante um perodo de quatro meses direto (24 horas de
processamento por dia) para
chegar na poca 13.754. O ideal para este procedimento seria deixar a rede treinando por
um perodo de tempo maior para que a mesma pudesse aprender com uma maior eficincia
os padres de voz, o que no foi possvel devido ao tempo destinado para este projeto.
Outro fator foi memria do computador necessria para a realizao deste
treinamento no Matlab que tinha de ser maior do que 256 megabytes de RAM. Pois o
computador no aceitou uma rede com 100 neurnios na camada interna (hidden layer) e
com 441 blocos de mil dados na camada de entrada cada bloco, tornando-se necessrio um
computador com no mnimo 512 megabytes de RAM para realizar este procedimento.
4.3 - Treinamento das RNAs com o pr-processamento da DFT
4.3.1 - Pr-processamento da DFT nas vozes

Antes do treinamento das vozes pelas RNAs, todas as vozes foram transformadas do
domnio do tempo para o domnio da freqncia atravs da Transformada Discreta de
Fourier (algoritmo de implementao do tpico 3.5). Como cada voz tem a durao de dez
segundos com 441.000 pontos, tem-se que a taxa de amostragem para este sinal :
Taxa amostral do sinal de voz
Sinal 441.000
=
= 44.100
tempo
10
Em seguida foram determinados quais as freqncias que sero capturadas do sinal

que exatamente a metade da taxa de amostragem desta voz, ou seja, ir da freqncia zero
at a freqncia 22050. A seguir so ilustradas algumas etapas da implementao da DFT
do tpico 3.5 que so configuradas para este processo.
Etapa I Varivel que ir receber o sinal que ser analisado A voz 1 calma,
por exemplo:
o x = wavread(voz_01_calma.wav);
Etapa II - Configurando as freqncias que sero adquiridas Neste caso ir

da freqncia 0 at a 22050, indo de 0,5 em 0,5:
o
w= 0:0,5:22050;
46
Para exemplificar este procedimento, so ilustradas duas vozes (uma calma e uma
nervosa tabela 4.6) no seu estado original e no domnio da freqncia aps realizado o
clculo da Transformada Discreta de Fourier (etapa III da implementao do tpico 3.5) e
do seu espectro de potncia (etapa IV da implementao do tpico 3.5).
Voz Nervosa
Espectro de Potncia
Voz Original
Voz Calma
Tabela 4.6 Clculo do espectro de potncia das vozes.
Aps o clculo do espectro de potncia do sinal, foi realizado o procedimento de

clculo da Transformada Discreta Inversa de Fourier, exibida na tabela 4.7, atravs da etapa
V do tpico 3.5 para a verificao da correlao entre o sinal original e o sinal da IDFT.
Esta comparao mostrou que a correlao entre os dois sinais, para todas as vozes que
foram pr-processadas pela DFT, ficou em torno de 96% a 98%, o que considerado uma
aplicao com sucesso na rea de processamento digital de sinais.
47
Voz 1 Nervosa
Inversa do sinal
Voz Original
Voz 1 Calma
Tabela 4.7 Comparao entre a voz original e a inversa do sinal
Sabendo a confiabilidade no processo de pr-processamento das vozes pela

Transformada Discreta de Fourier atravs da tabela 4.7, o espectro de potncia produzido
de cada voz realmente representa as freqncias que esto presentes no sinal durante os 10
segundos.
Para melhorar os dados de voz, foi realizado um processo de filtragem do sinal. Este
procedimento consiste na eliminao das freqncias abaixo de 20% da freqncia mdia
do sinal. No caso da voz exibida na Figura 4.5 abaixo, a freqncia mdia encontrada foi de
0,923x10-3 exibida por uma linha vermelha.
48
Figura 4.5 Filtragem do sinal de voz.
Aps a realizao de todas as etapas do procedimento da Transformada Discreta de

Fourier, algumas etapas foram adicionadas para a realizao da filtragem do sinal que pode
ser vista a seguir:
Etapa VII Calculando a freqncia mdia do sinal:

o freq_media = sum(espectro) / size(espectro,2);
Etapa VIII Filtrando o sinal eliminando as freqncias abaixo de 20% da

freqncia mdia:
o sinal_filtrado = espectro .* (espectro >= 0.2 * freq_media);
Como para o treinamento da rede neural artificial os dados da camada de entrada da

rede so inseridas em blocos de mil pontos, teve-se como interesse a utilizao apenas das
freqncias nas faixas de 50 a 6549,5 Hertz, totalizando 13 blocos com mil pontos cada.
49
4.3.2 - Processamento das vozes pela RNA
Aps a realizao do pr-processamento das vozes pela DFT as trinta e seis vozes
foram divididas, igualmente a aplicao anterior, e utilizadas no treinamento e
generalizao da rede Perceptron de Mltiplas Camadas (Back-Propagation) conforme
mostra a tabela 4.8.
Vozes
Diagnsticos
Treinamento
1 a 25
Calmas e Nervosas
26 a 36
Calmas e Nervosas
Generalizao
Tabela 4.8 - Disposio das vozes pr-processadas utilizadas na rede MLP
Atravs da Tabela 4.9 abaixo so ilustradas as respostas desejadas para cada padro
de voz que fornecida na camada de entrada da rede Perceptron de Mltiplas Camadas.
Diagnstico
Codificao
Voz calma
01
Voz nervosa
10
Tabela 4.9 Codificao dos diagnsticos das vozes pr-processadas
Tambm para este procedimento cada vetor de voz (13.000 x 1) foi dividido em
blocos de mil (13 blocos com o tamanho: 1000 x 1 ) e inserido na camada de entrada da
rede MLP. A seguir so ilustradas todas as etapas que sero utilizadas para o
reconhecimento de nveis de stress na voz humana com vozes pr-processadas pela
Transformada Discreta de Fourier.
50
Matriz de voz com tamanho: 441000 x 25
Tamanho: 441000 x 1
V
O
Z
V
O
Z
V
O
Z
V
O
Z
V
O
Z
25
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
N
E
R
V
O
S
A
C
A
L
M
A
Pr-processamento
DFT
FILTRAGEM DO SINAL
X1
V
O
Z
X2
F
I
L
T
R
A
D
A
T
T
13 x 1
X1000
Camada de Sada
(Output Layer)
Tamanho: 13000 x 1
Camada Oculta
Camada de Entrada (Hidden Layer)
(Input Layer)
51
Figura 4.6 Ilustrao das Etapas utilizadas no treinamento da rede MLP com o prprocessamento da DFT
Para o treinamento da rede, como na aplicao anterior, foi utilizada uma taxa de
aprendizado variada, onde a cada poca a taxa era adaptada de acordo com o erro
encontrado na sada da rede. A funo logstica utilizada na rede foi funo de ativao
sigmoidal, com apenas uma camada oculta (hidden layer) com 100 neurnios.
A rede MLP foi processada durante 56.622 pocas, ou seja, as 50 vozes (entre calmas
e nervosas) foram apresentadas 56.622 vezes com o objetivo de diminuir o erro quadrtico
mdio da rede adaptando os pesos sinpticos da melhor maneira possvel. Neste
experimento o menor erro encontrado pela rede foi de 2.128, ou seja, este erro a soma dos
erros de todas as entradas que so apresentadas rede. A Figura 4.7 ilustra a trajetria do
erro em funo do nmero de pocas no processo de treinamento.
Figura 4.7 - Erro encontrado no treinamento da rede MLP.
O procedimento seguinte consistiu em fazer a generalizao das dez vozes que foram
utilizadas no treinamento, para saber se a rede Perceptron de Mltiplas Camadas aprendeu
os padres o qual treinou. Na ativao (generalizao) da rede com as vozes que foram
treinadas, observou um acerto de 90% com um erro quadrtico mdio de 0.04. Cada voz
52
utilizada no treinamento conseguiu determinada taxa de acerto conforme mostra a tabela
4.10, com destaque para algumas vozes nervosas que obtiveram um acerto de 100%.
Voz
1
2
3
4
5
6
7
8
9
10
11
12
13
Diagnstico
Acerto
Calmo
92.31 %
Nervoso
84.62 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
76.92 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
53.85 %
Calmo
84.62 %
Nervoso
69.23 %
Voz
14
15
16
17
18
19
20
21
22
23
24
25
Diagnstico
Acerto
Calmo
92.31 %
Nervoso
84.62 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
76.92 %
Nervoso
92.31 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
84.62 %
Nervoso
76.92 %
Calmo
92.31 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
100.00 %
Tabela 4.10 Porcentagem de acerto das vozes treinadas pela rede MLP.
Num segundo experimento, foram mostradas rede as vinte e duas vozes (entre
calmas e nervosas) que no foram utilizadas no treinamento, com o intuito de verificar a
53
porcentagem de acerto com padres de vozes nunca vistos anteriormente pela rede MLP.
Verificou-se que na ativao a rede conseguiu obter um acerto de 71,33% com um erro
quadrtico mdio encontrado na generalizao de 0.266461. A porcentagem de acerto dos
diagnsticos de cada voz pode ser visto na tabela 4.11 abaixo.
Voz
1
2
3
4
5
Diagnstico
Acerto
Calmo
69.23 %
Nervoso
69.23 %
Calmo
92.31 %
Nervoso
100.00 %
Calmo
38.46 %
Nervoso
76.92 %
Calmo
76.92 %
Nervoso
84.62 %
Calmo
76.92 %
Nervoso
84.62 %
Calmo
61.54 %
Nervoso
84.62 %
Voz
7
8
9
10
11
Diagnstico
Acerto
Calmo
15.38 %
Nervoso
61.54 %
Calmo
61.54 %
Nervoso
92.31 %
Calmo
84.62 %
Nervoso
100.00 %
Calmo
69.23 %
Nervoso
69.23 %
Calmo
76.92 %
Nervoso
61.54 %
Tabela 4.11 Porcentagem de acerto das vozes generalizadas pela rede MLP.
4.3.3 - Concluso
Com a realizao deste procedimento concluiu-se que, com o pr-processamento

das vozes pela aplicao da Transformada Discreta de Fourier, o treinamento destas pela
RNA foi muito mais promissor do que com o as vozes em seu estado original. O tempo
demandado para o treinamento da rede MLP foi muito menor, onde se verificou que a rede
obteve um reconhecimento melhor para as vozes nervosas do que para as calmas com
destaque para as duas vozes (2 e 9) nervosas demarcadas na Tabela 4.11 que obtiveram
100% de acerto pela rede neural.O acerto no diagnstico de cada voz tanto no treinamento
quanto na generalizao da rede neural pode ser visualizada na tabela 4.12.
Rede Neural MLP com pr-processamento pela DFT
Treinamento da rede
Generalizao da rede
Vozes
calmas
89,95 %
Vozes
calmas
67,83 %
Vozes
nervosas
90,15 %
Vozes
nervosas
74,83 %
54
Tabela 4.12 Comparao entre vozes pr-processadas calmas e de estresse.
A desvantagem decorrida desta aplicao foi o tempo de processamento das vozes

pela Transformada Discreta de Fourier, que durou cerca de 3 horas para cada voz. Deve-se
ressaltar que esta implementao da DFT foi realizada apenas com o intuito de aprendizado
e de mostrar que o pr-processamento da voz melhora o aprendizado de padres pela rede
neural.
Treinamento da RNA
COM a DFT
SEM a DFT
Durao de cada poca
15 segundos
8 minutos
Tempo de treinamento (pocas)
56.622 mil
13.754 mil
Durao total do treinamento
Cerca de 3 semanas
Cerca de 4 meses
Erro encontrado no treinamento

da rede MLP
2,128
26,8855
Acerto no Treinamento das

vozes calmas e nervosas
90 %
96,15 %
Acerto das vozes calmas
89,95 %
91.29 %
Acerto das vozes nervosas
90,15 %
61,07 %
Acerto na Generalizao das

vozes calmas e nervosas
71,33 %
56,56 %
Acerto das vozes calmas
67,83 %
80,13 %
Acerto das vozes nervosas
74,83 %
32,98 %
Figura 4.13 - Comparao entre os dois treinamentos realizados
Na tabela 4.13 acima, foi realizada uma comparao entre o aprendizado da RNA
com o pr-processamento da voz pela DFT e o aprendizado sem este procedimento. Tornase claro ento que para a realizao de diagnsticos de voz numa rede neural artificial o
pr-processamento do sinal de voz para o domnio da freqncia muito mais eficiente,
diminuindo consideravelmente o tempo de processamento e com um reconhecimento muito
maior por parte das Redes Neurais Artificiais.
55
5 - CONCLUSES E RECOMENDAES
FINAIS
O principal objetivo deste trabalho foi mostrar que o pr-processamento do sinal de
voz pode propiciar uma melhora no reconhecimento de padres de voz pelas Redes Neurais
Artificiais. Para isto foi realizado um breve estudo sobre os conceitos de processamento de
sinais e das caractersticas da voz humana.
O estudo realizado sobre tcnicas de Fourier (Transformada Discreta de Fourier)
propiciou o conhecimento e a implementao de alguns exemplos prticos para demonstrar
a confiabilidade na transformao de um sinal no domnio do tempo para o domnio da
freqncia. O processamento digital dos sinais de voz realizado no domnio da
freqncia.
A realizao do pr-processamento pela Transformada Discreta de Fourier mostrou
que uma capacidade melhor de aprendizado de padres de vozes por uma rede neural do
tipo Perceptron de Mltiplas Camadas, obtendo-se um desempenho de mais promissor
(73,07%) do que o aprendizado utilizando os sinais de voz no estado original (56,5% domnio do tempo). Outro fator relevante foi o tempo de treinamento da RNA realizado
com as vozes pr-processadas que correspondeu cerca de 97% mais rpido do que o
treinamento sem o pr-processamento pela DFT.
Acredita-se na possibilidade de que, com um banco de dados com um nmero maior de
vozes pr-processadas pela Transformada de Fourier e um tempo maior destinado ao
treinamento da RNAs, os diagnsticos de ndices de stress humano podem atingir ndices
de confiabilidade maiores, permitindo que se faa uma avaliao eficiente de pessoas que
se encontram em estado de isolamento social.
Os resultados apresentados neste trabalho poderiam ser melhores. Mas muito tempo
teve de ser dedicado ao estudo das tcnicas de Transformada de Fourier, em detrimento do
treinamento dos padres de vozes.
Para a continuidade deste trabalho, tem-se como sugesto a utilizao de outras
tcnicas em conjunto com a de processamento de sinais de voz, como por exemplo, a
captura de freqncias fundamentais caractersticas de uma voz em seu estado calmo ou de
estresse. Outros mecanismos podem ser utilizados tambm para melhorar a identificao de
uma pessoa em estado de isolamento social como, por exemplo, a utilizao de testes
psicolgicos especficos na identificao de uma pessoa em confinamento, a presso com
que uma pessoa responde um questionrio atravs de um teclado, a expresso facial,
dispositivo de medio de batimentos cardacos, da sudorese humana, impulsos eltricos
emitidos pelo crebro entre outros.
56
6 - EFERNCIAS BIBLIOGRFICAS
[HAY-94]
HAYKIN, Simon. Neural Networks: A Comprehensive Foundation
[FAU-94]
FAUSET, Laurene. Fundamentals of Neural Networks: Architectures,

Algorithms, and Applications.
[BRI-74]
BRIGHAM, R., 1974, The Fast Fourier Transform: Time sequence Analysis
in Geophysics.
[KOV-96]
KOVCS, Zsolt L. Redes Neurais Artificiais: Fundamentos e Aplicaes.
[GUE-77]
GUEDES, Djairo de Fiquereido. Anlise de Fourier e Equaes Diferenciais

Parciais
[ALB-XX]
ALBERTO, Luiz Vieira Dias, Marcio Magini. Introduo Anlise de

Dados.
[SED-95]
SEDGEWICK, Robert. Algorithms in C.

Princeton University - Cap.41 - The Fast Fourier Transform p.583.
[BOY-96]
BOYCE, Willian E. e Richard C. DiPrima. Equaes Diferenciais

Elementares e Problemas de Valores de Contorno.
[GOL-97]
GOLD, Ben. e Nelson Morgan. Speech and Audio Signal Processing:

Processing and Perception of speech and music.
[ALB-67]
ALBERTO, Carlos Loprete. Introduo a Oratria Moderna: Voz Humana.

Processamento Sinais

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Processamento Sinais

Enviado por

Direitos autorais:

Formatos disponíveis

INPE-12997-PRE/8274

PROCESSAMENTO DE SINAIS DE VOZ PADRES

Gustavo Ravanhani Matuck

Relatrio Final de Projeto de Iniciao Cientfica (PIBIC/CNPq/INPE), orientado pelo

RELATRIO FINAL DE PROJETO DE INICIAO CIENTFICA

PROCESSAMENTO DE SINAIS DE VOZ NA IDENTIFICAO DE

Gustavo Ravanhani Matuck (Bolsista PIBIC/CNPq)

Dr. Jos Demisio Simes da Silva (LAC/INPE, Orientador)

3 - PROCESSAMENTO DIGITAL DE SINAL ......................................................................................... 13

Em trabalho anterior (Matuck, 2004), alm do estudo conduzido abordando tcnicas

1.1 - Apresentao do tema

1.2.1 - Objetivos Gerais

1.2.2 - Objetivos Especficos

Adquirir conhecimentos sobre Transformada de Fourier (Fourier Transform);

Implementao de alguns modelos de Fourier em aplicaes existentes atualmente

Utilizao de Redes Neurais Artificiais na caracterizao de caractersticas

Complementao de conhecimento sobre Redes Neurais Artificiais;

Implementao do prottipo bsico.

2.2 - Formao da Voz

Figura 2.1 Anatomia da garganta.

Tabela 2.1 Cordas vocais humana.

2.3 - Propriedades da Voz

Timbre - o matiz pessoal da voz. um fenmeno complexo e est determinado

Quantidade - a durao do som. Segundo a quantidade, os sons podem ser

Intensidade - a maior ou menor fora com que se produz a voz. H vozes

Em fontica denomina-se sotaque ao conjunto dos elementos anteriores, cuja

Respirao - Exerce um papel especial na fala. O flego e o controle

Fonao - Se refere qualidade e s caractersticas da voz produzida pela

Ressonncia - a modificao seletiva da inflexo na voz quando a corrente de

Prosdia - Refere-se qualidade normal da fala, incluindo velocidade,

Finalmente, os sons tm uma escala diferente de percepo ou alcance. Existem sons

2.4 - Tipos de leses na Voz

Os ndulos (Figura 2.2) resultam de: fatores anatmicos predisponentes (fendas

Figura 2.2 Ndulo Sintoma provocado na garganta.

Os plipos (Figura 2.3) so inflamaes decorrentes de traumas em camadas mais

Figura 2.3 Plipos na laringe.

Edemas das cordas vocais

Os edemas relacionam-se com o uso da voz, sendo. Normalmente so localizados e

Figura 2.4 Edema provocado na garganta.

Os fatores infecciosos, incluindo as sinusites, diminuem a ressonncia e alteram a

A laringite a inflamao da laringe (onde esto as cordas vocais) e das reas

Figura 2.5 Garganta com cisto.

2.5 - Manuteno da Voz

Beber de sete a oito copos de gua por dia;

Buscar atendimento especializado se a voz for o seu principal instrumento de

Manter uma higiene bucal;

Pastilhas, sprays ou medicamentos, s indicados por Mdicos;

Evitar auto-medicao e solues caseiras (gengibre, rom, etc.);

Fumo: Ao tragar, a fumaa agride todo o sistema respiratrio e, tambm, as pregas

Drogas: O uso de drogas tem ao direta sobre a laringe. A maconha

Evitar bebidas alcolicas, pois o lcool tem um efeito anestsico, provocando a

Evitar a competio sonora - Falar com um rudo de fundo leva a pessoa

Evitar mudanas bruscas de temperatura interna (ingesto sucessiva de alimentos

Manter uma postura relaxada ao falar ou cantar.

3 - PROCESSAMENTO DIGITAL DE SINAL

O Universo Matemtico, onde so formuladas descries abstratas desses objetos.

O Universo de Implementao um conjunto de regras especficas implementao

3.4 - Transformada de Fourier

Figura 3.2 - Jean Baptiste Joseph Fourier (1768 - 1830).

Conduo de calor o processo de transferncia de energia trmica de uma regio mais

Representao no domnio do tempo - onde a amplitude do sinal

Representao no domnio da freqncia - onde a funo que representa o

Diversos estudos vm sendo feitos na rea de processamento digital de sinais com o