Você está na página 1de 14

Análise Acústica da Produção Vocal

Lílian Neto Aguiar-Ricz


Fonoaudióloga, Professora Doutora do Departamento de Oftalmolgia, Otorrinolaringologia
e Cirurgia de Cabeça e Pescoço da Faculdade de Medicina de Ribeirão Preto da
Universidade de São Paulo.
Contato:
Departamento de Oftalmologia, otorrinolaringologia e Cirurgia de Cabeça e Pescoço.
Av. Bandeirantes, 3900. Monte Alegre. CEP: 14048-900. Ribeirão Preto-SP.
Fone: (16)3602-2428 ou (16)3602-2863
Email: liricz@fmrp.usp.br

A avaliação acústica clínica, introduzida na década de 1990, na


realidade brasileira, tem sido cada vez mais presente na realidade
fonoaudiológica. De modo simplificado, a avaliação acústica quantifica o sinal
sonoro, o que nos leva em direção a uma análise objetiva da voz. Apesar do
recente uso da avaliação acústica na prática clínica, falta-nos ainda a
segurança básica que somente o desenvolvimento e a aplicação dos protocolos
específicos, o estabelecimento de dados normativos para o português
brasileiro e a convalidação dos resultados por outros pesquisadores poderão
nos trazer (Behlau, 1997).
Considerando exclusivamente a análise acústica com fins clínicos, os
ganhos mais imediatos são (Behlau, 1997):
 Oferecer maior compreensão acústica do output
 Prover dados normativos para diferentes realidades vocais
 Oferecer uma documentação suficiente para traçar a linha de base da
voz de um indivíduo
 Monitorizar a eficácia do tratamento e comparar resultados vocais de
diferentes procedimentos terapêuticos
1
 Acompanhar o desenvolvimento de uma voz profissional ao longo de
um período
 Servir como um instrumento de detecção precoce de problemas vocais
laríngeos.
Apesar da inquestionável contribuição, quando temos dúvidas sobre os
dados acústicos utilizados, ou ainda quando todos os outros métodos de
avaliação falham, confiamos no poder de análise de nosso ouvido, que nos dá
não somente os dados anatomofisiológicos importantes, mas também provê
informações sobre o grau de desagradabilidade da voz que está sendo
avaliada e da limitação social de sua disfonia (Kreiman, Gerrat, Precoda e
Berke, 1992).
A avaliação acústica realiza mensurações do sinal vocal que pode ser
mensurado através do armazenamento direto no computador ou colhido
previamente em um sistema de registro (gravador de rolo, gravador de fita
cassete, sistema de registro vocal), para análise posterior. Vozes gravadas de
modo incorreto não são passíveis de análise acústica e, portanto, devemos
prestar atenção em uma série de cuidados. Além disso, a seleção dos testes s
serem utilizadas é de grande importância, para que se possa realmente
compreender a utilidade clínica das medidas acústicas e não se fique perdido
em um mundo de números.
Os principais cuidados e observações estão agrupados em quatro
categorias: 1. quanto ás condições de registro; 2. quanto aos protocolos de
gravação; 3. quanto aos sistemas de gravação e 4. quanto à análise qualitativa
do sinal sonoro.
Há diversos parâmetros vocais acústicos que podem ser obtidos
facilmente através de um programa ou por sistema de equipamentos
específicos para essa função.Para uso clínico, os parâmetros mais importantes

2
são a freqüência fundamental e seus índices de perturbação, as medidas de
ruído, o perfil de extensão vocal e a espectrografia acústica.Contudo,
dependendo do tipo de paciente, da queixa e da suspeita etiológica, deve-se
selecionar os parâmetros que serão avaliados, considerando-se as diferentes
possibilidades de medidas.
Traçado de forma de Onda
Considerando como representações acústicas básicas, permitem a
compreensão de que onda de fala é complexa, resultado da somatória
(sobreposição) de várias ondas sinusoidais, refletindo o deslocamento de
partículas que ocorreu no trato vocal. São representados em um gráfico de
duas dimensões, no qual a duração aparece no eixo horizontal, expressa em
segundos ou milissegundos (ms), e a intensidade da (ou amplitude) no eixo
vertical, expressa em Db ou volts. Os pulsos representados guardam relação
com os ciclos de atividades das pregas vocais, possibilitando a análise de
fenômenos relativos à periodicidade e simetria. A observação do traçado de
um ciclo para outro fornece informações sobre a correspondência com a
freqüência fundamental, no que se refere ao intervalo de tempo entre um ciclo
e outro de atividade de pregas vocais em termos do intervalo e
consequentemente, da freqüência e da amplitude, referindo-se respectivamente
às medidas acústicas de perturbação em freqüência (jitter) e em intensidade
(shimmer).
Epectrogramas
São gráficos tridimensionais da representação sonora, que dispõem no
eixo horizontal e duração, expressa em seg o milissegundos, e no vertical a
freqüência, expressa em Hz ou Khz; a intensidade, geralmente expressa em
dB, é representada pela variação das cores ou totalidade. São divididos em
duas grandes modalidades de acordo com o processo de filtragem de

3
freqüências e, consequentemente, do procedimento computacional usado para
gerá-los:
 banda estreita: procedimento “fast fourier
transform”(FFT).Apresentando melhor definição de freqüência, fornece
informações referentes aos harmônicos da emissão, os quais aparecem
representados como linhas horizontais igualmente espaçadas, em
virtude do intervalo regular de freqüência, existente em um sinal com
predomínio de periodicidade.A primeira linha horizontal do gráfico
corresponde à freqüência do primeira harmônico e também é referida
como a freqüência fundamental. A definição da estrutura harmônica
visível nessa representação guarda relação com a qualidade vocal.
Algumas descrições relacionam a fisiologia e os aspectos perceptivos
auditivos vinculados às devidas representações espectográficas.Dessa
forma, a irregularidade (ruído) substituindo o registro de regularidades
(harmônicos). O escape aéreo entre as pregas vocais registra-se
auditivamente como soprosidade, definida acusticamente pela perda da
definição dos harmônicos e da alta freqüência e da diminuição dos
componentes de energia harmônica na porção baixa do
espectrograma.A escassa condição vibratória imposta pela rigidez das
pregas vocais é representada acusticamente pela diminuição ou ausência
da estrutura harmônica da emissão, características acústicas da aspereza.
A diplofonia aparece como registro de dois tons alternados em curtos
intervalos de tempo, acarretando identificação de subarmônicos em
alguns trechos dos espectogramas de banda estreita.
 Banda larga: procedimento “linear preditive code” (LPC). Apresentando
melhor definição de tempo, fornece informações referentes aos
componentes de energia presentes na emissão, os quais aparecem

4
representados como barras verticais igualmente espaçadas em razão do
intervalo regular de tempo, existente em um sinal com predomínio de
periodicidade. Não define necessariamente cada harmônico como a
representação anterior, porém indica sua presença pela regularidade no
intervalo entre as estrias verticais. Apresenta áreas de maior
concentração de energia (faixas de freqüência), tidas como formantes da
emissão (as ressonâncias do trato vocal na descrição do filtro realizada
no modelo fonte-filtro). Os formantes são referidos como F1, F2, F3,
correspondendo respectivamente a primeiro, segundo e terceiro
formantes, e assim sucessivamente. Nessa descrição, foi levantada a
hipótese de F4 estar relacionado à atividade de laringe.Essas
representações também permitem traçar correspondências com diversos
aspectos da qualidade vocal. No caso da rouquidão, destaca-se o
predomínio de componentes de energia aperiódica (irregularidades), de
forma que pode ser identificado um sinal de ruído, mais evidente na
região dos formantes, substituindo a energia harmônica. Permite ainda,
inferência sobre a postura do trato vocal, incluindo, portanto, a porção
supraglótica da laringe, como é o caso da atividade das pregas
vestibulares. O resultado é um amortecimento do sinal, representado
pela menor concentração de energia nas áreas de coloração azul, as
quais normalmente apareceriam em cores vermelha ou amarela ,
denotando maior concentração de energiaOutro exemplo é a
características vibratórias de pregas ariepiglóticas dentre outros vários
ajustes supraglóticos possíveis.
Espectros
São categorias de representação bidimensional da emissão,
representando a freqüência no eixo horizontal e a intensidade no vertical.

5
Podem igualmente ser gerados por diferentes recursos computacionais,
oferecendo novamente representações distintas, como os descritos a seguir.
 Espectros gerados por FFT- conhecidos como power spectrum ou
traçados FFT, representam os picos de concentração de energia em
faixas estreitas de freqüência, correspondendo aos picos dos
harmônicos. Pode-se observa a regularidade do formato e distribuição
dos picos dos harmônicos. No caos das patologias, especialmente de
pregas vocais, revelam a presença de componentes de irregularidades na
estrutura harmônica e presença de subarmônicos. Oferece uma leitura
em gráfico de duas dimensões do que foi representado no espectograma
de banda estreita, eliminando-se a dimensão temporal.
 Espectros gerados por LPC- conhecidos como envelopes espectrais ou
traçados LPC, ou ainda curvas de respostas de freqüência LPC,
representam os picos de concentração de energia em faixas largas de
freqüências correspondentes aos picos dos formantes da emissão.A
distribuição de picos espectrais guarda relação conformação do trato
vocal e portanto,com alguns aspectos de qualidade vocal. Alguns
índices de atividade laríngea também podem ser detectados, como a
soprosidade, com o achatamento dos picos espectrais. Podem ainda ser
destacados ajustes relacionados ao formante do cantor, no qual há um
agrupamento de F3 e F4 e acentuado ganho de amplitude nessa faixa do
sinal. Oferece uma leitura em gráfico de duas dimensões do que foi
representado no espectrograma de banda larga, eliminando-se a
dimensão do tempo.

Freqüência Fundamental

6
A freqüência fundamental (f0) de um indivíduo é o resultado natural do
comprimento das pregas vocais. É o reflexo das características biodinâmica
das pregas vocais e de sua integração com a pressão glótica.A freqüência
fundamental de uma dada emisão é determinada fisiologicamente pelo número
de ciclos que as pregas vocais fazem em um segundo, ou seja, pelo número de
ciclos glóticos que se repetem. Portanto, qualquer ajuste que reduza os ciclos
glóticos vai reduzir também a freqüência fundamental.
Há vários mecanismos envolvidos na modificação da freqüência vocal,
sendo os principais: comprimento, massa e tensão à vibração.Se pensarmos
nas forças mioelásticas, quanto mais alongarmos a prega vocal, os ciclos
glóticos se realizarão mais rapidamente e mais aguda será a freqüência
produzida. Por outro lado, pensando na massa, quanto maior a massa que deve
ser colocada em vibração, mais lento fica o ciclo e, portanto, consegue-se
fazer um menor número de ciclos por segundo, provocando um decréscimo na
freqüência (mais grave). Além disso, a espessura da prega vocal correlaciona-
se melhor com a freqüência fundamental que o comprimento da
mesma.Finalmente, quanto maior a tensão, também mais rápidos serão os
ciclos e mais aguda a freqüência gerada.
Portanto, os fatores de determinação da freqüência fundamental e sua
variação em extensão vocal são: o comprimento natural da prega vocal, o
alongamento, a massa em vibração e a tensão envolvida.
A f0 é enormemente afetada pelo sexo e idade, com uma distribuição
média de 80 a 250 Hz, nos adultos jovens, sendo que nos homens a faixa de
freqüência vai de 80 a 150 Hz e de 150 a 250 Hz nas mulheres. Crianças
apresentam valores acima de 250 Hz, atingindo 400 Hz nos bebês, que
apresentam uma extensão ampla, de 100 a 1200 Hz, porém, sem controle
volitivo dessa variabilidade de emissão. Para o português brasileiro falado em

7
São Paulo, os valores da freqüência fundamental para homens, mulheres e
crianças de 8 a 11 anos são, respectivamente, 113 Hz, 205 Hz e 236 Hz
(Behlau, 1984; Behlau, Tosi e Pontes, 1985)
Sugestões na Obtenção das Medidas de Freqüência Fundamental:
a) utilizar pelo menos um segundo de emissão para análise (mínimo de
100 ciclos)
b) usar vogais sustentadas e lembrar que a freqüência é vogal dependente,
existe um valor intrínseco a cada vogal que deve ser especificado no
resultado apresentado.
c) Valores de freqüência fundamental são usualmente expresso em Hz ou
ciclos por segundo, e não em notas musicais.

Freqüência Fundamental nas disfonias


a) muitas disfonias apresentam alterações significativas na f 0 como as
disfonias de muda vocal, que apresentam valor elevado, e as lesões de
massa, particularmente os edemas difusos, que decrescem o seu valor.
b) a f0 parece não mudar significativamente como resultado d terapia de
voz, com algumas exceções.
c) vozes com crepitação e roucas tendem a apresentam f0 aguda
d) situações de extrema tensão psicológica podem produzir vozes
excepcionalmente agudas.

Índice de Perturbação da Freqüência Fundamental


A freqüência fundamental varia de ciclo a ciclo durante a emissão de
uma vogal sustentada, o que traduz o fato das ondas da emissão do som
apresentarem pequena diferenciação quantitativa entre si. O ciclo glótico,
também chamado de ciclo vibratório ou fonatório, é um ciclo da vibração das

8
PPVV, do momento em que a glote começa a se abrir. Assim sendo, há nítida
evidência da variabilidade dos consecutivos ciclos, obtida através da análise
das ondas acústicas, como foi demonstrado nos trabalhos pioneiros de Von
Leden, Timecke e Moore (1958) e Lieberman (1961). O comprimento e a
amplitude dos ciclos vibratórios adjacentes são similares, mas a cuidadosa
observação demonstra pequenas variações nas suas formas, freqüência e
amplitude, tornando esses parâmetros raramente semelhante. Essa
variabilidade é um fato para a emissão de um som laríngeo e, portanto, é mais
adequado falar-se em ondas quase periódicas do que periódicas, para emissão
das vogais. Essa quase periodicidade depende do falante, de acordo com seu
treino e grau de controle da voz, o que indiretamente reflete as condições
neurológicas do indivíduo.
Há vários índices de perturbação da freqüência fundamental que podem
ser divididos de acordo com a variação no tempo, em duas categorias, a saber:
curto prazo e longo prazo.
Os índices de perturbação a curto prazo refletem fenômenos da
comparação ciclo a ciclo e desta forma, apresentam grande importância
clínica. As perturbações a curto prazo processam-se em dois sentidos; são
eles: jitter e shimmer.
O jitter indica a variabilidade da freqüência fundamental a curto prazo,
medida entre ciclos vizinhos. Expressa o quanto um período é diferente do
anterior ou de seu sucessor imediato, não levando em conta as alterações
voluntárias da freqüência.
Os valores de jitter em indivíduos normais podem representar uma
pequena variação na massa ou na tensão das pregas vocais, na distribuição do
muco sobre as mesmas, na simetria das estruturas ou ainda na atividade
muscular ou neural envolvida (Baken, 1987). Entretanto, quando as lesões

9
afetam as pregas vocais, suas vibra,coes mostram um aumento na
periodicidade, o que é refletido em valores aumentados de jitter. Assim,
embora o jitter não defina a etiologia da disfonia, sua magnitude reflete a
extensão da alteração encontrada.
Jitter nas Disfonias (alteração na vibração)
O Jitter altera-se principalmente com a falta de controle da vibração das
pregas vocais, como ocorre nas disfonias neurológicas. O jitter correlaciona-se
com a aspereza.
Shimmer-Perturbação de amplitude a curto prazo
De modo análogo à perturbação da freqüência, o shimmer indica a
variabilidade da amplitude da onda sonora a curto prazo, uma medida de
estabilidade fonatória. O shimmer representa as alterações irregulares na
amplitude dos ciclos glóticos, de um ciclo a outro. Se o sistema fonatório
fosse absolutamente estável, o shimmer seria zero. Como o jitter, o shimmer
tende a ser geralmente elevado nos distúrbios laríngeos, apresentando também
maiores valores nas freqüências graves e baixa intensidade.
O shimmer oferece-se uma percepção indireta do ruído na produção
vocal, e seus valores crescem quanto maior a quantidade de ruído numa
emissão, como ocorre na soprosidade.
Sugestões na Obtenção das Medidas de Shimmer(fechamento
glótico=shimmer)
a) o shimmer deve ser medido pela análise de vogais sustentadas, numa
única freqüência, sem variação musical ou de intensidade, emitidas de
modo habitual, eliminando-se o início e o fim da emissão, por suas
inerentes características irregulares.
b) Há variações intrínsecas de shimmer a cada vogal
c) O valor do shimmer sofre interferência do sexo e idade do falante

10
d) O shimmer não indica as grande variações da amplitude, ou seja, os
saltos de intensidade durante uma emissão, mas, sim, a pequena
variabilidade entre os sucessivos ciclos glóticos
e) Existe grandes variação nos métodos de extração do shimmer, por isso o
método utilizado deve ser especificado.
Shimmer nas Disfonias
a) o shimmer altera-se principalmente nas situações de redução da
resistência glótica, como ocorre nas paralisias de pregas vocais;
evidentemente fendas glóticas também produzem valores de shimmer
aumentados
b) o shimmer também sealtera com a presença de lesões de massa nas
pregas vocais, ou mesmo apenas de um edema difuso, como na
síndrome de tensão pré-menstrual.
c) O shimmer correlaciona-se com a presença de ruídos à emissão
(rouquidão) e com soprosidade
d) Os valores de shimmer parecem correlacionar-se menos diretamente
com as diferentes disfonias que os valores de jitter.
Tremor- Perturbação de Freqüência a longo prazo (disfonia neurológica)
Define-se tremor como uma modulação de um parâmetro ciclico. O
tremor vocal, particularmente, é uma modulação da ordem de 1 a 20 Hz, sendo
que se sugere como padrão de normalidade, freqüência e amplitude do tremor
ao redor de 1 Hz. O tremor neurológico, presente em alguns pacientes, pode
variar amplamente, ocorrendo de modo lento, ao redor de 1 a 2 Hz, chamado
de vow, geralmente associado a um tremor rápido de 10 Hz, em uma oscilação
complexa , nos pacientes com esclerose múltipla, já na doença de parkinson
observamos um tremor médio, com 3 a 7Hz; assim como no tremor essencial,
entre 5 e 7 Hz; por sua vez, na esclerose lateral amiotrófica, ocorre um tremor

11
rápido, entre 10 e 20 Hz, chamado de flutter. O estudo do tipo do tremor
parece ser bastante promissor nesta área das disfonias neurológicas.
Vibrato-Perturbação de Freqüência a Longo Prazo
O vibrato é uma modulação regular da freqüência fundamental usada
pelos cantores clássicos (e alguns populares). É um tipo de tremor fisiológico
ordenado, que faz com que a f0 varie para cima e para baixo, numa pequena
extensão, algumas vezes por segundo. Vibrato é um uso estético da modulação
da f0, oferecendo à voz uma riqueza expressiva, com grande poder emocional.
O vibrato não é um fenômeno bem definido e tem sido interpretado de
diversas formas: como uma oscilação da musculatura cricotireóidea, como
uma modulação em contração alternada da musculatura laríngea e
diafragmática, ou ainda como tremor da musculatura respiratória e do trato
vocal. O vibrato geralmente reduz nas fracas intensidades e aumente nos sons
fortes.
Medidas de ruído
Sob o nome de ruídos existem diferentes índices acústicos que analisam
os componentes aperiódicos do sinal sonoro. A importância dessas medidas
reside no fato de que ruído acústico parece ser um excelente correlato do que
nosso ouvido considera como disfonia, particularmente quanto à chamada
rugosidade (roughness no inglês e rugosité no francês, para diferenciar do
termo corriqueiro rouquidão) que se aproxima mais do conceito de voz áspera
que temos no português. De modo similar aos comentários feitos quando das
explicações sobre jitter e shimmer, as vozes normais apresentam uma certa
quantidade de ruído esperada, relacionada às perturbações da produção de voz.
As principais medidas de ruído são a proporção harmônica-ruído
(PHR), a proporção sina-ruído (PSR) e a energia de ruído glótico (ERG).
Proporção Harmônico-Ruído

12
Contrasta o sinal regular das pregas vocais com o sinal irregular das
pregas e do trato vocal, oferecendo um índice que relaciona o componente
harmônico versus o componente de ruído da onda acústica.
Desde sua criação a PHR foi considerada um dos melhores parâmetros
de aplicação clínica (Baker, 1987), tanto na quantificação dos desvios vocais
como na avaliação dos procedimentos dos tratamentos das disfonias,
apresentando relação direta com a qualidade vocal.
No português, temos alguns estudos sobre ruído com o cálculo da PHR,
utilizando-se o programa Soundscope 2.0 (G W Instrumentos), demonstrando
que há variações de acordo com o sexo, idade e o registro vocal da emissão
(Rodrigues, 1993; Grinblat, 1994; Rorigues, Grinblat, Behlau e Pontes, 1995).
De modo resumido, mulheres apresentavam valores de PHR mais elevados
que homens, com vozes mais agudas, também apresentando maior
componente harmônico, sendo que o registro basal foi o que apresentou o
maior componente ruído.
Com uma população de falantes brasileiros da cidade de São Paulo
(programa Soundscope li), Rodrigues (1993) concluiu que mulhers
apresentavam valores médios de PHR (9,4 dB) significativamente mais
elevados que os homens (8,6 dB).
Proporção Sinal-Ruído (PSR)
Esta medida tem sido pouco utilizada na prática clínica, embora a
maioria dos programas extraia o seu valor.
Energia de Ruído Glótico(ruído da onda sonora)
Neutralized Noise Energy (NNE) é uma variante da PHR, também
expressa em números de decibéis, que mede o ruído da onda sonora através do
subtração do componente harmônico, feita por meio de filtros especiais.Os
valores de ERG são expressos em número negativo, sendo o limite de

13
normalidade até -10 dB. Valores maiores, como -5dB, -3dB, entre outros, são
fortemente indicativos de aperiodicidade fonatória. A ERG, por ter como base
o componente ruído em si, parece ser um índice mais sensitivo na
diferenciação de vozes normais e disfônicas que a PHR.

14

Você também pode gostar