Você está na página 1de 9

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/275346351

Anlise de Sinais de Voz para Caracterizao de


Patologias na Laringe
Article October 2014
DOI: 10.12721/2237-5112.v04n02a09

CITATIONS

READS

36

6 authors, including:
Silvana Cunha Costa

Suzete Correia

Instituto Federal de Educao, Cincia e Tec

Instituto Federal de Educao, Cincia e Tec

33 PUBLICATIONS 53 CITATIONS

24 PUBLICATIONS 68 CITATIONS

SEE PROFILE

SEE PROFILE

Vincius J. D. Vieira
Universidade Federal de Campina Grande (U
14 PUBLICATIONS 12 CITATIONS
SEE PROFILE

All in-text references underlined in blue are linked to publications on ResearchGate,


letting you access and read them immediately.

Available from: Vincius J. D. Vieira


Retrieved on: 31 October 2016

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

Anlise de Sinais de Voz para Caracterizao de


Patologias na Laringe
Silvana C. Costa, Washington C. de A. Costa, Suzete E. N. Correia,
Joseana M. F. R. de Arajo, Vincius J. D. Vieira
Instituto Federal de Educao, Cincia e Tecnologia da Paraba IFPB
Joo Pessoa Brasil
{silvana,suzete,washington}@ifpb.edu.br, joseana@computacao.ufcg.edu.br, viniciusjdv@gmail.com
ResumoPatologias na laringe causam distrbios na voz
que podem ser detectados por meio de tcnicas de processamento
digital de sinais. A anlise acstica desses sinais,
comparativamente a sinais de vozes produzidos por locutores
com laringes saudveis, pode ser empregada como uma
ferramenta de apoio ao diagnstico de patologias larngeas, bem
como ao tratamento teraputico de disfonias e acompanhamento
pr e ps-cirrgicos. A eficincia do mtodo depende de fatores
tais como a escolha das caractersticas ou parmetros que melhor
representem a patologia ou o distrbio vocal, bem como do
mtodo de classificao empregado. Este artigo apresenta alguns
mtodos baseados no modelo linear de produo da fala, como
tambm na anlise dinmica no linear para a classificao de
patologias na laringe.
Palavras-ChavePatologias na Laringe,
Acstica, Anlise linear, Anlise no-linear.

Anlise

AbstractLaryngeal pathologies cause disturbances in the


voice which can be detected by means of techniques of digital
signal processing. The acoustic analysis of these signals compared
to voices produced by speakers with healthy larynx, can be
employed as a tool to support the diagnosis of laryngeal diseases,
as well as therapeutic treatment of dysphonia and pre and postsurgery attendance. The method efficiency depends on factors
such as the choice of characteristics or parameters that best
represent the pathology or the voice disorders, as well as the
classification method employed. This article presents some
methods based on the linear model of speech production, as well
as in the nonlinear dynamic analysis for classification of
pathologies in the larynx.

KeywordsLaryngeal pathologies, Acoustic Analysis,


Linear Analysis, Nonlinear analysis.
I.

INTRODUO

cnicas de processamento digital tm sido empregadas


na obteno de caractersticas relevantes de sinais de
vozes para a classificao ou deteco precoce de patologias
larngeas. A anlise acstica, por meio dessas tcnicas, permite
a obteno de uma ferramenta no invasiva de apoio ao
diagnstico e de baixo custo, comparada aos exames
tradicionais baseados em videolaringoscopia [1,2].
Os mtodos tradicionais de anlise acstica de vozes
alteradas empregam o pitch e medidas oriundas dele como
jitter, shimmer, quociente de perturbao de amplitude (APQ

Amplitude quociente perturbation), quociente de perturbao


do pitch (PPQ), relao harmnica-rudo (HNR harmonic-tonoise ratio), excitao do rudo glotal (GNE Glottal to Noise
Excitation), entre outras [3-7]. No entanto, sinais afetados por
patologias severas apresentam dificuldades para obteno do
pitch tornando a anlise por meio destes parmetros, muitas
vezes, prejudicada.
Desta forma, surgem, em pesquisas mais recentes, mtodos
de anlise de sinais patolgicos baseados no modelo linear de
produo da fala, que independem da obteno do pitch. Como
exemplo, pesquisas apontam medidas obtidas a partir do
modelo fonte-filtro, a saber: os coeficientes de predio linear
(LPC), coeficientes cepstrais e suas ponderaes e coeficientes
mel-cepstrais [1, 6-9].
A hiptese de que a voz produzida por um sistema de
fonte-filtro (modelo linear de produo da voz), no entanto,
carrega intrinsecamente suas limitaes. A presena de
patologias na laringe acarreta, dependendo da severidade,
alteraes no padro anatmico ou no padro de vibrao das
pregas vocais [10].
O modelo no linear de produo da voz baseia-se em
fatores que indicam no linearidades, tais como variao
temporal da forma do trato vocal, as ressonncias associadas
sua fisiologia, as perdas devido ao atrito viscoso nas paredes
internas do trato vocal, a suavidade dessas paredes internas, a
radiao do som nos lbios, o acoplamento nasal e a
flexibilidade (comportamento dinmico) associada vibrao
das pregas vocais [11]. O estudo de modelos no lineares para
representar a produo da voz tem se destacado em recentes
pesquisas [12-15].
A transformada wavelet uma ferramenta matemtica que
possui propriedades teis e interessantes para o processamento
de sinais, como: (i) a possibilidade de usar anlise
multiresolucional, que permite a anlise de sinais em
resolues distintas, de modo que em cada escala aspectos
diferentes sejam observados; (ii) o fato das wavelets no serem
nicas, ou seja, existem na literatura vrios tipos dessas
funes, que podem ser selecionadas de acordo com a
aplicao; (iii) a representao esparsa dos coeficientes, que
exatamente importante para a extrao de caractersticas, por
fornecer apenas um pequeno nmero de coeficientes no-nulos
[16]. Diversas pesquisas tm sido realizadas empregando a

63

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

64

transformada wavelet na avaliao de desordens vocais


provocadas por patologias larngeas [17-24] e na deteco de
desvios vocais [25].
Uma determinada caracterstica, ou um vetor de
caractersticas, pode representar bem a presena de um tipo de
patologia, mas no ser relevante para outro. Portanto, a busca
pelas caractersticas ou parmetros mais representativos de
desordens vocais provocadas por patologias na laringe uma
busca incessante. De posse das informaes de quais
parmetros so mais relevantes para cada patologia de
interesse, um sistema de apoio ao diagnstico pode ser
implementado com maior eficincia, apresentando altos ndices
de acurcia, com baixos valores de falso positivo e falso
negativo. Ou seja, um estudo mais aprofundado e a escolha do
melhor tipo de anlise e de caractersticas proporciona um
sistema especialista com alto ndice de confiabilidade.
Neste trabalho, esto apresentadas as principais pesquisas
realizadas nos ltimos anos, pelos autores, na discriminao
entre sinais saudveis e patolgicos, afetados pelas patologias
edema, ndulos paralisia nas pregas vocais.
II.

TCNICAS BASEADAS NO MODELO LINEAR DE


PRODUO VOCAL

As tcnicas que vm sendo utilizadas para a deteco de


patologias na laringe, explorando o modelo linear de produo
vocal, o modelo fonte-filtro, empregam como caractersticas
representativas dos sinais de voz: coeficientes de predio
linear (LPC), coeficientes cepstrais, delta cepstrais e suas
verses ponderadas, coeficientes mel-cepstrais [1, 2, 8, 9].

parmetros da fonte e do sistema devem ser escolhidos de


forma tal que a sada resultante tem as propriedades
semelhantes voz desejada. Se isto puder ser feito, o modelo
serve como uma base til para o processamento de sinais de
voz [26].

Figura 2: Modelo simplificado de produo da fala [27].

Um modelo detalhado para gerao propagao e irradiao


do som pode, em princpio, ser solucionado com valores
adequados dos parmetros da excitao e do trato vocal para
calcular uma forma de onda da voz na sada. A teoria acstica
fornece uma tcnica simplificada, bastante utilizada, para
modelar sinais de voz, que apresenta a excitao separada do
trato vocal e da radiao. Os efeitos da radiao e do trato
vocal so representados por um sistema linear variante no
tempo [26]. O modelo completo mostrado na Figura 2.
A modelagem do sistema de produo da voz humana na
codificao LPC feita de forma que para a produo dos
sinais sonoros gerado um trem de impulsos unitrios cuja
periodicidade determinada pelo perodo de pitch (T0 =1/F0),
em que F0 representa a frequncia de vibrao das pregas
vocais (frequncia fundamental). Esse trem de pulsos
aplicado a um filtro digital G(z) que simula o efeito dos pulsos
glotais, que so devidamente selecionados e aplicados ao trato
vocal, aps um controle de ganho. Para a produo dos sinais
no-sonoros (sons surdos), utilizado um gerador de rudo
aleatrio com espectro plano e um controle de ganho [26].

Figura 3: Modelo geral discreto no tempo para produo de fala [27].

Figura 1: Diagrama de processamento de sinais da voz para deteco de


patologias na laringe.

A. Anlise de voz por predio linear


A teoria acstica da produo da fala constituda de
representaes matemticas do processo de produo da fala e
tem sido usada como base para toda a anlise e sntese
realizada com os sinais da fala [26].
O modelo bsico para produo da fala constitudo por
um gerador de excitao e um sistema linear variante no tempo
(Figura 1). O gerador de excitao deve fornecer dois tipos de
sada: um trem de pulsos (glotais) para sinais sonoros e rudo
aleatrio para sinais no-sonoros. Os efeitos de radiao dos
lbios e do trato vocal so produzidos pelo sistema linear. Os

No caso de anlise por predio linear, as funes do pulso


glotal, radiao e componentes do trato vocal, podem ser
combinadas em uma nica funo H(z), representando o
processo de produo da fala, como descrito na Equao 1.
H(z) = G(z).V(z).R(z)

(1)

em que G(z), V(z) e R(z), representam a transformada Z dos


modelos do pulso glotal, do trato vocal e da radiao,
respectivamente.
O mtodo de predio linear estima cada amostra atual de
voz baseado numa combinao linear de n amostras anteriores,
em que um n maior permite um modelo mais preciso. Esta
anlise fornece um conjunto de parmetros da fala que
representa o trato vocal [26]. Um preditor linear com
coeficientes de predio, (k), definido como um sistema cuja
sada dada pela Equao 2.

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

(2)

65

Na Figura 5 apresentada a representao do cepstro


para um sinal de voz patolgico, possvel observar a
diminuio do pico devido presena da patologia.

em que (k) so os coeficientes de predio, s(n-k) so as


amostras passadas e p a ordem do preditor. Um valor de p
maior representa um modelo mais preciso do sinal de voz.
Existem vrias formulaes diferentes para a predio
linear, sendo que algumas delas so equivalentes entre si. O
mtodo da autocorrelao, mtodo utilizado neste trabalho, e o
mtodo da covarincia so dois mtodos padres de soluo
para clculo dos coeficientes do preditor [26, 28]. Ambos os
mtodos so baseados na minimizao do valor mdio
quadrtico do erro de estimao e(n), ou sinal residual, que
descrito pela Equao 3.
(3)
B. Anlise Cepstral
A anlise cepstral do sinal de voz para o estudo das
alteraes larngeas pode ser muito til, uma vez que permite
se trabalhar com o sinal da glote (excitao) separadamente das
repercusses ressonantes do trato vocal, facilitando o
entendimento das modificaes que ocorrem nas pregas vocais.
A aplicao dessa tcnica, no estudo do sinal acstico de vozes
alteradas, poderia detectar modificaes no sinal de voz que se
relacionem com as alteraes larngeas e, consequentemente,
identificar modelos para uma classificao, permitindo a
obteno de uma ferramenta de diagnstico no-invasiva [29].
Na Figura 4 apresentada a representao do cepstro para
um sinal de voz normal em que o pico correspondente ao
perodo fundamental (excitao) est prximo da quefrncia
de 10 ms, separado das componentes do trato vocal, que so as
de baixas quefrncias.

Figura 5: Cepstro de uma voz patolgica [2].

Os coeficientes cepstrais podem ser obtidos a partir


dos coeficientes LPC, mantendo a validade para anlise dos
efeitos das mudanas provocadas pelas pregas vocais no sinal
de voz. Mantendo-se o trato vocal inalterado, ou seja, supondo
que o trato vocal saudvel, as mudanas ocorridas no
parmetro, pelas alteraes vocais, sero consideradas como
sendo provenientes da excitao.
C. Coeficientes Cepstrais (CEP)
Os coeficientes cepstrais podem ser calculados
recursivamente a partir dos coeficientes de predio linear,
(k), por meio da Equao 4 [30]. O uso dessa recurso
permite um clculo eficiente dos coeficientes cepstrais e evita
fatorao polinomial.
c(1) (1)

n 1
c (n) (n) 1 j ( j )c(n j ) ,

n
j 1

1 n p

(4)

em que n o ndice do coeficiente.


Os coeficientes cepstrais obtidos pela Equao 4
fornecem uma boa medida das diferenas na envoltria
espectral dos segmentos de voz em anlise. Estes coeficientes
so utilizados para observar as informaes das transies do
sinal de voz patolgico comparadas ao sinal de voz normal.

D. Coeficientes Delta Cepstrais (DCE)


Figura 4: Cepstro para uma voz normal [2].

Os
coeficientes
Cepstrais
representam
as
propriedades espectrais de um dado bloco de amostras de voz.
Entretanto, estes no caracterizam a informao temporal ou
de transio de uma sequncia de blocos de amostras de voz.
Para se obter um aumento de desempenho introduzida a
derivada cepstral que captura a informao de transio da
voz. A primeira derivada do cepstrum (tambm conhecida
como Delta Cepstrum),
, definida pela Equao 5 [30]:
K
c(n, t )
ci (n) kc(n, t k )
t
k K

(5)

em que c(n, t) o n-simo coeficiente da predio linear no


tempo t, uma constante de normalizao e 2K+1 o
nmero de quadros sobre os quais o clculo realizado.

66

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

Os coeficientes delta cepstrais tambm podem ser


obtidos como uma verso simplificada da Equao 5, da forma
[30]:

avaliao da qualidade vocal. Uma descrio sucinta da


anlise mel-cepstral apresentada a seguir.
G. Anlise mel-cepstral

ci (n) kci q (n)G


q K

1 n p

(6)

onde G um termo de ganho (por exemplo: 0,375), p o


nmero dos coeficientes delta cepstrais, K = 2, n representa o
ndice de coeficiente e i o quadro de anlise.
E. Coeficientes Cepstrais Ponderados (CPP)
Com o objetivo de minimizar a sensibilidade dos
coeficientes cepstrais de baixa ordem em relao envoltria
espectral e sensibilidade dos coeficientes cepstrais de alta
ordem em relao ao rudo, empregada a ponderao
cepstral, tambm conhecida como liftering ou suavizao [30].
A ponderao obtida multiplicando-se
por uma janela
(a escolha correta da janela melhora a robustez), obtendose assim, o cepstrum ponderado (Equao 7), como um vetor
de caractersticas.
cwi (n) ci (n).w(n)

(7)

Geralmente, a filtragem linear (liftering) passa-faixa


(Bandpass liftering BPL) dada pela Equao 8, mais
comumente empregada.

Os coeficientes mel-cepstrais (Mel-frequency Cepstral


Coefficients MFCC) surgiram devido aos estudos na rea de
psicoacstica (cincia que estuda a percepo auditiva
humana), que mostraram que a percepo humana das
frequncias de tons puros ou de sinais de voz no segue uma
escala linear. Para cada tom com frequncia f, medida em Hz,
define-se um tom subjetivo medido em uma escala que se
chama escala mel. O mel, ento, uma unidade de medida da
frequncia percebida de um tom [28].
A diferena entre o clculo dos coeficientes cepstrais e dos
coeficientes mel-cepstrais est na aplicao de um banco de
filtros digitais ao espectro real do sinal, antes da aplicao da
funo logartmica. Tais filtros, no esto linearmente
espaados no domnio da frequncia. O mapeamento entre a
escala de frequncia real, em Hz, e a escala de frequncias
percebida, em mel, aproximadamente linear abaixo de 1000
Hz e, logartmica, acima. Logo, o espaamento dos filtros
digitais deve respeitar a escala de frequncias percebidas
(escala Mel). A funo de mapeamento da frequncia acstica f
(em Hz) para uma escala de frequncias percebidas Mel (em
mels) dada por
Fmel 2595 log10 (1

(8)
onde L o tamanho da janela.
A ponderao linear ajusta cada componente cepstral
individualmente pelo ndice n, suavizando as componentes de
ordem inferior. A BPL pondera uma sequncia de coeficientes
cepstrais por uma funo senoidal deslocada, de forma que as
componentes de baixa e de alta ordem so de-enfatizadas. O
esquema de ponderao descrito baseado na ideia de que os
pesos so apenas funo do ndice do coeficiente cepstral e
no tem nenhuma relao explcita com as variaes
instantneas dos coeficientes cepstrais, que so introduzidas
pelas condies ambientais, como por exemplo, o rudo, os
efeitos do canal.

Os coeficientes delta-cepstrais ponderados (DCP) so


obtidos a partir das Equaes 7 e 8, associando as
caractersticas dos coeficientes cepstrais ponderados com os
delta-cepstrais, resultando na Equao 9:
L n
1 sin
,
N 1,2,..., L
w(n) 2 L

0,
caso
contrrio

(10)

em que Flinear a frequncia linear (em Hz) e Fmel a


frequncia percebida (em mel). Aps o pr-processamento
dos sinais, os coeficientes mel cepstrais so obtidos para cada
segmento do sinal, de acordo com os seguintes passos [28]:

F. Coeficientes Delta Cepstrais Ponderados (DCP)

Flinear ( Hz )
),
700

calculado do espectro de magnitude do sinal, x(n), a


partir do mdulo da transformada de Fourier
(|FFT(x(n)|2);
Aplicao do banco de filtros triangulares em escala
mel. So utilizados geralmente 20 filtros de formato
triangular. No entanto, a quantidade de filtros
baseada na frequncia de amostragem (Fa) (3.ln(Fa)).
Clculo do logaritmo da energia de sada de cada filtro.
A aplicao do logaritmo necessria para a obteno
do cepstro.
Finalmente, o processo de obteno dos coeficientes
MFCC pode ser matematicamente descrito por [26,28]:
Nf
1
( n) log( Sf ( k )).cos[ n( k )].
c
mel
2 Nf
k 1

n 0,1, ...., Nf

(11)

em que Nf o nmero de filtros digitais utilizados, cmel(n) o


n-simo coeficiente mel-cepstral e Sf(k) o sinal de sada do
banco de filtros digitais, dado por

(8)

Espera-se que, qualquer mudana na estrutura


anatmica do trato vocal, devido patologia, afete os
coeficientes LPC (Linear Prediction Coding) como tambm os
cepstrais e seus derivados. Os coeficientes mel-cepstrais
tambm so indicados em anlise acstica de sinais de voz para

Sf ( k )

NFFT
Wk ( j ). X ( j )
j 1

k 1, ..., Nf ,

(12)

em que Wk(j) so as janelas de ponderao triangulares


associadas s escalas-mel e X(j) o espectro de magnitude da
FFT de N pontos [26,28].

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

III.

TCNICAS BASEADAS NA ANLISE DINMICA NOLINEAR DE SINAIS DE VOZES.

O uso do modelo linear para a produo da fala tem obtido


sucesso na discriminao entre vozes saudveis e patolgicas.
Estudos mais recentes tm apontado para a evidncia do caos
na voz humana, aumentando o interesse do uso da anlise
acstica baseada na anlise dinmica no linear [11-15]
A anlise dinmica no linear de sinais de voz leva em
considerao aspectos da voz humana no explorados na
abordagem linear, tais como: variao temporal da forma do
trato vocal, as ressonncias associadas sua fisiologia, as
perdas devido ao atrito viscoso nas paredes internas do trato
vocal, a suavidade dessas paredes internas, a radiao do som
nos lbios, o acoplamento nasal e a flexibilidade
(comportamento dinmico) associada vibrao das pregas
vocais [31].
Em trabalhos anteriores, foram empregadas, oriundas da
anlise dinmica no linear as seguintes medidas: Dimenso de
correlao, entropia de correlao, entropia aproximada,
entropia de Shannon, entropia de Tsallis, expoente de Hurst,
maior expoente de Lyapunov e primeiro mnimo da funo de
informao mtua, alm da combinao de medidas lineares e
no lineares [12, 32, 33].
Em anos mais recentes, vem se destacando a Anlise de
Quantificao de Recorrncia como uma tcnica promissora na
anlise da qualidade vocal. Os grficos de recorrncia
apresentam estruturas (pontos de recorrncia, linhas diagonais
e verticais) que se modificam com as mudanas em amplitude e
frequncia provocadas no sinal de voz pela presena de um
desvio vocal (rugosidade, soprosidade, tenso, entre outros)
seja ele provocado por uma patologia na laringe (de origem
orgnica ou neurolgica) ou resultante de abuso vocal e maus
hbitos sociais como tabagismo e alcoolismo.
Neste trabalho, ser dada nfase s medidas de
quantificao de recorrncia por ser uma tcnica mais recente e
que tem se destacado como mais uma opo na rea de anlise
acstica unindo avaliao visual e quantitativa dos sinais de
voz.

67

x x
x
instante i . A distncia entre os estados i e j calculada
por meio de alguma norma ||.|| (geralmente a norma
Euclidiana). Se essa distncia for menor que o raio , a funo
degrau unitrio coloca valor 1, o qual representa um ponto
preto no Grfico de Recorrncia. Caso contrrio, o valor 0,
representado por um ponto branco.
Exemplos de Grficos de Recorrncia so apresentados na
Figura 5 para um segmento de 800 amostras (32 ms) para a
vogal sustentada /ah/ de um dos sinais de cada classe avaliada
neste trabalho.
As medidas de quantificao de recorrncia foram
propostas inicialmente por [36] e consolidadas posteriormente
por [35], como uma anlise objetiva das estruturas formadas
nos Grficos de Recorrncia. As principais medidas de
recorrncia so:
-Taxa de Recorrncia, que mede a densidade dos pontos de
recorrncia;
- Determinismo, a qual est relacionada com a
previsibilidade do sistema;
- Comprimento mximo das linhas diagonais;
- Entropia de Shannon que representa a distribuio de
frequncias dos comprimentos das linhas diagonais e reflete a
complexidade da estrutura determinstica presente no sistema;
- Laminaridade, que fornece a quantidade de estruturas
verticais presentes no Grfico de Recorrncia, e representa a
ocorrncia de estados recorrentes que no mudam com o
tempo;
- Tempo de Permanncia (Trapping Time) conhecido
como o comprimento mdio dos estados laminares; e
- Comprimento mximo das linhas verticais.
900

900

800

800

700

700

600

600

500

500

400

400

300

300

200

200

100

100
200

400

600

200

800

400

(a)

600

800

(b)

A. Anlise de Quantificao de Recorrncia


Os Grficos de Recorrncia foram propostos por [34] como
uma tcnica de anlise de sistemas dinmicos, a fim de
proporcionar uma visualizao do comportamento da trajetria
do espao de fases multidimensional [35]. Basicamente, os
Grficos de Recorrncia so matrizes quadradas preenchidas
por zeros e uns. Nos pontos em que houver a unidade, significa
que esses pontos so recorrentes, ou seja, os estados do sistema
dinmico, referentes a esses pontos, visitam regies prximas
uns dos outros na trajetria do espao de fases [14].
Matematicamente, um Grfico de Recorrncia pode ser
definido por:

Rim, j, xi x j , xi m ,

(13)

com i, j = 1, ...., N Em que N o nmero de variveis xi


formadas do sistema, o raio de vizinhana aplicado no

900

900

800

800

700

700

600

600

500

500

400

400

300

300

200

200
100

100
200

400

600

(c)

800

200

400

600

800

(d)

Figura 6: Grfico de Recorrncia obtido de um sinal de voz: (a) saudvel,

com m=3 e =9; (b) afetado por paralisia nas pregas vocais, com m=3 e =12;
(c) afetado por edema de Reinke, com m=2 e =7; (d) afetado por ndulos, com
m=3 e =9.

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

68

IV.

ANLISE WAVELET

A transformada wavelet contnua permite uma anlise dos


sinais de voz por meio de escalogramas, uma representao
tempo-frequncia do sinal [19,20]. Atravs da transformada
wavelet discreta caractersticas como energia, entropia e
expoente de Hurst podem ser usadas para representar os sinais
analisados em vrias resolues diferentes [25,37].
A. Transformada Wavelet Contnua
Os coeficientes da transformada wavelet contnua de uma
funo x(t) de energia finita so obtidos pela Equao (14).

WX (a, b, ) x(t )

*
a ,b

(t ) dt.

(14)

1
a

t b
a 0, b R.
a

(17)

d j (k ) g (m 2k )c j 1 (m).

(18)

As Equaes (17) e (18) representam operaes de


filtragem usando a resposta ao impulso de filtros passa-baixas
h e passa altas g. A transformada wavelet discreta obtida
atravs de filtragens sucessivas pelos filtros h e g. O sinal
filtrado subamostrado para manter o critrio de Nyquist. Se o
sinal original possui N amostras, os coeficientes wavelets cj(k)
e dj(k) possuem, cada um, 2j N amostras [16].
A energia e a entropia dos coeficientes de detalhes da
transformada wavelet podem ser calculadas em cada resoluo
por [26]:

em que o asterisco representa o conjugado complexo e a,b(t)


so as wavelets geradas pela dilatao e translao de uma
funo wavelet me (t), definida por:
a ,b (t )

c j (k ) h(m 2k )c j 1 (m),

Ej

| d
(| c

(k ) |2

(19)

(k ) |2 | d j (k ) |2 )

(15)

A varivel a representa o parmetro da escala, b o


parmetro da translao, e os dois variam continuamente. O
fator a-1/2 utilizado para garantir a preservao de energia da
transformada [37].
A anlise multirresolucional da transformada wavelet
realiza atravs da variao do valor de a. Pequenos valores de
escala permitem uma anlise em altas frequncias, enquanto
valores altos permitem uma anlise em baixas frequncias. A
transformada wavelet contnua mapeia um sinal
unidimensional no tempo em uma representao
bidimensional tempo-frequncia.
O mdulo ao quadrado da transformada wavelet definido
como escalograma wavelet e mostra como a energia do sinal
varia com o tempo e com a frequncia. Os padres obtidos
pelo escalograma dependem da famlia wavelet empregada.
Na avaliao de desordem vocais a wavelet Chapu Mexicano
tem sido comumente usada [19]. A Figura 6 ilustra os
escalogramas de voz saudvel e afetada por paralisia e edema
de Reinke nas pregas vocais.

(a)

(b)
B. Transformada Wavelet Discreta
A verso discreta da transformada wavelet obtida
definindo a = 2j e b = k.2j, em que j e k so nmeros inteiros.
Na anlise multirresolucional, alm da wavelet me (t),
empregada na decomposio outra funo ortogonal
denominada funo escalonamento, (t). Todas as funes
base so obtidas pela translao e escalonamento dessas
funes.
Uma funo contnua x(t) pode ser decomposta em
termos das funes base wavelet e escalonamento por:
f (t ) ( c j (k ) j ,k (t ) d j (k ) j ,k (t ) ),

(c)

(16)

em cj(k) and dj(k) denotam os coeficientes wavelets de


aproximao e detalhes, na resolio j, definidos por:

Figura 7: Escalogramas obtidos de um sinal de voz: (a) saudvel; (b) afetado


por paralisia nas pregas vocais; (c) afetado por edema de Reinke.

e por
H j p j (k ) log p j (k ),
k

(20)

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

| d j (k ) |2 .
em que p j (k )
| d j (k ) |2
k

A energia dos coeficientes de detalhe como caracterstica,


pode ser til para identificar o quanto a energia do sinal de voz
encontra-se distribuda ao longo da frequncia. A entropia
pode avaliar as irregularidades presentes nos sinais de vozes
afetados por desordens vocais.
O parmetro de Hurst, obtido por meio da transformada
wavelet discreta, foi investigado como extrator de
caractersticas, para diferenciar vozes saudveis de vozes
afetadas por edema de Reinke, paralisia e ndulo nas pregas
vocais [37].
Na estimativa do expoente de Hurst por meio da
transformada wavelet discreta, considera-se o fato da
decomposio wavelet fornecer coeficientes em uma
determinada escala j, associados quantidade mdia de
energia j. A energia do sinal j calculada por meio da mdia
dos coeficientes de detalhes dj(k), da seguinte forma:
1
(21)
| d j (k ) |2
nj k
em que nj a quantidade de coeficientes wavelets no nvel de
decomposio j e o parmetro k corresponde localizao.
Uma estimativa para o expoente de Hurst (H) segue da
regresso linear de log2(j) por j. O coeficiente angular dessa
reta ajustada fornece uma estimativa para H por meio da
relao = 2H 1, em que H = + / para < , e
H = -1)/2 para > 1.
j

V.

CONCLUSO

Diversas abordagens tem sido utilizadas na discriminao


entre vozes saudveis e vozes afetadas por patologias
larngeas, no intuito de se chegar ao melhor mtodo de apoio
ao diagnstico. A escolha das caractersticas mais adequadas
para uma patologia especfica um campo ainda a ser bastante
explorado, dado que uma caracterstica, ou um conjunto pode
representar bem uma desordem vocal provocada por uma
patologia, mas no ser adequada para outro tipo.
Os mtodos empregados at ento, seja por anlise linear
ou no linear tem apresentado resultados bastante promissores.
Ainda falta definir, com exatido, quais as melhores para cada
caso. As dificuldades de comparao so muitas devido ao uso
de base de dados diferentes, mtodos de anlise e de
processamento diversificados. Entretanto, j se pode verificar
que as pesquisas tem apresentado a anlise acstica como uma
forma eficaz, segura e no invasiva que pode ser empregada
para auxlio ao diagnstico mdico e acompanhamento de
tratamento pr e ps-cirrgicos de patologias larngeas.
REFERNCIAS
[1] J. I. Godino-Llorente, P. Gmez-Vilda, M. B. Velasco.
Dimensionality Reduction of a Pathological Voice Quality
Assessment System Based on Gaussian Mixture Models and ShortTerm Cepstral Parameters. IEEE Transactions on Biomedical
Engineering, Vol. 53, No. 10, 2006.
[2] S. L. do N. C. Costa. Anlise Acstica Baseada no Modelo Linear
de Produo da Fala, para Discriminao de Vozes Patolgicas.

69

Tese de doutorado. Universidade Federal de Campina Grande


(UFCG), 2008, 161p.
[3] V. Valadez et al. Voice Parameters and Videonasolaryngoscopy
in Children with Vocal Nodules: A Longitudinal Study, Before and
After Voice Therapy. International Journal of Pediatric
Otorhinolaryngology, v. 76, p.1361-1365, 2012.
[4] J. I. Godino-Llorente et al. The Effectiveness of the Glottal to
Noise Excitation Ratio for the Screening of Voice Disorders.
Journal of Voice, v. 24, n. 1, p. 47-56, 2010.
[5] M. K Arjmandi et al. Identification of Voice Disorders Using
Long-time Features and Support Vector Machine with Different
Feature Reduction Methods. Journal of Voice, v. 25, n. 6, p. e275e289, 2011.
[6] Hakkesttegt, M. M. et al. The Relationship Between Perceptual
Evaluation and Objective Multiparametric Evaluation of Dysphonia
Severity. Journal of Voice, v. 22, n. 2, p. 138-145, 2008.
[7] B. Garcia et al. Multiplatform Interface Adapted to Pathological
Voices. In: Signal Processing and Information Technology, 2005.
Proceedings of the Fifth IEEE International Symposium on. IEEE, p.
912-917, 2005.
[8] B.G. Aguiar Neto, S. C. Costa, J.M. Fechine, M. Muppa.
Acoustic Features of Disordered Voices Under Vocal Fold
Pathology. 19th International Congress on Acoustics (ICA07),
Madrid,
September
2007a.
Disponvel
em
http://www.seaacustica.es/WEB_ICA_07/fchrs/papers/cas-03003.pdf.
[9] B. G. Aguiar Neto, J. M. Fechine, S. C. Costa,
Feature Estimation for Vocal Fold Edema Detection
Term Cepstral Analysis. Proceedings of the 7th
Conference on Bioinformatics and Bioengineering,
page(s) 1158-1162, 2007b.

M. MUPPA.
Using ShortInternational
14-17 Oct.,

[10] M. Behlau Voz - O livro do Eespecialista. Volume I. Rio de


Janeiro: Revinter, 2001.
[11] A. Kumar, S. K. Mullick. Nonlinear Dynamical Analysis of
Speech. The Journal of the Acoustical Society of America, v. 100, p.
615, 1996.
[12] W. C. de A. Costa, S. L. do N. C. Costa, F. M. Assis , B. G.
Aguiar Neto. Classificao de sinais de Vozes Saudveis e
Patolgicas por meio da Combinao entre Medidas da Anlise
Dinmica no Linear e Codificao Preditiva Linear. Revista
Brasileira de Engenharia Biomdica, v. 29, p. 3-14, 2013. Disponvel
em http://rbeb.org.br/files/v29n1/v29n1a01.pdf.
[13] P. Henrquez. et al. Characterization of Healthy and
Pathological Voice Through Measures Based on Nonlinear
Dynamics. Audio, Speech, and Language Processing, IEEE
Transactions on, v. 17, n. 6, p. 1186-1195, 2009.
[14] V. J. D. Vieira, et al. Discriminao de Sinais de Voz com
Anlise de Quantificao de Recorrncia e Redes Neurais MLP. In:
Anais do XXXI Simpsio Brasileiro de Telecomunicaes (SBrT
2013), p.1-4, 2013.
[15] Y. Zhang, J. Jiang, Acoustic Analyses of Sustained and
Running Voices from Patients with Laryngeal Pathologies. Journal
of Voice, v. 22, n. 1, p. 1-9, 2008.
[16] S. Mallat, A Wavelet Tour of Signal Processing, Academic
Press, 1999.
[17] A. Parraga, A. Aplicao da Transformada Wavelet Packet na
Anlise e Classificao de Sinais de Vozes Patolgicas. Universidade
Federal do Rio Grande do Sul. Dissertao de Mestrado, 2002.
[18] E. Fonseca, R. Guido, P. Scalassara, C. Maciel, e J. Pereira.
Wavelet Time-frequency Analysis and Least Squares Support
Vector Machines for the Identification of Voice Disorders.
Computers in Biology and Medicine, v. 37, p. 571-578, 2007.

70

E COMUNICAC

REVISTA DE TECNOLOGIA DA INFORMAC


AO
AO,
VOL. 4, NO. 2, OUTUBRO 2014

[19] J. Nayak, P. Bhat, R. Acharya e U. Aithal. Classification and


Analysis of Speech Abnormalities. ITBM-RBM, v. 27, 2005.
[20] P. Kulharchik, D. Martynov, I. Kheidorov e O. Kotov. Vocal
Fold Pathology Detection using Modified Wavelet-Like Features and
Support Vector Machinnes, 15th European Signal Processing
Conference (EUSIPCO 2007), 2007.
[21] R. Behroozmand, e F. Almasganj. Optimal Selection of
Wavelet-packet-based Features using Genetic Algorithm in
Pathological Assessment of Patients Speech Signal with Unilateral
Vocal Fold Paralysis. Computers in Bioloy and Medicine, v. 37,
2007.
[22] L. Salhi.; M. Talbi and A. Cherif. Voice Disorders
Identification Using Hybrid Approach: Wavelet Analysis and
Multilayer Meural Networks, World Academy of Science,
Engineering and Technology, 45, pp. 330-339, 2008.
[23] P. T. Hosseini e F. Almasganj. Different Other Wavelets and
Pathological Voice. 2nd International Conference on Computer,
Control and Communication ( ICA 2009), 2009.
[24] S. E. N. Correia, W. C. A. Costa, S. L. N. C. Costa. Deteco
Automtica de Patologias Larngeas usando a Transformada Wavelet
Discreta. Em: Anais do 11th Brazilian Congress on Computational
Intelligence (CBIC), 2013.
[25] J. S. Lima, S. G. Vilela, S. C. Costa, W. C .A. Costa, S. E.
N. Correia. Autossimilaridade de Sinais de Voz Baseada em
Wavelets na Deteco de Patologias Larngeas. Em: Anais do XXXI
Simpsio Brasileiro de Telecomunicaes, 2013.
[26] L. R. Rabiner, R.W. Schafer. Digital Processing of Speech
Signals. New Jersey: Prentice-Hall, 1978.
[27] S. C Costa, B. G. Aguiar Neto, J. M. Fechine, S. Correia.
Parametric Cepstral Analysis for Pathological Voice Assessment.
Proceedings of The 23rd ACM Symposium on Applied Computing
2008 (ACM SAC 2008). Computer Applications in Health Care
Track, Pages 1410-1414, Fortaleza, Cear, Brazil, March 16-20,
2008.
[28] D. OShaughnessy. Speech Communications: Human and
Machine. 2nd Edition, NY, IEEE Press, 2000.
[29] I. C. Zwetsch, R. D. Ribeiro, T. R Fagundes, D. Scolari.
Processamento Digital de Sinais no Diagnstico Diferencial de
Doenas Larngeas Benignas. Scientia Medica, Porto Alegre:
PUCRS, Vol. 16, n. 3, jul./set. 2006.
[30] R. J. Mammone, X. Zhang, R. P. Ramachandran. Speaker
Recognition - A Feature-Based Approach. IEEE Signal Processing
Magazine, Vol. 13, No. 5, pages 58-71, September 1996.
[31] A. Kumar, S. K. Mullick. Nonlinear Dynamical Analysis of
Speech. The Journal of the Acoustical Society of America, v. 100, p.
615, 1996.
[32] W. C. de A. Costa. Anlise Dinmica no Linear de Sinais de
Voz para Deteco de Patologias Larngeas. Universidade Federal
de Campina Grande, Tese de Doutorado, 176 p., 2012.
[33] R. T. Vieira, S. C. Costa, S. C ; N. Brunet, S. E. N. Correia, B.
G. Aguiar Neto, J. M. Fechine. Combining Entropy Measures and
Cepstral Analysis for Phatological Voices Assessment. Journal of
Medical and Biological Engineering, v. 32, p. 429-436, 2012.
[34] J. P. Eckmann, S. O Kamphorst, D. Ruelle. Recurrence Plots of
Dynamical Systems. Europhysics Letters, v. 4, p. 973-977, 1987.
[35] N. Marwan. Encounters with Neighbours. University of
Potsdam. PhD Thesis, 159 p., 2003.
[36] C. L. Webber, J. P. Zbilut. Dynamical Assessment of
Physiological Systems and States Using Recurrence Plot Strategies.
Journal of Applied Physiology, v. 76, n. 2, p. 965-973, 1994.

[37] M. O. Santos, S. C. Costa, W. C. de A. Costa, S. E. N. Correia e


L. W. Lopes. Avaliao dos Distrbios Vocais em Crianas Usando
Caractersticas Baseadas na Transformada Wavelet. Em: Anais do
XIV Congresso Brasileiro em Engenharia Biomdica, 2014.