Você está na página 1de 12

Artigo Original

Volume 29, Nmero 1, p. 3-14, 2013

http://dx.doi.org/10.4322/rbeb.2013.010

Classificao de sinais de vozes saudveis e patolgicas por meio


da combinao entre medidas da anlise dinmica no linear e
codificao preditiva linear
Washington Csar de Almeida Costa*, Silvana Luciene do Nascimento Cunha Costa, Francisco Marcos de Assis,
Benedito Guimares Aguiar Neto
Resumo Anlise acstica tem sido sugerida como uma ferramenta auxiliar no invasiva e de baixo custo ao diagnstico
de patologias larngeas. Diversas so as tcnicas empregadas, entre as quais tcnicas baseadas no modelo
linear de produo da fala e na anlise dinmica no linear de sinais de vozes. O primeiro mtodo baseado
na Teoria fonte-filtro, em que a fonte a laringe e o filtro o trato vocal. Nesse modelo, os sons surdos
so modelados por uma fonte de rudo aleatrio e os sons sonoros por um trem de impulsos na frequncia
fundamental do locutor. Na abordagem no linear so considerados aspectos da voz humana, no explorados
no modelo linear, tais como: variao temporal da forma do trato vocal, as ressonncias associadas sua
fisiologia, as perdas devido ao atrito nas paredes internas do trato vocal, a radiao do som nos lbios, o
acoplamento nasal e o comportamento dinmico associado vibrao das pregas vocais. Neste trabalho so
associadas as duas abordagens e avaliado o desempenho na classificao com as caractersticas, de forma
individual, e a partir da combinao das mesmas. So empregadas oito medidas oriundas da anlise dinmica
no linear (dimenso de correlao, quatro medidas de entropia, expoente de Hurst, maior expoente de
Lyapunov e o primeiro mnimo da funo de informao mtua), alm de coeficientes LPC, obtidos a partir
da anlise preditiva linear. Os resultados sugerem a viabilidade da tcnica empregada para a discriminao
entre vozes saudveis e patolgicas em geral, como tambm entre vozes afetadas por patologias larngeas
distintas como edema, ndulos e paralisia nas pregas vocais.
Palavras-chave Patologias larngeas, Anlise acstica, Classificao de vozes patolgicas,
Anlise dinmica no linear, Anlise preditiva linear.

Healthy and pathological voice assessment by means of nonlinear dynamic


analysis measures and linear predictive coding
Abstract Acoustic analysis has been suggested as a noninvasive aiding and low cost tool for laryngeal disease diagnosis.
Several techniques are employed using either the linear model of speech production, or the nonlinear dynamic
analysis of voice signals. The first method is based on source-filter theory, in which the source is the larynx
and the filter is the vocal tract. In this model, the unvoiced sounds are modeled by a random noise source and
the voiced ones by impulse train at the speaker fundamental frequency. In nonlinear approach, aspects of the
human voice are considered, not explored in the linear model, such as temporal variation of the vocal tract
shape, resonances associated with its physiology, losses due to friction in the vocal tract inner walls, sound
radiation in the lips, nose coupling and dynamic behavior associated with vocal fold vibration. This work
combines the two approaches and evaluates the performance in classifying the features individually, and from
their combination. Eight measures are employed derived from the nonlinear dynamic analysis (correlation
dimension, four entropy measures, Hurst exponent, the largest Lyapunov exponent and the first minimum of
mutual information function), besides LPC coefficients obtained from linear predictive analysis. The results
suggest the feasibility of the employed technique to discriminate between healthy and pathological voices
in general, but also among specific laryngeal diseases as vocal fold edema, nodules and paralysis.
Keywords Laryngeal diseases, Acoustic analysis, Pathological voice assessment, Nonlinear dynamic analysis,
Linear predictive analysis.

*e-mail: washington.cesar@ee.ufcg.edu.br
Recebido: 07/08/2012 / Aceito: 23/10/2012

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

Introduo
Patologias na laringe tm aumentado muito nos ltimos
anos devido a hbitos sociais no saudveistabagismo
e alcoolismoe o abuso vocal. As tcnicas tradicionais
empregadas pela comunidade mdica ocorrem pela
escuta da voz do paciente, cujo diagnstico depende
da experincia do profissional ou pela inspeo direta
das pregas vocais por meio de tcnicas laringoscpicas,
o que causa certo desconforto ao paciente (GodinoLlorenteetal., 2006).
A anlise acstica tem sido sugerida, nas ltimas
dcadas, como uma ferramenta auxiliar ao diagnstico
mdico de patologias larngeas, acompanhamento
de terapias vocais, tratamentos medicamentosos e
acompanhamento antes e aps cirurgias. uma tcnica
no invasiva, j que necessita apenas da gravao
da voz do paciente, a qual pode ser armazenada e
processada. Dessa forma, possvel extrair e avaliar
caractersticas e parmetros do sinal de voz e observar
as consequncias causadas nos mesmos pela presena
de patologias na laringe. Esta tcnica no substitui o
diagnstico dos exames laringoscpicos, mas pode ser
empregada em pr-diagnstico, acompanhamentos de
tratamentos medicamentosos, ps-cirrgicos, terapia
vocal e indicao da necessidade ou no de exames
mais sofisticados para um diagnstico final.
Por meio da anlise acstica, utilizando tcnicas
de processamento digital de sinais, a voz do paciente
pode ser gravada num computador pessoal e enviada
para um especialista em outra localidade e este, por
meio de software especfico, avaliar a qualidade
vocal. Este sistema poderia, portanto, ser aplicado em
redes de telemedicina, nas quais os servios ofertados
podem incluir o compartilhamento de arquivos de
pronturios, consultas, exames e segunda opinio.
Alm disso, possvel a adoo de medidas simples
e de baixo custo, como a implantao de sistemas de
anlise com diagnsticos remotos, que pode contribuir
para diminuir a carncia de especialistas.
Diversas tcnicas tm sido empregadas para
quantificar e avaliar as desordens vocais provocadas
por patologias larngeas. As tcnicas mais tradicionais
empregam medidas tais como a frequncia
fundamental, jitter, shimmer, APQ, HNR, entre
outras (Boyanovetal., 1993; Manfredietal., 1999).
Entretanto, dependendo do grau de severidade da
patologia, a obteno da frequncia fundamental se
torna uma tarefa bastante complexa e o resultado
obtido pode no ser confivel (Godino-Llorenteetal.,
2006). Outras tcnicas se baseiam no modelo linear
de produo da fala (modelo fonte-filtro), em que
a fonte a laringe e o filtro o trato vocal. Nesse
modelo, os sons surdos so modelados por uma fonte

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

de rudo aleatrio e os sons sonoros por um trem


de impulsos na frequncia fundamental do locutor
(OShaughnessy, 2000; Rabiner e Schafer, 1978).
Uma questo fundamental para que um processo
automtico de classificao entre vozes saudveis
e patolgicas seja eficiente, a escolha de quais
caractersticas, extradas do sinal de voz, so as
mais apropriadas para capturar as desordens vocais,
provocadas pela presena da patologia.
Apesar do relativo sucesso do uso do modelo
linear para a produo da fala em diversas aplicaes,
estudos mais recentes tm apontado para a evidncia
do caos na voz humana (Jiangetal., 2006; Kokkinos e
Maragos, 2005; Henrquezetal., 2009; Zhang e Jiang,
2008). A anlise dinmica no linear de sinais de voz
tem sido considerada por levar em conta aspectos da
voz humana, no explorada na abordagem linear, tais
como: variao temporal da forma do trato vocal, as
ressonncias associadas sua fisiologia, as perdas
devido ao atrito viscoso nas paredes internas do
trato vocal, a suavidade dessas paredes internas, a
radiao do som nos lbios, o acoplamento nasal e a
flexibilidade (comportamento dinmico) associada
vibrao das pregas vocais (Kumar e Mullik, 1996).
Antes de aplicar tcnicas no lineares, tais como
aquelas inspiradas na teoria do caos, a fenmenos
dinmicos que ocorrem na natureza, necessrio
primeiro perguntar se a utilizao de tais tcnicas
avanadas justificada pelos dados. Enquanto muitos
processos na natureza parecem muito improvveis, a
priori, serem lineares, a possvel natureza no linear
pode no ser evidente em aspectos especficos da
sua dinmica. O fato de que um sistema contenha
componentes no lineares no implica, necessariamente,
que esta no linearidade tambm se reflita em um sinal
especfico obtido a partir desse sistema (Schreiber e
Schmitz, 2000).
No caso particular da voz humana, diversos
trabalhos tm identificado influncia das no
linearidades presentes no sistema de produo vocal a
partir da anlise do prprio sinal de voz (Littleetal.,
2007; Tokudaetal., 2001). Em um desses trabalhos,
Max A. Little (Little, 2006) realizou uma investigao
a cerca de que sejam mantidos os pressupostos de um
sistema linear variante no tempo para sinais de vozes,
apesar de mudanas nos formantes (para diferentes
vogais) ou na fonte de energia acstica (rudo acstico
em consoantes e vibrao das pregas vocais em vogais).
Os resultados obtidos indicaram que para a maioria
dos sons voclicos, tanto saudveis como patolgicos,
a hiptese de que tais sinais tenham sido gerados a
partir de um sistema linear pode ser rejeitada, e que
modelos no lineares, estocsticos ou determinsticos,
podem ser mais confiveis. Por outro lado, no caso

Rev. Bras. Eng. Biom., v. 29, n. 1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

de sons consonontais fricativos saudveis e algumas


vozes patolgicas (caso da voz soprosa) no se pode
descartar o modelo linear.
Recentes pesquisas relacionadas s sries temporais,
geradas a partir dos mecanismos de produo da voz
humana, tm sido realizadas considerando-se as
tcnicas da dinmica no linear e da teoria do caos
com objetivos variados, dentre os quais podem ser
destacados: classificao de fonemas (Johnsonetal.,
2005; Kokkinos e Maragos, 2005), reconhecimento
automtico de locutor (Petry, 2002), discriminao
entre vozes saudveis e patolgicas, diagnstico
de patologias larngeas e avaliao de efeitos de
tratamentos clnicos (Dajer, 2006; Henrquezetal.,
2009; Jiangetal., 2006; Scalassaraetal., 2008;
Torresetal., 2003; Zhang e Jiang, 2008).
Para que um sistema de auxlio a diagnsticos
possa ser implementado com eficincia, torna-se
primordial o estudo de tcnicas que ofeream um
excelente desempenho, para que o erro de diagnstico
seja mnimo. A investigao acerca de quais so as
melhores caractersticas que distinguem um sinal
de voz saudvel de um sinal de voz patolgica e,
principalmente, que permita distinguir entre patologias
ainda um campo em desenvolvimento.
Na literatura especfica, a maioria das pesquisas
se baseia em discriminar entre vozes saudveis e
patolgicas em geral sem, no entanto, discriminar
entre patologias distintas. Neste trabalho, pretendese
investigar o potencial discriminativo de medidas
oriundas da anlise dinmica no linear, para classificar
sinais de vozes saudveis e patolgicas, bem como
distinguir qual patologia est afetando a qualidade
vocal. As patologias larngeas consideradas neste
trabalho so paralisia nas pregas vocais, edemas de
Reinke e ndulos vocais. As medidas empregadas,
oriundas da anlise dinmica no linear so: Dimenso
de correlao, entropia de correlao, entropia
aproximada, entropia de Shannon, entropia de Tsallis,
expoente de Hurst, maior expoente de Lyapunov e
primeiro mnimo da funo de informao mtua.
A tcnica de anlise de discriminante quadrtica
aplicada para classificar os sinais em saudveis ou
patolgicos, considerando as caractersticas de forma
individual e combinada.
No intuito de melhorar as taxas de classificao
na discriminao entre patologias realizada uma
combinao das medidas da anlise no linear com
coeficientes LPC (Linear Prediction Coding), obtidos
a partir da anlise linear para o modelo de produo
da fala. O objetivo dessa combinao investigar se
caractersticas de abordagens diferentes podem extrair

Classificao de sinais de voz por anlise dinmica no linear e anlise LPC

informaes que, combinadas, possam refletir mais


especificamente as desordens vocais provocadas pela
presena de uma determinada patologia na laringe.

Materiais e Mtodos
Base de dados
Neste trabalho, os sinais processados so provenientes
da base de dados comercialmente disponvel, a
Disordered Voice Database, Modelo 4337, gravada
pelo Massachusetts Eye and Ear Infirmary (MEEI)
(Kay Elemetrics, 1994). A base de dados contm
pronncias sustentadas da vogal /a/, sendo 53arquivos
de locutores com voz saudvel e 657com vozes
patolgicas (vozes afetadas por patologias larngeas).
Foram selecionados 130 sinais, sendo os 53 sinais
de vozes saudveis e 77 sinais de pacientes com
patologia na laringe (31 com edema de Reinke,
28com paralisia e 18 com ndulos). Os sinais de
vozes saudveis, originalmente amostrados a uma
frequncia de 50.000 amostras/s, foram subamostrados
a 25.000 amostras/s para equiparar o nmero de
amostras aos sinais patolgicos. Os sinais de vozes
tm durao mdia de um segundo para os sinais
patolgicos e de 3 segundos para os sinais de vozes
saudveis. Os sinais disponibilizados na base de dados
so previamente processados, por isso, no contm
intervalos de silncio antes ou depois da elocuo.
Evitando, assim, quaisquer problemas frequentemente
encontrados em incio e fim de gravao.

Metodologia
O sistema de classificao representado de forma
resumida pela Figura1. Aps a aquisio do sinal por
um microfone, o sinal armazenado em um computador
pessoal processado. So analisados 960 ms de cada
sinal de voz, sendo 30 quadrosde 32 ms, de forma
a preservar a estacionariedade. A seguir feita a
extrao de caractersticas e logo aps a classificao
dos sinais. So realizadas duas abordagens distintas
para a extrao de caractersticas: uma abordagem
paramtrica, baseada no modelo linear de produo
da fala, e outra em medidas obtidas a partir da anlise
dinmica no linear. Na abordagem paramtrica, os
coeficientes LPC so extrados de cada sinal, aps
sua segmentao, configurando um vetor de ordem
p (ordem do filtro de predio) para cada segmento.
Neste trabalho so utilizados diferentes valores de p
(12, 16, 20 e 24), com o intuito de avaliar o efeito
do aumento da ordem de predio no desempenho
da classificao.

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

Extrao de caractersticas
Aps a segmentao do sinal realizada a extrao
de caractersticas, feitas sob as duas abordagens para
o modelo de produo de fala (linear e no linear),
descritas a seguir.

Anlise dinmica no linear


A anlise dinmica de sinais pode ser feita por meio
de um modelo matemtico associado ao sistema de
produo desses sinais ou por meio da anlise de
sries temporais. O ponto essencial desta anlise
que uma srie temporal contm informaes sobre
variveis no observveis do sistema, o que permite
a reconstruo do espao de estados (Savi, 2006).
Cada sinal de voz a ser analisado corresponde a uma
srie temporal.

Figura1. Diagrama em blocos do sistema de classificao de vozes


patolgicas.
Figure1. Block diagram of pathological voices classification system.

A tcnica de reconstruo do espao de estados


baseada no teorema da imerso de Takens (1981).
Ele demonstrou que, com o uso da tcnica dos
tempos de retardo, ou mtodo das coordenadas
defasadas, possvel reconstruir certas propriedades
topolgicas do espao de estados (atrator) a partir da
srie temporal, {xi} em que vetores i m-dimensionais
so reconstrudos, de forma que:
i = { x (ti ) , x (ti + ) ,..., x(ti + (m 1))}

(1)

onde, i=1, 2,..., T(m1), T o nmero total


de amostras,m a chamada dimenso de imerso e
o passo de reconstruo ou tempo de defasagem
(Fiedler-Ferrara e Prado, 1994).
A determinao eficiente dos parmetros de
reconstruo (tempo de defasagem e dimenso de
imerso) de extrema importncia para a identificao
dos invariantes geomtricos do sistema, tais como a
dimenso do atrator e os expoentes de Lyapunov. A
partir da reconstruo do espao de fases dos sinais
analisados realizada a extrao das medidas de
dinmica no linear.
Na Figura2 est ilustrada a reconstruo em duas
dimenses do atrator de um dos sinais de voz analisados
utilizando: (a) um passo de reconstruo bem menor
do que o adequado (=1); (b) utilizando um passo
de reconstruo timo determinado com o uso da
funo de informao mtua (=5); e (c) usando
um passo bem maior do que o adequado (=10).
O mtodo utilizado para obteno do passo de
reconstruo, utilizado neste trabalho, devido a
Fraser e Swinney (1986) e est baseado na funo de
informao mtua. Neste mtodo, o valor do tempo
de defasagem ideal corresponde ao primeiro mnimo
local, quando este existir, da funo de informao
mtua mdia I().
b

Figura2. Reconstruo do atrator da vogal sustentada /a/ em um intervalo de 32 ms. Parmetros: m=2 e a) =1 amostra, b) =5 amostras
e c) =10 amostras.
Figure2. Atractor reconstruction of the sustained vowel /a/ for a 32 ms frame. Parameters:m = 2 and a) = 1 sample, b) =5 samples
and c) =10 samples.

Rev. Bras. Eng. Biom., v. 29, n. 1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Classificao de sinais de voz por anlise dinmica no linear e anlise LPC

Funo de informao mtua


A informao mtua mdia fornece as mesmas
informaes que a funo de correlao fornece
em sistemas lineares sendo, na realidade, um tipo
de generalizao para sistemas no lineares (Savi,
2006). Na Figura3 est ilustrado o comportamento
da I() em funo de , para o mesmo segmento do
sinal cujo atrator est mostrado na Figura2. A linha
tracejada indica o ponto onde ocorre o primeiro
mnimo de I() (FMMIFirst Minimum of Mutual
Information) e assim a determinao do passo de
reconstruo timo para este segmento (=5).
A partir de um histograma de b intervalos de
classe (bins), criado para estimar a distribuio de
probabilidade dos dados de um sinal x(t), a informao
mtua mdia entre x(t) e sua verso defasada x(t+)
estimada por meio da expresso:
Pi , j ( x(t ), x(t + ) )
I ( ) = Pi , j ( x(t ), x(t + ) ) log 2
(2)
i =1 j =1
Pi ( x(t ) ) Pj ( x(t + ) )
b

em que Pi(x(t)) a probabilidade de que o sinalx(t)


assuma um valor dentro do i-simo intervalo do
histograma, Pj(x(t+)) a probabilidade de que
x(t+) esteja no j-simo intervalo e Pi,j(x(t), x(t+))
a probabilidade de que, simultaneamente, o sinal de
x(t) esteja no i-simo intervalo e x(t+) no j-simo
intervalo (Kantz e Schreiber, 2004).

Dimenso de correlao
A dimenso de correlao, uma das formas mais
comuns de se calcular a dimenso de um atrator,
uma medida geomtrica de uma trajetria no espao de
fase que descreve o quanto dois pontos dessa trajetria
so correlacionados. Ela mede a probabilidade de se
encontrar um par aleatrio de pontos dentro de um
determinado volume elementar (Savi, 2006).

Figura3. Funo de Informao Mtua e determinao do passo de


reconstruo timo para um segmento de 32 ms da vogal sustentada /a/.
Figure3. Mutual Information Function and the determination of
optimal reconstruction step for a 32 ms frame of /a/ sustained vowel.

Grassberger e Procaccia (1983) desenvolveram um


algoritmo para o clculo da dimenso de correlao,
em que a probabilidade de se ter dois pontos do atrator
numa caixa de lado aproximada pela probabilidade
de que a distncia entre dois pontos seja menor que .
Esse algoritmo fornece um limite inferior e um valor
aproximado para a dimenso fractal (Fiedler-Ferrara
e Prado, 1994).
Seja q() a frao de pontos do atrator que est
dentro de uma hiperesfera de raio , centrada no
ponto i (i-simo vetor de imerso m-dimensional).
Essa frao expressa pela relao:

1 N
i j
N j =1

(3)

sendo N o nmero de pontos no atrator. A funo
degrau (x) tal que =1 se x 0 , e =0 se x<0.
Define-se a integral de correlao Cm() como:
q() =

Cm ( ) =

N
1
lim q ( )
N 1 N i =1(i j )

(4)

A dimenso de correlao ento calculada, para


cada valor de m, como:
D2 lim

log Cm ( )
log()

(5)

ou seja, D2 a inclinao de uma reta definida pelo grfico


log Cm() log (), para um valor infinitesimal de .
Na Figura4 apresentado o comportamento da
dimenso de correlao, em funo dem e de , para
um segmento de 32 ms de um sinal de voz saudvel.
A fim de se estimar o valor de D2 em cada segmento
do sinal so consideradas as inclinaes da integral
de correlao para diferentes dimenses de imerso,
comm variando de 4 a 10.

Figura4. Comportamento da dimenso de correlao para um


segmento de 32 ms de um sinal de voz saudvel em funo da
dimenso de imerso e do valor de , em que as curvas correspondem
as diferentes dimenses de imerso (m=4, ..., 10) de baixo para
cima, respectivamente.
Figure4. Correlation dimension behavior for a 32 ms segment of
a healthy speech signal in function of the embedded dimension and
value, wherein the curves correspond to the different embedded
dimensions (m=4, , 10) upwards, respectively .

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

A partir da inspeo visual do comportamento dos


valores da dimenso de correlao em funo dem
e de levado a efeito a determinao do valor de
que oferece o menor coeficiente de variao entre
as curvas dentro de um intervalo de convergncia. O
valor de D2 para o segmento estimado como sendo
a mdia dos valores obtidos de cada curva para este
valor de . Para o segmento ilustrado na Figura4,
o quadrado sobreposto ao grfico indica os valores
encontrados (=0,050 e D2=1,43).

Entropia de Shannon
Dado um determinado sinal, a entropia de Shannon,
H1, definida como (Shannon, 1948):
M

H1 = pi log 2 ( pi )
i =1

(6)

em que pi a probabilidade de que o sinal pertena


a um intervalo i e M o nmero de parties em seu
espao de fase.
A entropia de Shannon, H1, a medida de
informao necessria para localizar um sistema em um
determinado estado, significando que H1 a medida da
incerteza sobre o sistema fsico (Torresetal., 2003).
As medidas de entropia avaliam o grau de desordem
de um sinal, podendo ser empregadas para avaliar as
desordens nos sinais de vozes afetados por patologias
na laringe (Littleetal., 2007; Scalassaraetal., 2008).

Entropia de correlao
O procedimento de Grassberger-Procaccia, permite
estimar a entropia de Correlao, K2, a partir das
integrais de correlao Cm() (Equao4), da seguinte
forma:
1 C ()
K 2 () = ln m
Cm +1 ()

(7)

em que o passo utilizado na reconstruo em a


dimenso de imerso.
Na Figura5 apresentado o comportamento da
entropia de correlao, em funo de m e de , para
um segmento de 32 ms de um sinal de voz patolgico.
A fim de se estimar o valor de K2 em cada segmento
do sinal so consideradas as curvas com os valores
da entropia de correlao para diferentes dimenses
de imerso, com m variando de 4 a 10 e diferentes
valores de .
A partir da inspeo visual do comportamento dos
valores da entropia de correlao em funo dem e
de levada a efeito a determinao do valor de
que oferece o menor coeficiente de variao entre as
curvas dentro de um intervalo de convergncia. O
valor de K2 para o segmento estimado como sendo

Figura5. Comportamento da entropia de correlao para um


segmento de 32 ms de um sinal de voz patolgico, em funo da
dimenso de imerso e do valor de em que as curvas correspondem
as diferentes dimenses de imerso (m=4,...,10), de baixo para
cima, respectivamente.
Figure5. Behavior of entropy correlation for a 32 ms frame of a
pathological speech signal related to embedded dimension and
value, wherein the curves correspond to the different embedded
dimensions (m=4, , 10), upwards, respectively.

a mdia dos valores obtidos de cada curva para este


valor de. A entropia de correlao do sinal tomada
como sendo a mdia calculada sob todos os segmentos
do sinal analisado. No caso do segmento ilustrado na
Figura5, o quadrado sobreposto ao grfico indica os
valores encontrados (=0,031 e K2=0,184).

Entropia aproximada
A entropia aproximada, ApEn, uma medida da
informao condicional mdia gerada por pontos
divergentes numa trajetria no espao de fase
(AriasLondonoetal., 2011). Considerando valores
fixos param e , e considerando os vetores dados na
Equao1, a entropia aproximada definida como
(Pincus, 1991):
ApEn(m, ) = lim m () m +1 ()
N

(8)

em que,
N m +1

m () = ( N m + 1) 1 log q ()
i =1

(9)

e q() definida pela Equao3 e N o nmero de


vetores do atrator reconstrudo em uma dimenso de
imerso mnimam.
A capacidade de discriminar mudanas de
complexidade a partir de uma quantidade relativamente
pequena de dados faculta a aplicao da ApEn em
uma variedade de contextos, incluindo processos
determinsticos, caticos e estocsticos (Pincus, 1991).
Embora a medida da entropia aproximada no seja
uma medida de caos, ela quantifica a regularidade do
processo de imerso em sries temporais (Torresetal.,
2003).

Rev. Bras. Eng. Biom., v. 29, n. 1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Classificao de sinais de voz por anlise dinmica no linear e anlise LPC

Entropia de Tsallis
A entropia de Tsallis uma generalizao da entropia
de Boltzmann-Gibbs (Chakrabarti e De, 2000).
definida como (Tsallis, 1988):
Hq = k

q
1 W
i =1 pi
q 1

(10)

em que q caracteriza a generalizao e {pi}


so as probabilidades associadas com as W (W )
configuraes possveis do sistema. A entropia de
Boltzmann-Gibbs encontrada quando, no limite, q1.
A principal caracterstica da entropia de Tsallis
a sua no aditividade (Tavares, 2003). Isto , a
informao contida em um sistema composto no
a simples soma da informao dos subsistemas
que o compem. As entropias de Shannon e de
Boltzmann apresentam a aditividade como uma de
suas caractersticas. A ideia principal da utilizao
da entropia de Tsallis verificar a contribuio do
parmetro entrpico (q) na avaliao de caractersticas
no extensivas (interaes no lineares) presentes na
dinmica das sries temporais (Silva, 2010).

Expoentes de Lyapunov
Os expoentes de Lyapunov esto relacionados taxa
mdia de divergncia ou de convergncia exponencial
de rbitas vizinhas no espao de fase. Geralmente,
um sistema contendo pelo menos um expoente de
Lyapunov positivo definido como catico, por outro
lado, um sistema sem nenhum expoente positivo
regular (Jiangetal., 2006).
Neste trabalho utilizada uma rotina do pacote
TISEAN (Heggeretal., 1999) a fim de se obter o
crescimento exponencial mdio das distncias entre
duas trajetrias, que baseada no algoritmo de Kantz
(1994). O programa basicamente gera os resultados
da expresso (Kantz e Schreiber, 2004):
S ( n) =

1 N 1
ln
N n0 =1 ( S n )
0

sn0 +n sn +n

Sn ( Sno )

(11)

onde, S(n) chamado de fator de crescimento


(stretching factor), Sn0 so os vetores de imerso
e (Sn0) a vizinhana de Sn0 com dimetro . Na
Figura6 est ilustrado o comportamento de S(n)
em funo do nmero de iteraes n, para trs
diferentes valores de em variando de 4 a 8. A
linha reta representa a inclinao mdia das curvas
mostradas e sua inclinao a estimao para o maior
expoente de Lyapunov, 1.

Figura6. Comportamento de S(n) em funo do nmero de iteraes,


de e dem (m = 4... 8).
Figure6. Behavior of S(n) related to iteration number, andm
(m = 4...8).

Expoente de Hurst
O parmetro ou expoente de Hurst (Hurst, 1951) uma
medida de autossimilaridade que vem sendo empregada
em diversas reas, tais como: gerenciamento de trfego
autossimilar de redes de computadores (Gomesetal.,
2001), reconhecimento de padres sonoros para
avaliao de sons pulmonares (Custdio, 1999),
sistemas de reconhecimento de locutor (SantAnaetal.,
2006), deteco de diferentes reas do crebro
(Rodrguez-Snchezetal., 2008) e anlise de sinais
EEG (eletroencefalograma) (Natarajanetal., 2004),
entre outros. Em processamento de sinais de voz,
este parmetro tem sido empregado por representar o
comportamento estocstico da voz (Fantinato, 2008).
Alm disso, apresenta um baixo custo computacional,
podendo ser obtido em tempo real, durante atividade
da fala (SantAnaetal., 2006).
Quanto maior o valor do parmetro de Hurst, maior
o impacto das autocorrelaes no desempenho do
sistema. Alm disso, pequenas variaes no parmetro
de Hurst podem significar mudanas significativas
no comportamento dos sinais, caracterizando o grau
de desordem do mesmo (Gomesetal., 2001). O
estimador R/S, empregado neste trabalho, um dos
mais conhecidos e simples mtodos para estimar o
grau de dependncia de uma sequncia amostral.
A estatstica R/S a soma parcial dos desvios, em
relao a sua mdia, de uma sequncia reescalonada
pelo seu desvio padro (Alvarez-Ramirezetal., 2008).
Se o processo estocstico associado sequncia
escalonada sobre certo domnio n, a estatstica R/S
segue a equao:
R / S = an H

(12)

em que R/S a distncia reescalonada (dividida pelo


desvio padro), a uma constante e H o expoente
de Hurst.

Anlise preditiva linear


A ideia bsica na predio linear a de que o valor
de uma amostra pode ser aproximado (predita), por

10

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

combinao linear dos valores das amostras anteriores,


levando em considerao a correlao entre estas.
Os coeficientes de predio linear ou coeficientes
LPC (Linear Predictive Coding) so estimados por
minimizao do erro quadrtico entre a amostra atual
e a sua predio (OShaughnessy, 2000; Rabiner e
Juang, 1993).
O modelo linear de produo da fala incorpora os
efeitos dos pulsos glotais, trato vocal e da radiao dos
lbios como um filtro linear (Rabiner e Schafer, 1978).
A fonte uma sequncia de impulsos quase peridicos
utilizados para gerar sons sonoros ou a adio de uma
sequncia de rudo aleatrio para sons surdos.
Um fator de ganho, G, ajustado para controlar a
intensidade da excitao. Combinando os efeitos dos
pulsos glotais do trato vocal e da radiao, o modelo
pode ser representado por uma funo de transferncia
de apenas polos, H(z), como:
H ( z) =

G
1 kp=1 (k ) z k

(13)

Os termos (k) representam os coeficientes de


predio linear (coeficientes LPC) e p a ordem do
filtro de predio.
O mtodo LPC estima cada amostra de voz baseado
numa combinao linear de p amostras anteriores. Um
valor de p maior representa um modelo mais preciso.
A anlise LPC fornece um conjunto de parmetros
da fala que representa o trato vocal. Espera-se que,
qualquer mudana na estrutura anatmica do trato
vocal, devido patologia, afete os coeficientes LPC.

taxa de classificao correta global do teste, ou seja,


a capacidade do teste de identificar corretamente
quando h e quando no h presena da doena. A
Acurcia (Equao14) definida como a relao
entre todos os sinais corretamente classificados e o
nmero total de sinais avaliados
Acurcia =

VP + VN
VP + VN + FP + FN

(14)

em que VP representa os verdadeiros positivos, ou


seja, o nmero de sinais classificados corretamente
como patolgicos; VN representa os verdadeiros
negativos, ou seja, em quantos sinais foram detectados
a ausncia correta da patologia; FP, os falsos positivos,
ou a quantidade de sinais saudveis classificados
erroneamente como patolgicos e FN os falsos
negativos, ou seja, a quantidade de sinais patolgicos
classificados erroneamente como saudveis.
A Sensibilidade mede a capacidade do teste em
identificar corretamente a doena entre aqueles que a
possuem, ou seja, o quo sensvel o teste. a relao
entre os sinais patolgicos corretamente classificados
e o nmero total de sinais patolgicos, dada por:
Sensibilidade =

VP
VP + FN

(15)

A Especificidade mede a capacidade do teste


em excluir corretamente aqueles que no possuem a
doena, ou seja, o quo especfico o teste. a relao
entre os sinais saudveis corretamente classificados
e o nmero total de sinais saudveis:
VN
VN + FP

(16)

Classificao

Especificidade =

Aps a extrao das caractersticas, tanto pela anlise


linear quanto pela no linear, realizado o processo
de classificao. Neste processo, aplicada a anlise
discriminante quadrtica (QDA), com validao
cruzada, em que so utilizados 10 subconjuntos (folds).
So avaliados os desempenhos de classificadores
implementados com cada uma das caractersticas, de
forma individual, e de classificadores implementados
a partir da combinao dessas caractersticas.
Outros classificadores so implementados com
coeficientes LPC de ordem p, variando de 12 a 24
(p=12, 16, 20 e 24). Aps a avaliao individual de
cada mtodo (linear e no linear), so construdos
vetores hbridos, em que a cada vetor LPC de ordemp,
so adicionadas as medidas no lineares. Uma nova
avaliao de desempenho realizada a partir dos
vetores hbridos.
Para avaliao de desempenho do processo de
classificao, trs medidas so utilizadas: acurcia,
sensibilidade e especificidade. A Acurcia mede a

Os resultados obtidos no processo de classificao


so apresentados a seguir.

Resultados
Na Tabela1 so apresentados os valores de acurcia
obtidos com o uso de cada uma das medidas da anlise
dinmica no linear (MNL), para a classificao entre
vozes saudveis (SDL) e patolgicas (PTL), usando a
anlise discriminante quadrtica (QDAQuadratic
Discriminant Analysis). A classe dos sinais patolgicos
inclui os sinais afetados por edema, ndulos e paralisia
nas pregas vocais. O expoente de Hurst, H, foi o
parmetro mais eficiente em capturar as desordens
vocais presentes nos sinais de vozes patolgicas,
comparadas aos sinais de vozes saudveis, tendo a
maior acurcia no processo de classificao.
Na Tabela2 so apresentados, inicialmente,
os resultados obtidos na classificao entre vozes
saudveis e patolgicas (SDL PTL), mediante a

Rev. Bras. Eng. Biom., v. 29, n. 1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Classificao de sinais de voz por anlise dinmica no linear e anlise LPC

combinao das medidas. Observa-se que, com a


combinao de apenas quatro medidas, entre as oito,
foi obtida a maior acurcia (96,03 4,11), com as
medidas entropia de Shannon (H1), entropia de Tsallis
(Hq), expoente de Hurst (H) e a dimenso de correlao
(D2). O acrscimo das trs medidas ao expoente de
Hurst proporcionou um aumento de cerca de 9% no
valor da acurcia, alcanada com o uso individual
desta caracterstica.
As patologias so separadas em classes diferentes
(paralisia, edema ou ndulo) e comparadas aos sinais
saudveis, constituindo as seguintes comparaes:
saudvel edema (SDL EDM), saudvel paralisa
(SDL PRL) e saudvel ndulo (SDL NDL).
Como apresentado na Tabela2, nesses casos, as
taxas de acurcia mdia so superiores a 97%, com
todas as taxas de especificidade chegando a 100%,
o que significa que nenhum sinal saudvel testado
foi considerado patolgico. O expoente de Hurst e
as entropias de Shannon e de Tsallis aparecem em
todas as combinaes, associando-se a outras medidas
no caso da discriminao entre saudvel e edema e
entre saudvel e paralisia.
Na distino entre patologias, observa-se pela
Tabela2, mesmo com a combinao das medidas,

a acurcia mdia atingiu no mximo 86%, enquanto


que os valores de sensibilidade mdia no chegaram a
75%. Dessa forma, visando aumentar o desempenho
na classificao, foi investigada a influncia do uso
combinado das medidas da anlise no linear com os
coeficientes LPC na discriminao entre as patologias
consideradas. Nas Figuras7 a 9 so mostrados os
resultados obtidos na discriminao entre paralisia
e edema, paralisia e ndulo e entre edema e ndulo,
respectivamente.

Figura7. Classificao entre vozes afetadas por paralisia e sinais


afetados por edema nas pregas vocais.
Figure7. Classification between voices affected by vocal fold paralysis
and vocal fold edema.

Tabela1. Avaliao de desempenho das medidas individuais valores de Acurcia (%) obtidos na classificao entre vozes saudveis e
vozes patolgicas.
Table1. Performance evaluation of individual measuresvalues of the obtained accuracy in classification between healthy and pathological
voices.

Medidas

Saudvel Patolgica

Saudvel Edema

Saudvel Paralisia

Saudvel Ndulo

1
FMMI
H1
Hq
H
ApEn
D2
K2

54,51 8,23
62,55 5,74
60,85 8,31
62,61 9,21
87,09 5,91*
56,60 6,72
79,36 10,77
52,88 5,09

61,22 11,05
60,22 8,48
69,44 8,82
67,44 7,18
85,67 5,13*
68,06 6,15
84,58 8,87
60,97 10,32

58,55 9,99
68,64 10,10
65,82 6,07
68,55 7,66
88,09 7,53*
69,29 13,51
87,50 8,09
61,96 11,98

52,32 13,08
58,21 14,46
74,64 8,03
76,07 6,82
94,29 5,28*
66,67 10,37
82,62 12,54
57,38 8,81

*Acurcia mxima.
*Maximum accuracy.

Tabela2. Avaliao de desempenho das medidas combinadasvalores de acurcia obtidos na classificao entre vozes saudveis e
patolgicas e entre as patologias.
Table2. Performance evaluation of combined measures-values of the obtained accuracy in classification between healthy and pathological
voices and among pathologies.

Classificao

Caractersticas

Acurcia (%)

Sensibilidade (%)

Especificidade (%)

SDL PTL
SDL EDM
SDL PRL
SDL NDL
PRL EDM
PRL NDL
EDM NDL

H1, Hq, H e D2
H1, Hq, H, D2 e K2
FMMI, H, D2 e H1 ou Hq
H1, Hq e H
1, FMMI, Hq, ApEn, D2 e K2
1, H, ApEn, D2 e K2
1, FMMI, H1, Hq, H e D2

96,03 4,11
98,75 2,83
97,50 3,77
98,57 3,23
77,00 14,59
86,00 11,03
76,00 9,51

94,46 5,13
96,67 7,54
93,33 10,05
95,00 11,31
74,17 18,74
65,00 29,66
55,00 26,39

98,00 4,52
100
100
100
81,67 18,17
96,67 14,94
86,67 12,31

11

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

Acurcia mdia (%)

12

Discusso

Paralisia Ndulo

100
96
92
88
84
80
76
72
68
64
60
12

16

20

24

Nmero de coeficientes LPC


MNL

LPC

MNL + LPC

Figura8. Classificao entre vozes afetadas por paralisia e sinais


afetados por ndulos nas pregas vocais.
Figure8. Classification between voices affected by vocal fold
paralysis and vocal nodules.

Figura9. Classificao entre vozes afetadas por edema e sinais


afetados por ndulos nas pregas vocais.
Figure9. Classification between voices affected by vocal fold Edema
and vocal nodules.

Na discriminao entre paralisia e edema, a taxa de


acurcia sai de 96,55% 1,51%, com 12 coeficientes
LPC para 99,24% 0,52%, com 24 coeficientes.
Alm do acrscimo na acurcia mdia em mais de
18%, em relao ao uso dos melhores resultados
individuais (LPC), com a combinao (MNL e LPC),
o erro padro caiu consideravelmente, aumentando
a confiabilidade do teste.
Na discriminao entre paralisia e ndulo, a
acurcia de 86% s com as medidas no lineares,
cresce para valores maiores que 99%. Com
12coeficientes LPC, a acurcia de 99,19% 0,55%,
com sensibilidade 100% e especificidade mdia de
aproximadamente 98%.
A acurcia mdia na classificao entre edema e
ndulo, antes de 76% com as medidas no lineares
e cerca de 70% com LPC, chega a mais de 98% com
o vetor hbrido, com apenas 12 coeficientes. E, passa
dos 99% a partir de 16 coeficientes, quando associados
s medidas no lineares.

Pelos resultados apresentados, constata-se que o


desempenho da classificao entre vozes saudveis
e patolgicas aumentou significativamente com a
combinao das medidas da anlise dinmica no
linear. Nos melhores resultados, o expoente de Hurst,
que se destacou como melhor medida individual,
aparece em todas as combinaes, juntamente com as
entropias de Shannon e de Tsallis, para a classificao
entre os sinais de vozes saudveis e sinais afetados por
paralisa, edema ou ndulo. No entanto, essas medidas
no foram eficazes em discriminar entre patologias,
apresentando taxas inferiores s apresentadas na
discriminao entre vozes saudveis e patolgicas.
A anlise LPC, comparada s outras medidas
empregadas, mostra-se mais eficaz em discriminar
entre patologias. Observa-se que o valor da acurcia
aumenta com o aumento da ordem de preditor. Alm
disso, o desempenho na classificao entre patologias
melhora significativamente ao combinar as medidas
no lineares com os coeficientes LPC.
importante considerar que o aumento na ordem
dos coeficientes LPC est associado a um maior volume
de dados a serem processados, aumentando o custo
computacional. No entanto, caso seja mais relevante a
preciso do diagnstico do que a realizao da anlise
em tempo real, possvel optar por empregar uma
maior quantidade de coeficientes LPC. Observa-se
pelos resultados, que o valor da acurcia no teve um
aumento to considervel com o aumento da ordem
de predio alm de 16 coeficientes.

Concluso
A partir dos resultados obtidos, constata-se que as
medidas no lineares conseguem capturar bem as
desordens vocais provocadas por patologias nas
pregas vocais, como ndulos, edemas e paralisia.
A considerao das no linearidades inerentes ao
processo de produo da fala e sua consequente
anlise utilizando medidas no lineares eficiente em
distinguir um sinal saudvel de um sinal patolgico,
comprovadamente com as patologias consideradas
no trabalho (edema, paralisia e ndulos nas pregas
vocais). Entretanto, observa-se que a abordagem
pelo modelo linear de produo da fala, em que os
coeficientes LPC modelam o trato vocal, consegue
distinguir melhor as especificidades existentes nas
patologias analisadas, notadamente quando combinadas
abordagem no linear. As mudanas nas estruturas
anatmicas do trato vocal e da fonte (laringe) foram
bem retratadas com a combinao das duas abordagens,
sendo a principal contribuio deste trabalho. Com a
abordagem hbrida, o desempenho na distino entre

Rev. Bras. Eng. Biom., v. 29, n. 1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

as patologias obteve um aumento considervel. Isto


denota que o mtodo empregado bastante promissor
na tarefa de discriminar entre vozes saudveis e vozes
afetadas por patologias larngeas, bem como entre
patologias. Espera-se que os mtodos apresentados
nesta pesquisa contribuam ainda mais para a deteco
precoce das doenas da laringe, auxiliando no seu
diagnstico ou para monitorar seu progresso, buscando
assegurar os cuidados clnicos adequados e mais
conforto aos pacientes.

Referncias
Alvarez-Ramirez J, Echeverria JC, Rodriguez E.
Performance of a high-dimensional R/S method for Hurst
exponent estimation. Physica A: Statistical Mechanics and
its Applications.2008; 387(26):6452-62. http://dx.doi.
org:10.1016/j.physa.2008.08.014
Arias-Londono J, Godino-Llorente J, S enz-Lech n N,
Osma-Ruiz V, Castellanos-Dominguez G. Automatic detection
of pathological voices using complexity measures, noise
parameters, and mel-cepstral coefficients. IEEE Transactions
on Biomedical Engineering.2011;58(2):370-9. http://dx.doi.
org/10.1109/TBME.2010.2089052
Boyanov B, Ivanov T, Hadjitodorov S, Chollet G. Robust
hybrid pitch detector. Electronic Letters.1993;29(22):19246.
http://dx.doi.org:10.1049/el:19931281
Chakrabarti CG, De K. Boltzmann-Gibbs entropy: axiomatic
characterization and application. International Journal of
Mathematics and Mathematical Sciences.2000;23(4):24351.
http://dx.doi.org/10.1155/S0161171200000375
Custdio RF. Anlise No-linear no reconhecimento de
padres sonoros: Estudo de caso para sons pulmonares
[tese]. Rio Grande do Sul: Universidade Federal do Rio
Grande do Sul;1999.119 p.
Dajer ME. Padres visuais de sinais de voz atravs de tcnica
de anlise de no-linear [dissertao]. So Paulo: Escola
de Engenharia de So Carlos;2006.154 p.
Fantinato PC. Segmentao de voz baseada na anlise
fractal e na transformada wavelet [dissertao]. So Paulo:
Instituto de Fsica de So Carlos da Universidade de So
Carlos;2008.123 p.
Fiedler-Ferrara N, Prado CPC. Caos: Uma introduo. So
Paulo: Ed. Edgard Blucher Ltda,1994.
Fraser AM, Swinney HL. Independent coordinates for
strange attractors from mutual information. Physical
Review A.1986;33:1134-40. http://dx.doi.org/10.1103/
PhysRevA.33.1134
Godino-Llorente JI, Gmez-Vilda P, Blanco Velasco M.
Dimensionality reduction of a pathological voice quality
assessment system based on gaussian mixture models
and short-term cepstral parameters. IEEE Transactions on
Biomedical Engineering.2006;53(10):1943-53. http://
dx.doi.org/10.1109/TBME.2006.871883
Gomes D, Fonseca N, Agoulmine N, Souza JN.
Neurocomputao na estimativa do parmetro de hurst.

Classificao de sinais de voz por anlise dinmica no linear e anlise LPC

In: SBRC2001: Anais do19 Simpsio Brasileiro de Redes


de Computadores;2001 Maio; Florianpolis, Santa Catarina.
Florianpolis;2001. p.306-21.
Grassberger P, Procaccia I. Measuring the strangeness of
strange attractors. Physica D.1983;9:189-208. http://dx.doi.
org/10.1016/0167-2789(83)90298-1
Hegger R, Kantz H, Schreiber T. Practical implementation
of nonlinear time series methods: the tisean package.
Chaos.1999;9(2):413-35. http://dx.doi.org/10.1063/1.166424
Henrquez P, Alonso JB, Ferrer MA, Travieso CM,
GodinoLlorente JI, Daz-De-Maria F. Characterization
of healthy and pathological voice through measures based
on nonlinear dynamics. IEEE Transactions on Audio,
Speech, and Language Processing.2009;17(6):1186-95.
http://dx.doi.org/10.1109/TASL.2009.2016734
Hurst E. Long term storage capacity of reservoirs. Transactions
of the American Society of Civil Engineers.1951;116:770-9.
Jiang JJ, Zhang Y, McGilligan C. Chaos in voice, from
modeling to measurement. Journal of Voice.2006;20(1):217.
http://dx.doi.org/10.1016/j.jvoice.2005.01.001
Johnson MT, Povinelli RJ, Lindgren AC, Ye J, Liu X, Indrebo
KM. Time-domain isolated phoneme classification using
reconstructed phase spaces. IEEE Transactions Speech
and Audio Processing.2005;13(4):458-66. http://dx.doi.
org/10.1109/TSA.2005.848885
Kantz H. A Robust Method to Estimate the maximal lyapunov
exponent of a time series. Physics Letters A.1994;185:7787. http://dx.doi.org/10.1016/0375-9601(94)90991-1
Kantz H, Schreiber T. Nonlinear time series analysis.2nded.
Cambridge: University Press;2004.
Kay Elemetrics. Disordered Voice Database.
Model4337.3thed. United Satates;1994.
Kokkinos I, Maragos P. Nonlinear speech analysis using
models for chaotic systems. IEEE Transactions on Speech
and Audio Processing.2005;13(6):1098-109. http://dx.doi.
org/10.1109/TSA.2005.852982
Kumar A, Mullick SK. Nonlinear dynamical analysis of speech.
Journal Acoustic Society America.1996;100(1):61529.
http://dx.doi.org/10.1121/1.415886
Little M. Biomechanically informed nonlinear speech
signal processing [tese]. Oxford: University of Oxford,
England; 2006. 164 p.
Little M, McSharry P, Roberts S, Costello D, Moroz
I. Exploiting nonlinear recurrence and fractal scaling
properties for voice disorder detection. BioMedical
Engineering OnLine.2007;6(23):1-19. http://dx.doi.
org/10.1186/1475925X-6-23
Manfredi C, Pierazzi L, Bruscaglioni P. Pitch estimation
for noise retrieval in time and frequency domain. Medical
& Biological Engineering & Computing.1999;37(2):532.
Natarajan K, Acharya UR, Alias F, Tiboleng T, Puthusserypady
SK. Nonlinear analysis of EEG signals at different mental
states. BioMedical Engineering OnLine.2004;3:7. http://
dx.doi.org/10.1186/1475-925X-3-7

13

14

Rev. Bras. Eng. Biom., v. 29, n.1, p. 3-14, mar. 2013


Braz. J. Biom. Eng., 29(1), 3-14, Mar. 2013

Costa WCA, Costa SLNC, Assis FM, Aguiar Neto BG

OShaughnessy D. Speech communications: human and


machine.2nded. New York: IEEE Press;2000.

Signal Processing;2008 Jan28-31; Madeira, Portugal.


Madeira;2008. v.2, p.163-170.

Petry A. Reconhecimento automtico de locutor utilizando


medidas de invariantes dinmicas no-lineares [tese]. Rio
Grande do Sul: Universidade Federal do Rio Grande do
Sul;2002.155 p.

Schreiber T, Schmitz A. Surrogate time series. Physica


D.2000;142:346-82. http://dx.doi.org/10.1016/S01672789(00)00043-9

Pincus SM. Approximate entropy as a measure of system


complexity. Proceedings of the National Academy of
Sciences.1991;88:2297-301. http://dx.doi.org/10.1073/
pnas.88.6.2297
Rabiner LR, Schafer RW. Digital processing of speech
signals. Upper Saddle River: Prentice Hall;1978.
Rabiner LR, Juang BH. Fundamentals of speech recognition.
Englewood Ciffs. New Jersey: Prentice Hall,1993.
Rodrguez-Snchez A, Delgado-Trejos E, Orozco-Gutirrez
A, Castellanos-Domnguez G. Nonlinear dynamics techniques
for the detection of the brain areas using MER signals.
International Conference on BioMedical Engineering and
Informatics.2008;2:198-202. http://dx.doi.org/10.1109/
BMEI.2008.330
SantAna R, Coelho R, Alcaim A. Text-independent
speaker recognition based on the hurst parameter and
the multidimensional fractional brownian motion model.
IEEE Transactions on Audio, Speech and Language
Processing.2006;14(3):931-40. http://dx.doi.org/10.1109/
TSA.2005.858054

Shannon C. A Mathematical theory of communication.


The Bell System Technical Journal.1948;27(3):623-56.
Silva LEV. Ferramentas computacionais na anlise da
variabilidade da frequncia cardaca atravs do paradigma
no extensivo no estudo de cardiopatias [dissertao]. So
Paulo: Universidade de So Paulo;2010.97 p.
Takens F. Detecting Strange Attractors in Turbulence. In:
Rand DA, Young L-S. Dynamical systems and turbulence.
New York: Springer-Verlag;1981. v.898, p.366-81.
Tavares AHMP. Aspectos matemticos da entropia
[dissertao]. Portugal: Universidade de Aveiro;2003.98 p.
Tokuda I, Miyano T, Aihara K. Surrogate analysis for
detecting nonlinear dynamics in normal vowels. The Journal
of the Acoustical Society of America.2001;110(6):320717.
Torres ME, Gamero LG, Rufiner HL. Study of complexity
in normal and pathological speech signals. In: EMBC 2003:
Proceedings of the 25th Annual International Conference
of the IEEE Engineering in Medicine and Biology Society,
2003 17-21 Sept., Cancun, Mxico. IEEE; 2003. p. 23392342. http://dx.doi.org/10.1109/IEMBS.2003.1280385

Savi MA. Dinmica no-linear e Caos. Rio de Janeiro:


E-papers;2006.

Tsallis C. Possible generalization of BoltzmannGibbs


statistics. Journal of Statistical Physics.1988; 52(1/2):47987.
http://dx.doi.org/10.1007/BF01016429

Scalassara PR, Dajer ME, Maciel CD, Pereira JC.


Voice signals characterization through entropy
measures. In: BIOSIGNALS2008: Proceedings of the
International Conference on Bio-inspired Systems and

Zhang Y, Jiang JJ. Acoustic analyses of sustained and


running voices from patients with laryngeal pathologies.
Journal of Voice. January2008; 22(1):1-9. http://dx.doi.
org/10.1016/j.jvoice.2006.08.003

Autores
Washington Csar de Almeida Costa*, Francisco Marcos de Assis
Departamento de Engenharia Eltrica DEE, Universidade Federal de Campina Grande UFCG, Campina Grande, PB, Brasil.
Washington Csar de Almeida Costa*, Silvana Luciene do Nascimento Cunha Costa
Coordenao do Curso Superior de Bacharelado em Engenharia Eltrica CCSBEE, Instituto Federal de Educao,
Cincia e Tecnologia da ParabaIFPB, Av. Primeiro de Maio, 720, Jaguaribe, CEP 58015-430, Joo Pessoa, PB, Brasil.
Benedito Guimares Aguiar Neto
Universidade Presbiteriana Mackenzie, CEP 01302-907, So Paulo, SP, Brasil.