Escolar Documentos
Profissional Documentos
Cultura Documentos
s que reconhecem Ag
s localizados a
uma distncia maior do que seu raio;
2.4 Calcule a densidade local para cada Ab;
2.5 Atualize R;
2.6 Aplique a supresso da rede de anticorpos;
2.7 Atualize E;
2.8 Reduza a taxa de mutao ;
end
No Passo 1, os parmetros do algoritmo so denidos. Alm do nmero de iteraes (max
it
),
o projetista deve denir a populao inicial de anticorpos (Ab), seus raios iniciais (R), o raio inicial
(E), o raio mnimo (r), a taxa de mutao inicial () e a constante de decaimento (c < 1). Repare
que h um nmero elevado de parmetros que devem ser denidos a priori, o que uma diculdade
comum em tcnicas bio-inspiradas.
A operao do algoritmo est toda denida dentro do lao iterativo do Passo 2. O Passo 2.1
representa a etapa de maturao de anidade. Os antgenos so apresentados um a um aos anticorpos
e aquele com maior anidade (menor distncia euclidiana) selecionado e sofre uma mutao com
taxa
it
na direo do antgeno, como descrito na Equao 3.1.
28 Quantizao Vetorial
Ab
i
= Ab
i
+
it
rand (Ag
j
Ab
i
) (3.1)
onde Ab
i
o anticorpo vencedor antes da mutao, Ab
i
aps a mutao, Ag
j
o antgeno em ques-
to,
it
a taxa de mutao e rand um nmero gerado aleatoriamente segundo uma distribuio
uniforme entre 0 e 1.
Pode acontecer de um certo anticorpo no vencer para nenhum antgeno, ou seja, para nenhum
dos antgenos ele o anticorpo com maior anidade. Esse anticorpo, portanto, no est contribuindo
para o reconhecimento dos antgenos e deve ser eliminado para evitar o desperdcio de recursos. Isso
ocorre no Passo 2.2.
Os anticorpos possuem um raio de atuao inversamente proporcional densidade local de dados
na regio do anticorpo. Caso a distncia do anticorpo com maior anidade a um certo antgeno seja
maior do que seu raio (R
i
) de atuao, esse anticorpo escolhido para sofrer clonagem. Essa a etapa
de expanso clonal, descrita no Passo 2.3. Os clones so cpias dos anticorpos originais mutadas na
direo do antgeno que desencadeou o processo de clonagem. Um nico anticorpo pode reconhecer
vrios antgenos que satisfaam essa condio, mas permitido gerar apenas um clone por anticorpo.
Com isso, espera-se que o crescimento da rede seja suave, tornando o processo de auto-organizao
da rede mais estvel.
Em seguida, calculada a densidade local de cada anticorpo (Passo 2.4). A densidade denida
como o nmero de dados na vizinhana do anticorpo, denida pelo raio E. Com os valores de
densidade, calcula-se o raio (R
i
) de atuao de cada anticorpo (Passo 2.5) segundo a Equao 3.2.
R
i
= r
_
den
max
den
i
_ 1
dim
(3.2)
onde r o raio mnimo, den
i
a densidade local de dados do anticorpo i, den
max
a maior densidade
local de dados de um anticorpo na iterao e dim a dimenso dos dados. Observe que um anticorpo
posicionado na regio mais densa, ou seja, que reconhece o maior nmero de antgenos a uma dis-
tncia E, ter um raio de valor igual a r e todos os outros tero raio maior do que esse valor. Note
tambm que essa frmula no implica que o raio seja inversamente proporcional densidade local,
mas sim que o hipervolume de uma hiperespera o seja.
Por m, ocorre a supresso da rede (Passo 2.6), em que o limiar de supresso o prprio raio (R
i
)
de atuao dos anticorpos. Assim, caso a distncia entre dois anticorpos seja menor do que o raio de
atuao de um deles, aquele com maior raio removido da rede. Calculando o valor mdio dos raios
de todos os anticorpos da rede no nal de cada iterao, obtm-se o raio (E) que dene a vizinhana
para o clculo de densidade local (Passo 2.7).
Por ltimo, a taxa de mutao reduzida segundo a frmula dada pela Equao 3.3:
3.2 Algoritmos Empregados em Quantizao Vetorial 29
Fig. 3.3: Exemplo do posicionamento e dos raios de atuao dos anticorpos.
it+1
=
it
c (3.3)
Essa reduo fora a convergncia da rede de anticorpos, pois a cada iterao eles se movimenta-
ro menos e seus clones caro mais prximos a eles, forando a supresso de um deles. Dessa forma
o tamanho e o posicionamento da populao se estabilizam.
O algoritmo consegue preservar a densidade local dos dados, permitindo que os anticorpos posi-
cionados nas regies mais densas quem mais prximos, pois possuem um raio menor. J nas regies
mais esparsas, seus raios tendem a ser maiores e a distribuio de anticorpos tende a ser esparsa
tambm. A Figura 3.3 mostra um exemplo em duas dimenses do posicionamento e dos raios de
atuao dos anticorpos obtidos ao nal da execuo do algoritmo para um conjunto de dados gerados
aleatoriamente a partir de trs distribuies de probabilidade gaussianas com varincias diferentes,
produzindo 50 pontos cada uma.
Repare que o algoritmo foi capaz de gerar um posicionamento adequado dos prottipos e que os
30 Quantizao Vetorial
raios
2
so inversamente proporcionais densidade local dos dados, como era esperado.
3.3 Tabela Comparativa
Aqui apresentada uma tabela comparando os algoritmos qualitativamente.
Tab. 3.1: Comparao entre os algoritmos k-mdias, Neural-Gas e ARIA.
k-mdias NG ARIA
Nmero de prottipos xo e denido a priori xo e denido a priori auto-ajustvel
Sensvel densidade no no sim
Bio-inspirado no sim sim
Sensibilidade inicializao forte mdia fraca
Custo Computacional baixo mdio alto
Sensibilidade a mnimos locais forte mdia fraca
3.4 Formas de Avaliar a Qualidade da Quantizao
A quantizao vetorial o processo de mapear dados em prottipos. Essa aproximao introduz
um erro na representao dos dados de entrada, denominado erro de quantizao vetorial (Gray e
Neuhoff, 1998).
O erro de quantizao de uma amostra de entrada n
i
dado pela distncia entre tal amostra e o
prottipo m
j
que a representa, denido por m
j
= q(n
i
), como mostra a Equao 3.4.
Q
i
= d(n
i
, q(n
i
)) (3.4)
onde d(, ) uma mtrica que fornece uma medida da distncia entre dois vetores, por exemplo, a
distncia euclidiana
3
.
Para avaliar o resultado de um algoritmo de quantizao, pode-se empregar o erro de quantizao
mdio Q
N
(Equao 3.5), ou seja, a mdia do erro de quantizao individual de cada amostra n
i
,
tomadas todas as N amostras de entrada.
Q
N
=
1
N
N
i=1
Q
i
=
1
N
N
i=1
d(n
i
, q(n
i
)) (3.5)
2
Formalmente, para um caso em duas dimenses, as reas dos crculos so inversamente proporcionais densidade
local dos dados e no os raios.
3
O algoritmo k-mdias, ao posicionar prottipos no centroide do conjunto de dados que eles representam, minimiza,
de fato, a distncia euclidiana ao quadrado.
3.4 Formas de Avaliar a Qualidade da Quantizao 31
Pode-se armar que o erro de quantizao a forma mais simples de avaliar a qualidade da
quantizao vetorial. Contudo, h situaes em que o erro de quantizao pode no ser uma medida
adequada da qualidade da quatizao.
Suponha, por exemplo, um cenrio simples em que h dois grupos de dados bem distintos, com o
mesmo nmero de amostras, gerados a partir da amostragem de duas funes gaussianas, com mdias
e varincias diferentes, como mostra a Figura 3.4
Fig. 3.4: Dois grupos de dados bem distintos, com 100 amostras cada, gerados a partir da
amostragem de duas funes gaussianas, sendo uma delas com mdia 0 e varincia 0,5 e a outra
com mdia 10 e varincia 2,0.
Uma distribuio de prottipos, que busque minimizar o erro de quantizao, posicionaria mais
prottipos sobre o grupo menos denso (produzido pela gaussiana com varincia maior), onde as dis-
tncias so naturalmente maiores.
No entanto, como h o mesmo nmero de amostras nos dois grupos, poderia ser interessante posi-
cionar tambm o mesmo nmero de prottipos nas regies denidas por cada grupo. Dessa forma, se
considerarmos a similaridade entre a distribuio dos dados e a dos prottipos, seria obtida uma solu-
o melhor, pelo menos no sentido de nmero de prottipos por amostra, junto a cada grupo. Existem,
portanto, dois objetivos diferentes e muitas vezes conitantes (Azzolini et al., 2010): minimizar o erro
de quantizao ou maximizar a similaridade entre as distribuies.
Para avaliar tal similaridade, outra medida de qualidade da quantizao sugerida: a entropia
relativa, ou divergncia de Kullback-Leibler (Kullback, 1959). Suponha que se conhecem as funes
densidade de probabilidade p
N
(x) e p
M
(x), das quais teriam sido amostrados, respectivamente, os N
dados de entrada e os M prottipos. Ento, possvel medir a dissimilaridade H(N, M) entre essas
32 Quantizao Vetorial
duas distribuies usando a entropia relativa (Fukunaga e Hayes, 1989), dada na Equao 3.6.
H(N, M) =
_
ln
_
p
N
(x)
p
M
(x)
_
p
N
(x) dx (3.6)
Quanto mais distintas forem as distribuies, maior ser o valor de H(N, M), sendo 0 o resul-
tado quando as duas distribuies so iguais. A Equao 3.6 da entropia pode ser re-escrita como
E{ln[p
M
(x)/p
N
(x)]}, onde a esperana tomada em relao a p
N
(x). Substituindo, ento, a espe-
rana pela mdia amostral, chega-se a uma aproximao para a entropia relativa, mostrada na Equao
3.7 (Fukunaga e Hayes, 1989).
H(N, M) =
1
N
N
i=1
ln
_
p
N
(x
i
)
p
M
(x
i
)
_
(3.7)
Entretanto, geralmente as funes p
N
(x) e p
M
(x) no so conhecidas e, portanto, precisam ser
estimadas. H algumas maneiras de estimar funes densidade de probabilidade, das quais duas
sero apresentadas (Silverman, 1986): o mtodo KNN (do ingls k-nearest neighbour) e o mtodo
do estimador de ncleo (do ingls kernel estimator). Segundo o mtodo KNN, a estimativa feita da
seguinte forma:
p(x) =
k
[d
k
(x)]
d
(3.8)
onde d
k
(x) a distncia entre x e seu k-simo vizinho mais prximo e d a dimenso do espao.
Com isso, obtm-se uma medida de nmero de amostras em um certo volume, de tal forma que o
parmetro k dene o tamanho da vizinhaa que empregada nesta estimativa. O estimador de ncleo
denido por:
p(x) =
1
N
N
i=1
K(x x
i
) (3.9)
no qual a funo de ncleo K deve satisfazer a seguinte condio:
K(x)dx = 1 (3.10)
Esse mtodo j foi utilizado para avaliar a qualidade da compresso do algoritmo aiNet, prede-
cessor do ARIA, por Stibor e Timmis (2007). Em seu trabalho, os autores empregaram como funo
de ncleo a funo gaussiana multivariada, dada pela Equao 3.11.
K(x) =
1
(2)
l/2
h
l
exp
_
x
2
2h
2
_
(3.11)
3.4 Formas de Avaliar a Qualidade da Quantizao 33
A chamada largura de banda h controla o tamanho da vizinhana, enquanto a funo de ncleo
determina o formato dessa inuncia.
Resumindo, a medida de qualidade chamada de entropia relativa dada por:
H(N, M) =
1
N
N
i=1
ln
_
p
N
(x
i
)
p
M
(x
i
)
_
(3.12)
Essa medida atende ao critrio de posicionamento de prottipos adotado pelo ARIA, baseado no
conceito de preservao de densidade, segundo o qual deseja-se posicionar mais prottipos onde h
mais dados (ou, no caso do exemplo, o mesmo nmero de prottipos onde h o mesmo nmero de
dados).
Tanto o erro de quantizao quanto a entropia relativa sero utilizados para avaliar o desempe-
nho dos algoritmos de quantizao descritos na Seo 3.2. importante ressaltar que a medida mais
adequada a se usar depende da aplicao em que a quantizao est inserida. Por exemplo, na apli-
cao abordada neste trabalho, em que sinais de fala sero quantizados, pode-se medir a qualidade
da quantizao avaliando-se a qualidade do sinal de fala produzido (ver Captulo 5). No entanto, os
algoritmos de quantizao operam no espao dos dados que so fornecidos a eles e, portanto, deve-se
saber que critrio perseguir neste espao, para que a qualidade da aplicao seja a melhor possvel.
Em outras palavras, deve-se buscar uma medida de qualidade da quantizao que seja correlacionada
com a medida de qualidade da aplicao.
34 Quantizao Vetorial
Captulo 4
Sntese de Fala
4.1 Introduo
As chamadas cincias da fala englobam diversas abordagens do estudo da fala, abrangendo reas
como a engenharia, a fsica, a lingustica, a psicologia experimental e cognitiva, a siologia da fala e
a informtica (Simes, 1999).
No que diz respeito engenharia, h vrias frentes de estudo no que se passa a chamar de pro-
cessamento de fala. O conceito de processamento de fala esteve primeiramente relacionado quase
sempre codicao de fala, que estuda meios ecientes para transmitir, armazenar e parametrizar
o sinal de fala. Com o avano tecnolgico, outras reas de estudo surgiram, das quais destacam-se
(i) o reconhecimento de fala, que a partir de um sinal de fala busca obter a descrio textual do que
foi falado, (ii) a sntese de fala, que utiliza mecanismos articiais para a produo de um sinal de
fala, e (iii) o reconhecimento de locutor, que pretende identicar, a partir de um sinal de fala, quem o
pronunciou, dentre outras reas (reconhecimento de lngua, sistemas de traduo automtica etc).
A converso texto-fala pode ser vista como um caso particular da sntese de fala, em que o sinal
de fala produzido a partir de um texto. Note que se pode dizer que a converso texto-fala realiza a
operao inversa do reconhecimento de fala.
Este captulo tem por objetivo introduzir os sistemas de converso texto-fala, mais especica-
mente a etapa de sntese de fala baseada na concateo de trechos de sinais de fala. Cabe mencionar
que a tcnica a ser proposta no Captulo 5 pode ser utilizada para compresso da base de fala utili-
zada em tais sistemas. Alm disso, vendo a situao por outro ngulo, pode-se armar que o sistema
descrito no Captulo 5 para a codicao de sinais de fala est baseado em sntese concatenativa, que,
portanto, merece ser detalhada. O Captulo 4 est organizado da seguinte forma: a Seo 4.2 dedi-
cada a uma breve introduo converso texto-fala e a Seo 4.3 trata da ltima etapa da converso,
a sntese de fala.
35
36 Sntese de Fala
4.2 Aspectos Gerais da Converso Texto-Fala
Os conversores texto-fala, tambm conhecidos como TTS (Text-To-Speech), so sistemas que pro-
duzem fala sinttica correspondente leitura de um texto (Latsch, 2005). De maneira geral, a tarefa
da sntese de fala a partir de texto pode ser dividida em duas etapas distintas, realizadas em sequncia:
a primeira etapa, correspondente anlise do texto, consiste em obter a representao fonolgica da
mensagem a partir de sua forma ortogrca; a etapa de sntese, por sua vez, responsvel pela gera-
o do sinal acstico associado representao fonolgica obtida na etapa anterior (Simes, 1999). O
diagrama da Figura 4.1 mostra de forma simplicada os passos necessrios para executar a converso.
Fig. 4.1: Passos da converso texto-fala.
A etapa de pr-processamento busca a formatao do texto para representar em sua forma textual
dgitos, siglas, abreviaturas e smbolos especiais. Apartir do texto formatado, executa-se a transcrio
ortogrco-fontica. Essa etapa consiste em encontrar a sequncia correta de fonemas que representa
cada uma das palavras contidas no texto. Vrios so os desaos dessa etapa, pois muitas letras, por
exemplo, tem pronncias variadas (observe a letra x das seguintes palavras: trax, xcara, exame,
prximo), muitas palavras de mesma ortograa podem pertencer a classes gramaticais diferentes (o
piloto / eu piloto), com pronncias diferentes, e h tambm casos de palavras de mesma ortograa e
classe gramatical, mas com pronncias diferentes dependendo do contexto (por exemplo, a palavra
sede, que se pronuncia sde ou sde dependendo do contexto).
Mas a representao fonolgica isolada no suciente para a obteno de uma fala sintetizada
4.3 Sntese de Fala 37
de qualidade. Deve-se ainda determinar o acento lexical das palavras, o ritmo e a entonao da frase
e a durao das pausas. Estes so chamados de parmetros prosdicos e permitem a gerao de fala
de forma mais natural.
A ltima etapa do processo de converso texto-fala a sntese do sinal propriamente dita, que ser
tratada com mais detalhes na prxima seo. O papel do mdulo de sntese consiste em obter o sinal
acstico a partir da representao fontico-prosdica obtida nas etapas anteriores (Simes, 1999).
4.3 Sntese de Fala
Os sistemas de sntese de fala podem ser divididos em quatro grandes grupos: a sntese por regras,
a sntese articulatria, a sntese paramtrica e a sntese concatenativa.
O princpio de funcionamento do sintetizador por regras baseado no modelo fonte-ltro da teoria
acstica de produo da fala. Segundo esse modelo, o sinal de fala produzido pelo aparelho fonador
humano corresponde ao resultado da passagem de uma fonte de excitao (que pode ser sonora,
no sonora ou mista) por um ltro, cuja funo de transferncia determinada pela congurao
instantnea do trato vocal. Ao fornecer um modelo adequado da fonte de excitao ao sintetizador,
pode-se supor que ele capaz de produzir sinal de fala na sua sada, desde que o modelo seja capaz
de simular a funo de transferncia do trato vocal humano. Em outras palavras, a qualidade do sinal
sinttico gerado depende do modelamento correto do processo de ltragem e tambm da fonte de
excitao (Simes, 1999). O primeiro sintetizador de sucesso baseado nessa abordagem foi proposto
por Klatt (1980), e foi aperfeioado nos anos seguintes.
O funcionamento de um sistema de sntese articulatria baseia-se na construo de um modelo f-
sico o mais realista possvel do aparelho fonador humano, capaz de mimetizar a dinmica dos diversos
articuladores no processo de produo da fala. As posies desses articuladores (lngua, mandbula,
lbios, osso hiide, vu palatino etc.) correspondem s variveis do modelo. Pode-se armar que essa
abordagem foi a que obteve menos sucesso em aplicaes reais, estando at hoje restrita ao ambiente
acadmico.
Recentemente, uma abordagem que vem se destacando a sntese paramtrica. Essa tcnica uti-
liza uma base de fala gravada para treinar modelos estatsticos, geralmente utilizando HMM (Hidden
Markov Models), os quais geram parmetros de fala, que por sua vez so utilizados para a sntese de
um sinal. Essa abordagem gera fala sinttica de boa qualidade, mas ainda inferior obtida pela tc-
nica de sntese concatenativa, que ser descrita a seguir. Apesar disso, a chamada sntese HMM tem
recebido bastante ateno da comunidade cientca da rea, pois ela apresenta duas vantagens princi-
pais em relao sntese concatenativa (Benesty et al., 2008). Primeiro, ela necessita de muito menos
memria e, segundo, com essa tcnica mais fcil realizar as tarefas de modicao e transformao
38 Sntese de Fala
de voz, que constituem outro tema de pesquisa atual.
Atualmente, a maioria dos sistemas de sntese de fala que buscam alta qualidade ainda utiliza
a tcnica de sntese concatenativa. Na sntese concatenativa, o sinal de fala gerado atravs da
concatenao de trechos gravados de fala, como ser detalhado na Seo 4.3.1.
Embora a converso texto-fala fornea uma boa ilustrao de sua utilidade, sntese de fala no
est restrita a esse universo. A maioria dos sistemas atuais de comunicaes celulares ou pela Inter-
net utiliza alguma tcnica de sntese para a codicao e transmisso do sinal de fala, diferentemente
da telefonia xa clssica, em que a prpria forma de onda do sinal de fala era transmitida, apenas
com uma limitao de frequncia (at 3.4 kHz). O objetivo dessas tcnicas quase sempre a redu-
o da banda de transmisso, conferindo certa robustez s condies de cada sistema especco e
preservando a naturalidade da fala.
4.3.1 Sntese Concatenativa de Fala
A ideia por trs da sntese concatenativa gerar um sinal de fala articial a partir da concatenao
de segmentos gravados de fala natural. Tais segmentos devem ser selecionados a partir de um inven-
trio de unidades previamente construdo, e o contedo desse inventrio deve ser tal que seja possvel
sintetizar todas as sequncias fonticas possveis de serem realizadas dentro de uma determinada
lngua (Simes, 1999).
Para tanto, necessrio decidir quais sero as unidades bsicas utilizadas para concatenao. As
unidades podem variar desde simples quadros, passando por fones (o conceito de fone ser denido
no Captulo 5), difones, trifones, polifones, slabas, palavras e at mesmo conjuntos de palavras. Essa
deciso dene como ser o banco de gravaes contendo as unidades desejadas. Obviamente, quanto
maiores forem as unidades concatenadas, menor ser o nmero de concatenaes necessrias e mais
natural ser a fala sintetizada. Infelizmente, supondo que ser armazenada uma realizao de cada
unidade, a utilizao de unidades maiores implica em um maior nmero de unidades no inventrio
(por exemplo, uma lngua composta geralmente de algumas dezenas de fones, mas o nmero de
palavras imenso), o que aumenta seu custo de gerao e armazenamento.
A princpio, pode parecer interessante utilizar fones como os blocos constituintes bsicos, pois
eles so poucos e com eles seria possvel recriar qualquer sequncia de sons. No entanto, essa soluo
leva a sinais de qualidade muito ruim, muitas vezes sequer inteligveis. Isso porque as caractersticas
de um fone so fortemente inuenciadas pelos fones adjacentes (contexto fontico), um fenmeno
conhecido como co-articulao.
Uma escolha mais razovel so os difones. Um difone um segmento de fala que se inicia no
meio de um certo fone e termina no meio do fone seguinte. Com isso, pretende-se incluir os efeitos
da co-articulao dentro da unidade, evitando a ocorrncia de descontinuidades nas concatenaes.
4.3 Sntese de Fala 39
Ainda assim, h sons em que os efeitos da co-articulao se estendem por mais do que um fone ou
que tem uma forte caracterstica dinmica, tal que no h uma regio boa para se fazer o corte. Por
isso, a utilizao de difones tambm leva a sinais degradados. Nesses casos interessante utilizar
unidades maiores, como trifones ou slabas.
A utilizao de unidades mistas, chamadas genericamente de polifones (como difones, trifones e
slabas), aplicada at os dias de hoje em sistemas de sntese comerciais. A ideia manter o tamanho
do inventrio de unidades pequeno, mas cobrir a maior parte dos sons da lngua, respeitando sua
dinmica e incluindo seus efeitos de co-articulao. Essa tcnica capaz de gerar um sinal de fala
inteligvel, mas de pouca naturalidade.
A sntese a partir de um inventrio xo, ou seja, em que est armazenada apenas uma instn-
cia de cada possvel unidade (como as tcnicas baseadas em difones ou polifones), apresenta dois
problemas principais (Benesty et al., 2008). Primeiro, essa estratgia leva gravao de unidades
hiper-articuladas, capazes de serem utilizadas na maioria dos contextos, mas que portanto no es-
pecca a nenhum deles. Segundo, so necessrias tcnicas de processamento de sinais para adaptar
tais unidades para cada caso e esse processamento tambm causa alguma degradao.
Gerar um sinal de fala sinttica de tima qualidade (natural e inteligvel) s foi possvel a par-
tir da sntese baseada em seleo de unidades, em que so armazenadas vrias instncias de cada
unidade. Em tempo de execuo, dada uma sequncia fontico-prosdica alvo, um algoritmo de se-
leo escolhe, a partir de uma base de gravaes extensa, a melhor sequncia de unidades acsticas
para represent-la. As unidades escolhidas ainda podem ser difones, apesar de fonemas poderem
ser utilizados como alternativa para o caso em que o difone com as caractersticas desejadas no
est disponvel. Tambm possvel que palavras ou at mesmo frases inteiras possam ser utilizadas,
diminuindo o nmero de concatenaes.
Para que tais sistemas produzam fala sinttica de qualidade satisfatria (inteligibilidade e naturali-
dade prximas s da fala humana), necessrio que o banco de gravaes contenha diversos exemplos
de um grande nmero de contextos fonticos (Hentz e Seara, 2009). Para obter essa diversidade, ge-
ralmente esses bancos contm algumas horas de gravaes, ou at mesmo dezenas de horas, o que
implica em centenas de megabytes de memria ocupados.
Uma vez gravados, os sinais de fala que comporo o banco precisam ser processados, em um
procedimento chamado de segmentao e transcrio fontica, no qual o sinal de fala ser divido em
unidades s quais ser associado o devido fonema. Essa etapa pode ser automatizada, mas quase
sempre feita uma reviso manual por um especialista.
A Figura 4.2 ilustra o processo de converso texto-fala baseado em sntese concatenativa.
Apesar do recente avano das tecnologias de armazenamento de dados, que permitiram reduzir
seus custos a nveis muito baixos, h situaes em que o tamanho da base de gravaes pode ser um
40 Sntese de Fala
Fig. 4.2: Etapas da converso texto-fala baseada em sntese concatenativa.
problema, como em dispositivos mveis (celulares, smartphones e PDAs), receptores de TV digital e
em qualquer situao em que necessria a transmisso da base (por exemplo, para instalao remota
de sistemas de converso texto-fala). Neste trabalho, implementado um sistema de quantizao
vetorial que pode ser empregado para a compresso de bases de sinais de fala gravados.
Alm de bases de fala empregadas em sistemas de converso texto-fala baseados em sntese con-
catenativa por seleo de unidades, h outras aplicaes que requerem grande espao para armazena-
mento de sinais de fala pr-gravados. Um talking book, que uma verso falada equivalente verso
escrita de um livro, por exemplo. Outras aplicaes, como um sistema de assistncia ao aprendizado
de lngua, dicionrios eletrnicos e enciclopdias eletrnicas, so aplicaes potenciais para o sis-
tema avaliado neste trabalho, pois tambm necessitam armazenar grandes quantidades de sinais de
fala (Lee e Cox, 2001) ou podem estar associdados a um sistema de converso TTS. Alm disso, cabe
destacar que os testes realizados neste trabalho foram feitos a partir do contedo parcial de uma base
de gravaes desenvolvida para um sistema TTS comercial.
Captulo 5
Codicao de Fala
5.1 Introduo
Recentemente, viu-se uma expanso dos computadores e dos sistemas de comunicao digitais,
tornando o uso de sinais de fala digitalizados cada vez mais comum. Em tais sistemas, o sinal de
fala , portanto, representado por uma sequncia de bits. A maior vantagem dessa representao
binria que a informao pode ser recuperada perfeitamente (sem distoro) aps atravessar um
canal ruidoso, alm de no perder sua qualidade ao passar por diversas partes de diferentes sistemas
de transmisso
1
.
No entanto, uma representao digital do sinal de fala sempre vai apresentar erros de quantizao,
os quais so mais reduzidos quanto maior o nmero de bits, fazendo com que tais sistemas quem
complexos e caros. Considerando, por exemplo, uma taxa de amostragem de 8 kHz, e que cada
amostra tenha uma preciso de 16 bits (o que pode ser considerada uma preciso suciente para a
quantizao adequada das amostras de voz), seria necessrio uma taxa de: (8000 amostras/segundo)
* (16 bits/amostras) = 128kb/s. Isso encorajou o desenvolvimento de diversos mtodos de codicao
de fala, buscando formas mais ecientes para a transmisso e o armazenamento de sinais de fala
digitais.
Historicamente, a tecnologia de codicao de fala foi dominada por codicadores baseados em
predio linear. Para obter um sinal de qualidade boa, a maioria desses codicadores pode ser denida
como aproximadores de forma de onda. Dentre estes, os codicadores CELP (code-excited linear
prediction) (Schoroeder e Atal, 1985) e suas variaes - VSELP (Gerson e Jasiuk, 1990), LD-CELP
(Chen, 1989; Chen et al., 1992), ACELP (Adoul et al., 1987; Laamme et al., 1990), CS-CELP
(Kataoka et al., 1993), CS-ACELP (Salami et al., 1998), PSI-CELP (Miki et al., 1993), RCELP
(Kleijn et al., 1993), eX-CELP (Gao et al., 2001) - se tornaram, a partir de sua criao na dcada de
1
Essas vantagens existem, supondo que o sistema tenha sido projetado apropriadamente.
41
42 Codicao de Fala
80, a tcnica de codicao dominante.
Para taxas acima de 4kb/s, os codicadores de forma de onda baseados no codicador CELP so
capazes de produzir fala de boa qualidade. Para taxas abaixo desse valor, a maioria dos codicadores
busca modelar apenas as caractersticas perceptuais mais importantes, tipicamente atravs da codi-
cao de parmetros do modelo de predio linear do sinal de fala (Benesty et al., 2008). Por isso,
esses codicadores so chamados de codicadores paramtricos.
Este captulo descreve o sistema de codicao de fala empregado neste trabalho, o qual segue
uma abordagem diferente da abordagem desses codicadores e baseada em um paradigma de sn-
tese concatenativa (Lee e Cox, 2001), geralmente empregada em sistemas de converso texto-fala.
Tal codicador pode ser til, por exemplo, em aplicaes que requerem o armazenamento e/ou a
transmisso de grandes quantidades de sinais de fala pr-gravados. Este o caso de sistemas de con-
verso texto-fala (Seo 4.2) baseados em sntese concatenativa, que dependem de uma extensa base
de sinais de fala gravados para produzir resultados de qualidade elevada (Seo 4.3.1).
Uma questo importante denir um mtodo de avaliao do desempenho do sistema de codi-
cao empregado, quanto qualidade do sinal de fala produzido. Duas formas tradicionais para
avaliao da qualidade de sinais de fala so a avaliao subjetiva (inspeo auditiva) e avaliao ob-
jetiva (medida gerada por software). A avaliao subjetiva consiste do uso de mtodos padronizados
para gerao de notas de avaliao de qualidade por avaliadores humanos, sendo esta bastante dispen-
diosa em termos de tempo e requisitos de infra-estrutura. A avaliao objetiva, por sua vez, substitui
os avaliadores humanos por um algoritmo cuja funo modelar o comportamento desses avalia-
dores, atravs da utilizao de modelos psicoacsticos, que levam em conta diversas caractersticas
peculiares do aparelho auditivo humano.
Acompresso de uma extensa base de fala ser utilizada para avaliar o desempenho dos algoritmos
de quantizao vetorial apresentados no Captulo 3, uma vez que representam um cenrio desaador
para tais algoritmos, com uma grande quantidade de dados de alta dimenso. A avaliao se dar
de duas formas distintas, uma baseada na qualidade do sinal de fala produzido e outra baseada na
distribuio de prottipos gerada, sendo que esta ltima est descrita na Seo 3.4 e a primeira est
descrita na Seo 5.6. Deve-se ressaltar que ao avaliar a qualidade do sinal de fala produzido, avalia-
se o sistema como um todo (parmetros, algoritmo de quantizao, tcnica de concatenao etc.) e
no apenas a ecincia do algoritmo de quantizao vetorial aplicado.
A organizao do captulo a seguinte: a Seo 5.2 introduz os conceitos bsicos de processa-
mento de sinais utilizados. A Seo 5.3 mostra como construdo um codebook de quadros de fala
(chamado de dicionrio de quadros), atravs de quantizao vetorial, e a Seo 5.4 descreve como tal
dicionrio pode ser usado para a codicao de um sinal de fala, visando a compresso de uma base
de sinais. Na Seo 5.5, sero apresentados alguns dos principais parmetros extrados dos sinais de
5.2 Processamento do Sinal de Fala 43
fala e que so usualmente empregados em seu processamento. Por m, a Seo 5.6 descreve tcnicas
de avaliao da qualidade de um sinal de fala, que so necessrias para avaliar o desempenho do
sistema descrito.
5.2 Processamento do Sinal de Fala
Um sinal de fala produzido a partir da passagem do ar pelo aparelho fonador humano. As carac-
tersticas do sinal de fala em um dado instante dependem da congurao momentnea do trato vocal
do falante, ou seja, da abertura dos lbios e da mandbula, da posio da lngua, da taxa de vibrao
das pregas vocais etc. Ao proferir uma sentena, o falante modica continuamente a congurao de
seu trato vocal, de forma a produzir uma sequncia de sons que transmite uma mensagem ao ouvinte.
Essa sequncia de sons composta por unidades bsicas denominadas fones. Pode-se denir um
fone como um trecho do sinal de fala, cujas caractersticas acsticas seguem um determinado padro
(Simes et al., 2008).
Pode-se dividir os sinais de fala em trs categorias: os vozeados, os no-vozeados e aqueles com
caractersticas hbridas entre as dos sinais vozeados e as dos no-vozeados.
Nos trechos de sinal de fala chamados de vozeados (do ingls voiced), ocorre a vibrao das pregas
vocais. Percebe-se, nesse caso, que o sinal de fala apresenta uma caracterstica quase peridica, em
que a frequncia do sinal produzido est diretamente relacionado taxa de vibrao das pregas vocais
(Figura 5.1a). J nos trechos no-vozeados do sinal (do ingls unvoiced), no ocorre vibrao das
pregas vocais e o sinal apresenta caracterstica totalmente aperidica, assemelhando-se a um sinal de
rudo (Figura 5.3a).
Embora as caractersticas acsticas do sinal de fala variem continuamente ao longo do tempo,
possvel analis-las de forma discreta. Supondo que o sinal de fala estacionrio se considerarmos
perodos de tempo sucientemente pequenos, este sinal subdividido em trechos de curta durao,
chamados quadros (frames), cujas caractersticas podem ser consideradas praticamente constantes.
A forma mais comum de diviso do sinal adotar quadros de tamanho xo, por exemplo, 10
ou 20 ms. No entanto, neste trabalho utiliza-se uma abordagem que trata de forma diferente os
trechos vozeados dos no-vozeados, com o auxlio das marcas de pitch. Nos trechos do sinal com
caracterstica vozeada, as marcas de pitch so posicionadas nos picos do sinal de fala. Nos trechos
no-vozeados, as marcas de pitch so posicionadas em instantes igualmente espaados no tempo, no
caso 10 ms. Dene-se um quadro como sendo o trecho de sinal centrado em uma marca de pitch,
iniciando-se na marca anterior e terminando na marca seguinte. Outras duas denies emergem
dessa: o perodo esquerdo do quadro, espao de tempo entre a marca inicial e a central, e o perodo
direito, espao de tempo entre a marca central e a nal. Percebe-se que com essa forma de diviso
44 Codicao de Fala
Fig. 5.1: Etapas do processamento do sinal de fala empregado neste trabalho. (a) Trecho de
Sinal Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amostras do quadro, obtida
pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
do sinal h sobreposio entre quadros consecutivos, pois as amostras do perodo esquerdo de um
certo quadro coincidem com as amostras do perodo direito do quadro imediatamente anterior.
importante notar tambm que o quadro pode ser assimtrico em relao marca de pitch central, ou
seja, seus perodos direito e esquerdo podem ser diferentes.
Entretanto, antes de serem analisados, os quadros passam ainda por uma etapa de janelamento. O
janelamento pode ser entendido como um procedimento para limitar a anlise de um sinal a apenas
um certo trecho. Nesse sentido, a diviso do sinal em quadros, descrita anteriormente, nada mais do
que um processo de janelamento utilizando uma funo retangular de amplitude unitria e limitada
pelas marcas de pitch. No entanto, a funo retangular no uma escolha interessante para esta
aplicao, como car mais claro a seguir.
No processo de janelamento de quadros adjacentes, as janelas so posicionadas de forma que a
primeira amostra de uma janela coincida com a amostra da marca central da janela anterior e a ltima
5.2 Processamento do Sinal de Fala 45
Fig. 5.2: Etapas do processamento do sinal de fala empregado neste trabalho. (a) Trecho de
Sinal Hbrido de Transio. (b) Quadro. (c) Janela com o mesmo nmero de amostras do
quadro, obtida pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
amostra dessa mesma janela coincida com a amostra da marca central da janela seguinte. Ao somar
as amostras de janelas consecutivas posicionadas dessa maneira, em um processo chamado PSOLA
(Pitch-Synchronous Overlap and Add) (Moulines, 1990), deseja-se obter uma sequncia de amostras
de valor unitrio constante. Essa propriedade permite reconstruir o sinal original sem distoro a
partir de seus quadros janelados. Para isso, basta posicionar os quadros janelados conforme descrito
anteriormente e em seguida fazer o overlap and add dos mesmos (Simes et al., 2008).
As funes mais comuns utilizadas no janelamento de quadros de sinais de fala so as janelas
de Hamming e de Hanning. Nesse trabalho utiliza-se a janela de Hanning (Figuras 5.1c, 5.2c, 5.3c),
denida pela Equao 5.1, onde N o nmero de amostras da janela (Boll, 1979; Makhoul e Wolf,
1972).
(n) =
1
2
_
1 cos
_
2
n
N 1
__
0 n N 1 (5.1)
46 Codicao de Fala
Alm de conseguir reconstruir o sinal original, outra vantagem de se utilizar uma janela com
decaimento nas laterais evitar a insero de contedo de alta frequncia na anlise espectral dos
quadros, que decorreria da tentativa de modelar o degrau no incio e no m de um quadro obtido com
uma janela retangular.
As funes que denem as janelas so, em geral, simtricas em relao ao seu centro. Dada a
maneira como se deniu um quadro neste trabalho, estes podem ser assimtricos e, para realizar o
janelamento, constroi-se ento uma janela assimtrica a partir da concatenao de duas metades de
janelas de tamanhos diferentes, denidos pelo perodo esquerdo e pelo perodo direito do quadro em
questo. Assim, caso se deseje fazer o janelamento de um quadro de perodo esquerdo N
1
e perodo
direito N
2
, a primeira metade da janela requerida corresponde metade esquerda de uma janela de
Hanning de tamanho 2N
1
, e a segunda metade corresponde metade direita de uma janela de Hanning
de tamanho 2N
2
. Essa janela (assimtrica, se N
1
= N
2
) denida pela expresso 5.2.
(n) =
_
_
1
2
_
1 cos
_
2
n
2N
1
1
__
0 n N
1
1
2
_
1 cos
_
2
nN1+N21
2N
2
1
__
N
1
n N
2
+N
1
1
(5.2)
Ao multiplicar-se o sinal de fala por uma janela posicionada na marca de pitch central do qua-
dro sob anlise, obtm-se o quadro janelado, cujas amostras correspondem s amostras originais do
quadro com atenuao crescente em direo s bordas. So esses quadros janelados que constituem
a unidade bsica de anlise neste trabalho.
As Figuras 5.1, 5.2 e 5.3 ilustram esse processo de manipulao do sinal de fala para a obten-
o dos quadros janelados. Nessas guras, h um trecho de sinal de fala e as marcas de pitch (a),
destacando-se um quadro de interesse (b), a janela utilizada (c) e o quadro janelado obtido (d). A
Figura 5.1 exemplica um quadro de um trecho vozeado do sinal, como se pode perceber por sua
caracterstica peridica. A Figura 5.2 mostra um exemplo de um quadro de transio do silncio
(no-vozeado) para uma vogal (vozeada), onde se observa uma caracterstica hbrida. Note como o
quadro nitidamente assimtrico, com perodo esquerdo maior do que o perodo direito, e como isso
se reete na janela utilizada. Na Figura 5.3, h um exemplo de quadro no-vozeado.
Por m, os quadros janelados so submetidos a um processo de parametrizao, no qual cada
quadro passa a ser representado por um conjunto de parmetros. Uma srie de atributos pode ser
calculada a partir de um sinal de fala e, na Seo 5.5, sero descritos alguns dos principais parmetros
extrados dos sinais de fala e que so usualmente empregados em diversas aplicaes (sntese de fala,
reconhecimento de fala etc.).
5.3 Gerao do Codebook 47
Fig. 5.3: Etapas do processamento do sinal de fala empregado neste trabalho. (a) Trecho de
Sinal No-Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amostras do quadro,
obtida pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
5.3 Gerao do Codebook
Suponha que exista uma base de gravaes de sinais de fala utilizada em um sistema de sntese
de fala (Captulo 4), a qual se deseja compactar. Chamada de base de treinamento, ela ser utilizada
para a gerao do dicionrio de quadros e de seu correspondente codebook.
Os sinais de fala presentes na base de treinamento so submetidos ao processo descrito na Seo
5.2, no qual os sinais so subdivididos em quadros, janelados e, por m, parametrizados. Para todos
os quadros, o conjunto de parmetros calculados o mesmo, de forma que cada quadro gera um vetor
de atributos de mesma dimenso. Assim, a base de sinais de fala convertida em uma matriz de
vetores de atributos. Chamar-se- de base de treinamento tanto a base de sinais de fala quanto sua
correspondente matriz de vetores de atributos, sendo que atravs do contexto possvel distinguir
quando se est falando de uma ou de outra.
48 Codicao de Fala
Uma vez calculados os parmetros dos quadros, um algoritmo de agrupamento de dados (Captulo
3) pode ser utilizado para agrupar (quantizar) os quadros, de acordo com a proximidade (segundo
alguma mtrica) entre seus vetores de parmetros. O resultado da execuo desses algoritmos
um conjunto de prottipos que representa o conjunto de dados de entrada (base de treinamento),
separando-os em grupos diferentes. Deseja-se que os quadros pertencentes a um mesmo grupo, ou
seja, representado pelo mesmo prottipo, sejam semelhantes entre si, de modo que o prottipo seja
um bom representante de todos eles.
Deseja-se associar aos prottipos um quadro, por motivos que sero explicados na prxima se-
o. Como o prottipo de cada grupo no necessariamente coincide com a posio de um vetor de
treinamento existente, escolhido como representante do grupo o vetor de treinamento mais prximo
ao prottipo desse grupo, a m de associ-lo ao quadro que o originou. Designam-se esses vetores
de codevectors. O conjunto dos codevectors forma o codebook, ao qual relaciona-se o dicionrio de
quadros, constitudo pelos quadros que originaram os codevectors. Em um sistema de compresso,
o dicionrio de quadros ser utilizado para a reconstruo das formas de onda, na etapa de decodi-
cao do sinal de fala, enquanto o codebook ser utilizado na etapa de codicao desse sistema,
descrito na prxima seo. A Figura 5.4 ilustra essas etapas.
5.4 Compresso do Sinal de Fala
Uma vez gerados o codebook e o dicionrio de quadros, possvel utiliz-los para codicar qual-
quer sinal de fala do mesmo locutor
2
, inclusive a prpria base de treinamento. Para isso, o sinal que
se deseja codicar deve passar pelo mesmo processo de diviso em quadros, janelamento e parame-
trizao descrito na Seo 5.2, atravs do qual o sinal de fala transformado em uma sequncia de
vetores de parmetros. Para cada vetor de parmetros, varre-se ento o codebook em busca do code-
vector mais prximo, de forma que a sequncia de quadros mapeada em uma sequncia de ndices
do codebook. Esse processo de codicao est ilustrado na Figura 5.5(a).
Para a reconstruo (decodicao) do sinal, a sequncia de ndices remapeada em uma sequn-
cia de quadros, utilizando os quadros do dicionrio. Essa sequncia de quadros ento concatenada
atravs da tcnica de sntese de fala, conhecida como PSOLA (Pitch-Synchronous Overlap and Add),
como ilustra a Figura 5.5(b). Alm dos ndices, tambm necessrio ter/receber no decodicador
a informao de frequncia fundamental e energia de cada quadro, cujas nalidades esto descri-
tas a seguir. Portanto, o codicador tambm deve extrair essas informaes do quadro original para
disponibiliz-las.
2
Na realidade, nada impede de se usar o codebook e o dicionrio de quadros para codicar sinais de fala produzidos
por outros locutores, embora a qualidade do sinal e a identidade do locutor tendam a car severamente comprometidas.
5.4 Compresso do Sinal de Fala 49
(a)
(b)
Fig. 5.4: Etapas do processo de gerao do codebook. 5.4(a) Etapas detalhadas. 5.4(b) Processo
resumido.
50 Codicao de Fala
(a) (b)
Fig. 5.5: Processo de codicao e decodicao do sinal de fala. 5.4(a) Codicao do sinal
de fala utilizando o codebook. 5.4(b) Decodicao do sinal de fala utilizando o dicionrio de
quadros e os ndices obtidos na etapa de codicao.
Na tcnica PSOLA, os quadros so posicionados de forma a preservar os perodos de pitch do
sinal original da seguinte forma: o centro do quadro do dicionrio (marca de pitch central) posicio-
nado de forma que coincida com a marca de pitch central do quadro original. Dado que esses quadros
(o original e o advindo do dicionrio), no tm necessariamente o mesmo tamanho (o perodo es-
querdo de um quadro no igual ao perodo direito do quadro seguinte), a sobreposio de quadros
consecutivos pode ser maior ou menor do que 50%. Durante essa operao de overlap and add, faz-se
tambm um ajuste de amplitude dos quadros a m de preservar a energia do sinal original.
Caso o objetivo seja compactar uma base de fala, ela prpria usada como base de treinamento e,
emseguida, ela passa pelo processo de codicao descrito acima, de tal modo que a base comprimida
constituda por:
Dicionrio de quadros;
Sequncia de ndices de mapeamento dos quadros originais em quadros do dicionrio;
Frequncia Fundamental dos quadros originais;
Energia dos quadros originais.
5.5 Parmetros do Sinal de Fala 51
Por m, deve-se destacar que, para recuperar o sinal propriamente dito, este deve ser sintetizado
em tempo real, pois ele ca armazenado em sua forma codicada (sequncia de ndices + frequncia
fundamental + energia).
No caso da codicao de um sinal qualquer, o decodicador deve conter apenas o dicionrio de
quadros e os outros itens so gerados pelo codicador (que contm o codebook) e transmitidos e/ou
armazenados.
Neste trabalho, foi implementado desde a etapa de processamento do sinal de fala (janelamento
e parametrizao), passando pela gerao do codebook e do dicionrio de quadros (quantizao ve-
torial) at a reconstruo do sinal (sntese concatenativa), partindo de uma base de sinais de fala,
disponibilizada juntamente com a marcao de pitch dos sinais. Ou seja, foram desenvolvidos os
mdulos mostrados nas Figuras 5.4 e 5.5, sendo que foram feitos estudos quanto aos parmetros uti-
lizados, os quais sero descritos na prxima seo, e quanto ao algoritmo de quantizao empregado
para a seleo dos quadros do dicionrio.
5.5 Parmetros do Sinal de Fala
A parametrizao um mtodo utilizado para extrair a informao que interessa de um sinal,
dada determinada aplicao. Na maioria das situaes, trabalhar diretamente com a forma de onda de
um sinal pode ser invivel ou levar a resultados pobres. A parametrizao do sinal, portanto, busca
formas mais ecientes de interpret-lo para alguma nalidade, qualquer que seja (armazenamento,
transmisso, codicao etc).
Na literatura, podem ser encontradas descries de inmeros atributos extrados de sinais de fala
(Davis e Mermelstein, 1980; Picone, 1993). Dependendo da aplicao desejada, o uso de determi-
nado atributo, ou um conjunto deles, se mostra mais interessante. Por exemplo, para reconhecimento
de fala, deseja-se utilizar atributos capazes de armazenar informaes que contribuam na discrimi-
nao do que foi falado, independente de quem falou. J em uma aplicao de reconhecimento de
locutor, deseja-se exatamente o contrrio, ou seja, atributos que armazenem informaes capazes de
diferenciar cada locutor, independente do que foi falado
3
.
Como foi dito nas sees anteriores, a etapa de parametrizao desempenha um papel funda-
mental no sistema proposto, visto que a quantizao da base de dados de fala ocorre no espao dos
parmetros. A escolha de atributos capazes de discriminar os quadros de fala de forma eciente ,
portanto, de suma importncia para a ecincia do sistema.
Para isso, os atributos devem conter informaes que diferenciem um determinado quadro de fala
3
H tambm o caso do chamado reconhecimento de locutor dependente de texto, em que a informao do que foi
falado tambm faz parte do reconhecimento.
52 Codicao de Fala
de outro, de acordo com a percepo humana de seu som, uma vez que os quadros do dicionrio iro
substituir os quadros originais de um sinal, e deseja-se que tal codicao seja a mais imperceptvel
possvel para o usurio. Nesta seo, so apresentados apenas os atributos mais usuais e de particu-
lar interesse para a aplicao proposta. No inteno deste texto fazer uma descrio completa e
detalhada de todos os atributos de fala j propostos na literatura.
5.5.1 Parmetros Extrados no Domnio do Tempo
A partir da forma de onda no tempo, alguns parmetros teis podem ser extrados. Dentre eles
destacam-se a energia, a potncia, taxa de cruzamentos de zeros, os j mencionados perodo esquerdo
e perodo direito, e coecientes de predio linear (LPC - linear prediction coefcients).
A energia denida como a soma do quadrado das amostras do sinal e pode ser til para, por
exemplo, detectar quadros de silncio, os quais normalmente apresentam energia muito menor do
que aquela associada aos outros quadros, ou para normalizar o sinal, de forma que todos os quadros
apresentem energia unitria. A potncia simplesmente energia por unidade de tempo, ou seja, a
energia divida pela durao do quadro.
A taxa de cruzamentos de zeros o nmero de vezes que amostras consecutivas trocam de sinal,
de negativo para positivo ou vice-versa. Outro parmetro conceitualmente parecido o nmero de
inexes do sinal, dado pelo nmero de vezes que sua primeira derivada em relao ao tempo troca
de sinal. Tais parmetros podem ajudar a distinguir entre quadros de sons vozeados e no-vozeados,
haja vista que estes ltimos apresentam um comportamento mais ruidoso, de maneira que suas formas
de onda tm um nmero muito maior de cruzamentos de zeros e/ou inexes do que os quadros de
sons vozeados.
O perodo esquerdo e o perodo direito j foram descritos na Seo 5.2, mas repetem-se aqui para
completude da descrio. Considerando que um quadro denido como o segmento de sinal que se
inicia em uma marca de pitch, centrado na marca seguinte e termina na marca posterior central
(ver Figuras 5.1, 5.2 e 5.3), o perodo esquerdo denido como o nmero de amostras (ou o espao
de tempo) entre a marca central e a inicial, e o perodo direito tem a mesma denio, mas entre a
marca central e a nal. Esses perodos podem ser usados para obter a frequncia fundamental F
0
,
no caso dos quadros vozeados, pois nesses casos as marcas de pitch esto espaadas de um perodo
fundamental (supondo que a marcao de pitch foi corretamente efetuada).
Os Coecientes LPC e LSF
A predio linear talvez a forma mais comum de anlise do sinal de fala (Atal, 2006). Apredio
linear uma tcnica de separao fonte/ltro que assume um modelo simples de produo de fala,
5.5 Parmetros do Sinal de Fala 53
o qual considera que o sinal de fala o resultado da passagem de um sinal de entrada por um ltro
linear. Normalmente h interesse particular no ltro, pois dado o ltro e o sinal de sada (o sinal
de fala), pode-se chegar ao sinal de entrada, muitas vezes visto como o sinal de erro da ltragem
(resduo) (Rabiner e Schaffer, 1976). Como descrito na Seo 5.2, considera-se que o sinal de fala
em um quadro estacionrio e, portanto, o ltro invariante no tempo para cada quadro.
Esta anlise recebe o nome de predio linear, pois considera que cada amostra do sinal de fala
pode ser aproximada (predita) a partir de uma combinao linear de amostras passadas. Os pesos
dados s amostras passadas nesta combinao so os chamados coecientes de predio linear (LPC
- do ingls Linear Prediction Coefcients) e denem o ltro em questo, cuja ordem determinada
pelo nmero de amostras passadas utilizadas (Markel e Gray Jr., 1976). Quanto maior a ordem,
melhor a predio. Chamando de s(n) um dado sinal de fala, s(n) sua aproximao e de M a
ordem do ltro utilizado:
s (n) =
M
i=1
a
i
s(n i) (5.3)
onde a
i
so os coecientes do ltro de predio linear.
Existem alguns algoritmos para estimar os coecientes LPC
4
de forma a minimizar o erro de
predio, dos quais se destaca o algoritmo de Levinson-Durbin (Levinson, 1947; Durbin, 1959, 1960).
Mas para este trabalho, o mtodo utilizado no importa e, por isso, eles no sero descritos.
No entanto, sabe-se que os coecientes LPC so inapropriados para quantizao, devido a sua
faixa dinnica relativamente grande e por que a quantizao pode transformar um ltro LPC estvel
em um ltro instvel (Song e Juang, 1993). Mas possvel representar os coecientes LPC de ou-
tras maneiras. Uma representao bastante usada por sua robustez quantizao so os chamados
coecientes LSF (do ingls Line Spectral Frequency), tambm chamados de LSP (do ingls Line
Spectral Pairs), introduzidos por (Itakura, 1975). Sem entrar no mrito matemtico, os coecientes
LSF apresentam as seguintes propriedades (Hentz e Seara, 2009; Song e Juang, 1984):
Tm faixa dinmica limitada, o que os torna mais adequados para a quantizao;
Erros de quantizao no tornam o ltro instvel;
Parmetros LSF podem ser interpolados.
4
Apesar do termo coecientes j estar presente na sigla LPC, a expresso coecientes LPC ser utilizada para
fazer referncia a eles, pois a forma usualmente empregada e soa mais natural para o leitor.
54 Codicao de Fala
5.5.2 Parmetros Extrados no Domnio da Frequncia
Geralmente, a anlise de um sinal de fala ocorre no domnio da frequncia. At mesmo alguns dos
parmetros calculados no domnio do tempo podem ser tambm obtidos ou analisados no domnio da
frequncia.
Para isso, inicialmente calculado o espectro de frequncia do sinal, atravs da transformada
discreta de Fourier (DFT - discrete Fourier transform), que na prtica quase sempre implementada
com o algoritmo FFT (fast Fourier transform). O espectro da DFT complexo e pode ser represen-
tado por suas partes real e imaginria ou por sua magnitude e fase. Sabe-se que o ouvido humano
no sensvel fase e, por isso, a magnitude do espectro a representao mais adequada para o
processamento de fala no domnio da frequncia (Taylor, 2009).
A sensibilidade do ouvido humano aproximadamente logartmica, ou seja, uma multiplicao na
amplitude do sinal produz apenas um crescimento aditivo na intensidade sonora percebida. Portanto,
comum representar a amplitude em uma escala logartmica. Usualmente emprega-se o chamado log
do espectro de potncia, isto , o logaritmo do quadrado da magnitude do espectro de frequncia. A
Figura 5.6 mostra o log do espectro de potncia do quadro janelado da Figura 5.1.
Fig. 5.6: Logaritmo do quadrado da magnitude do espectro do quadro da Figura 5.1 e sua
respectiva envoltria espectral.
A partir da Figura 5.6, pode-se visualizar trs conceitos importantes no processamento de fala:
a frequncia fundamental e suas harmnicas, os formantes e a envoltria espectral. Na Figura 5.6,
nota-se uma srie de picos, igualmente espaados na frequncia. So as harmnicas, mltiplas da
5.5 Parmetros do Sinal de Fala 55
frequncia fundamental do sinal, que pode ser estimada pela diferena entre duas harmnicas conse-
cutivas. Os picos mais globais no espectro so os chamados formantes. Fisicamente, os formantes
so as frequncias de ressonncia do trato vocal e a frequncia fundamental a taxa de vibrao das
pregas vocais. O contorno do espectro de potncia, algo como ligar os picos do sinal, formando
uma curva, denominado a envoltria espectral e tambm est mostrado na gura. A envoltria foi
obtida a partir da resposta em frequncia do ltro LPC de ordem 20.
Outra peculiaridade do ouvido humano sua resposta em frequncia. Estudos revelaram que a
resposta em frequncia do ouvido humano no-linear e empiricamente foram determinadas escalas
mais convenientes para representar a frequncia. Duas dessas escalas mais conhecidas so as escalas
mel (Stevens et al., 1937) e Bark (Zwicker e Fastl, 1990). O mapeamento da escala linear (em Hertz)
para a escal mel de frequncia dado por:
m = 2595 log
10
_
1 +
f
700
_
= 1127 log
e
_
1 +
f
700
_
(5.4)
onde m o valor da frequncia na escala mel e f o valor da frequncia em Hertz. Neste trabalho,
ser utilizada a escala mel, motivo pelo qual no ser apresentado aqui o mapeamento para a escala
Bark, o qual pode ser facilmente encontrado na literatura (Zwicker e Fastl, 1990; Zwicker, 1961).
A Figura 5.7 mostra o resultado deste mapeamento (at a frequncia de 16 kHz), na qual pode-se
observar que at 1000 Hz a relao praticamente linear e depois ela segue uma curva logartmica.
Fig. 5.7: Mapeamento de frequncias nas escalas linear (em Hertz) e mel, segundo a frmula da
Equao 5.4.
56 Codicao de Fala
Os Coecientes Mel
Particularmente, dado que a frequncia fundamental j foi extrada de alguma forma, interessa
apenas o contorno do espectro, ou seja, a envoltria espectral. Mais do que isso, j que a resposta do
ouvido humano pode ser aproximada de uma maneira melhor na escala mel, deseja-se obter uma in-
formao condizente com nossa percepo de frequncias. Agrupar o contedo espectral de frequn-
cias prximas leva a uma estimativa do contorno e, se a largura de banda de cada um desses grupos
de frequncia obedecer escala mel, aproxima-se da reposta do ouvido (Picone, 1993). Uma forma
eciente de obter e armazenar essa informao com a chamada anlise por banco de ltros (Taylor,
2009).
Imagine que o sinal de fala passa por um banco de ltros passa-faixa, onde cada ltro dene
uma banda crtica, espaados uniformemente na escala mel. O nmero de ltros utilizados deve ser
suciente para produzir uma boa estimativa da envoltria espectral e eles devem cobrir a largura
de banda do sinal, isto , para um sinal amostrado a, digamos, 16 kHz, precisa-se de ltros at a
frequncia de 8 kHz (obedecendo ao teorema da amostragem - (Oppenheim e Schaffer, 1989)). Alm
disso, para que haja preservao da energia, a soma das respostas em frequncia dos ltros deve
ser sempre unitria. Um formato simples geralmente empregado para respeitar essa condio o
triangular. A Figura 5.8 ilustra tal banco de ltros, cujos valores de frequncia central podem ser
encontrados em (Picone, 1993).
Por m, pode-se calcular a energia do sinal resultante de cada ltragem, ou melhor, o logaritmo
da energia. O resultado dessa operao o que chamaremos de coecientes mel, sendo esta uma no-
menclatura empregada neste trabalho e no encontrada na literatura. A Figura 5.9 ilustra tal resultado
para o sinal da Figura 5.6.
Resumindo, o contedo espectral na escala mel, aqui chamado de coecientes mel, denido
como o logaritmo na base 10 da energia contida no sinal aps passar por um ltro de banda-crtica.
Matematicamente, portanto, os coecientes mel so dados por:
coeficiente mel
(n)
= log
10
k=
|(X(k) H
n
)|
2
(5.5)
onde coeficiente mel
(n)
designa o n-simo coeciente mel, X(k) a transformada de Fourier do
sinal de entrada x(t) (um quadro janelado) e H
n
a resposta em freqncia do n-simo ltro de
banda-crtica, mostrados na Figura 5.8.
Por ltimo, pode-se empregar uma normalizao de energia, simplesmente dividindo cada coe-
ciente mel pela soma de todos eles.
5.5 Parmetros do Sinal de Fala 57
Fig. 5.8: Banco de ltros triangulares linearmente espaados na escala mel. A gura mostra a
escala de frequncia em Hertz, para facilitar a compreenso do comportamento do banco.
Os Coecientes MFCC
O ltimo conjunto de parmetros do sinal de fala que ser tratado aqui so os chamados coecien-
tes mel-cepstrais (MFCC - mel-frequency cepstral coefcients). O termo cepstro foi cunhado a partir
da inverso da primeira metade da palavra espectro (a primeira letra e de espectro foi suprimida), ou,
em ingls, cepstrum a partir de spectrum (Borget et al., 1963).
Os coecientes mel-cepstrais so a transformada discreta de cosseno (DCT - Discrete Cosine
Transform) do logaritmo na base 10, da energia do sinal resultante da ltragem do sinal original,
por um dos ltros de banda-crtica na escala mel, descritos na seo anterior (Davis e Mermelstein,
1980). Ou seja, os coecientes mel-cepstrais so a transformada de cosseno dos coecientes mel.
Matematicamente, os MFCC so dados por:
MFCC
(n)
=
K
k=1
m(k) cos
_
n (k 0.5)
K
_
(5.6)
onde MFCC
(n)
designa o n-simo coeciente mel-cepstral, m(k) o ksimo coeciente mel e
K o nmero de ltros de banda-crtica utilizados. Repare que para (n) = 0 o MFCC a prpria
energia do sinal e que possvel calcular quantos coecientes se desejar, sendo usual o emprego dos
58 Codicao de Fala
Fig. 5.9: Coecientes mel do quadro da Figura 5.1. Para efeito de visualizao, foi feita uma
correo de amplitude nos coecientes, mas interessa apenas no seu formato.
12 primeiros coecientes seguintes energia.
Portanto, os coecientes MFCC so uma transformao matemtica, que se alega ser capaz de
realizar uma boa separao fonte/ltro, alm de produzir coecientes estatisticamente independentes,
o que de particular interesse em algumas aplicaes. Por isso, esses coecientes so provavelmente,
ao lado dos coecientes LPC, os mais utilizados nas mais variadas aplicaes de processamento de
fala.
5.6 Mtodos de Avaliao
Dada a crescente expanso dos sistemas de comunicao vista nos ltimos anos, com a telefonia
xa, a telefonia mvel e a internet, todos envolvendo a fala como o nico ou um dos principais meios
de interao, desenvolver mtodos prticos para avaliar a qualidade da fala se tornou imprescindvel,
pois o sucesso de qualquer tecnologia, seja ela um equipamento de rede, um mtodo de codicao
de fala, um terminal do usurio etc, depende fortemente da qualidade do sinal de fala percebida pelo
usurio nal.
A qualidade da fala resultado de um processo psicoacstico complexo de percepo humana.
5.6 Mtodos de Avaliao 59
Ao ouvir um sinal de fala, uma pessoa estabelece uma relao entre o que foi ouvido e o que seria
esperado ou o ideal (um conceito interno de cada indivduo), produzindo uma percepo individual
de qualidade. Portanto, a qualidade de um sinal de fala uma medida subjetiva, ou seja, pessoas
diferentes avaliam de forma diferente a qualidade de um mesmo sinal.
O que est sendo chamado aqui de qualidade da fala, na verdade composto por vrios fatores,
ou dimenses perceptuais. As dimenses mais comuns so inteligibilidade, naturalidade, nvel de
rudo etc. Entretanto, somente em aplicaes especcas comum o uso de apenas um desses fatores
individualmente. Menos comum ainda o uso de uma mtrica multidimensional que comporte vrias
dessas dimenses, dada a complexidade de se denir tal mtrica. Geralmente emprega-se uma mtrica
nica, que seja capaz de reproduzir a percepo geral do que ento se chama de qualidade da fala.
Aforma mais bvia de estimar a qualidade da fala pedir para umgrupo de pessoas ouvir amostras
do sinal e dar nota para a qualidade percebida, a partir das quais pode-se ento determinar a qualidade
mdia do sinal. Fica claro que esta abordagem, denominada de teste subjetivo, bastante custosa e
demorada, quase sempre invivel em um ambiente de crescente demanda por avaliaes em campo e
em tempo real.
Por essas diculdades em empregar testes subjetivos, foram desenvolvidas medidas objetivas de
avaliao, baseadas em algoritmos computacionais, que tentam inferir objetivamente um julgamento
subjetivo que a qualidade da fala, buscando aproximar seus resultados dos que seriam obtidos em
um teste subjetivo.
Alm da separao nessas duas categorias (teste subjetivos ou testes objetivos), os mtodos de
avaliao da qualidade da fala podem ser divididos em outros dois conjuntos, considerando-se a
disponibilidade ou no do sinal original (sinal de referncia), para compar-lo com o sinal aps os
processos de codicao e/ou transmisso, gerando medidas absolutas ou relativas.
Dentre os mtodos de avaliao subjetiva, o mais comum a medida absoluta dada na escala
MOS (mean opinion score), normalizado pela ITU-T, emsua norma de referncia P.800 (P.800, 1996).
Nesse mtodo, pedido a um conjunto de ouvintes que eles avaliem uma srie de sinais de fala, dando
notas qualidade de cada um dos sinais apresentados, de acordo com a escala MOS mostrada na
Tabela 5.1. Repare que no h um sinal de referncia para comparao. A nota MOS
5
de determinado
sistema, como o prprio nome diz, o resultado da mdia das notas dos ouvintes para todos os sinais
apresentados. Por ser bastante simples, este mtodo tambm muito popular.
Os mtodos de avaliao objetiva geralmente utilizados so medidas relativas, ou seja, dependem
da existncia de um sinal de referncia para comparao. A classe mais simples de algoritmos
composta de mtodos de comparao da forma de onda do sinal no domnio do tempo, como o caso
5
Chama-se o valor do MOS de um sistema de nota MOS, apesar do termo nota j estar embutido na sigla em ingls,
pois soa mais natural para o leitor dessa forma.
60 Codicao de Fala
Tab. 5.1: Notas na escala MOS.
Qualidade Nota
Excelente 5
Boa 4
Razovel 3
Ruim 2
Pssima 1
da relao sinal-rudo (SNR - signal-to-noise ratio). Medidas baseadas no domnio da frequncia,
como a distoro espectral (SD - spectral distortion) so tambm simples de implementar e, alm
disso, apresentam maior correlao com testes subjetivos, sendo, por isso, mais aceitas como uma
medida de qualidade.
No entanto, a maioria dos mtodos de avaliao objetiva de qualidade da fala est baseada, atual-
mente, no que se pode chamar de domnio perceptual ou psicoacstico. Tais mtodos buscamimitar os
processos de percepo e de avaliao humanos. Tal processo envolve a resposta do sistema auditivo
humano, cujo modelo j se considera bem denido na literatura, mas tambm existe um componente
cognitivo, mais complexo e cujo modelo no se encontra to bem desenvolvido.
A avaliao realizada atravs da determinao de uma distncia perceptual entre o sinal que se
deseja avaliar e o sinal de referncia e, em seguida, criando uma funo, geralmente no-linear, que
mapeie esta distncia em uma medida de qualidade da fala. A m de obter um estimador para a nota
MOS, necessrio normalizar o resultado para a escala MOS, que varia de 1 a 5.
Os algoritmos mais conhecidos de avaliao objetiva da qualidade da fala baseados em modelos
psicoacsticos de percepo so: BSD (Bark Spectral Distance) (Wang et al., 1992), PSQM (Per-
ceptual Speech Quality Measure) (Beerends e Stemerdink, 1994), PAQM (Perceptual Audio Quality
Measure) (Beerends e Stemerdink, 1992), PEAQ (Perceptual Evaluation of Audio Quality) (Thiede
et al., 2000), PAMS (Perceptual Analysis Measurement System) (Rix e Hollier, 2000), MNB (Measu-
ring Normalizing Blocks) (Voran, 1999a,b) e PESQ (Perceptual Evaluation of Speech Quality) (Rix
et al., 2001).
O algoritmo PESQ o mais recente deles e fruto da combinao dos algoritmos PAMS e
PSQM99 (uma verso atualizada e estendida do PSQM), tornando-se uma recomendao da ITU-
T (P.862, 2001). Alm disso, diferentemente das tcnicas anteriores, PESQ capaz de predizer, com
boa correlao, a qualidade subjetiva de um sinal de fala em uma ampla gama de condies, como
distores de codicao, rudo e perda de pacotes (Rix et al., 2001).
Por isso, o algoritmo escolhido para ser utilizado neste trabalho foi o PESQ. Inicialmente, a
norma de referncia do PESQ era voltada para a avaliao de sinais de voz na faixa de telefonia (faixa
de freqncia at 4 kHz). Posteriormente, foi produzida uma outra implementao de referncia,
5.6 Mtodos de Avaliao 61
construda especialmente para trabalhar com espectro de banda larga (at 7 kHz) (P.862.2, 2007).
Foi utilizada a implementao do algoritmo PESQ disponibilizada na pgina web da ITU (ITU,
2008). A Figura 5.10, mostra como o algoritmo utilizado para avaliar o sistema.
Fig. 5.10: O algoritmo PESQ recebe como entradas os sinais original e degradado, obtido aps
a codicao e a decodicao, e fornece uma nota da qualidade do sinal degradado.
62 Codicao de Fala
Captulo 6
Resultados
6.1 Descrio dos Dados Utilizados e dos Testes Realizados
O principal objetivo deste trabalho avaliar o desempenho de alguns algoritmos de quantizao,
aqueles descritos no Captulo 3, em uma aplicao especca e desaadora: a quantizao de sinais
de fala, como descrito no Captulo 5.
Para isso, obviamente precisa-se de uma base de sinais de fala gravados. Tal base foi fornecida
pela Fundao Centro de Pesquisa e Desenvolvimento em Telecomunicaes (CPqD) e, sendo uma
base proprietria, no est disponvel para consulta. A base disponibilizada constituda por 450
frases, gravadas em estdio por uma locutora prossional, amostradas a 16 kHz e digitalizadas com
16 bits por amostra, no formato PCM linear. Essas frases foram geradas de forma a apresentar ampla
riqueza fontica. Juntamente com os sinais de fala, foram disponibilizados arquivos com a marcao
de pitch de cada sinal, de forma que os quadros de fala j estavam denidos. A Tabela 6.1 resume as
caractersticas dos sinais gravados.
Tab. 6.1: Caractersticas do sinal de fala.
Local de Gravao Laboratrio de gravao do CPqD
Locutora Rosana Lee
Taxa de Amostragem 16 kHz
Nmero de bits por amostra 16
Formato PCM linear
As 450 frases perfazem um total de aproximadamente 26 minutos de gravao e ocupam um total
de 49,7 megabytes de memria. Primeiramente, as frases foram separadas em dois conjuntos distin-
tos: 400 frases foram usadas para treinamento, ou seja, para a gerao do codebook e do dicionrio
de quadros, conforme descrito na Seo 5.3, e as 50 frases restantes foram usadas para teste, em
63
64 Resultados
que o codebook resultante foi utilizado para codicar os sinais da base de teste e o dicionrio de
quadros foi utilizado para decodic-los, conforme descrito na Seo 5.4. A Tabela 6.2 sumariza as
caractersticas dessa base, bem como dos conjuntos de treinamento e de teste.
Tab. 6.2: Caractersticas da base de fala utilizada.
Treinamento Teste Total
Nmero de frases 400 50 450
Nmero de quadros 194.437 23.867 218.304
Durao (minutos) 23 3 26
Memria ocupada (MB) 44,2 5,5 49,7
Conforme observado no Captulo 5, nada impede que se utilize a prpria base de treinamento para
os testes.
Dois testes so usados como referncia de desempenho para os algoritmos de quantizao. No
primeiro deles, alm dos algoritmos descritos no Captulo 3, um mtodo mais trivial de escolha dos
quadros que comporo o dicionrio foi testado: a simples escolha aleatria. O outro teste utilizar
a base de treinamento inteira como codebook. Os prximos pargrafos explicam a razo para esses
testes servirem de referncia.
Dado que a base de treinamento completa sempre apresenta mais riqueza fontica do que sua
verso quantizada
1
, espera-se que ela produza resultados melhores. O papel dos algoritmos de quan-
tizao justamente escolher os quadros de forma a promover a menor perda de qualidade possvel,
em comparao com o resultado obtido utilizando a base inteira. Como neste trabalho os dicion-
rios de quadros sero muito pequenos em relao ao tamanho da base de treinamento, no se espera
detectar informao puramente redundante (que resultaria em um empate de qualidade). Deseja-se
apenas fazer a melhor escolha de quadros possvel, pois sempre haver degradao.
Nesse sentido, a escolha aleatria representa um limiar inferior, pois acredita-se que os algoritmos
de quantizao sejam capazes de selecionar quadros mais representativos do universo disponvel, con-
duzindo assim a resultados melhores. Isso s no aconteceria em trs situaes: se a distribuio dos
dados fosse realmente aleatria; se o algoritmo de quantizao tiver um comportamento distorcido,
escolhendo na verdade os quadros menos representativos; ou se as distncias no espao dos parme-
tros utilizados no estabelecerem correlao com a qualidade do sinal obtido, ou em outras palavras,
ainda que os vetores estejam prximos no espao dos parmetros, os quadros que eles representam
no sejam perceptualmente parecidos.
1
Tal armao supe que a base tenha sido projetada adequadamente e que, portanto, quanto mais arquivos de voz,
maior a riqueza presente, ou seja, considera-se que no h informao puramente redundante, cuja remoo no interra
na qualidade. claro que, em um universo de 200 mil quadros, caso apenas um seja removido, por exemplo, provavel-
mente a qualidade do sistema no sofrer variao signicativa.
6.1 Descrio dos Dados Utilizados e dos Testes Realizados 65
Dessas trs hipteses, a primeira pode ser automaticamente descartada, pois sabe-se que os dados
no so aleatrios, mas sim fruto de locues realizadas sicamente. As outras duas sero avaliadas
neste trabalho.
Com as 400 frases de treinamento foram montados quatro conjuntos. O primeiro deles composto
pelas frases de 1 a 50, o segundo pelas frases de 1 a 100, o terceiro pelas frases de 1 a 200 e o quarto
pelas frases de 1 a 400, ou seja, todas as frases de treinamento. ATabela 6.3 descreve as caractersticas
de cada um desses conjuntos.
Tab. 6.3: Caractersticas da base de fala utilizada.
Conjunto 1 2 3 4
Nmero de frases 50 100 200 400
Nmero de quadros 28.146 51.899 99.984 194.437
Durao (minutos) 3 6 12 23
Memria ocupada (MB) 6,4 11,7 22,8 44,2
Sabe-se que em 400 frases h mais riqueza de informao, mas tambm mais redundncia, e
pretende-se com isso avaliar a inuncia do tamanho da base de treinamento nos resultados. Para
isso, necessrio que os codebooks gerados a partir de cada conjunto tenham o mesmo tamanho,
isolando, dessa forma, o efeito do crescimento da base de treinamento. Para este teste, foi escolhido
um nmero de codevectors igual a 500. A razo desta escolha ser apresentada abaixo.
J para avaliar a inuncia do tamanho do codebook, para cada um dos conjuntos de treinamento,
foram gerados codebooks com diferentes quantidades de codevectors. Mais do que isso, deseja-se
testar o resultado obtido com diferentes taxas de compresso, para diferentes bases de treinamento.
Considera-se aqui, como taxa de compresso, a relao entre o nmero de quadros usados no trei-
namento e o nmero de quadros no dicionrio de quadros (nmero de codevectors). Com o intuito
de realizar esses testes, deniu-se duas taxas de compresso xas: 100 e 200 vezes. Obviamente,
segundo a denio de taxa de compresso apresentada acima, para que ela seja xa, se o tamanho
da base de dados de treinamento dobra, o tamanho do codebook deve dobrar tambm.
O motivo da escolha desses valores (100, 200 e 500) leva em conta o seguinte fato: aproximando
o nmero de quadros em cada conjunto de treinamento para 25, 50, 100 e 200 mil, respectivamente,
o nmero de quadros dos dicionrios, respeitando as taxas de compresso de 100 e 200 vezes, ser
de 125, 250, 500, 1000 e 2000, dependendo da congurao desejada, conforme apresenta a Tabela
6.4. Dessa forma, para os conjuntos 2 e 3, consegue-se atender dois requisitos: taxa de compresso
xa e nmero de codevectors xo. Essa no a nica escolha que causa esse efeito, mas uma das
possveis e a que foi adotada.
Resumindo, com o conjunto de testes descrito na Tabela 6.4, testam-se:
66 Resultados
Tab. 6.4: Congurao dos testes realizados.
Congurao Utilizada Teste Realizado
Nmero de Nmero de Taxa de Compresso Fixa Nmero de Codevectors
Frases Codevectors 100 vezes 200 vezes xo 500
125 x
50 250 x
500 x
100 250 x
500 x x
200 500 x x
1000 x
500 x
400 1000 x
2000 x
Tamanhos de codebook diferentes, para uma mesma base de treinamento;
Taxas de compresso xas, para diferentes bases de treinamento;
Tamanho de codebook xo, para diferentes bases de treinamento.
Finalizando a descrio dos dados utilizados e dos testes realizados, essas dez conguraes foram
avaliadas para todos os algoritmos, sendo que, para cada uma delas, o algoritmo foi executado 5 vezes,
a m de obter resultados mdios. Alm disso, foram testados diferentes conjuntos de parmetros na
composio dos vetores. Ou seja, cada algoritmo executado 50 vezes para o conjunto de parmetros
em que ele testado.
6.2 Avaliando Diferentes Conjuntos de Parmetros
Primeiramente, buscou-se identicar o conjunto de parmetros que levaria aos melhores resulta-
dos. Como descrito na Seo 5.5, os parmetros de fala mais usuais, empregados em diversas reas
do processamento de fala, so os coecientes LPC e os MFCC. Portanto, eles foram candidatos ava-
liados inicialmente. Alm desses, os coecientes LSF, obtidos a partir dos LPC, considerados mais
robustos quantizao, tambm foram testados.
Baseado em valores frequentemente encontrados na literatura (Taylor, 2009), decidiu-se utilizar
um nmero de 12 coecientes MFCC, 20 coecientes LPC e, portanto, tambm 20 coecientes LSF
(anal, estes so em mesmo nmero que os LPC). No foi feita uma anlise variando-se esses valores.
6.2 Avaliando Diferentes Conjuntos de Parmetros 67
Para testar esses trs conjuntos de parmetros, decidiu-se no utilizar todos os algoritmos, pois
demandaria muito tempo e o objetivo denir um conjunto timo de parmetros, dentre os testa-
dos. Inicialmente no se objetiva comparar o desempenho dos algoritmos. Sendo o k-mdias o mais
simples dos algoritmos a serem testados, ele foi escolhido para esses testes. Para balizar os resulta-
dos, como descrito na seo anterior, tambm empregou-se a escolha aleatria de prottipos (limite
inferior) e utilizou-se a base de treinamento inteira como dicionrio de quadros (limite superior).
O algoritmo foi congurado para rodar por 50 iteraes, sucientes para a convergncia do algo-
ritmo, e os prottipos iniciais foram escolhidos aleatoriamente entre os dados de entrada.
Primeiramente, testou-se se os parmetros LSF produzemresultados melhores dos que os LPC. As
Figuras 6.1(a), 6.1(b) e 6.1(c) apresentam os resultados obtidos para os testes descritos na Tabela 6.4.
Nesses grcos tambm foram includas as curvas de desempenho da escolha aleatria de codevectors
e as curvas denominadas Sem Compresso, que indicam os resultados obtidos quando se empregou
a base de treinamento inteira como codebook. Estas ltimas so idnticas em todos os grcos, pois
elas s dependem do nmero de frases usado no treinamento.
Nesses grcos, o eixo vertical apresenta a nota PESQ mdia obtida com a reconstruo das 50
frases de teste utilizando os diversos codebooks produzidos a partir das frases de treinamento. Na
legenda desse eixo aparece PESQwb para deixar explcito que foi empregada a implementao do
algoritmo PESQ para sinais de banda larga (ou wideband em ingls, de onde vem o ndice wb).
Nessas guras e nas subsequentes (Figuras 6.2, 6.3 e 6.5), para facilitar a identicao de cada
uma das curvas, a cor das linhas e dos marcadores e o formato dos marcadores de cada ponto distin-
guem os algoritmos. Dessa forma, mesmo em uma impresso em preto-e-branco, o marcador suci-
ente para a discriminao correta dos algoritmos. J o tipo de linha que interpola os pontos serve para
discriminar o tipo de parmetro utilizado. Na Figura 6.1, por exemplo, o algoritmo k-mdias aparece
de preto, com um crculo () como marcador, a escolha aleatria de prottipos aparece de vermelho,
com um asterisco (*) como marcador, e o caso sem compresso aparece de azul, com um losango de
marcador. Os resultados para os parmetros LPC utilizam uma linha contnua para ligar os pontos,
enquanto os resultados para os parmetros LSF utilizam uma linha no-contnua, que intercala trao
e ponto.
Analisando, primeiramente, apenas os grcos referentes s taxas de compresso xas (Figuras
6.1(a) e 6.1(b)), pode-se observar uma tendncia de crescimento em todas as curvas apresentadas.
Este comportamento era esperado, pois a manuteno da taxa de compresso implica em um aumento
do nmero de quadros no dicionrio, uma vez que a base de treinamento tambm cresce
2
. Com mais
quadros disponveis para a quantizao do sinal, melhor tende a ser a qualidade do sinal sintetizado.
2
Lembre-se que se denomina de taxa de compresso a relao entre o nmero de quadros da base de treinamento e o
nmero de quadros do dicionrio de quadros.
68 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.1: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: LPC () e
LSF (- -).
6.2 Avaliando Diferentes Conjuntos de Parmetros 69
Por esse mesmo motivo, percebe-se que os resultados para a taxa de compresso de 200 vezes so
piores dos que os obtidos para a taxa de compresso de 100 vezes, onde h o dobro do nmero de
quadros.
Observando, agora, o grco referente ao caso em que o tamanho do codebook foi mantido xo,
com 500 codevectors (Figura 6.1(c)), pode-se admitir que as curvas so quase horizontais. Conclui-
se que, apesar da maior disponibilidade de vetores para se decidir quais iro compor o codebook, o
algoritmo no selecionou um conjunto de codevectors melhor. Portanto, pode-se armar que, dado
o tamanho limitado de codebook exigido, no foi possvel melhorar sua qualidade, mesmo quando
havia maior diversidade de opes para escolha.
Focando a anlise no desempenho do algoritmo k-mdias, chama a ateno o fato de o algoritmo
ter praticamente empatado com a escolha aleatria, quando se aplicaram os coecientes LPC. Para
esse conjunto de parmetros, a utilizao da base de treinamento completa propiciou um ganho de
qualidade apenas modesto. Juntamente com o fato de a qualidade obtida ter sido bastante ruim, isso
sugere que tais coecientes no so aptos a discriminar corretamente os quadro de fala, ao menos
para a aplicao testada.
Quando se utilizou os coecientes LSF, o desempenho do algoritmo k-mdias foi diferente, reve-
lando que o algoritmo foi capaz de escolher vetores mais representativos do universo disponvel, o
que reetiu em um ganho de qualidade comparado com a escolha aleatria. Nesta aplicao, o papel
dos algoritmos de quantizao vetorial tentar obter uma curva o mais prxima possvel da curva
Sem Compresso, enquanto o estudo de tcnicas de processamento de sinais atuaria para tentar
puxar essas curvas para cima. O foco deste trabalho est na anlise dos algoritmos.
Por m, comparando os dois tipos de parmetros avaliados, os resultados gerados com os co-
ecientes LSF foram superiores aos gerados com os coecientes LPC. Isso era esperado, dada a
reconhecida maior robustez dos coecientes LSF quantizao.
Observe, agora, os resultados dos coecientes LSF comparados comos resultados dos coecientes
MFCC, mostrados nas Figuras 6.2(a), 6.2(b) e 6.2(c). Foi mantida a mesma relao de cores, mar-
cadores e linhas da gura anterior (Figura 6.1), exceto pelas linhas utilizadas nas curvas de resultado
dos coecientes MFCC, que so pontilhadas.
A anlise feita para os resultados apresentados na Figura 6.1 tambm vlida para os resultados
obtidos com os coecientes MFCC. O destaque, neste caso, ca para o fato de a utilizao destes
coecientes ter produzido resultados superiores aos produzidos pelos coecientes LSF.
Os coecientes MFCC so largamente utilizados em aplicaes de reconhecimento de fala, em
que j se mostraram muito ecientes (Taylor, 2009; Benesty et al., 2008). Da, infere-se que eles so
capazes de discriminar com certa preciso os sons de cada quadro. Portanto, tambm era esperado
que eles serviriam para a aplicao aqui testada, na qual deseja-se trocar quadros de um sinal da forma
70 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.2: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC ( )
e LSF (- -).
6.2 Avaliando Diferentes Conjuntos de Parmetros 71
mais imperceptvel.
Contudo, os resultados obtidos com esses parmetros mais tradicionais (LPC, LSF e MFCC),
foram muito pobres. Isso serviu de motivao para testar os coecientes mel (ver Seo 5.5.2), bem
menos frequentemente encontrados na literatura. O nmero de coecientes mel utilizado denido
pela taxa de amostragem do sinal. Neste caso, os sinais foram amostrados a 16 kHz e na faixa de
frequncia at 8 kHz h 24 ltros de banda-crtica (Picone, 1993), ilustrados na Figura 5.8. Portanto,
foram calculados 24 coecientes mel para cada quadro.
As Figuras 6.3(a), 6.3(b) e 6.3(c) comparam a qualidade obtida com os coecientes mel ape-
nas com as curvas obtidas com os MFCC, pois foi o melhor resultado dentre os trs conjuntos de
parmetros testados inicialmente.
Mais uma vez, observa-se um ganho de qualidade com o novo conjunto de parmetros testado.
Contudo, diferentemente do comportamento observado anteriormente (na comparao dos coecien-
tes LPC, LSF e MFCC), esse ganho no foi to grande, de tal forma que algumas curvas se sobrepem,
dicultando, mas no impedindo, sua visualizao. Ao nal desta seo, sero apresentados grcos
comparando os conjuntos de parmetros testados para cada mtodo individualmente (Sem Com-
presso, escolha aleatria e k-mdias), facilitando a visualizao da evoluo dos resultados com a
mudana dos parmetros empregados (ver Figura 6.6).
Conclui-se, dados os resultados apresentados nas Figuras 6.1, 6.2 e 6.3, que os 24 coecientes
mel foram os atributos que levaram ao resultado de melhor qualidade.
Adicionalmente, aps observar que os coecientes mel apresentaramo melhor resultado, acrescen-
tou-se a esse vetor de parmetros outras informaes consideradas importantes: a energia (En) e a
frequncia fundamental (F
0
). Na realidade, no foram inseridas exatamente a energia e o F
0
. A ex-
trao de F
0
de um sinal bastante complexa e objeto de muita pesquisa. Neste trabalho, utilizou-se
a marcao de pitch fornecida, como uma estimativa da frequncia fundamental, e decidiu-se ento
pelo perodo esquerdo (PE) do quadro como uma aproximao de F
0
. Note que o conceito de frequn-
cia fundamental s pode ser relacionado a quadros vozeados, mas, como nos trechos no vozeados a
marcao de pitch segue o mesmo padro de espaamento xo entre as marcas, esse fato no interfere
no resultado
3
.
Para a insero desses novos parmetros, deve-se considerar o problema da sua escala numrica.
O perodo esquerdo dado em nmero de amostras, que apresenta valores muito maiores do que os
dos coecientes mel. J a energia apresenta valores mais prximos aos dos coecientes mel, anal,
estes so a energia do sinal aps passar por um dos ltros de banda-crtica.
A forma mais simples de contornar essas difereas seria normalizar os dados, ou seja, fazer com
que a mdia fosse nula e a varincia unitria para cada um dos parmetros, quando tomados da
3
Considera-se que a marcao de pitch foi feita adequadamente.
72 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.3: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC ( )
e MEL (- - -).
6.2 Avaliando Diferentes Conjuntos de Parmetros 73
(a) (b)
Fig. 6.4: Resultado da otimizao dos pesos de normalizao da energia (En) e do perodo es-
querdo (PE), utilizando a congurao de 50 frases de treinamento e codebook com 250 prot-
tipos. 6.4(a) Resultado em uma regio larga. 6.4(b) Zoom na melhor regio.
base inteira. Inicialmente testou-se normalizar apenas os coecientes mel, para avaliar o efeito desse
procedimento no resultado. Tal teste revelou resultados piores do que os obtidos sem a normalizao.
Esse opo foi, ento, descartada e decidiu-se normalizar apenas a energia e o perodo esquerdo e,
em seguida, multiplic-los por pesos que foram ajustados para otimizar o resultado.
Essa estratgia poderia ser aplicada para todos os parmetros, mas nesse caso, ao invs de otimizar
apenas dois pesos, seria necessrio otimizar 26, o que muito mais desaador. Como os valores dos
coecientes mel j apresentam uma relao que se deseja preservar, no h motivo para investir nessa
tarefa.
Os dois pesos foram otimizados atravs de uma busca exaustiva, variando-se ambos os valores
dentro de certos limites. Esses limites tambm foram denidos empiricamente, com alguns testes
iniciais. O que se est chamando de busca exaustiva , na realidade, uma busca em grid, pois no
espao contnuo uma busca literalmente exaustiva implica em testar os innitos valores possveis em
qualquer intervalo dado. Por isso, dados os limites, deniu-se um tamanho de passo para variar o
valor dos pesos. Uma vez detectada a melhor regio, esse passo foi reduzido, formando uma espcie
de zoom para encontrar o timo. A Figura 6.4 ilustra o resultado obtido, onde a cor indica a nota
PESQwb obtida: quanto mais vermelho, maior a nota, quanto mais azul, menor a nota. Os pesos
timos encontrados esto marcados na gura com um asterisco branco e so 0,014 para o perodo
esquerdo e 0,022 para a energia.
importante observar que essa otimizao dos pesos de normalizao foi realizada em apenas
74 Resultados
uma das conguraes testadas, na qual se utilizavam 50 frases de treinamento e codebook com 250
prottipos. Essa deciso foi tomada devido ao alto custo computacional dessa otimizao, j que para
cada avaliao de uma dupla de pesos, foram executadas 5 simulaes a m de obter uma mdia.
Depois, esses mesmos pesos foram aplicados em todas as outras conguraes avaliadas.
As Figuras 6.5(a), 6.5(b) e 6.5(c) mostram o ganho de qualidade obtido com a insero desses
dois parmetros.
Analisando as curvas Sem Compresso, percebe-se o grande potencial de ganho auferido com
a insero desses dois atributos (En e PE). Entretanto, tanto a escolha aleatria quanto o algoritmo
k-mdias no foram capazes de explorar esse potencial, produzindo sim ganhos de qualidade, mas de
menor monta.
Por m, a Figura 6.6 apresenta esses mesmos resultados agrupando agora as curvas dos diferentes
parmetros em uma mesma gura, para cada um dos mtodos testados (Sem Compresso, escolha
aleatria e k-mdias). Atravs desses grcos, ca mais fcil visualizar a evoluo obtida. Apenas o
grco da Figura 6.6(a) no aparece na mesma escala para a nota PESQwb que os demais grcos.
Apesar de a leitura car comprometida, as guras foram feitas intencionalmente pequenas, para
que todos os grcos cassem na mesma pgina, facilitando a comparao. Repetindo, aqui no h
informao nova, uma vez que os valores esto todos presentes nas guras anteriores dessa seo. O
objetivo dessa gura permitir a visualizao da evoluo obtida, envolvendo todos os parmetros
testados.
Concluindo essa seo, o vetor de parmetros constitudo de energia e perodo esquerdo, norma-
lizados e ponderados, mais os 24 coecientes mel, produziu os melhores resultados e foi empregado
para avaliar o desempenho dos outros algoritmos. Este o tema da prxima seo.
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial
Na seo anterior, foram avaliados diferentes conjuntos de parmetros, com o propsito de iden-
ticar qual produziria os melhores resultados. Para aqueles testes, foi utilizado apenas o algoritmo
k-mdias. Agora j se sabe que os 24 coecientes mel, juntamente como perodo esquerdo e a energia,
devidamente normalizados e ponderados, provem melhor qualidade aos sinais de fala sintetizados.
Nesta seo, analisa-se o desempenho dos outros algoritmos de quantizao vetorial, aplicados uni-
camente a este conjunto de parmetros timo. Os algoritmos avaliados esto descritos no Captulo
3 e so, alm do k-mdias, o ARIA e o NG (Neural-Gas).
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial 75
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.5: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MEL (- - -)
e PE + En + MEL().
76 Resultados
(a) Sem Compresso. (b) Escolha aleatria de protti-
pos, para uma taxa de compres-
so xa de 100 vezes.
(c) Algoritmo k-mdias, para
uma taxa de compresso xa de
100 vezes.
(d) Escolha aleatria de protti-
pos, para uma taxa de compres-
so xa de 200 vezes.
(e) Algoritmo k-mdias, para
uma taxa de compresso xa de
200 vezes.
(f) Escolha aleatria de protti-
pos, para nmero de prottipos
xo (500).
(g) Algoritmo k-mdias, para
nmero de prottipos xo (500).
Fig. 6.6: Resultado comparativo dos conjuntos de atributos testados (20 LPC, 20 LSF, 12
MFCC, 24 MEL e PE + En + 24 MEL).
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial 77
6.3.1 Congurao do NG
Para a operao do algoritmo NG necessrio denir trs decaimentos. Foram utilizadas as
equaes disponveis no prprio cdigo do NG, no SOM Toolbox, para denir esses decaimentos,
as quais esto copiadas aqui, nas equaes 6.1, 6.2 e 6.3. A Equao 6.1 descreve o decaimento do
passo que cada neurnio d na direo do dado, conforme seu ranking de distncia a esse dado. J
a Equao 6.2 descreve o decaimento da intensidade com que esse primeiro decaimento ocorre, ou
seja, os neurnios mais mal ranqueados passam a deslocar cada vez menos. A Equao 6.3 descreve
o decaimento do passo mximo permitido. A atualizao da posio de um neurnio denida pela
Equao 6.4. Vale destacar que , e, portanto, h so atualizados para cada padro de entrada
apresentado rede e no apenas a cada nova iterao.
h = e
ranking
(i)
(6.1)
(i) =
0
_
0, 01
0
_
i1
L
tr
(6.2)
(i) =
0
_
0, 005
0
_
i1
L
tr
(6.3)
Neur onio
k
= Neur onio
k
+(i) h (padrao de entrada Neur onio
k
) (6.4)
As constantes
0
e
0
so valores denidos pelo usurio e a constante L
tr
(de comprimento do
treinamento, do ingls training length) calculada a partir da multiplicao do nmero de dados de
treinamento pelo nmero de iteraes do algoritmo, que tambm denido pelo usurio. O ndice
i incrementado a cada padro de entrada apresentado rede e, por isso, vai de 1 a L
tr
. Ou seja, a
cada padro de entrada, utilizado um valor diferente tanto de quanto de , sempre menores que o
anterior.
Para entender o efeito dos trs decaimentos em conjunto, considere, por exemplo, a relao entre
o passo dado pelo neurnio vencedor, para um certo padro de entrada em uma certa iterao, e o
passo do segundo melhor neurnio. Por denio, o ranking do neurnio vencedor denido como
sendo 0 e, portanto, h ser sempre igual a 1 para o neurnio vencedor. O valor de h ser sempre
menor para o segundo melhor colocado, cujo ranking 1, pois isso que descreve a Equao 6.1.
O fato do valor de tambm decair, conforme descreve a Equao 6.2, implica que, para cada novo
padro de entrada apresentado rede, o valor de h do segundo colocado ser cada vez menor.
O tamanho do passo dado, quando a posio do neurnio for ser atualizada, sofre ainda outro
decaimento, pois o valor de h multiplicado por , que tambm decai (este o terceiro decaimento)
78 Resultados
a cada novo padro de entrada apresentado rede. Ou seja, o passo dado pelo neurnio vencedor, por
exemplo, para o primeiro padro apresentado rede, na primeira iterao ser, na verdade, igual a
0
e cada vez menor da em diante.
O mesmo cdigo sugere valores para as constantes
0
e
0
, sendo que, para a constante
0
, o valor
dado pela metade do nmero de neurnios, e, para a constante
0
, o valor 0, 5. Neste trabalho,
foram utilizadas exatamente essas conguraes, exceto pelo valor de
0
que foi colocado em 0, 25.
Esses valores foram determinados em testes preliminares e levaram a resultados satisfatrios, como
ser visto na Seo 6.3.3.
Completando a descrio da congurao adotada, o nmero de iteraes foi denido em 15,
pois esse nmero se mostrou suciente para a convergncia do algoritmo (o erro de quantizao se
estabilizava). Na inicializao, assim como foi feito para o k-mdias, os neurnios foram escolhidos
aleatoriamente entre os padres de entrada.
6.3.2 Congurao do ARIA
Descrevem-se, agora, as conguraes utilizadas para o algoritmo ARIA. Todas elas foram deter-
minadas empiricamente. A populao inicial de anticorpos foi, novamente, escolhida aleatoriamente
dentre os antgenos, do mesmo modo como fora feito para os algoritmos k-mdias e NG. Mas, no
caso do ARIA, o nmero de anticorpos auto-ajustvel e, portanto, no necessrio utilizar uma
populao inicial com o nmero de prottipos desejado. Na realidade, interessante comear com
poucos anticorpos, para que o algoritmo se adapte e gere o nmero adequado, produzindo mais an-
ticorpos onde for mais necessrio, e removendo-os onde eles no esto contribuindo. O tamanho da
populao inicial empregado foi n = 20.
A taxa de mutao inicial foi = 1 e sua reduo foi iniciada logo na primeira iterao, com
uma constante de decaimento geomtrico c = 0, 95. O raio E, o qual dene a vizinhaa para o
clculo da densidade local de dados, foi inicializado com valor igual a 2 r. A constante r o raio
mnimo permitido aos anticorpos e seu valor depende da congurao do teste em questo. Os valores
utilizados sero apresentados adiante. Os raios iniciais dos anticorpos, que tambm dependem do
valor de r, foram determinados calculando-se a densidade local inicial deles, utilizando o valor de E
inicial, e ento foi empregada a frmula de clculo do raio em funo da densidade local, dada na
Equao 3.2.
O critrio de parada adotado para o ARIA foi de duas uma: ou era atingido o nmero mximo
de iteraes, denido em max
it
= 60, ou o algoritmo convergia antes disso e era terminado. Esse
procedimento no est descrito na verso original do ARIA, que adotava unicamente como critrio
de parada o nmero mximo de iteraes.
O critrio de convergncia aplicado foi avaliar se o tamanho da rede de anticorpos havia se esta-
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial 79
bilizado e se a movimentao dos anticorpos tambm. A movimentao da rede foi calculada pela
mdia da diferena da posio dos anticorpos antes e depois da etapa de maturao de anidade.
Considerou-se que tanto o tamanho da populao quanto sua movimentao haviam se estabilizado
caso seu valor, ao nal da iterao corrente, estivesse prximo o suciente da mdia de seus valo-
res nas ltimas iteraes. Essa mdia foi tomada das ltimas 4 iteraes e incluiu o valor atual, e o
valor de prximo o suciente foi denido em 10 para o tamanho da populao e em 0, 001 para a
movimentao da rede, lembrando que esses valores foram determinados empiricamente.
Isso quer dizer que, por exemplo, se o tamanho x
t
da populao de anticorpos ao nal de certa
gerao t for igual mdia y dos tamanhos da populao nas ltimas 4 iteraes e do seu valor atual
(y = 1/5 (x
t
+ x
t1
+ x
t2
+ x
t3
+ x
t4
)), mais ou menos 10, ou seja, y 10 x
t
y + 10,
o critrio de convergncia do tamanho da populao foi atingido. Para que o m do algoritmo seja
determinado, necessrio que os dois critrios de convergncia sejam atingidos. Para evitar uma
parada prematura inesperada, tambm foi imposto um nmero mnimo de 30 geraes.
Antes de apresentar os resultados obtidos, mais uma considerao deve ser feita a respeito do
ARIA. O valor do raio mnimo r inuencia no tamanho nal da populao de anticorpos, pois ele
que controla o valor dos raios dos anticorpos, que por sua vez so usados nos processos de expanso
clonal e supresso. Ora, como so buscados tamanhos de codebook diferentes, partindo de bases de
tamanhos diferentes, o valor de r deve ser ajustado para cada caso.
No entanto, no h um mecanismo que estime a priori o resultado que ser obtido e, por isso,
foram necessrias simulaes com diversos valores de r para se chegar ao nmero desejado. Mais
do que isso, o algoritmo se mostrou bastante instvel, pois empregando a mesma congurao ini-
cial, muitas vezes os resultados foram populaes de tamanhos bastante diferentes. Assim, atingir o
tamanho exato de codebook seria bastante custoso. Felizmente no necessrio que esse valor seja
exato, anal um codebook com tamanho de 2000 quadros e outro de 1970, por exemplo, no so
signicativamente diferentes.
Lembrando que se quer obter uma mdia de cinco resultados, foram executadas quantas simula-
es do ARIA fossem necessrias, para que o tamanho nal da populao de anticorpos fosse, em
cinco casos, igual ao nmero de prottipos desejado, 5%. A Tabela 6.5 mostra os intervalos acei-
tveis, o valor dos raios mnimos r empregados em cada congurao de teste para atingir o nmero
de prottipos dentro desse intervalo e o valor mdio dos tamanhos de codebook obtidos.
6.3.3 Resultados
Finalmente, apresentam-se, na Figura 6.7, os resultados obtidos pelos algoritmos k-mdias, NG
e ARIA, pela escolha aleatria de prottipos e pelo codebook formado pelas bases de treinameto
inteiras. Nos grcos, a curva de cada algoritmo foi feita com um trio diferente de: (i) cor, (ii)
80 Resultados
Tab. 6.5: Nmero mdio de prottipos obtido pelo algoritmo ARIA e raio mnimo r utilizado,
para cada congurao de teste.
Nmero de Frases Nmero de Prottipos r
de Treinamento Mnimo Desejado Mximo Obtido Utilizado
50 118 125 132 125,4 0,0102
50 237 250 263 246,4 0,0087
50 475 500 525 513,2 0,0080
100 237 250 263 250,0 0,0085
100 475 500 525 509,6 0,0079
200 475 500 525 494,6 0,0078
200 950 1000 1050 1027,4 0,0072
400 475 500 525 494,8 0,0075
400 950 1000 1050 1015,4 0,0071
400 1900 2000 2100 1970,2 0,0067
formato do marcador e (iii) linha que interpola os pontos.
Comparando o desempenho do algoritmo k-mdias com o algoritmo NG, pode-se armar que
houve quase um empate, com o algoritmo NG ligeiramente melhor. Interessante que um algoritmo
simples como o k-mdias leva a resultados to bons quanto o de outro mais elaborado. Mas impor-
tante destacar que no foi feito um estudo elaborado dos parmetros do algoritmo NG para otimizar
seu resultado.
Analisando a Figura 6.7(c), repara-se que h uma tendncia de crescimento das curvas desses dois
algoritmos. Isso implica que, diferentemente do que foi observado nos resultados com os primeiros
conjuntos de parmetros, neste caso, os algoritmos foram capazes de explorar melhor a maior diver-
sidade de dados, decorrente do aumento da base de treinamento, na escolha de quadros para compor
o dicionrio. Esse comportamente j poderia ter sido notado para o algoritmo k-mdias, no caso do
conjunto de parmetros formado apenas pelos 24 coecientes mel e, em menor escala, no caso dos
12 MFCC (ver Figura 6.3(c)).
O destaque negativo ca por conta do resultado do ARIA, que apresentou um resultado distante
do obtido pelos outros algoritmos e muito prximo do obtido pela escolha aleatria, chegando, em
algumas situaes, a perder para a escolha aleatria. Conforme destacado no incio deste captulo,
isso signica que o ARIA, ao invs de escolher dados representativos do universo disponvel, escolheu
dados pouco representativos para compor o codebook.
Investigou-se, ento, o que poderia estar causando esse comportamento distorcido. Analisando a
distribuio do nmero de dados representado por cada prottipo, foram gerados os histogramas da
Figura 6.8.
Apresenta-se, aqui, o resultado para apenas uma congurao de teste, mas essa anlise foi feita
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial 81
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.7: Resultado dos algoritmos k-mdias, NG e ARIA, da escolha aleatria de prottipos
e do codebook formado pelas bases de treinamento inteiras (Sem Compresso), utilizando o
conjunto de parmetros PE + En + 24 mel.
82 Resultados
(a) (b)
(c) (d)
Fig. 6.8: Histograma do nmero de amostras de entrada que cada prottipo representa, para a
congurao de teste com 200 frases de treinamento e codebook com 500 codevectors, para os
algoritmos: 6.8(a) k-mdias. 6.8(b) NG. 6.8(c) ARIA. 6.8(d) Escolha aleatria.
6.4 Primeira Proposta - Modicao no Clculo do Raio 83
para todas as conguraes e os resultados foram equivalentes. Dentre as 5 simulaes disponveis
de cada algoritmo, utilizou-se aquela que resultou na maior nota PESQwb.
Nitidamente, o ARIA produziu uma distribuio anmala de prottipos, muito diferente da dos
outros algoritmos. Percebe-se um nmero grande de prottipos representando poucas amostras, in-
dicado pela barra alta esquerda do histograma, e um nmero pequeno de prottipos representando
muitas amostras, indicado pela longa cauda no histograma, com vrias barras baixas, direita (ver
Figura 6.8(c)). Essa caracterstica se congura como o oposto do que se esperava obter, dada a anun-
ciada sensibilidade do ARIA densidade relativa dos grupos. Uma possvel explicao est na alta
dimenso do espao (dimenso = 26) em que se encontram os dados, que alterou de forma inesperada
a sensibilidade dos anticorpos densidade local. Adicionalmente, a anlise dos valores dos raios
dos prottipos mostrou que os muitos prottipos representando poucas amostras encontravam-se nas
regies menos densas, pois apresentavam raios grandes quando comparados ao valor mdio da popu-
lao, enquanto os poucos prottipos representando muitas amostras estavam nas regies mais densas
(raios pequenos) (Violato et al., 2009).
Dados esses resultados, foram propostas modicaes no algoritmo ARIA, que sero descritas
nas prximas sees.
6.4 Primeira Proposta - Modicao no Clculo do Raio
Na seo anterior, cou claro que o ARIA apresentou grandes diculdades frente aos testes re-
alizados, chegando, em algumas situaes, a produzir resultados de qualidade inferior obtida at
mesmo pela escolha aleatria de prottipos. Os histogramas forneceram uma indicao do que po-
deria estar causando essa degradao, revelando uma distribuio distorcida do nmero de amostras
representadas por cada prottipo.
Para contornar esse problema, precisava-se de um mtodo que estimulasse a supresso de anticor-
pos que representassem poucos dados e de um mtodo que estimulasse a clonagem de anticorpos que
representassem muitos dados. Surgiu ento uma ideia que implementaria esses dois mtodos com
uma nica modicao no algoritmo. Foi proposta uma nova frmula para o clculo do raio de cada
anticorpo, dada pela Equao 6.5 (Violato et al., 2009).
R
i
= r
_
den
max
den
i
_
dim
(6.5)
Dessa forma, quanto maior o valor de , maior ser o crescimento do raio dos anticorpos posicio-
nados em regies menos densas, estimulando a ocorrncia de supresso
4
. Alm disso, essa proposta
4
Ateno, no confundir este com o k no algoritmo k-mdias, que indica o nmero de centroides utilizado.
84 Resultados
admite a utilizao de um raio mnimo menor, permitindo que mais anticorpos se posicionem nas
regies mais densas. Com isso, combatem-se as duas distores citadas anteriormente. Uma desvan-
tagem dessa nova frmula que se insere no algoritmo um novo parmetro a ser congurado pelo
usurio, para cada conjunto de parmetros a se testar.
Ento, para algumas conguraes de teste, variou-se o valor de , com o intuito de estudar o
efeito dessa variao no resultado nal do algoritmo. Foi analisada a inuncia tanto na nota PESQwb
quanto no histograma e, em todos os casos, chegou-se a resultados similares aos mostrados na Figura
6.9, que ilustra, novamente, o resultado quando foi usada a base de treinamento com 200 frases e
codebooks com aproximadamente 500 codevectors.
Se o leitor reparar no histograma apresentado na Figura 6.9 para o ARIA com = 1, ou seja,
sua formulao original, ir perceber que ele diferente do mostrado na Figura 6.8(c). Isso ocorre,
pois esses resultados foram obtidos em um momento anterior da pesquisa, quando o conjunto de
parmetros empregado ainda no incluia a energia e, no qual a normalizao do perodo esquerdo era
feita de outra forma. A ordem da apresentao dos resultados visa uma maior organizao, a m de
facilitar o acompanhamento do texto, e no segue necessariamente a ordem cronolgica dos fatos.
Mas ressaltamos que isso no invalida o resultado obtido.
Comparando as notas PESQ obtidas para as conguraes testadas, percebeu-se que os melhores
resultados foram obtidos na maioria dos casos para = 5 e, em alguns casos, para = 4. Na Figura
6.9, repara-se que a nota PESQwb praticamente estabilizou para esses valores. Esse resultado foi
suciente para que se decidisse no fazer testes com valores maiores de . Repare que, para = 5,
uma vez que dim = 26:
k
dim
=
5
26
=
1
5
=
1
26
(6.6)
Dada essa aproximao, utilizou-se a frmula da Equao 6.7 no clculo do raio dos anticorpos
(Violato et al., 2009), com o propsito de gerar resultados para todas as conguraes de teste, a m
de compar-los com os resultados previamente obtidos.
R
i
= r
_
den
max
den
i
_ 1
dim
(6.7)
Essa frmula evita a insero do parmetro no algoritmo e, ao menos para os dados especcos
desse trabalho, uma aproximao vlida. Na Figura 6.10, so mostrados os resultados para as taxas
de compresso xas (100 e 200 vezes) e para os codebooks de tamanho xo igual a 500.
Para chegar a esses resultados, os valores do raio mnimo r empregados foram diferentes dos
utilizados na formulao original do algoritmo e esto na Tabela 6.6.
Como era esperado, os valores de r na Tabela 6.5 so maiores do que os valores da Tabela 6.6.
6.4 Primeira Proposta - Modicao no Clculo do Raio 85
Fig. 6.9: Resultados obtidos ao empregar a frmula 6.5 no algoritmo ARIA, para diferentes
valores de . A base de treinamento empregada continha 200 frases e o tamanho dos codebooks
produzidos foi aproximadamente 500.
86 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.10: Resultado dos algoritmos k-mdias, NG e ARIA (utilizando a Equao 6.7 para cl-
culo do raio dos anticorpos), da escolha aleatria de prottipos e do codebook formado pelas
bases de treinamento inteiras (Sem Compresso), utilizando o conjunto de parmetros PE +
En + 24 mel.
6.5 Segunda Proposta - Modicao no Clculo da Densidade 87
Tab. 6.6: Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando a Equao 6.7
para clculo do raio dos anticorpos, e raio mnimo r utilizado.
Nmero de Frases Nmero de Prottipos r
de Treinamento Mnimo Desejado Mximo Obtido Utilizado
50 118 125 132 125,4 0,005380
50 237 250 263 245,8 0,004680
50 475 500 525 496,2 0,004255
100 237 250 263 247,8 0,004500
100 475 500 525 489,2 0,004020
200 475 500 525 502,6 0,003750
200 950 1000 1050 1000,4 0,003455
400 475 500 525 494,6 0,003550
400 950 1000 1050 994,0 0,003240
400 1900 2000 2100 2000,4 0,003010
Anal, esse era um dos objetivos dessa proposta.
Comparando, agora, as Figuras 6.7 e 6.10, percebe-se claramente a evoluo da qualidade do re-
sultado do algoritmo ARIA. No entanto, o ARIA ainda apresenta um desempenho levemente inferior
ao dos algoritmos k-mdias e NG, por motivos que caro evidentes nas prximas sees.
6.5 Segunda Proposta - Modicao no Clculo da Densidade
Dado que, mesmo aps a modicao na frmula de clculo do raio dos anticorpos, o algoritmo
ARIA continuava perdendo para os algoritmos NG e k-means, procurou-se identicar o que mais
poderia estar provocando esse desempenho inferior. O objeto de estudo passou a ser, ento, o mtodo
empregado para a estimativa de densidade local.
No algoritmo ARIA, a densidade local de antgenos na vizinhana do anticorpo estimada contan-
do-se o nmero de antgenos nesta vizinhana. A vizinhana igual para todos os anticorpos, denida
pela constante E, o que fornece uma medida relativa de densidade para cada anticorpo da populao.
Este mtodo de estimativa de densidade conhecido como mtodo do histograma (Silverman, 1986).
Entretanto, o mtodo do histograma pode no ser eciente para dados de dimenso elevada. Para
ilustrar esse problema, imagine o seguinte cenrio, similiar ao apresentado na Seo 3.4: consi-
dere um conjunto de dados no espao d-dimensional, obtido pela amostragem de duas distribui-
es gaussianas. O centro de uma das gaussianas
1
= (0
1
, 0
2
0
d
) e o centro da outra
2
= (10
1
, 10
2
10
d
). As duas tm matrizes de covarincia diagonal, com a mesma varincia
em todas as dimenses, mas uma delas tem desvio-padro igual ao dobro da outra, ou seja,
1
= 1
and
2
= 0.5. O mesmo nmero de pontos N = 1000 amostrado de cada distribuio, formando
88 Resultados
5 0 5 10 15
5
0
5
10
15
x
1
x
2
Fig. 6.11: Dois grupos de dados bem distintos, obtidos a partir de duas distribuies gaussianas,
amostradas 1000 vezes cada uma.
dois grupos bem distintos, grupos 1 e 2, respectivamente, como mostra a Figura 6.11.
Suponha que se deseja posicionar apenas um prottipo (anticorpo) para representar cada grupo,
exatamente em seu centro. De acordo com o algoritmo ARIA, seus raios devem ser proporcionais
densidade local de antgenos. A densidade estimada na vizinhana de certo ponto x dada por:
(x) =
k
V (r)
(6.8)
onde k o nmero de pontos dentro da hiperesfera de raio r centrada em x e V (r) o volume
dessa hiperespera. O volume de uma hiperesfera de raio r no espao d-dimensional proporcional
d-sima potncia de r (Stibor et al., 2006):
V (r) = c r
d
(6.9)
No clculo dos raios, interessa a relao de densidades. Para estimar a relao de densidade
1
(
1
)
2
(
2
)
usando a Equao 6.8, pode-se xar ou o nmero de pontos k (mtodo KNN - k-nearest neigh-
bours) ou o volume V (r) (mtodo do histograma) (Silverman, 1986). Para utilizar o mtodo KNN,
posiciona-se ento uma hiperespera de raio r
1
no centro do grupo 1 e uma hiperesfera de raio r
2
no centro do grupo 2. Caso se escolham r
1
e r
2
proporcionais aos desvios-padro das gaussianas
_
r
1
r
2
2
= 2
_
, haver o mesmo nmero esperado de pontos k
1
= k
2
= k dentro de cada hiperesfera.
Usando as Equaes 6.8 e 6.9, obtm-se:
1
(
1
)
2
(
2
)
=
k
V (r
1
)
V (r
2
)
k
=
k
cr
d
1
cr
d
2
k
=
_
r
2
r
1
_
d
= 2
d
(6.10)
No entanto, o algoritmo ARIA estima a densidade xando r, ou V (r) (mtodo do histograma), e
6.5 Segunda Proposta - Modicao no Clculo da Densidade 89
Tab. 6.7: Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando o mtodo KNN
com k = 100 para estimao de densidade e a frmula original para clculo do raio dos anti-
corpos, e raio mnimo r utilizado.
Nmero de Frases Nmero de Prottipos r
de Treinamento Mnimo Desejado Mximo Obtido Utilizado
50 118 125 132 125,4 0,005200
50 237 250 263 247,2 0,004440
50 475 500 525 493,6 0,004230
100 237 250 263 248,6 0,002375
100 475 500 525 505,6 0,002140
200 475 500 525 495,4 0,001485
200 950 1000 1050 995 0,001380
400 475 500 525 499,6 0,001281
400 950 1000 1050 1010 0,000960
400 1900 2000 2100 2011 0,000898
no k, obtendo:
1
(
1
)
2
(
2
)
=
k
1
V (r)
V (r)
k
2
=
k
1
k
2
(6.11)
Para que a estimativa do ARIA seja correta, basta que
k
1
k
2
2
d
. Isso parece bastante simples,
mas se a dimenso d for grande, essa estimativa se torna praticamente impossvel de funcionar. Por
exemplo, no caso dos dados utilizados nesse trabalho, que tm dimenso d = 26, seriam necessrios
no mnimo 2
26
pontos (mais de 60 milhes).
Portanto, o verdadeiro problema no algoritmo no est na frmula de clculo do raio, mas sim
no mtodo de estimao de densidade. A soluo apresentada na seo anterior apenas mascarava o
real problema, servindo como um paliativo. Assim, ao invs de xar o volume da hiperesfera atravs
do raio de vizinhana E (mtodo do histograma), passou-se a utilizar o mtodo KNN, xando k, e
retomou-se a frmula original de clculo do raio dos anticorpos (Violato et al., 2010).
A Figura 6.12 compara as trs verses do algoritmo ARIA, sendo que para o mtodo KNN a
densidade foi estimada com k = 100. Os valores de raio mnimo empregados em cada caso, bem
como o nmero mdio de prottipos obtido, esto mostrados na Tabela 6.7.
Nitidamente, a soluo apresentada nesta seo obteve os melhores resultados, empatando em
dois casos e perdendo em apenas um dos dez testes feitos. Na comparao com os outros algoritmos,
infelizmente o algoritmo ARIA ainda perde tanto para o algoritmo k-mdias quanto para o algoritmo
NG (na realidade, em apenas um teste o resultado do algoritmo ARIA supera o do k-mdias). No
mostrada uma gura com esta comparao devido semelhana que esta teria com a Figura 6.10,
somente com as curvas do algoritmo ARIA mais prximas das curvas do k-mdias.
90 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.12: Resultado das trs verses do algoritmo ARIA, utilizando o conjunto de parmetros
PE + En + 24 mel.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa 91
Na seo 6.6, explicado por que o algoritmo ARIA, que agora seguramente capaz de preservar
a densidade, continua com desempenho pior que o dos outros algoritmos.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a En-
tropia Relativa
At o momento, s se avaliou a qualidade dos algoritmos de quantizao vetorial, atravs da nota
PESQwb mdia das 50 frases de teste, sintetizadas a partir dos dicionrios de quadros formados por
quadros selecionados da base de treinamento pelos algoritmos em questo.
Nessa seo, verica-se se h correlao entre essa medida de qualidade do sinal de fala e as
medidas de qualidade da quantizao dos dados, isto , o erro de quantizao e a entropia relativa das
distribuies de dados e prottipos, conforme descrito na Seo 3.4.
Comeando pelo erro de quantizao, pode-se calcul-lo tanto em relao aos dados de treina-
mento quanto em relao aos dados de teste. Como as notas PESQwb so referentes aos dados de
teste, calcula-se o erro de quantizao em relao aos dados de teste tambm. Na Figura 6.13, so
apresentados resultados comparando o algoritmo ARIA em sua verso original com as verses pro-
postas.
Assim como para a nota PESQwb, a modicaes no algoritmo ARIA propostas neste trabalho
levaram a erros de quantizao menores. E, tambm como para a nota PESQwb, a modicao no
mtodo de estimao de densidade foi a que produziu as melhores solues. Na Figura 6.14, compara-
se a verso do algoritmo ARIA que produziu os melhores resultados com os outros algoritmos, isto
, NG e k-mdias, com a escolha aleatria de prottipos e com o teste Sem Compresso.
Apesar da escala prejudicada, possvel perceber que o algoritmo NG obteve os menores erros
de quantizao, seguido pelo k-mdias e depois pelo ARIA. Esse comportamento equivalente ao
observado para os resultados de nota PESQwb desses algoritmos. Com isso, j se pode armar que
existe correlao entre essas medidas.
Para conhecer a natureza dessa correlao, na Figura 6.15 mostrado um grco da nota PESQwb
vs. o erro de quantizao, incluindo o resultado de todos os algoritmos. Os 10 pontos de cada
algoritmo so referentes s 10 conguraes de testes diferentes adotadas, exceto, claro, para os
pontos Sem Compresso, que so apenas 4, um para cada tamanho de base de treinamento adotada.
O grco da Figura 6.15 deixa claro que h correlao linear entre a nota PESQwb e o erro de
quantizao. Alm disso, os grcos das Figuras 6.13 e 6.14 mostram que o erro do ARIA diminuiu,
aps as alteraes na frmula de clculo do raio e no mtodo de estimao de densidade, mas continua
com resultados piores do que os outros algoritmos. importante destacar que o objetivo do ARIA
produzir uma distribuio de prottipos que respeite a densidade dos dados, e no minimizar o
92 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.13: Erro de quantizao mdio das trs verses do algoritmo ARIA.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa 93
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.14: Erro de quantizao mdio (em relao aos dados de teste) dos algoritmos k-mdias,
NG e ARIA (utilizando o mtodo KNN para estimao de densidade), da escolha aleatria de
prottipos e do codebook formado pelas bases de treinamento inteiras (Sem Compresso).
94 Resultados
Fig. 6.15: Relao entre a nota PESQwb mdia das frases de teste e o erro de quantizao dos
dados de teste. Nesse grco, aparecem os resultados de todos os algoritmos aplicados a todas
as conguraes de teste utilizadas.
erro de quantizao. Por isso, investigou-se se o ARIA supera os outros algoritmos na questo da
distribuio dos prottipos. A entropia relativa, que indica a proximidade entre as distribuies de
dados e prottipos, dar uma resposta a essa pergunta.
Caso a resposta seja armativa, isso implica que, para esta aplicao, no interessante selecionar
prottipos que respeitem a densidade, mas sim selecion-los de forma que o erro de quantizao seja
o menor possvel.
Para esse teste, decidiu-se usar o mtodo KNN por dois motivos. Primeiro porque o parmetro k
(tamanho da vizinhana) mais intuitivo e, por isso, mais fcil de regular, do que a largura de banda
h do mtodo do estimador de ncleo. Segundo porque, em testes preliminares, o estimador de ncleo
forneceu resultados piores.
Para essa avaliao, empregaram-se diferentes valores de k (do mtodo KNN) para se estimar a
entropia relativa das distribuies: k = 5, k = 20, k = 50 e k = 100. Primeiro compara-se apenas o
resultado do ARIA original com o resultado das modicaes propostas neste trabalho. Tal resultado
apresentado na Figura 6.16. Apenas o caso k = 5 mostrado, pois os resultados para os outros
valores de k foram equivalentes.
V-se que, tambm segundo essa medida, as modicaes propostas aperfeioaram o resultado e
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa 95
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.16: Erro de quantizao mdio das trs verses do algoritmo ARIA.
96 Resultados
que a modicao no mtodo de estimao de densidade foi a que surtiu mais efeito, uma vez que,
quanto mais prximo de zero o valor da entropia, mais similares so as distribuies comparadas.
Na Figura 6.17, apresentam-se os resultados dos algoritmos NG, k-mdias, ARIA (apenas da
verso com o mtodo KNN para estimao de densidade) e da escolha aleatria, novamente apenas
para k = 5.
Mais uma vez, pode-se ver que h correlao da entropia relativa com a nota PESQwb, pois as
curvas apresentam comportamento semelhante ao observado para o erro de quantizao. A principal
diferena que nesse caso, o ARIA apresentou os melhores resultados, seguido pelo k-mdias e
depois pelo NG.
Para melhor visualizao e compreenso da natureza da correlao entre as medidas, tal qual foi
feito para o erro de quantizao, na Figura 6.18 so mostrados grcos de nota PESQ vs. Entropia
relativa, agora para os diferentes valores de k avaliados.
Da Figura 6.18, pode-se concluir que (i) a escolha aleatria produz o pior resultado, (ii) k-mdias
ligeiramente melhor que o NG, pois seus pontos esto um pouco mais esquerda (menor entropia
relativa), diferente da nota PESQwb, em que o NG que ligeiramente superior ao k-mdias, pois
seus pontos esto um pouco mais acima (ver tambm Figuras 6.7 e 6.10), e (iii) o ARIA, apesar de na
maioria das situaes produzir distribuies melhores ou to boas quanto k-mdias (entropia relativa
menor ou igual), levou a notas PESQwb sempre piores.
Observando as curvas da nota PESQwb vs. Entropia relativa (Figura 6.18), percebe-se que as
medidas so correlacionadas, pelo menos quando se considera cada algoritmo individualmente. Ou
seja, uma distribuio de prottipos gerada por certo algoritmo que produz uma entropia relativa
menor em relao aos dados de teste, sempre leva a uma nota PESQwb maior, para todos os ks
testados. No entanto, quando se consideram algoritmos diferentes, isso nem sempre verdade, pois
repare que h pontos mais acima (nota PESQwb maior) e mais direta (entropia maior) do que outros.
Por isso, pode-se dizer que a correlao entre a nota PESQwb e o erro de quantizao mais forte
do que sua correlao com a entropia relativa entre as distribuies, uma vez que, para o erro de
quantizao, os pontos de todos os algoritmos so colineares.
Com essa anlise, tambm se justica por que o ARIA, mesmo aps as modicaes que melhora-
ram seu desempenho, ainda perde para os outros algoritmos na aplicao deste trabalho: o algoritmo
posiciona prottipos que, apesar de levar menor entropia relativa, no geram o menor erro de quan-
tizao, reetindo em uma nota PESQwb pior.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa 97
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.17: Erro de quantizao mdio das trs verses do algoritmo ARIA.
98 Resultados
(a) (b)
(c) (d)
Fig. 6.18: Resultado da relao da nota PESQwb e da entropia relativa entre as distribuies
dos dados de teste e dos prottipos, produzidos pelo algoritmos NG, k-mdias, ARIA (verso
com o mtodo KNN para estimao de densidade) e escolha aleatria de prottipos, estimada
com o mtodo KNN, para diferentes valores de k. 6.18(a) k = 5. 6.18(b) k = 20. 6.18(c) k = 50.
6.18(d) k = 100.
Captulo 7
Concluso
Este trabalho realizou um estudo de algoritmos de quantizao vetorial aplicados na compresso
de sinais de fala. Na tcnica de compresso utilizada, os sinais so primeiramente divididos em qua-
dros, depois so janelados e, em seguida, so parametrizados e quantizados, para serem armazenados
e/ou transmitidos. Para recompor o sinal, os vetores quantizados so mapeados em quadros de fala,
que so, por sua vez, concatenados atravs de uma tcnica de sntese concatenativa, conhecida como
PSOLA.
Um dos estudos feitos neste trabalho foi a avaliao de diferentes conjuntos de atributos do sinal
de fala, usados na etapa de parametrizao. Os parmetros testados foram os coecientes LPC, os
coecientes LSF, os coecientes MFCC, os coecientes mel, a energia e a frequncia fundamental.
Concluiu-se que os melhores resultados eram obtidos quando se empregavam os coecientes mel,
associados energia e ao perodo esquerdo (que carrega a informao de frequncia fundamental). A
magnitude desses dois ltimos atributos foi alterada, em um processo de normalizao e ponderao,
no qual os pesos utilizados foram otimizados.
Uma vez denido o conjunto de atributos do sinal que conduziram aos melhores resultados, foi
feito outro estudo, dessa vez envolvendo diferentes algoritmos de quantizao vetorial. Foram avali-
ados os algoritmos k-mdias, NG (Neural-Gas) e ARIA (Adaptive Radius Immune Algorithm). Em
uma avaliao considerando unicamente a qualidade do sinal de fala sintetizado como medida de
desempenho, os algoritmos k-mdias e NG tiveram resultados equivalentes, enquanto o ARIA apre-
sentou os piores resultados.
A causa desses resultados inferiores foi descoberta: na contramo da esperada preservao de
densidade, que o algoritmo propunha e mostrava ser capaz de obter para dados de baixa dimenso, o
posicionamento de prottipos realizado pelo ARIA revelou-se distorcido, o que pode ser associado
elevada dimenso dos dados. Este comportamento inesperado foi detectado pela primeira vez neste
trabalho. Determinado o motivo, foram propostas duas modicaes simples no algoritmo, uma delas
99
100 Concluso
alterando a forma com que os raios dos anticorpos eram calculados e a outra mudando o mtodo de
estimao de densidade local de dados na vizinhana de cada anticorpo, sendo esta ltima a mais
eciente.
Tais modicaes foram implementadas e levaram o ARIA a melhorar consideravelmente seu
desempenho, mas ainda perdia para os outros dois algoritmos em questo. Com isso, tambm foi
investigada neste trabalho a relao entre a qualidade do sinal produzido, dada pela nota PESQwb, e
duas medidas de avaliao da qualidade da quantizao: o erro de quantizao e a entropia relativa,
utilizada para avaliar a similaridade entre as distribuies de dados e de prottipos. Cabe mencionar
que a entropia relativa est diretamente vinculada preservao de densidade.
O erro de quantizao mostrou-se fortemente correlacionado nota PESQwb, enquanto a entropia
relativa tambm apresentou certa correlao, mas no to destacada quanto a do erro de quantizao.
Isso explica o porqu do desempenho inferior do ARIA para esta aplicao. O objetivo do ARIA a
preservao da densidade na distribuio dos prottipos, o que resulta em entropias relativas meno-
res, no correspondendo necessariamente minimizao do erro de quantizao. Por isso, o ARIA
tambm perdeu para os outros algoritmos no quesito erro de quantizao, apesar de super-los no
quesito entropia relativa. Entretanto, deve-se ressaltar que as modicaes propostas foram capazes
de aprimorar a resposta do algoritmo em relao a ambas as medidas de qualidade da quantizao.
Dados esses resultados, conclui-se que no recomendvel a utilizao do ARIA para esta aplica-
o. Alm disso, dos trs algoritmos testados, o ARIA o mais custoso computacionalmente. O custo
computacional um fator importante na anlise de algoritmos, mas no foi abordado neste trabalho,
porque a quantizao vetorial uma etapa ofine na aplicao. Assim, seria justicvel o uso de um
algoritmo computacionalmente mais caro, caso ele levasse a resultados melhores.
Por m, do ponto de vista da aplicao, os valores absolutos de nota PESQwb conseguidos pela
tcnica descrita so relativamente ruins, tornando invivel sua utilizao em ferramentas comerciais,
exceto em situaes que no exijam muita qualidade, ou que os recursos de memria disponvel sejam
realmente pequenos.
Enfrentar essa limitao a principal sugesto para a continuidade deste trabalho. Repare que
no foi empregada nenhuma tcnica de processamento de sinais para reduzir as distores introduzi-
das pela concatenao de quadros, os quais muitas vezes no casam. As amostras dos quadros so
simplesmente sobrepostas e somadas.
Alm disso, a qualidade do sinal sintetizado poderia ser melhorada atravs de uma escolha da
sequncia de quadros do dicionrio que leve em considerao algum tipo de custo de concatenao.
Lembre-se que, neste trabalho, h apenas o que se pode chamar de custo de substituio. Em outras
palavras, na hora da escolha de um quadro, avaliada apenas a distncia entre o vetor do quadro
original e os codevectors, mas no a distncia entre vetores consecutivos.
101
Seria interessante tambm avaliar diferentes locutores (masculinos e femininos), para vericar o
desempenho do sistema com vozes mais graves ou agudas, e trabalhar com sinais amostrados a 8
kHz, o que reduz imediatamente o tamanho do dicionrio de quadros pela metade e atenua algumas
degradaes de alta frequncia.
Com isso, espera-se obter uma melhora da qualidade do sinal produzido, independentemente da
ecincia do algoritmo de quantizao vetorial utilizado.
Outro ponto em que h margem para trabalhos futuros o estudo de outros parmetros do sinal
de fala, ou de diferentes combinaes dos parmetros j apresentados aqui, buscando um vetor de
atributos mais representativo e altamente correlacionado com a qualidade do sinal produzido.
No que diz respeito aos algoritmos de quantizao, pode-se procurar algoritmos mais competentes
na minimizao do erro de quantizao ou aperfeioar os algoritmos descritos neste trabalho, de forma
que a qualidade do sinal gerado a partir do codebook se aproxime cada vez mais da qualidade obtida
com o emprego desta tcnica, mas sem compresso.
Quanto ao ARIA, j foi proposta outra melhoria visando torn-lo eciente para a minimizao do
erro de quantizao (Azzolini et al., 2010), envolvendo o mtodo empregado no clculo do seu raio.
O efeito dessa melhoria no desempenho do ARIA junto s aplicaes consideradas nesta pesquisa
ainda precisa ser avaliado.
Outras etapas do algoritmo ARIA podem ser modicadas. O modelo de treinamento sequencial
pode ser substitudo por um treinamento em batelada. O mecanismo de clonagem pode ser mais
eciente, evitando a proliferao exagerada de anticorpos. Assim como o mecanismo de supresso,
que se baseia em uma rede de anticorpos totalmente conectada, o que bastante custoso, poderia ser
revisto para, por exemplo, empregar outro tipo de rede.
Conclui-se, por m, que ainda h espao para muitas melhorias no sistema descrito neste trabalho
tanto no que diz respeito ao processamento de sinais quanto no que diz respeito quantizao vetorial,
o que indica boas perspectivas futuras para a linha de pesquisa.
102 Concluso
Referncias Bibliogrcas
J.-P. Adoul, P. Mabilleau, M. Delprat, e S. Morisette. Fast CELP Coding Based on Algebraic Codes.
In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing,
vol. 12, pp. 19571960, April 1987.
B. S. Atal. The History of Linear Prediction. In IEEE Signal Processing Magazine, vol. 23, pp.
154161, March 2006.
A. G. Azzolini, R. P. V. Violato, e F. J. Von Zuben. Density Preservation and Vector Quantization
in Immune-Inspired Algorithms. In Proceedings of the 9th International Conference on Articial
Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 3346, July
2010.
J. G. Beerends e J. A. Stemerdink. A Perceptual Audio Quality Measure Based on a Psychoacoustic
Sound Representation. Journal of the Audio Engineering Society, vol. 40, no. 12, pp. 963974,
December 1992.
J. G. Beerends e J. A. Stemerdink. A Perceptual Speech-Quality Measure Based on a Psychoacoustic
Sound Representation. Journal of the Audio Engineering Society, vol. 42, no. 3, pp. 115123,
March 1994.
J. Benesty, M. M. Sondhi, e Y. Huang, editors. Springer Handbook of Speech Processing. Springer,
2008.
G. B. Bezerra, T. V. Barra, L. N. de Castro, e F. J. Von Zuben. Adaptive Radius Immune Algorithm
for Data Clustering. In C. Jacob, M. L. Pilat, P. J. Bentley, e J. Timmis, editors, Proceedings of 4th
International Conference on Articial Immune Systems (ICARIS-2005), vol. 3627 of Lecture Notes
in Computer Science, pp. 290303. Springer-Verlag, August 2005.
S. Boll. Suppression of Acoustic Noise in Speech Using Spectral Subtraction. IEEE Transactions on
Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113120, April 1979.
103
104 REFERNCIAS BIBLIOGRFICAS
B. P. Borget, M. J. R. Healy, e J. W. Tukey. The Quefrency Alanysis of Times Series for Echos: Ceps-
trum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking. In M. Rosenblatt, editor,
Proceedings of the Symposium on Time Series Analysis, pp. 209243. Wiley, 1963.
F. M. Burnet. The Clonal Selection Theory of Acquired Immunity. Vanderbilt University Press,
Nashville, TN, 1959.
F. M. Burnet. Clonal Selection and After. In G. I. Bell, A. S. Perelson, e G. H. Pimgley Jr, editors,
Theoretical Immunology, pp. 6385. Marcel Dekker Inc., 1978.
J.-H. Chen. A Robust Low-Delay CELP Speech Coder at 16kb/s. In Proceedings of IEEE Global
Telcommunications Conference, vol. 2, pp. 12371241, 1989.
J.-H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, e M. J. Melchner. A Low-Delay CELP Coder for
the CCITT 16kb/s Speech Coding Standard. IEEE Journal on Selected Areas in Communications,
vol. 10, no. 5, pp. 830849, June 1992.
V. Cherkassky e F. Mulier. Learning FromData: Concepts, Theory, and Methods. Wiley-Interscience,
1998.
I. R. Cohen. Tending Adams Garden: Evolving the Cognitive Immune Self. Academic Press, 2004.
D. Dasgupta. Articial Immune Systems and their Applications. Springer-Verlag, 1998.
S. Davis e P. Mermelstein. Comparision of Parametric Representations for Monosyllabic Word Re-
cognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal
Processing, vol. 28, no. 4, pp. 357366, August 1980.
L. N. de Castro. Engenharia Imunolgica: Desenvolvimento e Aplicao de Ferramentas Compu-
tacionais Inspiradas em Sistemas Imunolgicos Articiais. Tese de Doutorado, UNICAMP, Maio
2001.
L. N. de Castro. Fundamentals of Natural Computing: Basic Concepts, Algorithms and Applications.
Chapman & Hall/CRC, 2006.
L. N. de Castro e J. Timmis. Articial Immune Systems: A New Computational Intelligence Approach.
Springer-Verlag, 2002.
L. N. de Castro e F. J. Von Zuben. aiNet: An Articial Immune Network for Data Analysis. In H. A.
Abbass, R. A. Sarker, e C. S. Newton, editors, Data Mining: A Heuristic Approach, chapter 12, pp.
231259. Idea Group Publishing, 2001.
REFERNCIAS BIBLIOGRFICAS 105
R. O. Duda, P. E. Hart, e D. G. Stork. Pattern Classication. Wiley-Interscience, 2nd edition, 2001.
J. Durbin. Efcient Estimation of Parameters on Moving-Average Models. Biometrika, vol. 46,
no. 3-4, pp. 306316, 1959.
J. Durbin. The Fitting of Time-Series Models. Revue de lInstitut International de Statistique, vol. 28,
no. 3, pp. 233243, 1960.
K. Fukunaga e R. R. Hayes. The Reduced Parzen Classier. IEEE Transaction on Pattern Analysis
and Machine Intelligence, vol. 11, no. 4, pp. 423425, April 1989.
Y. Gao, A. Benyassine, J. Thyssen, H. Su, e E. Shlomot. eX-CELP: A Speech Coding Paradigm.
In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing,
vol. 2, pp. 689692, 2001.
I. A. Gerson e M. A. Jasiuk. Vector SumExcited Linear Prediction (VSELP) Speech Coding at 8 kbps.
In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing,
vol. 1, pp. 461464, 1990.
R. M. Gray e D. L. Neuhoff. Quantization. IEEE Transactions on Information Theory, vol. 44, no. 6,
pp. 23252383, October 1998.
J. Han e M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2nd
edition, 2006.
A. H. Hentz e R. Seara. Compresso de Bancos de Fala para Sistemas de Sntese Concatenativa de
Alta Qualidade. In XXVII Simpsio Brasileiro de Telecomunicaes (SBrT), 2009.
F. Itakura. Line Spectrum Representation of Linear Predictive Coefcients of Speech Signals. Journal
of the Acoustical Society of America, vol. 57, no. 1, pp. 35, 1975.
ITU. Website acessado em agosto. http://www.itu.int, 2008.
C. A. Janeway, P. Travers, M. Walport, e M. Shlomchik. Imunobiologia: O Sistema Imune na Sade
e na Doena. Artmed, 2001.
N. K. Jerne. Towards a Network Theory of the Immune System. In Ann. Immunol. Inst. Pasteur, no
1-2 in 125C, pp. 373389, January 1974.
T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, e A. Y. Wu. An Efcient k-
means Clustering Algorithm: Analysis and Implementation. IEEE Transactions Pattern Analysis
and Machine Intelligence, vol. 24, no. 7, July 2002.
106 REFERNCIAS BIBLIOGRFICAS
T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, e A. Y. Wu. A Local Search
Approximation Algorithm for k-Means Clustering. Computational Geometry: Theory and Appli-
cations, vol. 28, no. 2-3, pp. 89112, June 2004.
A. Kataoka, T. Moriya, e S. Hayashi. An 8-kbit/s Speech Coder Based on Conjugate Structure CELP.
In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing,
vol. 2, pp. 592595, 1993.
D. H. Klatt. Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society
of America, vol. 67, no. 3, pp. 971995, March 1980.
W. B. Kleijn, P. Kron, L. Cellario, e D. Sereno. A 5.85 kb/s CELP Algorithm for Cellular Ap-
plications. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal
Processing, vol. 2, pp. 596599, 1993.
T. Kohonen. Self-Organized Formation of Topologically Correct Feature Maps. Biological Cyberne-
tics, vol. 43, no. 1, pp. 5969, January 1982.
S. Kullback. Information Theory and Statistics. John Wiley & Sons, 1959.
C. Laamme, J.-P. Adoul, H. Y. Su, e S. Morisette. On Reducing Computational Complexity of
Codebook Search in CELP Coder through the use of Algebraic Codes. In Proceedings of IEEE
International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 177180, 1990.
V. L. Latsch. Construo de Banco de Unidades para Sntese de Fala por Concatenao no Domnio
Temporal. Dissertao de Mestrado, UFRJ, Abril 2005.
K.-S. Lee e R. V. Cox. A Very Low Bit Rate Speech Coder Based on a Recognition-Synthesis
Paradigm. IEEE Transactions on Speech and Audio Processing, vol. 9, no. 5, pp. 482491, July
2001.
N. Levinson. The Wiener RMS (Root Mean Square) Error Criterion in Filter Design and Prediction.
Journal of Mathematics and Physics of the Massachusetts Institute of Technology, vol. 25, no. 4,
pp. 261278, 1947.
S. P. Lloyd. Least Squares Quantization in PCM. IEEE Transactions on Information Theory, vol. 28,
no. 2, pp. 129137, March 1982.
J. MacQueen. Some Methods for Classication and Analysis of Multivariate Observations. In Proc.
Fifth Berkeley Symp. Math. Statistics and Probability, pp. 281296, 1967.
REFERNCIAS BIBLIOGRFICAS 107
J. Makhoul e J. Wolf. Linear Prediction and the Spectral Analysis of Speech, pp. 172185. Bolt,
Beranek, and Newman Inc., 1972.
J. D. Markel e A. H. Gray Jr. Linear Prediction of Speech. Springer, 1976.
T. M. Martinetz, S. G. Berkovich, e K. J. Schulten. Neural-gas Network for Vector Quantization
and its Application to Time-Series Prediction. IEEE Transactions on Neural Networks, vol. 4,
no. 4, pp. 558 569, July 1993.
T. M. Martinetz e K. J. Schulten. A Neural-Gas Network Learns Topologies. In T. Kohonen,
K. Mkisara, O. Simula, e J. Kangas, editors, Articial Neural Networks, pp. 397402. Elsevier,
North-Holland, Amsterdam, 1991.
P. Matzinger. Tolerance, Danger and the Extended Family. Annual Review of Immunology, vol. 12,
pp. 9911045, April 1994.
P. Matzinger. The Danger Model: ARenewed Sense of Self. Science, vol. 296, no. 5566, pp. 301305,
April 2002.
S. Miki, K. Mano, H. Ohmuro, e T. Moriya. Pitch Synchronous Innovation CELP (PSI-CELP). In
Proceedings of Eurospeech Conference, pp. 261264, 1993.
E. Moulines. Algorithmes de Codage et de Modication des Paramtres Prosodiques pour la Synthse
de la Parole partir du Texte. Tese de Doutorado, cole National Suprieure des Tlcommunica-
tions, February 1990.
A. V. Oppenheim e R. W. Schaffer. Discrete-Time Signal Processing. Prentice-Hall, 1989.
ITU-T Recommendation P.800. Methods for Subjective Determination of Transmission Quality,
1996.
ITU-T Recommendation P.862. Perceptual Evaluation of Speech Quality (PESQ): An Objective
Method for End-to-End Speech Quality Assessment of Narrow Band Telephone Networks and
Speech Codecs, February 2001.
ITU-T Recommendation P.862.2. Wideband Extension to Recommendation P.862 for the Assessment
of Wideband Telephone Networks and Speech Codecs, November 2007.
J. Picone. Signal Modeling Techniques in Speech Recognition. Proceedings of the IEEE, vol. 81,
no. 9, pp. 12151247, September 1993.
G. Pinchuk. Theory and Problems of Immunology. USA: McGraw-Hill, 2002.
108 REFERNCIAS BIBLIOGRFICAS
L. R. Rabiner e R. W. Schaffer. Digital Processing of Speech Signal. Prentice-Hall, 1976.
A. Rix, J. Beerends, M. Hollier, e A. Hekstra. Perceptual Evaluation of Speech Quality (PESQ) - A
New Method for Speech Quality Assessment of Telephone Networks and Codecs. In Proceedings
of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 7376,
2001.
A. Rix e M. Hollier. The Perceptual Analysis Measurement System for Robust end-to-end Speech
Quality Assessment. In Proceedings of IEEE International Conference on Acoustics, Speech, and
Signal Processing, vol. 3, pp. 15151518, June 2000.
R. Salami, C. Laamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux,
S. Proust, P. Kroon, e Y. Shoham. Design and Description of CS-ACELP: a Toll Quality 8 kb/s
Speech Coder. IEEE Transactions on Speech and Audio Processing, vol. 6, no. 2, pp. 116130,
March 1998.
M. R. Schoroeder e B. S. Atal. Code-Excited Linear Prediction (CELP): High Quality Speech at Very
Low Bit Rates. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal
Processing, pp. 937940, March 1985.
L. A. Segel e I. Cohen, editors. Design Principle for the Immune System and Other Distributed
Autonomous Systems. Oxford University Press, 2001.
B. W. Silverman. Density Estimation for Statistics and Data Analysis. Number 26 in Monographs on
statistics and applied probability. Chapman & Hall, 1986.
F. O. Simes. Implementao de um Sistema de Converso Texto-Fala para o Portugus do Brasil.
Dissertao de Mestrado, UNICAMP, Maio 1999.
F. O. Simes, M. Uliani Neto, J. B. Machado, E. J. Nagle, F. O. Runstein, e L. C. T. Gomes. Speech
Compression Using Vector Quantization and Unsupervised Neural Networks. In Brain Inspired
Cognitive Systems (BICS 2008) - Fourth International ICSC Symposium on Biologically Inspired
Systems (BIS 2008), 2008.
F. K. Song e B.-H. Juang. Line Spectrum Pair (LSP) and Speech Data Compression. Proceedings
of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 9, pp. 3740,
March 1984.
F. K. Song e B.-H. Juang. Optimal Quantization of LSP parameters. IEEE Transactions on Speech
and Audio Processing, vol. 6, pp. 1524, 1993.
REFERNCIAS BIBLIOGRFICAS 109
Starlab. Website acessado em agosto. users.pandora.be/richard.wheeler1/ais/inn.html, 2008.
S. Stevens, J. Volkman, e E. Newman. A Scale for the Measurement of the Psychological Magnitude
of Pitch. Journal of the Acoustical Society of America, vol. 8, no. 3, pp. 185190, January 1937.
T. Stibor e J. Timmis. An Investigation on the Compression Quality of aiNet. In Proceedings of the
2007 IEEE Symposium on Foundations of Computational Intelligence (FOCI 2007), pp. 495502,
2007.
T. Stibor, J. Timmis, e C. Eckert. On the use of hyperspheres in articial immune systems as an-
tibody recognition regions. In H. Bersini e J. Carneiro, editors, Proceedings of 5th International
Conference on Articial Immune Systems (ICARIS-2006), vol. 4163 of Lecture Notes in Computer
Science, pp. 215228. Springer-Verlag, September 2006.
P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009.
T. Thiede, W. C. Treurniet, R. Bitto, C. Schmidmer, T. Sporer, J. G. Beerends, e C. Colomes. PEAQ
- The ITU Standard for Objective Measurement of Perceived Audio Quality. Journal of the Audio
Engineering Society, vol. 48, no. 1/2, pp. 329, February 2000.
J. Timmis. Articial Immune Systems: A Novel Data Analysis Technique Inspired by the Immune
Network Theory. Tese de Doutorado, Department of Computer Science, University of Whales,
September 2000.
J. Timmis e M. Neal. A resource Limited Articial Immune System for Data Analysis. Knowledge
Based Systems, vol. 14, no. 3-4, pp. 121130, June 2001.
SOM toolbox. Website acessado em agosto. http://www.cis.hut./projects/somtoolbox, 2008.
R. P. V. Violato, A. G. Azzolini, e F. J. Von Zuben. Antibodies with Adaptive Radius as Prototypes
of High-Dimensional Datasets. In Proceedings of the 9th International Conference on Articial
Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 158170, July
2010.
R. P. V. Violato, F. J. Von Zuben, F. O. Simoes, M. Uliani Neto, E. J. Nagle, F. O. Runstein, e
L. C. T. Gomes. Agrupamento Sensvel Densidade para a Quantizao de Sinais de Fala. In
30
o
Congresso Ibero-Latino-Americano de Mtodos Computacionais em Engenharia (CILAMCE
2009), Novembro 2009.
110 REFERNCIAS BIBLIOGRFICAS
S. Voran. Objective Estimation of Perceived Speech Quality, Part I: Development of the Measuring
Normalizing Block Technique. IEEE Transactions on Speech and Audio Processing, vol. 7, no. 4,
pp. 371382, July 1999a.
S. Voran. Objective Estimation of Perceived Speech Quality, Part II: Evaluation of the Measuring
Normalizing Block Technique. IEEE Transactions on Speech and Audio Processing, vol. 7, no. 4,
pp. 383390, July 1999b.
S. Wang, A. Sekey, e A. Gersho. An Objective Measure for Predicting Subjective Quality of Speech
Coders. IEEE Journal on Selected Areas in Communications, vol. 10, no. 5, pp. 819829, June
1992.
R. Xu e D. C. Wunsch II. Recent Advances in Cluster Analysis. International Journal of Intelligent
Computing and Cybernetics (IJICC), vol. 1, no. 4, pp. 484508, 2008.
E. Zwicker. Subdivision of the Audible Frequency Range into Critical Bands. Journal of the Acous-
tical Society of America, vol. 33, no. 2, pp. 248, February 1961.
E. Zwicker e H. Fastl. Psychoacoustics, Facts and Models. Springer Verlag, 1990.