Roque Aesbr2014

Sociedade de Engenharia de Audio
Convention Artigo
Apresentado no 10a Convention
08 a 10 de Maio de 2006, Sao Paulo, SP
Este artigo foi reproduzido do original entregue pelo autor, sem edicoes, correcoes e considera coes feitas pelo comite
tecnico deste evento. Outros artigos podem ser adquiridos atraves da Audio Engineering Society, 60 East 42
nd
Street,
New York, New York 10165-2520, USA; www.aes.org. Informa coes sobre a se cao Brasileira podem ser obtidas em
www.aesbrasil.org. Todos os direitos s ao reservados. N ao e permitida a reprodu cao total ou parcial deste artigo sem
autoriza cao expressa da AES Brasil.
Ttulo do Artigo
Autor 1, Autor 2, Autor 3
Aliacao
C odigo Postal, Cidade, Estado, Pas
endereco@eletr^ onico
RESUMO
Um resumo, com aproximadamente de 60 a 80 palavras, dever a apresentar o conte udo deste artigo. Um
resumo, com aproximadamente de 60 a 80 palavras, dever a apresentar o conte udo deste artigo. Um re-
sumo, com aproximadamente de 60 a 80 palavras, dever a apresentar o conte udo deste artigo. Um resumo,
com aproximadamente de 60 a 80 palavras, dever a apresentar o conte udo deste artigo. Um resumo, com
aproximadamente de 60 a 80 palavras, dever a apresentar o conte udo deste artigo.
1. ITEM
Este template, em L
A
T
E
X deve ser compatvel com
qualquer PC ou Macintosh. O objetivo deste tem-
plate e sugerir um formato padr ao para apresenta cao
de trabalhos tecnicos e cientcos. Para isto, basta
salvar este template com outro nome, e como arquivo
*.tex, e ir digitando o novo texto sobre este.
Os artigos submetidos `a Conven cao da AES n ao sao
revisados pelo corpo editor, e poder ao ser publicados
em suas formas originais, como submetidos. Para
isto, as versoes nais devem ser enviadas em arquivos
PDF (*.pdf) ou em postscript (*.ps), segundo este
formato.
Itens principais (veja acima) s ao em letras
mai usculas, fonte Helvetica, tamanho 8, estilo
negrito, alinhado ` a esquerda. O texto, propriamente
dito, e em fonte Times Roman, tamanho 9 e justi-
cado (como este).
1.1. Sub-Item 1
Subitens usam letras mai usculas e min usculas, como
acima. A fonte e Helvetica, tamanho 8, estilo
negrito, alinhamento ` a esquerda, como no item prin-
cipal.
2. CONTE
UDO
Para garantir que os artigos da Conven cao da AES
sejam consistentes com os objetivos da AES Brasil,
as instru coes abaixo devem ser consideradas pelos
autores.
O conte udo tecnico deve ser preciso e coerente.
Citacao a trabalhos anteriores e/ou de terceiros de-
vem ter seus respectivos creditos.
Sociedade de Engenharia de

Audio
Artigo de Congresso
Apresentado no 12
o
Congresso de Engenharia de

Audio
18
a
Convenc ao Nacional da AES Brasil
13 a 15 de Maio de 2014, S ao Paulo, SP
Este artigo foi reproduzido do original nal entregue pelo autor, sem edic oes, correc oes ou considerac oes feitas pelo comit e
t ecnico. A AES Brasil n ao se responsabiliza pelo conte udo. Outros artigos podem ser adquiridos atrav es da Audio Engineering
Society, 60 East 42
nd
Street, New York, New York 10165-2520, USA, www.aes.org. Informac oes sobre a sec ao Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos s ao reservados. N ao e permitida a reproduc ao total ou parcial deste
artigo sem autorizac ao expressa da AES Brasil.
Extrac ao de Descritores Sonoros Timbrsticos a
Partir da Transformada Wavelet Packet
Thiago Rossi Roque
1
e Rafael Santos Mendes
1
1
Universidade Estadual de Campinas, FEEC, DCA
Campinas, S ao Paulo, 13083-970, Brasil
ra072515@fee.unicamp.br, rafael@dca.fee.unicamp.br
RESUMO
As t ecnicas de reconhecimento e classicac ao de sons na ci encia chamada Music Information Retrieval
sofreram not avel progresso nos ultimos anos. Ao unir o conhecimento gerado por essa ci encia com
os anseios criativos da m usica eletroac ustica, novas possibilidades v em surgindo atrav es de recentes
t ecnicas de sntese sonora baseadas em modulac oes de descritores sonoros. Por em os m etodos tradicio-
nais de extrac ao de descritores sonoros foram desenvolvidos com o unico objetivo de realizar an alise de
sinais. Este artigo tem como objetivo apresentar os resultados parciais das pesquisas em andamento dos
autores sobre uma nova t ecnica de extrac ao de descritores timbrsticos baseada na transformada wavelet
a m de obter, futuramente, um c alculo orientado tanto ` a an alise quanto ` a sntese de sinais musicais.
0 INTRODUC

AO
Oavanco nas tecnologias de armazenamento e com-
partilhamento de conte udo digital nas ultimas d ecadas
criou vastos reposit orios das mais diversas mdias di-
gitais, incluindo o audio. Para lidar com esta mas-
siva quantidade de informac ao, diversas t ecnicas fo-
ram desenvolvidas. No nal da d ecada de 90 estas
t ecnicas se consolidaram na ci encia multidisciplinar
conhecida como Music Information Retrieval (MIR)
[1]. Segundo J. Stephen Downie [2], esta ci encia con-
siste em fornecer acesso aos vastos reposit orios mun-
diais de conte udos musicais com funcionalidades com-
patveis ` as existentes em ferramentas de busca textuais,
atrav es da uni ao de conhecimentos de diversas areas,
incluindo ac ustica, psicoac ustica, processamento de si-
nais, computac ao, biblioteconomia e outras.
Uma importante ferramenta da MIR consiste nos
descritores sonoros. Descritores s ao conjuntos de
informac oes que buscam quanticar aspectos geral-
mente qualitativos de um determinado sinal, ou seja,
descrever certas caractersticas de um sinal de forma
objetiva. A import ancia do estudo de descritores para
a MIR consiste no fato de que s ao estes que fornecem
as informac oes necess arias para catalogar e diferenciar
conte udos de audio digital. Grande esforco tem sido
ROQUE ET AL. DESCRITORES WAVELET
feito para que t ecnicas diversas de processamento de si-
nais sejam desenvolvidas a m de extrair e quanticar
as mais diversas caractersticas psicoac usticas de sinais
de audio. Atualmente existe uma vasta gama de descri-
tores sonoros desenvolvidos para os mais diversos ns;
uma extensa lista de classicac ao desses descritores foi
feita por Peeters durante o projeto CUIDADO [3], que
buscou expandir a padronizac ao do uso dos descrito-
res feita pelo Moving Picture Experts Group (MPEG)
atrav es do MPEG-7 [4].
Neste trabalho vamos considerar dois grupos
especcos de descritores sonoros: descritores
timbrsticos temporais e descritores timbrsticos espec-
trais. Timbre consiste no conjunto de caractersticas
sonoras que possibita a distinc ao entre diferentes
sons de mesma intensidade e frequ encia fundamen-
tal. Este complexo fen omeno sonol ogico envolve
caractersticas multi-dimensionais, pois depende, ao
menos, de fatores temporais e espectrais, correlatos
ou n ao. O estudo do timbre assume uma importante
posic ao na MIR, principalmente quando se deseja
classicar sons provenientes de instrumentos sonoros.
Dentre uma innidade de possveis descritores sonoros
a serem utilizados para classicac ao timbrstica, o
padr ao MPEG-7 adotou sete descritores baseando-se
em trabalhos como Krumhansl (1989) [5]. Devido
` a import ancia e relev ancia do padr ao no contexto
da MIR, decidiu-se utilizar os mesmos descritores
adotados pelo MPEG-7.
Outro campo de pesquisa inuenciado pelo estudo
do timbre e a sntese sonora. Nascida com a m usica ele-
troac ustica na primeira metade do s eculo XX a sntese
sonora busca a criac ao de sons por meios eletroe-
letr onicos, anal ogicos ou digitais, a m de expandir as
possibilidades criativas dos compositores. Uma recente
t ecnica de sntese sonora consiste na manipulac ao dos
descritores sonoros [6] que, atrav es de t ecnicas de pro-
cessamento de sinais, possibilita ao usu ario alterac oes
timbrsticas por modulac ao de descritores especcos
a m de modicar de forma controlada um determi-
nado som.

E neste ambito que focamos este trabalho
de forma a desenvolver uma nova ferramenta orientada
n ao somente a an alise de sons (como e o caso da trans-
formada de Fourier), mas tamb em a sntese, de forma a
darmos novos passos no desenvolvimento da sntese por
modulac ao de descritores sonoros. A diferenca entre as
ferramentas usuais j a consagradas e a aqui apresentada
para extrac ao dos descritores consiste na transformac ao
utilizada, a transformada wavelet.
A transformada wavelet e uma transformada em
multi-resoluc ao, ou seja, possibilita uma decomposic ao
do sinal tanto no domnio frequencial quanto no
domnio temporal. Novas t ecnicas recentemente desen-
volvidas de estimac ao espectral a partir da transformada
wavelet packet [7] possibilitaram uma an alise similar
a transformada de Fourier janelada (STFT, do ingl es
short-time Fourier transform). Trabalhos pr evios dos
autores desse artigo validaram a aplicac ao dessa nova
t ecnica para a extrac ao do descritor centroide espectral
em [8] al em de uma breve discuc ao sobre as vantagem
dessa t ecnica em relac ao as tradicionais. Este traba-
lho tem como objetivo a continuidade das pesquisas en-
volvendo a transformada wavelet packet e MIR, expan-
dindo as possibilidades para novos descritores tanto fre-
quenciais quanto temporais.
1 OS DESCRITORES SONOROS
Neste trabalho vamos nos focar nos descritores
sonoros timbrsticos, tanto temporais quanto espec-
trais. De acordo com o padr ao MPEG-7, os descrito-
res timbrsticos temporais, usados para descrever ca-
ractersticas temporais de segmentos sonoros, s ao as
medidas de tempo logartmico de ataque (TLA) e o
centroide temporal (CT). J a os descritores timbrsticos
espectrais s ao descritores espectrais baseados em uma
an alise linear do espacamento frequencial. Ainda de
acordo com o padr ao MPEG-7 estes descritores s ao:
centroide espectral harm onico (CEH), desvio espectral
harm onico (DEH), espalhamento espectral harm onico
(EEH), variac ao espectral harm onica (VEH) e centroide
espectral (CE) [4]. Neste trabalho abordaremos o TLA,
o CT, o CEH, o EEH e o CE. Futuros trabalhos dever ao
abranger o DEH e o VEH, dado que at e o atual mo-
mento a t ecnica aqui apresentada n ao apresentou resul-
tados satisfat orios para com estes descritores. A seguir
apresentaremos as denic oes de cada um dos descrito-
res aqui abordados juntamente com seus m etodos usu-
ais de c alculos.
1.1 Descritores Timbrsticos Temporais
Os descritores timbrsticos temporais s ao extrados
diretamente a partir da envolt oria temporal do sinal.
A forma cl assica de expressar a envolt oria temporal
do som de um instrumento musical e pelo acr onimo
ADSR, onde o som e dividido entre trechos de ata-
que, decaimento, sustentac ao e relaxamento. Pelo fato
de nem todo instrumento gerar sons que possuam es-
tas quatro etapas, o padr ao MPEG-7 exige somente o
descritor baseado no tempo de ataque, o TLA, al em
do CT. Estes dois descritores combinados fornecem im-
portantes informac oes a respeito do timbre de um ins-
trumento pela forma como o som se desenvolve ao
longo do tempo. Tais aspectos s ao fundamentais para
diferenciac ao de sons que possuem tempos de ataque
curto e com alta concentrac ao de energia em seus pri-
meiros instantes como, por exemplo, sons percussivos,
e tamb em sons com tempos de ataque mais longos e
com energia distribuda homogeneamente ao longo de
sua execuc ao, como sons de cordofones friccionados
[9].
O tempo de ataque e denido como o tempo ne-
cess ario para um sinal atingir um limiar de seu valor
m aximo de amplitude partindo de um limiar de seu
valor mnimo do instante de execuc ao. O tempo lo-
gartmico de ataque denido pelo padr ao MPEG-7 e o
logaritmo decimal do tempo de durac ao do ataque de
12
o
CONGRESSO / 18
a
CONVENC

AO NACIONAL DA AES BRASIL, S
AO PAULO, 13 A 15 DE MAIO DE 2014

um som como expresso na Equac ao (1), sendo T
inicial
o instante em que o sinal est a em seu limiar mnimo
e T
final
o instante em que o sinal est a em seu li-
miar m aximo. O padr ao MPEG-7 n ao dene quais s ao
os limiares mnimo e m aximo, possibilitando aborda-
gens distintas. Neste trabalho ser a adotada como limiar
mnimo uma amplitude de 5% de seu valor m aximo
e o instante nal ser a quando o sinal atingir seu valor
m aximo de amplitude.
TLA = log
10
(T
final
T
inicial
) (1)
O centroide temporal (CT) e denido como a m edia
temporal da energia da envolt oria do sinal. A f ormula
para seu c alculo est a dada na Equac ao (2), onde a
func ao Env representa a envolt oria do sinal. O m etodo
de extrac ao da envolt oria do sinal n ao e normativo pelo
padr ao MPEG-7, por em este pode ser compreendido
pelo c alculo do valor RMS de janelas temporais des-
locadas ao longo do sinal analisado. O fator
N
hop
F
s
con-
verte o ndice da janela para segundos, fornecendo um
resultado em segundos para o valor do CT.
CT =
N
hop
F
s
L1
l=0
(lEnv(l))
L1
l=0
Env(l)
(2)
1.2 Descritores Timbrsticos Espectrais
Os descritores timbrsticos espectrais tem como ob-
jetivo avaliar o conte udo harm onico a partir de uma
an alise do desenvolvimento espectral do sinal ao longo
do tempo. Nota-se que para estes descritores o padr ao
MPEG-7 explicita que o c alculo seja feito a partir de
um ordenamento linear das frequ encias.
Para o c alculo desses descritores o padr ao MPEG-
7 indica a STFT com janelas de 30ms e desloca-
mentos de 10ms.

E necess aria tamb em uma esti-
mativa dos harm onicos do sinal, principalmente da
frequ encia fundamental, pois a maioria dos descrito-
res tratados nessa sec ao s ao calculados a partir so-
mente de cada componente harm onica, e n ao do es-
pectro inteiro extrado da transformada de Fourier. A
relac ao entre a energia das componentes harm onicas e
uma parte de grande import ancia da denic ao do tim-
bre de um instrumento musical de nota denida; e o
conte udo harm onico que nos permite diferenciar o som
de uma auta e de um obo e, que em geral possuem
envolt orias temporais similares. Nota-se uma curiosa
diculdade em expressar as sensac oes auditivas cau-
sadas pelo conte udo harm onico, geralmente recorre-se
a express oes de sensac oes t ateis ou visuais como, por
exemplo, sons chamados de brilhantes ou aveludados.
Os descritores timbrsticos espectrais adotados pelo
padr ao MPEG-7 s ao: centroide espectral harm onico,
espalhamento espectral harm onico, variac ao espectral
harm onica, desvio espectral harm onico e centroide es-
pectral.
O centroide espectral harm onico (CEH) e denido
como a componente harm onica m edia de toda a durac ao
do sinal. Seu c alculo e feito a partir da m edia tem-
poral da componente harm onica m edia de cada janela
da STFT, ponderada por sua amplitude. O c alculo da
componente harm onica m edia de cada janela, chamado
de centroide espectral harm onico local (CEHL), est a
explcito na Equac ao (3), onde f
h,j
e a frequ encia da
harm onica h e A
h,j
e sua amplitude, ambas na janela j.
Este c alculo e an alogo ao primeiro momento estatstico
de uma dada func ao densidade de probabilidade, a par-
tir de uma relac ao entre densidade espectral harm onica
e densidade de probabilidade.
CEHL(j) =
N
H
h=1
(f
h,j
A
h,j
)
N
H
h=1
(A
h,j
)
(3)
J a o CEH e calculado pela m edia dos CEHL ao
longo das janelas, seu c alculo est a na Equac ao (4),
sendo J o n umero total de janelas.
CEH =
1
J
J1
j=0
CEHL(j) (4)
O espalhamento espectral harm onico (EEH) e a me-
dida do espalhamento espectral m edio em relac ao ao
CEH. Sua denic ao se baseia na m edia do espalha-
mento espectral harm onico local (EEHL) que e cal-
culado para cada janela da STFT, de forma an aloga a
relac ao entre o CEH e CEHL. O EEHL e calculado
pelo desvio padr ao do CEHL ponderado e normalizado,
conforme descrito da Equac ao (5). Similarmente ao
CEHL, o EEHL e an alogo ao segundo momento es-
tatstico considerando a relac ao entre densidade espec-
tral harm onica e densidade de probabilidade. Sob a
otica da psicoac ustica o espalhamento espectral esta li-
gado as sensac oes de harmonicidade de um som [10].
EEHL(j) =
1
CEHL
N
H
h=1
((f
h,j
CEHL)
2
A
2
h,j
)
N
H
h=1
(A
2
h,j
)
(5)
O c alculo do EEH est a explicitado na Equac ao (6).
EEH =
1
J
J1
j=0
EEHL(j) (6)
O centroide espectral e similar ao CEHL, por em
n ao se baseia somente nos picos harm onicos, mas sim
em todo o conte udo espectral. Seu c alculo busca a
frequ encia m edia do sinal ponderada pela amplitude
de cada componente espectral, como representado na
Equac ao (7).
CE(j) =
N
n=1
A
n,j
n
N
n=1
A
n,j
(7)
Este descritor e tido como um dos mais impor-
tantes na identicac ao de instrumentos e possui alta
correlac ao com a sensac ao de brilho de um som [11].
12
o
CONGRESSO / 18
a
CONVENC


2 A TRANSFORMADA WAVELET
As transformadas wavelet compreendem um con-
junto de m etodos para decomposic ao de sinais em
nveis progressivos de resoluc ao, ou seja, permitem a
representac ao de sinais em graus de renamento cres-
cente [12]. As transformadas wavelet consistem em
decompor um sinal a partir de uma func ao base (t),
chamada wavelet m ae, que possua energia nita e n ao
possua componente de frequ encia nula. Al em dessas
duas condic oes, e necess ario que a func ao base (t)
possa se deslocar, se contrair e se dilatar, gerando as-
sim novas func oes chamadas de wavelets lha, como
reprensentado na Equac ao (8).
j,k
(t) = 2
j
2
(2
j
t k) (8)
A transformada wavelet contnua (TWC) se baseia
no c alculo do produto interno entre a func ao a ser anali-
sada e as wavelets lha para diversos valores de deslo-
camento (k) e compress ao/dilatac ao (j), conforme des-
crito na Equac ao (9). O conjunto de valores W
(k,j)
compreende os coecientes wavelet da TWC.
W(k, j) = < f(t),
j,k
(t) > (9)
=
f(t)
j,k
(t)dt
Para sinais discretos a transformada wavelet assume
caractersticas interessantes. A partir da considerac ao
de que todo sinal discreto possui banda limitada o
c alculo da transformada wavelet discreta (TWD) pode
ser aproximado e compreendido como um processo
de sucessivas ltragens e decimac oes conforme des-
crito nas Equac oes (10) e (11). Detalhes sobre essa
aproximac ao podem ser obtidos em [12].
c
j
[k] =
m
h
0
[m 2k]c
j+1
[m] (10)
d
j
[k] =
m
h
1
[m 2k]c
j+1
[m] (11)
h
1
[n] pode ser visto como um ltro passa-altas e o
resultado de sua ltragem s ao os coecientes de deta-
lhamento d
j
. J a o ltro h
0
[n] pode ser visto como um
ltro passa-baixas e o resultado de sua ltragem s ao os
coecientes de aproximac ao c
j
. Nota-se que ambos os
coecientes s ao calculados a partir dos coecientes c
j
anteriores. Isto resulta em uma decomposic ao em ban-
das frequenciais de largura variada, de forma a man-
ter a relac ao
f
f
constante. Essa relac ao e chamada de
Q-constante e e muito interessante pois o sistema au-
ditivo possui caractersticas similares, dedicando maior
largura de banda para frequ encias mais altas.
Um esquema em blocos representando a TWD est a
apresentado na Figura (1) para uma transformada de 3
nveis de profundidade.
Figura 1: Transformada Wavelet Discreta de Tr es
Nveis.
2.1 A Transformada Wavelet Packet
Outro formato da transformada wavelet e a trans-
formada wavelet packet (WP). Baseada na TWD, a WP
busca renar a decomposic ao do sinal para todas as fai-
xas de frequ encia. Portanto durante o processo de ltra-
gem, tanto os coecientes de aproximac ao c quanto os
coecientes de detalhamento d s ao sucessivamente l-
trados e decimados, gerando assim uma arvore bin aria
conforme exemplicado na Figura (2), onde cada folha
da arvore se torna um ramo gerando duas novas folhas.
Figura 2: Transformada Wavelet Packet de Tr es Nveis.
Ao inv es de decompor o sinal em bandas de fator
Q-constante, a decomposic ao feita pela WP possui lar-
gura constante, resultando em um espacamento linear
de suas 2
n
bandas. Pelo fato do espacamento frequen-
cial ser linear e a WP ser uma transformada em multi-
resoluc ao, esta possui caractersticas interessantes para
o c alculo dos descritores timbrsticos apresentados na
Sec ao (1) como alternativa a STFT.
Por em a maior vantagem da WP sobre a STFT est a
na transformada inversa. O principal fator negativo da
STFT inversa est a no janelamento, a transformada in-
versa de cada janela deve ser calculada independen-
temente e cada sinal resultante deve ser concatenado
no domnio temporal. Como geralmente as janelas
12
o
CONGRESSO / 18
a
CONVENC


possuem uma sobreposic ao, a t ecnica de overlap-and-
add e comumente usada na STFT inversa [13], por em
este processo deve ser feito com certo cuidado pois a
concatenac ao de sinais no domnio do tempo s ao muito
suscetveis a desvio de fase, gerando rudo.
J a a WP inversa segue a mesma estrutura do seu pro-
cesso de decomposic ao, por em no sentido contr ario. Os
coecientes s ao ltrados, por ltros inversos aos usados
na an alise, e interpolados, a m de restituir a taxa de
amostragem original. Retornando o sinal por inteiro ao
domnio temporal em um algoritmo eciente.
2.2 An alise Espectral atrav es da Transfor-
mada Wavelet
Conforme apresentado no trabalho pr evio dos au-
tores [8], o c alculo da WP assume uma estrutura onde
o sinal analisado e decomposto em 2
n
bandas espec-
trais de mesma largura. Portanto com um n umero su-
ciente de bandas espectrais e possvel utilizar os coeci-
entes da WP para estimac ao espectral caso as seguintes
considerac oes sejam validas:
A WP deve obedecer ao teorema de Parseval, ga-
rantindo uma relac ao entre a amplitude do sinal os
coecientes WP.

E necess ario ter uma relac ao denida entre a
pot encia espectral e a pot encia dos coecientes de
um n o terminal da arvore (folha) da WP.
A validac ao dessas condic oes necess arias pode ser
observada em[7], juntamente comuma comparac ao en-
tre esta t ecnica e outras tradicionais, como o periodo-
grama e o m etodo de Welch.
Outras quest oes devem ser levadas em considerac ao
para a estimac ao espectral atrav es da WP. A sub-
amostragem gerada por um processo de decimac ao na
sada de um ltro passa-altas causa um espelhamento
espectral que, ao longo da transformada WP gera um
ordenamento n ao frequencial nos ramos da arvore WP
e consequentemente nas folhas. Uma simples forma
de reordenar as folhas de forma frequencial e a par-
tir da s erie resultante do c odigo de Gray convertido de
bin ario para decimal (0, 1, 3, 2, 6, etc...) [14]. Acres-
cendo 1 a cada componente da s erie do c odigo de Gray
convertido, esta se torna a nova posic ao de cada folha
de mesmo ndice, ordenando assim as folhas da WP de
forma frequencial.
Nota-se tamb em a import ancia da func ao wavelet
escolhida, pois diferentes wavelets resultar ao em dife-
rentes ltros com diferentes respostas em frequ encia.
Neste trabalho, seguindo trabalhos anteriores, adotou-
se a wavelet Meyerem sua forma discreta, dado que
ap os diversos testes esta wavelet demonstrou uma me-
lhor resoluc ao frequencial.
O resultado obtido pelo ordenamento das folhas da
WP pode ser interpretado como uma matriz onde o
eixo x representa a variac ao no tempo e o eixo y a
variac ao na frequ encia, de forma an aloga ` a um espec-
trograma. Um exemplo da estimac ao espectral atrav es
da WP pode ser visto na Figura (3) onde foi analisado
o som de um trompete entoando a nota L a (A3) com
intensidade mezzo-forte. O nvel de cinza representa a
amplitude do coeciente da transformada, sendo preto
os coecientes mais negativos e branco os coecientes
mais positivos, nota-se a predomin ancia da cor cinza
demonstrando o alto ndice de coecientes nulos.
Figura 3: Estimac ao Espectral de um Trompete (A3
Mezzo-forte).
3 O C

ALCULO DOS DESCRITORES
TIMBR
ISTICOS ATRAV
ES DA WAVE-
LET PACKET
Ao ser feita a analogia entre a estimac ao espectral
wavelet citada na Sec ao 2.2 e o espectrograma forne-
cido pela STFT o fundamento do c alculo dos descrito-
res a partir da transformada wavelet e desvelado. Ire-
mos tratar cada folha da WP como uma raia espectral
da STFT, e o conjunto dos coecientes de um mesmo
deslocamento k da func ao wavelet (8) como sendo uma
janela da STFT.
3.1 Descritores Timbrsticos Temporais
Wavelet
Seguindo a proposta de desenvolvermos uma alter-
nativa ao c alculo dos descritores a partir de uma aborda-
gem voltada a sntese sonora, optou-se por extrair tanto
os descritores temporais quanto espectrais no mesmo
domnio da transformada wavelet. Pelo fato de j a pos-
suirmos o sinal dividido em janelasno domnio wave-
let, o c alculo da envolt oria consiste na computac ao da
m edia RMS de todos os coecientes de cada folha para
um mesmo deslocamento wavelet k como apresentado
na Equac ao (12).
Env
w
p(k) =
1
K
J
j=1
Wp
2
k,j
(12)
12
o
CONGRESSO / 18
a
CONVENC


A partir da func ao Env(k) o c alculo dos descrito-
res apresentados na SFec ao 1.1 e direta, com excec ao
de um par ametro dependente do nvel de profundidade
adotado na WP. Por causa das sucessivas decimac oes,
cada passo k corresponde a aproximadamente 2
n
amos-
tras temporais, sendo n o nvel de profundidade. O
TLA wavelet pode ser calculado, em segundos, con-
forme descrito na Equac ao (13).
TLA
wp
= log
10
(
(k
final
k
inicial
)n
2
F
s
) (13)
J a a f ormula do CT wavelet est a explicito na
Equac ao (14) similar ` a (2) por em com o novo fator de
convers ao de k para segundos.
CT
wp
= n
2
F
s
K1
k=0
(kEnv
wp
(k))
K1
k=0
Env
wp
(k)
(14)
3.2 Descritores Timbrsticos Espectrais
Wavelet
Com relac ao aos descritores espectrais a grande
vantagem da utilizac ao da WP sobre a STFT esta na
aus encia do janelamento j a que a transformada wavelet
decomp oe o sinal em ambas as dimens oes, frequencial
e temporal. Pelo fato do sinal se manter ntegro na WP,
uma transformada inversa, a m de retornar o sinal ana-
lisado ao domnio temporal, se torna trivial atrav es da
equac ao de sntese da WP. Isto n ao ocorre com a STFT
que, para recuperar um sinal analisado, necessita de um
tratamento especial para concatenar a transformada in-
versa de cada janela a m de n ao haver descontinuidade
de fase no sinal recuperado.
Para o c alculo dos descritores espectrais
harm onicos (CEH e EEH) e necess ario, a priori,
identicar os picos harm onicos e suas localizac oes
nas bandas espectrais da WP. Isto e feito a partir da
envolt oria espectral do sinal que e calculada pelo valor
RMS de cada folha da WP.
Ap os identicar a quais bandas pertencem os pi-
cos os descritores espectrais harm onicos podem ser
calculados pela anulac ao de todas as folhas da WP
que n ao contenham tais picos. Possibilitando utili-
zar o mesmo conceito da t ecnica tradicional. Tanto
o CEH wavelet quanto o EEH wavelet s ao calculados
pela m edia de seus correspondentes locais pelas mes-
mas f ormulas apresentada nas equac oes (4) e (6), por em
com a substituic ao da vari avel j, referente ` as janelas da
STFT, por k referente aos deslocamentos da func ao wa-
velet. Pelo fato j a exposto dos coecientes wavelet os-
cilarem com valores tanto positivos quanto negativos, o
c alculo do CEHL wavelet e modicado de forma a uti-
lizar o valor absoluto dos coecientes. Dessa forma o
c alculo do CEHL wavelet pode ser expresso segundo a
Equac ao (15), sendo Fpk o ndice da folha que cont em
algum pico harm onico para o valor de escala s e c o
valor do coeciente para o ndice de escala s e descola-
mento k.
CEHL
wp
(k) =
S
s=1
(Fpk
s
|c
s,k
|)
S
s=1
|c
s,k
|
(15)
J a o c alculo do EEHL wavelet assume o formato
exposto na Equac ao (16).
EEHL
wp
(k) =
1
CEHLwp
S
s=1
((FpksCEHLwp)
2
c
2
s,k
)
S
s=1
(c
2
s,k
)
(16)
O c alculo do CE wavelet j a foi discutido e apresen-
tado em [8]. A adaptac ao do CE tradicional para o CE
wavelet segue o mesmo padr ao do CEH e sua f ormula
esta na Equac ao (17), onde f(s) e o ndice da folha para
escala s.
CE
wp
(k) =
S
s=1
(f(s)|c
s,k
|)
S
s=1
|c
s,k
|
(17)
4 RESULTADOS E COMPARAC

OES
A validac ao deste novo c alculo de descrito-
res foi feita atrav es da plataforma MATLAB pela
implementac ao das equac oes aqui apresentadas. A
ttulo de comparac ao o mesmo sinal (o som de um
trompete executando a nota l a em fortssimo) avaliado
atrav es das novas t ecnicas aqui apresentadas tamb em
foi avaliado pelas t ecnicas tradicionais pela ferramenta
on-line criada pelo Institut f ur Telekommunikationssys-
teme da Technische Universit at Berlin [15].
Com relac ao aos descritores temporais os resulta-
dos foram muito promissores, dado a similaridade entre
os valores obtidos pelas duas t ecnicas. O resultado da
an alise pela t ecnica baseada na transformada wavelet
pode ser visto na Figura (4). Os dois primeiros trace-
jados verticais representam os pontos inicial e nal do
trecho de ataque e o terceiro tracejado demarca o CT
calculado sob a curva azul que representa a envolt oria
temporal do som analisado. Nesta gura o eixo x repre-
senta o deslocamento k dos coecientes wavelets.
O valor obtido para o TLA wavelet foi de -0,1948 e
para o CT wavelet foi de 2,2349 segundos. Segundo
a ferramenta desenvolvida na Technische Universit at
Berlin, pelos m etodos tradicionais o TLA para este
mesmo sinal e de -0,1938 e o CT esta em 2,0844 se-
gundos.
Para os descritores espectrais tamb em foi obtida
grande semelhanca entre as duas t ecnicas, principal-
mente com relac ao ao CEH e o CE. Tanto o CEHL
wavelet quanto o CEH wavelet est ao explcitos na Fi-
gura (5) que podem ser comparada com a Figura (6)
que apresenta os mesmos descritores calculados pelo
m etodo tradicional. Com relac ao a valores absolutos,
o CEH wavelet assumiu o valor de 1874 Hz enquanto
12
o
CONGRESSO / 18
a
CONVENC


Figura 4: Envolt oria Temporal, Centroide Temporal e
Instante Inicial e Final do Trecho de Ataque de um
Trompete (A3 fortissimo).
Figura 5: Centroide Espectral Harm onico Local Wave-
let e Centroide Espectral Harm onico Wavelet.
este mesmo descritor obteve o valor de 1734 Hz tendo
a STFT como fundamento de c alculo.
Nas Figuras (7) e (8) podemos comparar o EEHL
e o EEH calculados atrav es da transformada wavelet
e de Fourier respectivamente. Nota-se que apesar da
semelhanca no desenvolvimento do sinal obtido ainda
e necess ario um fator de escala de forma a adequar a
magnitude do descritor extrado pela transformada wa-
velet.
Com relac ao ao CE, apresentaremos aqui os mes-
mos resultados obtidos em [8]. As Figuras 9 e 10 apre-
sentam respectivamente os resultados obtidos atrav es
da WP e da STFT.
5 CONCLUS

OES E PR

OXIMOS PAS-
SOS
Atrav es dos resultados apresentados na Sec ao 4
notou-se boa correlac ao entre a t ecnica aqui desen-
volvida baseada na WP e a t ecnica tradicional funda-
mentada na STFT, validando assim a ideia principal
deste trabalho de buscar novos m etodos alternativos de
c alculo de descritores sonoros. Por estar baseado no
recente fundamento da estimac ao espectral atrav es da
Figura 6: Centroide Espectral Harm onico Local e
Centroide Espectral Harm onico calculados atrav es da
STFT.
Figura 7: Espalhamento Espectral Harm onico Local
Wavelet e Espalhamento Espectral Harm onico Wavelet.
WP, trabalhos mais profundos ainda s ao necess arios a
m de possibilitar que outros descritores tamb em pos-
sam ser extrados por esta t ecnica. Notou-se tamb em a
possibilidade da criac ao de novos descritores baseados
diretamente na estimac ao espectral wavelet, de forma
a aproveitar mais ecientemente as vantagens que esta
t ecnica apresenta sobre suas alternativas.
Seguindo a proposta apresentada no incio deste tra-
balho, pr oximos trabalhos se direcionar ao a como os
coecientes wavelet podem ser manipulados de forma
a alterar controladamente as caractersticas timbrsticas
do som, para que uma nova forma de sntese sonora ba-
seada na variac ao de descritores possa ser desenvolvida.
REFER
ENCIAS BIBLIOGR

AFICAS
[1] Michael Fingerhut, Music information retrieval,
or how to search for (and maybe nd) music and
do away with incipits, IAML-IASA Congress,
Oslo, 2004.
[2] J. Stephen Downie, The music information retri-
eval evaluation exchange (2005-2007): A window
into music information retrieval research, Acous-
12
o
CONGRESSO / 18
a
CONVENC


Figura 8: Espalhamento Espectral Harm onico Local e
Espalhamento Espectral Harm onico calculados atrav es
da STFT.
Figura 9: Centroide Espectral Wavelet.
tical Science and Technology, vol. 29, no. 4, pp.
247255, 2008.
[3] Geoffroy Peeters, A large set of audio featu-
res for sound description (similarity and classi-
cation) in the cuidado project, Tech. Rep., IR-
CAM, 2004.
[4] Hyoung-Gook Kim, Nicolas Moreau, and Thomas
Sikora, MPEG-7 Audio and Beyond: Audio Con-
tent Indexing and Retrieval, John Wiley & Sons,
2005.
[5] Carol L. Krumhansl, Why is musical timbre so
hard to understand?, in Structure and Perception
of Electroacoustic Sound and Music, Proceedings
of the Marcus Wallenberg symposium 1998, S oren
Nielz en and Olle Olsson, Eds. 1989, pp. 4353,
Excerpta Medica.
[6] Matt Hoffman and Perry R. Cook, Feature-based
synthesis: Mapping acoustic and perceptual featu-
res onto synthesis parameters, in in Proceedings
of the International Computer Music Conference,
New Orleans, 2006.
[7] Dyonisius Donyand Ariananda, Madan Kumar
Lakshmanan, and Homayoun Nikookar, An in-
Figura 10: Centroide Espectral calculado atrav es da
STFT.
vestigation of wavelet packet transform for spec-
trum estimation, in The 12th International Sym-
posium on Wireless Personal Multimedia Commu-
nications (WPMC 09), 2009.
[8] Thiago Rossi Roque and Rafael Santos Mendes,
Extrac ao de centroide espectral atrav es da tran-
formada wavelet packet, in Proceedings of the
SPS 2013, 2013.
[9] Lus L. Henrique, Ac ustica Musical, Fundac ao
Calouste Gulbenkian, 2009.
[10] Borko Furht, Handbook of Multimedia for Digital
Entertainment and Arts, Springer, 2010.
[11] John M. Grey and John W. Gordon, Perceptual
effects of spectral modications on musical tim-
bres, The Journal of the Acoustical Society of
America, Volume 63, Issue 5, 05/1978.
[12] C. Sidney Burrus, Ramesh A. Gopinath, and Hai-
tao Guo, Introduction to Wavelets and Wavelet
Transform: A Primer, Prentice Hall, 1998.
[13] Bin Yang, A study of inverse short-time fourier
transform, in Acoustics, Speech and Signal Pro-
cessing, 2008. ICASSP 2008. IEEE International
Conference on, March 2008, pp. 35413544.
[14] Arne Jensen and Anders la Cour-Harbo, Ripples
in Mathematics: The Discrete Wavelet Transform,
Springer, 2001.
[15] Amjad Samour, Hyoung-Gook Kim, Juan Jos e
Burred, and Martin Haller, Mpeg-7 audio analy-
zer low level descriptors extractor, http://
mpeg7lld.nue.tu-berlin.de/, 12 2003.
12
o
CONGRESSO / 18
a
CONVENC


Roque Aesbr2014

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Roque Aesbr2014

Enviado por

Direitos autorais:

Formatos disponíveis

Sociedade de Engenharia de Audio

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

AO PAULO, 13 A 15 DE MAIO DE 2014

Você também pode gostar