Você está na página 1de 83

Alan Rafael Fachini

Classificao de udio Baseada em Extrao de Caractersticas


e Redes Neurais

Joinville
2011

Alan Rafael Fachini

Classificao de udio Baseada em Extrao de Caractersticas


e Redes Neurais

Relatrio Final de Trabalho de Concluso de Curso


(TCC) apresentado ao Curso de Graduao em
Cincia da Computao, da Universidade do Estado de Santa Catarina (UDESC), como requisito
parcial da disciplina de Trabalho de Concluso de
Curso.

Orientador: Profo Alexandre Gonalves Silva


Co-orientador: Profo Ademir Nied

Joinville
2011

Alan Rafael Fachini

Classificao de udio Baseada em Extrao de Caractersticas


e Redes Neurais

Relatrio Final de Trabalho de Concluso de Curso


(TCC) apresentado ao Curso de Cincia da Computao da UDESC, como requisito parcial para a
obteno do grau de BACHAREL em Cincia da
Computao.

Aprovado em

BANCA EXAMINADORA

Profo Alexandre Gonalves Silva

Profo Ademir Nied

Profo Gilmrio Barbosa dos Santos

Profo Roberto Silvio Ubertino Rosso Jr.

O homem pode acreditar no impossvel,


mas no no improvvel
Oscar Wilde

That cat has some serious periodic components (Por Randall Munroe, xkcd.com/26)

Agradecimentos
Agradeo aos meus pais, que sempre me incentivaram e acreditaram no meu trabalho.
Fernanda, por todo o seu carinho e companheirismo. Aos professores orientadores
Alexandre Gonalves Silva e Ademir Nied pela contribuio no desenvolvimento deste
projeto e amigos da UDESC, grupo Colmia e coletivo MuSA, sempre compartilhando
informao e proporcionando discusses muito inspiradoras.

Resumo
Este trabalho apresenta o estudo realizado sobre tcnicas de extrao de caractersticas de udio que descrevam o timbre dos sons, utilizando Redes Neurais Artificiais com
objetivo de desenvolver um sistema que facilite a classificao, indexao e recuperao
automtica de samples de instrumentos musicais.

Em msica, sample um trecho

de udio gravado utilizado para composio musical, geralmente com o auxlio de um


programa ou equipamento chamado sampler. Para validar o sistema, um conjunto de
testes composto por samples de instrumentos de percusso foi proposto.

Palavras-chave: Classificao Automtica de udio, Coeficientes Mel-Cepstrais, Descritores de udio MPEG-7, Redes Neurais Artificiais.

Abstract
This work presents the study on audio feature extraction techniques that describe the
timbre of sounds, using artificial neural networks in order to develop a system to facilitate
the automatic classification, indexing and retrieval of musical instrument sample. In
music, sample is a portion os recorded audio used for music composition, usually with
the aid of a sampler program or equipment. To validate the proposed system, a set of
samples composed of percussive instruments is used.

Keywords: Artificial Neural Networks, Audio Signal Classification, Mel-Frequency Cepstral Coefficients, MPEG-7 Audio Descriptors.

Sumrio

Lista de Abreviaturas

13

1 Introduo

14

1.1

Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2

Organizao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Conceitos Iniciais

20

2.1

Sinais e Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2

Sinais de udio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1

udio Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2

O formato WAVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3

Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4

Quantizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5

Convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.6

Transformada Discreta de Fourier . . . . . . . . . . . . . . . . . . . . . . . 28

3 Extrao de Caractersticas de Sinais de udio


3.1

3.2

30

Mel-Frequency Cepstral Coefficients . . . . . . . . . . . . . . . . . . . . . . 31


3.1.1

Janelamento e Transformada de Fourier

. . . . . . . . . . . . . . . 32

3.1.2

Funo Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.3

Escala Mel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1.4

Transformada do Cosseno . . . . . . . . . . . . . . . . . . . . . . . 35

Descritores do MPEG-7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1

3.2.2

3.3

Timbre Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.1.1

Log Attack Time . . . . . . . . . . . . . . . . . . . . . . . 40

3.2.1.2

Temporal Centroid . . . . . . . . . . . . . . . . . . . . . . 40

Timbre Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.2.1

Spectral Centroid . . . . . . . . . . . . . . . . . . . . . . . 41

3.2.2.2

Harmonic Spectral Centroid . . . . . . . . . . . . . . . . . 42

3.2.2.3

Harmonic Spectral Deviation . . . . . . . . . . . . . . . . 42

3.2.2.4

Harmonic Spectral Spread . . . . . . . . . . . . . . . . . . 43

3.2.2.5

Harmonic Spectral Variation . . . . . . . . . . . . . . . . . 44

Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4 Redes Neurais Artificiais

45

4.1

Neurnio Biolgico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2

Modelo Matemtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.1

Redes Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2.2

Redes Recorrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3

Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4

Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5 Sistema Proposto
5.1

5.2

53

Linguagens e Bibliotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.1

Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.1.2

NumPy, SciPy e Matplotlib . . . . . . . . . . . . . . . . . . . . . . 54

5.1.3

PyBrain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.1.4

Vamp Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Caractersticas Extradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3

5.2.1

Extrao dos Coeficientes Mel-Cepstrais . . . . . . . . . . . . . . . 59

5.2.2

Descritores de Timbre MPEG-7 . . . . . . . . . . . . . . . . . . . . 59

Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6 Testes e Resultados

64

6.1

Conjunto de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.2

Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.3

Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.4

Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7 Consideraes Finais

73

Referncias Bibliogrficas

75

Lista de Figuras
2.1

Sistemas de tempo contnuo e discreto (SMITH, 1997) . . . . . . . . . . . . 21

2.2

Soma de duas ondas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3

Organizao do formato WAVE (WILSON, 2003) . . . . . . . . . . . . . . 24

2.4

(a) Sinal amostrado. (b) Sinal amostrado e quantizado . . . . . . . . . . . 25

2.5

Efeito aliasing. (SCHMIDT, 2008) . . . . . . . . . . . . . . . . . . . . . . . 25

2.6

(a) fs > fm (b) fs /2 = fm (c) fs /2 < fm (STEIGLITZ, 1995) . . . . . . . . 26

2.7

Aplicao da Convoluo (SMITH, 1997) . . . . . . . . . . . . . . . . . . . 28

3.1

Processamento dos Coeficientes Mel-Cepstrais . . . . . . . . . . . . . . . . 32

3.2

Janela de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3

Escala Mel (BRENT, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4

Filtros triangulares (NIEWIADOMY; PELIKANT, 2008) . . . . . . . . . . 35

3.5

Aplicao do banco de filtros (JURAFSKY, 2009) . . . . . . . . . . . . . . 35

3.6

Comparao entre a DFT e DCT (DAMATO, 2006) . . . . . . . . . . . . . 36

3.7

Descritores de udio do MPEG-7 (MARTNEZ, 2002) . . . . . . . . . . . 37

3.8

Notao para extrao baseada em quadros (KIM et al., 2005) . . . . . . . 38

3.9

Extrao dos descritores de Timbre MPEG-7 (KIM et al., 2005) . . . . . . 39

3.10 Aproximao linear do envelope de um sinal e LAT (KOSTEK, 2005) . . . 40


4.1

Neurnio Biolgico (HAYKIN, 2001) . . . . . . . . . . . . . . . . . . . . . 46

4.2

Modelo de um neurnio (HAYKIN, 2001) . . . . . . . . . . . . . . . . . . . 47

4.3

(a) Funo de limiar. (b) Funo linear por partes. (c) Funo sigmide.
(KOSTEK, 2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.4

Rede Direta com uma camada oculta (HAYKIN, 2001) . . . . . . . . . . . 49

4.5

Rede Recorrente (HAYKIN, 2001) . . . . . . . . . . . . . . . . . . . . . . . 50

5.1

Sistema proposto. (a) Banco de sons. (b) Extrao de caractersticas. (c)


Classificao. (d) Sons classificados. . . . . . . . . . . . . . . . . . . . . . . 53

5.2

Viso geral do sistema Vamp (MARY, 2007) . . . . . . . . . . . . . . . . . 56

5.3

40 Coefientes Mel Ceptrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.4

Picos para um sinal puro de 1000Hz . . . . . . . . . . . . . . . . . . . . . 60

5.5

Picos para um sinal de 1000Hz contendo frequncias harmnicas . . . . . . 61

5.6

Picos para um sinal de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.7

Comparao do espectro da nota C6 para violino (a), piano (b) e flauta (c)
(KOSTEK, 2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.8

HSC, HSD, HSS e HSV resultantes da anlise do som de um Obo (KIM


et al., 2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.1

Bateria. (1) Chimbau, (2, 3) Tom-tom, (4) Bumbo, (5) Caixa clara, (6)
Hi-hat (WIKIPEDIA, 2011d) . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.2

Cuca (WIKIPEDIA, 2011c) . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.3

Bongos (WIKIPEDIA, 2011a) . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.4

Castanholas (WIKIPEDIA, 2011b) . . . . . . . . . . . . . . . . . . . . . . 67

6.5

Pandeiro (WIKIPEDIA, 2011e) . . . . . . . . . . . . . . . . . . . . . . . . 67

6.6

Tringulo (WIKIPEDIA, 2011f) . . . . . . . . . . . . . . . . . . . . . . . . 67

6.7

MFCC dos intrumentos Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino 68

6.8

LHSS dos instrumentos Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino 68

6.9

Sobreposio MFCC dos instrumentos Bongo, Castanhola, Hi-hat, Cuca,


Tom-tom e Sino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.10 Comparao do erro mdio para configuraes da camada oculta da RNA


para classificao utilizando MFCC . . . . . . . . . . . . . . . . . . . . . . 70

6.11 Comparao do erro mdio para configuraes da camada oculta da RNA


para classificao utilizando descritores de timbre MPEG-7 . . . . . . . . . 70

Algoritmos
5.1

Sada padro do Sonic Annotator em CSV . . . . . . . . . . . . . . . . . . 58

13

Lista de Abreviaturas
ADC

Conversor Analgico para Digital

ADSR

Attack, Decay, Sustain, Release

AIR

Audio Information Retrieval

DAC

Conversor Digital para Analgico

dB

Decibel

DCT

Transformada Discreta do Cosseno

DFT

Transformada Discreta de Fourier

Env

Envelope Temporal

FFT

Transformada Rpida de Fourier

HSC

Centroide Espectral Harmnico

HSD

Derivao Espectral Harmnico

HSS

Espalhamento Espectral Harmnico

HSV

Variao Espectral Harmnico

IDFT

Transformada Discreta Inversa de Fourier

LAT

Ataque Temporal

LLD

Low-Level Descriptors

mel

Frequncia Mel

MFCC

Mel-Frequency Cepstral Coefficients

MIR

Music Information Retrieval

RIFF

Resource Interchange File Format

RMS

Erro Mdio Quadrado

RNA

Rede Neural Artificial

SC

Centroide Espectral

TC

Centroide Temporal

TF

Transformada de Fourier

WAVE

Waveform Audio File Format

14

1 Introduo
Devido grande quantidade de contedo multimdia atualmente disponvel, o reconhecimento e classificao automtica de udio so tarefas que vm ganhando importncia
ao facilitar a indexao e recuperao de informaes.
Realizar uma busca em uma base de dados multimdia pode se tornar uma tarefa
complicada, visto que a abordagem tradicional presente na maioria dos sistemas, independente dos dados serem texto, imagem ou udio, consiste em recuperar documentos
atravs de determinadas palavras-chave (FOOTE, 1999). A busca por arquivos de udio,
por exemplo, pode ser realizada recuperando informaes atravs do nome do arquivo ou
de metadados. Porm, para alimentar grandes colees de udio com os metadados,
necessrio o trabalho realizado por especialistas. Servios de mdia social na web tentam
superar esta dificuldade fazendo uso da inteligncia coletiva, convidando seus usurios a
editarem essas informaes. Isso pode se tornar problemtico, pois muitos usurios criam
descries que representam suas opinies, sem padronizao (CASEY et al., 2008). Outro fator agravante, o custo computacional em se realizar uma busca por similaridade
comparando os metadados de cada arquivo (WOLD et al., 1996).
Nos ltimos anos, houve uma crescente atividade de pesquisas voltadas para a anlise de sinais baseada em contedo de udio. Considerando a grande variedade de sons
disponveis por exemplo, algumas bibliotecas de samples

musicais possuem centenas

de milhares de documentos h um interesse em fazer com o udio o que os buscadores da web vm fazendo com o texto. Isto requer novas formas de medir a similaridade
dos arquivos de udio (FOOTE, 1999). Por este motivo, utilizar seu contedo, em vez
de seus metadados, tem se tornado cada vez mais importante, assim como tcnicas para
segmentao, classificao, indexao e recuperao desses arquivos so essenciais para a
manipulao de informaes relacionadas ao sinal de udio (DAVY; GODSILL, 2002).
A necessidade de interagir com grandes bibliotecas de udio uma demanda em vrias
reas. Produtores de filmes, animao e contedo para a televiso necessitam interagir
1

Em msica, sample um trecho de udio gravado e utilizado como instrumento musical, geralmente

com o auxlio de um equipamento ou programa chamado sampler.

1 Introduo

15

com uma vasta quantidade de efeitos de som presentes em bibliotecas multimdia. O


mesmo se aplica criao de um jogo, que possui centenas de sons diferentes utilizados.
Compositores e DJs, que trabalham com a produo de msica digital utilizam grandes
colees de sons para criar suas msicas. Esses sons so gravaes de instrumentos musicais, sintetizadores, sons do cotidiano e vinhetas. A busca pelo sample de um instrumento
musical pode se tornar uma odisseia dependendo do tamanho da coleo do compositor,
que pode chegar a centena de milhares de samples. Interagir com imensas colees de
gravaes sonoras tambm algo presente em diversos ramos da cincia, como sons espaciais, reas como bioacstica (estudo dos sons produzidos por animais), psicoacstica
(estudo da percepo acstica) e cognio musical (estudo da percepo e compreenso
da msica) (TZANETAKIS, 2002). Esta aplicao tambm interessante para a busca
por uma msica em uma estao de rdio, busca de vdeos por similaridade de udio na
biblioteca de uma emissora de televiso, alm de outras aplicaes voltadas para a web e
a imensa quantidade de informaes atualmente disponvel.
As Redes Neurais Artificiais (RNA) vm obtendo cada vez mais sucesso em tarefas de
classificao automtica. Mostrando a uma rede neural artificial alguns dados de entradas, a rede pode ser treinada de modo a criar um critrio de classificao e, com algum
sucesso, ser capaz de classificar novas entradas no utilizadas na fase de treinamento. Esta
caracterstica das RNA interessante quando no se tem um modelo matemtico bem
definido para os descritores a ser utilizada no classificador. O projeto de uma RNA se baseia diretamente nos dados do mundo real, sendo que a rede descobre os padres presentes
nos dados apresentados. Para o trabalho aqui proposto, este padro de funcionamento
das RNA de interesse pois ainda no existem modelos bem definidos para representar
o timbre de um instrumento musical. Utilizando-se um vetor de caractersticas como
entrada da rede, delega-se a ela a tarefa de classificar os samples de acordo com o seu
timbre. funcionamento do sistema a ser desenvolvido durante este trabalho. Um sample
musical utilizado como entrada, segmentado em pequenos trechos que sero utilizados
na fase de extrao de caractersticas. Em seguida, o pr-processamento realizado para
normalizar os dados extrados a fim de serem utilizados como entrada da rede neural que
ir classificar o sinal de udio.
Redes Neurais Artificiais so modelos de sistemas de processamento de informaes
que tiveram seus trabalhos motivados devido ao reconhecimento de que o crebro funciona
de uma forma diferente dos computadores convencionais. Ele um sistema altamente

1 Introduo

16

complexo, no linear e paralelo, podendo organizar sua estrutura interna para realizar
tarefas de reconhecimento de padres, percepo e controle motor (HAYKIN, 2001).
O primeiro trabalho realizado sobre um modelo de neurnio artificial, desenvolvido por
McCulloch e Pitts (1943), descreve um modelo abstrato de neurnio, capaz de representar
funes booleanas simples, simulando o processo de disparo eltrico de um neurnio
biolgico quando estimulado pelos neurnios vizinhos (NORVIG; RUSSELL, 1995).
Usando o modelo de McCulloch e Pitts (1943) e a regra de aprendizado proposta por
Hebb (1949), Rosenblatt (1962) desenvolveu seu modelo de Perceptron. Esse Perceptron
podia aprender, ponderando os pesos das entradas e somando-os, para posteriormente
aplicar uma funo de ativao, e quando o limiar atingido, uma sada disparada.
Minsky e Papert (1969) em seu artigo Perceptrons: An Introduction to Computational Geometry, descreveram as limitaes do modelo proposto por Rosenblatt (1962) de
somente poder resolver problemas linearmente separveis, sendo incapaz de resolver por
exemplo a funo ou exclusivo (NORVIG; RUSSELL, 1995). A soluo para as limitaes do Perceptron foi a criao das Redes Neurais, que ligam a sada de neurnios
entrada de outros, tornando o modelo mais complexo. Ainda hoje o modelo de McCulloch
e Pitts (1943) e a proposta do Perceptron so amplamente utilizados nessas redes.
Atualmente a grande maioria dos sistemas de busca de udio disponveis indexam os
arquivos de udio atravs de informaes como nome do arquivo ou metadados. Porm,
nos ltimos anos, vem crescendo o interesse no desenvolvimento de sistemas de classificao automtica de sinais de udio atravs da anlise e extrao de caractersticas e,
alguns sistemas e tcnicas foram propostos.
Esta seo tem por objetivo apresentar o estado da arte das reas de pesquisa Music
Information Retrieval (MIR) e Audio Information Retrieval (AIR), mostrando trabalhos
correlatos e suas abordagens quanto s caractersticas e modelos de classificao escolhidos.
Diferentes descritores de udio vm sendo estudados e utilizados como vetores de
caractersticas do sinal. Alguns dos mais citados, por exemplo, so os descritores do
padro MPEG-7, descritores de caractersticas psicoacsticas como o timbre, envelope
temporal e espectral e Coeficientes Mel-Cepstrais (MFCCs) (FONSECA, 2006; WOLD
et al., 1996; TZANETAKIS; COOK, 2000; LOGAN, 2000; BRENT, 2010; HERRERA
et al., 2002). Entender as caractersticas e quais so mais relevantes na descrio de um

1 Introduo

17

sinal de udio importante para obter um resultado com melhor taxa de acertos.
Feiten e Gnzel (1994) apresentam em seu artigo a proposta de utilizar uma Rede
Neural Auto-Organizada para organizar sons. Esse mapa pode ser utilizado para quantizar a representao vetorial dos sons e ser utilizado para identificar classes no espao de
sons. Sons similares so mapeados em vizinhanas, e sons muito diferentes so separados
por largas distncias. A extrao de caractersticas realizada e as principais frequncias
audveis pelo ouvido humano so extradas pelo filtro de frequncia bark modelo psicoacstico de medio subjetiva de intensidade sonora proposto por Barkhausen H. (1961)
(apud BRENT, 2010) o qual utilizado como vetor de entrada da rede neural. Ao final
do artigo, os autores concluem que a proposta mostrou-se eficiente na indexao dos sons,
e propem estudos futuros relacionados com caractersticas psicoacsticas como o timbre.
Wold et al. (1996) prope um sistema que recebe como entrada um arquivo de udio,
que tem seu contedo comparado com os arquivos presentes na base de dados. Neste artigo, os autores discordam do uso de redes neurais, mesmo que tenham bons resultados de
classificao, pois consideram a dificuldade em entender o funcionamento interno de uma
rede neural, argumentando que difcil olhar dentro da rede e entender quais foram as
caractersticas similares encontradas. No artigo, os autores descrevem as caractersticas
do sistema Muscle Fish (SOUNDFISHER, 2001), o qual analisa a similaridade entre dois
sinais de udio utilizando algumas caractersticas acsticas: volume, rudo, frequncia
fundamental, brilho (brightness), largura de banda e harmonicidade. O vetor de caractersticas composto pela mdia, varincia e autocorrelao para cada aspecto do som
analisado. Para a classificao dos sons utilizada a distncia euclidiana. A distncia
comparada com um limiar para determinar se o som est ou no na classe, sendo colocado
na classe onde a distncia for menor.
Foote (1997) descreve um sistema de recuperao de arquivos de udio utilizando similaridade acstica. O sistema extrai um vetor de caractersticas contendo o Mel-Frequency
Cepstral Coeficients (MFCCs), construindo uma rvore de deciso quantizada (tree-based
quantizer ). Esta operao requer superviso para que os dados de treinamento sejam
rotulados. A rvore automaticamente particiona o espao de caractersticas em regies
que possuem diferentes classes de populao. Quando um udio utilizado para realizar
a busca por similaridade, um template gerado e comparado com a coleo de templates
existentes, o que retorna a similaridade com cada arquivo de udio na coleo. O algo-

1.1 Objetivos

18

ritmo utiliza a distncia euclidiana. Dessa forma, o resultado ordenado por similaridade
apresentado.
Herrera et al. (2002) apresentam uma avaliao comparativa para a classificao automtica de um banco de dados contendo sons de bateria. proposto o uso de um vetor de
vinte caractersticas, com descritores de envelope temporal e espectral, e diferentes tcnicas como classificao baseada no vizinho mais prximo K-Nearest Neighbors e rvore de
Deciso so testadas. Os autores relatam que em seus testes conseguiram 99% de acerto.

1.1

Objetivos

O principal objetivo deste trabalho desenvolver um sistema que realize a classificao automtica de samples de instrumentos musicais a partir da anlise e extrao de
caractersticas de sinais de udio, utilizando Redes Neurais Artificiais.
Para atingir o objetivo principal, os objetivos especficos so definidos a seguir.

Entender a fundamentao matemtica envolvida no processamento digital de sinais


e sua aplicao na anlise de sinais de udio;
Compreender e aplicar algoritmos de extrao de caractersticas de sinais de udio;
Entender e aplicar modelos de Redes Neurais Artificiais em reconhecimento de padres e classificao;
Determinar um conjunto de samples musicais a ser utilizado, a fim de avaliar a
eficincia do sistema proposto;
Avaliar o sistema desenvolvido, testando a eficincia dos descritores de timbre do
MPEG-7 e Coeficientes Mel-Cepstrais, comparando os resultados obtidos com os
resultados esperados.

1.2

Organizao do Trabalho

O desenvolvimento do trabalho inicia a partir do Captulo 2 Conceitos Iniciais, sobre


a teoria de Sinais e Sistemas, Sinais de udio Digital, processo de converso analgico para

1.2 Organizao do Trabalho

19

digital e formatos de armazenamento so apresentados como base para o desenvolvimento


dos captulos seguintes.
No Captulo 3 Extrao de Caractersticas de Sinais de udio detalhado o processamento de caractersticas, a extrao dos Coeficientes Mel-Cepstrais e os descritores de
timbre temporais e espectrais do padro MPEG-7.
O Captulo 4 Redes Neurais Artificiais discute os conceitos relacionados ao tema
como o neurnio biolgico, as diversas estruturas topolgicas, o processo de aprendizado
e treinamento.
No Captulo 5 Sistema Proposto, descrito o modelo de desenvolvimento do sistema
de classificao automtica de udio proposto, bem como bibliotecas e linguagens utilizadas, o conjunto de testes proposto e as tcnicas de extrao de caractersticas estudadas
no Captulo 2.
O Captulo 6 apresenta os testes realizados bem como uma discusso sobre a eficincia
do sistema proposto.
Por ltimo, o Captulo 7 apresenta algumas concluses sobre o trabalho de pesquisa
realizado.

20

2 Conceitos Iniciais
Neste captulo so discutidos conceitos tericos fundamentais para o entendimento
do processamento digital de sinais, definio de sinais de udio, o processo de converso
analgico para digital e formatos de armazenamento.

2.1

Sinais e Sistemas

Sinais so geralmente aplicados na transmisso de informao, representando o estado ou comportamento de um sistema, descrevendo como um parmetro varia de acordo
com outro. Exemplos so a tenso variando de acordo com o tempo em um circuito eltrico ou o brilho variando de acordo com a distncia em uma imagem (SMITH, 1997).
Matematicamente um sinal representado como uma funo contendo uma ou mais variveis independentes, geralmente o tempo e outra varivel representando a grandeza a
ser medida. Sinais que possuem o tempo como varivel independente esto no domnio
do tempo, enquanto sinais que usam a frequncia como varivel independente esto no
domnio da frequncia. Estas variveis podem ser contnuas ou discretas. Um sinal de
tempo contnuo possui valores definidos para qualquer valor definido pelo tempo. Sinais
de tempo discreto so definidos por tempos discretos, ou seja, possui valores representados
por uma sequncia de nmeros inteiros. Um sinal de udio pode ser representado das suas
formas. Para um sinal ser considerado digital, tanto o tempo quanto a amplitude do sinal
devem ser discretos (OPPENHEIM et al., 1998).
Sistemas podem ser considerados como processos que produzem sinais de sada a
partir de um dado sinal de entrada. A Figura 2.1 mostra o diagrama de blocos de como
um sistema atua sobre um dado sinal. A maioria dos sistemas se enquadra na categoria
dos sistemas lineares, muito importante nas tarefas de processamento de sinais. Um
sistema considerado linear se este possuir as propriedades homogeneidade e aditiva.
Outra propriedade que no identifica um sistema linear, mas importante para tarefas
de processamento digital de sinais, a invarincia no deslocamento (shift invariance)
(OPPENHEIM et al., 1998).

2.2 Sinais de udio

21

Figura 2.1: Sistemas de tempo contnuo e discreto (SMITH, 1997)


A homogeneidade garante que se houver mudana na amplitude de um sinal de entrada, o mesmo acontecer para o sinal de sada correspondente. Matematicamente isto
significa que um sinal de entrada kx[n] corresponde a um sinal de sada ky[n], onde k
uma constante. A propriedade aditiva garante que se um sinal de entrada x1 [n] produz
um sinal de sada y1 [n] e um sinal de entrada x2 [n] produz um sinal de sada y2 [n], ento
o sinal de entrada x1 [n] + x2 [n] ir produzir o sinal de sada y1 [n] + y2 [n]. A terceira propriedade garante que se houver um deslocamento no sinal de entrada x[n + s], o mesmo
deslocamento ser percebido no sinal de sada y[n + s] (SMITH, 1997). Esta caracterstica
importante pois garante que qualquer mudana no sinal de entrada sempre ter o mesmo
efeito no sinal de sada.

2.2

Sinais de udio

O som, fisicamente produzido por ondas de presso que se propagam de modo


contnuo no tempo e no espao a uma velocidade mdia de 340 metros/segundo, fazendo
o ar vibrar. O ouvido, atravs do tmpano, sensvel a estas ondas de presso que so
transformadas em impulsos eltricos e transmitidas ao crebro, que ento as interpreta
como som (TEAM, 2009). O audio humana, por padro, capaz de reconhecer as
frequncias entre 20Hz e 20kHz.
Para que o som se propague, necessrio que o meio possua duas caractersticas:
elasticidade e inrcia. Tanto o ar como outros materiais (lquidos, metais, madeira, plstico, etc.) possuem estas caractersticas. Quando um diafragma se movimenta, devido
a inrcia, ele deforma-se na direo oposta. Este movimento continua at que ele colocado em equilbrio pela fora elstica do meio em que se encontra (EVEREST, 1987).

2.2 Sinais de udio

22

Enquanto o diafragma est oscilando, ele faz as partculas de ar se movimentarem, criando


ondas de presso com uma determinada frequncia de oscilao (STEIGLITZ, 1995). As
ondas sonoras peridicas, aquelas que se repetem com o mesmo padro durante um perodo definido, so conhecidas na teoria musical ocidental como notas musicais e possuem
frequncias regulares. Por exemplo, a nota L possui uma frequncia regular de 440Hz.
Um onda sonora com frequncia regular pode ser representada pela Equao 2.1.

x(t) = A cos(t + )

(2.1)

onde A a amplitude do sinal, a frequncia angular, t o tempo e o deslocamento


do sinal, geralmente 0. O perodo desse sinal d-se pela relao 2/. Pode-se tambm representar uma onda sonora utilizando uma onda senoidal, que apenas o cosseno
deslocado em um perodo de /2, como mostra a Equao 2.2.

cos(t) = sen(t + /2)

(2.2)

Qualquer sinal pode ser representado pela soma de senos ou cossenos com diferentes
amplitudes e frequncias atravs da Equao 2.3.

A1 cos(t + 1 ) + A2 cos(t + 2 )

(2.3)

Utilizando a Equao 2.3 pode-se criar qualquer som atravs de sntese aditiva. A
Figura 2.2 mostra a resultante da soma de duas ondas senoidais.

2.2.1

udio Digital

Com a criao dos sistemas digitais, foi possvel criar sistemas sem perdas de qualidade
de armazenamento, transmisso e gravao de udio. Sistemas analgicos so sensveis
a rudos e interferncias, fazendo com que os dados armazenados percam sua qualidade
com o tempo, dependendo das condies de armazenamento (KEFAUVER; PATSCHKE,
2007).
Para a captao do sinal analgico geralmente utiliza-se um microfone que converte
a vibrao do ar em corrente eltrica, que ento convertida para uma representao

2.2 Sinais de udio

23

2.0

cos(x)
2*cos(x + 4)
Soma

1.5
Amplitude

1.0
0.5
0.0
0.5
1.0
1.5
2.00.0

0.2

0.4

0.6
0.8
Tempo

1.0

1.2

1.4

Figura 2.2: Soma de duas ondas


numrica no sistema digital. Para a reproduo eletrnica utilizam-se caixas de som
que possuem bobinas e membranas que vibram de acordo com a corrente eltrica que
recebem. A vibrao dessa membrana controlada por um sistema conversor digital para
analgico (DAC ). Pode-se dizer que a vibrao para frente e para trs da membrana
podem ser associadas com valores discretos como 1 e 1, sendo o 0 a membrana parada
(KREIDLER, 2009).
Um sinal analgico representado por uma forma de onda contnua. Para representar
sinais analgicos em um sistema digital, necessrio realizar uma converso do sinal analgico para digital (ADC ), obtendo amostras do sinal analgico em um intervalo de tempo
definido para serem armazenados por uma srie de valores discretos que se aproximam
do sinal original. Este processo chamado de amostragem ou sampling. No processo
de amostragem uma forma de onda contnua ser representada por uma sequncia finita
de nmeros, em intervalos de tempo definido. Nesse passo, tem-se um sinal de tempo
discreto. Para o sinal ser considerado digital, necessrio passar pelo processo de quantizao, o qual discretiza os valores reais de presso utilizando um conjunto finito e bem
definido de valores (KEFAUVER; PATSCHKE, 2007).

2.2.2

O formato WAVE

O formato WAVE (Waveform Audio File Format) utilizado para descrever udio digital no comprimido proposto atravs da especificao Resource Interchange File Format

2.3 Amostragem

24

(RIFF) pela Microsoft. O arquivo neste formato possui no seu incio um cabealho, seguido ento pelos dados que representam o sinal de udio, onde cada nmero armazenado
representa uma amostra do sinal (WILSON, 2003). A Figura 2.3 mostra a organizao
destas informaes e da sequncia de dados que representam o sinal no formato. No cabealho, so especificados o formato do arquivo, o formato do udio armazenado, nmero
de canais, taxa de amostragem, taxa de transferncia (ByteRate), tamanho de cada bloco
de amostras contento todos os canais, tamanho de cada amostra individual, entre outros.
O formato armazena a informao de cada canal, uma seguida da outra.

Figura 2.3: Organizao do formato WAVE (WILSON, 2003)

2.3

Amostragem

Sinais de tempo discreto x[n] so representados por sequncia de nmeros que podem
ser extrados da amostragem peridica de um sinal de tempo contnuo x(t). Caso o sinal
de tempo discreto seja gerado atravs da amostragem de um sinal de tempo contnuo,
ento

x[n] = x(nTs )

(2.4)

onde Ts o perodo de amostragem, x[n] a uma sequncia de nmeros resultantes

2.3 Amostragem

25

do processo de amostragem, e n um inteiro utilizado como ndice dessa sequncia de


nmeros. A partir da relao entre o perodo e a frequncia de um sinal, pode-se dizer
que

fs = 1/Ts

(2.5)

a frequncia de amostragem desse sinal (OPPENHEIM et al., 1998). A Figura 2.4


(a) mostra um sinal de tempo contnuo amostrado.

f(t)

f(t)

(a) Amostragem

7
6
5
4
3
2
1
0

(b) Quantizao

Figura 2.4: (a) Sinal amostrado. (b) Sinal amostrado e quantizado


A teoria da amostragem introduzida por Claude Shannon em 1948 e posteriormente
desenvolvida por Harry Nyquist, diz que pode-se reconstruir um sinal de tempo contnuo a
partir das amostras extradas no processo de amostragem, desde que a maior frequncia fm
presente no sinal seja menor que a metade da frequncia de amostragem, fm < fs /2. Esta
frequncia tambm conhecida como frequncia de Nyquist. Caso uma frequncia maior
seja amostrada, ocorre o que chamado de pseudonmia (efeito aliasing), como mostra a
Figura 2.5, onde o sinal reconstrudo com uma frequncia menor em comparao com
a frequncia do sinal original. Para evitar este problema, um filtro passa-baixa pode ser
utilizado para cortar as frequncias acima da frequncia de Nyquist (SCHMIDT, 2008).

Figura 2.5: Efeito aliasing. (SCHMIDT, 2008)


Supondo que existe um oscilador rotacionando em uma frequncia fixa, representado

2.4 Quantizao

26

na Figura 2.6, um ponto adicionado no oscilador para cada amostra coletada. Se fs for
maior que a frequncia do oscilador fo , os pontos sero colocados em ordem e igualmente
espaados, como mostra a Figura 2.6(a). Caso haja uma diminuio de fs at que fm =
fs /2, apenas duas amostras por revoluo sero pegas. Diminuindo ainda mais fs , o
perodo de coleta das amostras to grande que ocorre o efeito aliasing, mostrado na
Figura 2.6(c) (STEIGLITZ, 1995).

Figura 2.6: (a) fs > fm (b) fs /2 = fm (c) fs /2 < fm (STEIGLITZ, 1995)


Como as frequncia audveis ao ser humano esto no intervalo 20Hz 20000Hz,
ideal que a frequncia de amostragem seja maior que 40000Hz. Por este motivo, o padro
da taxa de amostragem de CDs de udio de 44100Hz, significando que cada segundo de
udio representado por 44100 amostras da variao de amplitude do sinal (KREIDLER,
2009).

2.4

Quantizao

Aps o processo de amostragem, necessrio realizar a quantizao das amostras,


ou seja, definir um domnio do sinal em um nmero fixo de intervalos, indicando qual o
nmero de bits utilizados para representar cada amostra. No processo de amostragem o
tempo foi discretizado, no processo de quantizao, a amplitude do sinal ser discretizada.
Este processo importante para a representao do sinal em um computador digital
que trabalha com valores discretos. Quanto maior o nmero de bits utilizados, maior a
resoluo do sinal. A Figura 2.4(b) mostra o sinal com amplitude discretizada, assumindo
valores de 0 at 7, sendo necessrio 3 bits para representar esses valores.
Supondo que os valores de amplitude de um sinal sejam representados com B bits,
podemos ter 2B possveis valores entre 2B1 e +2B1 1. Para os sistemas atuais, que
geralmente utilizam uma resoluo de 16 bits, tem-se 65536 possveis valores para representar cada amostra. Este processo induz perdas de informao, pelo fato das amostras

2.5 Convoluo

27

coletadas poderem ter qualquer valor, sendo arredondadas no processo de quantizao


(STEIGLITZ, 1995).

2.5

Convoluo

A Teoria da Convoluo mostra-se importante para a criao de filtros de sinais, sendo


uma forma matemtica de combinar dois sinais para formar um terceiro. Existem trs
tipos de sinais importantes para a definio da convoluo: o sinal de entrada, o sinal
de sada e o impulso unitrio, definido pela funo (Delta) de Dirac, onde a funo
zero para todos os valores do parmetro, com exceo quando o parmetro zero
(OPPENHEIM et al., 1998). O de Dirac definido pela Equao 2.6:

(x) =

+, x = 0

(2.6)

x 6= 0

0,

Todo sinal pode ser decomposto em um grupo de impulsos, cada um passando por um
sistema linear, resultando em sadas que sero sintetizadas idnticas ao mesmo sinal que
seria obtido passando-se o sinal original pelo sistema. Todo impulso normalizado pode
ser representado por uma funo deslocada e dimensionada, onde a primeira amostra
possui um valor qualquer e as outras amostras possuem valor zero. Passando uma funo
Delta atravs de um sistema, obtm-se a resposta do impulso (inpulse response) que pode
ser utilizada para identificar as caractersticas do sistema (SMITH, 1997). A convoluo
de um sinal discreto definida pela Equao 2.7.

y[m] = (f g)[m] =

M
1
X

f [n]g[m n]

(2.7)

n=0

onde y[m] o sinal de sada, f [m] o sinal de entrada e g[m] o um vetor que representa
o impulso de resposta do sistema. A Figura 2.7 mostra a aplicao da Convoluo em um
sinal. Maiores detalhes sobre a convoluo podem ser encontrados em (OPPENHEIM et
al., 1998) e (SMITH, 1997).

2.6 Transformada Discreta de Fourier

28

Figura 2.7: Aplicao da Convoluo (SMITH, 1997)

2.6

Transformada Discreta de Fourier

A anlise de Fourier foi criada por Jean Baptiste Joseph Fourier (1768-1830) e se
tornou amplamente utilizada em tarefas de anlise em diversos ramos da cincia, como
matemtica, fsica e engenharia. Para anlise de sequncias finitas, possvel utilizar
a Transformada Discreta de Fourier (DFT). O uso da DFT se tornou popular devido a
criao do algoritmo Transformada Rpida de Fourier (FFT), desenvolvido por Cooley
e Tukey (1965), possibilitando que a aplicao da DFT de forma eficiente. possvel
tambm aplicar a convoluo utilizando a DFT. A Teoria da Convoluo diz que a convoluo no domnio do tempo o mesmo que realizar uma multiplicao no domnio da
frequncia, possibilitando a aplicao da DFT de forma eficiente.
A Transformada de Fourier se enquadra na famlia das transformaes lineares utilizadas para decompor o sinal em componentes cosseno e seno, multiplicadas por um
coeficiente (amplitude). Existem muitas maneiras de decompor um sinal, mas senoides
so utilizadas pela sua fidelidade ao ser utilizada como sinal de entrada em um sistema
linear, garantindo que o sinal de sada ter apenas a amplitude e fase alteradas, mantendo
sua frequncia e forma (SMITH, 1997).
A DFT, matematicamente representada pela Equao 2.8, recebe como entrada um
sinal de tamanho N , produzindo, como sada, um sinal de mesmo tamanho representando
a amplitude das componentes cosseno e seno. Nesta equao f (k) o sinal de entrada,
ej2 a funo base definida de forma polar por ej = cos + jsin que define os valores
complexos para cada ponto F (n) no domnio de frequncia.

F (n) =

N
1
X
k=0

kn

f (k)ej2 N

(2.8)

2.6 Transformada Discreta de Fourier

29

Os coeficientes obtidos pela transformada so chamados de coeficientes espectrais,


ou espectro. O coeficiente F (0) do sinal resultante o valor mdio do sinal, conhecido
como componente DC, e o coeficiente F (N/2) a maior frequncia amostrada, ou seja, a
frequncia de Nyquist. Do lado esquerdo frequncia de Nyquist encontramos os componentes cosseno (componentes reais), e no lado direito se encontram as componentes seno
(componentes imaginrias). Pode-se interpretar o sinal resultante da transformada como
contendo a amplitude de um sinal que completa um ciclo em N amostras no ndice F (1),
a amplitude de um sinal que completa dois ciclos em N amostras no ndice F (2) e assim
sucessivamente (OPPENHEIM et al., 1998) (SMITH, 1997).
Para fim de anlise, o espectro de frequncia pode ser representado atravs do espectro
de magnitude (Equao 2.9) e atravs do espectro de fase (Equao 2.10). O espectro de
magnitude muito utilizado em aplicaes de anlise espectral de udio atravs do espectrograma, o qual apresenta a intensidade de cada frequncia em uma escala logartmica,
geralmente medida em dB. J o espectro de fase possui pouca aplicao para sinais de
udio sendo mais aplicado em processamento de imagens (SMITH, 2008). O espectro de
potncia dado pelo quadrado do mdulo do espectro de frequncia.
v
uN 1
2

2

uX
p
2kn
2kn
t
2
|F (n)| = F (n) =
+ sin
cos
N
N
k=0

F ase(F (n)) =

N
1
X
k=0

arctan

sin 2kn
N
2kn
cos N

(2.9)

!
(2.10)

Como o domnio de frequncia contm a mesma quantidade de informao que o


domnio do tempo, possvel realizar a Transformada Inversa de Fourier (IDFT), matematicamente representada pela Equao 2.11 para recuperar o sinal no domnio do tempo.

f (n) =

N 1
kn
1 X
F (k)ej2 N
N k=0

(2.11)

30

3 Extrao de Caractersticas de Sinais de


udio
A extrao de caractersticas como representaes de segmentos do sinal de udio
uma forma de representao com quantidade de informao reduzida. Esta informao
armazenada em vetores de caractersticas, que so formados por valores numricos. Desta
forma, a disciplina de processamento de sinais torna-se muito importante, pois a extrao
de caractersticas realizada usando a anlise de tempo e frequncia, atravs de tcnicas
como a Transformada de Fourier (TF), aplicao de filtros e escalas.
A escolha das caractersticas importante pois elas tm grande impacto na eficincia
do processo de classificao. Em relao ao som, existem as caractersticas fsicas: amplitude, frequncia, espectro e durao; ou as caractersticas perceptuais: sonoridade, tom e
timbre (BENSON, 2008).
Cada nota produzida por um instrumento musical gerada por frequncias diferentes.
A frequncia mais baixa chamada de frequncia fundamental cujo tom produzido utilizado para dar nomes as notas musicais. O tom gerado pelo somatrio da fundamental e
seus harmnicos. A frequncia fundamental til para distinguir instrumentos de corda,
percusso e sopro, por exemplo.
O Timbre descreve as caractersticas do som que permitem o ouvido distinguir sons
que possuem a mesma frequncia fundamental e sonoridade (loudness). O timbre determinado pelas harmnicas de um som e caractersticas dinmicas como o vibrato (mudana
de frequncia) e tremolo (mudana de amplitude). Na msica, o timbre entendido como
a qualidade da nota musical capaz de diferenciar tipos de instrumentos musicais, por
exemplo, para modelos diferentes de guitarra, onde o tipo de material utilizado no corpo
e brao influenciam na sonoridade. Porm, a riqueza do som produzida pela combinao
da fundamental, harmnicos e sobretons (as frequncias parciais). Enquanto os harmnicos so frequncias mltiplas da fundamental, os sobretons no o so. A variao da
amplitude das diferentes frequncias geradas pelos instrumentos musicais o que dar ao
instrumento sua caracterstica sonora, o timbre (SUBRAMANIAN, 2004).

3.1 Mel-Frequency Cepstral Coefficients

31

Neste captulo sero descritos dois vetores de caractersticas: Mel-Frequency Cepstral


Coefficients e os descritores de Timbre do padro MPEG-7.

3.1

Mel-Frequency Cepstral Coefficients

Nesta sesso ser apresentado o processo de extrao dos Coeficientes Mel-Cepstrais


(Mel-Frequency Cepstral Coefficients - MFCC), tipicamente utilizado para tarefas de reconhecimento de fala, mas que vem sendo utilizado em aplicaes musicais (TZANETAKIS;
COOK, 2002; FOOTE, 1997; DESHPANDE et al., 2001).
O sucesso do uso de MFCC deve-se ao fato de ter sido desenvolvido para modelar
o envelope espectral, do sinal de uma forma muito compacta, suprimindo a frequncia
fundamental (JENSEN et al., 2009), levando em conta a percepo no linear do som
pelo ouvido humano. Todo o processo envolvido na gerao do vetor de caractersticas
baseia-se em estudos na rea de psicoacstica, que estuda a percepo auditiva humana,
como o caso da escala Mel, ou por motivos computacionais (LOGAN, 2000). Outro
fator que torna o uso de MFCC interessante o fato de sua aplicao reduzir um espectro
de 1024 pontos para cerca de 15 a 30 pontos que podem ser utilizados para verificar a
similaridade ou distino de sons (BRENT, 2010).
O processo de computao dos Coeficientes Mel-Cepstrais baseia-se na computao
do Cepstrum, conceito originalmente definido em 1963 por Bruce P. Bogert, M. J. R.
Hearly e J. W. Tukey no trabalho intitulado The Quefrency Alanysis of Time Series
for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking
(BRENT, 2010). A diferena entre os Coeficientes Mel-Cepstrais e o Cepstrum que suas
bandas de frequncia so posicionadas logaritcamente. Mais detalhes sobre a computao
do Cepstrum podem ser encontrados em (BRENT, 2010).
(ROADS, 1996 apud BRENT, 2010) diz que a anlise cepstral tende a separar as
frequncias fundamentais com maior energia do resto do espectro, desconvoluindo o espectro da fonte excitadora (corda vocal, responsvel pelo tom) com o tubo de ressonncia
(laringe e cavidades faciais). A anlise cepstral possibilita a anlise individual destes componentes, provendo uma assinatura espectral da voz de uma pessoa e separando a regio
de formantes que diferenciam as vogais (BRENT, 2010).

3.1 Mel-Frequency Cepstral Coefficients

32

Na rea de classificao de sons musicais, MFCC vm sendo utilizados em aplicaes


de extrao de caractersticas de forma a modelar o timbre. Segundo Logan (2000), o
uso de MFCC na classificao de msicas vem se mostrando apropriado. Assim como a
fala, sinais musicais so no estacionrios, independentes de fase e tambm percebidos de
forma logartmica. Nos testes realizados por Logan (2000), chegou-se a concluso de que
o uso da escala Mel proporciona melhores resultados do que o uso de uma escala linear e
que o uso da DCT para descorrelacionar o espectro logartmico tambm apropriado.
O processamento dos Coeficientes Mel-Cepstrais descrito pelo diagrama da Figura
3.1. Inicialmente realizado o processo de janelamento e aplicada a TF. A amplitude
da Transformada de Fourier filtrada por janelas triangulares na escala Mel e ento
aplica-se o logaritmo. A Transformada Discreta de Cosseno aplicada e os Coeficientes
Mel-Cepstrais so as amplitudes resultantes (LOGAN, 2000). Cada passo ser visto com
mais detalhe nas sees seguintes.
Janelamento

|DFT |

mel

log

DCT

MFCCs

Figura 3.1: Processamento dos Coeficientes Mel-Cepstrais

3.1.1

Janelamento e Transformada de Fourier

O primeiro passo para realizar a computao dos Coeficientes segmentar o sinal


em quadros de igual tamanho. Este processo importante para se realizar a anlise de
tempo curto (short-term analysis) do sinal. Por se tratar da anlise de um sinal aleatrio, o espectro mdio do sinal encobre variaes espectrais que podem ser identificadas
somente em curtos intervalos de tempo e que so relevantes para a classificao do sinal.
Tipicamente, o uso de janelas de tamanho variando de 20 a 30ms indicado pois o sinal apresenta caractersticas estacionrias, tornando vlida a aplicao da TF (MAFRA,
2002). Tendo definido o tamanho da janela de anlise, move-se ela ao longo do sinal,
encobrindo de 30% a 50% os quadros adjacentes para evitar mudanas abruptas do sinal
e perda de informao. Ao segmentar o sinal em quadros, pode ocorrer o efeito leakage
(introduo de rudos no sinal). Para evitar este efeito, multiplica-se os quadros por uma
funo de janelamento w(n) onde n um quadro qualquer do sinal. Muitas funes de
janelamento so utilizadas, cada uma sendo aplicada a alguma tarefa de processamento de
sinais (OPPENHEIM et al., 1998). A janela de Hamming (Hamming window ) indicada

3.1 Mel-Frequency Cepstral Coefficients

33

para tarefas de processamento de sinais de udio. Ela descrita pela Equao 3.1:


w(n) = 0.54 0.46 cos

2n
N 1


0nN 1

(3.1)

onde N o tamanho da janela. A Figura 3.2 mostra a forma de onda da janela.


1.0

Amplitude

0.8
0.6
0.4
0.2
0.0

200

400
600
Amostras

800

1000

Figura 3.2: Janela de Hamming


O janelamento do sinal dado pela Equao 3.2:

xj (n) = x(n)w(n)

(3.2)

onde xj (n) o sinal de sada, janelado, x(n) o sinal de entrada e w(n) a janela a
ser aplicada. Tendo o conjunto de quadros resultantes, a TF (descrita na seo 2.6)
aplicada.

3.1.2

Funo Log

A aplicao da funo logartmica no espectro de amplitude resultante da TF interessante pois a audio humana opera em uma escala prxima escala logartmica.
Estudos de percepo mostram que o espectro de amplitude mais importante que a
fase, por isso a fase do espectro descartada neste passo (LOGAN, 2000).

3.1 Mel-Frequency Cepstral Coefficients

3.1.3

34

Escala Mel

A escala Mel uma escala psicoacstica (estudo da percepo auditiva humana) que
explora a relao de percepo da frequncia fundamental entre dois tons, criada a partir
do estudo da dinmica do sistema auditivo humano (que no segue uma escala linear). A
unidade de medida Mel (em referncia a melodia) refere-se a frequncia subjetiva de tons
puros percebida pelo ouvido humano (STEVENS et al., 1937 apud BRENT, 2010). A
interseco entre a escala Mel e a escala em Hz d-se em 1000Hz/1000mels. As frequncias
mel so linearmente espaadas abaixo desse ponto e de forma logartmica acima, dando
mais peso para as baixas frequncias. (BRENT, 2010). O mapeamento entre a frequncia
fHz e a frequncia percebida fmel dada pela Equao 3.3.


fHz
fmel (fHz ) = 1127.01048 log 1 +
700

(3.3)

O mapeamento inverso dado pela Equao 3.4 e gera a curva apresentada na Figura
3.3:

 fmel

fHz (fmel ) = 700 e 1127.01048 1

(3.4)

Figura 3.3: Escala Mel (BRENT, 2010)


Para criar o banco de frequncias Mel, utilizam-se filtros passa-banda com envelopes
triangulares, com o centro dos filtros espaados de acordo com a escala Mel, enfatizando
as frequncias prximas ao centro do filtro (onde ocorre a mudana perceptiva de tom) e
atenuando as frequncias vizinhas (CARDOSO, 2009).
A escala Mel reduz de forma significativa a quantidade de informao espectral e
enfatiza as baixas frequncias. A reduo depende da taxa de amostragem (sample rate),

3.1 Mel-Frequency Cepstral Coefficients

35

tamanho da janela e do espaamento mel entre cada filtro. A frequncia inferior do banco
de filtros a componente DC e a frequncia superior definida pela frequncia de Nyquist.
A Figura 3.4 ilustra o banco de filtros:

Figura 3.4: Filtros triangulares (NIEWIADOMY; PELIKANT, 2008)


Aplicando-se a Equao 3.3, a frequncia Mel para a frequncia de Nyquist em uma
taxa de amostragem de 44100 3923mels. Multiplicar o espectro do sinal ao banco de
filtros da Figura 3.4, comprime o sinal em 21 pontos, um para cada filtro. A Figura 3.5
mostra a aplicao dos bancos de filtros.

Figura 3.5: Aplicao do banco de filtros (JURAFSKY, 2009)

3.1.4

Transformada do Cosseno

O ltimo passo para a obteno dos Coeficientes Mel-Cepstrais aplicar a Transformada Discreta do Cosseno (DCT) s componentes geradas pela aplicao do banco

3.2 Descritores do MPEG-7

36

de filtros. No processamento do Cepstrum, este passo realizado aplicando-se a Transformada Inversa de Fourier (IDFT), porm a IDFT reduz-se a DCT devido ao uso do
espectro de magnitude.
Esta transformada difere da TF pelo fato de ser aplicada somente a sequncias reais.
Existem vrias verses da DCT, mas para a extrao dos MFCC a DCT-2 empregada
por concentrar maior energia nos primeiros componentes, permitindo a compactao do
sinal (CARDOSO, 2009). A DCT-2 definida pela Equao 3.5:

DCT2 (n) =

N
1
X


f (k) cos

k=0

(k + )n
N
2


(3.5)

A Figura 3.6 compara a aplicao da DFT e DCT para uma imagem, mostrando a
concentrao de energia no incio da sequncia.

Figura 3.6: Comparao entre a DFT e DCT (DAMATO, 2006)

3.2

Descritores do MPEG-7

O padro MPEG-7, formalmente chamado de Multimedia Content Descrition Interface um padro ISO/IEC desenvolvido pelo Moving Pictures Experts Group (MPEG).
Ele foi definido para possibilitar a descrio de contedo multimdia atravs da anlise
dos seus dados, possibilitando a extrao de informao. A descrio associada com o
contedo, possibilitando buscas rpidas e eficientes por material de interesse do usurio.
(MALLORCA, 2004).

3.2 Descritores do MPEG-7

37

O Framework de udio do MPEG-7 contm descritores de baixo nvel (low-level descriptors - LLDs), consistindo em uma coleo de caractersticas de udio de baixa complexidade capazes de caracterizar qualquer tipo de som. Os LLDs foram propostos dessa
forma para possibilitar flexibilidade ao padro e permitindo que novas aplicaes sejam
desenvolvidas (KIM et al., 2005). Os LLDs temporais e espectrais podem ser classificados
nos grupos apresentados na Figura 3.7. Os nomes originais em ingls so utilizados neste
trabalho para manter a referncia com as especificaes do padro.

Figura 3.7: Descritores de udio do MPEG-7 (MARTNEZ, 2002)


Os descritores Bsicos (Basic) so de uso geral. Audio Waveform descreve o envelope
mximo e mnimo do sinal de udio, tipicamente utilizado para visualizao. Audio Power
descreve um breve resumo do sinal. Os quatro descritores Espetrais Bsicos compartilham
da mesma base, derivando da anlise de frequncia do sinal. Audio Spectrum Envelope
descreve o espectro de potncia do sinal, utilizado para visualizao de espectrograma
e como descritor geral para busca e comparao. Audio Spectrum Centroid descreve o
centro de gravidade do espectro de potncia espaado de forma logartmica, indicando
onde o contedo espectral dominado por altas e baixas frequncias. Audio Spectrum
Spread complementa os descritores, indicando se o espectro de potncia est centrado
prximo a Centroide ou espalhado pelo espectro, ajudando na distino de tons puros e
sons ruidosos. Audio Spectrum Flatness descreve as propriedades de nivelamento de um
sinal de udio para cada banda de frequncia. Quando o vetor indica um alto desvio da
forma espectral para uma determinada banda, pode indicar a presena de componentes

3.2 Descritores do MPEG-7

38

tonais. Os descritores Paramtricos do Sinal so aplicados a sinais peridicos ou quasiperidicos. Audio Fundamental Frequency descreve a frequncia fundamental do sinal,
geralmente extrada atravs de tcnicas chamadas de pitch-tracking. Audio Harmonicity
descreve a harmonia do sinal, possibilitando a distino entre tons musicais e fala, sons
metlicos e rudo, por exemplo. Os descritores de Timbre Temporais Timbral Temporal descrevem caractersticas temporais de segmentos de udio, especialmente teis para
descrever caractersticas do timbre de instrumentos musicais. Os descritores De Timbre
Espectrais Timbral Spectral descrevem caractersticas do timbre relacionadas ao espectro
do sinal. Estes dois conjuntos de descritores sero abordados com mais detalhem nas
sub-sees a seguir (MALLORCA, 2004).
O padro MPEG-7 prov duas maneiras de descrever as caractersticas de baixo nvel
de segmentos de udio. A primeira extrair os LLDs de segmentos com tamanho varivel,
sendo armazenados como AudioSegment, podendo variar de pequenos intervalos at todo
o udio de um documento multimdia, utilizada para demarcar reas de similaridade e
dissimilaridade no documento multimdia. A segunda extrair os LLDs, analisando o
sinal atravs de quadros gerados em intervalos constantes, onde os valores resultantes das
amostras so armazenados como ScalableSeries (KIM et al., 2005).

s(n)

1/Fs
Nhop

Nw
l=

l= 1
l=
hopSize

...

Lw
Figura 3.8: Notao para extrao baseada em quadros (KIM et al., 2005)
A Figura 3.8 mostra a notao utilizada pelo padro MPEG-7 para extrao baseada
em quadros. s(n) o sinal digital de udio, n o ndice das amostras, Fs a frequncia de
amostragem, Lw o tamanho de um quadro, Nw o nmero de amostras correspondentes a
Lw , l o ndice dos quadros, hopSize o intervalo entre dois quadros consecutivos, Nhop o

3.2 Descritores do MPEG-7

39

nmero de amostras correspondentes a hopSize e L o nmero total de quadros extrados


de s(n).
Apesar do padro no especificar o tamanho de Lw , recomenda-se Lw = 30ms,
hopSize = 10ms e a aplicao da janela de Hamming (Equao 3.1) para anlise espectral. Para o espectro, k o ndice para a faixa de frequncia, Sl (k) o espectro e Pl (k)
o espectro de potncia extrado do quadro l do sinal s(n) (KIM et al., 2005).
Os descritores de timbre visam descrever as caractersticas perceptuais do som. O
timbre tratado como um vetor de caractersticas que inclui o envelope temporal e espectral e variaes destes. A Figura 3.9 mostra o processo de extrao dos sete descritores
de Timbre propostos no padro MPEG-7.

Figura 3.9: Extrao dos descritores de Timbre MPEG-7 (KIM et al., 2005)

3.2.1

Timbre Temporal

Os descritores de timbre temporal so extrados do envelope de amplitude de um sinal


no domnio do tempo. O envelope de amplitude do sinal descreve a variao de energia
do sinal em vrios estgios e pode ser representado pelo chamado ADSR (Attack, Decay,
Sustain, Release). Para que as caractersticas sejam corretamente computadas, ideal que
os quadros sejam bem segmentados. O envelope do sinal pode ser obtido computando-se
quadro por quadro o Erro Mdio Quadrtico do sinal original (KIM et al., 2005), atravs

3.2 Descritores do MPEG-7

40

da Equao 3.6.
v
u
w 1
u 1 NX
s2 (lNhop + n)
Env(l) = t
Nw n=0
3.2.1.1

(0 l L 1)

(3.6)

Log Attack Time

O descritor de ataque (Log Attack Time LAT) indica o tempo que se leva para a
progresso de um nvel de energia limiar tl para o nvel de energia mximo tm do envelope
de amplitude do sinal (MCADAMS, 1999), como mostra a Equao 3.7. Esse descritor
consegue diferenciar sons bruscos de sons suaves (RESENDE et al., 2009).

LAT = log10 (tm tlimiar )

(3.7)

O nvel de energia limiar pode ser dado por 0, 02tm . A Figura 3.10 mostra um exemplo
de sinal e seu respectivo tempo de ataque.

Figura 3.10: Aproximao linear do envelope de um sinal e LAT (KOSTEK, 2005)

3.2.1.2

Temporal Centroid

O descritor Centroide Temporal (Temporal Centroid TC) caracteriza o envelope do


sinal e definido pela Equao 3.8 como o tempo mdio sobre o envelope de amplitude do
sinal. Este descritor representa em que ponto a energia do sinal se concentra e possibilita
distinguir entre sons com ataque similar, mas com tempos de decaimento e suspenso
diferentes. Por exemplo, uma nota executada por um piano e um rgo (RESENDE et

3.2 Descritores do MPEG-7

41

al., 2009).
L1
X
(lEnv(l))

TC =

Nhop l=0
L1
Fs X

(3.8)
Env(l)

l=0

onde Nhop /Fs a taxa de amostragem.

3.2.2

Timbre Espectral

Para a extrao dos descritores de Timbre Espectrais necessrio estimar a frequncia


fundamental f0 e detectar os componentes harmnicos do sinal. O padro MPEG-7
no especifica como extrair estas informaes do sinal. Kim et al. (2005) prope o uso
da Funo Temporal de Autocorrelao (Autocorrelation Function - TA) ou da Funo
Espectro-temporal de Autocorrelao (Spectro-temporal Autocorrelation Function - STA)
para a extrao de f0 .

3.2.2.1

Spectral Centroid

O descritor Centroide Espectral (Spectral Centroid SC) o nico dos descritores de


Timbre Espectrais que no est relacionado com a estrutura harmnica do sinal. Ele
uma mdia ponderada da frequncia dos quadros no espectro de potncia linear (KIM et
al., 2005). O descritor computado de acordo com a Equao 3.9.
NF T /2

X
SC =

f (k)Ps (k)

k=0
NF T /2

(3.9)
Ps (k)

k=0

onde Ps o espectro de potncia do quadro, f (k) a frequncia da amostra k do espectro de frequncia e NF T o tamanho da DFT. Este descritor similar ao Audio Spectrum
Centroide (ASC), mas est mais relacionado ao timbre de instrumentos musicais.

3.2 Descritores do MPEG-7


3.2.2.2

42

Harmonic Spectral Centroid

O descritor Centroide Espectral Harmnico (Harmonic Spectral Centroid HSC)


definido como a mdia ponderada dos picos harmnica do espectro dados pelo Centroide
Espectral Harmnico Local (Local Harmonic Spectral Centroid - LHSC) calculada em
cada quadro (KIM et al., 2005), definida pela Equao 3.10. Este descritor tem significado parecido com os outros descritores de Centroide, mas est intimamente ligado s
harmnicas do tom musical (RESENDE et al., 2009).
NH
X

LHSCl =

fh,l Ah,l

h=1
NH
X

(3.10)
Ah,l

h=1

onde fh,l e Ah,l so respectivamente a frequncia e amplitude do hzimo (hth) pico


harmnico estimado para o quadro l e NH o nmero de harmnicos. A computao final
do HSC d-se pela equao 3.11.
L1

1X
HSC =
LHSCl
L l=0

(3.11)

onde L o nmero de quadros do sinal de udio.

3.2.2.3

Harmonic Spectral Deviation

O descritor Derivao Espectral Harmnico (Harmonic Spectral Deviation HSD)


mostra o desvio espectral dos componentes de amplitude logartmica de um envelope
espectral global (RESENDE et al., 2009). Ele calculado a partir da mdia da Derivao
Espectral Harmnica Local (Local Harmonic Spectral Deviation - LHSD) computada para
cada quadro (KIM et al., 2005), dada pela Equao 3.12.
NH
X

LHSDl =

| log10 (Ah,l ) log10 (SEh,l )|

h=1
NH
X
h=1

(3.12)
log10 (Ah,l )

3.2 Descritores do MPEG-7

43

onde Ah,l a amplitude e SEh,l o envelope espectral local do pico harmnico h


estimado para o quadro l definido pela Equao 3.13.

SEh,l

1/2(Ah,l + Ah+1,l )
se h = 1

= 1/3(Ah1,l + Ah,l + Ah+1,l ) se 2 h NH 1

1/2(Ah1,l + Ah,l )
se h = NH

(3.13)

HSD ento computado para a durao total do sinal atravs da Equao 3.14, onde
L o nmero total de quadros retirados do sinal de udio. Esta caracterstica est
relacionada com o vibrato de um instrumento musical (KIM et al., 2005).
L1

1X
HSD =
LHSDl
L l=0
3.2.2.4

(3.14)

Harmonic Spectral Spread

O Espalhamento Espectral Harmnico (Harmonic Spectral Spread HSS) descreve o


desvio padro da amplitude ponderada dos picos harmnicos atravs da mdia ponderada
do LHSS (Local Harmonic Spectral Spread ) calculado para cada quadro (Equao 3.15) e
normalizada pela LHSC (RESENDE et al., 2009) (KIM et al., 2005).
v
uN
H
uX
u
[(fh,l LHSCl )2 A2h,l ]
u
u
1 u h=1
LHSSl =
NH
LHSSl u
X
u
t
A2h,l

(3.15)

h=1

A curva gerada pela aplicao da Equao 3.15 em cada quadro do sinal reflete a
modulao espectral dentro da nota vibrato. O Espalhamento Espectral ento calculado
atravs da Equao 3.16.
L1

1X
LHSSl
HSS =
L l=0

(3.16)

3.3 Consideraes
3.2.2.5

44

Harmonic Spectral Variation

O descritor Variao Espectral Harmnico (Harmonic Spectral Variation HSV) reflete a variao espectral entre quadros adjacentes. Para a sua computao, necessrio
antes a aplicao da LHSV (Local Harmonic Spectral Variation) Equao 3.17, que representa a correlao normalizada entre a amplitude dos picos harmnicos de dois quadros
subsequentes do sinal (RESENDE et al., 2009; KIM et al., 2005).
NH
X

(Ah,l1 Ah,l )

h=1

LHSVl = 1 v
u NH
uX
t
A2

h,l1

h=1

v
u NH
uX
t
A2

(3.17)

h,l

h=1

L1

1X
LHSVl
HSV =
L l=0

(3.18)

A Equao 3.18 mostra como computar a HSV, da mesma forma que aplicado para
os outros descritores, a mdia dos valores locais.

3.3

Consideraes

Este captulo apresentou a extrao de caractersticas baseada nos vetores de Coeficientes Mel Cepstrais e Descritores de Timbre do padro MPEG-7.
A literatura revisada relata bons resultados em testes realizados utilizando MFCC
e um sub-conjunto amplo de Descritores do MPEG-7. No captulo 5 apresentado um
modelo de sistema utilizando os dois vetores aqui propostos e No captulo 6, resultados
so apresentados.

45

4 Redes Neurais Artificiais


Os estudos usando Redes Neurais Artificiais (RNA) so motivados pela ideia de que o
crebro humano um sistema processador de informaes complexo, no-linear e paralelo.
Ele capaz de organizar os neurnios, suas estruturas bsicas, para realizar o reconhecimento de padres, percepo, memria e controle motor, de forma mais rpida que os
mais poderosos computadores digitais atuais (HAYKIN, 2001).
O poder computacional das RNAs deve-se a sua estrutura paralelamente distribuda, a
sua plasticidade, permitindo que se adapte ao seu meio ambiente, a capacidade de generalizao que permite que uma Rede Neural produza sadas para entradas no presentes na
fase de aprendizagem, no-linearidade, mapeamento de entrada-sada, tolerncia a falhas
devido a sua arquitetura paralela (HAYKIN, 2001).
Neste captulo so apresentados os principais conceitos relacionados s RNAs: o neurnio Biolgico, o modelo matemtico proposto por McCulloch e Pitts (1943), topologias e
o processo de aprendizado.

4.1

Neurnio Biolgico

Esta seo apresenta a organizao geral da estrutura do neurnio biolgico e seu


princpio de funcionamento.
O sistema nervoso juntamente com o sistema endcrino so responsveis por tarefas
de controle motor e respostas do corpo. Enquanto o sistema endcrino controla funes
do metabolismo de forma mais lenta, o sistema nervoso capaz de dar respostas muito rpidas, como a contrao de msculos, por exemplo. O sistema nervoso recebe informaes
atravs do estmulo de diferentes sensores, combindo com as informaes armazenadas no
crebro atravs do processo de aprendizagem ou hereditariedade e produz respostas atravs de atuadores, em um processo de realimentao capaz de produzir respostas muito
precisas (BARRETO, 1997; HAYKIN, 2001).
O crebro formado por bilhes de neurnios e trilhes de conexes sinpticas. A

4.2 Modelo Matemtico

46

Figura 4.1 mostra a estrutura bsica de um neurnio. A partir do corpo celular, tambm
chamado de soma, ocorrem os processos metablicos, projetam-se os dendritos (entradas)
e o axnio (sada) que podem realizar dezenas de milhares de conexes sinpticas. Dentro
e fora das clulas encontram-se diferentes concentraes de Sdio e Potssio, que em equilbrio deixam o interior da clula negativo em relao ao exterior. Quando ocorre uma
perturbao da membrana do neurnio, a variao de tenso gera o potencial de ao,
capaz de se propagar pelo axnio e se esse potencial se propagar at prximo aos terminais
sinpticos, pode liberar diversos tipos de molculas conhecidas como neurotransmissores.
Dendritos e axnios no mantm uma ligao fsica, esto separados pelo espao sinptico, mas so capazes de se comunicar atravs dos neurotransmissores que ao se colar na
membrana de um dendrito, ou provocam um potencial de ao, ou dificultam seu aparecimento. A intensidade com que um neurnio capaz de excitar ou inibir outros neurnios
depende ento das caractersticas sinpticas e neurotransmissores, so estes valores de
conexo que, de forma global, conseguem mudar o comportamento da rede, criando o
processo de aprendizagem (BARRETO, 1997).
Espinhas Dentritais
Entradas
sinpticas
Dendritos
apicais

Segmento
de dendrito
Corpo
Celular

Dendritos
basais

Axnio

Terminais
sinpticos

Figura 4.1: Neurnio Biolgico (HAYKIN, 2001)

4.2

Modelo Matemtico

O neurnio a estrutura fundamental de uma Rede Neural. Apesar do primeiro modelo proposto por McCulloch e Pitts (1943) ter a inteno de imitar o neurnio biolgico,

4.2 Modelo Matemtico

47

as Redes Neurais Artificiais ainda esto distantes de representar um modelo completo de


uma Rede Neural Natural (BARRETO, 1997).
O neurnio artificial (Figura 4.2) consiste em um sistema com sinais de entrada dado
por x = [x1 , x2 , x3 , . . . , xm ], elemento de processamento e sinal de sada yk , onde k identifica o neurnio. Cada sinal de entrada xj multiplicado por um peso sinptico wkj . As
sinapses geradas passam pela juno aditiva uk , dada pela Equao (4.1), e o potencial de
ativao calculado por vk = (uk + bk ), onde bk o bias, que tem funo de polarizao
para aumentar ou diminuir a entrada lquida da funo de ativao. vk ento utilizado como entrada da funo de ativao dada por yk = (), com funo de restringir a
amplitude da sada do neurnio (HAYKIN, 2001).

uk =

m
X

wkj xj

(4.1)

j=1

Figura 4.2: Modelo de um neurnio (HAYKIN, 2001)


O modelo binrio de McCulloch e Pitts (1943) utiliza a funo de limiar dada na
Equao (4.2), motivado pela crena dos autores que os neurnios funcionavam de acordo
com a propriedade tudo-ou-nada. McCulloch e Pitts (1943) descrevem em seu artigo
que pela associao das unidades propostas os neurnios qualquer funo poderia
ser computada (HAYKIN, 2001). O modelo proposto apenas aceita entradas binrias e
retorna sadas binrias, usando a funo de ativao limiar binria e o mesmo peso para
todas as entradas.

(v) =

1 se v 0

0 se v < 0

(4.2)

4.2 Modelo Matemtico

48

As funes de ativao mais utilizadas so mostradas na Figura 4.3.


(a)

(b)

(c)

Figura 4.3: (a) Funo de limiar. (b) Funo linear por partes. (c) Funo sigmide.
(KOSTEK, 2005)
A funo sigmide uma das mais utilizadas no projeto de Redes Neurais Artificiais,
definida da Equao (4.3), onde ajusta a curva da funo entre 0 e 1. Esta funo
no-linear e diferencivel. Como o clculo do erro do algoritmo de aprendizado backpropagation requer para a regra delta uma funo diferencivel, a funo de ativao
sigmide de interesse na maior parte das aplicaes (KOSTEK, 2005).

(v) =

1
1 exp(v)

(4.3)

Usando o modelo de McCulloch e Pitts (1943) e a regra de aprendizado proposta por


Hebb (1949), Rosenblatt (1962) desenvolveu o que considerado o modelo mais simples
de Rede Neural Artificial, o Perceptron. Essa rede de uma camada pode aprender, reajustando os pesos das entradas e somando-as, posteriormente aplicando uma funo de
ativao e, quando o limiar atingido, uma sada disparada. Minsky e Papert (1969) no
livro Perceptrons descreveram as limitaes do modelo proposto por Rosenblatt (1962),
que somente podia resolver problemas linearmente separveis, sendo incapaz de resolver,
por exemplo, a funo ou exclusivo (NORVIG; RUSSELL, 1995). A soluo para as
limitaes do Perceptron foi a criao das Redes Neurais de mltiplas camadas, que liga
a sada de neurnios entrada de outros, tornando o modelo mais complexo. Ainda hoje
a proposta do Perceptron utilizada nessas redes com algoritmos de aprendizado mais
sofisticados. As sees a seguir apresentam os dois modelos atualmente mais utilizados:
Redes Diretas e Redes Recorrentes.

4.2 Modelo Matemtico

4.2.1

49

Redes Diretas

Redes Neurais Diretas (tambm conhecidas como alimentadas adiante Feedfoward )


so aquelas que no possuem ciclos e se caracterizam por possur uma ou mais camadas.
O Perceptron um exemplo deste tipo de rede, contendo apenas uma camada. Em
redes com mais de uma camada, h a presena de uma camada de entrada, uma ou mais
camadas de neurnios ocultos com objetivo de extrair estatsticas de ordem elevada e uma
camada de neurnios de sada. Esta topologia permite que, apesar de sua conectividade
local, a rede assuma uma perspectiva global, sendo especialmente interessante quando a
camada de entrada possui muitas fontes (HAYKIN, 2001). A Figura 4.4 mostra uma Rede
Direta totalmente conectada. Estas redes utilizadas devido aos mtodos de aprendizado
fceis de utilizar desenvolvidos para a topologia e pelo fato de conseguirem aproximar
com maior ou menor preciso, dependendo do nmero de neurnios, funes no lineares
(BARRETO, 1997).

Camada de
Entrada

Camada de
neurnios ocultos

Camada de
Sada

Figura 4.4: Rede Direta com uma camada oculta (HAYKIN, 2001)

4.2.2

Redes Recorrentes

Redes Neurais Recorrentes (retroalimentadas feedback ) so redes dinmicas que


possuem ao menos um lao de realimentao e neurnios dinmicos contendo retardos.
Redes de Hopfield so um exemplo deste tipo de rede (BARRETO, 1997). De modo
geral, o sinal de sada da RNA depende no somente dos sinais de entrada, mas de todo
o histrico de excitaes da rede, tendo um grande impacto no processo de aprendizagem

4.3 Aprendizado

50

da rede. A Figura 4.5 mostra um modelo de Rede Neural Articial recorrente.

Sadas

Unidades
de delay
Entradas

Figura 4.5: Rede Recorrente (HAYKIN, 2001)

4.3

Aprendizado

A propriedade considerada mais importante das RNAs sua capacidade de aprender


com exemplos do ambiente e melhorar seu desempenho. O desempenho da rede melhora
atravs do tempo num processo interativo de ajustes dos seus pesos sinpticos (HAYKIN,
2001).
Quanto a sua relao com o mundo externo, as RNAs podem ter seus algoritmos de
aprendizado classificados em dois paradigmas.
O aprendizado supervisionado quando um professor assume a tarefa de indicar se
um comportamento da rede bom ou ruim (BARRETO, 1997). Rosenblatt (1962) usou
deste principio no Perceptron, que simulava de forma rstica a retina humana, apresentando exemplos para a rede e introduzindo a correo. Atualmente muito comum o
uso desse paradigma de aprendizado quando se tem um mapeamento entrada-sada previamente definido, utilizado para treinar a rede atravs da correo de erro para realizar
determinada funo. J o aprendizado no-supervisionado, ou auto-organizado, no precisa da resposta da rede para realizar alterao nos pesos sinpticos. Este tipo de rede
funciona tipicamente agrupando sinais semelhantes em classes, em um processo muitas
vezes chamado de clusterizao.
Sendo o aprendizado das RNAs baseado no processo de ajuste dos pesos sinpticos
da rede, quando no se sabe quais valores os pesos devem assumir para desempenhar

4.3 Aprendizado

51

determinada tarefa, faz-se uso de um algoritmo de aprendizagem.


A lei de Hebb reconhecida como a mais antiga de todas as regras de aprendizagem.
No livro The Organization of Behavior, Hebb (1949) props um modelo de aprendizado
local, que ocorre alterando-se as intensidades das conexes sinpticas. Quando dois neurnios disparam simultaneamente, a conexo entre eles fica mais forte (HEBB, 1949). A lei
de Hebb utiliza apenas informaes locais da sinapse para alterar o valor de uma conexo sinptica. (BARRETO, 1997). A Equao (4.4) mostra como o ajuste das conexes
sinpticas realizado.

wkj = yk xj

(4.4)

onde wkj representa a conexo entre os neurnios k e j, wkj o acrscimo da intensidade da conexo wkj , a taxa de aprendizado, xj o estado de ativao do neurnio j e
yk a sada do neurnio k.
Ao mesmo tempo em que Rosenblatt trabalhava no Perceptron, Widrow e Hoff (1960)
desenvolviam um modelo de neurnio linear muito simples chamado de ADALINE (ADAptative LINear Element), e mais tarde a rede multidimensional MADALINE (Mltipla
ADALINE). Mas a grande contribuio de Widrow e Hoff foi o desenvolvimento de uma
regra de aprendizado mais complexa, denominada Regra Delta. A Regra Delta busca
obter um ponto mnimo utilizando um exemplo do conjunto de treinamento por vez em
um processo de iterao local. A Regra Delta dada pela Equao (4.5).

wkj = ek xj

(4.5)

onde ek dado por ek = dk yk , sendo dk a resposta desejada e yk o sinal de sada


obtido. A Regra Delta minimiza o erro mdio quadrtico correspondente a um exemplo
p (BARRETO, 1997), como mostra a Equao (4.6).

Ep =

1X
(dpk yppk )2
2 k

(4.6)

A Regra Delta apresenta a limitao de se aplicar somente redes com duas camadas de neurnios, limitao superada pelo algoritmo Backpropagation desenvolvido por
Rumelhart, Hinton e Williams (1986), aplicado em redes mais complexas. Apresenta-se

4.4 Consideraes

52

rede um exemplo, obtendo-se um valor de erro comparando-se a sada y da rede com a


com a sada desejada d proposta do conjunto de treinamento. Calcula-se o gradiente do
erro com relao aos valores sinpticos da camada de sada que ento atualizada por um
passo escolhido, possibilitando calcular o erro da sada da penltima camada, e assim por
diante, propagando para trs o erro. O processo se repete at que o erro seja menor que
um limiar desejado ou que uma condio de parada seja atingida (BARRETO, 1997).

4.4

Consideraes

Este captulo apresentou uma introduo a Redes Neurais Artificiais. Para o projeto
proposto, o uso de uma RNA mostra-se interessante, visto que apresentando-se dados na
fase de treinanmento, a rede capas de descobrir padres presentes nos dados e aprender, sendo capaz de classificar novos dados. No catulo seguinte o modeledo de sistema
proposto utilizando Redes Neurais e os vetores de caractersticas estudados no Captulo
3 ser apresentado.

53

5 Sistema Proposto
Este captulo apresenta uma proposta para o sistema de classificao automtica de
udio baseado em extrao de caractersticas. Nas sees seguintes sero definidos o
escopo e a arquitetura do sistema, as linguagens e bibliotecas utilizadas e detalhamentos
no processo de desenvolvimento dos algoritmos de extrao de caractersticas.
Extrao de
Caractersticas
(MFCC, MPEG-7)

Rede Neural
Articial

(b)

(c)

(a)

(d)

Figura 5.1: Sistema proposto. (a) Banco de sons. (b) Extrao de caractersticas. (c)
Classificao. (d) Sons classificados.
A Figura 5.1 define a arquitetura do sistema proposto, que dividida em 4 partes
principais: criar um banco de sons de instrumentos musicais, extrao de caracterticas,
sistema de classificao e sons classificados.
Para a etapa de extrao de caractersticas proposta a realizao de testes utilizando
dois vetores de caractersticas diferentes, os Coeficientes Mel-Cepstrais e os descritores de
timbre do MPEG-7, abordados no Captulo 3.
No sistema de classificao, utiliza-se uma Rede Neural Artificial direta, utilizando-se
na camada de entrada a quantidade de ns referente ao tabalho dos vetores de caractersticas gerados, a camada de sada contendo a quantidade de ns referente a quantidade
de classes definidas no Captulo 6 e uma camada oculta que definida atravs de testes
documentados no Captulo 6. A taxa de aprendizado utilizada de 0.1 com uma taxa de
atualizao de 1, ou seja, mantendo sempre a mesma taxa de aprendizado, sendo treinada

5.1 Linguagens e Bibliotecas

54

durante 70 pocas.
Para o escopo desse projeto, escolheu-se utilizar sons de instrumentos musicais percussivos, os quais sero descritos com mais detalhes no Captulo 6.

5.1

Linguagens e Bibliotecas

Nesta seo se encontra uma breve introduo sobre a linguagem Python e o sistema
de plugins Vamp utilizados no desenvolvimento do projeto.

5.1.1

Python

Python uma linguagem dinmica de auto nvel, multi-paradigmas, interpretada e


intuitiva, utilizada em vrios domnios de aplicao. Sua popularidade deve-se principalmente a sua sintaxe limpa e legvel, o que torna a linguagem de fcil utilizao possibilitando o rpido desenvolvimento de aplicaes e prottipos. Por ser escrita em C,
possibilita a fcil integrao com bibliotecas escritas nesta linguagem para obter melhor
desempenho. Possui verses para as plataformas JVM e .NET atravs dos projetos Jython
e IronPython (ROSSUM, 2009).
A linguagem recebe grande ateno da comunidade cientfica. Atravs de projetos
como NumPy, SciPy e Matplotlib, fornece uma coleo de bibliotecas e ferramentas de
cdigo aberto para computao cientfica nos mais diversos domnios.

5.1.2

NumPy, SciPy e Matplotlib

Aproveitando a popularidade e a facilidade em se escrever programas com a linguagem


Python, criou-se uma comunidade cientfica para aproveitar os recursos da linguagem em
tarefas de computao cientfica.
SciPy uma biblioteca open-source para matemtica, cincia e engenharia. Essa biblioteca depende do projeto NumPy, que prov funes para processamento de vetores
n-dimensionais para computao numrica. NumPy tem por base cdigos implementados em C e Fortran, o que torna sua execuo rpida mesmo quando encapsulada em
uma linguagem interpretada como o Python. Esses mdulos em conjunto fornecem as

5.1 Linguagens e Bibliotecas

55

ferramentas necessrias para se trabalhar com vetores, realizar processamento de sinais


utlizando-se a Transformada de Fourier, Transformada de Cosceno e Convoluo (SCIPY,
2010).
Matplotlib outro pacote que fornece ferramentas teis, podendo gerar visualizaes
grficas dos sinais que esto sendo analisados. Junto SciPy e NumPy, a distribuio
dessas ferramentas chamada de PyLab, e tentam fornecer as mesmas ferramentas que o
produto comercial Matlab fornece (MATPLOTLIB, 2010).

5.1.3

PyBrain

PyBrain uma biblioteca com diversas implementaes de algoritmos de aprendizado de mquina desenvolvida em Python, para aplicaes cientficas e comerciais, tendo
como base de implementao o projeto SciPy. Essas tecnologias foram escolhidas para sua
implementao devido a reduo do tempo necessrio para desenvolver aplicaes em comparao com linguagens como C++ e Java. A biblioteca foi desenvolvida para suportar
uma configurao composicional, com a inteno de conectar vrios tipos de arquitetura
e algoritmos, e fornece algoritmos para aprendizado supervisionado, no supervisionado e
aprendizado por reforo, bem como otimizaes black-box e multi-objetiva (SCHAUL et
al., 2010).
Neste trabalho, PyBrain utilizada para modelar a Rede Neural Artificial. A arquitetura da rede escolhida feedforward com o algoritmo de aprendizado Backpropagation,
devido a facilidade de sua implementao e a grande quantidade de material bibliogrfico
disponvel.

5.1.4

Vamp Plugins

Vamp um sistema de processamento de sinais de udio baseado em plugins para


realizar tarefas de extrao de caractersticas. Assim como sistemas de hospedagem de
plugins de efeitos sonoros VST (Virtual Studio Technology), plugins Vamp so mdulos
que so carregados por um servidor hospedeiro, escritos em C, C++ ou Python. Porm,
diferente dos plugins VST, um plugin Vamp no gera um sinal modificado por um efeito
ou filtro, mas sim, dados simblicos sobre o sinal analisado. Outra diferena fundamental
que o servidor Vamp no projetado para realizar processamento em tempo real, pos-

5.1 Linguagens e Bibliotecas

56

suindo uma fila onde os sinais a serem processados ficam aguardando at a liberao do
sistema.
Este sistema foi escolhido por integrar em um nico ambiente diferentes bibliotecas
de processamento na forma de plugins, bem como facilitar a visualizao de dados atravs
da aplicao Sonic Visualizer e anotao das caractersticas extradas dos sinais atravs
do programa Sonic Annotator (MARY, 2007).
O sistema tambm possui suporte a plugins escritos em Python atravs do VamPy,
que atua como uma ponte entre o host Vamp e os scripts, traduzindo chamadas de funes
do host em chamas do Python.
O host Vamp responsvel por realizar o pr-processamento do sinal. Nesse passo
esto inclusos o janelamento do sinal e a transformao do sinal em domnio do tempo
para domnio de frequncia quando este for requisitado por um Plugin.
A Figura 5.2 mostra o diagrama esquemtico de funcionamento do sistema. Os plugins
so executados por um programa hospedeiro, recebendo sinais de udio como entrada,
realizando a extrao de caractersticas e disponibilizando como sada estruturas de dados
contendo informaes sobre o sinal processado.

Figura 5.2: Viso geral do sistema Vamp (MARY, 2007)

5.1 Linguagens e Bibliotecas

57

A. Scripts Vampy
Os plugins escritos para a plataforma Vamp devem seguir o padro especificado. Os
mtodos mais importantes a serem implementados so detalhados a seguir.
Alguns mtodos so necessrios para indicar informaes sobre o plugin e inicializ-lo.
O mtodo initialize chamado pelo host para configurar o plugin, indicando propriedades
como nmero de canais, o tamanho dos blocos a serem janelados e o passo de janelando
do host.
Os mtodos getIdentifier , getDescription, getName so responsveis por indicar
ao host informaes utilizadas para identificar e descrever o plugin, fornecendo respectivamente um id nico, a descrio e o nome do plugin. O mtodo getInputDomain indica
ao host o domnio do sinal a ser processado, podendo ser em domnio do tempo ou da
frequncia. O mtodo getOutputDescriptors fornece informaes sobre o padro das
informaes retornadas pelo plugin aps o processamento.
A maior parte da computao realizada por um plugin Vamp feita atravs da chamada do mtodo process. Esse mtodo recebe como parmetro uma lista, onde cada
elemento um canal do sinal de udio. O tipo de elemento que esta lista contm depende
que tipo de sinal (tempo ou frequncia) requerido pelo plugin. Para cada janela do
sinal, uma chamada desse mtodo realizada, retornando os resultados da computao
realizada.
Muitas vezes necessrio realizar um ps-processamento do sinal. O mtodo getRemainginFeatures, que o ltimo mtodo a ser chamado, responsvel por esta funo.
Ele segue o mesmo pado especificado pelo mtodo process (VAMPY, 2010).

B. Sonic Annotator
Sonic Annotator uma aplicao de linha de comando para realizar extrao de
caractersticas em um conjunto de arquivos de udio, nos formatos MP3, Ogg, WAV,
AIFF, entre outros. Ele funciona como um host Vamp, aceitando plugins implementados
de acordo com as especificaes, gravando as caractersticas extradas em formatos como
CSV e RDF. Os arquivos a serem processados no precisam ficar em um diretrio local,
podem estar em um servidor HTTP remoto. O aplicativo Sonic Annotator tambm aceita
playlists no formato .m3u, processando cada arquivo listado (CANNAM MARK LEVY;

5.2 Caractersticas Extradas

58

SUTTON, 2010).
Abaixo a lista de parmetros aceitos pelo Sonic Annotator :
sonic-anotator -l lista os plugins disponveis
sonic-annotator -d vamp:vampy:alf-mpeg7-spectral:hsc teste.wav -w csv
utiliza o plugin vamp:vampy:alf-mpeg7-spectral:hsc para realizar a extrao de caractersticas e escrever no formato csv para o arquivo de udio teste.wav
sonic-annotator -s vamp:vampy:alf-mpeg7-spectral:hsc > teste.n3 extrai
no formato rtf as propriedades do plugin vamp:vampy:alf-mpeg7-spectral:hsc, possibilitando configuraes mais refinadas para o processo de extrao de caractersticas
sonic-annotator -t teste.n3 teste.wav -w csv teste.csv utliza a sada do comando acima para indicar quais plugins devem ser utilizados e seus respectivos
parmetros para realizar a extrao de caractersticas.
A sada padro da aplicao de uma transformada no formanto CSV (Commaseparated values) Lista 5.1:
" t e s t e . wav " , 0 . 0 0 0 0 0 0 0 0 0 , 9 . 0 9 4 7 4
,0.023219954 ,9.21309
,0.046439909 ,9.09652
,0.069659863 ,9.02389
,0.092879818 ,9.13055
Algoritmos 5.1: Sada padro do Sonic Annotator em CSV
onde o primeiro elemento o nome do arquivo processado, seguido do timestamp e
por ltimo a caracterstica ou vetor de catarctersticas extrado. Este um formato de
arquivo onde os valores que armazena os dados tabelados separados por vrgulas.

5.2

Caractersticas Extradas

Nesta seo descrito o processo prtico de extrao de caractersticas. Maiores


detalhes sobre os algoritmos encontram-se nas respectivas sees no Captulo 3. Para

5.2 Caractersticas Extradas

59

padronizar o conjunto de testes, os arquivos de udio utilizados tiveram seu volume normalizado e foram convertidos para mono.

5.2.1

Extrao dos Coeficientes Mel-Cepstrais

Na literatura consultada, a quantidade de coeficientes extrados e a faixa de frequncia


levada em considerao variam respectivamente de 13 a 40 coeficientes e 0Hz a 22050Hz.
Para este trabalho, foi escolhido extrair 40 coeficientes a cada 1024 samples, na faixa
de frequncia de 0Hz a 22050Hz. Essa escolha foi realizada para que a compresso no
processo de extrao dos coeficientes no fosse grande, mantendo o vetor de coeficientes
extrados fiel ao sinal original. A Figura 5.3 mostra 40 coeficientes extrados e o respectivo
sinal ao fundo.

Figura 5.3: 40 Coefientes Mel Ceptrais

5.2.2

Descritores de Timbre MPEG-7

A extrao dos descritores de timbre espectral HSC, HSD, HSS, HSV necessitam, para
seu processamento, a estimao da frequncia fundamental f0 e a deteco dos componentes harmnicos do sinal. O padro MPEG-7 no define como este pr-processamento

5.2 Caractersticas Extradas

60

deve ser realizado. Kim et al. (2005) define os seguintes passos bsicos para a estimao
de f0 e seus harmnicos:
Extrair o espectro S(k) do sinal e ento computar o espectro de amplitude |S(k)|
Estimar a frequncia fundamental f0
Detectar os picos do espectro
Por fim, cada pico analisado para verificar se ele um harmnico

Pode-se considerar como picos harmnicos as frequncias que ficam prximas aos
mltiplos da frequncia fundamental f0 , como definido pela Equao 5.1:

fh = hf0

1 h NH

(5.1)

onde NH o nmero de picos harmnicos. Neste trabalho, escolheu-se realizar a


deteco da frequncia fundamental f0 e seus harmnicos, utilizando-se o espectro de
amplitude |S(k)| do sinal para realizar a busca por mximos locais do espectro. Essa
escolha foi feito pela simplicidade de implementao do algoritmo e pelos bons resultados
apresentados, como mostrado a seguir. A Figura 5.4 mostra o pico no espectro de
amplitude para um sinal de 1000Hz puro, sem harmnicas.

Figura 5.4: Picos para um sinal puro de 1000Hz


Essa tcnica se mostrou eficiente para sinais simples e sem rudo. A Figura 5.5 mostra
a deteco da frequncia fundamental e seus harmnicos para um sinal no puro.

5.2 Caractersticas Extradas

61

Figura 5.5: Picos para um sinal de 1000Hz contendo frequncias harmnicas


Para sinais ruidosos, esta tcnica se mostrou ineficiente, como mostra a Figura 5.6.
Porm, este um comportamento esperado, visto que sons ruidosos so formados pela
soma de vrias frequncias.

Figura 5.6: Picos para um sinal de rudo


A Figura 5.7 mostra o espectro de amplitude para a nota C6 (2096Hz), tocada pelos
instrumentos violino (a), piano (b) e flauta (c).
Pode-se perceber que cada instrumento pussui um espectro caracterstico. Deve-se
levar em conta o fato de cada instrumento possuir um mecanismo diferente para produzir
seu som, o que pode ou no favorecer o aparecimento de harmnicas e de rudo. Porm,
pode-se perceber que a frequncia fundamental est em evidncia em todos os grficos.
O espectro da flauta (c) no mostra a presena de frequncias harmnicas. J o piano
(b) apresenta seu espectro a presena de frequncias com menor amplitude, por ser um

5.3 Consideraes

62

Figura 5.7: Comparao do espectro da nota C6 para violino (a), piano (b) e flauta (c)
(KOSTEK, 2005)
instrumento que faz cordas vibrarem com impacto, essas frequncias provavelmente derivam de rudos. O violino (a) apresenta um pico de frequncia harmnica, por ser um
instrumentos de corda que ao serem executadas, geram harmnicos.
A Figura 5.8 exemplifica a extrao das caractersticas HSC, HSD, HSS e HSV para
o sinal extrado de um Obo.

5.3

Consideraes

Este captulo apresentou o sistema proposto, as tecnologias utilizadas e consideraes


importantes para a extrao das caractersticas.
O algoritmo proposto realiza a classificao de cada janela processada do sinal do
sample, utilizando os resultados para definir em qual classe o sample melhor se enquadra. Os testes utilizando-se os descritores HSC, HSD, HSS, HSV obtiveram resultados
pobres. Por este motivo, escolheu-se utilizar as caractersticas do padro MPEG-7 de
timbre extradas localmente, ou seja, para cada janela do sinal, utiliza-se os descritores

5.3 Consideraes

63

Figura 5.8: HSC, HSD, HSS e HSV resultantes da anlise do som de um Obo (KIM et
al., 2005)
LHSC, LHSD, LHSS e LHSV juntamente com os demais propostos. No foram utilizados
outros descritores do padro pois escolheu-se nesse trabalho testar apenas os descritores
de timbre.
Para o classificador, foi utilizada uma taxa de aprendizado de 0.1 com taxa de atualizao de 1, ou seja, mantendo sempre a mesma taxa de aprendizado. Para o treinamento,
o classificador foi configurado para treinar a RNA durante 70 pocas.
Definido o sistema aqui proposto, o prximo captulo trata do conjunto de udio de
testes, testes realizados e resultados obtidos.

64

6 Testes e Resultados
Neste captulo so apresentados a base de testes e testes realizados utilizando-se a
proposta definida no Captulo 5, bem como uma discusso sobre os resultados obtidos.
Os testes foram realizados utilizando-se duas abordagens. A primeira, usando apenas Coeficientes Mel-Cepstrais e a segunda apenas os descritores de timbre temporal e espectral
definidos pelo padro MPEG-7.

6.1

Conjunto de Testes

Para a validao do sistema proposto, um conjunto de testes contendo sons percussivos foi utilizado. Um som percussivo aquele gerado atravs de impactos ou agitao.
Existem muitos instrumentos que so categorizados como percussivos, exemplos so o
bumbo, tambor, chimbau, tom-tom, castanhola, etc. O som percussivo se caracteriza por
possuir um envelope temporal com ataque de curta durao, indo do silncio at a amplitude mxima em pouqussimo tempo e, na maioria das vezes, possuindo tambm uma
sustentao e decaimento muito rpido.
Para a realizao dos testes, sons dos seguintes instrumentos foram utilizados: Cuca
(5), Tringulo e Sino (37), Bongo (57), Castanhola (20), Palmas (11), Chimbau (36),
Hi-hat (18), Caixa clara (48), Baqueta (7), Pandeiro (8), Tom-tom (32).
Ao todo, 279 samples foram utilizados para os testes, coletados das bases abertas de
udio Freesound (PROJECT, 2010a) e OLPC Sample Library (PROJECT, 2010b).
O Tom-tom um tambor utilizado no conjunto bsico que compe a bateria. Existem
dois tipos bsicos, como pode-se ver na Figura 6.1. O Tom-tom da Figura 6.1(2) o
mdio, possundo um som mais grave, e o da Figura 6.1(3) o menor, com um som mais
agudo. As dimenes do instrumento no so padronizadas, por isso seu tamanho e som
produzido podem variar. Vrias configuraes de dimetro e profundidade podem ser
utilizadas. Os mais encontrados so 9 polegadas de profundidade e 12 de dimetro. Em
configuraes para tocar Jazz, muito comum encontrar o Tom-tom com 8 ou 9 polegadas
de profundidade e 12 ou 13 de dimetro.

6.1 Conjunto de Testes

65

O Chimbau (Figura 6.1(1)) e o Hi-hat (Figura 6.1(6)) so os pratos utilizados na


bateria. O Chimbau formado por apenas um prato e o Hi-hat consiste em dois pratos
montados face-a-face. Outra diferena entre o Chimbau e o Hi-hat o modo de se tocar o
instrumento. Enquando o Chimbau geralmente toca-se com a baqueta, o Hi-hat ligado
a um pedal, o qual o baterista usa para bater um prato contra o outro.
A Caixa clara um tipo de tambor cilndrico com duas peles que difere estruturalmente
de um Tom-tom por possuir menor profundidade e uma esteira de metal, constituda por
pequenas molas de arame colocadas em contato com a pele inferior, que ao vibrar pela
ressonncia produzida percutida, produzindo um som repicado (WIKIPEDIA, 2011d).

Figura 6.1: Bateria. (1) Chimbau, (2, 3) Tom-tom, (4) Bumbo, (5) Caixa clara, (6) Hi-hat
(WIKIPEDIA, 2011d)
A Cuca (Figura 6.2) um instrumento musical semelhante a um tambor, mas tem
uma haste presa ao centro da pele no lado interno. O seu som caracterstico obtido
movendo-se a haste com um pedao de tecido molhado e pressionando a parte externa
da com o dedo. Quando mais perdo do centro, mais agudo o som produzido. Este
instrumento caracterstico nas msicas do carnaval do Rio de Janeiro (WIKIPEDIA,
2011c).
Bongo (Figura 6.3) um instrumento musical composto por dois tambores unidos.
Possu formato cnico e aberto em baixo, sendo constitudo de vrios pedaos de madeira
encaixados e presos por anis metlicos, semelhante a um barril. Os tambores possuem
dimetros diferentes, fazendo com que um seja mais grave que o outro. O maior grave e
chamado de fmea, o menor agudo e chamado de macho. O tambor maior em geral tem
um dimetro de 20cm, enquanto o menor possui um dimetro de 15cm (WIKIPEDIA,

6.1 Conjunto de Testes

66

Figura 6.2: Cuca (WIKIPEDIA, 2011c)


2011a).

Figura 6.3: Bongos (WIKIPEDIA, 2011a)


Castanhola (Figura 6.4) um instrumento milenar utilizado em diversas culturas e
reconhecido pelo seu tpico no Flamenco. constitudo por dois pedaos de madeira em
formato de prato, com uma fita que colocada ao redor do dedo polegar. As castanholas
emites um som seco e oco. Nos pares de castanholas existe sempre uma que tem o som
mais agudo, dando os nomes de fmea e macho (WIKIPEDIA, 2011b).
O Pandeiro (Figura 6.5) um instrumento tpico brasileiro, porm com origem nos
tempos romanos. Seu formato mais conhecido circular, contitudo geralmente de badeixa, com o centro coberto por uma camada de pele, e um conjunto de pares de discos
metlicos ao seu redor (WIKIPEDIA, 2011e).
O Tringulo (Figura 6.6) um instrumento musical feito de ferro ou ao e seu som
obtido por percusso, atravs do movimento de um basto que bate no tringulo em

6.2 Testes

67

Figura 6.4: Castanholas (WIKIPEDIA, 2011b)

Figura 6.5: Pandeiro (WIKIPEDIA, 2011e)


sincronia com a mo do msico, determinando se o som aberto ou fechado (WIKIPEDIA,
2011f).

Figura 6.6: Tringulo (WIKIPEDIA, 2011f)

6.2

Testes

Entre os instrumentos musicais percussivos escolhidos, identificam-se instrumentos


que possuem timbres diferentes e outros parecidos. Mesmo dentro de um conjunto de sons
de um determinado instrumento, podemos verificar uma grande variao de timbres. Isso
deve-se principalmente ao fato de a maioria dos instrumentos permitir diferentes afinaes

6.2 Testes

68

e configuraes ou mesmo possurem derivaes construdas com diferentes materiais.


A Figura 6.7 mostra uma comparao do resultado da extrao dos Coeficientes MelCepstrais entre Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino.

Figura 6.7: MFCC dos intrumentos Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino
A Figura 6.8 apresenta o descritor Local Harmonic Spectral Spread dos instrumentos
Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino.

Figura 6.8: LHSS dos instrumentos Bongo, Castanhola, Hi-hat, Cuca, Tom-tom e Sino
Fazendo uma anlise dos grficos, percebe-se que os instrumentos que produzem sons
ruidosos, como o caso do Hi-hat e do Sno, produzem vetores de caracterticas igualmente
rudosos.
A Figura 6.9 mostra uma sobreposio dos coeficientes dos mesmos instrumentos.
Percebe-se que a concentrao de energia do vetor de caracterstica MFCC est nos primeiros ndices do vetor, devido a sua caracterstica de compactao do sinal. Neste trabalho foram utilizados 40 coeficientes, porm ao realizar uma anlise do grfico da Figura

6.2 Testes

69

6.9 pode-se concluir que o uso dos 30 primeiros coeficientes o suficiente para descrever o
sinal. Isso acontece pois os primeiros coeficientes so mais discriminantes, sendo os mais
significantes para descrever um sinal.

Figura 6.9: Sobreposio MFCC dos instrumentos Bongo, Castanhola, Hi-hat, Cuca,
Tom-tom e Sino
Para realizar a classificao dos dados com maior preciso, foram feitos testes para
determinar qual a melhor configurao de camadas para a RNA. Neste trabalho, a arquitetura da rede foi definida em trs camadas. A camada de entrada foi composta por um
neurnio de entrada para cada valor no vetor de caractersticas e a camada de sada com
um neurnio para cada classe de sons do conjunto de testes. A Figura 6.10 mostra o erro
mdio para a classificao de udio usando MFCC com configuraes de rede que variam
a quantidade de ns ocultos de 35 a 50 neurnios. Identificou-se atravs dos testes que
uma configurao contendo 49 neurnios ocultos produz uma taxa de erro de 16, 05%,
ou seja, 83, 95% de acerto. Estes valores podem variar em mdia 1% para mais ou para
menos.
O mesmo teste foi realizado para identificar qual a quantidade de ns ocultos gera o
melhor resultado de classificao. Na Figura 6.11 identifica-se que o erro mdio fica entre
35, 54% e 35, 45%, sendo a melhor o uso de 9 ns ocultos para classificar este vetor de
caractersticas.

6.3 Resultados

70

Figura 6.10: Comparao do erro mdio para configuraes da camada oculta da RNA
para classificao utilizando MFCC

Figura 6.11: Comparao do erro mdio para configuraes da camada oculta da RNA
para classificao utilizando descritores de timbre MPEG-7

6.3

Resultados

Ao se fazer uma anlise dos grficos das Figuras 6.10 e 6.11, pode-se concluir que o
vetor de caractersticas MFCC descreve com maior preciso sinais de udio, possuindo um
erro mdio de 16%. A classificao utilizando os descritores de timbre do padro MPEG-7
resultou em um erro mdio de 35%, mostrando-se insatisfatria. Enquanto a classificao
utilizando MFCC possui como entrada um vetor de 40 coeficientes, apenas 7 so utilizados
para a classificao utilizando os descritores de timbre do padro MPEG-7. Dessa forma,
pode-se concluir que o MFCC descreve com maior preciso sons de instrumentos musicais.
A matriz de confuso uma medida padro de avaliao de hipteses em problemas
de classificao, contendo informaes sobre o nmero de previses corretas em relao s
esperadas por um classificador (HAMILTON, 2009).

6.3 Resultados

71

As Tabelas 6.1 e 6.2 apresentam a matriz de confuso para a classificao dos samples
dos instrumentos musicais utilizando respectivamente MFCC e descritores de timbre do
padro MPEG-7. Na horizontal encontram-se as classes esperadas e na vertical as classes
reconhecidas pelo classificador.
#

Bongo

Cuca

Sno

Castanholas

Palmas

Chimbau

Hi-hat

Baqueta

Caixa clara

Pandeiro

Tom-tom

Bongo

50

Cuca

Sno

37

Castanholas

19

Palmas

Chimbau

34

Hi-hat

14

Baqueta

Caixa clara

12

31

Pandeiro

Tom-tom

23

Tabela 6.1: Matriz de Confuso para a classificao uzando MFCC


Analisando-se a Tabela 6.1, percebe-se que de 57 sons de Bongo, sete foram confundidos com Castanholas pelo classificador. O instrumento Baqueta no obteve nenhuma
classificao correta, sendo confundido pelo classificador principalmente como castanholas. Para os instrumentos Sno e Pandeiro a classificao foi 100% correta. interessante
notar que os testes foram realizados com 37 samples de Snos e apenas 8 samples de Pandeiro, mostrando que a quantidade de samples neste caso no foi um fator de influncia.
Outros instrumentos obtiveram resultados bons, como Castanholas, Bongo, Chimbau,
Hi-hat, Caixa clara e Tom-tom.
#

Bongo

Cuca

Sno

Castanholas

Palmas

Chimbau

Hi-hat

Baqueta

Caixa clara

Pandeiro

Tom-tom

Bongo

22

31

Cuca

Snos

32

Castanholas

10

Palmas

Chimbau

24

Hi-hat

15

Baqueta

Caixa-clara

13

15

12

Pandeiro

Tom-tom

10

14

Tabela 6.2: Matriz de Confuso para a classificao uzando descritores de timbre MPEG-7
A matriz de confuso da Tabela 6.2 mostra que para a classificao utilizando os
descritores de timbre MPEG-7 a classificao dos instrumentos no foi satisfatria. Pode-

6.4 Consideraes

72

se perceber uma concentrao de classificaes erradas de intrumentos sendo identificados


como Snos.

6.4

Consideraes

Atravs da anlise dos testes realizados e resultados obtidos apresentados neste captulo, o vetor de caractersticas dos Coeficientes Mel-Cepstrais mostrou-se mais eficiente
para descrever o timbre de um instrumento musical em comparao aos descritores de
timbre temporal e espectral propostos pelo padro MPEG-7. Os resultados obtidos foram
satisfatrios para o MFCC, com mdia de acerto de 84% na classificao, contra 65% dos
descritores de timbre do padro MPEG-7.

73

7 Consideraes Finais
Neste trabalho foi realizado o estudo sobre algoritmos utlizados na extrao de caractersticas de udio a fim de caracterizar o timbre de instrumentos musicais, bem como
uma reviso sobre Redes Neurais Articiais, para implementao do sistema de classificao
proposto.
O timbre uma caracterstica psicoacstica utilizada para descrever sons, percebido
atravs de um processo cognitivo muito complexo que acontece atravs da interpretao
dos sons pelo crebro humano, no existindo uma forma simples de represent-lo. Por
este motivo, a utilizao de Redes Neurais Artificiais para o processo e classificao dos
sons interessante, pois delega-se para a rede a tarefa de descobrir relaes entre os sons
e classific-los.
A classificao de sinais de udio mostrou-se uma tarefa desafiadora. Aps realizar os
estudos sobre extrao de caractersticas de udio, constatou-se que os modelos estudados
so capazes de descrever o som de um instrumento musical. O escopo do conjunto de
testes selecionado para o desenvolvimento do sistema ficou restrito a sons de instrumentos
percussivos, a fim de validar a proposta com um conjunto de testes reduzido, podendo ser
estendido a outros tipos de sons em trabalhos futuros.
O trabalho aqui realizado teve por objetivo realizar a classificao de sons de instrumentos musicais de acordo com o seu timbre. Os resultados obtidos mostram que para este
propsito os Coeficientes Mel-Cepstrais so mais eficientes do que os descritores de timbre
espectrais e temporais do padro MPEG-7. Porm, pode-se considerar que isso deve-se ao
uso de apenas um sub-conjunto de descritores propostos pelo padro, resultando em um
vetor de caractersticas reduzido. Isso mostra que o uso isolado de descritores de timbre
do padro MPEG-7 no eficiente para descrever sons de instrumentos musicais. Dessa
forma mostra-se interessante investigar a utilizao dos demais descritores propostos pelo
padro e seu efeito na qualidade de classificao.
Apesar dos bons resultados obtidos com o uso de MFCC, sugere-se como trabalho
futuro um estudo mais aprofundado sobre os descritores de udio MPEG-7, utilizandose um conjunto maior de descritores a fim de melhorar os resultados da classificao

7 Consideraes Finais

74

utilizando-se esse vetor de caractersticas. Outra melhoria a ser feita referente ao padro
MPEG-7 estudar outros algoritmos para melhorar a deteco da frequncia fundamental
e seus harmnicos, os quais so importantes para a extrao dos descritores estudados.
Este trabalho apresentou uma abordagem de aprendizado supervisionado para a classificao dos sons de instrumentos musicais. Porm, dessa forma faz-se necessrio a presena
de um conjunto de treinamento prviamente conhecido para realizar-se o treinamento do
algoritmo. Essa abordagem mostra-se limitada quando aplicada a classificao de um conjunto amplo de sons de instrumentos musicais, os quais possuem uma grande variedade
de timbres. Para melhorar o processo de classificao, sugere-se como trabalho futuro o
estudo de algoritmos de aprendizado no supervisionado.
Por fim, sugere-se refinamento da proposta no sentido de melhorar o desempenho
computacional do sistema. A implementao do processo de extrao de caractersticas
com as tecnologias utilizadas facilitou o desenvolvimento rpido de um prottipo para
testes, mas em contra partida o processo de extrao de caractersticas e treinamento do
algoritmo ficaram lentos.

Referncias Bibliogrficas
BARRETO, J. M. Inteligncia Artificial no limiar do sculo XXI. Forianpolis: Duplic,
1997.
BENSON, D. Music: A mathematical offering. Scotland, UK: [s.n.], 2008. Disponvel em:
<http://www.maths.abdn.ac.uk/bensondj/>.
BRENT, W. Physical and Perceptual Aspects of Percussive Timbre. Tese (Doutorado)
University of California, 2010.
CANNAM MARK LEVY, I. K. C.; SUTTON, C. Sonic Annotator. 2010. Disponvel em:
<www.omras2.org/files/runner.pdf>. Acesso em: 18/05/2011.
CARDOSO, D. P. Identificao de locutor usando modelos de mistura de gaussianas.
Dissertao (Mestrado) Universidade de So Paulo, So Paulo, SP, 2009.
CASEY, M. A. et al. Content-based music information retrieval: Current directions and
future challenge. Proceedings of the IEEE, v. 96, n. 4, p. 668696, April 2008.
COOLEY, J. W.; TUKEY, J. W. An algorithm for the machine calculation of complex
fourier series. Mathematics of computation, American Mathematical Society, v. 19, n. 90,
p. 297301, 1965.
DAMATO, A. Ficheiro:Dandelion clock quarter dft dct.png. 2006. Disponvel em:
<http://pt.wikipedia.org/wiki/Ficheiro:Dandelion clock quarter dft dct.png>. Acesso
em: 18/10/10.
DAVY, M.; GODSILL, S. Audio Information Retrieval: A Bibliographical Study. [S.l.],
2002.
DESHPANDE, H.; SINGH, R.; NAM, U. Classification of music signals in the visual
domain. In: Proceedings of the COST-G6 Conference on Digital Audio Effects. [S.l.:
s.n.], 2001.
EVEREST, F. A. Fundamentals of Sound. [S.l.]: Howard W. Sams & Co., 1987. 322 p.

REFERNCIAS BIBLIOGRFICAS

76

FEITEN, B.; GNZEL, S. Automatic indexing of a sound database using self-organizing


neural nets. Computer Music Journal, MIT Press, v. 18, n. 3, p. 5365, 1994.
FONSECA, M. S. Combinando Imagem e Som para Deteco de Transies em Vdeos
Digitais. Dissertao (Mestrado) Universidade Federal Fluminense, Niteri, 2006.
FOOTE, J. An overview of audio information retrieval. Multimedia Systems, Springer
Berlin / Heidelberg, v. 7, p. 210, 1999. ISSN 0942-4962. 10.1007/s005300050106.
Disponvel em: <http://dx.doi.org/10.1007/s005300050106>.
FOOTE, J. T. Content-based retrieval of music and audio. In: KUO, C.-C. J.; CHANG,
S.-F.; GUDIVADA, V. N. (Ed.). [S.l.]: SPIE, 1997. v. 3229, n. 1, p. 138147.
HAMILTON, H. Confusion Matrix. 2009. Disponvel em: <http://www2.cs.uregina.ca/dbd/cs831/notes/confusion matrix/confusion matrix.html>. Acesso em: 09/06/2011.
HAYKIN, S. Redes Neurais: Princpios e prtica. 2. ed. Porto Alegre: Bookman, 2001.
HEBB, D. The Organization of Behavior. New York: John Wiley & Sons, Ltd, 1949.
HERRERA, P.; YETERIAN, A.; GOUYON, F. Automatic classification of drum sounds:
a comparison of feature selection methods and classification techniques. Music and
Artificial Intelligence, Springer, p. 6980, 2002.
JENSEN, J.; CHRISTENSEN, M.; ELLIS, D.; JENSEN, S. Quantitative analysis of
a common audio similarity measure. Audio, Speech, and Language Processing, IEEE
Transactions on, v. 17, n. 4, p. 693703, May 2009.
JURAFSKY, D. Lecture 9: Feature Extraction and start of Acoustic Modeling (VQ).
2009. Disponvel em: <http://www.stanford.edu/class/cs224s/>. Acesso em: 18/10/10.
KEFAUVER, A. P.; PATSCHKE, D. Fundamentals of Digital Audio. [S.l.]: A-R Editions,
2007. 2344 p.
KIM, H.-G.; MOREAU, N.; SIKORA, T. MPEG-7 audio and beyond: Audio content
indexing and retrieval. England, UK: John Wiley & Sons, Ltd, 2005.
KOSTEK, B. Intelligent musical instrument sound classification. In: KOSTEK, B.
(Ed.). Perception-Based Data Processing in Acoustics. [S.l.]: Springer, 2005, (Studies in
Computational Intelligence, v. 3). p. 39186.

REFERNCIAS BIBLIOGRFICAS

77

KREIDLER, J. Programming Electronic Music in Pd. [S.l.]: Wolke Verlagsges, 2009.


LOGAN, B. Mel frequency cepstral coefficients for music modeling. In: BYRD, D.
(Ed.). International Symposium on Music Information Retrieval (ISMIR) Proceedings.
Plymouth, Massachusetts, USA: [s.n.], 2000. v. 28.
MAFRA, A. T. Reconhecimento automtico de locutor em modo independente de texto
por Self-Organizing Maps. Tese (Doutorado) USP, 2002.
MALLORCA, P. de. MPEG-7 Overview. 10. ed. [S.l.], October 2004. Disponvel em:
<http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm>.
MARTNEZ, J. M. Mpeg-7 overview of mpeg-7 description tools, part 2. IEEE
Multimedia, v. 9, n. 3, p. 8393, 2002.
MARY, C. for D. M. Q. The Vamp audio analysis plugin system. 2007. Disponvel em:
<http://vamp-plugins.org>. Acesso em: 03/11/2010.
MATPLOTLIB. matplotlib. 2010. Disponvel em: <http://matplotlib.sourceforge.net>.
Acesso em: 18/05/2011.
MCADAMS, S. Perspectives on the contribution of timbre to musical structure.
Computer Music Journal, v. 23, n. 3, p. 85102, 1999. Disponvel em: <http://www.mitpressjournals.org/doi/abs/10.1162/014892699559797>.
MCCULLOCH, W.; PITTS, W. A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biology, Springer New York, v. 5, p. 115133, 1943.
ISSN 0092-8240. 10.1007/BF02478259. Disponvel em: <http://dx.doi.org/10.1007/BF02478259>.
MINSKY, M. L.; PAPERT, S. Perceptrons: An Introduction to Computational Geometry.
[S.l.]: MIT Press, 1969.
NIEWIADOMY, D.; PELIKANT, A. Implementation of mfcc vector generation in
classification context. Journal of Applied Computer Science, v. 16, n. 2, p. 5565, 2008.
NORVIG, P.; RUSSELL, S. Artificial Intelligence: A Modern Approach. Englewood
Cliffs, NJ: Prentice Hall Series, 1995.
OPPENHEIM, A. V.; SCHAFER, R. W.; BUCK, J. R. Discrete-Time Signal Processing.
2. ed. [S.l.]: Prentice Hall, 1998.

REFERNCIAS BIBLIOGRFICAS

78

PROJECT, F. Freesound. 2010. Disponvel em: <www.freesound.org/>. Acesso em:


18/05/2011.
PROJECT, O. L. P. C. The Open Path Music Custom Sample Library for OLPC. 2010.
Disponvel em: <wiki.laptop.org/go/Free sound samples>. Acesso em: 18/05/2011.
RESENDE, A. C.; BARBIELLINI, D. A.; ARAUJO, L. C. de; PEREIRA, L. M.
MPEG-7: Multimedia Conent Descrition Interface. 2009. Disponvel em: <http://www.cefala.org/leoca/mpeg7/>.
ROADS, C. The computer music tutorial. [S.l.]: The MIT Press, 1996. ISBN 0262680823.
ROSENBLATT, F. Principles of neurodynamics: Perceptrons and the theory of brain
mechanisms. Washington, DC: Spartan Books, 1962.
ROSSUM, G. V. The Python Language Reference: Release 2.6.4. Python Software
Foundation, 2009.
SCHAUL, T. et al. Pybrain. The Journal of Machine Learning Research, MIT Press,
v. 11, p. 743746, 2010.
SCHMIDT, R. Digital Signals: Sampling and Quantization. 2008. Disponvel em:
<http://www.rs-met.com/documents/tutorials/DigitalSignals.pdf>. Acesso em:
13/09/10.
SCIPY. SciPy. 2010. Disponvel em: <http://www.scipy.org/>. Acesso em: 18/05/2011.
SMITH, J. O. Mathematics of the Discrete Fourier Transform (DFT) with Audio
Applications. 2008. Disponvel em: <https://ccrma.stanford.edu/jos/mdft/mdft.html>.
Acesso em: 10/10/10.
SMITH, S. W. The Scientist and Engineers Guide to Digital Signal Processing. California
Technical Pub., 1997. ISSN 0-7506-7444-X. Disponvel em: <http://www.dspguide.com>.
Acesso em: 08/10/10.
SOUNDFISHER. The future of audio search technology has arrived. 2001. Disponvel
em: <http://www.soundfisher.com>. Acesso em: 05/08/10.
STEIGLITZ, K. A Digital Signal Primer: with Aplications to Digital Audio and
Computer Music. [S.l.]: Addison-Wesley Publishing Company, 1995.

REFERNCIAS BIBLIOGRFICAS

79

STEVENS, S.; VOLKMANN, J.; NEWMAN, E. A scale for the measurement of the
psychological magnitude pitch. The Journal of the Acoustical Society of America, v. 8,
p. 185, 1937.
SUBRAMANIAN, H. Audio Signal Classification. [S.l.], November 2004.
TEAM, A. Audacity Manual: Digital Audio. 2009. Disponvel em: <http://audacity.sourceforge.net/manual-1.2/tutorial basics 1.html>. Acesso em: 13/09/10.
TZANETAKIS, G. Manipulation, analysis and retrieval systems for audio signals. Tese
(Doutorado) Princeton University, Princeton, NJ, 2002.
TZANETAKIS, G.; COOK, P. Audio information retrieval (air) tools. In: BYRD, D.
(Ed.). International Symposium on Music Information Retrieval (ISMIR) Proceedings.
Plymouth, Massachusetts, USA: [s.n.], 2000.
TZANETAKIS, G.; COOK, P. Musical genre classification of audio signals. Speech and
Audio Processing, IEEE Transactions on, v. 10, n. 5, p. 293 302, July 2002.
VAMPY. VamPy. 2010. Disponvel em: <http://www.vamp-plugins.org/vampy.html>.
Acesso em: 18/05/2011.
WIKIPEDIA. Bongos. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Bongo drum>. Acesso em: 18/05/2011.
WIKIPEDIA. Castanholas. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Castanets>. Acesso em: 18/05/2011.
WIKIPEDIA. Cuca. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Cuca>.
Acesso em: 18/05/2011.
WIKIPEDIA. Drum Kit. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Drum kit>. Acesso em: 18/05/2011.
WIKIPEDIA. Pandeiro. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Tambourine>. Acesso em: 18/05/2011.
WIKIPEDIA. Triangulo. 2011. Disponvel em: <http://en.wikipedia.org/wiki/Triangle (instrument)>. Acesso em: 18/05/2011.

REFERNCIAS BIBLIOGRFICAS
WILSON, S. WAVE PCM soundfile format. 2003. Disponvel em: <https://ccrma.stanford.edu/courses/422/projects/WaveFormat/>. Acesso em: 30/10/10.
WOLD, E.; BLUM, T.; KEISLAR, D.; WHEATEN, J. Content-based classification,
search, and retrieval of audio. Multimedia, IEEE, IEEE, v. 3, n. 3, p. 2736, 1996.

80