Você está na página 1de 204

COPPE/UFRJ

CLASSIFICACAO DE INSTRUMENTOS MUSICAIS EM CONFIGURACOES


MONOFONICAS E POLIFONICAS

Jorge Costa Pires Filho

Dissertacao de Mestrado apresentada ao


Programa de Pos-graduacao em Engenharia
Eletrica, COPPE, da Universidade Federal
do Rio de Janeiro, como parte dos requisitos
necessarios a obtencao do ttulo de Mestre
em Engenharia Eletrica.

Orientadora: Mariane Rembold Petraglia

Rio de Janeiro
Setembro de 2009
CLASSIFICACAO DE INSTRUMENTOS MUSICAIS EM CONFIGURACOES
MONOFONICAS E POLIFONICAS

Jorge Costa Pires Filho

DISSERTACAO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO


ALBERTO LUIZ COIMBRA DE POS-GRADUACAO E PESQUISA DE
ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE
JANEIRO COMO PARTE DOS REQUISITOS NECESSARIOS PARA A
OBTENCAO DO GRAU DE MESTRE EM CIENCIAS EM ENGENHARIA
ELETRICA.

Aprovada por:

Prof. Mariane Rembold Petraglia, Ph.D.

Prof. Luiz Pereira Caloba, D.Sc.

Dr. Sergio Rodrigues Neves, D.Sc.

RIO DE JANEIRO, RJ BRASIL


SETEMBRO DE 2009
Pires Filho, Jorge Costa
Classificacao de Instrumentos Musicais em
Configuracoes Monofonicas e Polifonicas/Jorge Costa
Pires Filho. Rio de Janeiro: UFRJ/COPPE, 2009.
XIV, 190 p. 29, 7cm.
Orientadora: Mariane Rembold Petraglia
Dissertacao (mestrado) UFRJ/COPPE/Programa de
Engenharia Eletrica, 2009.
Referencias Bibliograficas: p. 169 174.
1. Classificacao de Instrumentos. 2. Separacao de
Fontes. 3. Processamento Digital de Sinais. I. Petraglia,
Mariane Rembold. II. Universidade Federal do Rio de
Janeiro, COPPE, Programa de Engenharia Eletrica. III.
Ttulo.

iii
Aos meus pais, Jorge e Diva, a
minha esposa, Ellen, e ao meu
filho,
Rodrigo.

iv
Agradecimentos

Agradeco a todas as pessoas que possibilitaram a elaboracao deste trabalho: meus


pais, minha esposa e meu filho, pelo suporte pessoal e compreensao pelas horas
que lhes foram roubadas; a minha orientadora Mariane Rembold Petraglia pela ins-
piracao e confianca; aos meus amigos Diego Barreto Haddad pelo apoio irrestrito e
exemplo e Sergio Rodrigues Neves pela ajuda e incentivo, sem os quais nao teria rea-
lizado a dissertacao; ao Laboratorio de Processamento de Sinais - LPS, que garantiu
a aquisicao de duas das tres bases de dados usadas nessa dissertacao, em especial
aos Profs. Luiz Wagner Pereira Biscainho e Paulo Antonio Andrade Esquef; ao la-
boratorio de Processamento Analogico e Digital de Sinais - PADS e ao Instituto de
Pesquisas da Marinha - IPqM, em particular ao Capitao-de-Fragata Jorge Amaral
Alves do Grupo de Guerra Eletronica, pelo grande apoio que me foi concedido.

v
Resumo da Dissertacao apresentada a COPPE/UFRJ como parte dos requisitos
necessarios para a obtencao do grau de Mestre em Ciencias (M.Sc.)

CLASSIFICACAO DE INSTRUMENTOS MUSICAIS EM CONFIGURACOES


MONOFONICAS E POLIFONICAS

Jorge Costa Pires Filho

Setembro/2009

Orientadora: Mariane Rembold Petraglia

Programa: Engenharia Eletrica

Este trabalho apresenta um conjunto de tecnicas para extracao e classificacao de


caractersticas de sinais de audio provenientes de gravacoes musicais visando reco-
nhecer o tipo de fonte geradora, ou seja, o instrumento musical. Mesclando aspectos
teoricos e praticos, discute-se e afere-se o desempenho das tecnicas correntes e sao
propostas contribuicoes para melhorar a capacidade de discriminacao dos sinais. Sao
abordados classificadores como maquinas de vetor suporte, discriminantes lineares,
K -vizinhos mais proximos, e algumas tecnicas de extracao de caractersticas como
coeficientes de predicao linear, frequencias de linhas espectrais e coeficientes ceps-
trais. E mostrado um estudo de classificacao hierarquica assim como comparacoes
com outros trabalhos. Por fim, apresenta-se propostas para classificacao dos instru-
mentos musicais de gravacoes polifonicas e monofonicas com o uso de algortimos de
separacao de fontes.

vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)

CLASSIFICATION OF MUSICAL INSTRUMENTS IN MONOPHONIC AND


POLYPHONIC CONFIGURATIONS

Jorge Costa Pires Filho

September/2009

Advisor: Mariane Rembold Petraglia

Department: Electrical Engineering

This work presents a set of techniques for extraction of features and classifica-
tion of audio signals from recorded music, aiming at recognizing the source, i.e., the
musical instrument. Mixing theoretical and practical aspects, the performance of
current techniques is evaluated, and contributions are proposed for improving the
signal discrimination. Within the scope of the dissertation, classification techniques
such as Support Vector Machine, Linear Discrimination and K -Nearest-Neighbors
as well as techniques for feature extraction such as Linear Prediction coefficients,
Line Spectral Frequencies and Cepstral Coefficients are discussed. A preliminary
study on a hierarchic classification is shown and compared against other methods
presented in the literature. At last, applications of techniques for musical instru-
ments classification with algorithms for sources separation from polyphonic and
monophonic signals are proposed.

vii
Sumrio

Lista de Abreviaturas xiii

I Introduo 1
1 Apresentao 2
1.1 Tema e Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Objetivo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Abordagens da Literatura . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Organizao do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Instrumentos Musicais e suas Classicaes Hierrquicas 11


2.1 Componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.1 Caractersticas do Som . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1.1 Altura . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1.2 Intensidade e Durao . . . . . . . . . . . . . . . . . 14

2.1.1.3 Timbre . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.2 Elementos Constitutivos . . . . . . . . . . . . . . . . . . . . . 15

2.1.2.1 Corpo Vibratrio . . . . . . . . . . . . . . . . . . . . 15

2.1.2.2 Corpo . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.2.3 Caixa de Ressonncia . . . . . . . . . . . . . . . . . 15

2.1.2.4 Elementos de Estmulo e Controle . . . . . . . . . . . 16

2.1.2.5 Acessrios . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Agrupamentos Hierrquicos . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1 Sistema Grego . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2 Sistema Hornbostel e Sachs . . . . . . . . . . . . . . . . . . . 17

viii
2.2.2.1 Idiofones . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.2.2 Membranofones . . . . . . . . . . . . . . . . . . . . . 19

2.2.2.3 Cordofones . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.2.4 Aerofones . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.3 Sistema de Andr Schaener . . . . . . . . . . . . . . . . . . . 20

2.2.4 Outros Agrupamentos Tradicionais . . . . . . . . . . . . . . . 21

2.2.4.1 Eletrofones . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.4.2 Teclados . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.4.3 Em funo da Altura . . . . . . . . . . . . . . . . . . 22

II Viso Geral do Sistema de Classicao 23


3 Segmentao e Pr-processamento 24
3.1 Caracterizao da Nota Musical . . . . . . . . . . . . . . . . . . . . . 24

3.2 Obteno da Envoltria da Potncia da Nota musical . . . . . . . . . 25

3.2.1 Detector de Envoltria AM (DEAM) . . . . . . . . . . . . . . 26

3.2.2 Mtodo do Mximo . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.3 Mtodo do Filtro . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 Segmentao da Nota Musical . . . . . . . . . . . . . . . . . . . . . . 29

3.3.1 Segmentao pelo Modelo ADSR . . . . . . . . . . . . . . . . 30

3.3.1.1 Denies Originais . . . . . . . . . . . . . . . . . . 30

3.3.1.2 Denies Alternativas . . . . . . . . . . . . . . . . . 32

3.3.1.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3.2 Segmentao por Limiares . . . . . . . . . . . . . . . . . . . . 34

3.3.2.1 Segmentao com 1 Limiar . . . . . . . . . . . . . . 35

3.3.2.2 Segmentao com 2 limiares - Modelo IMF . . . . . . 36

3.3.3 Segmentao pelo Pitch . . . . . . . . . . . . . . . . . . . . . 38

3.4 Obteno dos Momentos e Escalamento Dinmico . . . . . . . . . . . 41

4 Extrao de Caractersticas 44
4.1 Descritores Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2 Descritores Especcos . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.3 Coecientes de Predio Linear . . . . . . . . . . . . . . . . . . . . . 47

ix
4.4 Line Spectral Frequencies . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.5 Caractersticas Cepstrais . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.6 Mel Cepstral Features . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.7 Vetor de Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . 52

5 Mtodos de Classicao 58
5.1 K -Vizinhos mais Prximos . . . . . . . . . . . . . . . . . . . . . . . . 60

5.2 Discriminantes Lineares . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.2.1 Transformao no Espao das Caractersticas . . . . . . . . . 61

5.3 Mquina de Vetor Suporte . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3.1 Caso linear do Modelo da SVM . . . . . . . . . . . . . . . . . 63

5.3.2 Transformaes No-Lineares - Kernel . . . . . . . . . . . . . 64

5.3.2.1 Polinomial . . . . . . . . . . . . . . . . . . . . . . . . 65

5.3.2.2 Gaussian Radial Basis Function . . . . . . . . . . . . 65

5.3.2.3 Exponential Radial Basis Function, RBF . . . . . . . 65

5.3.2.4 Multi-Layer Perceptron . . . . . . . . . . . . . . . . 65

5.3.3 Caso No-Linear do Modelo da SVM . . . . . . . . . . . . . . 65

6 Agrupamentos Hierrquicos, Abordagens Multiclasse e Estratgias 67


6.1 Agrupamentos Hierrquicos Empregados . . . . . . . . . . . . . . . . 67

6.2 Abordagens Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.3 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.3.1 Estratgia 1 - Modelo Padro . . . . . . . . . . . . . . . . . . 74

6.3.2 Estratgia 2 - Modelo Hierrquico . . . . . . . . . . . . . . . . 74

6.3.3 Estratgia 3 - Modelo de Reagrupamento - Nvel Alm . . . . 77

III Resultados 81
7 Construo de um Procedimento de Reconhecimento Automtico 82
7.1 Metodologia de Busca para obter as Solues . . . . . . . . . . . . . . 82

7.2 Formao dos Conjuntos de Teste e Treinamento . . . . . . . . . . . . 85

7.3 Avaliao do Modelo Multiclasse . . . . . . . . . . . . . . . . . . . . . 86

7.4 Anlise do Desempenho da Envoltria versus Potncia Instantnea . . 87

x
7.5 Anlise dos Segmentos . . . . . . . . . . . . . . . . . . . . . . . . . . 90

7.6 Obteno do Vetor de Caractersticas . . . . . . . . . . . . . . . . . . 93

7.6.1 Resultados dos Codicadores mais Desvio Padro do Segmento 94

7.6.2 Resultados com as Caractersticas Temporais . . . . . . . . . . 95

7.6.3 Resultados com os Descritores de udio . . . . . . . . . . . . 98

7.6.4 Resultados com Caractersticas Temporais e Descritores de

udio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.6.5 Anlise da Correlao e Redundncia das Variveis de Entrada 101

7.7 Avaliao dos Classicadores . . . . . . . . . . . . . . . . . . . . . . . 103

8 Avaliao da Taxa de Acerto 107


8.1 Avaliao da Taxa de Acerto para o Agrupamento MFPC . . . . . . . 107

8.1.1 Resultados do Agrupamento MFPC na Estratgia 1 . . . . . . 109

8.1.2 Resultados do Agrupamento MFPC nas Estratgias 2 e 3 . . . 110

8.2 Avaliao da Taxa de Acerto para o Agrupamento INSTRUMENTO . 113

8.3 Estimativa da Taxa de Acerto do Classicador Proposto . . . . . . . 119

9 Resultados frente s Misturas Instantneas 124


9.1 Construo Articial de um Sinal Polifnico . . . . . . . . . . . . . . 126

9.2 Mtodo de Identicao de Instrumentos com Separador de Fontes . . 128

9.3 Mtodo de Identicao de Instrumentos sem Separador de Fontes . . 130

9.4 Extrao das Notas Isoladas de uma sequncia Monofnica . . . . . . 131

9.5 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

9.5.1 Anlise dos Resultados para Misturas contendo vrias Fontes . 135

9.5.2 Anlise dos Resultados para Misturas contendo Sinal Interfe-

rente ou Rudo Branco . . . . . . . . . . . . . . . . . . . . . . 140

10 Resultados frente s Misturas Convolutivas 148


10.1 Modelo de Misturas Convolutivas - Duas Fontes e Dois Microfones . . 148

10.2 Compensao da Distoro Causada pela Mistura Convolutiva . . . . 150

10.3 Resultados Obtidos para Misturas Convolutivas . . . . . . . . . . . . 153

xi
IV Concluso 157
11 Concluso 158

Referncias Bibliogrcas 169

V Apndices 175
A Banco de Dados de Instrumentos 176
A.1 Banco de Dados de Instrumentos MIS-IOWA . . . . . . . . . . . . . . 176

A.2 Banco de Dados de Instrumentos MUMS . . . . . . . . . . . . . . . . 179

A.3 Banco de Dados de Instrumentos RWC . . . . . . . . . . . . . . . . . 181

A.4 Segmentador Elaborado usando Mdia e Desvio. . . . . . . . . . . . . 183

B Comparao com outros Trabalhos 186

xii
Lista de Abreviaturas

ADSR Attack, Decay, Sustain, Release.

BW Band Width.

CDA Canonical Discriminant Analysis.

CQT Constant Q Transform.

DCT Discrete Cosine Transform.

DEAM Detector de Envoltria AM.

DFT Discrete Fourier Transform.

DLG Discriminante Linear Generalizado.

FFT Fast Fourier Transform.

FRBS Agrupamento - Flutes, Reeds, Brass, Strings.

FS Fluxo Espectral.

GMM Gaussian Mixtures Models.

HMM Hidden Markov Models.

IMF Incio-Meio-Fim.

K-NN K-Nearest-Neighbors .

LDA Linear Discriminant Analysis.

LPC Linear Prediction Coecients.

LSF Lines Spectral Frequencies.

MFCC Mel-Frequencie Cepstral Coecients.

MFPC Agrupamento - Metais, Flautas, Palhetas e Cordas.

MFPPC Agrupamento - Metais, Flautas, Palhetas, Percusso e Cordas.

MIMO Multiple Input Multiple Output.

MIS Music Instruments Samples.

xiii
MISO Multiple Input Single Output.

MUMS McGill Master Samples.

PCA Principal Component Analysis.

QDA Quadratic Discriminant Analysis.

RBF Radial Basis Function.

RMS Root Mean Square.

RWC Real World Computing.

SC Spectral Centroid.

SCF Separao Cega de Fontes.

SDR Signal-to-Distortion Ratio.

SF Separao de Fontes.

SIMO Single Input Multiple Output.

SIR Signal-to-Interference Ratio.

SISO Single Input Single Output.

SNR Signal-to-Noise Ratio.

SPC Agrupamento - Sopro, Percusso e Cordas.

STFT Shor Time Fourier Transform.

SVM Support Vector Machine.

TP Temporal do Pulso.

ZCR Zero-Crossing Rate.

xiv
Parte I

Introduo

1
Captulo 1

Apresentao

1.1 Tema e Motivao


Um sistema de classicao de instrumentos musicais a partir de sinais gra-

vados representa uma sub-rea de estudo do processamento de sinais de udio.

Pode-se, de antemo, identicar alguns tpicos necessrios ao desenvolvi-

mento do tema proposto, tais como: denio de nota musical, extrao de carac-

tersticas das notas, taxonomia dos instrumentos musicais e classicadores.

Normalmente um sistema de classicao de instrumentos musicais pode ser

estruturado como uma sequncia de blocos que correspondem aos diversos problemas

(relativamente) independentes supracitados.

Assim, um sistema de reconhecimento de instrumentos musicais envolve ne-

cessariamente os seguintes estgios: pr-processamento para ltrar informaes des-

necessrias e destacar os aspectos que devero ser contemplados; tcnicas de extrao

de caractersticas relevantes desses trechos, visando maximizar a discriminao dos

instrumentos distintos; tcnicas de agrupamento de amostras similares, visando mi-

nimizar o erro de classicao; e de classicao, visando identicar o agrupamento

associado ao vetor de caractersticas extradas de um trecho de uma dada amostra.

Cada um dos blocos referidos na Figura 1.1 por si representa uma linha

prpria de pesquisa. No presente trabalho pretende-se percorrer todas as etapas

conceituais envolvidas na classicao, de forma a no se perder de vista a viso

geral do sistema.

As aplicaes do trabalho incluem, por exemplo: aplicaes comerciais que

2
Figura 1.1: Sistema padro de classicao.

visam catalogar discotecas atravs de um processo automtico (rotulando cada m-

sica de acordo com a presena dos instrumentos musicais que a compem, facilitando

assim uma busca seletiva); a transcrio automtica de msica [1], quando o pro-

cesso de classicao, depois de determinado o momento de ocorrncia de uma nota

musical, capaz de identicar, alm do instrumento que a emitiu, o pitch e a du-

rao da nota, facilitando o seu registro correto no trecho musical; ou a codicao

de udio em alto nvel, ao se usar uma modelagem da fonte sonora, tendo esta

sido previamente identicada pelo processo de classicao, para reproduzir total

ou parcialmente a nota, evitando, assim, uma codicao de baixo nvel, ou seja,

uma codicao que exija manipulao direta das amplitudes do sinal [2].

1.2 Objetivo do Trabalho


O presente trabalho tem como principal objetivo obter um mtodo capaz de

reconhecer automaticamente instrumentos musicais a partir das notas por eles pro-

duzidas. Pode-se assumir que o escopo do presente trabalho identicar qual o

instrumento musical associado a um sinal e avaliar sua capacidade para classicar

o instrumento musical presente numa sequncia monofnica ruidosa ou contami-

3
nada com sinal interferente, ambas oriundas de misturas instantneas, e classicar

os instrumentos musicais presentes em sequncias polifnicas oriundas de misturas

instantneas ou convolutivas. Uma das preocupaes deste trabalho foi comparar

resultados obtidos por diferentes classicadores. Assim, para se traar uma avalia-

o de desempenho utilizaram-se como paradigmas os resultados apresentados por

diversos autores, sumarizados em [3]. Isso permite avaliar o quo bom o desem-

penho que se obtm com cada classicador combinado com uma dada forma de

obteno do vetor de caractersticas. O uso de bases de dados obtidas de formas

distintas serve para validar os mtodos empregados. Portanto, espera-se que o sis-

tema de classicao que obtiver o melhor resultado numa base de dados seja uma

das solues a apresentar os melhores resultados na outra base de dados, devendo

apresentar taxas de acertos consistentes e, portanto, revelando sua capacidade de

generalizao.

A opo por abordar a classicao de instrumentos musicais a partir de no-

tas isoladas nesse estudo pode ser justicada por diversos motivos. Primeiramente,

ela pode ser adaptada tanto para classicar trechos monofnicos de uma msica

(polifnica) quanto para outros sinais de udio oriundos de uma nica fonte. No

mais, a identicao de instrumentos a partir de notas isoladas, apesar de no ser

a mais apropriada para resolver o problema na sua concepo mais geral (sinais

de msica contendo sobreposio no tempo e na frequncia de vrios instrumentos

musicais), no restritiva caso se queira identicar sinais que j tenham passado

por um processo de separao de fontes. Uma desvantagem inerente a essa aborda-

gem a dependncia de um algoritmo que consiga separar a partir de uma msica

polifnica o sinal oriundo de cada instrumento, e/ou de um algoritmo extrator de

notas ou de pequenos trechos oriundos de um nico instrumento musical. Essa dis-

sertao apresenta uma possibilidade do uso desse classicador para o problema de

classicao de instrumentos musicais em sequncias polifnicas havendo superpo-

sio temporal. Tal algoritmo necessita de um separador de fontes e um extrator

de notas, os quais devem estar presentes numa fase preliminar. Portanto, esses

algoritmos inuenciam a taxa de acerto do sistema de classicao posterior. Por

bvio, este pr-processamento poder funcionar como um agente contaminador, caso

ocorra uma separao de fontes mal feita ou uma extrao de nota equivocada.

4
Outra restrio desse trabalho se encontra nas caractersticas do ambiente

de gravao do banco de dados. Idealmente, escolhe-se uma cmara anecica para

obteno dos sinais de referncia, que apresenta caractersticas distintas das normal-

mente encontradas em espaos reais que envolvem maior ou menor grau de reverbe-

rao. De forma que, bancos de dados distintos gravados em ambientes e sensores

com discriminaes e/ou resolues diferentes podem resultar em padres distintos

para uma mesma nota produzida pelo mesmo instrumento, podendo afetar, assim,

o desempenho do sistema de classicao.

A utilizao de notas isoladas no se mostra um problema na possvel adap-

tao dessa abordagem para outros problemas, por exemplo, em Guerra Eletrnica,

haja vista que os pulsos emitidos pelos radares na faixa de frequncia de 1 GHz a

40 GHz, num cenrio padro contendo em torno de dezenas de emissores pulsados,

apresentam uma baixa taxa de sobreposio no tempo. Isto permite a um processo

de separao cega identicar o nmero de emissores presentes neste cenrio, o que

torna o problema de classicao do radar a partir da envoltria do pulso similar ao

de identicao de uma fonte sonora a partir das notas isoladas.

1.3 Abordagens da Literatura


No atual contexto de reconhecimento de instrumentos musicais, ainda no h

consenso quanto melhor abordagem para sinais polifnicos (os quais apresentam

simultaneamente sons de diversos instrumentos musicais). Atualmente, a maior

parte dos estudos desta rea contempla o caso monofnico, seja em notas isoladas,

seja em trechos de msica solo.

Antes de iniciarmos o presente trabalho, foi feito um levantamento de traba-

lhos de diversos autores na rea de classicao de instrumentos musicais, em que

foram examinadas a taxa de acerto mdia obtida e a abordagem utilizada. Essa

avaliao objetivou angariar uma noo tanto das diculdades enfrentadas quanto

dos desempenhos obtidos, e qual o estado da arte. Os resultados desses trabalhos

nem sempre podem ser diretamente comparados, por terem sido elaborados a partir

de restries e com objetivos ligeiramente distintos e, eventualmente, de banco de

dados diferentes.

5
A seguir apresentaremos um breve resumo dos principais trabalhos levantados

nessa rea, em ordem cronolgica.

Em 1998, Keith D. Martin et al. apresentaram um artigo [4] onde uma tc-

nica estatstica de reconhecimento de padro aplicada para classicao de notas

de instrumentos musicais. Foram usadas 1023 notas isoladas, compreendendo as

escalas completas para um total de 14 instrumentos (violino, viola, violoncelo, con-

trabaixo, auta, piccolo, clarinete, obo, corne ingls, fagote, trompete, trombone,

trompa e tuba). As amostras foram obtidas da McGill Masters Samples, MUMS [5].

Foram usadas as macro-famlias cordas, madeiras e metais. As notas foram dividi-

das em dois grupos de 70% e 30% para treinamento e teste, respectivamente. Foram

construdos classicadores maximum a posteriori baseados em modelos gaussianos

derivados diretamente da anlise mltiplo-discriminante de Fisher. Nesse estudo foi

constatada uma melhora no desempenho da classe madeiras quando reagrupada em

subclasses mais homogneas, ou seja, quando as autas foram separadas do con-

junto formado pelas palhetas e metais (utes/reeds-brass ). Posteriormente foi feita

uma nova separao das palhetas dos metais (reeds/brass ). As famlias dos ins-

trumentos obtiveram uma taxa mdia de acerto de 90%, e para o reconhecimento

dos instrumentos individuais foi obtida uma taxa mdia de acerto de 70%. Nesse

estudo tambm se vericou que era possvel uma melhora para 93% na taxa mdia

de acerto das famlias de instrumentos musicais ao se usar somente as 10 melhores

caractersticas que distinguem as subclasses que formam o agrupamento em questo.

Inicialmente os instrumentos so divididos em duas classes ou grupos: beliscado e

sustentado. Posteriormente os instrumentos pertencentes ao grupo beliscado foram

divididos em instrumentos individualizados, todos da famlia das cordas. Abaixo do

grupo sustentado caram trs classes, ou seja, alguns instrumentos da famlia das

cordas e os instrumentos da famlia dos metais e das madeiras.

Em 1999, Janet Marques e Pedro J. Moreno apresentaram um relatrio tc-

nico [6] do Laboratrio de Pesquisa de Cambridge contendo um estudo preliminar

para classicar instrumentos musicais com o objetivo de avaliar a capacidade de

identicao do instrumento presente numa msica solo. O modelo proposto pelo

estudo enfocou o uso em um sistema de anotao de arquivos de udio. Portanto,

testaram-se 8 instrumentos musicais, onde um CD foi usado para treinamento e o

6
outro para teste. Os instrumentos usados foram gaita, clarinete, auta, cravo, r-

go, piano, trombone e violino. Para tanto, usaram-se segmentos do sinal de durao

igual a 0,2 s para a extrao das caractersticas. O sistema proposto nesse trabalho

obteve uma taxa de acerto de 70% na determinao do instrumento que originou

o trecho de som. Foram experimentados vrios tipos de caractersticas e diferen-

tes tipos de algoritmos de classicao. Usou-se para extrao das caractersticas

Linear Prediction Coecients (LPC), Cepstral Coecients FFT e Mel-Frequencies

1
Cepstral Coecients (MFCC) . Os algoritmos de classicao usados foram mo-

delo de misturas gaussianas (Gaussian Mixture Model (GMM)) e mquina de vetor

suporte. Nesse estudo foi tambm avaliado que o desempenho do GMM era melhor

para os coecientes mel-cepstrais, seguido pelos coecientes cepstrais e LPC, respec-

tivamente. Tambm se procurou avaliar a taxa de acerto obtida pelo classicador

para as classes que representam os instrumentos acima enumerados.

Eronen e Klapuri publicaram um artigo [7] em que apresentam um sistema

para reconhecimento de instrumentos musicais a partir do pitch obtido das notas

oriundas de diversos instrumentos musicais. Nesse trabalho, foram usadas caracte-

rsticas espectrais e temporais para analisar as propriedades do som, a partir de 1498

amostras da MUMS que cobriam a tessitura de cada um de 30 instrumentos musicais

escolhidos. Nesse conjunto de instrumentos estavam compreendidas as seguintes fa-

mlias de instrumentos musicais: cordas, madeiras e percusso. Todas essas famlias

tiveram seus instrumentos tocados com diferentes tcnicas de execuo. Algumas

caractersticas usadas foram: tempo de subida, i.e., a durao do ataque; tempo

de decaimento; tempo entre o m do ataque e o mximo valor rms (associado

energia); e mais outras dezenas de caractersticas. Foram usados segmentos de 10

ms com um fator de superposio de 50%. Os autores avaliaram a classicao

hierrquica (abordada na Seo 6.3.2) contra a classicao no-hierrquica, che-

gando concluso de que a classicao no-hierrquica vantajosa em termos de

2
taxa de acerto . Usaram-se dois agrupamentos hierrquicos, um excluindo a classe

metais+palhetas, conforme o agrupamento denido por Martin, e outro contendo-a.

J para a avaliao sem agrupamentos hierrquicos deniu-se o nmero de classes

1 Os dois ltimos a partir da DFT.

2 Quando so preservados o vetor de caractersticas e o classicador.

7
em funo do nmero de ns existentes para a respectiva altura (nvel) da rvore.

A taxa de acerto para a famlia dos instrumentos foi de 94% e para os instrumentos

individualmente foi de 80%.

Em 2001, Agostini et al. apresentaram um trabalho [8] onde um conjunto

de caractersticas avaliado para o reconhecimento de instrumentos musicais. Alm

da avaliao das caractersticas tentou-se alcanar uma representao compacta do

sinal. Foram usadas somente caractersticas espectrais do sinal sonoro, limitadas a

um nmero determinado. A partir de 27 instrumentos musicais foram obtidas 1007,

notas e sem emprego de qualquer estrutura hierrquica. As classes denidas foram

seis, piano-staccato, cordas beliscadas em rock, cordas beliscadas em modo no rock,

cordas sustentadas, madeiras sustentadas e metais sustentados. Foram testados os

seguintes classicadores, que aqui aparecem organizados em ordem decrescente da

taxa de acerto: Quadratic Discriminant Analysis (QDA), Support Vector Machines

(SVM), Canonical Discriminant Analysis (CDA), e K-Nearest Neighbours (KNN),

com taxas de acertos para instrumentos individuais de 92,81%, 69,71%, 66,74% e

65,74%, respectivamente. A taxa de acerto mdia obtida pelo QDA para as famlias

de instrumentos denidas anteriormente foi de 96,87%. O kernel usado para a SVM

foi o Radial Basis Function (RBF), e a melhor soluo para o algoritmo de K-


vizinhos mais prximos foi 1-NN com norma 1 para a mtrica de distncia. As

caractersticas mais relevantes de um total de 9 tipos de caractersticas foram no-

harmonicidade, centride espectral e energia contida na primeira parcial. Alm

dessas caractersticas, so calculadas, entre outras, a taxa de cruzamento por zeros,

a energia contida da segunda at a quarta parcial e a largura da banda. Para cada

uma das 9 caractersticas so calculados o desvio-padro e a mdia.

Em 2003, Kitahara et al. apresentaram um artigo [9] no qual armam que a

relao entre pitch e timbres at ento no vinha sendo bem explorada para a iden-

ticao dos instrumentos musicais. Foi avaliada a dependncia das caractersticas

com o pitch, respectivamente a partir das funes que usam a mdia (f0 -dependentes)

e a covarincia (f0 -normalizadas) do pitch. Os sons dos instrumentos musicais so

primeiramente analisados pela distribuio normal multivarivel f0 -dependente e en-


to, a identicao do instrumento feita usando uma funo discriminante baseada

na regra de deciso de Bayes. So usadas caractersticas espectrais, temporais e de

8
modulao e caractersticas de componentes no-harmnicos, resultando num total

de 129 caractersticas. Cada instrumento musical possui amostras na taxa de 44,1

kHz com 16 bits. Para cada trecho de 10 ms, obtido de uma das amostras a ser

analisada, aplicada uma Short-time Fourier Transform (STFT), com uma janela

de Hanning de 4096 pontos; os picos espectrais so extrados do espectro de potn-

cia do sinal. A partir dos picos, so obtidas a f0 e a estrutura harmnica. Usou-se

posteriormente Principal Component Analysis (PCA), para reduzir o espao de di-

menso 129 para dimenso 79. Depois usou-se Linear Discriminant Analysis (LDA),

conseguindo-se uma reduo para um espao de dimenso 18, no caso de 19 instru-

mentos. So extradas 40 caractersticas espectrais, 35 caractersticas temporais, 32

caractersticas de modulao e 22 caractersticas de componentes no-harmnicos.

So usados 6.247 tons solo de 19 instrumentos, obtendo-se taxas de acerto de cerca

de 90% e 80% para famlia e instrumento, respectivamente.

Em 2004, Krishna e Sreenivas publicaram um artigo [3] que prope o uso de

Line Spectral Frequencies (LSF), como caractersticas representativas de segmentos

obtidos a partir de notas isoladas, vista a sua efetividade para reconhecimento de

voz. Posteriormente feita a classicao, usando os modelos de misturas gaussianas

e K -NN. Nesse trabalho so avaliados tambm o uso das caractersticas MFCC, e

Linear Prediction Cepstral Coecients (LPCC). Foram utilizados 14 instrumentos

e agrupamento hierrquico contendo 4 classes, a saber: palhetas, metais, cordas e

autas. Foram usadas 2 bases de dados distintas: a UIowa's MIS [10] e C Music

corporation's RWC [11]. Foram obtidas taxas de acerto de 95% e 90% para famlia

e instrumento, respectivamente.

Exceto para Marques [6], todos os outros resultados reportados se referem a

sistemas classicadores que utilizam notas isoladas.

1.4 Organizao do Texto


O presente trabalho foi dividido em cinco partes: introduo, viso geral do

sistema, resultados, concluso e apndice.

Nesta introduo foram apresentados o tema, a motivao, o objetivo deste

trabalho, um resumo de alguns dos principais trabalhos na rea, um esboo da

9
metodologia usada e uma breve descrio de como os instrumentos musicais so

comumente agrupados, apresentando tambm alguns agrupamentos hierrquicos al-

ternativos.

Na viso geral do sistema so apresentadas e detalhadas as arquiteturas em-

pregadas, as etapas da cadeia de processamento do sinal, que incluem os mdulos de

segmentao, pr-processamento, extrao de caractersticas e classicao. Ainda

nessa parte so descritos os modelos usados pelos codicadores e classicadores.

Nos resultados so feitas as avaliaes dos codicadores, classicadores, agru-

pamentos hierrquicos, estimativa da taxa de acerto do classicador, classicao

dos instrumentos em sinais polifnicos, e a avaliao da robustez do classicador

frente insero de rudo branco e sinal interferente. No entanto, devido ao fato de

que uma avaliao exaustiva de todas as combinaes entre o pr-processamento,

os vetores de caractersticas e os classicadores levaria a um custo elevado (por

ser de natureza combinatorial), preferiu-se adotar uma estratgia sequnciada, onde

somente alguns mtodos de codicao e classicao so avaliados.

Por m, apresentam-se as duas ltimas partes, ou seja, a concluso e os

apndices, estes contendo uma descrio mais detalhada dos bancos de dados, e um

estudo de caso que avalia o desempenho do sistema de classicao obtido quando

comparado a um outro sistema de classicao (oriundo de um outro trabalho feito

na rea) a partir das mesmas amostras para identicar as mesmas classes.

10
Captulo 2

Instrumentos Musicais e suas


Classicaes Hierrquicas

O estudo dos instrumentos musicais conhecido como organologia. O pro-

psito de um instrumento musical produzir msica e, para tanto, os materiais

empregados e a forma do objeto, bem como o modo de produzir o som, so elemen-

tos importantes para a construo e a classicao do instrumento musical. Existem

diversas formas de classicar os instrumentos musicais, segundo diferentes perspec-

tivas, e cada uma delas se presta melhor para uma dada nalidade. A mais comum

se baseia na forma pela qual o som produzido.

No contexto das orquestras sinfnicas, por exemplo, comum dividir os ins-

trumentos musicais em cordas, sopros (subdivididos em metais e madeiras) e per-

cusso, o que vem a ser uma classicao hbrida, misturando a forma como o som

produzido e o material empregado na confeco do instrumento musical. As madei-

ras podem ser subdivididas em palhetas (lminas que com a passagem do ar vibram

produzindo o som do instrumento) e sem palhetas (autas). Dessa forma podemos

classicar os instrumentos por essa regra em: cordas, metais, palhetas, autas e

percusso.

Em tese, qualquer objeto pode servir para produzir sons e ser utilizado na

msica, mas costuma-se utilizar o termo instrumento musical para designar objetos

que so elaborados especicamente com o propsito de produzir msica. A seguir

apresentaremos um breve resumo das principais caractersticas presentes num instru-

mento musical, pois esses elementos em alguns casos so determinantes na formao

11
da taxonomia dos instrumentos musicais e podero servir de inspirao a qualquer

novo procedimento de classicao automtica dos instrumentos musicais.

Antes de continuarmos necessrio denirmos a notao que ser empregada

para descrever as notas musicais usadas nesse trabalho. As notas, independente-

mente das oitavas, so sete, a saber [12]: `C' - d, `D' - r, `E'- mi, `F' - f, `G' -

sol, `A'- l, `B' - si, podendo representar at 12 semitons com o uso dos acidentes

(bemol para abaixamento e sustenido para elevao), o que pode ser expresso em

uma das duas escalas abaixo:

Escala sustenido - {C, C#, D, D#, E, F, F#, G, G#, A, A#, B}

Escala bemol - {C, Db, D, Eb, E, F, Gb, G, Ab, A, Bb, Cb}

Por sua vez, as oitavas costumam ser numeradas em algarismos arbicos crescentes

com a frequncia fundamental da nota. Tipicamente adota-se como referncia L 4

em 440 Hz e uma distribuio de temperamento igual, o que signica que a frequncia

fundamental associada a cada nota dada pela seguinte expresso:

tom10
frequncia = 440 2oitava4+ 12 . (2.1)

Esse captulo ser dividido em duas sees, uma contendo uma descrio dos

componentes que existem em um instrumento musical e outra contendo os agrupa-

mentos hierrquicos tradicionalmente encontrados nos estudos sobre organologia.

2.1 Componentes
Instrumento musical qualquer artefato capaz de produzir msica. denido

como tal todo artefato que de fato consegue controlar com preciso pelo menos

algumas das caractersticas do som produzido, tais como: altura (grave, mdio e

agudo), durao (do som e/ou do silncio), intensidade e timbre.

Por existir uma gama enorme de instrumentos musicais, a generalizao das

caractersticas que descrevem o funcionamento de um instrumento musical difcil;

porm, alguns elementos constitutivos permanecem presentes, tais como: corpo vi-

bratrio, corpo, elementos de estmulos e controle, caixa de ressonncia e acessrios.

A seguir so descritas as principais caractersticas do som, controlados por um ins-

trumento musical, bem como seus principais elementos constitutivos. As descries

12
apresentadas desses elementos (caractersticas do som e elementos constitutivos),

foram obtidas com base no material disponvel em [13, 14].

2.1.1 Caractersticas do Som


2.1.1.1 Altura
A altura o elemento que nos permite distinguir um som grave de um som

agudo. Assim, quanto maior for a frequncia fundamental percebida (pitch ), mais

agudo ser o som e maior ser a sua altura. Os instrumentos musicais podem ser

divididos quanto altura do som produzido em: de altura determinada e de altura

indeterminada.

Um instrumento dito de altura denida ou determinada quando as notas

desse instrumento podem ser anadas de acordo com escalas denidas. A maioria dos

instrumentos musicais de cordas e sopro tm altura denida. Alguns instrumentos

de percusso, como o vibrafone, o glockenspiel e o xilofone, tambm possuem altura

denida.

No necessrio que o instrumento musical durante a execuo consiga variar

a frequncia das notas para que a altura seja considerada como denida, no entanto

necessrio que as notas produzidas por ele possam ser anadas com preciso em

relao a outros instrumentos. Assim, h alguns instrumentos musicais que possuem

altura denida (tons-tons), apesar das suas notas no poderem ser alteradas durante

a execuo.

Um instrumento musical dito de altura indenida ou indeterminada quando

as notas produzidas pelo instrumento no podem ser precisamente anadas. Isso

ocorre porque esses instrumentos (no-harmnicos) possuem em seu timbre uma

grande quantidade de parciais no harmnicos, tornando a anao difcil ou im-

possvel. A maioria dos instrumentos musicais de altura no denida est entre os

instrumentos de percusso, como tambores, pratos, gongos e sinos. Existem alguns

instrumentos de cordas (berimbau) e sopros com altura indenida.

Instrumentos musicais de altura indenida, em geral, podem ser utilizados

sem que haja problemas de anao em msicas de qualquer tonalidade, porque

possvel denir o seu registro (posteriormente denido), embora no se possa fazer

o mesmo com sua altura. Assim, um tamborim possui um registro mais agudo que

13
uma caixa e um bumbo mais grave que ambos.

A tessitura a extenso de notas que um instrumento ou voz pode alcanar,

identicada atravs do nome e da oitava da nota mais grave e da mais aguda asso-

ciada a essa extenso. Por exemplo, a extenso til de um saxofone contralto vai de

Db2 (r bemol da segunda oitava) at Ab4 (l bemol da quarta oitava). A tessitura

do piano vai do A0 at o C7.

Os registros so as denominaes dadas s trs regies em que a tessitura de

um instrumento musical ou voz pode ser dividida: grave, mdio e agudo. Assim, cada

uma dessas regies (registro) conserva caractersticas prprias, podendo em alguns

casos ocorrer diferenas signicativas do timbre de regio para regio. Da mesma

forma, pode ser impossvel executar todas as notas de uma escala em determinadas

regies para um dado instrumento musical. Do mesmo modo, certos efeitos sonoros

de alguns instrumentos musicais podem ter a sua execuo limitada em um de seus

registros.

Para a perfeita execuo do instrumento e composio musical indispen-

svel o conhecimento da tessitura e do registro instrumental. Caso contrrio, um

compositor poderia querer escrever uma melodia para um instrumento especco

com notas impossveis de serem executadas por esse instrumento. A tessitura s faz

sentido para instrumentos que possibilitam variaes controladas de altura, o que

no inteiramente verdade para o registro, o qual pode indicar a regio de alturas

predominantes mesmo em instrumentos cuja altura indenida.

2.1.1.2 Intensidade e Durao


A intensidade diretamente proporcional potncia, medida relacionada ao

quadrado da amplitude do sinal. Normalmente a percepo da intensidade do som

leva a distingu-lo como sendo forte, mdio (mezzo ) ou baixo (piano ).

A durao representa o tempo transcorrido em que o sinal sonoro existe. O

perodo de tempo em que se d a ausncia do sinal sonoro (a pausa) representa um

aspecto igualmente importante.

14
2.1.1.3 Timbre
O timbre o elemento sonoro que faz com que um ouvinte seja capaz de

distinguir a mesma nota quando produzida por diferentes instrumento musicais.

o que comumente se dene como a cor do som. Assim, facilmente somos capazes de

distinguir a nota produzida por um obo quando a comparamos com a mesma nota

produzida por um violino. Essa percepo se d pelas relaes entre as intensidades

dos harmnicos que cada instrumento gera ao produzir uma nota.

2.1.2 Elementos Constitutivos


2.1.2.1 Corpo Vibratrio
Tambm chamado de elemento produtor do som, a parte do instrumento

musical responsvel pela altura do som emitido. ele que vibra ao entrar em contato

com o estmulo excitante, produzindo assim uma onda sonora. Pode ser parte do

instrumento (cordas, palhetas) ou ser o prprio instrumento. Assim, em princpio,

quanto maior a frequncia da excitao tanto maior ser a altura percebida. Nos

instrumentos aerfonos o prprio ar que entra em vibrao ao passar por uma

aresta, como em uma auta.

2.1.2.2 Corpo
a parte do instrumento que mantm unidas as demais partes do instru-

mento, como no agog. Em diversos instrumentos o corpo possui funes tambm

na produo ou controle do som, como nos casos dos corpos do violino ou do violo,

que servem como caixas de ressonncia e tambm ajudam no tensionamento das

cordas, permitindo que o instrumentista tenha controle sobre a altura das notas.

2.1.2.3 Caixa de Ressonncia


uma cmara cheia de ar, que funciona como um amplicador da intensidade

do sinal sonoro. Apresenta formatos variados, permitindo um reforo em determina-

das frequncias e uma atenuao em outras, determinando em grande parte o timbre

do instrumento. A caixa de ressonncia pode tanto fazer parte do corpo do instru-

mento (por exemplo piano, um violo ou um tambor) quanto estar incorporada ao

15
prprio elemento produtor de som (por exemplo agog).

2.1.2.4 Elementos de Estmulo e Controle


responsvel por controlar a forma como os sons so produzidos, anados

ou modicados, ou por gerar os estmulos ao elemento produtor de som, fazendo

com que o elemento produtor de som entre em vibrao. Estes elementos englobam

uma variedade de objetos ou mecanismos especicamente destinados para gerar esses

estmulos. Entre outros, temos arcos, trastes, plectros, baquetas, martelos, bocais,

foles, teclados, vlvulas, chaves ou pedais.

2.1.2.5 Acessrios
Alguns instrumentos permitem o uso de acessrios com a nalidade de alterar

a forma de execuo ou modicar algumas caractersticas do som produzido. Podem-

se citar: caixas de ressonncia alternativas, abafadores (que diminuem a intensidade

sonora), surdinas (que abafam e modicam o som produzido), suportes ou alas (que

servem para facilitar a execuo em posies no convencionais).

2.2 Agrupamentos Hierrquicos


O estudo detalhado dos sistemas de classicao daria material para um li-

vro, portanto se encontrando alm da pretenso deste tpico. Contudo, a denio

do agrupamento hierrquico de extrema importncia devido ao fato de que, depen-

dendo de como feito esse agrupamento, o sistema de reconhecimento automtico

desses agrupamentos pode encontrar maior ou menor facilidade, o que afeta direta-

mente sua taxa de acerto.

A m de melhor explanar a natureza e as possibilidades dos sistemas de

classicao hierrquica dos instrumentos musicais, se apresentaro alguns deles:

um sistema nativo, o sistema grego (Aristides Quintilianus) [13]; o sistema mais

usual (Hornsbostel e Sachs) [14, 15] e o sistema elaborado por Andr Schaener [13].

16
2.2.1 Sistema Grego
Desde a antiguidade o homem elabora sistemas de classicao para os ins-

trumentos musicais que constri. J na Grcia antiga, Aristides Quintilianus, que

viveu por volta do Sculo III d.C., foi autor de um tratado musical denominado

Per musiks, no qual tentava organizar os instrumentos musicais em famlias de

instrumentos [13].

Naquela obra, apresentaram-se dois esquemas de classicao. O primeiro

se baseava numa distino dos instrumentos musicais quanto forma de produo

do som. Assim, os gregos classicavam os instrumentos em 2 classes: cordas e

sopros. Os instrumentos de percusso, embora conhecidos, eram desprezados por

serem considerados inferiores.

O segundo esquema de Quintilianus baseava-se em aspectos da morfologia

humana, e classicava o instrumento musical em masculino, feminino ou misto.

Essa teoria tentava responder questo de como instrumentos musicais sem vida

conseguiam causar efeitos emocionais em homens e mulheres.

Portanto, o sistema grego dividia os instrumentos em duas classes quanto

forma do som ser produzido, e em trs classes quanto ao gnero do instrumento,

gerando um total de seis combinaes, ou nove, se incluirmos os instrumentos de

percusso:

1. Cordas-Homem
2. Cordas-Misto
3. Cordas-Mulher
4. Sopro-Homem
5. Sopro-Misto
6. Sopro-Mulher
7. Percusso-Homem
8. Percusso-Misto
9. Percusso-Mulher

2.2.2 Sistema Hornbostel e Sachs


Concepes com caractersticas universais para os instrumentos musicais s

apareceram bem mais tarde, por volta do Sculo XIX. Um primeiro sistema foi for-

mulado por Victor-Charles Mahillon em 1880, que a partir dos conceitos usados

17
pelos gregos antigos e tericos europeus da Idade Mdia, elaborou uma classica-

o em forma de rvore, onde os ramos representam instrumentos musicais da sua

classe. Para elaborar essa classicao o elemento usado foi o tipo de vibrao cau-

sado pelo material usado no corpo vibratrio, a partir do qual o som produzido.

Essa abordagem gerou as seguintes famlias para os instrumentos musicais: a) au-

tofones; b) membranofones; c) cordofones e; d) aerofones. Esse sistema apresentou

como restrio basicamente a incompletude, por se restringir aos instrumentos euro-

peus e o modo de utilizao de alguns instrumentos. Essa concepo gera algumas

inconsistncias como no caso dos instrumentos de teclado e mecnicos [16].

O sistema de Mahillon foi ampliado por Curt Sachs e Erich von Hornbostel,

dando origem ao chamado sistema Hornbostel-Sachs de classicao. Alm de muda-

rem o nome da classe autofones para idiofones, eles alteraram a forma de subdiviso

de suas classes e introduziram um cdigo decimal baseado no cdigo que Melvil

Dewey criou para a classicao de livros em bibliotecas. A seguir apresentamos as

famlias de instrumentos musicais conforme a classicao mais usual, baseada no

sistema de Hornbostel e Sachs.

1. Cordofones
2. Idiofones
3. Membranofones
4. Aerofones

As subdivises dentro das quatro famlias de instrumentos musicais podem

ser encontradas no artigo [15] de 1914. Alm destas, tambm so previstos no seu

sistema numrico algarismos reservados que permitem uma expanso das divises

para cada classe.

2.2.2.1 Idiofones
Os idiofones so aqueles que produzem som ao serem percutidos, provocando

a vibrao de todo o instrumento musical. Alguns exemplos so:

Agog;
Bateria (pratos), Bloco sonoro;
Caneca, Carrilho, Castanhola, Celesta, Chocalho;
Glockenspiel, Gongos;
Matraca;
Pratos;
Reco-reco;

18
Sino, Sinos tubulares;
Tringulo;
Vibrafone;
Xilofone.

2.2.2.2 Membranofones
Os membranofones so aqueles em que o som produzido quando so percu-

tidos sobre uma membrana esticada que entra em vibrao. As membranas podem

ser de origem animal, sintticas ou at mesmo de tecido. Alguns exemplos so:

Bateria;
Caixa, Cuca;
Djemb;
Pandeireta (pele), Pandeiro (pele);
Repinique, Surdo;
Tambor, Tamborim, Tom-tom;
Zabumba.

2.2.2.3 Cordofones
Os cordofones, ou instrumentos de cordas so aqueles em que o som obtido

pela vibrao das cordas. As cordas podem ser dedilhadas, percutidas ou colocadas

em vibrao com um arco (friccionadas). Alguns exemplos so:

Alade;
Baixo, Balalaica, Bandolim, Banjo, Berimbau ou Urucungo;
Cavaquinho, Cembalo, Ctara, Clavicrdio, Contrabaixo, Cravo;
Dulcmer;
Espineta;
Guitarra, Guitarra inglesa;
Harpa;
Kantele - (Derivado da Ctara), Koto;
Lira;
Piano;
Rabeca;
Saltrio, Sanfona, Sangen, Siamise, Sitar;
Ukulele;
Violo, Viola, Viola caipira, Viola da gamba, Violino, Violoncelo.

19
2.2.2.4 Aerofones
Os aerofones, ou instrumentos de sopro, so aqueles que produzem som

quando o ar ao ser neles introduzido entra em vibrao, excitando os componen-

tes do instrumento musical. Alguns exemplos so:

Acordeo;
Bombardino;
Clarinete, Clarone, Corne-ingls;
Escaleta;
Fagote, Flauta (contralto, doce, baixa) Flautim, Flugelhorn;
Gaita;
rgo, Obo, Ocarina;
Pfaro;
Saxofone (contralto, baixo, bartono, tenor);
Trompa, Trompete (de pistes, de chaves), Trombone, Tuba.

2.2.3 Sistema de Andr Schaener


Em 1932, Andr Schaener publicou na Frana um trabalho chamado D'une

nouvelle classication mthodique des instruments de musique , republicado como

Origine des instruments de musique , em 1936. Nesse trabalho, ele apresenta um

novo esquema de classicao dos instrumentos musicais, que os divide em grupos

segundo o tipo de material pela qual o som produzido [13]. Dessa forma, todos os

instrumentos musicais podem ser agrupados em duas grandes classes, uma em que

o som advm da vibrao dos materiais slidos, os Gaiafones [16], e outra em que o

som advm da vibrao dos materiais gasosos, os Aerofones.

Este mtodo apresenta vantagens em relao aos demais, por exemplo, ao

evitar as possveis confuses com instrumentos que se encontram no limite entre

instrumentos de cordas e de percusso (como o piano); nesse esquema, ambas as

categorias so enquadradas na mesma classe.

Segue um exemplo simplicado da estrutura do sistema de classicao pro-

posto por Schaener, que continua subdividindo suas classes alm das aqui exem-

plicadas.

I: Gaiafones

I.A: No-Tensionveis - Sem tenso (exemplo: xilofones);

I.B: Flexveis - Linguafones ou lamelofones (exemplo: kalimba)

I.C: Tensionveis - Cordofones (exemplo: piano, violino)

20
II: Aerofones

II.A: Com ar ambiente - (exemplo: acordeo)

II.B: Contendo Cavidades Livres - (exemplo: tambores)

II.C: Contendo uma coluna de ar - (exemplo: autas)

2.2.4 Outros Agrupamentos Tradicionais


2.2.4.1 Eletrofones
Os eletrofones, ou instrumentos musicais eltricos/eletrnicos, representam

uma categoria introduzida por Galpin em 1937 na sua obra, A Textbook of European

Musical Instruments, para permitir a representao dos instrumentos musicais que

produzem sons atravs de componentes que se utilizam da energia eltrica. Esta

categoria comumente acrescentada ao sistema de Mahillon e Hornbostel e Sachs.

Alguns exemplos de instrumentos musicais pertencentes a essa categoria so:

Ondas Martenot
rgo Eletrnico
Piano Digital
Sampler
Sintetizador
Teremim

2.2.4.2 Teclados
Os instrumentos de teclas so agrupados nessa categoria pelo modo de tocar,

nesse caso, so consierados como pertencentes a uma categoria a parte, no entanto,

tambm podem ser classicados nas diversas categorias anteriormente relacionadas

nessa dissertao (como por exemplo, pelo modo de produo do som). Alguns

exemplos so:

Acordeo (Sopro)
Celesta (Percusso)
Clavicrdio (Cordas)
Cravo (Cordas)
Piano Digital (Instrumento Eletrnico)
rgo (Sopro)
Piano (Cordas)

21
2.2.4.3 Em funo da Altura
comum uma associao entre o timbre da voz humana cantada com a escala

que os instrumentos musicais alcanam quando comparados a outros instrumentos.

Portanto, podemos dizer que os instrumentos musicais podem ser:

1. Baixo
2. Bartono
3. Tenor
4. Contralto
5. Soprano

Assim, dependendo da escala em que o instrumento atua, ele pode ser enqua-

drado numa das classes acima e mesmo ser adjetivado por elas, como o saxofone.

22
Parte II

Viso Geral do Sistema de


Classicao

23
Captulo 3

Segmentao e Pr-processamento

Para efeitos de conveno, neste trabalho entende-se nota musical como sendo

o sinal acstico associado ao som (tipicamente, com altura denida) produzido por

um determinado instrumento musical. Nesse captulo, se apresentaro as transfor-

maes efetuadas sobre as notas antes de se extrair as caractersticas pertinentes

ao processo de classicao. Para tal, sero abordados os seguintes tpicos: ca-

racterizao da nota musical, obteno da envoltria da potncia da nota musical,

segmentao da nota musical, e obteno dos momentos e escalamento dinmico.

3.1 Caracterizao da Nota Musical


Para a identicao de instrumentos musicais a partir de notas isoladas, cum-

pre destacar quais fatores podem afetar o padro apresentado pela nota musical. O

desao ser contemplado num cenrio simplicado, onde inexistem interferncias

(como a presena de outras fontes sonoras), bem como reverberaes decorrentes

do ambiente acstico. Portanto, as bases de dados usadas nesse trabalho possuem

gravaes de notas musicais de diversos instrumentos feitas em ambientes prepara-

1
dos acusticamente (sem interferncias nem reverberaes ). Assim, dada uma nota,

2
restam os seguintes elementos que a modicam : .

1 Exceto a base de dados MUMS, que possui tempo de reverberao igual a 0,4 s

2 O timbre uma caracterstica perceptiva associada ao processo de identicao de um instru-

mento musical podendo ser modicado (em maior ou menor grau) pelos elementos citados nessa

lista.

24
1. o instrumento;
2. o modelo (marca, fabricante) do instrumento;
3. o msico;
3 4 5 6 7
4. as variaes aplicadas nota, como o tremolo , vibrato , pizzicato , staccato ,

etc;
5. o pitch com que a nota produzida;
6. a intensidade, nvel dinmico, com que a nota produzida.

Melhor dizer que h duas tarefas em questo: 1) identicar o incio e o m

da nota; e 2) localizar temporalmente trechos (segmentos) de interesse ao longo da

durao da nota.

3.2 Obteno da Envoltria da Potncia da Nota


musical
8
Uma vez que um sinal de udio tipicamente oscila em torno do zero ,

conveniente analisar a forma de onda correspondente potncia instantnea (Figura

3.1) ou a uma verso reticada do sinal. Tais transformaes facilitam, por exemplo,

a atribuio dos instantes inicial e nal da nota bem como uma envoltria a cada

nota musical.

A seguir apresentaremos algumas formas de se obter a envoltria do sinal.

3 Articulaes ou variaes no modo de execuo da nota.

4O tremolo um efeito musical que representa variaes peridicas no volume (amplitude) da

nota musical.

5O vibrato um efeito musical que representa uma variao peridica no pitch (frequncia) da

nota musical. O vibrato pode ser classicado tanto pela quantidade de variao no pitch, quanto

na velocidade em que o pitch varia.

6O pizzicato um modo de execuo normalmente empregado nos instrumentos de corda, que

consiste em pinar as cordas com os dedos.

7O staccato classicado como sendo uma articulao, ou seja, consiste em executar as notas

musicais inserindo silncio (intervalo) entre elas. Essa tcnica o oposto do legato, que une as

notas de forma a no haver entre elas insero de silncio.

8 Supondo o sinal sem oset.

25
1

Amplitude(n) 0.5

0.5

1
0 0,5 1 1,5 2 2,5
n (amostras)
(a)
0,2

0
P i (n)

0,4

0,2

0
0 0,5 1 1,5 2 2,5
n (amostras)
(b)

Figura 3.1: (a) Pi (n) nota (A4) de um Clarinete Bb; (b) potncia instantnea, Pi (n).

3.2.1 Detector de Envoltria AM (DEAM)


A primeira forma mais intuitiva de obter uma envoltria para a nota musical

baseou-se no algoritmo que aproxima um circuito detector de envoltria AM [17]

(DEAM).

Primeiramente detectam-se os picos do sinal Pi (n). A partir do primeiro

pico, inicia-se uma exponencial denida por uma taxa de decaimento previamente

estabelecida de forma emprica. O mtodo emprico empregado foi estabelecido a

partir da base de dados MIS, avaliando a taxa de decaimento da parte nal da nota

de maior pitch para todos os instrumentos dessa base de dados. Posteriormente

usou-se a maior taxa de decaimento entre todas avaliaes obtidas. Em seguida, no

instante de tempo associado ao prximo pico detectado, comparam-se os valores da

exponencial e da intensidade do pico: caso o pico seja mais intenso que a exponen-

cial, preserva-se o pico, iniciando a partir da uma nova exponencial decrescente;

em caso contrrio, preserva-se a exponencial decrescente originada a partir do pico

anterior. Neste trabalho, a taxa de decaimento da exponencial decrescente foi ob-

26
tida empiricamente, observando diretamente as notas contidas no banco de dados

[10]. Essa abordagem mantm o nmero de amostras do sinal antes de passar pelo

algoritmo descrito. A funo recursiva usada foi:

Pi (n) = Pi (n 1)e0,002 , (3.1)

onde Pi (n 1) representa a exponencial presente no instante n 1.

3.2.2 Mtodo do Mximo


Uma segunda maneira de se obter um padro parecido com o mtodo DEAM

segmentar a nota em N frames de mesmo tamanho e, para cada frame, achar e

armazenar a amostra com o maior valor. Por convenincia denominar-se- tal pro-

cedimento de mtodo do mximo. Tal esquema apresenta um padro de resposta

bem prximo ao produzido pelo DEAM. No entanto, a resoluo temporal da curva

de envoltria reduzida por N. Essa reduo pode causar uma suavizao da curva,

ocasionando perda de informao que utilizada pelo sistema de classicao em

estudo. Sendo assim, faz-se necessrio avaliar o impacto dessas perdas na estima-

o da envoltria sobre o desempenho do processo de identicao automtica dos

instrumentos musicais.

Na Figura 3.2 mostra-se primeiro uma estimativa de envoltria obtida pelo

DEAM (usando a Eq. (3.1)) e, em seguida, outra estimativa produzida pelo mtodo

do mximo [2].

3.2.3 Mtodo do Filtro


Um terceiro procedimento para se obter a envoltria do sinal atravs do uso

9
de um ltro passa-baixas com frequncia de corte e ordem previamente estabelecidas

representada na Figura 3.3. A sada do ltro passa-baixas, excitado por Pi (n),


produz uma estimativa da envoltria do sinal de entrada. No exemplo apresentado

na Figura 3.3, a implementao, aqui denominada mtodo do ltro, se baseou num

ltro FIR de ordem 1023 projetado por janela Hamming com frequncia de corte

igual a fs/1000 (onde fs a frequncia de amostragem). Essa abordagem gera um

9 Pode-se simplesmente usar-se a mdia de cada janela (mtodo da mdia).

27
0,8

0,6
P i(n)

0,4

0,2

0
0 0,5 1 1,5 2 2,5
n (amostras)
(a)

0,5

0
P i(m)

0,5

0
0 20 40 60 80 100 120 140 160
m (segmentos)
(b)

Figura 3.2: Envoltrias da nota de um Clarinete: (a) mtodos DEAM; (b) mtodo

do Mximo.

28
nmero nal de amostras, aps a convoluo, superior ao nmero inicial, dado pelo

comprimento do sinal L somado ordem do ltro passa-baixas.

0,1
P i(n)

0,05

0
0 0,5 1 1,5 2 2,5
n (amostras)
(a)
0,1
P i(m)

0,05

0
0 20 40 60 80 100 120 140 160
m (segmentos)
(b)

Figura 3.3: Envoltrias da nota de um Clarinete (a) pelo mtodo do ltro e (b) pelo

mtodo da mdia.

3.3 Segmentao da Nota Musical


Existem duas tarefas iniciais a serem resolvidas na elaborao de um sistema

de reconhecimento de instrumentos musicais a partir de notas isoladas: 1) identicar

o incio e o m da nota e 2) localizar temporalmente trechos (segmentos) de interesse

ao longo da durao da nota.

Pode-se, numa abordagem simplicada, dividir qualquer nota em 3 trechos

(segmentos), onde o primeiro representa o surgimento da nota, o segundo (interme-

dirio) representa a sustentao da nota, e o terceiro representa o encerramento da

nota. A partir destes segmentos, o desao extrair adequadamente a informao

mais til para se identicar o instrumento que a originou. Assim, sero avaliadas al-

29
gumas estratgias, as quais tentaro delimitar de forma aproximada tais segmentos.

A importncia da determinao dos segmentos se deve ao fato de sua localizao

poder ser afetada diferentemente pelo instrumentista, o que pode ser desejvel ou

no, a depender do nvel de discriminao que se pretende chegar. Por exemplo,

quando o msico prolonga a nota do instrumento (aumentando a durao do seg-

mento intermedirio), ou quando a abafa repentinamente (ocasionando uma reduo

do segmento nal), provoca voluntariamente padres diversos para a mesma nota

proveniente da mesma fonte (instrumento) num dado cenrio (ambientao acs-

tica). Essas alteraes podem gerar confuses caso se queira identicar somente o

instrumento. Nesses casos podemos dizer que certas caractersticas (durao, por

exemplo) desses segmentos, intermedirio e nal, sofreram uma maior modicao

pelo instrumentista do que os segmentos iniciais da nota. Logo, pode-se pensar

que determinados segmentos so mais interessantes do que outros para a extrao

de caractersticas no-volitivas do instrumento, isso porque eles so mais imunes

10
interveno do instrumentista . Portanto uma escolha adequada do segmento para

a extrao de caractersticas uma estratgia que deve ser considerada, principal-

mente quando se quer obter caractersticas para reconhecimento de fontes comuns,

independentemente das inexes expressivas (tais como o vibrato ) que o instrumen-

tista possa vir a inserir no som produzido. Isto importante, j que essas alteraes

podem em princpio ser um fator complicador para a discriminao dos instrumentos

musicais.

3.3.1 Segmentao pelo Modelo ADSR


3.3.1.1 Denies Originais
Uma diviso clssica de um sinal acstico associado ao som (nota) de um

instrumento musical pode ser feita em quatro segmentos, ou seja, Ataque, Decai-

mento, Sustentao e Relaxao [2], conhecido como ADSR (Attack, Decay, Sustain

10 Dependendo do tipo de instrumento, pois em alguns instrumentos o instrumentista possui

controle sobre a natureza do ataque (suave, incisivo agressivo), o que pode modicar o padro da

nota.

30
11
e Release ) . Cada segmento pode ser melhor determinado no padro da envoltria

da potncia instantnea do sinal, conforme pode se ver na Figura 3.4.

Figura 3.4: Modelo ADSR.

No entanto, nem todos os instrumentos produzem notas contendo todos os

tipos de segmentos, assim, somente os segmentos de ataque e relaxao se encontram

necessariamente presentes em todos os instrumentos [2].

O segmento de ataque normalmente corresponde subida do sinal, em termos

12
de potncia, indo do nvel do rudo de fundo at um mximo inicial . Representa,

portanto, o intervalo de tempo em que ocorre o transitrio inicial. senso comum

asseverar que retirar o ataque do sinal implica uma maior diculdade para se con-

seguir uma diferenciao auditiva do timbre de alguns instrumentos musicais por

parte dos ouvintes [18]. Da advm uma justicativa natural para tentar o ataque

na fase de extrao de caractersticas.

O segmento de decaimento representa o intervalo de tempo decorrido entre o

13
instante do mximo inicial e aquele em que se atinge o nvel de sustentao . O seg-

11 Esse modelo foi concebido por Vladimir Ussachevsky em 1965, quando liderava a Columbia-
Princeton Electronic Music Center.
12 Normalmente representado pelo mximo global, como o instante desse pode ocorrer dentro do

trecho de sustentao, neste trabalho adotou-se o mximo inicial como o primeiro mximo local.

13 Aproximadamente o intervalo de tempo compreendido entre o instante do primeiro mximo e

31
mento de relaxao ocorre quando novamente o volume do sinal comea a diminuir

at atingir o nvel de rudo de fundo ou zero. J o segmento de sustentao ocorre

entre o trmino do trecho de decaimento e o incio do segmento de relaxao [2].

3.3.1.2 Denies Alternativas


Uma abordagem aproximada seria denir o segmento de ataque como o in-

tervalo compreendido entre o momento em que o sinal ultrapassa o rudo de fundo

at o instante em que ocorre o primeiro pico. Logo, para que o primeiro pico no

venha ser obtido das pequenas utuaes durante a subida da envoltria do sinal,

necessrio suaviz-la sucientemente para que esses pequenos picos desapaream.

Para isso vericou-se que o procedimento mais adequado para a obteno da en-

voltria foi o mtodo do mximo (ver Seo 3.2.2). O segmento de decaimento

determinado pelo intervalo circunscrito entre o primeiro pico obtido anteriormente

14
e o instante associado ao primeiro vale aps esse pico . O segmento de relaxao

denido como o intervalo entre o instante associado ao primeiro pico (mximo local)

com valor superior ao limiar de rudo de fundo, a partir do nal da nota, e o instante

em que o sinal volta a car menor que o limiar de rudo de fundo (no sentido do

incio ao nal da nota). Por m, o segmento de sustentao obtido pelo intervalo

situado entre o nal do segmento de decaimento e o incio do segmento de relaxao.

Como visto anteriormente, as denies aqui propostas para os trechos de

uma nota diferem das do modelo ADSR convencional. Portanto, nesse trabalho

chamaremos o mtodo proposto de modelo ADSRm. A modicao proposta se

deve basicamente ao fato de os sinais reais apresentarem em alguns casos compor-

tamento no previsto pelo modelo ADSR que, se fosse aplicado, descaracterizaria o

signicado dos segmentos (e.g., um ataque com durao at o meio da nota). O mo-

delo ADSRm obtm segmentos similares aos do ADSR, sendo capaz de determinar

tambm, quando for o caso, a ausncia do decaimento e da sustentao.

o instante de trmino do primeiro vale.

14 Note-se que o mtodo descrito difere um pouco quanto ao momento do incio do segmento de

sustentao apresentado na Figura 3.4, em que o incio do trecho de sustentao comea a partir

do primeiro pico que sucede o primeiro vale.

32
0,03

0,02
P i(m)

0,01

0
0 20 40 60 80 100 120
m (segmentos)
(a)
0,03

0,02 Envoltria
P i(m)

0,01

Limiar 10%
0
0 20 40 60 80 100 120
m (segmentos)
(b)

Figura 3.5: Segmentao segundo o modelo ADSRm de uma nota C4 de uma auta

contralto. As linhas vermelhas verticais slidas correspondem em (a) aos incios

de cada frame analisado. J em (b), as linhas pretas verticais, da esquerda para

a direita, correspondem aos incios dos segmentos de decaimento, sustentao e

relaxao, respectivamente.

3.3.1.3 Exemplos
Nas Figuras 3.5, 3.6, 3.7 apresentamos resultados de segmentao obtidos

para 3 instrumentos, respectivamente: Flauta Contralto sem vibrato, Saxofone Con-

tralto sem vibrato e Violino pizzicato.

No caso da auta, ilustrado pela Figura 3.5, pode-se constatar que o segmento

de decaimento bastante curto. J no caso do saxofone contralto, apresentado pela

Figura 3.6, o segmento de decaimento melhor destacado. Pode-se tambm observar

que neste caso todos os segmentos aparecem na forma prevista pelo modelo ADSR.

Finalmente, no caso da envoltria da nota do violino, apresentada na Figura

3.7, pode-se perceber que a nota da envoltria do violino s apresenta os segmentos

de ataque e relaxao. Conforme j comentado, determinadas notas de instrumentos

33
0,08

0,06

P i(m)
0,04

0,02

0
0 10 20 30 40 50 60 70 80
m (segmentos)
0,08

0,06 Envoltria
P i(m)

0,04

0,02
Limiar 10%
0
0 10 20 30 40 50 60 70 80
m (segmentos)

Figura 3.6: Segmentao segundo o modelo ADSRm para a nota C4 de um saxofone.

Vide Figura 3.4 para a denio dos elementos grcos envolvidos.

15
podem no apresentar todos os segmentos previstos pelo modelo ADSR .

3.3.2 Segmentao por Limiares


Uma forma de se localizar o incio e o m da nota usarmos limiares sobre a

envoltria ou potncia da nota. Tipicamente o segmento em questo caracterizado

pelo intervalo de tempo em que o sinal apresenta intensidade em nveis superiores

a um determinado limiar, cujo valor normalmente escolhido para destacar a nota

do rudo de fundo. No entanto, essa mesma abordagem pode ser usada para se

obter segmentos de interesse contidos na nota, ou seja, incio, meio e m. Para

isso basta acrescentarmos um segundo limiar, cujo valor superdimensionado em

relao ao anterior. Neste tipo de abordagem, o objetivo determinar os segmentos

de interesse, a partir dos quais se iro extrair as caractersticas representativas da

15 Os trechos marcados nas guras 3.5 a 3.7 foram obtidos automaticamente pelo algortimo

implementado para o modelo ADSRm

34
0,4

0,3
P i(m) 0,2

0,1

0
0 5 10 15 20 25
m (segmentos)
0,4

0,3
P i(m)

Envoltria
0,2

0,1
Limiar 10%
0
0 5 10 15 20 25
m (segmentos)

Figura 3.7: Segmentao segundo o modelo ADSRm para a nota C4 de um violino.

nota.

3.3.2.1 Segmentao com 1 Limiar


Como proposta inicial, pensou-se em destacar somente um segmento inter-

medirio da nota atravs de um limiar. Neste caso, o segmento de interesse obtido

16
do intervalo compreendido pelo instante em que a potncia da nota pela primeira

vez ultrapassa o limiar at o instante em que a potncia da nota pela ltima vez

cruza esse mesmo limiar. Assim, o limiar deve ser denido para um valor acima

do nvel do rudo de fundo, pois caso contrrio se poder ter amostras do segmento

contendo somente rudo de fundo. Infelizmente, nessa abordagem, o controle do seg-

mento extrado da nota restrito, ou seja, ser impossvel garantir a extrao de um

segmento intermedirio delineado por nveis distintos de potncia, por um intervalo

de tempo predeterminado, ou mesmo um segmento de sustentao, conforme pode

ser visto na Figura 3.8, a qual ilustra essa situao.

No presente trabalho, usaram-se valores de limiar entre 10% e 90% da mdia

16 O mesmo procedimento pode ser aplicado envoltria da nota.

35
0,08

0,07 Decaimento
1 Limiar alto
0,06
1 Limiar baixo
0,05
P i[m]

0,04
Sustentao

0,03
Trecho Extrado com 1 limiar baixo Relaxao
0,02
Trecho Extrado com 1 limiar alto
0,01

0
0 10 20 30 40 50 60 70 80
m (segmentos)

Figura 3.8: Segmentao a partir de um limiar sobre a envoltria da nota C4 de um

saxofone contralto.

da potncia instantnea do sinal, visando obteno de um segmento intermedirio

mais estvel (em frequncia e possivelmente em amplitude) da nota, sobre o qual

sero medidos elementos caracterizadores, tais como parametrizao por codicado-

res como LSF, LPC, MFCC e CEPSTRUM. Devido sua simplicidade, essa tcnica

comumente utilizada e, na prtica, apresenta bons resultados [3].

Como visto, a abordagem de segmentao atravs de um nico limiar se

restringe a selecionar apenas um segmento. Tal desvantagem pode ser contornada

pelo acrscimo de mais limiares. Isso resolve o problema parcialmente, restando-se

ainda determinar de forma mais precisa os valores desses limiares em correspondncia

aos segmentos que se pretende extrair.

3.3.2.2 Segmentao com 2 limiares - Modelo IMF


Como uma alternativa ao mtodo de segmentao com um limiar, elaborou-se

para esse trabalho um critrio de segmentao baseado em 2 limiares, possibilitando

36
17
uma possvel correspondncia com alguns segmentos previstos no modelo ADSR .

No caso de adotarmos 2 limiares tais que:

limiar 1 (inferior) dene o nvel mximo do rudo de fundo, ou o nvel em que

se considera o sinal presente; e

limiar 2 (superior) determina o nvel mximo que o incio ou o nal da nota

pode atingir;

poderemos obter 3 segmentos, abaixo denidos:

o primeiro segmento (incio), ser denido pelo intervalo que vai do instante

18
em que o sinal cruza pela primeira vez o limiar 1 at o instante em que o

sinal cruza pela primeira vez o limiar 2 a partir do incio do sinal, ou seja, a
subida do sinal;

o segundo segmento ser denido pelo intervalo que vai do instante em que o

sinal cruza a primeira vez o limiar 2 at o instante em que o sinal cruza pela

ltima vez o limiar 2, ou seja, a partir do meio do sinal, aqui denominado

como segmento estacionrio19 ;

e o terceiro segmento do sinal ser denido pelo intervalo compreendido entre

o instante em que o sinal cruza pela ltima vez o limiar 2 at o instante em

que o sinal cruza pela ltima vez o limiar 1 nal do sinal, ou seja, a descida
do sinal.

A Figura 3.9 mostra um exemplo em que 2 limiares so aplicados envoltria

do sinal de uma nota, de forma a ilustrar o critrio de segmentao anteriormente

descrito. Pode-se notar que possvel associar de modo aproximado o primeiro

segmento subida do sinal, o segundo segmento ao trecho mais estacionrio (onde

em tese teramos poucas variaes de amplitude e pouca variao na frequncia

17 Critrios de segmentao usando dois limiares podem obter 3 segmentos aproximadamente

equivalentes aos segmentos de ataque, sustentao e relaxao do modelo ADSR.

18 Neste contexto o termo sinal poder ser entendido como envoltria do sinal ou potncia

instantnea do sinal.

19 Na verdade este segmento representa um trecho intermedirio do sinal, onde normalmente se

encontra o segmento de sustentao.

37
20
fundamental) do sinal, e o ltimo segmento descida do sinal, conforme se pode

observar na Figura 3.9.

0,08

0,07
Estacionrio (meio)
0,06

0,05
Limiar 90%
P i(m)

0,04

0,03
Descida (fim)
0,02 Subida (incio)

0,01 Limiar 10 %

0
0 10 20 30 40 50 60 70 80
m (segmentos)

Figura 3.9: Segmentao IMF a partir de 2 limiares sobre a envoltria da nota C4

de um saxofone contralto. Usou-se 10% e 90% da mdia da potncia instantnea do

sinal para denirmos o limiar 1 e o limiar 2, respectivamente, em vez de 10% e 90%

do maior pico, como proposto em [19].

3.3.3 Segmentao pelo Pitch


Um aspecto que se deve destacar que a nota produzida por um instrumento

musical no apresenta um padro senoidal puro. De fato, quando dizemos que o tom

da referida nota L da quarta oitava, queremos dizer que a percepo auditiva de

um ouvinte sobre a altura (pitch ) desta nota aproximadamente a mesma de escutar

20 Caso ocorra variaes na amplitude, como o caso do tremolo, ainda assim teremos a frequncia

fundamental apresentando pouca variao. Assim, estamos usando o termo estacionrio num

contexto amplo e no puramente estatstico, ou seja, o segmento onde a fundamental e a amplitude

apresentam variaes menores que os demais segmentos da nota.

38
um sinal senoidal na frequncia de 440 Hz. No entanto, quando analisamos o espectro

de frequncia da nota de um instrumento musical, tipicamente observamos diversas

frequncias, conforme pode ser visto no espectrograma apresentado na Figura 3.10,

referente ao L de quarta oitava (440 Hz) produzida pelo instrumento Clarinete

Si bemol. A gura tambm apresenta a magnitude do espectro e a envoltria de

potncia do sinal.

Figura 3.10: Espectrograma CQT (constant Q spectral transform ) do L de quarta

oitava (440 Hz) tocado em um Clarinete Si bemol [20, 21].

Uma outra forma de segmentar a nota perceber que, na execuo de notas

isoladas com altura xa, o pitch se manter aproximadamente constante no segmento

que sucede o ataque da nota. Assim, de se esperar que existam um segmento

associado ao processo de estabilizao do pitch, outro de manuteno do pitch, e

um trecho nal de supresso do pitch. Portanto, para obtermos o segmento de

manuteno do pitch, basta usar um estimador de pitch para identicar o perodo

em que o pitch da nota se mostra mais estvel. Uma pista que ajuda a determinar o

segmento de estabilizao do pitch da nota sua maior durao em relao a outros

segmentos obtidos nesse processo.

39
Para tanto, precisaremos de algoritmos estimadores de pitch. Foram avalia-

dos vrios algoritmos estimadores de pitch, que apresentaram resultados similares.

Portanto, apresentaremos somente o estimador de pitch a partir da funo de auto-

correlao da nota [22].

O tamanho do segmento foi determinado pela menor frequncia audvel, uma

vez que a menor frequncia proporcionar o maior comprimento de onda, que dever

caber dentro da janela usada para estimarmos o pitch. Como a menor frequncia

da base de dados o D da primeira oitava, ou seja, 32,7 Hz, e esta frequncia est

prxima do limite inferior da audio humana (20Hz), preferiu-se arredondar para

baixo (30Hz) esse limite, deixando-o prximo ao limite inferior da audio humana e

independente do limite inferior da tessitura de qualquer instrumento sob considera-

o neste trabalho. J o limite superior foi a maior frequncia encontrada na base de

dados, que de 3.951,07 Hz, portanto, nesse caso preferiu-se a nota imediatamente

21
acima (C8, 4.186, 01 Hz 4.200 Hz) de B7 para a restrio superior .

Os resultados obtidos para o Saxofone Contralto A4 e Trompa B2 so apre-

sentados nas Figuras 3.11 e 3.12, respectivamente.

No caso de estimarmos o pitch para a nota B2 de uma trompa, podemos

novamente observar que os mtodos 1 e 2 se aproximam do pitch real. O que se

pode concluir que, apesar de notarmos que possvel destacar o momento em que

o pitch alcanado dentro da nota e quando ele se encerra, observamos tambm que

a estacionariedade do pitch rapidamente obtida, assim podemos dizer que o pitch

se estabiliza ainda durante o ataque e se prolonga at quase o nal da relaxao.

Portanto, pode-se armar que boa parte do segmento associado subida e

parte do segmento associado descida do sinal ainda apresentam estacionariedade

do pitch.

Portanto, o mtodo para obtermos segmentos a partir do pitch ser descar-

tado neste trabalho, visto que o segmento intermedirio deste modelo praticamente

destaca a nota inteira. No entanto, isto no signica que, caso venhamos a extrair

as caractersticas desse segmento, no possamos obter bons resultados. Logo, esse

21 Poderia-se, sem acrscimo no esforo computacional, usar o limite superior da audio humana

(20 kHz), mas no estamos contemplando essas frequncias.

40
Metodo = corr - N. de seg. = 86
0,4

0,35

0,3

0,25
Pi (m)

0,2

0,15

0,1
Pitch = 443,2161

0,05

0
0 10 20 30 40 50 60 70 80 90
m (segmentos)

Figura 3.11: Envoltria da nota de um saxofone contralto - A4 e seu pitch estimado.

A curva de pitch se encontra fora de escala, e somente est representada juntamente

com a curva de envoltria para indicar os instantes em que o pitch se estabiliza.

22
um mtodo que, embora no segmente sempre a nota em 3 trechos poder ser

futuramente investigado.

3.4 Obteno dos Momentos e Escalamento Din-


mico
Inicialmente temos que levar em conta que no se pretende identicar dife-

renas das notas em relao a intensidade sonora (nvel dinmico) em que ela foi

produzida. Tambm devemos levar em conta que notas provenientes de bases de da-

dos distintas provavelmente apresentaro valores de intensidades sonoras diferentes,

j que dependem do setup de gravao utilizado. Pode-se, por outro lado, contra-

22 Os segmentos associados subida e descida do sinal para a maioria dos casos avaliados prati-

camente inexistem.

41
Metodo = corr - N. de seg. = 81
0,12

0,1

0,08
Pi (m)

0,06

0,04

0,02
Pitch = 123,0126

0
0 10 20 30 40 50 60 70 80 90
m (segmentos)

Figura 3.12: Envoltria da nota de uma trompa - B2 e seu pitch estimado.

argumentar que poderamos deixar que tais diferenas de dinmica fossem resolvidas

pelo classicador. Contudo, observou-se que determinados classicadores, como a

SVM e as Redes Neurais, podem eventualmente apresentar problemas de conver-

gncia na ausncia de escalamento das amostras num dado segmento. Assim, para

evitar problemas de convergncia e possveis confuses nas superfcies de separao,

que poderiam car demasiadamente especializadas com os nveis dinmicos encon-

trados na base de dados, optou-se por fazer um escalamento dinmico de todas as

amostras conforme:
~x x
x = (3.2)

Assim, para um dado segmento extrado por um dos mtodos descritos ante-

riormente, feito o escalamento do segmento, e so calculados os valores m1 (mdia),


m2 (varincia), m3 , e m4 conforme [23]

1 X
m1 = E[~x] = x =
xi , i = 1 . . . N (3.3)
N
r
1 X
m2 = E[(~x x) ] = , =
2 2
(xi x)2 , i = 1 . . . N (3.4)
N 1

42
1 X
m3 = E[(~x x)3 ] = (xi x)3 , i = 1 . . . N (3.5)
N
1 X
m4 = E[(~x x)4 ] = (xi x)4 , i = 1 . . . N (3.6)
N
sendo armazenados os valores (desvio padro), m3 e m4 para compor o vetor

de caractersticas. Note-se que o escalamento faz com que o segmento escolhido

tenha mdia zero e desvio-padro unitrio, sendo que, para o valor armazenado do

desvio-padro, usou-se a frmula no polarizada. Esses parmetros sero doravante

denominados descritores estatsticos.

Finalmente, devemos levar em conta que existe uma interdependncia entre a

trade escolhida (segmentao, extrao de caractersticas e classicao) e o resul-

tado obtido (taxa de acerto) do sistema de reconhecimento de notas. Logo, dizer que

uma forma de segmentao melhor ou prefervel outra uma assertiva algo pro-

blemtica, uma vez que esse resultado dependente dos demais elementos da trade.

Assim, uma comparao no desempenho do segmento escolhido, em ltima anlise,

somente possvel caso os demais elementos da trade se mantenham inalterados.

43
Captulo 4

Extrao de Caractersticas

Este captulo pretende descrever diversas formas de caractersticas represen-

tativas dos segmentos de sinais de udio, obtidos atravs de um dos mtodos descritos

no captulo anterior. Abordamos neste captulo: descritores temporais, caracters-

ticas obtidas sobre a envoltria da nota musical (inspiradas em medidas obtidas

sobre um pulso radar) [19]; descritores de udio usuais (descritores especcos) [2];

coecientes de predio linear (LPC); Line Spectral Frequencies (LSF); coecientes

Cepstrais (CEPSTRUM); coecientes Mel-Cepstrais (MFCC); e formao do vetor

de caractersticas.

Essas caractersticas representativas so usadas pelo mdulo extrator de ca-

ractersticas, que responsvel pela obteno de um conjunto de caractersticas

representativas do segmento analisado. O vetor de caractersticas obtido por meio

da concatenao de caractersticas estatsticas (desvio-padro e momento de terceira

ordem) dos segmentos, conforme visto na Seo 3.4, com as novas caractersticas

abordadas nesse captulo. Este vetor ser utilizado pelo processo de classicao

no sistema de reconhecimento automtico de instrumentos musicais, o qual objeto

dessa dissertao.

4.1 Descritores Temporais


A ideia de se usar essas caractersticas obtidas a partir da envoltria da potn-

cia instantnea da nota em sinais de udio veio, originalmente, de uma abordagem

utilizada no campo da Guerra Eletrnica (Warfare [19, 24]) para o problema de re-

44
conhecimento automtico do pulso radar. Nessa rea existe um problema similar ao

da identicao dos instrumentos musicais atravs de notas isoladas, que consiste em

identicar e classicar de forma individualizada pulsos de Rdio Frequncia (RF),

originados por radares distintos. Espera-se que o pulso de RF gerado por um ra-

dar preserve caractersticas especcas desse Radar, em funo de particularidades

como o circuito gerador do pulso de RF, a vlvula, o amplicador do pulso e a an-

tena transmissora. Todos esses elementos impactam no padro do pulso de RF em

funo das escolhas feitas durante o projeto do RADAR. Abaixo apresentamos na

Figura 4.1, o modelo temporal de um pulso (Modelo TP), com a descrio dessas

caractersticas representadas pelos seus respectivos rtulos (A,B, ... etc), extradas

da envoltria da potncia instantnea da nota.

Figura 4.1: Modelo TP - Parmetros de um pulso de RF tpico.

A- Tempo de subida: denido como o perodo de tempo entre os pontos de 10%

e 90% da intensidade do pico mximo de amplitude marcados sobre o leading

edge (bordo de ataque) do pulso;

B- Tempo de descida: denido como o perodo de tempo entre o ponto com a

1
amplitude correspondendo ao primeiro vale e o ponto de 10% da intensidade

1 Normalmente se adota 90% da intensidade do pico mximo, no entanto tal ponto quando

marcado sobre o tralling edge (borda posterior) nos sinais de udio no representava a descida do

sinal, assim, fez-se essa adequao.

45
do pico mximo da envoltria, marcados sobre o tralling edge do pulso;

C- Largura do pulso: denida como o perodo de tempo entre os pontos com

50% da amplitude do pico mximo marcados sobre o leading edge e o tralling

edge do pulso, respectivamente;

D- Tempo dos 90% do pico: denido como o perodo de tempo entre o primeiro

pico e o ponto de 90% do pico mximo de amplitude marcado sobre o leading

edge do pulso;

E- Tempo entre pico e vale: denido como o perodo de tempo entre o primeiro

pico e o primeiro vale da modulao do pulso;

F- Ripple percentual: denido como a diferena percentual de amplitude entre

o vale mais baixo e o pico mais alto;

G- Tempo entre vale e segundo pico: denido como o perodo de tempo entre o

primeiro vale e o segundo pico de modulao do pulso;

H- Percentual entre o vale e o segundo pico: denido como a diferena percentual

de amplitude entre o primeiro vale e o segundo pico;

I- Droop : denido como o ngulo em radianos entre a linha que liga o segundo

pico ao primeiro pico e a vertical.

Conforme se pode observar, exceto o droop (que uma medida angular) todas

essas caractersticas correspondem a medidas temporais ou de amplitude do sinal.

4.2 Descritores Especcos


Alguns trabalhos de classicao de instrumentos musicais utilizam deter-

minados descritores especcos para udio denidos no MPEG-7 [2] como medidas

discriminadoras para o processo de classicao. Esses descritores apresentam cor-

relao com aspectos da percepo humana. Portanto, so tambm chamados de

descritores perceptuais [25], apesar de serem parmetros objetivos e no subjetivos,

como deveriam ser para que pudessem ser assim denominados.

A seguir apresentam-se alguns desses parmetros e suas denies.

46
1. A taxa de cruzamento pelo zero (ZCR) representa um indicador da presena

de componentes peridicas no sinal, sendo frequentemente utilizado nas apli-

caes de processamento de voz. denido por:


P
n |sign(F (n)) sign(F (n 1))|
ZCR = , (4.1)
2Na
onde Na o nmero de amostras no frame, e F (n) o valor da n -sima amostra
do frame.

2. A raiz da mdia quadrtica (RMS) das amostras em um frame, denida por


rP
F (n)2
RMS = n
, (4.2)
N
est associada distribuio da energia ao longo dos frames.

3. O centride espectral mede a frequncia mdia ponderada em um dado frame ;

no seu clculo, as frequncias so ponderadas por suas respectivas amplitudes,

dividindo-se o resultado pela soma das amplitudes:


P
k P (f (k))f (k)
SC = P , (4.3)
k P (f (k))

onde f (k) a k -sima frequncia do espectro do frame e P (f (k)) o valor de

amplitude associado a essa frequncia.

4. A largura do centride calculada pelo mdulo da diferena entre o centride

espectral e cada frequncia, sendo ponderado pelas respectivas magnitudes:


P
|SC f (k)|P (f (k))
BW = k P (4.4)
k P (f (k))

5. O uxo espectral representa uma medida da mudana local espectral; no seu

clculo, considera-se o quadrado da diferena entre as magnitudes normaliza-

das de distribuies espectrais consecutivas:

X
FS = |P (f (k)) P (f (k 1))|2 . (4.5)
k

4.3 Coecientes de Predio Linear


A parametrizao LPC muito utilizada em modelos fonte-ltro de produo

de fala e msica. No caso da voz, por exemplo, cujo modelo de produo mostrado

47
na Figura 4.2, a fonte u(n) um sinal de excitao que representa a vibrao pro-

duzida no ar ao ser forado atravs das cordas vocais. Tal excitao passa ento por

um ltro H(z) que modela as ressonncias produzidas pelo trato vocal com funo

de transferncia:
G
H(z) = PNr , (4.6)
1+ i=1 ai z i

onde G o ganho do modelo fonte-ltro, Nr a ordem do ltro e ai , i = 1 . . . N r ,


representam os seus coecientes.

A sada do ltro o(n) origina o sinal de voz de interesse. A modelagem do

som produzido por um instrumento musical anloga [26].

Figura 4.2: Modelo de fonte-ltro para produo de voz e msica.

Uma vez que o sistema mostrado na Figura 4.2 modela convenientemente a

produo da fala ou do som originado por um instrumento musical, espera-se que no

caso dos instrumentos musicais, seus coecientes forneam um vetor de caractersti-

cas capaz de modelar a tendncia espectral, de forma a permitir uma discriminao

dos instrumentos musicais.

A estimao dos coecientes de predio linear consiste em encontrar um

conjunto de coecientes que minimizam o erro quadrtico mdio do seguinte preditor

forward, aplicado em uma sequncia:

X
N
s(n) = ak s(n k) (4.7)
k=1

onde o erro de predio e(n) a diferena entre o valor estimado s(n) e o valor real

s(n)2 .
2 A predio pode ser feita utilizando-se outros mtodos de predio, tais como: mtodo da

autocorrelao, covarincia, Burg, etc...

48
4.4 Line Spectral Frequencies
Pela anlise LPC, o preditor da Equao (4.7) pode ser visto como a sada

de um ltro gerador s-plos H(z) = 1/A(z) excitado por u(n), onde

A(z) = 1 + a1 z 1 + a2 z 2 + + an z N , (4.8)

sendo N a ordem do ltro. Para obtermos os coecientes LSFs, so elaborados dois

polinmios, um simtrico e outro antisimtrico, que so denidos a partir de A(z),


respectivamente, por

P (z) = A(z) + z (N +1) A(z 1 ) (4.9)

Q(z) = A(z) z (N +1) A(z 1 ). (4.10)

As razes de P(z) e Q(z) se localizam na circunferncia unitria e suas fases

denem os valores das LSFs.

4.5 Caractersticas Cepstrais


Diversas aplicaes em processamento de sinais utilizam-se de tcnicas no-

lineares, tais como a anlise cepstral. Conceitualmente, o cepstrum complexo de um

sinal u(n) dado por:

u(n) = Z 1 {ln Z {u(n)}} (4.11)

onde a transformao Z normalmente a DFT conforme pode ser visto na Figura

4.3 [27].

Na prtica, antes da computao do cepstrum, a sequncia u(n) multiplicada


por uma janela de suavizao (e.g., janela de Hamming).

Os primeiros componentes do cepstrum guardam informao sobre a envol-

tria da magnitude do espectro de um sinal, enquanto que os picos localizados no

nal do cepstrum correspondem parte coerente (determinstica) do espectro, tais

como os picos senoidais de um sinal harmnico. Assim, os coecientes de ordem

mais alta do cepstrum podem ser relacionados excitao quasi-harmnica em um

modelo de produo de fala [27].

49
Figura 4.3: Modelo cepstrum para entrada u(n).

4.6 Mel Cepstral Features


Uma das contribuies da psico-acstica foi a descoberta que o sistema au-

ditivo humano realiza uma anlise espectral de sinais sonoros na qual a resoluo

frequncial no-uniforme. Esta descoberta levou proposio de escalas auditi-

vas (e.g., Mel, Bark e ERB), no lugar de escalas fsicas (em Hz), para a anlise

perceptual de sinais acsticos.

O ponto de referncia entre as escalas mel e Hz foi denido como sendo 1000

mels para o pitch de um tom senoidal puro de frequncia igual a 1 kHz, com potncia

40 dB acima do limiar mnimo da audio humana.

Na Figura 4.4 vemos o mapeamento aproximado entre as escalas mel e Hz,

que analiticamente fornecida por:


f
M el(f ) = 2595 log10 1+ (4.12)
700

onde f a frequncia em Hz. Para as frequncias abaixo de 1000 Hz a relao

aproximadamente linear, e acima desse valor a relao logartmica.

Um outro fenmeno psico-acstico de interesse o mascaramento dentro das

chamadas bandas crticas [28].

Com o intuito de incorporar a escala mel e o conceito de banda crtica,

introduziu-se o efeito da banda crtica dentro da escala mel, de forma que, ao invs

de usarmos o logaritmo da magnitude das frequncias, passou-se a utilizar o loga-

50
4000

3500

3000

Frequencia (Mel)
2500

2000

1500

1000

500

0
1000 5000 10000 15000
Frequencia (Hz)

Figura 4.4: Mapeamento entre as escalas Hz e Mel, segundo a Eq. (4.12).

ritmo da energia total das bandas crticas em torno das frequncias mel. Para isso

utiliza-se um banco de ltros triangulares com resposta unitria na sua frequncia

central. No mais, as frequncias centrais dos ltros so espaadas linearmente na

escala Mel. Seus limites (inferior e superior da banda de passagem) coincidem com

as frequncias centrais dos ltros triangulares adjacentes [1].

A principal diferena entre o cepstrum e os coecientes mel-frequency cepstral

que no primeiro a anlise espectral feita com as bandas linearmente espaadas,

enquanto que no segundo as bandas de frequncia so igualmente espaadas con-

forme a escala mel, aproximando-se mais do processo de anlise realizado no sistema

humano de audio.

Finalmente, para se calcular os MFCC, divide-se o sinal s(n) em janelas.

Para cada janela estima-se a magnitude do espectro (na escala Hz), utilizando-se

o mdulo da DFT. Posteriormente cada espectro tem sua magnitude multiplicada

com cada ltro triangular. Ao m desse processo, faz-se o agrupamento dos valores

obtidos em cada canal. Obtm-se assim um coeciente para cada canal. O vetor feito

do logaritmo destes coecientes, mapeado novamente para o domnio do tempo

usando a DCT. A Figura 4.5 representa as etapas necessrias para obteno do vetor

3
MFCC .

3 Figura baseada no livro [2].

51
Figura 4.5: Esquema de obteno do vetor MFCC.

A escala mel normalmente garante uma melhor representao do som. Por

esse motivo os coecientes MFC tm um uso amplo em diversas aplicaes de udio,

como por exemplo na compresso e extrao de caractersticas para sistemas de

reconhecimento automtico, tanto para a fala quanto para instrumentos musicais [3,

6].

4.7 Vetor de Caractersticas


Conforme foi descrito nas sees anteriores, poderemos ter descritores tem-

porais, descritores especcos de udio ou coecientes provenientes de um dos codi-

cadores (LPC, LSF, CEPSTRUM ou MFCC). O nmero de coecientes que cada

codicador fornecer para o vetor de caracterstica, assim como o nmero de ele-

mentos estatsticos, sero objetos de estudo no Captulo 7. J os demais descritores

possuem nmero xo de coecientes, ou seja, 9 para o descritor temporal e 5 para o

descritor especco de udio.

Ao nal da codicao ser montado um vetor de caractersticas. Nesse vetor

52
sero acrescentados os elementos descritos nesse captulo e os descritores estatsticos

elencados ao nal do captulo anterior. Assim, o vetor de caractersticas poder

apresentar uma das seguintes formas:

descritores temporais + descritores especcos de udio + descritores estats-

ticos;

codicadores + descritores estatsticos;

codicadores + descritores especcos de udio + descritores estatsticos;

codicadores + descritores temporais + descritores estatsticos;

codicadores + descritores temporais + descritores especcos de udio +

descritores estatsticos.

Alm disso, devemos levar em conta que os descritores temporais usaro o

modelo TP, portanto a envoltria da potncia do sinal (mdia RMS) ser norma-

lizada. J os codicadores iro codicar um segmento especco, o qual, conforme

comentado no Captulo 3, ser escalonado. Portanto, o segmento onde se far parte

da extrao de caractersticas poder ser:

subida (modelo IMF);

ataque (modelo ADSR);

intermedirio (modelo IMF);

Todos os segmentos iniciais tiveram dois padres distintos processados pelo

sistema de reconhecimento automtico, um que sofreu uma transformao antes de

calcularmos os coecientes e um outro que no. No primeiro padro aplica-se a DCT

com intuito de aproveitarmos a propriedade de que a DCT de um sinal impulsivo

aproximadamente uma reta horizontal (conforme pode ser observado na Figura

4.6); j no segundo padro no se aplica a DCT.

Ao aplicarmos a DCT no segmento inicial, onde se espera que exista maior in-

cidncia de sinais impulsivos e no peridicos, podemos garantir que a sada resultar

num segmento com uma menor variao da amplitude e um certo nvel de estaciona-

riedade como se estivssemos no segmento de sustentao do modelo ADSR. Dessa

53
1,2
f(n)
DCT(f(n))
1

f(n) 0,8

0,6

0,4

0,2

0
600 400 200 0 200 400 600
n (amostras)

Figura 4.6: Sinal impulsivo e sua DCT.

forma espera-se facilitar a predio linear. Pode-se constatar essa menor variao da

amplitude nas Figuras 4.7 e 4.8, onde mostramos a DCT do segmento de ataque e

do segmento de subida, respectivamente, de uma nota C4 do instrumento Saxofone

Contralto.

Neste momento, podemos nalmente elaborar a Figura 4.9, a qual apresenta

um quadro resumo dos segmentos e dos descritores que sero empregados nessa

dissertao.

54
0,08

0,06
Ataque

0,04

0,02

0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
n (amostras)
(a)
0,15
DCT (ataque)

0,1

0,05

0,05
0 200 400 600 800 1000 1200 1400 1600 1800 2000
n (amostras)
(b)

Figura 4.7: (a) o segmento de ataque de uma nota C4 de um Saxofone Contralto;

(b) DCT do segmento (a).

55
0,08

0,06
Subida

0,04

0,02

0
0 500 1000 1500 2000
n (amostras)
(a)
0,04
DCT (subida)

0,02

0,02

0,04
0 500 1000 1500 2000
n (amostras)
(b)

Figura 4.8: (a) o segmento de subida de uma nota C4 de um Saxofone Contralto;

(b) DCT do segmento (a).

56
Figura 4.9: Quadro resumo da codicao.

57
Captulo 5

Mtodos de Classicao

Este captulo tem como escopo apresentar os mtodos de classicao que

foram empregados nessa dissertao e as transformaes no-lineares aplicadas aos

mtodos de classicao.

Existem diversos mtodos que usualmente so empregados para a etapa de

classicao, e que, de forma geral, podem ser classicados em um dos seguintes

grupos:

1. Mtodos conexionistas (Redes Neurais);


2. Mtodos probabilsticos (Modelo de Misturas Gaussianas);
3. Mtodos baseados em distncia (K -Vizinhos mais prximos);
4. Mtodos baseados em hiperplanos separadores (Mquina de vetor suporte).

Para reconhecimento automtico de padres ou no processo automtico de

reconhecimento de padres so encontrados diversos mtodos de classicao, tais

como: Redes Neurais [29, 30], Hidden Markov Models (HMM [31]), Modelo de Mis-

turas Gaussianas (GMM [6, 32]), Mquina de Vetor Suporte (SVM [8, 33]), Discri-

minantes Lineares [33], K -Vizinhos mais prximos (K -NN [34]), etc.

O presente trabalho no almeja avaliar todos os possveis mtodos de classi-

cao. Assim, sero abordados 3 mtodos de classicao: K -vizinhos mais pr-

ximos, SVM e Discriminantes Lineares. O primeiro mtodo foi escolhido por se

tratar de um classicador que normalmente encontrado em trabalhos de reconhe-

cimento de padres. Sua popularidade deve-se ao fato de ser um mtodo simples

e, por esse motivo, normalmente encontrado como referncia nos trabalhos para a

demonstrao dos resultados obtidos. O segundo mtodo foi escolhido em funo

58
da sua popularidade no emprego para trabalhos de reconhecimento automtico de

instrumentos musicais. Nesse quesito existem 2 mtodos que se destacam: a SVM

e o GMM. A escolha da SVM em detrimento do GMM foi arbitrria. J a escolha

do terceiro mtodo se deu visando apresentar uma abordagem diferente para reco-

nhecimento de instrumentos musicais, a m de que se possa fazer uma contribuio

alternativa nessa etapa para o sistema de reconhecimento automtico de instru-

mentos musicais. Assim, foi elaborado um classicador por discriminantes lineares,

por apresentar uma complexidade intermediria entre o SVM e o 1-NN e por ter

baixssimo emprego em reconhecimento de instrumentos musicais.

comum que, a partir das variveis de entrada obtidas do vetor de caracters-

ticas, aqui neste captulo chamado de vetor de entrada, delimitado por um domnio,

conhecido como espao de entrada (de dimenso N ), se faa uma transformao

no-linear (sobre o vetor de entrada) que mapeia a imagem num espao de dimen-

so maior (de dimenso M ), conhecido como espao de caractersticas. Aps essa

transformao no-linear feita a classicao, que mapeia a relao entre o con-

junto denido pelo espao de caractersticas e o conjunto delimitado pelo espao de

sada, conforme pode se ver na Figura 5.1

Figura 5.1: Mapeamento dos espaos envolvidos na classicao.

Portanto, o presente captulo ir apresentar as principais caractersticas dos

mtodos K -vizinhos mais prximos, uma implementao alternativa e generalizada

de Discriminantes Lineares, conhecida como Generalized Linear Discriminant [35],

e aqui denominada de DLG (Discriminantes Lineares Generalizados) e Mquina de

Vetor Suporte.

59
5.1 K -Vizinhos mais Prximos
O algoritmo dos K -vizinhos mais prximos (K -NN) um mtodo baseado em
distncia [35]. Assim, este mtodo estima a classe mais provvel de uma dada amos-

tra a ser classicada segundo alguma mtrica de distncia a um conjunto de treina-

mento formado por amostras cujas classes so previamente conhecidas. Percorre-se

o conjunto de treinamento, calculando a distncia de cada uma de suas amostras em

relao amostra a classicar. Obtm-se ento as K menores distncias associadas

amostra que se deseja classicar, ou seja, os K -vizinhos mais prximos. A classe

atribuda quela que foi mais frequente nos K -vizinhos. Caso K seja igual a 1, o

algoritmo reduzido busca do vizinho que apresenta a menor distncia, ou seja, o

vizinho mais prximo (1-NN). Nesse trabalho usou-se a mtrica de Minkowski [36]

de ordem p, para medir a distncia entre uma amostra do conjunto de treinamento e


a amostra que se pretende classicar. Para p=2, a mtrica de Minkowski equivale

distncia Euclidiana entre a amostra X e a amostra Mj do conjunto de treinamento.


A mtrica de Minkowski denida por:

v
u n
uX
Dx = t
j p
(xi Mji )p (5.1)
i=1

onde xi o elemento i do vetor de caractersticas da amostra X e Mji o elemento

i do vetor de caractersticas da amostra Mj do conjunto de treinamento M.


Alm dessa mtrica tambm foi avaliada uma mtrica conhecida como city-

block, que mede os valores absolutos da diferena entre as amostras.

5.2 Discriminantes Lineares


O discriminante linear almeja encontrar um hiperplano que separe duas clas-

ses. Assim, o seu objetivo achar, a partir de um conjunto de treinamento, o vetor

w
~ que dene um hiperplano separador, por meio da minimizao do quadrado do

erro de classicao dado por:

= t~x y(~x) (5.2)

onde t~
x (que pode assumir os valores -1 e 1) a classe da amostra ~x, e y uma funo
estimadora da classe. Assim, espera-se que se ~ 0~x > 0 , a amostra ~x pertena classe
w

60
1, caso contrrio pertencer classe -1. Portanto, a classe da amostra determinada

por:

~y (~x) = sign(w0~x) (5.3)

Para viabilizar a minimizao por mtodos que utilizam a direo do gradi-

ente, substituiu-se a funo sinal na Equao (5.3) pela funo tangente hiperblica.

A mudana se justica, uma vez que esta funo, assim como a funo sinal, possui

sua imagem limitada pelos valores -1,1, sendo, ao contrrio da funo sinal, total-

mente diferencivel em todo o seu domnio. Redene-se, ento, a classe da amostra

~x por:

y(~x) = tanh(w0~x) (5.4)

O algoritmo utilizado para minimizar o erro quadrtico foi o Least Mean

Squares (LMS) modicado por uma normalizao [37]. Portanto o passo de iterao

para se obter a convergncia pode ser facilmente obtido, sendo dado por:

~
f
w
~ k+1 ~ k w~
=w (5.5)
+
O algoritmo de gradiente utilizado para a atualizao da estimativa dado

pela equao acima e por:


f~
= 2(1 y 2 )~x (5.6)
w~

= (1 ) + x0 x (5.7)

onde assume o valor 0,05 (arbitrrio), a matriz inicializada como uma ma-

triz zero e uma matriz diagonal que apresenta valores da diagonal idnticos e

prximos a zero, a m de que a Equao (5.5) no apresente diviso por zero.

5.2.1 Transformao no Espao das Caractersticas


Tambm foi investigado o efeito de uma extenso do espao de caracters-

ticas [33], consistindo na incorporao das potncias, at um inteiro k, de cada

parmetro do vetor de caractersticas. Desta forma, se M a dimenso do vetor de

caractersticas associado a uma amostra, aps a extenso kM ser a nova dimenso

tanto deste vetor de caractersticas transformado, agora denido pela Equao (5.8)

~xp = [ (~xT ) (~xT )2 . . . (~xT )k1 (~xT )k ]T (5.8)

61
quanto do hiperplano separador, agora dado por

w ~ 1T ) (w
~ p = [ (w ~ 2T ) . . . (w T
~ k1 ~ kT ) ]T
) (w (5.9)

Nesse caso, a nova funo estimadora da classe passa a ser

Xk
y 0 (~x) = tanh( ~ iT ~xi )
w (5.10)
i=1

Esta transformao no-linear foi usada em particular com o classicador

DLG, de forma que a partir dela pode-se separar classes que antes no eram linear-

mente separveis. Como se ver mais adiante, ela provocou um aumento na taxa de

acerto das classes.

5.3 Mquina de Vetor Suporte


Esta seo pretende fazer uma breve descrio de como funciona uma M-

1
quina de Vetor Suporte, SVM, (do ingls Support Vector Machine ) . A SVM im-

plementa discriminantes lineares (hiperplanos) num espao obtido por uma trans-

formada do espao de entrada, diferenciando uma classe, a positiva, de outra, a

negativa (uma classicao binria, na sua forma tradicional).

A SVM visa construir um hiperplano que maximize a margem de separa-

o entre os exemplares positivos e os negativos. Esse objetivo obtido atravs

de uma abordagem baseada na Teoria Estatstica de Aprendizagem [38], implemen-

2
tando aproximadamente o mtodo de minimizao do risco estrutural . Na Figura

5.2 encontramos um exemplo de um hiperplano separador timo. Neste exemplo, as

cruzes pertencem a uma classe e os traos pertencem a outra classe. A despeito da

utilizao de discriminantes lineares, uma SVM no necessita, para efeitos de gene-

ralizao, de classes linearmente separveis. Tal se deve ao fato de a discriminao

poder ser empregada num espao de caractersticas, o qual j uma transformao

no-linear (kernel ) do espao de entradas. Assim o vetor de entrada (~


x), no espao
de entradas, mapeado em uma dimenso mais alta no espao das caractersticas

(~
z ). Escolhendo um mapeamento no linear a priori, a SVM constri um hiperplano

1 Um maior aprofundamento pode ser obtido em [35].

2 Uma demonstrao sobre as caractersticas desse modelo pode ser encontrada em [39].

62
Figura 5.2: Hiperplano separador timo.

separador timo neste espao de dimenso mais alta, conforme pode-se ver na Figura

5.1.

As restries que o mapeamento no-linear sofre sero abordadas na Subseo

5.3.2, a qual apresentar alguns mapeamentos aceitveis, tais como o polinomial,

RBF e algumas funes sigmides.

5.3.1 Caso linear do Modelo da SVM


Se o problema linearmente separvel por um hiperplano separador, o equa-

cionamento para o modelo SVM dado por:

X
n
1 XX
n n
max D(~
) = k i j yi yj h~
xi , x~j i, (5.11)
k=1
2 i=1 j=1

sujeito a:
X
n
i y i = 0 (5.12)
i=1

0 i C, (5.13)

onde i o multiplicador de Lagrange, x~i o vetor de entrada e yi a classe associada


ao i-simo vetor de entrada [+1,-1]. O coeciente C tem que ser determinado. Este

parmetro introduz uma capacidade de controle adicional no classicador, podendo

representar algum tipo de conhecimento a priori [39].

Assim, a soluo tima fornecida por:

1 XX X
n n n

= arg min i j yi yj h~
xi , x~j i k (5.14)
2
i=1 j=1 k=1

63
5.3.2 Transformaes No-Lineares - Kernel
O mapeamento do espao de entrada num espao de dimenso mais alta,

a m de resolver a limitao de classes que no so linearmente separveis por

hiperplanos separadores, pode ser justicada invocando-se o clebre Teorema de

Cover [40], o qual arma que padres no-linearmente separveis pertencentes a um

dado espao de entradas so, com alta probabilidade, linearmente separveis num

espao de caractersticas, desde que a transformao seja no-linear e a dimenso

do espao de caractersticas seja alta o suciente.

A teoria das funes kernel baseada em Reproducing Kernel Hilbert Spaces,

RKHS [41, 42, 43, 44] arma que um produto interno no espao de caractersticas

tem um kernel equivalente no espao de entrada, ou seja,

K(x, x0 ) = (h(x), (x0 )i) (5.15)

desde que garanta certas condies, como K ser uma funo simtrica denida po-

sitiva, e respeite as condies de Mercer dadas por:

X

K(x, x0 ) = am m (x)m (x0 ), am 0 (5.16)
m
ZZ
K(x, x0 )g(x)g(x0 )dxdx0 > 0, g L2 3 (5.17)

Assim, existem algumas restries para que um mapeamento no-linear sob a

forma de kernel possa ser empregado. Portanto, dado um mapeamento : Rd 7 H


(onde a dimenso de H maior que d) a ideia encontrar um hiperplano separador

num espao dimensional mais alto, equivalente a uma superfcie no-linear em Rd .


Esta abordagem resolve um problema, j que teramos de calcular o pro-

duto interno h(x), (x0 )i, e isto seria complicado, visto que a dimenso H pode

ser muito alta, ocasionando um problema de complexidade combinatorial, a um

custo computacional impraticvel. No entanto, se for conhecida a funo kernel

0
(K(x, x )), pode-se us-la no lugar do produto interno da funo , o que reduziria

o custo computacional, evitando que o produto interno no espao de caractersticas

fosse calculado. Esta abordagem fornece um caminho de se contornar a maldio

da dimensionalidade, porm o treinamento continuar dependente do nmero de

3 Ou seja,
R
g(x)2 dx nito.

64
amostras, o que continua sendo uma restrio, visto que uma boa aproximao da

distribuio dos dados depende de um grande nmero de amostras.

Assim, o kernel representa o produto interno no espao de caractersticas, e,

a seguir, apresentamos alguns mapeamentos que satisfazem as condies de Mercer.

5.3.2.1 Polinomial

K(x, x0 ) = (hx, x0 i)d (5.18)

K(x, x0 ) = (hx, x0 i + 1)d (5.19)

5.3.2.2 Gaussian Radial Basis Function


0 kx x0 k2
K(x, x ) = exp (5.20)
2 2

5.3.2.3 Exponential Radial Basis Function, RBF


0 kx x0 k
K(x, x ) = exp (5.21)
2 2

5.3.2.4 Multi-Layer Perceptron

K(x, x0 ) = tanh(ahx, x0 i + b) (5.22)

Dentro os mapeamentos descritos o polinomial o mtodo mais popular.

Note-se que o kernel apresentado na Equao (5.19) evita possveis problemas de

singularidade quando a hessiana vai a zero.

5.3.3 Caso No-Linear do Modelo da SVM


A SVM no espao de caractersticas resolve um problema de programao

no-linear que almeja maximizar a margem entre os vetores de entrada transforma-

dos e o hiperplano separador. A maximizao se d conforme o equacionamento na

65
forma dual dada por [35]:

X
n
1 XX
n n
max D(~
) = k i j yi yj K(~
xi , x~j ) (5.23)
k=1
2 i=1 j=1

sujeito a:

X
n
i y i = 0 (5.24)
i=1

0 i C (5.25)

onde K(~
xi , x~j ) o kernel aplicado ao espao de entrada e as demais variveis esto

descritas na Seo 5.3.1. Nesse caso conforme [39] a soluo dada pela Equao

5.26, e a classicao obtida a partir da Equao 5.27.

1 XX X
n n n

= arg min xi , x~j )
i j yi yj K(~ k (5.26)
2
i=1 j=1 k=1

X
h(~x) = sgn( i yi K(~
xi , ~x) + b) (5.27)
iSV

onde b representa o bias, e SV representa o conjunto dos vetores suporte, maiores

detalhes sobre esse classicador pode ser encontrado alm das referncias j citadas

nessa seo em [45].

66
Captulo 6

Agrupamentos Hierrquicos,
Abordagens Multiclasse e Estratgias

Neste captulo analisaremos os seguintes tpicos: agrupamentos hierrqui-

cos empregados nessa dissertao; abordagens multiclasse usadas em discriminantes

lineares e mquinas de vetor suporte; e algumas estratgias associadas a essas abor-

dagens para o sistema de reconhecimento automtico de instrumentos musicais. Usa-

remos o conceito de famlia de instrumentos como sendo constituda de um conjunto

particular de instrumentos musicais denida por um dos agrupamentos hierrqui-

cos discutidos no Captulo 2, e grupo de instrumentos como sendo um conjunto de

instrumentos obtidos por um algoritmo que vise melhorar a sua diferenciao.

6.1 Agrupamentos Hierrquicos Empregados


Inicialmente no Captulo 2 discutimos algumas formas de se agrupar os instru-

mentos musicais segundo taxonomias padres da literatura, referentes ao estudo de

organologia. No entanto, essa dissertao ir se restringir a basicamente 3 padres

de agrupamentos. O primeiro padro de agrupamento consiste na coleo indivi-

dual dos instrumentos. O segundo consiste na coleo das famlias de instrumentos

conforme a taxonomia normalmente empregada nas orquestras sinfnicas, com um

desdobramento, decorrente dos trabalhos anteriormente elaborados por [3, 4], onde

as autas constituem uma famlia separada. Assim, nesse agrupamento as famlias

so as autas, as palhetas, os metais, as cordas e os instrumentos de percusso. Por

67
m, essas famlias de instrumentos, em algumas simulaes, foram agrupadas for-

mando outras famlias, constituda pelos instrumentos de sopro (autas, palhetas,

metais), cordas e percusso.

Assim, para cada uma das bases de dados (MIS, MUMS e RWC) foram

utilizados conjuntos de instrumentos distintos, representando tambm taxonomias

distintas quanto ao agrupamento de instrumentos.

Assim, os agrupamentos contendo 2 e 4 famlias de instrumentos, SC (sopro e

cordas) e MFPC (metais, autas, palhetas e cordas), foram utilizados para o banco

de dados MIS, enquanto que os agrupamentos contendo 3, 4 e 5 famlias, SPC (sopro,

percusso e cordas), MFPC e MFPPC (metais, autas, palhetas, percusso e cordas)

foram utilizados para o Banco de dados RWC e MUMS.

Alm disso, foram criados 3 agrupamentos distintos de instrumentos (deno-

minados INSTRUMENTOS) para cada base de dados e um agrupamento contendo

instrumentos das 3 bases de dados.

Resumindo, foram criados dez agrupamentos para avaliar o desempenho do

sistema. Seis deles representam taxonomias aplicadas famlia de instrumentos e os

outros quatro representam taxonomias aplicadas aos instrumentos individualmente.

Nas Tabelas 6.1, 6.2 e 6.3, apresentamos a descrio dos agrupamentos hie-

rrquicos utilizados nesse trabalho para cada uma das 3 bases de dados, seguida da

Tabela 6.4 que contm a descrio do agrupamento hierrquico reunindo as 3 bases

de dados.

68
Tabela 6.1: Tabela contendo os agrupamentos usados para a base de dados MIS.

Tabela 6.2: Tabela contendo os agrupamentos usados para a base de dados MUMS.

6.2 Abordagens Multiclasse


Em princpio existem duas abordagens normalmente empregadas para a mul-

ticlasse no uso de discriminantes lineares, um-contra-um (one-against-one ) e um-


69
Tabela 6.3: Tabela contendo os agrupamentos usados para a base de dados RWC.

Tabela 6.4: Agrupamento usado combinando as 3 bases de dados.

70
contra-todos (one-against-all ). Cada uma delas apresenta particularidades e pode-

mos dizer que uma segue uma losoa hierarquizada e a outra uma losoa direta,

portanto no-hierarquizada.

1. Um-contra-todos: nesse caso (representado pela Figura 6.1) o procedimento

de generalizao do problema de discriminao de 2 classes para o problema

de discriminao multiclasse resolvido atravs de um processo de deciso

em cadeia, como uma rvore binria, onde cada n representa a deciso de

separar uma classe especca contra o restante. Caso a deciso seja a favor da

classe especca, a amostra em teste classicada como sendo desta classe, e o

processo decisrio de classicao para aquela amostra se encerra. No entanto,

caso a deciso seja contrria classe especca, o processo decisrio prossegue

e outra classe especca testada contra o restante, excluindo-se para esse

conjunto (dito restante) todas as classes especcas que o processo de deciso

j testou. Nesse contexto, a raiz representa todos os instrumentos, e as folhas

representam as classes nais a serem identicadas, ou instrumentos caso venha-

se querer identicar ao nvel de instrumentos. Os ns representam as decises

entre uma classe nal e o conjunto restante. Esta abordagem apresenta o

inconveniente de acumular o erro ocorrido na deciso do n predecessor.

2. Um-contra-um: nesse caso, a generalizao obtida por meio de P discrimi-

nantes, onde P representa todas as duplas possveis, a partir do total de classes

que esto sendo avaliadas (vide Figura 6.2). A amostra testada em todos os

P discriminantes, e posteriormente contabilizada a classe que foi mais vo-

tada para aquela amostra. A amostra classicada como sendo a classe que

recebeu mais votos. Portanto, nesse caso procura-se identicar diretamente to-

das as classes de instrumentos (folhas). Nesse contexto, dada uma amostra ela

ser identicada como correspondente classe que apresentar a maior proba-

bilidade. Normalmente essa abordagem costuma apresentar uma taxa mdia

de acerto global maior que a abordagem anterior, conforme podemos constatar

no trabalho de Eronem [46]. Uma das justicativas para que isso ocorra que,

ao utilizarmos a abordagem anterior, caso existam instrumentos com taxas de

acerto baixas, estes iro contaminar a soluo obtida para o treinamento de

suas respectivas famlias (n pai), fazendo com que o nmero de instrumentos

71
Figura 6.1: rvore binria - representao um-contra-todos.

que venham a ser classicados para outra famlia (n irmo) aumente, e assim

o erro se propague. A princpio, a desvantagem do mtodo sem hierarquizao

a maior dimensionalidade que se exigir no vetor de caractersticas para que

todas as particularidades de todos instrumentos sejam igualmente apreciadas,

aumentando assim a complexidade computacional e dicultando a obteno

da soluo do classicador na fase de treinamento.

6.3 Estratgias
Nesta seo iremos abordar trs estratgias para o sistema de reconhecimento

automtico com o intuito de se obter as classes pretendidas, ou seja: modelo padro,

modelo hierrquico e um modelo de reagrupamento. Cada uma das formas apresen-

tadas nesta seo apresenta singularidades; no h nessa dissertao a pretenso de

se fazer uma anlise aprofundada de cada uma dessas formas a m de se determinar

qual delas a melhor na maioria dos casos. No entanto, para algumas situaes es-

peccas, uma determinada estratgia poder ter uma desempenho superior (taxa de

72
Figura 6.2: rvore contendo as classes de interesse - representao um-contra-um.

acerto global) em relao s demais. Esse resultado vlido para um dado conjunto

de treinamento e teste, e limitado a um nmero nito de classicadores e formas de

codicao investigadas.

Em alguns casos, a taxa de acerto global pode ser afetada por suas amostras

ao menos por 2 motivos:

problemas de contaminao: ocasionados por existirem algumas amos-

tras mal-posicionadas no espao de caractersticas, ou seja, a amostra que se

pretende classicar pertence a uma classe distinta da classe majoritria das

amostras da sua vizinhana. Este problema pode ocorrer por medidas mal

efetuadas na formao da base de dados.

problemas de confuso: ocasionados por classes mal separveis no espao

de caractersticas, ou seja, na vizinhana da amostra a ser classicada existem

amostras tanto de sua classe quanto de outras classes em propores equi-

valentes. Esse problema, na maioria dos casos nesse trabalho, ocorre com

instrumentos de uma mesma famlia.

73
6.3.1 Estratgia 1 - Modelo Padro
A primeira estratgia, ilustrada na Figura 6.3 e conhecida como modelo pa-

dro, uma abordagem direta e amplamente utilizada em diversos trabalhos de

reconhecimento automtico de padres, conforme pode-se encontrar nas refern-

cias [2, 46] A estratgia 1 composta pelos seguintes mdulos:

Figura 6.3: Sistema padro de classicao.

1. Pr-processador;

2. Processador de Caractersticas;

3. Gerador de Classes;

4. Classicador de Instrumentos.

O classicador de Instrumentos pode usar qualquer uma das duas abordagens

multiclasse j citadas anteriormente.

6.3.2 Estratgia 2 - Modelo Hierrquico


Uma segunda estratgia (hierrquica), proposta nesta dissertao, difere da

primeira estratgia porque, ao invs de obter diretamente a taxa de acerto ao clas-

sicar as amostras em instrumentos musicais, utiliza uma abordagem indireta, ou

74
seja, obtm primeiro as classicaes para as famlias de instrumentos, para depois

obter as classicaes para os instrumentos (com um classicador especializado).

Essa estratgia tem sua arquitetura esboada na Figura 6.4 e est exemplicada na

Figura 6.5.

Figura 6.4: Estratgia 2.

A estratgia 2 apresenta 5 mdulos independentes:

1. Pr-processador;

2. Processador de Caractersticas;

3. Gerador de Classes;

4. Classicador de Famlias;

5. Classicadores Especializados de Instrumentos por Famlias.

Assim, uma caracterstica interessante desse mtodo que pode-se pensar

em aplicar mtodos de classicao distintos e/ou vetor de caractersticas distintos

para cada n (famlia, grupo, etc).

Igualmente, nessa abordagem, possvel construir esquemas onde parte das

amostras do instrumento cam num ramo e o restante das amostras ca em outro

ramo, sendo que ambos conjuntos de amostras pertenam ao mesmo instrumento.

Um exemplo disso se encontra em [46] em que os instrumentos com vibrato so

75
Figura 6.5: Agrupamento hierrquico de famlias de instrumentos musicais.

separados dos instrumentos sem vibrato, antes de se identicar o instrumento. As-

sim, em ambos os ramos aps essa separao aparecero amostras pertencendo ao

mesmo instrumento. Dessa forma, no necessrio que amostras que tenham carac-

tersticas distintas quem agrupadas na mesma classe. Essa possibilidade permite

que se construa classes (famlias) articiais a partir de mtodos de clusterizao,

visando agrupar as amostras que possuam caractersticas comuns. Isso facilitar a

discriminao das classes alterando a taxa de acerto na classicao.

Muitas vezes existem vrias possibilidades de agrupar as amostras em famlias

disjuntas, cada qual formada por um conjunto distinto de instrumentos musicais, de

forma que existem diversas estruturas hierrquicas (rvores) cujas folhas consistem

nos instrumentos que sero classicados. A escolha da melhor rvore (estrutura

hierrquica) a ser usada pode fazer parte do problema do modelo hierrquico, uma

vez que se pode agrupar os instrumentos em famlias (ns) de diversas maneiras.

Pelos motivos enumerados acima, essa abordagem pode obter excelentes taxas

de acerto, podendo superar o modelo padro que utiliza uma abordagem direta no-

hierarquizada, desde que se permita nesse modelo exibilizar o classicador e o vetor

76
de caractersticas empregado em cada n.

6.3.3 Estratgia 3 - Modelo de Reagrupamento - Nvel Alm


Uma terceira estratgia (mtodo 3), mais simples, consiste em classicar pelo

mtodo 1 as amostras em grupos formados em um nvel alm do nvel de interesse

(aqui denominado como subtipos de instrumentos), para depois reagrup-los ao nvel

de interesse (instrumentos), conforme pode ser visto na Figura 6.6. Essa aborda-

gem exige que as classes no nvel de interesse possam ser subdivididas em classes

1
mais atomizadas , o que normalmente possvel, bastando que existam amostras

sucientes para isso.

Figura 6.6: Estratgia 3.

A estratgia 3 apresenta os seguintes mdulos:

1. Pr-processador;

2. Processador de Caractersticas;

3. Gerador de Classes;

4. Classicador de Subtipos de Instrumentos;

5. Reagrupador em Instrumentos.

1 Pode se pensar em usar para cada classe um clusterizador, de forma que cada classe ser

atomizada em subclasses.

77
O reagrupamento em famlia difere de um treinamento direto para classicar

as famlias, porque os hiperplanos separadores das famlias idealmente sero solues

timas para o espao das caractersticas, o que o reagrupamento no necessariamente

ir seguir. Assim, uma transformao do espao de entrada para o espao das

caractersticas que no permita uma soluo (com o uso de um hiperplano separador)

capaz de obter uma separao de 100% das amostras das classes distintas (na fase

de treinamento), pode em tese, com o uso do reagrupamento, obter uma curva de

separao (formada por vrios hiperplanos) capaz de distinguir 100% das amostras

das classes distintas oferecidas na fase de treinamento, conforme pode-se observar

na Figura 6.7.

Figura 6.7: Diferena entre a classicao direta e com reagrupamento com uso de

hiperplanos separadores.

Na Figura 6.7, a classe 1 formada pelas subclasses mais e asterisco,

enquanto que a classe 2 formada pelas subclasses crculo e quadrado. O hi-

perplano separador da subclasse asterisco da subclasse quadrado representado

pela reta A-Q, enquanto que o hiperplano separador da subclasse mais da subclasse

crculo e o hiperplano separador da subclasse mais da subclasse quadrado so

representados respectivamente pelas retas M-C e M-Q. O hiperplano separador da

subclasse asterisco da subclasse crculo no se encontra representado na Figura

6.7 porque o hiperplano representado pela reta A-Q satisfaz esta separao.

Pode-se observar na Figura 6.7 que no existe uma reta capaz de separar

totalmente as amostras da classe 1 da classe 2. A reta 1-2 representa um hiperplano

separador (timo) da classe 1 da classe 2 com erro mnimo. No entanto, a curva

78
obtida pelo reagrupamento dos hiperplanos separadores obtidos para as subclasses,

representado pela curva R, capaz de separar 100% das amostras. Evidentemente

o reagrupamento nem sempre representa uma soluo melhor; o que poder indicar

qual separao melhor nesse espao de caractersticas ser o erro obtido para as

2
amostras teste nas regies divergentes . Assim, nesse exemplo, apesar da curva de

separao obtida pelo reagrupamento dos hiperplanos separadores para as subclasses

ser capaz de conseguir distinguir 100% das amostras das classes 1 e 2, no representa

necessariamente uma separao melhor. Para que isso ocorra, basta existirem mais

amostras teste da classe 2 do que da classe 1 nas regies divergentes (cinzas).

Os erros de contaminao e confuso, nesse caso, se do nas amostras dos

subtipos de instrumentos (nvel alm), afetando a classicao nesse nvel. Nesse

caso, o erro de classicao pode ser carregado para o nvel acima (o nvel de inte-

resse, instrumento), mesmo aps o reagrupamento, caso o erro se d entre subtipos

de instrumentos que pertenam a instrumentos diferentes. Portanto, esses erros s

sero evitados caso as amostras pertenam ao mesmo instrumento. Caso os erros

ocorram entre amostras que pertenam a instrumentos distintos, pode-se pensar em

redenir os instrumentos, de forma que as amostras de subtipos de instrumentos

distintos (em que ocorrem os erros) venham a pertencer ao mesmo grupo (instru-

mento), o que em princpio pode no ser sempre possvel, face existncia de uma

pr-denio das classes que se pretende classicar (instrumentos) ou o nvel de

confuso e contaminao que o conjunto de dados apresenta.

Assim, os erros causados entre subtipos de instrumentos distintos so elimina-

dos quando reagrupamos os respectivos subtipos num mesmo grupo (instrumento).

Da mesma forma podemos generalizar essa tcnica a nvel de instrumentos, com res-

tries, e determinar que um agrupamento hierrquico adequado pode maximizar a

taxa de acerto global no nvel acima (famlia), abrindo possibilidades de denirmos

formas mais adequadas de agrupamentos de instrumentos visando a maximizao

da taxa de acerto (famlias), e no por convenes denidas pelas caractersticas

dos instrumentos ou por modelos fsicos de produo do som, conforme vimos no

Captulo 2.

Assim, essa abordagem na prtica pode ter um melhor desempenho global

2 Representada na Figura 6.7 pelas regies preenchidas de cinza.

79
caso o algoritmo de posicionamento dos hiperplanos separadores (para os subtipos

de instrumentos) venha a obter um posicionamento melhor para os hiperplanos sepa-

3
radores , quando comparado com o posicionamento obtido nas demais abordagens.

Um dos fatores para que isso venha a ocorrer uma parada antecipada forada pelo

algoritmo de posicionamento dos hiperplanos em funo de uma convergncia lenta

ou outra condio satisfeita pelo critrio de parada, gerando assim, uma soluo

ruim quando comparada quela obtida sem essa antecipao.

Assim, os mtodos 1, 2 e 3 no so equivalentes entre si, e eventualmente

cada qual pode obter um desempenho global melhor que os demais, dependendo

dos classicadores empregados, de como ocorre a distribuio das amostras nos

espao das caractersticas e do mapeamento do espao de entrada para o espao das

caractersticas utilizado.

3 Principalmente se o posicionamento do hiperplano for melhor para os instrumentos contendo

mais amostras, supondo uma medida para a taxa de acerto global ponderada.

80
Parte III

Resultados

81
Captulo 7

Construo de um Procedimento de
Reconhecimento Automtico

Este captulo descreve a metodologia de busca utilizada para obter as so-

lues, a formao dos conjuntos de teste e treinamento, a avaliao do modelo

multiclasse, a anlise do desempenho da envoltria comparado ao da potncia ins-

tantnea, a anlise do segmento a ser utilizado, a obteno do vetor de caracters-

ticas, a avaliao dos classicadores e a obteno de um mtodo de reconhecimento

1
automtico para um dado agrupamento musical .

Nesse trabalho o mtodo de reconhecimento automtico para um dado agru-

pamento dentro de uma dada base de dados representa uma descrio dos elementos

que compem o vetor de caractersticas, combinados a um classicador limitado a

um subconjunto de possibilidades pesquisadas. Assim, o conjunto descritor [vetor

2
de caractersticas, classicador] para um dado agrupamento ser indistintamente

chamado de soluo.

7.1 Metodologia de Busca para obter as Solues


Devido ao fato da anlise ser extremamente complexa admitindo uma mirade

de combinaes, de bom tom que avaliemos o custo computacional para pesquisar

1 Podendo ser o prprio instrumento.

2 Inseridos nesse contexto: as transformaes sobre o sinal, sobre o vetor de caractersticas e

sobre o classicador.

82
minimamente as principais combinaes possveis frente ao leque de possibilidades

3
que essa dissertao apresenta na busca da soluo tima . Tal clculo pode ser feito

de maneira aproximada da seguinte forma: temos basicamente 2 formatos (envoltria

da potncia instantnea ou a potncia instantnea), 4 codicadores a serem testados,

4 5
4 momentos, 5 segmentos intermedirios do modelo IMF + ataque + subida ,

4 quantidades de coecientes (8, 16, 24, 32), presena ou no de caractersticas

temporais, presena ou no de descritores de udio, 3 classicadores, 3 tipos de

agrupamentos e 3 bases de dados, perfazendo um total de 244742


2 3 3 3 = 96768 possibilidades. Levando em conta que cada classicao em

6
MATLAB leva aproximadamente 5,7 minutos (DLG e SVM > 8 minutos, K -NN <
1 minuto) teremos 774.144 minutos, ou, 551577,6/1440 dias 383 dias de simulao
ininterrupta, ou seja, mais que 1 ano, e sem levar em considerao as variaes sobre

o kernel, mtricas e transformaes do espao de entrada, o tempo de codicao dos

dados e o pr-processamento. Assim, sero adotados alguns critrios para reduzir o

espao de solues visando garantir uma maior viabilidade na busca das melhores

solues.

Neste captulo sero apresentados indicativos para uma dada soluo como

a taxa de acerto global, que representa o nmero de acertos divididos pelo nmero

de amostras testadas, e a taxa de acerto mdia, que representa a mdia das taxas

de acertos entre cada classe testada (como se as classes tivessem sido testadas com

o mesmo nmero de amostras), ou seja, nesse caso cada classe entra com igual peso

no clculo da taxa de acerto mdia. Arbitrariamente se adotar o seguinte critrio:

a taxa de acerto global (mais usual) ser preferida, enquanto que a taxa de acerto

mdia vir como critrio de desempate, uma vez que no se pretende avaliar todas

as possveis combinaes para os agrupamentos com maior nmero de classes.

Assim, o procedimento ser feito atravs de uma heurstica, e seguir uma

sequncia de etapas para a obteno das solues, de forma que a deciso obtida

3 Numa busca exaustiva, ou seja, para um espao de solues discreto.

4 Variando-se os limiares.

5 Os segmentos contendo a parte nal da nota foram retirados desse estudo, devido ao fato de

alguns testes preliminares com esse segmento no apresentaram bons resultados.

6 Foi usado um processador DUAL CORE 3,0 Ghz com 1Gb de memria RAM.

83
em cada etapa tender a reduzir o nmero de possibilidades a serem investigadas

na etapa posterior. Certamente esse procedimento excluir vrias combinaes,

seguindo aproximadamente um algoritmo guloso, baseado nos indicativos da taxa

de acerto global e da taxa de acerto mdia obtidas para o agrupamento MFPC

(Metais, Flautas, Palhetas e Cordas).

Portanto, no se espera que as melhores solues encontradas para cada agru-

pamento pesquisado, sejam as solues timas nos espaos de solues pesquisados.

No entanto, algumas (ou qui todas as solues sub-timas encontradas) podem

eventualmente ser as solues timas para seus respectivos espaos de solues.

Num primeiro momento, cada uma das bases de dados descritas sumaria-

mente no apndice A sero tratadas de forma independente, ou seja, cada qual ter

um conjunto de instrumentos diferentes, mas contendo um conjunto menor de ins-

trumentos comuns (aos pares). Esse conjunto menor de instrumentos comuns ser

usado no nal, com o emprego de todas as bases de dados, para avaliarmos melhor

a capacidade de generalizao do mtodo obtido.

Nas avaliaes das primeiras etapas as estimativas sero obtidas a partir de

conguraes bsicas. Essas conguraes bsicas sero denominadas sistemas de

7
referncia .

1. sistema de referncia A - Composto por um vetor de caractersticas contendo

24 coecientes LSF mais o desvio do segmento, conforme resultados obtidos em

[33], extrados do segmento associado intermedirio proposto pelo modelo IMF

com limiares de 10% e 90%, descritos no Captulo 3. Foi usado um classicador

1-NN com uma mtrica de distncia euclideana, associada estratgia denida

pelo modelo padro, com uma distribuio dos dados de 10% das amostras para

teste e 90% das amostras para treinamento;

2. sistema de referncia B - Igual ao sistema de referncia A, exceto pelo classi-

8
cador usado (SVM com um kernel gaussiano de desvio padro igual 1).

7 Essa congurao bsica no to trivial, mas foi decorrente de um estudo anterior presente

em [33]. Assim, a taxa de acerto alta inicialmente se deve presena dos codicadores.

8 Para todos os casos que esse classicador (SVM) foi usado nessa dissertao a constante C

presente na Equao 5.25 assumiu o valor innito.

84
Nas etapas iniciais iremos denir qual das 3 bases de dados ser empregada

nas anlises que determinaro a melhor soluo. As demais bases de dados sero

novamente utilizadas somente na avaliao da taxa de acerto de seus respectivos

agrupamentos (aps a obteno de um conjunto de solues mais provveis) e ao

nal, na avaliao da capacidade de generalizao do mtodo, quando ento mistu-

raremos as bases de dados.

Devido ao fato de estarmos usando nas anlises um dos sistemas anterior-

mente denidos, importa ressaltar que sempre teremos resultados parcialmente ver-

dadeiros, embora esses resultados sejam usados como a melhor escolha no tocante

reduo do espao de solues, o que no impede que esses resultados obtidos pos-

sam vir a ser verdadeiros para alm do escopo no qual eles se mostraram verdadeiros

(conforme as simulaes realizadas).

7.2 Formao dos Conjuntos de Teste e Treinamento


Salvo informao expressamente contrria, todas as simulaes usaro 10%

das amostras de cada banco de dados para teste e 90% das amostras para treina-

mento. Foram usados 2 classicadores usualmente empregados em diversos trabalhos

na rea (K -NN e SVM), os quais tambm serviro de controle para a taxa de acerto

obtida para a implementao elaborada nessa dissertao em DLG. Assim, pode-se

avaliar se os percentuais obtidos por esse classicador (DLG) esto prximos ou no

dos percentuais atingidos pelos outros classicadores.

Todas as amostras foram organizadas a partir do seguinte procedimento: os

instrumentos foram subdivididos nas suas respectivas variaes (pizzicato, vibrato,

tremolo, staccato, etc...), inclusive para as suas variaes no nvel dinmico (Forte,

Mezzo e Piano ). A partir de cada agrupamento resultante das subdivises anteriores,

as notas foram ordenadas segundo a tessitura do instrumento (em ordem crescente

de pitch ).

Para teste foram sorteadas amostras na regio central da tessitura de cada

instrumento, de forma que os 10% iniciais e os 10% nais da tessitura foram exclu-

dos, restando, portanto, 80% da regio central. Dessa regio central sortearam-se

85
9
para cada subdiviso 10% das amostras para formarem o conjunto de teste . As

amostras restantes foram usadas para treinamento. Tal critrio foi adotado tendo

em vista que a regio central da tessitura de cada instrumento a regio para a qual

o instrumento musical foi melhor projetado, e portanto onde se espera encontrar

seu maior uso. Assim, avaliar o desempenho com amostras sorteadas dessa regio

central representa avaliarmos o desempenho do classicador onde se espera ocorrer

uma maior frequncia das notas numa distribuio real.

7.3 Avaliao do Modelo Multiclasse


Nesta seo faremos uma breve simulao usando o sistema de referncia B

10
para avaliar qual modelo multiclasse que ser empregado no resto desta dissertao .

Certamente o resultado obtido por algumas simulaes aqui apresentadas no

permite que se arme categoricamente qual mtodo o melhor, e em que circuns-

tncias isso ocorre. No entanto, pretende-se conseguir um indicativo do modelo

multiclasse que mais adequado ao problema proposto nessa dissertao.

As avaliaes feitas nessa seo contemplaro somente o agrupamento MFPC.

Na Tabela 7.1 apresentamos os resultados obtidos para cada um dos mtodos mul-

ticlasse descritos na Seo 6.2, considerando todas as bases de dados.

Tabela 7.1: Tabela contendo os resultados das abordagens multiclasse nas 3 bases

de dados usando o sistema de referncia B.

Conforme pode-se observar, o modelo multiclasse um-contra-um obteve re-

9 Foram feitos 3 sorteios para cada base de dados, e optou-se por aquele conjunto de amostras

que apresentou uma taxa de acerto intermediria a partir do sistema de referncia A. A maior

variao obtida foi em torno de 3%.

10 No faz sentido fazer uma avaliao do modelo multiclasse para o classicador K -NN, por isso
foi usado o classicador SVM.

86
sultados superiores para todas as bases de dados quando comparado ao desempenho

11
do modelo um-contra-todos . Assim, face aos resultados vericados, o modelo um-

contra-um ser adotado no restante dessa dissertao.

7.4 Anlise do Desempenho da Envoltria versus


Potncia Instantnea
Nas avaliaes feitas nessa seo foi usado o sistema de referncia A associado

ao classicador 1-NN para o codicador LSF, para as classes MFPC, MFPPC, SC

e SPC, a depender das possibilidades em cada banco de dados.

Num primeiro momento, sero extrados trechos do sinal a partir de sua

envoltria pelo mtodo da mdia e pelo algoritmo detector de envoltria, assim

como diretamente da potncia instantnea do sinal.

Sero avaliados 3 formatos: a potncia instantnea (Pi ), a envoltria da

potncia instantnea pelo algoritmo detector de envoltria (Epi ), e a envoltria

obtida pelo algoritmo da mdia RMS (Eprmsi ), para cada uma das classes associada

a cada base de dados.

Na Tabela 7.2 apresentamos as taxas de acerto para o banco de dados MIS em

alguns agrupamentos num sistema de reconhecimento automtico de instrumentos

musicais.

Tabela 7.2: Tabelas da base de dados MIS representando agrupamentos hierrquicos

versus formato do sinal.

11 Na implementao realizada para o modelo um-contra-todos vericou-se primeiro qual o de-

sempenho de cada classe contra o restante; posteriormente ordenou-se esses resultados formando

a deciso hierrquica na rvore binria.

87
Nas Tabelas 7.3 e 7.4 apresentamos as taxas de acerto para os bancos de dados

MUMS e RWC em alguns agrupamentos hierrquicos usando o mesmo sistema de

reconhecimento automtico empregado nas simulaes que constam na Tabela 7.2.

Tabela 7.3: Tabelas da base de dados MUMS representando agrupamentos hierr-

quicos versus formato do sinal.

Tabela 7.4: Tabelas da base de dados RWC representando agrupamentos hierrqui-

cos versus formato do sinal.

Ao analisarmos as Tabelas 7.2, 7.3 e 7.4 podemos concluir, caso se queira

usar a codicao LSF, que a potncia instantnea obteve taxas de acerto muito

superiores s das envoltrias, seja pelo mtodo DEAM, seja pelo mtodo da Mdia

(RMS). Isto foi verdade para todos os agrupamentos e para todas as bases de da-

dos testados. Assim, para o restante da dissertao no se avaliar o formato das

88
12
envoltrias para se obter as caractersticas via codicadores .

13
Pode-se inferir uma possvel explicao para esse comportamento , como

oriundo da suavizao da curva ao obtermos a envoltria do sinal. Dessa forma,

perdemos informao til para a codicao. Corroborando este raciocnio, temos

que, quanto maior for a suavizao, maior ser a perda. E para constatar tal ar-

mao basta vericar nas Tabelas 7.2, 7.3 e 7.4, onde o mtodo da mdia obteve

taxas de acertos inferiores ao mtodo DEAM, da mesma forma o DEAM obteve

um desempenho inferior em relao ao mtodo da potncia instantnea, em todos

os agrupamentos e para todas as bases de dados. Uma outra observao que pode

ser feita que as taxas obtidas para o formato potncia instantnea nas 3 bases

de dados variou menos de 4% para o agrupamento MFPC, indicando que o mtodo

usado possui capacidade de generalizao para essas bases de dados.

A partir desta seo iremos privilegiar a base de dados MIS, porque ela apre-

sentou a menor taxa de acerto para a classe MFPC. Assim, espera-se que uma

congurao que angarie uma melhoria na sua taxa de acerto para um dado agrupa-

mento implique tambm em melhorias nas demais bases de dados no agrupamento

correspondente.

Tambm iremos privilegiar o agrupamento MFPC, a m de evitarmos uma

14
exploso combinatorial de possibilidades quando usarmos os classicadores DLG

ou SVM. Ao nal, para as solues que apresentarem melhores resultados, avaliare-

mos os demais agrupamentos em suas diversas bases de dados.

12 Esse resultado foi tambm vericado para os codicadores LPC e MFCC em todos os conjuntos

de amostras testados.

13 Esse comportamento teve sua comprovao parcial feita no classicador 1-NN.

14 Uma vez que a classe MFPC possui somente 4 classes, o nmero de mquinas classicadoras a

serem executadas ca reduzido. Para cada vetor de caractersticas uma soluo multiclasse (um-

nn1
contra-um) contendo n classes atravs de hiperplanos separadores usa
2 classicadores para

obter a soluo.

89
7.5 Anlise dos Segmentos
A ideia por trs da anlise dos segmentos determinar se existe algum seg-

15
mento privilegiado , ou seja, que concentra mais informao com capacidade de

discriminao para as famlias de instrumentos musicais ou para os prprios instru-

mentos musicais. Se a resposta for positiva, iremos nos concentrar em extrair as

caractersticas das notas concentradas somente nesse(s) segmento(s) privilegiado(s),

ao invs de tentarmos extrair caractersticas sobre toda a nota. Os segmentos pes-

quisados sero o ataque, a subida e o segmento estacionrio (intermedirio) obtido

pelo modelo IMF. O segmento estacionrio do modelo ADSR, ou seja, o segmento

de sustentao, foi posto de lado nessas avaliaes pelo fato de este segmento no

estar presente em todas as notas, para todos os instrumentos. Para essas simulaes

16
usaremos o sistema de referncia A .

Na Tabela 7.5 apresentamos os resultados obtidos para o segmento interme-

dirio do modelo IMF usando o sistema de reconhecimento automtico de instru-

mentos musicais descrito na seo anterior para a base de dados MIS. Variou-se o

limiar superior para os valores 10%, 30%, 50%, 70% e 90% na expectativa de en-

contramos o limiar que dene o segmento mais signicativo para a discriminao

das classes. Avaliaram-se os codicadores LSF, MFCC e LPC, para vericar uma

possvel persistncia na escolha do limiar.

Tabela 7.5: Tabela para a base de dados MIS contendo a taxa de acerto para o

segmento intermedirio para o modelo IMF.

A Tabela 7.6 apresenta as mesmas simulaes para a base de dados RWC.

Conforme se pode observar ao vericarmos os percentuais obtidos para cada

15 Esse privilgio logicamente funo da forma de extrao de caractersticas e do classicador

empregado.

16 Dessa forma, o resultado dessa seo foi avaliado somente para o classicador 1-NN.

90
Tabela 7.6: Tabela para a base de dados RWC contendo a taxa de acerto para o

segmento intermedirio para o modelo IMF.

codicador, no existe um segmento que se destaque, cando as taxas de acerto

sempre na mesma ordem de grandeza, independentemente do tamanho do segmento

intermedirio. No entanto, esse resultado signicativo, uma vez que o segmento

intermedirio com limiar de 90% menor que o segmento que seria obtido caso o

limiar fosse 10%. Portanto, prefervel codicar um segmento menor, obtendo taxas

de acerto equivalentes. Assim, visando reduzir o nmero de possibilidades a serem

investigadas, iremos daqui em diante sempre adotar o limiar de 90% como o limiar

superior para o modelo IMF.

Alm dos segmentos de ataque e de subida foi avaliado o segmento que repre-

17
senta os primeiros 23,2 ms . Na Tabela 7.7 apresentamos os resultados obtidos na

base de dados MIS para os segmentos de ataque (modelo ADSR), subida (modelo

18
IMF) e no segmento que representa os 23,2 ms iniciais.

Tabela 7.7: Tabela para a base de dados MIS contendo a taxa de acerto nos seg-

mentos iniciais.

17 Para todas as notas considerou-se o limiar de 10% para a deteco da nota.

18 Nos instrumentos em que os segmentos de ataque e subida apresentaram menos que 1024

amostras, o segmento foi redimensionado para ter 1024 amostras, que corresponde 23,2 ms.

91
O mesmo procedimento feito para montar a Tabela 7.7 foi feito para a base

de dados RWC apresentado na Tabela 7.8.

Tabela 7.8: Tabela para a base de dados RWC contendo a taxa de acerto nos

segmentos iniciais.

Conforme se pode observar, o uso da DCT no segmento de ataque piorou a

taxa de acerto. O mesmo foi verdade para os codicadores LSF e MFCC. No entanto,

para o codicador LPC, o uso da DCT foi praticamente indiferente, apresentando

uma pequena melhora. Para os segmentos iniciais, os segmentos de ataque sem o

uso da DCT foram os que apresentaram os melhores resultados, caso combinados

com o codicador LSF ou MFCC. No entanto, at mesmo esses segmentos obtiveram

taxa de acerto inferior dos segmentos intermedirios quando codicados pelos seus

respectivos codicadores em suas respectivas bases de dados. De outra forma, o pior

resultado obtido pelos segmentos intermedirios foi melhor que o melhor resultado

obtido pelos segmentos iniciais, obviamente respeitando o codicador e o banco de

dados.

Portanto, nessa dissertao iremos, a partir desse ponto, trabalhar somente

com o segmento intermedirio proposto pelo modelo IMF. No entanto, os resultados

do segmento de ataque (Modelo ADSR) para o codicador MFCC foram signicati-

19
vos , embora inferiores aos resultados obtidos no segmento intermedirio. Por esse

20
motivo esse trecho (ataque) foi colocado de lado .

19 Os resultados desse trecho para o codicador LSF foram considerados razoveis quando com-

parados aos resultados obtidos no segmento intermedirio ou no segmento de ataque.

20 A ideia somente codicar um trecho que contenha capacidade de discriminar os instrumentos

musicais.

92
7.6 Obteno do Vetor de Caractersticas
Nesta seo sero avaliados os codicadores, os elementos estatsticos, per-

ceptuais, e temporais a partir da potncia instantnea do sinal. Os codicadores

avaliados so o LSF, LPC, MFCC e CEPSTRUM, sendo que o nmero de coecientes

desses codicadores sero 8, 16, 24 e 32, obtidos a partir do segmento previamente

escolhido da amostra na seo anterior, o qual j sofreu o escalonamento dinmico.

Um fator que se deve destacar que o codicador LSF representado pelos

ngulos dos nmeros complexos que representam as razes dos polinmios P (z) e

Q(z) vistos nas Equaes (4.9), (4.10) na Seo 4.4, portanto de natureza diversa

dos coecientes MFCC e LPC. Se por acaso estabelecermos que usaremos 16 ngulos

LSFs, devemos levar em conta que toda soluo complexa um par conjugado, e

sabendo que um par conjugado possui o mesmo ngulo (a menos do sinal), devemos

ento trabalhar com o dobro de solues (32) para obtermos os 16 ngulos preten-

didos. Logo, a ordem do polinmio para obtermos as solues LSFs o dobro da

ordem dos polinmios para obtermos as solues LPC e MFCC. Assim, comparaes

diretas entre a taxa de acerto obtida com uma soluo usando LSFs e outra usando

LPC ou MFCC (xado o nmero de coecientes) sero feitas nessa dissertao, ape-

sar dessa diferena no grau do polinmio. Caso se queira compensar essa diferena,

devemos avaliar as solues com 32 coecientes LPCs e MFCCs contra a soluo

contendo 16 coecientes LSFs.

Nesta seo tambm sero avaliadas as caractersticas estatsticas de ordens

2, 3 e 4 do trecho da amostra, os descritores especcos de udio tais como ZCR,

RMS, SC, ux, BW, e as caractersticas temporais obtidas a partir da envoltria da

potncia instantnea do sinal, tais como largura do pulso, tempo de subida, tempo

de descida, droop, etc.

A implementao do DLG empregada nessa dissertao utilizou dois outros

critrios de parada alm do erro a ser minimizado, um a partir do nmero mximo

de iteraes (6000) e outro que estima se variao do erro absoluto menor que um

nmero arbitrariamente pequeno. Ambos os critrios acrescentados prejudicam a

otimizao almejada, o que justica em parte os resultados ligeiramente inferiores

que foram obtidos. No entanto, tal procedimento evita problemas de regies de

convergncia lenta, ou problemas de otimizao sem soluo, que ocorreram com

93
relativa frequncia no caso da SVM.

7.6.1 Resultados dos Codicadores mais Desvio Padro do


Segmento
Uma vez denido o segmento (segmento intermedirio do modelo IMF) que

contm mais informao discriminante das famlias de instrumentos musicais (obtido

a partir do limiar de 90%), se far nessa seo uma anlise mais detalhada do nmero

mais adequado de coecientes associados aos codicadores e quais codicadores que

apresentam resultados mais signicativos para a abordagem empregada.

Inicialmente iremos avaliar se todos os codicadores apresentam taxas de

acerto similares. Caso algum que com taxas de acerto bem abaixo dos demais, este

ser descartado. Da mesma forma, se algum car com taxas de acerto muito acima

das taxas dos demais este ser ento preferido.

A partir dessa seo ir aparecer um outro indicativo, denominado Taxa de

Treinamento (Tx Treino), que avalia o desempenho do treinamento. Logo, para

os classicadores SVM e DLG, a soluo obtida pode no ser capaz de discriminar

100% das amostras que foram usadas no treinamento. Essa informao indica se

a transformao no espao de caractersticas foi adequada ou se as amostras so

facilmente separveis. Na Tabela 7.9 apresentamos os resultados obtidos.

Tabela 7.9: Estatstica das taxas de acerto para todos os codicadores empregados

nessa dissertao com o classicador 1-NN.

94
Pode-se observar na Tabela 7.9 que as solues obtidas usando o codicador

CEPSTRUM obtiveram desempenho bem abaixo dos demais codicadores, num

patamar inferior a 69%. Portanto, o codicador CEPSTRUM no conseguiu obter

um vetor de caractersticas com capacidade discriminatria (nmero de coecientes

igual a 8, 16, 24 e 32) usando o segmento intermedirio do modelo IMF. Assim, se

descartar o uso desse codicador para a pesquisa da melhor soluo.

Podemos tambm observar que o codicador MFCC em mdia apresentou os

melhores resultados, seguido do codicador LSF e LPC, em ordem decrescente de

desempenho. Da mesma forma, optou-se por retirar das anlises a codicao com 8

coecientes, visto ter sido a que apresentou o pior desempenho para os codicadores

LPC, CEPSTRUM e MFCC, e apesar de no ter sido a pior para o codicador LSF

21
tambm no foi a que apresentou o melhor desempenho .

A seguir foram avaliadas as solues para 16, 24 e 32 coecientes do mesmo

vetor de caractersticas para os classicadores SVM (kernel gaussiano) e DLG (trans-

formao de potenciao de ordem 2) mostrados nas Tabelas 7.10 e 7.11

Tabela 7.10: Estatsticas com as taxas de acerto para o classicador SVM (kernel

gaussiano com desvio padro unitrio).

7.6.2 Resultados com as Caractersticas Temporais


Os descritores temporais usados foram os discutidos na Seo 4.1.

De todos os resultados apresentados nesta seo sero apresentados somente

22
aqueles que apresentaram os melhores desempenhos para cada codicador , por-

21 Esses resultados, onde aparece um pior desempenho no uso de 8 coecientes, foram tambm

observados em outras simulaes envolvendo outros conjunto de amostras de teste.

22 No entanto, para todos os casos aqui constantes foram feitas simulaes que aparecem segundo

95
Tabela 7.11: Estatsticas com as taxas de acerto para o classicador DLG (transfor-

mao de potenciao de ordem 2).

que caso apresentssemos todos os resultados, apareceriam solues repetidas, de

desempenho bem similar.

A m de evitarmos problemas de discriminao da mtrica de distncia (1-

NN) e de problemas de convergncia com a SVM, foi feito um escalamento esta-

tstico, usado somente para esses classicadores, ou seja, SVM e 1-NN, j que o

DLG no teve problemas com a ausncia do escalamento estatstico. Ao usarmos o

escalamento estatstico, surge um problema que a necessidade de determinar um

escalamento para as amostras teste. A soluo adotada foi escalar as amostras testes

com as mdias e desvios obtidos do conjunto de treinamento.

Nas Tabelas 7.12, 7.13, e 7.14 apresentamos os resultados para os classica-

dores DLG, 1-NN e SVM, respectivamente, acrescidos no seu vetor de caractersticas

das caractersticas temporais.

o formato apresentado na Tabela 7.9.

96
Tabela 7.12: Melhores resultados para o classicador DLG (Potenciao de ordem

2) com caractersticas temporais.

Tabela 7.13: Tabela com os melhores resultados para o classicador 1-NN (mtrica

euclideana) com caractersticas temporais.

Os resultados obtidos atravs do classicador 1-NN (mtrica euclideana, com

o acrscimo dos descritores temporais sem aplicar o escalamento estatstico), se mos-

traram indiferentes s variaes do nmero de coecientes e variao dos descri-

tores estatsticos. Assim, a soluo obtida neste caso foi a seguinte: metais 40,00%,

palhetas 32,35%, autas 59,49% e cordas 78,10%, totalizando uma taxa de acerto

global de 61,29%. Portanto, podemos vericar na Tabela 7.13 que o escalamento

estatstico apresentou bons resultados, melhorando o desempenho signicativamente

quando comparado aos resultados sem o escalamento estatstico. No entanto os clas-

sicadores SVM e 1-NN obtiveram uma taxa de acerto pior quando foi acrscido os

descritores temporais aos codicadores.

Tabela 7.14: Melhores resultados para o classicador SVM (kernel gaussiano) com

caractersticas temporais.

97
7.6.3 Resultados com os Descritores de udio
Nesta seo apresentaremos os resultados obtidos com o acrscimo dos descri-

tores de udio que foram vistos na Seo 4.2. Igualmente a seo anterior os dados

das amostras de treinamento para os classicadores SVM e 1-NN foram escalonados

estatisticamente.

Nas Tabelas 7.15, 7.16, 7.17 apresentamos as taxas de acerto para os classi-

cadores DLG, SVM e 1-NN respectivamente.

Tabela 7.15: Resultados obtidos pelo classicador DLG.

Tabela 7.16: Resultados obtidos pelo classicador SVM.

Tabela 7.17: Resultados obtidos pelo classicador 1-NN.

98
J o acrscimo dos descritores de udio provocou uma melhoria na taxa de

acerto para os classicadores 1-NN e DLG quando comparada aos resultados obtidos

para o vetor de caractersticas contendo somente os codicadores e os descritores

estatsticos (acrescidos ou no dos descritores temporais).

7.6.4 Resultados com Caractersticas Temporais e Descrito-


res de udio
Nas Tabelas 7.18, 7.19, 7.20 apresentamos os quadros com todas as melhores

solues, incluindo os resultados com as caractersticas temporais e perceptuais para

os classicadores DLG, 1-NN e SVM respectivamente.

Tabela 7.18: Resultados obtidos pelo classicador DLG.

Tabela 7.19: Resultados obtidos pelo classicador 1-NN.

Tabela 7.20: Resultados obtidos pelo classicador SVM.

99
Conforme pode-se observar, os resultados obtidos apresentaram para o DLG

um acrscimo na taxa de acerto global, com o aumento do nmero de elementos no

vetor de caractersticas, sendo que o vizinho mais prximo apresentou o seu pice

com o acrscimo dos descritores de udio, assim como a SVM.

Porm pode-se observar que para a maioria dos casos a melhor soluo para

o codicador LSF 16 (exceto para o classicador DLG cuja melhor soluo foi com

32 coecientes), sendo tambm a melhor soluo para os codicadores MFCC e LPC

(ou seja, o mesmo nmero de coecientes).

Da mesma forma podemos dizer que a combinao para MFCC de 16 co-

ecientes + desvio + m3 foi unnime, o mesmo acontecendo para LPC. A nica

divergncia foi a presena ou no das caractersticas temporais, onde cada classi-

cador apresentou um quadro diverso.

Pode-se vericar no quadro 7.21 uma sntese das melhores solues.

Tabela 7.21: Melhores solues para cada classicador/codicador.

100
7.6.5 Anlise da Correlao e Redundncia das Variveis de
Entrada
Nesta seo avaliaremos (via correlao) se as variveis de entrada apresen-

tam algum grau de similaridade. Caso isso seja verdade haver a necessidade de

avaliarmos a permanncia dessas variveis.

As variveis que sero avaliadas so as caractersticas temporais, os descrito-

res especcos de udio, e os momentos.

Nas Tabelas 7.22, 7.23 e 7.24 que se seguem esto marcadas as correlaes

com mais de 40% de similaridade, sendo que as que obtiverem mais de 95% esto

marcadas em tom mais escuro.

Tabela 7.22: Tabela contendo a correlao das variveis para o banco de dados MIS.

Conforme pode-se observar nas Tabelas 7.22, 7.23 e 7.24 existem 3 correla-

es com alta taxa de similaridade (superior a 95%) que so comuns a todas as bases

23
de dados, ou seja, RMS com std , BW com SC, e m3 com m4 . Simulaes feitas

retirando-se uma das variveis que apresentaram alto grau de correlao para SVM

e DLG levaram a pequenas variaes na taxa de acerto (entre 1% e 2,5%), redu-

zindo a taxa de acerto, o que indica que essas variveis, apesar de possurem entre

si um alto grau de correlao, esto contribuindo positivamente no desempenho dos

23 Essas medidas representam basicamente a mesma informao, uma apresenta o desvio polari-

zado e a outra o desvio no polarizado.

101
Tabela 7.23: Tabela contendo a correlao das variveis para o banco de dados

MUMS.

Tabela 7.24: Tabela contendo a correlao das variveis para o banco de dados

RWC.

classicadores empregados. Dessa forma, no se far o descorrelacionamento das va-

riveis nessa dissertao, deixando tal procedimento para trabalhos futuros quando

se pretende avaliar tambm outros classicadores, como, por exemplo, redes neurais.

A seguir aplicou-se uma ferramenta de anlise de componentes principais

(PCA) para vericarmos se existem variveis linearmente dependentes das demais

102
variveis. Em outras palavras, vericamos se h redundncia suciente para a redu-

o da dimenso do espao de entrada. Na Tabela 7.25 apresentamos as primeiras

10 observaes da matriz dos dados (da base de dados MIS) contendo as observaes

(descritas em variveis temporais, descritores especcos de udio e momentos do

segmento avaliado) na representao do espao de componentes principais. Caso

haja redundncia em alguma varivel, uma coluna aparecer zerada na matriz no

espao das componentes principais, indicando que essa varivel linearmente de-

pendente.

Tabela 7.25: Tabela contendo as 10 primeiras observaes da Matriz de dados no

espao das componentes principais.

Portanto, vericamos a inexistncia de variveis linearmente dependentes das

demais no vetor de caractersticas, apesar de algumas delas apresentarem alta taxa

de correlao. Logo, no se far eliminao de nenhuma varivel de entrada, uma

vez que, no se vericou nenhuma redundncia de varivel (PCA), e a retirada das

variveis com alto grau de correlao apresentou um efeito danoso na taxa de acerto

global (entre 1% e 2,5% para os classicadores SVM e DLG).

7.7 Avaliao dos Classicadores


Nesta seo iremos avaliar o desempenho dos classicadores empregados nessa

dissertao variando-se o kernel para o classicador SVM, empregando um kernel

polinomial de ordem 2 ou 3. Tambm iremos variar a transformao no espao de

entrada usando potenciao de ordem 3 ou 4, e nalmente iremos variar a mtrica

de distncia do classicador K -NN, assim como o nmero de vizinhos mais prxi-

103
mos para 3 ou 5. Essas avaliaes sero feitas somente para as melhores solues

obtidas para cada codicador a cada classicador. Ao nal, cada classicador ter 4

possibilidades (3 com uso de codicadores e uma sem uso de codicador) de solues

otimizadas frente s variaes a serem feitas para cada classicador, perfazendo um

total de 12 candidatos.

Assim, seguindo o mtodo proposto visando reduzir o nmero de possibi-

lidades a serem analisadas, apresentam-se as melhores solues obtidas para cada

classicador (Tabelas 7.26, 7.27, 7.28) em funo de algumas variaes investiga-

24
das .

Tabela 7.26: Melhores solues obtidas para o classicador K -NN.

Ao nal podemos agrupar as 12 melhores solues (conforme a Tabela 7.29),

que sero usadas para avaliar a capacidade de generalizao do mtodo e as taxas

de acerto nas demais bases de dados.

A partir dessa seo todas as matrizes de confuso que aparecero nessa

dissertao faro referncia ao nmero da soluo constante na primeira coluna da

Tabela 7.29.

24 As solues marcadas com * diferem do que apareceram inicialmente na Tabela 7.10 porque

para essas solues foi feito o escalonamento estatstico.

104
Tabela 7.27: Melhores solues obtidas para o classicador SVM.

Tabela 7.28: Melhores solues obtidas para o classicador DLG.

105
Tabela 7.29: As melhores solues obtidas para cada codicador em cada classica-

dor.

106
Captulo 8

Avaliao da Taxa de Acerto

Este captulo contm a avaliao da taxa de acerto para o agrupamento

MFPC, a avaliao da taxa de acerto para o agrupamento INSTRUMENTO e a

estimativa da taxa de acerto do classicador proposto. Esta ltima tem por obje-

tivo avaliar o desempenho do mtodo de reconhecimento automtico elaborado nos

captulos anteriores, usando amostras reservadas para teste pertencentes s 3 bases

de dados (MIS, MUMS e RWC).

As amostras da base de dados MUMS s aparecero na Seo 8.3, uma vez que

essa base de dados possui poucas amostras para alguns instrumentos. As amostras

da base de dados RWC sero usadas a partir da Seo 8.2. Assim, apresentare-

mos alguns resultados obtidos inicialmente para as amostras da base de dados MIS,

variando-se os agrupamentos e as estratgias, depois contendo amostras da base de

dados RWC para o agrupamento instrumento, e nalmente contendo amostras da

base de dados MUMS, quando faremos uma estimativa da taxa de acerto do classi-

cador proposto. Todas as solues usadas foram obtidas da Tabela 7.29 presentes

no captulo anterior.

8.1 Avaliao da Taxa de Acerto para o Agrupa-


mento MFPC
Nesta seo iremos apresentar os resultados obtidos com amostras da base

de dados MIS usando o agrupamento MFPC, tanto para a estratgia padro quanto

para algumas estratgias alternativas que foram ilustradas no Captulo 6. No en-

107
tanto, essas estratgias alternativas aparecem nessa dissertao somente como uma

avaliao exploratria dessas estratgias (comprovando que apresentam taxas de

acertos globais diferentes para a mesma soluo com o mesmo agrupamento), j que

no se pretende avaliar para essas estratgias (alternativas) a taxa de acerto para

outros agrupamentos alm do agrupamento MFPC.

O estudo feito sobre o agrupamento MFPC a partir do segmento central do

modelo IMF, apresentado no captulo anterior, determinou quais eram as melho-

res solues. Para se chegar s 12 melhores solues analisou-se 391 sistemas de

reconhecimento automtico, formados por 8 solues com variaes sobre o classi-

cador DLG, 12 solues com variaes sobre o classicador SVM, 20 solues com

variaes sobre o classicador K -NN, 27 solues sem codicador, e 324 solues

resultantes da combinao dos seguintes elementos: 3 estatsticas (m2 , m3 e m4 ), 3

coecientes (LSF, MFCC e LPC), 3 quantidades de coecientes (16, 24, e 32), 3 clas-

sicadores (DLG, SVM e K -NN) e 4 padres de vetor de caracterstica ( somente

codicadores, codicadores e descritores temporais, codicadores e descritores de

udio, codicadores e descritores temporais e descritores de udio).

Com intuito de sintetizar os resultados apresentados por essa busca das me-

lhores solues, apresentaremos somente duas tabelas contendo 351 solues corres-

pondentes s 324 solues descritas anteriormente acrescidos das 27 solues sem o

uso dos codicadores.

Tabela 8.1: Taxa de acerto versus codicadores.

Conforme pode se observar na Tabela 8.1, todas as solues na faixa de

acerto superior a 90% usaram codicadores. E na faixa de acerto superior a 95%

esto somente solues com o uso dos codicadores LSF e MFCC. J na Tabela 8.2

todos os classicadores apresentaram solues em todas as faixas. Deve-se destacar

que, de modo geral, o classicador K -NN teve um desempenho melhor que o DLG, o

108
Tabela 8.2: Taxa de acerto versus classicadores.

qual, por sua vez, foi ligeiramente melhor que a SVM. No entanto, se incluirmos as 40

solues que no constam nessas tabelas, o classicador SVM apresentou a soluo

com melhor desempenho. Portanto, apesar das amostras demonstrarem uma ligeira

preferncia para o classicador K -NN, no houve uma superioridade clara entre um


classicador em relao aos demais.

As amostras usadas para se avaliar o desempenho nas matrizes de confuso

que sero apresentadas nessa seo foram as mesmas em todos os casos.

8.1.1 Resultados do Agrupamento MFPC na Estratgia 1


Nessa subseo ilustraremos alguns dos resultados obtidos. As solues 2, 6

e 10 apresentadas nas Tabelas 8.3, 8.4 e 8.5 representam, respectivamente, solues

obtidas de classicadores distintos, a saber: K -NN, SVM e DLG.

Tabela 8.3: Matriz de confuso para o agrupamento MFPC, usando a soluo 2.

109
Tabela 8.4: Matriz de confuso para o agrupamento MFPC, usando a soluo 6.

Tabela 8.5: Matriz de confuso para o agrupamento MFPC, usando a soluo 10.

8.1.2 Resultados do Agrupamento MFPC nas Estratgias 2


e3
Nesta subseo ilustraremos os resultados obtidos para algumas estratgias

alternativas. Deve-se ressaltar que as solues para a estratgia 1 e estratgia 3 so

as mesmas quando se usa o classicador K -NN. Assim, iremos avaliar a estratgia

3 somente para as solues 6 e 10, que foram ilustradas na Seo 8.1.1, as quais

utilizam os classicadores SVM e DLG, respectivamente.

Conforme se pode observar na matriz de confuso ilustrada pela Tabela 8.6,

a taxa de acerto obtida para essa estratgia foi superior taxa de acerto obtida

usando o modelo padro, conforme pode se ver na matriz de confuso apresentada

pela Tabela 8.5, comprovando o fato de que as estratgias podem obter desempenhos

distintos.

J a soluo 6 combinada com a estratgia 3 (conforme pode se ver na Ta-

bela 8.7) apresentou um resultado ligeiramente inferior ao resultado obtido por essa

110
Tabela 8.6: Matriz de confuso para o agrupamento MFPC, usando a soluo 10

combinada com a estratgia 3.

soluo quando combinada com o modelo padro (estratgia 1).

Tabela 8.7: Matriz de confuso para o agrupamento MFPC, usando a soluo 6

obtida usando a estratgia 3.

Para a estratgia 2, a seguir ilustraremos para as mesmas amostras, uma

escolha combinando duas das trs solues aqui investigadas, para demonstrar a

potencialidade dessa abordagem.

Conforme pode-se observar, tanto para a estratgia 3 quanto para a estra-

1
tgia 1, o melhor desempenho foi para a soluo 6 combinada com a estratgia 1 ,

2
demonstrado pela sua taxa de acerto de 99,6% . No entanto, se combinarmos a

soluo 2 com a soluo 6 e usarmos a estratgia 2, possvel obtermos para esse

caso uma taxa de acerto de 100%

Primeiro iremos classicar as amostras cordas do total de amostras conforme

1 Isso tambm foi verdade para as as demais solues usando a estratgia 1, conforme se encontra

ilustrado na Tabela 7.29.

2 A taxa de acerto para a estratgia 3 foi de 99,2%, o mesmo valor foi obtido para a soluo 2.

111
a Tabela 8.8.

Tabela 8.8: Matriz de confuso para o agrupamento MFPC, usando a soluo 2

(cordas) combinada com a estratgia 2.

A seguir iremos classicar os metais das amostras restantes, ou seja, o total

de amostras menos as amostras j classicadas como cordas, conforme a Tabela 8.9.

Tabela 8.9: Matriz de confuso para o agrupamento MFPC, usando a soluo 2

(metais) combinada com a estratgia 2.

Finalmente iremos classicar as amostras autas e palhetas, conforme a Ta-

bela 8.10.

Tabela 8.10: Matriz de confuso para o agrupamento MFPC, usando a soluo 6

(autas e palhetas) combinada com a estratgia 2.

Evidentemente que, devido ao fato da taxa de acerto ter sido alta para todas

as estratgias, podemos dizer que elas nesse caso se equivalem. No entanto, foi

112
possvel constatar, para esse caso especco, pequenas variaes na taxa de acerto,

as quais constatam diferenas entre suas abordagens.

8.2 Avaliao da Taxa de Acerto para o Agrupa-


mento INSTRUMENTO
Nesta seo iremos analisar algumas das melhores solues obtidas para o

agrupamento INSTRUMENTO para cada codicador, e avaliaremos a capacidade de

generalizao do mtodo ao vericarmos as taxas de acerto obtidas dessas mesmas

solues para a base de dados RWC, seguindo o mesmo modelo, como se fosse

independente.

Conforme se pode ver na Tabela 7.29, as taxas de acerto para o agrupamento

MFPC usando o classicador DLG foram ligeiramente inferiores s obtidas com o

classicador SVM e K -NN. Em igual vericao pode se constatar que as solues

com o acrscimo dos codicadores LSF e MFCC se mostraram superiores em relao

s demais. Portanto, s avaliaremos as solues que representam a interseco des-

sas constataes (solues 1, 2, 5 e 6) para o agrupamento INSTRUMENTO. Por

motivo de espao, para simplicar a apresentao dos resultados, s iremos ilustrar

as matrizes de confuso com a melhor e a pior taxa de acerto para essas solues.

A m de avaliarmos se a retirada das solues usando o classicador DLG

com o uso dos codicadores LSF e MFCC foi ruim (solues 9 e 10), apresentamos a

Tabela 8.11 contendo as solues 1, 2, 5, 6, 9 e 10 e suas respectivas taxas de acerto

para o agrupamento INSTRUMENTO, usando amostras da base de dados MIS. As

demais solues apresentaram para o agrupamento MFPC uma taxa de acerto ainda

3
pior, e portanto no foram avaliadas para o agrupamento INSTRUMENTO .

Novamente pode-se constatar que as solues para o agrupamento INSTRU-

MENTO usando o classicador DLG obtiveram as piores taxas de acerto. J as

taxas de acerto obtidas para as solues 1, 2, 5 e 6 para amostras provenientes da

base de dados RWC podem ser vistas na Tabela 8.12:

A seguir ilustraremos 4 matrizes de confuso nas Tabelas 8.13, 8.14, 8.15 e

3 Esse corte contorna um procedimento guloso, portanto existe a possibilidade de uma dessas

solues apresentar resultados melhores.

113
Soluo # Taxa de Acerto

soluo 1 95,6 %

soluo 2 94,8 %

soluo 5 94,8 %

soluo 6 96,4 %

soluo 9 92,7 %

soluo 10 94,0 %

Tabela 8.11: Tabela contendo as solues e suas taxas de acerto para o agrupamento

INSTRUMENTO a partir das da base de dados MIS.

Soluo # Taxa de Acerto

soluo 1 86,8 %

soluo 2 94,1 %

soluo 5 95,4 %

soluo 6 89,8 %

Tabela 8.12: Tabela contendo as solues e suas taxas de acerto para o agrupamento

INSTRUMENTO a partir das da base de dados RWC.

8.16 do agrupamento INSTRUMENTO para as solues 6 e 2 para as amostras da

base de dados MIS e para as solues 5 e 1 para a base de dados RWC. Cabe nova-

mente ressaltar que os instrumentos pertencentes ao agrupamento INSTRUMENTO

para base de dados RWC so ligeiramente diferentes dos instrumentos que compem

o agrupamento INSTRUMENTO para a base de dados MIS.

Uma vez que as matrizes de confuso, para as melhores solues, do agrupa-

mento INSTRUMENTO, em cada uma das bases de dados, apresentam resultados

com erro disperso (conforme parcialmente se v nas Tabelas 8.13, 8.14, 8.16 e 8.15),

possvel denir um classicador formado por um banco de classicadores, onde

cada amostra classicada por N classicadores, sendo que a estimativa esta-

belecida pela classe mais votada nesses N classicadores. A escolha de N se d,

4
preferencialmente, visando a maximizao da taxa de acerto . No entanto, arbi-

4 O domnio da funo a ser maximizada nesse caso discreto. Por exemplo, caso se use um

espao simplicado composto por N = {1, 3}, a partir das solues= {1, 2, 5, 6}, devero ser

114
Tabela 8.13: Matriz de confuso para o agrupamento INSTRUMENTO, usando a

soluo 2.

Tabela 8.14: Matriz de confuso para o agrupamento INSTRUMENTO, usando a

soluo 6.

trariamente adotou-se um critrio mais simples para avaliar essa hiptese, ou seja,

deniu-se o mesmo N =3 para as duas bases de dados, formado pelas 3 melhores

5
solues para cada uma das bases de dados . A seguir apresentamos os resultados

investigadas as seguintes possibilidades: {1, 2, 5, 6, (1, 2, 5), (1, 2, 6), (1, 5, 6), (2, 5, 6)}.
5 Solues 1, 5 e 6 para base de dados MIS; solues 2, 4 e 5 para a base de dados RWC.

115
Tabela 8.15: Matriz de confuso para o agrupamento INSTRUMENTO, usando a

soluo 5.

Tabela 8.16: Matriz de confuso para o agrupamento INSTRUMENTO, usando a

soluo 1.

obtidos para as bases de dados MIS e RWC, respectivamente, presentes nas matrizes

de confuso das Tabelas 8.17 e 8.18:

Somente para ilustrarmos, as taxas de acerto obtidas para o agrupamento

116
Tabela 8.17: Matriz de confuso com o banco de classicadores 1, 5 e 6 - MIS.

Tabela 8.18: Matriz de confuso com o banco de classicadores 2,4 e 5 - RWC.

MFPC e MFPPC (base de dados RWC) usando os banco de classicador propostos

pelas 3 melhores solues para as bases de dados RWC e MIS, respectivamente, so

apresentadas nas matrizes de confuso das Tabelas 8.19, 8.20 e 8.21.

Assim, podemos constatar que para ambas bases de dados o banco de classi-

cadores proporcionou um ganho na taxa de acerto para o agrupamento INSTRU-

MENTO, cando prxima em ambas, ou seja, em torno de 97%. Assim, passaremos

117
Tabela 8.19: Matriz de confuso com o banco de classicadores 1,5 e 6 - MIS.

Tabela 8.20: Matriz de confuso com o banco de classicadores 2,4 e 5 - RWC.

Tabela 8.21: Matriz de confuso com o banco de classicadores 2, 4 e 5 - RWC.

a partir desta seo a denir o classicador proposto como sendo formado por um

banco de classicadores composto pelas 4 melhores solues (1, 2, 5 e 6) obtidas para

o agrupamento MFPC, a m de possibilitar que a mesma soluo seja empregada in-

dependentemente da base de dados escolhida. Tal abordagem no foi encontrada na

literatura pesquisada nessa dissertao. Na Figura 8.1 apresentamos a arquitetura

do classicador proposto nessa dissertao, onde os processos em amarelo represen-

tam o pr-processamento, em branco representam a codicao (e obteno do vetor

de caractersticas) e em verde representam a classicao. As abreviaes E.D. e

118
Figura 8.1: Arquitetura do classicador proposto.

E.E. signicam escalamento dinmico e escalamento estatstico. J as abreviaes

D.A. e Pot. Inst. signicam respectivamente descritores especcos de udio e

potncia instantnea da nota. As letras A, B e C representam os trs vetores

de caractersticas extrados pelo classicador proposto, cujas dimenses so 22, 18

e 23 respectivamente. E nalmente, os nmeros 1, 2, 5 e 6 representam as predies

das classes provenientes das solues 1, 2, 5 e 6, respectivamente, conforme a Tabela

7.29

8.3 Estimativa da Taxa de Acerto do Classicador


Proposto
Nesta seo variaremos o conjunto de treinamento, em relao s amostras

e ao percentual, a m de termos uma estimativa da taxa de acerto do classicador

proposto.

Para avaliarmos a taxa de acerto do classicador proposto usaremos um novo

agrupamento, de forma a combinar os instrumentos comuns das bases de dados

119
distintas. Esse agrupamento ser formado por 20 instrumentos, conforme a Tabela

6.4. Poderia-se contra-argumentar que o melhor seria empregar a soluo obtida

numa base de dados em outra (sem retreinar). O problema dessa abordagem que,

em nosso caso, existem diferenas signicativas entre as bases de dados, ou seja,

na forma de deteco, na presena ou no de um rudo de fundo, alm do fato

de apresentarem distribuies das amostras por instrumento diversas. Todas essas

diferenas quando combinadas podero ocasionar variaes signicativas na taxa de

acerto global.

Dependendo da escolha que se faz das amostras (contendo ou no os proble-

mas confuso e contaminao anteriormente referidos), estas iro contribuir ou para

o treinamento do classicador ou para serem usadas como teste. Portanto, para cada

escolha feita a taxa de acerto obtida pode variar, em funo das contribuies que

cada amostra dar para o classicador, seja para denir a classe, seja para estimar

a taxa de acerto. Assim, independentemente de se manter constante o percentual

escolhido para o treinamento, a taxa de acerto poder variar.

Uma forma de contornar esse problema e se obter uma estimativa da taxa de

acerto mais adequada escolhermos um conjunto de amostras (teste e treinamento)

capaz de obter uma medida razovel da capacidade que o classicador tem para

discriminar as classes que ele se prope a classicar. Outra forma estimarmos

atravs da mdia de todas ou de diversas combinaes possveis entre as amostras

6
existentes no banco de dados para o percentual usado no treinamento . Dessa forma,

se levaro em conta as diversas possibilidades para a formao da estimativa, o que

impede parcialmente que uma escolha mal feita do conjunto de amostras para teste

e treinamento possa servir para obter uma medida ruim da taxa de acerto.

Adotaremos uma abordagem intermediria entre os dois mtodos normal-

mente usados para se ter uma estimativa da taxa de acerto. Portanto, para avali-

armos a taxa de acerto a partir desse agrupamento fez-se dois tipos de simulaes,

variando tanto o conjunto de teste quanto a quantidade de amostras empregadas.

Alm disso, foi elaborado um procedimento para sortear as amostras de testes, res-

tringindo essas amostras regio central da tessitura de cada instrumento musical

6 Caso haja amostras em quantidade sucientes no conjunto de treinamento para que essa medida

no represente uma distoro em relao distribuio real.

120
(80%). Tal procedimento est melhor detalhado na Seo 7.2, e tem como conceito

central a expectativa de uso das notas de cada instrumento ocorrer de forma desigual

(na prtica), ou seja, espera-se que as notas da regio central de cada instrumento

musical tenham uma maior probabilidade de surgimento. Portanto, o conjunto de

teste sorteado, levando em conta essa preferncia, ter uma maior representativi-

dade. A seguir descrevemos os dois modos nos quais foram avaliadas as taxas de

acerto.

1. MODO 1: nesse modo xou-se o conjunto de treinamento com a seguinte

composio: 90% da base de dados RWC, 90% da base de dados MIS, e X

da base de dados MUMS. O valor de X variou de 50% a 80%, no passo de

10%. Nesse caso as amostras para teste foram somente as amostras que no

participaram do treinamento pertencentes base de dados MUMS;

2. MODO 2: nesse modo variou-se igualmente o conjunto de treinamento para

todas as bases de dados na proporo de X. O valor de X variou entre 50%

e 90% no passo de 10%. O conjunto de teste foi formado por todas as de-

mais amostras das 3 bases de dados que no participaram do conjunto de

treinamento.

Os resultados obtidos aparecem nas Tabelas 8.22 e 8.23, onde cada percentual

apresentado representa um conjunto de amostras distinto, uma vez que, para cada

percentual, foi feito um novo sorteio.

Tabela 8.22: Tabela contendo a taxa de acerto para o MODO 1.

Independentemente do percentual de treinamento, em todos os casos a so-

luo obtida pelo banco de classicadores foi sempre melhor que a melhor soluo

obtida individualmente (por cada classicador), o que valida essa abordagem e a

escolha das solues 1, 2, 5 e 6 para formar o classicador proposto, considerando

121
Tabela 8.23: Tabela contendo a taxa de acerto para o MODO 2.

os bancos de dados e o sistema de reconhecimento automtico presentes nessa dis-

sertao.

A soluo 5 para o MODO 2, apresentada na Tabela 8.23, sempre foi a que

obteve melhor resultado. Isso j era esperado, uma vez que a maioria dos dados,

quando se misturam as 3 bases de dados, provm da RWC. A Tabela 8.12 j indicava

essa tendncia.

J a soluo 6 pela Tabela 8.11 indicava ser a melhor soluo para as amostras

provenientes do banco de dados MIS. ela tambm que apresenta a melhor soluo

7
para os dados provenientes do banco de dados MUMS , o que se pode constatar ao

vericarmos a Tabela 8.22 para o MODO 1.

Conforme pode ser observado nas Tabelas 8.22 e 8.23, caso o treinamento

ocorra com um nmero superior a 80% das amostras, independentemente da origem

8
da amostra podemos armar que a taxa de acerto ser superior a 92 %.

Foram feitas 5 estimativas da taxa de acerto com conjuntos distintos (tanto

na composio quanto na quantidade) contendo instrumentos das 3 bases de dados.

O percentual da taxa de acerto variou pouco, de cerca de 90,42% a 95,76% para

uma variao de 50% a 90% no conjunto de treinamento. Todas as estimativas

com percentuais entre as duas medidas apresentaram taxas de acerto em sequncia,

indicando que a estimativa correta se encontra num valor entre as estimativas dos

extremos. Assim, podemos constatar que um aumento de 40% na quantidade de

amostras a serem testadas concomitantemente com uma reduo de 40% do conjunto

de treinamento reduziu menos de 6% na taxa de acerto.

Por outro lado, a base de dados MUMS, que contm o menor nmero de

7 Essas armaes obviamente esto restritas s solues pesquisadas nessa dissertao, por isso

as armaes tem carter relativo.

8 Restringindo a somente uma das 3 bases de dados.

122
amostras, isoladamente apresentou taxas inferiores. Esse resultado se justica em

parte pelo fato de suas gravaes no terem sido feitas em cmaras anecicas, por-

9
tanto contendo reverberaes . Assim, preferiu-se usar essa estimativa mais rigorosa

para representar a capacidade de classicao do conjunto contendo as 3 bases de

dados caso no se conhea as caractersticas das amostras (com reverberao ou

no). Optou-se pelo ponto de 80% das amostras porque atende ao primeiro critrio

de estar entre os percentuais de 90,42% e 95,76%.

Logo, uma estimativa razovel para a taxa de acerto do classicador, caso ele

venha ser treinado com 80% das amostras, cerca de 92% se o conjunto de amostras

a serem testadas contm reverberao; caso contrrio a estimativa da taxa de acerto

de 94% mais consistente para classicar os 20 instrumentos.

Como mostrado no Apndice B, estes ndices so coerentes, superando o

estado da arte em reconhecimento de instrumentos para o agrupamento contido

nesse apndice.

9 Inclusive a prpria base de dados indica o tempo de reverberao presente nas gravaes.

123
Captulo 9

Resultados frente s Misturas


Instantneas

Os mtodos propostos nesse captulo visam avaliar o desempenho do classi-

cador quando h superposio temporal, seja entre instrumentos, seja entre estes

e rudos. Para isso, iremos avaliar o impacto da superposio temporal frente

insero de rudo ou insero de sinal interferente.

Um dos problemas que se ir contornar uma restrio do classicador pro-

posto, qual seja a de ter sido treinado para reconhecer notas isoladas, j que seu

aprendizado baseado em condies idealizadas (equivalentes a cmaras aneci-

cas). Assim, iremos introduzir alguns blocos que almejam generalizar a aplicao

do classicador, contornando em parte tal restrio. De antemo, ca esclarecido

que a proposta aqui apresentada somente uma das possibilidades, sendo possvel

adotar-se outras arquiteturas.

Primeiramente, deve-se levar em conta que, normalmente, um sinal de udio

gravado na maior parte produto de conguraes polifnicas (gravaes contendo

diversas fontes). So essas gravaes que normalmente apresentam maior interesse

para a comunidade cientca. O procedimento elaborado nessa dissertao para

classicar notas isoladas pode ser facilmente generalizado para msicas monofni-

cas (gravaes com uma nica fonte), bastando para isso treinar os classicadores

com pequenos trechos obtidos a partir de msicas previamente eleitas (logicamente

o vetor de caractersticas dever ser refeito para se ter um melhor desempenho).

Assim, o banco de amostras (tanto para teste quanto para treinamento) nessa abor-

124
dagem dever ser construdo a partir de pequenos trechos retirados de msicas que

compem a base de dados empregada. No entanto, essa abordagem apresenta o

inconveniente de exigir um re-treinamento do classicador para esse novo conjunto

de amostras, o que acaba por dicultar uma comparao direta entre o resultado

obtido nos captulos anteriores (taxa de acerto) e a robustez do classicador que se

pretende avaliar nesse captulo. Por causa desse problema, essa abordagem mais na-

tural ser descartada. Adotaremos uma abordagem diferente, na qual o classicador

continuar classicando notas, sendo necessrio para isso recorrer a uma etapa de

pr-processamento em que se extrairo as notas contidas nas gravaes polifnicas

ou monofnicas.

Uma possibilidade interessante (embora ressaltemos que no a nica), de se

contornar este problema consiste na extrao, a partir da gravao polifnica, dos

instrumentos em separado (sequncias monofnicas). Supondo ausncia de conhe-

cimento das amostras de todos os instrumentos, bem como do sistema que efetua a

mistura, as tcnicas que extraem os componentes so chamadas de tcnicas de sepa-

rao cega de fontes (SCF). Na nomenclatura das tcnicas de SCF, fonte signica

1
cada componente da mistura . Assim, nesta dissertao, cada fonte identica-se

com um instrumento de uma base de dados.

Desta forma, o problema do reconhecimento de instrumentos em misturas

polifnicas pode ser dividido em trs etapas:

1. Separao dos instrumentos (sinal polifnico) em sequncias monofnicas;

2. Extrao das notas de cada sequncia monofnica;

3. Classicao das notas de cada sequncia monofnica.

O instrumento ser identicado por um critrio de votao que verica o

instrumento majoritrio obtido na classicao de cada nota de uma sequncia mo-

nofnica. A razo desta abordagem se baseia no fato de que o algoritmo usado na

separao das sequncias monofnicas um separador de fontes, portanto espera-se

que as sequncias de notas sejam formadas majoritariamente por notas provenien-

1 Um componente da mistura nessa dissertao uma sequncia de notas proveniente de um

nico instrumento (sequncia monofnica).

125
tes de um determinado instrumento musical (com reduzida interferncia de outras

fontes).

Conforme se pode observar na descrio das trs etapas feitas anteriormente,

ser necessrio empregar sinais polifnicos para simularmos o nosso problema. Uma

forma de resolvermos essa questo foi gerarmos articialmente para cada instru-

mento musical, a partir das notas do conjunto de teste, sequncias monofnicas.

Posteriormente, iremos gerar misturas instantneas dessas sequncias monofnicas,

de forma que ocorra superposio temporal, construindo assim um sinal polifnico

a partir das notas usadas para teste.

A partir deste instante, avaliaremos os problemas inerentes a cada um dos

algoritmos referenciados nos itens 1 e 2 e na construo dos sinais polifnicos, sendo

que o algoritmo previsto no item 3 foi coberto pelos captulos precedentes.

Assim, esse captulo descrever a construo articial de um sinal polifnico, o

mtodo de identicao de fontes com separador de fontes, o mtodo de identicao

de fontes sem separador de fontes, a extrao das notas isoladas de uma sequncia

monofnica e os resultados.

9.1 Construo Articial de um Sinal Polifnico


Conforme comentado anteriormente, a construo articial de sinais polif-

nicos facilita a avaliao do classicador elaborado nos captulos precedentes. Por-

tanto, no se pretende simular uma msica polifnica com todas as suas caracters-

ticas, sendo que a motivao para a construo desse sinal (polifnico) nessa dis-

sertao somente de servir como um mecanismo til para a introduo de outros

sinais simultneos no tempo. Assim, possvel avaliar a robustez do classicador

com relao superposio temporal. De outra forma, teramos que enfrentar o

problema de deteco das notas de um sinal real polifnico (msica polifnica) de

maneira bem mais aprofundada, o que foge ao escopo dessa dissertao. Assim, foi

utilizado um algoritmo simples para a construo dos sinais polifnicos.

O procedimento usado para se construir um sinal polifnico primeiramente

cria sequncias monofnicas e depois efetua misturas instantneas (somando-se di-

retamente os sinais). O tamanho dessas sequncias monofnicas (comprimento)

126
proporcional quantidade de notas que a fonte tem associada no conjunto de teste.

Antes de se somar os sinais monofnicos para obtermos uma sequncia polif-

nica, necessrio vericar se os sinais monofnicos apresentam tamanhos diferentes.

Se isso acontecer, deve-se igualar o tamanho deles para que no haja uma facilitao

no processo de separao das fontes, porque em determinado instante teramos uma

fonte contribuindo com o sinal (polifnico) enquanto que a outra estaria em silncio.

Tal situao em determinados casos um facilitador para os algoritmos de separa-

o. Preferiu-se evitar esses casos, uma vez que estamos tentando avaliar a condio

em que a superposio temporal afeta o classicador. Assim, optou-se por truncar

a sequncia monofnica de maior comprimento, de forma que seu tamanho casse

igual sequncia de menor comprimento. Assim, nas misturas polifnicas, sequn-

cias de notas contendo vrias fontes tero seu comprimento denido pela sequncia

monofnica de menor comprimento.

Cada sequncia monofnica foi construda usando as notas do conjunto de

teste, conforme o procedimento anteriormente descrito de sortear um percentual da

regio central da tessitura do instrumento musical. Essas notas, pertencentes ao

conjunto de teste, foram sorteadas e separadas por intervalos aleatrios positivos

escolhidos arbitrariamente variando entre 0,045 ms e 0,3 ms. Procurou-se usar in-

tervalos pequenos para que a sequncia das notas tivesse uma maior continuidade

auditiva, sem que chegassem a ponto de interromper a nota precedente. Em alguns

sinais polifnicos reais foi observada a ocorrncia de uma nota posterior interromper

a nota anterior, como se o intervalo fosse negativo. Esses problemas no foram tra-

tados nessa dissertao, visto que teriam inuncia maior no algoritmo de extrao

das notas do que no classicador. A princpio, a inuncia da perda da parte nal

da nota no afeta o classicador, uma vez que o mesmo somente utiliza o segmento

intermedirio da nota (modelo IMF). No entanto, se a interrupo ocorrer a ponto

de se perder parte desse segmento intermedirio, poderemos ter erros de classicao

para essa nota corrompida.

Apresentamos na Figura 9.1 um sinal polifnico real e um sinal polifnico

construdo pelo algoritmo acima usando notas de instrumento de sopro para as

bases de dados RWC e MIS.

127
Amplitude 1

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2


Tempo (amostras)
(a)

1
Amplitude

0 0,5 1 1,5 2 2,5 3


Tempo (amostras)
(b)

Figura 9.1: Exemplo de um sinal polifnico (a) articial; (b) real.

9.2 Mtodo de Identicao de Instrumentos com


Separador de Fontes
Dada a sequncia polifnica articialmente construda e exemplicada na

Figura 9.1, o objetivo desse algoritmo obter as sequncias (monofnicas) originais

que serviram para a construo do sinal polifnico.

O caso mais difcil de separao de fontes ocorre quando temos apenas uma

mistura. Uma forma de tentar resolver este problema consiste em converter a mis-

tura para o domnio da frequncia (via janelamento/STFT) e associar cada raia de

cada quadro a uma das estimativas. Esta associao em geral necessita de um co-

nhecimento estatstico acerca das fontes, o qual permite-nos efetuar uma inferncia

estatstica hora da associao. Duas formas muito difundidas de associao so o

mascaramento hard (binrio) e o soft (suave).

Num modelo instantneo e monocanal, uma raia de um certo quadro da

mistura resultante da soma das fontes escaladas. Supondo a presena de apenas

128
duas fontes e que apenas uma delas seja a dominante, podemos associar esta raia a

esta fonte, impondo que a da outra seja zero (isto deve ser feito quadro-a-quadro).

A proposta nessa seo vericar a viabilidade deste tipo de tcnica, supondo que

temos acesso s fontes durante a separao.

Este acesso s fontes permite-nos escolher a fonte qual associaremos uma

dada amostra (uma raia num certo quadro) de forma tima. Isto signica que esta-

mos trabalhando no universo do melhor caso possvel que esta tcnica de separao

de fontes permite. Em outras palavras, analisaremos o melhor desempenho (limi-

tante superior) que o reconhecimento de instrumentos pode ter nesta congurao.

Seja uma amostra X(f, t) da mistura. Conhecendo S1 (f, t) da fonte 1, e

S2 (f, t) da fonte 2, possvel estimarmos S1 (f, t) e S2 (f, t). No mascaramento Hard

(binrio) a estimativa ser:

caso |X(f, t) S1 (f, t)| < |X(f, t) S2 (f, t)|, ento S1 (f, t) = X(f, t) e

S2 (f, t) = 0;
caso |X(f, t) S2 (f, t)| < |X(f, t) S1 (f, t)|, ento S1 (f, t) = 0 e S2 (f, t) =
X(f, t);
No mascaramento Soft (suave) feita uma ponderao pela soma, ou seja,

S(f, t) = |S1 (f, t)| + |S2 (f, t)|. Nesse caso a estimativa tima ser: S1 (f, t) =
[|S1 (f, t)|/S(f, t)] X(f, t) e S2 (f, t) = [|S2 (f, t)|/S(f, t)] X(f, t).
Em geral, o mascaramento suave gera resultados melhores que o binrio.

Para maiores detalhes, vide o penltimo captulo constante em [47] e as respectivas

referncias.

Obviamente, os mascaramentos anteriormente apresentados prestam-se tam-

bm a casos onde temos mais do que duas fontes. O principal fator que esse algoritmo

trar de forma a afetar a taxa de acerto ser a distoro que ele provocar nas notas,

decorrente de um desembaralhamento das sequncias mal efetuado. Assim, a nota

quando extrada carregar invariavelmente informao proveniente de outra fonte

ou de algum sinal contaminante (rudo ou sinal interferente) na maioria dos casos.

O fato de estarmos usando um limitante superior nesse algoritmo signica que no

estamos interessados em avaliar o real impacto desse algoritmo no processo de classi-

cao como um todo, mas somente o impacto (para o melhor caso) dele nas notas,

a m de avaliarmos se o classicador se mantm consistente apesar da perturbao

129
residual que esse algoritmo causar nas notas a serem classicadas.

Na Figura 9.2 apresentamos uma mistura contendo notas provenientes da

base de dados RWC.

0,8

0,6

0,4

0,2
Amplitude

0,2

0,4

0,6

0,8
Sinal de udio
1
0 2 4 6 8 10 12 14
Tempo (amostras) x 10
5

Figura 9.2: Mistura com notas de cordas e percusso.

9.3 Mtodo de Identicao de Instrumentos sem


Separador de Fontes
Na prtica, o acesso s fontes revela-se uma hiptese demasiado restritiva.

No entanto, podemos pensar numa abordagem alternativa sem o uso de separadores

de fontes, que consiste em obtermos uma estimativa do rudo do ambiente e usarmos

essa mesma tcnica para separarmos o rudo (ou interferncia) do restante do sinal

X(f, t) = R(f, t) + S(f, t). Posteriormente, extrair-se-o as notas do sinal ltrado

S(f, t), classicando o instrumento (fonte) originrio correspondente cada notas.

Caso se tenha de antemo a informao do nmero N de fontes presentes no cenrio,

pode-se optar por identicar as N fontes como sendo as N mais votadas no processo

de classicao.

Essa tcnica necessariamente precisar de algoritmos de extrao de notas

130
mais elaborados, visto que a extrao se dar diretamente sobre o sinal X(f, t)
contendo as superposies temporais ocorridas entre as fontes distintas. Portanto,

nessa dissertao no avaliaremos essa tcnica da mesma forma que faremos com

a abordagem anterior. No entanto, a m de ilustrarmos o conceito iremos mostrar

a viabilidade dessa tcnica para misturas com poucas fontes (2, 3 e 5 para a base

de dados RWC), j que nesse caso ocorrer uma menor superposio temporal em

funo do menor nmero de fontes.

9.4 Extrao das Notas Isoladas de uma sequncia


Monofnica
O uso de um algoritmo de extrao das notas a partir de um sinal polif-

nico real pode introduzir uma perda signicativa na taxa de acerto do classicador,

visto que num sinal polifnico real as notas podem no estar espaadas por inter-

valos, dicultando a extrao. Essa m extrao pode dicultar uma avaliao da

robustez do classicador. Uma maneira de se contornar o problema seria fazer uma

extrao na (supervisionada) de forma a minimizar ao mximo possvel o impacto

de uma possvel m extrao da nota na taxa de acerto do classicador. Dessa

forma, o classicador no teria sua medida de robustez (em relao superposio

temporal com outros sinais) afetada pelo algoritmo de extrao, facilitando assim

uma medida posterior que caracterizaria uma perda na taxa de acerto decorrente

do uso desses algoritmos de extrao de notas em sinais polifnicos reais. Devido

grande quantidade de dados disponveis para essa dissertao, uma extrao na

ir requerer uma grande quantidade de tempo para que se obtenha cada nota. Por

outro lado, poderamos pensar em usar poucas amostras juntamente com uma ex-

trao supervisionada, mas isto tambm no interessante, pois a medida na taxa

de acerto do classicador obtida poder permanecer viciada pelas caractersticas

no representativas que essas poucas amostras poderiam reter. Assim, optou-se por

uma soluo intermediria, ou seja, o uso de uma quantidade signicativa de amos-

tras (notas) representadas pelos sinais polifnicos articiais montados a partir de

sequncias monofnicas. Estas sequncias foram formadas por notas espaadas, de

forma que a extrao das notas fosse mais simples, reduzindo a perda na taxa de

131
acerto do classicador ocasionada pela extrao. Portanto, na simulao, ainda se

espera que ocorram algumas extraes de notas ruins, de sorte que, caso ocorra uma

perda na subida da nota ou na descida da nota, a mesma no afetar a classicao.

Para a obteno das notas a partir dos arquivos que foram fornecidos (base

de dados MIS e RWC) j havia sido elaborado um algoritmo para retirar as notas

desses arquivos (trens de notas). Esse algoritmo, derivado do mtodo do desvio, se

baseia na anlise da envoltria da potncia instantnea do sinal, onde o incio e o

m de cada nota so detectados ao se passear uma janela previamente denida sobre

o sinal e vericar variaes do desvio padro e da mdia da janela em relao a um

valor de referncia (1/10 do desvio padro e da mdia do sinal, incluindo o rudo

de fundo e/ou intervalos entre as notas) medido sobre o sinal inteiro. Esse algo-

ritmo funciona bem na maioria dos casos, requerendo somente algumas adequaes

2
para os casos em que o cenrio gravado possua uma baixa SNR . Assim, neste caso

tambm foram vericados alguns algoritmos que comumente so sugeridos na lite-

ratura. Foram implementados, alm do mtodo anteriormente descrito, outros dois

mtodos (usando a envoltria RMS, e visando a deteco da f0 ou pitch ) presentes

em [48]. Em ambos os casos, a indicao dos instantes que determinam o incio e

o m da nota feita acompanhando os mximos e mnimos da funo derivada do

sinal correspondente, a depender do mtodo escolhido. O mtodo nal usado nessa

dissertao foi uma combinao de dois deles (envoltria RMS e desvio).

O algoritmo de deteco pelo pitch se mostrou mais sensvel que os anteriores

(conforme vericado na Figura 9.3) e por este motivo no foi usado na composio

nal do extrator da notas. Isto ocorre porque, alm do problema da deteco do

incio e nal da nota, ele tambm mostra uma sensibilidade maior em relao ao

algoritmo usado para a estimao do pitch, conforme pode ser observado na Figura

9.3. Nesse grco foram usados trs mtodos para estimao do pitch : coecientes

cepstrais [49], correlao [22] e acompanhamento da f0 . Esse ltimo no faz a

estimao do pitch, mas pressupe que o pitch acompanha a frequncia fundamental,

uma vez que esse componente espectral aquele que dar a maior contribuio na

composio do pitch.


2 denida pela seguinte equao: SN R = 10 log10 Ps
, onde Ps potncia do sinal e Pr
Pr

a potncia do rudo.

132
0,1

Env. da Pi()
Pitch = 422.0096
0,05

0
0 200 400 600 800 1000 1200 1400 1600
Tempo (segmentos)
(a)
0,1
Env. Pi()

Pitch = 30.0102
0,05

0
0 200 400 600 800 1000 1200 1400 1600
Tempo (segmentos)
(b)
0,1
Env. da Pi()

Pitch = 390
0,05

0
0 200 400 600 800 1000 1200 1400 1600
Tempo (segmentos)
(c)

Figura 9.3: Identicao da nota pelo Pitch : (a) Mtodo da Correlao; (b) Mtodo

dos coecientes cepstrais; (c) Mtodo de acompanhamento da f0 .

Foi avaliado que a combinao escolhida conseguiu detectar corretamente as

notas em cerca de 75% das notas para alguns dos instrumentos que compem a base

de dados MIS (esse ndice foi obtido de algumas sequncias monofnicas sem conta-

minaes de rudo ou sinal interferente). No se procurou melhorar o desempenho

desse algoritmo, uma vez que no se espera que seja necessria uma deteco per-

feita de todas as notas que compem a msica, pois alm dos fatores j mencionados

garantirem uma certa robustez do classicador, ser empregado um mtodo de vo-

tao, bastando a princpio que a maioria das notas esteja corretamente identicada

para que o classicador consiga determinar corretamente qual foi o instrumento que

gerou a msica (no caso de estarmos usando um separador de fontes), j que o

classicador possui uma boa taxa de acerto (superior a 90%). Portanto, espera-se

que os algoritmos que extraem notas corretamente (numa taxa em torno de 60%) se-

jam sucientemente bons para serem empregados conjuntamente com o classicador

desenvolvido nessa dissertao.

133
9.5 Resultados
Foram escolhidos 11 instrumentos das msicas monofnicas, que sero mis-

turadas para formarem as msicas polifnicas que pretendemos investigar, conforme

o padro abaixo:

1. Instrumentos de Sopro (6):

Saxofone Contralto, Saxofone Soprano, Trompa, Obo, Flauta e Fagote.

2. Instrumentos de Cordas (2):

Violoncelo e Violino.

3. Instrumentos de Percusso (3):

Glockenspiel, Vibrafone e Xilofone.

Foram usadas notas contidas em duas bases de dados, RWC e MIS. A princi-

pal diferena entre as duas bases de dados para essa seo, alm do prprio gravador,

o ambiente de gravao. Na base de dados MIS as notas esto espaadas por um

rudo de fundo varivel com o instrumento. J as notas da base de dados RWC esto

espaadas com silncio (sequncia de zeros).

Foram gravadas notas dos 11 instrumentos que esto presentes em ambas

bases de dados, exceto os instrumentos de percusso que s existem na base de

dados RWC.

A nota de menor pitch para as bases de dados empregadas o D de primeira

oitava (cerca de 32 Hz); logo, a frequncia mnima usada foi de 30 Hz. De posse

dessa informao e a de que o algoritmo usado exige que a janela seja divisvel por

4, ajustou-se uma janela de 1472 amostras no algoritmo de separao de fontes, j

que a taxa de amostragem para ambas as bases de dados de 44.100 Hz.

Foram gerados arquivos de msicas monofnicas para todos os instrumentos

de cada base de dados (14-MIS, e 17-RWC), ou seja, um total de 31 arquivos de

msicas monofnicas formadas a partir das notas pertencentes ao conjunto de teste,

denido na proporo de 10% para teste e 90% para treinamento.

De antemo, deve-se ressaltar tambm que se esperam variaes nas taxas

de acerto em relao s taxas obtidas pelo classicador quando comparamos um

instrumento especco, mesmo que a contaminao no tenha afetado o classicador,

134
porque o conjunto de notas usado, nas msicas monofnicas, um subconjunto

(aleatrio) das notas usadas para testar o classicador, alm do fato de o algoritmo

extrator de notas poder introduzir perdas de algumas notas quando no consegue

extra-las, ou introduzir notas falsas quando faz uma m extrao. Essa variao na

taxa de acerto tender a car menor com o aumento de notas usadas. Assim, espera-

se tambm que taxas de acerto que representam totalizaes quem mais prximas

das taxas de acertos globais obtidas pelo classicador quando a contaminao (efeito

da superposio temporal) tenha tido pouco efeito.

9.5.1 Anlise dos Resultados para Misturas contendo vrias


Fontes
Nesta seo mostraremos como foram feitas as simulaes para avaliar o de-

sempenho do classicador frente s misturas contendo mais de uma fonte. A ideia

foi determinar a capacidade do classicador em reconhecer as diversas fontes.

Para cada uma das 19 msicas monofnicas que se pretendia usar (11 da

RWC e 8 da MIS) foram elaborados 16 arquivos de msicas polifnicas conforme o

padro a seguir:

Misturas com notas da base de dados MIS:

1. Instrumentos de Cordas (2 fontes): Violino e Violoncelo;

2. Instrumentos de Sopro (6 fontes): Saxofone Contralto, Saxofone Soprano,

Trompa, Obo, Flauta e Fagote;

3. Instrumentos de Cordas e Sopro (contendo todas as fontes acima relacionadas).

Misturas com notas da base de dados RWC:

1. Instrumentos de Cordas (2 fontes): Violino e Violoncelo;

2. Instrumentos de Sopro (6 fontes): Saxofone Contralto, Saxofone Soprano,

Trompa, Obo, Flauta e Fagote;

3. Instrumentos de Percusso (3 fontes): Glockenspiel, Xilofone e Vibrafone;

4. Instrumentos de Sopro e Percusso (9 fontes);

135
5. Instrumentos de Cordas e Percusso (5 fontes);

6. Instrumentos de Sopro e Cordas (8 fontes);

7. Instrumentos de Sopro, Percusso e Cordas (11 fontes).

Misturas com notas de ambas as bases de dados (MIS e RWC)

1. Instrumentos de Cordas (4 fontes): Violino(2) e Violoncelo(2);

2. Instrumentos de Sopro (12 fontes): Saxofone Contralto(2), Saxofone Soprano(2),

Trompa(2), Obo(2), Flauta(2) e Fagote(2);

3. Instrumentos de Sopro e Percusso (15 fontes);

4. Instrumentos de Cordas e Percusso (7 fontes);

5. Instrumentos de Sopro e Cordas (16 fontes);

6. Instrumentos de Sopro, Percusso e Cordas (19 fontes).

Assim, o nmero de fontes varia entre 2 e 19. A partir desse ponto foi usado

o algoritmo de extrao de notas, combinado com o algoritmo separador de fontes

(SF). Assim, se espera que aps o SF tenhamos sequncias monofnicas, pertencentes

a fontes distintas. Para cada sequncia o algoritmo extrator de notas identicar as

notas que compem a sequncia.

Aps a obteno das notas, essas foram codicadas em 3 formas distintas, que

comporo os padres de extrao de caractersticas de melhor desempenho obtidos

no estudo do classicador, conforme mostrado abaixo:

1. Descritores de udio + 16 coecientes LSF + desvio padro (solues 1 e 6);

2. Descritores de udio + 16 coecientes MFCC + desvio padro + m3 (soluo

2);

3. 16 coecientes MFCC + desvio padro + m3 (soluo 5).

O conjunto de notas codicadas foi avaliado pelo classicador aps o seu

treinamento (90% restante). As Tabelas 9.1 a 9.5 contm os resultados obtidos

para ambas as bases de dados usando o mtodo de identicao de instrumento

136
numa sequncia polifnica com o uso do separador de fontes. Os nmeros que

aparecem entre parntesis em algumas dessas tabelas representam os nmeros de

notas extradas.

Tabela 9.1: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.

Tabela 9.2: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.

137
Tabela 9.3: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.

Tabela 9.4: Identicao das fontes para misturas polifnicas.

Tabela 9.5: Identicao das fontes para misturas polifnicas.

As estimativas sombreadas indicam que houve erro na estimao. Obser-

vando as Tabelas 9.1 a 9.5 podemos vericar que para at 6 fontes houve estimao

3
correta de todos os instrumentos presentes na mistura . Acima de 6 fontes, depen-

dendo da origem das fontes na composio da mistura, ocorre erro de ao menos uma

3 Na Tabela 9.1 o sombreamento no identica propriamente um erro, mas indica que houve

uma segunda estimativa para outro instrumento com igual probabilidade que a estimativa correta.

138
estimativa.

As Tabelas 9.6 a 9.11 contm os resultados obtidos para ambas as bases de

dados usando o mtodo de identicao da fonte numa sequncia polifnica sem o

uso de SF.

Tabela 9.6: Identicao das fontes sem separador de fontes.

Tabela 9.7: Identicao das fontes sem separador de fontes.

Tabela 9.8: Identicao das fontes sem separador de fontes.

Tabela 9.9: Identicao das fontes sem separador de fontes.

Conforme pode ser observado nas Tabelas 9.6 a 9.11, as duas estimativas com

maior frequncia se mostraram corretas para misturas com at 5 fontes. Eventual-

mente aparece na coluna Fontes o instrumento denominado Outros que consiste

de vrios insturmentos. Em todos esses casos (Outros), o instrumento mais votado

139
Tabela 9.10: Identicao das fontes sem separador de fontes.

Tabela 9.11: Identicao das fontes sem separador de fontes.

cou abaixo de 8,33%. Assim, mesmo que no se tenha um bom algoritmo extrator

de notas, possvel usar esse modelo para identicar as fontes de misturas com

sequncias polifnicas (formadas a partir das bases de dados MIS e RWC) quando

as misturas so formadas por apenas duas fontes. Este proceder pode reduzir a

complexidade para esses casos, uma vez que dispensa o uso dos algoritmos SF.

9.5.2 Anlise dos Resultados para Misturas contendo Sinal


Interferente ou Rudo Branco
Nesta seo pretende-se avaliar o desempenho do classicador quando as no-

tas que devero ser classicadas so contaminadas, seja com sinal interferente ou

com rudo branco. Foram gerados os sinais na qual ser feita a anlise, para todas

as msicas monofnicas anteriormente relatadas, com contaminao de rudo branco

gaussiano, variando-se a SNR (entre 10 e 26 dB). O mesmo foi feito com sequncias

monofnicas contaminadas por um sinal interferente, para os valores de SIR (relao

140
4
sinal interferncia) entre 10 e 20 dB.

Foi escolhida arbitrariamente uma mistura contendo notas de todos os ins-

trumentos musicais (19 fontes distintas) das duas bases de dados para servir de sinal

interferente. Assim, o sinal interferente no um sinal especco de um instrumento

particular, o que poderia suscitar dvidas em relao a um possvel favorecimento

ou no da interferncia sobre o sinal.

A seguir apresentamos o padro do sinal interferente e do rudo branco usados

para uma SIR e uma SNR iguais a 10 dB para um sinal polifnico.

Nas Figuras 9.4 e 9.5, o primeiro grco representa o sinal contaminante, o

segundo grco o sinal original e o terceiro grco ilustra o sinal contaminado.

sinal interferente
0,2
Amplitude

0,2
0 2 4 6 8 10 12
n (amostras) x 10
5
sequencia monofnica
0,5
Amplitude

0,5
0 2 4 6 8 10 12
n (amostras) x 10
5

0,5
Amplitude

0,5
0 2 4 6 8 10 12
n (amostras) x 10
5

Figura 9.4: Efeito do sinal interferente sobre uma sequncia monofnica.

Nas Figuras 9.6 a 9.13 apresentamos alguns resultados, sendo que cada ins-

trumento possui dois grcos. Um contm o erro sem o separador (curva azul), em

que o rudo ou o sinal interferente no foi retirado e o outro contm o erro com

separador (curva vermelha), em que o rudo ou o sinal interferente foi retirado.


4 denida pela seguinte equao: 10 log10 Ps
, onde Pi a potncia do sinal interferente e
Pi

Ps a potncia do sinal.

141
rudo branco
0,2

Amplitude 0

0,2
0 2 4 6 8 10 12
n (amostras) x 10
5
sequencia monofnica
0,5
Amplitude

0,5
0 2 4 6 8 10 12
n (amostras) x 10
5

0,5
Amplitude

0,5
0 2 4 6 8 10 12
n (amostras) x 10
5

Figura 9.5: Efeito do rudo branco sobre uma sequncia monofnica.

Em ambos os grcos aparecem curvas em verde que representam estimativas

do instrumento majoritrio para uma dada sequncia monofnica, ou seja, se o

classicador conseguiu acertar o instrumento (erro=0) ou no (erro=1).

Os valores intermedirios, que porventura aparecem no esboo grco para

essa curva (entre zero e um), representam mudanas na estimativa do classicador

em algum ponto do intervalo.

Primeiramente apresentamos os resultados obtidos para a base de dados MIS

com sinal interferente polifnico nas Figuras 9.6 e 9.7.

Nas Figuras 9.8 e 9.9, apresentaremos os resultados com a contaminao por

rudo branco, para a base de dados MIS.

Conforme pode ser observado nas Figuras 9.6 a 9.9, o classicador se mostrou

mais sensvel ao rudo branco do que ao sinal interferente. Uma das possveis explica-

es para isso o fato do rudo branco afetar o espectro inteiro, tornando mais difcil

a sua separao com o algoritmo SF utilizado. Assim, para contaminaes com SIR,

mesmo quando no se usou o separador para extrair o sinal interferente da sequn-

cia monofnica, o classicador apresentou bons resultados, o que no ocorreu com

142
1
Erro mdio sem separador
0,8 Erro na estimativa da fonte

Erro Medio
0,6

0,4

0,2

0
4 6 8 10 12 14 16 18 20
SIR
(a)
1

0,8 Erro mdio com separador


Erro Medio

Erro na estimativa da fonte


0,6

0,4

0,2

0
4 6 8 10 12 14 16 18 20
SIR
(b)

Figura 9.6: Erros estimados na contaminao com sinal interferente: (a) Clarinete

Bb sem separador e (b) Clarinete Bb com separador.

1
Erro mdio sem separador
0,8 Erro de estimao da fonte
Erro Medio

0,6

0,4

0,2

0
4 6 8 10 12 14 16 18 20
SIR
(a)
1
Erro mdio com separador
0,8 Erro de estimao da fonte
Erro Medio

0,6

0,4

0,2

0
4 6 8 10 12 14 16 18 20
SIR
(b)

Figura 9.7: Erros estimados na contaminao com sinal interferente: (a) Saxofone

Soprano sem separador e (b) Saxofone Soprano com separador.

contaminaes de rudo branco, conforme pode-se observar na Figura 9.9. Portanto,

o uso do separador fundamental para melhorar o desempenho do classicador.

Podemos observar que a taxa de acerto varia muito em funo do tipo de

143
1

0,8

Erro Medio
0,6

0,4

0,2 Erro mdio sem separador


Erro de estimativa da fonte
0
10 12 14 16 18 20 22 24 26
SNR
(a)
1
Erro mdio com separador
0,8 Erro de estimativa da fonte
Erro Medio

0,6

0,4

0,2

0
10 12 14 16 18 20 22 24 26
SNR
(b)

Figura 9.8: Erros estimados na contaminao com rudo branco: (a) Clarinete Bb

sem separador e (b) Clarinete Bb com separador.

0,8
Erro Medio

0,6

0,4

0,2 Erro mdio sem separador


Erro de estimativa da fonte
0
10 12 14 16 18 20 22 24 26
SNR
(a)
1
Erro mdio com separador
0,8 Erro de estimativa da fonte
Erro Medio

0,6

0,4

0,2

0
10 12 14 16 18 20 22 24 26
SNR
(b)

Figura 9.9: Erros estimados na contaminao com rudo branco: (a) Saxofone So-

prano sem separador e (b) Saxofone Soprano com separador.

fonte. A seguir apresentamos nas Figuras 9.10 a 9.13, para ambas as bases de

dados, o erro total em funo da SNR e SIR para todos os instrumentos usados na

base de dados MIS e RWC.

144
O fato de o erro estar acima de 50% no signica que a estimativa estar

errada, porque o classicador usa um critrio de votao para determinar qual a

fonte daquela sequncia monofnica para um dado conjunto de notas classicadas.

Assim, em 10 notas, uma votao de trs pode representar o mais votado. Isso pode

ser atestado na Figura 9.9, que ilustra a contaminao com rudo branco para o

Saxofone Soprano com separador.

1
Erro sem separador
0,9 Erro com separador

0,8

0,7

0,6
Erro Medio

0,5

0,4

0,3

0,2

0,1

0
10 12 14 16 18 20 22 24 26
SNR

Figura 9.10: Erro do classicador para misturas contaminadas com rudo branco,

para amostras provenientes da base de dados MIS.

Sabendo de antemo que a taxa de acerto do classicador superior a 90%,

espera-se um erro residual inferior a 10% para as relaes em que a potncia do sinal

muito superior a do sinal contaminante.

Independentemente do tipo de sinal contaminante utilizado na sequncia mo-

nofnica, podemos observar a relao esperada, ou seja, uma dependncia proporci-

onal da taxa de acerto com a SIR ou com a SNR.

Flutuaes (a princpio inversamente proporcionais taxa de acerto como

ocorre na Figura 9.13 para SNR entre 10 e 12 dB) so decorrentes de variaes da

quantidade de notas que testada quando a SNR varia. Assim foi observado que

quanto menor a SNR, maior a diculdade tanto no algoritmo separador (SF)

quanto no algoritmo extrator de notas, ocasionando alm da m extrao uma

grande variao na quantidade de notas que foram identicadas.

145
1
Erro sem separador
0,9 Erro com separador

0,8

0,7

0,6
Erro Medio

0,5

0,4

0,3

0,2

0,1

0
4 6 8 10 12 14 16 18 20
SIR

Figura 9.11: Erro do classicador para misturas contaminadas com sinal interferente,

para amostras provenientes da base de dados MIS.

1
Erro sem separador
0,9 Erro com separador

0,8

0,7

0,6
Erro Medio

0,5

0,4

0,3

0,2

0,1

0
10 12 14 16 18 20 22 24 26
SNR

Figura 9.12: Erro do classicador para misturas contaminadas com rudo branco,

para amostras provenientes da base de dados RWC.

Alm disso, podemos tambm observar que para as contaminaes de rudo

5
branco e sinal interferente, os grcos apresentam pontos de quebra . Isso indica

5 Em torno dos limiares de 20 dB para SNR e 6 dB para SIR.

146
1
Erro sem separador
0,9 Erro com separador

0,8

0,7

0,6
Erro Medio

0,5

0,4

0,3

0,2

0,1

0
4 6 8 10 12 14 16 18 20
SIR

Figura 9.13: Erro do classicador para misturas contaminadas com sinal interferente,

para amostras provenientes da base de dados RWC.

que, independentemente dos bons resultados obtidos com o uso do separador para

SNR maiores que 20 dB ou SIR maiores que 6 dB, a taxa de acerto passa a ter um

salto qualitativo a partir desse ponto.

J o uso do separador, para todas as SNRs simuladas, no resultou em erro

com valor inferior a 10%, que seria o valor esperado caso no houvesse contaminao,

indicando que o algoritmo SF teve diculdades em separar o sinal do rudo branco.

J em relao contaminao com sinal interferente, o uso do separador

de fontes garantiu uma taxa de erro inferior a 10% desde o incio, que aproxi-

madamente o erro do classicador, explicando porque o erro (com o uso do SF)

praticamente no variou com a SIR.

Portanto, o uso do separador mostrou-se eciente para sinais interferentes, e

garantiu uma reduo na taxa de erro para em torno de 50 % para ambas as bases

de dados quando os sinais so submetidos a rudo branco.

147
Captulo 10

Resultados frente s Misturas


Convolutivas

Na prtica, as misturas do sinal com rudo (ou outros sinais) ocorrem de

forma convolutiva sendo que o conjunto dos sistemas de mistura e separao pode

ser classicado em 4 topologias bsicas: SISO (single input and single output ), SIMO

(single input and multiple output ), MISO (multiple input and single output ) e MIMO

(multiple input and multiple output ). Nesse captulo avaliaremos o classicador

quando se depara com misturas convolutivas, segundo o padro MIMO.

Esse captulo contm o modelo terico para misturas convolutivas com duas

fontes e dois gravadores, a compensao da distoro causada pela mistura convo-

lutiva, e os resultados obtidos para misturas convolutivas.

10.1 Modelo de Misturas Convolutivas - Duas Fon-


tes e Dois Microfones
Consideraremos em todo o desenvolvimento a seguir, que tanto o nmero de

fontes quanto o de misturas (gravaes) igual a 2. Apesar dessa restrio, esse

caso pode servir para separar duas fontes pontuais de sinais (podendo ser uma delas

um sinal interferente). Um ambiente acstico altera, por meio de uma ltragem,

cada uma das fontes. Um microfone capta os sinais das fontes somados, cada qual

distorcido de forma diferente, j que as posies das fontes so distintas. Assim,

podemos modelar a distoro de cada fonte por um ltro FIR com comprimento

148
da ordem de centenas ou mesmo milhares de coecientes. Assim, o modelo que

representa essa situao ilustrado na Figura 10.1.

Figura 10.1: Modelo de Separao de fontes.

Na Figura 10.1, s1 (n) e s2 (n) representam as fontes (em nosso caso, sequncias
monofnicas originadas de instrumentos distintos), hij a funo de transferncia

(ltro FIR) entre a j -sima fonte e a i-sima mistura (ou gravao), x1 (n) e x2 (n)
representam os sinais captados pelos microfones, os quais podem ser expressos como:

x1 (n) = h11 (n) s1 (n) + h12 (n) s2 (n) (10.1)

x2 (n) = h21 (n) s1 (n) + h22 (n) s2 (n) (10.2)

onde * signica convoluo. Num formato matricial, podemos reescrever as Equa-

es (10.1) e (10.2) na seguinte forma:



x (n) h (n) h12 (n) s (n)
1 = 11 1 (10.3)
x2 (n) h21 (n) h22 (n) s2 (n)
onde wij a funo de transferncia (ltro FIR) que representa a separao, e y1 (n)
e y2 (n) representam as estimativas das fontes obtidas aps a separao, podendo ser
expressas como:

y1 (n) = w11 (n) x1 (n) + w12 (n) x2 (n) (10.4)

y2 (n) = w21 (n) x1 (n) + w22 (n) x2 (n) (10.5)

ou na forma matricial:

y (n) w (n) w12 (n) x (n)
1 = 11 1 (10.6)
y2 (n) w21 (n) w22 (n) x2 (n)

149
Conforme [50, 51], a escolha ideal dos ltros de separao (a menos de even-

tuais constantes de escalamento) dada por:


w11 (n) w12 (n) h22 (n) h12 (n)
= (10.7)
w21 (n) w22 (n) h21 (n) h11 (n)

10.2 Compensao da Distoro Causada pela Mis-


tura Convolutiva
Nesta seo daremos prosseguimento ao desenvolvimento terico para mis-

turas convolutivas a partir de duas fontes e dois gravadores, e mostraremos que a

soluo obtida pela Equao (10.7) insere uma distoro, que dever ser compen-

sada a m de que o classicador consiga reconhecer o padro correto da nota que se

pretende classicar.

A soluo da Equao (10.7) de fcil obteno, bastando para isso substituir

x1 (n) e x2 (n) conforme as Equaes (10.1) e (10.2) nas Equaes (10.4) e (10.5) para
termos:

y1 (n) = [w11 (n) h11 (n) + w12 (n) h21 (n)] s1 (n)
(10.8)
+ [w11 (n) h12 (n) + w12 (n) h22 (n)] s2 (n)

y2 (n) = [w21 (n) h12 (n) + w22 (n) h22 (n)] s1 (n)
(10.9)
+ [w21 (n) h11 (n) + w22 (n) h21 (n)] s2 (n)
Para que ocorra a separao queremos que y1 (n) seja somente dependente

de s1 (n), e y2 (n) seja somente dependente de s2 (n). Portanto, obrigaremos que os

termos cruzados sejam zero, ou seja:

w11 (n) h12 (n) + w12 (n) h22 (n) = 0 (10.10)

w21 (n) h11 (n) + w22 (n) h21 (n) = 0 (10.11)

Podemos observar que as solues triviais da Equao (10.10) so:

w11 (n) = h22 (n) e w12 (n) = h12 (n) ou w11 (n) = h22 (n) e w12 (n) = h12 (n),
e para a Equao (10.11) so:

w21 (n) = h21 (n) e w22 (n) = h11 (n) ou w21 (n) = h21 (n) e w22 (n) = h11 (n),

150
Assim, combinando as solues anteriores, temos as seguintes matrizes de

solues triviais:


w11 (n) w12 (n) h22 (n) h12 (n)
= (10.12)
w21 (n) w22 (n) h21 (n) h11 (n)

ou


w11 (n) w12 (n) h22 (n) h12 (n)
= (10.13)
w21 (n) w22 (n) h21 (n) h11 (n)
Supondo o conhecimento da funo de transferncia dos canais, podemos

implementar a escolha tima dos ltros. Porm, cabe ressaltar que as estimativas

das fontes no equivalem s fontes, mas a verses ltradas das mesmas.

Ao nal de um processo de separao bem sucedido, as estimativas das fontes

y1 (n) e y2 (n) no apresentam interferncia das outras fontes, mas so distorcidas.

Para vericarmos isso, basta efetuar a seguinte operao:


w (n) w12 (n) h (n) h12 (n) h (n) h12 (n) h (n) h12 (n)
11 11 = 22 11
w21 (n) w22 (n) h21 (n) h22 (n) h21 (n) h11 (n) h21 (n) h22 (n)
(10.14)

para constatarmos que:


y1 (n) h22 (n) h11 (n) h12 (n) h21 (n) s1 (n)
= (10.15)
y2 (n) h22 (n) h11 (n) h12 (n) h21 (n) s2 (n)

Assim, ocorre uma distoro do sinal original nas estimativas obtidas por um

fator de distoro t(n) dado por:

t(n) = h11 (n) h22 (n) h12 (n) h21 (n) (10.16)

que o mesmo em ambas estimativas y1 (n) e y2 (n). Portanto, antes de usarmos

o classicador para estimarmos o instrumento a partir de cada uma das sequn-

cias monofnicas obtidas aps a separao, faremos uma correo nessa distoro

causada pelo mtodo de separao. Essa proposta de correo tem o intuito de

aumentar a taxa de acerto do classicador. Usualmente tal procedimento deno-

minado derreverberao ou deconvoluo. Aps a obteno das estimativas y1 (n) e

y2 (n) determinaremos o fator de distoro t(n).

151
Assim, combinando as Equaes (10.4) e (10.5) com a Equao (10.16) e aps

aplicarmos a DFT teremos:

Y1 (k) = T (k)S1 (k) (10.17)

Y2 (k) = T (k)S2 (k) (10.18)

Sabendo que o comprimento de t(n) igual a M e o comprimento de Y1 (k) = Y2 (k)


igual a N podemos armar que o comprimento de S1 (k) e S2 (k) N M + 1.
No entanto, devemos ter o cuidado de observar que as equaes acima podem ser

reescritas conforme as Equaes (10.19) e (10.20):

Y1 (k) = DF T (t(n), N ).DF T (s1 (n), N ), (10.19)

Y2 (k) = DF T (t(n), N ).DF T (s2 (n), N ), (10.20)

onde cada termo tem comprimento N. Denindo o fator de correo (k) como:

1
(k) = , (10.21)
DF T (t(n), N )

onde a inverso ocorrer sobre cada elemento do vetor T (k), e, combinando com as

Equaes (10.19), (10.20) e (10.21), teremos:

s1 (n) = F F T 1 ((k).Y1 (k)), (10.22)

s2 (n) = F F T 1 ((k).Y2 (k)), (10.23)

Pode-se observar que o comprimento obtido para s1 (n) e s2 (n) N e no

N M +1 como deveria ser. Portanto, reduz-se esse comprimento extraindo as

primeiras N M +1 amostras de s1 (n) e de s2 (n).


Para as simulaes foram usados somente instrumentos da base de dados MIS.

Foram feitas duas misturas convolutivas, sendo a primeira mistura composta por dois

instrumentos de sopro (saxofone contralto e saxofone soprano) e a segunda mistura

composta por dois instrumentos de cordas (violoncelo e violino). A disposio dos

componentes na sala foi estabelecida arbitrariamente para uma distncia de 1 m

entre os microfones, com as fontes xadas nas posies 1 e 2 conforme a Figura 10.2.

152
A seguir apresentaremos grcos a partir de um ndice normalmente utilizado

para comparar sinais de udio, a razo sinal distoro, dada por:

PN !
i=1 |s(i)|
SDR = 10 log10 PN (10.24)
i=1 |s(i) y(i)|

onde s(i) representa o sinal e y(i) representa a estimativa do sinal. Esta medida

equivalente ao erro RMS numa escala logartmica, conforme pode ser observado na

Figura 10.3.

10.3 Resultados Obtidos para Misturas Convoluti-


vas
Foram usadas funes de transferncias reais [50] nas simulaes, medidas na

sala representada na Figura 10.2.

Figura 10.2: Congurao da sala.

O espaamento entre os microfones foi ora de 5 cm e ora de 1 m. Logo,

existem um total de 2 posies de microfone (com espaamentos de 5 cm e 1 m) e 4

posies das fontes, sendo que um par de fontes ocupa duas posies necessariamente

distintas. Portanto, teremos: (2 posies de microfones)(26 combinaes de

153
posies das fontes), perfazendo um total de 24 funes de transferncia, uma vez

que no ocorre simetria entre as posies (i, j) e (j, i) das fontes em relao aos

microfones e das paredes da sala.

Foram simulados 49 pontos, onde cada ponto representa uma totalizao de

4 estimativas de fontes (sequncia monofnica). Portanto, cada ponto o resultado

da separao de duas misturas convolutivas distintas, uma mistura contendo ins-

trumentos de cordas (violino e violoncelo) e outra contendo instrumentos de sopro

(Saxofone Contralto e Saxofone Soprano). Cada sequncia monofnica foi prejudi-

cada no processo de separao, devido a uma contaminao com rudo branco feita

1
diretamente sobre os coecientes da matriz de mistura H . Essa contaminao ocor-

reu de forma solidria em relao a SNR, ou seja, se um coeciente foi contaminado

com uma dada SNR, todos os demais coecientes tambm sofreram contaminaes

de rudo branco (aleatrio) com a mesma SNR. Essa perturbao nos coecientes

da matriz de mistura visa provocar um erro na estimativa dessa matriz. A idia

identicar a capacidade do classicador de estimar corretamente as fontes, caso

ocorra erros na estimao da matriz de mistura.

As contaminaes do sinal com rudo branco aleatrio foram feitas a partir

de 48 nveis de SNR.

Os grcos apresentados nas Figuras 10.3 a 10.4 foram feitos a partir das

duas misturas anteriormente descritas.

Na Figura 10.3 o primeiro grco representa o erro de separao estimado

2
com a SDR e o outro o grco com a estimao do erro RMS (em escala logartmica).

O algoritmo de derreverberao se baseou na suposio que os coecientes

hij estivessem corretamente estimados. Erros nessas estimativas propagam os er-

ros na cadeia de manipulaes algbricas. Isso ocorre porque essas variaes (nos

coecientes) afetam a separao obtida, pois a matriz de separao empregada

funo dos hij . Portanto, a derreverberao car tambm prejudicada, j que ten-

tar compensar a partir desses mesmos hij os sinais j erradamente separados pela

matriz de separao. Uma possibilidade alternativa seria estimarmos diretamente os

coecientes de uma Matriz Inversa (correspondente a Separao + Derreverberao)

1 Cada elemento da matriz de mistura possui 4.000 amostras.


q PN
2E = 1

2
[x(i) x(i)]
rms N i=1

154
50

40

SDR 30

20

10
SDR
0
31,2 40 60 80 100 120 140
SNR sobre os coeficientes da Matriz de Separacao
(a)
Erro RMS (escala log.)

Erro RMS
2
10

4
10

31,2 40 60 80 100 120 140


SNR sobre os coeficientes da Matriz de Separacao
(b)

Figura 10.3: (a) Erro RMS da separao (MIS); (b) SDR (MIS).

conforme a proposta presente em diversos trabalhos tal como [52]. No entanto, a

tendncia foi melhorar a SDR com o aumento da SNR, sendo que, a partir de uma

SNR maior que 50 dB a tendncia foi estimar corretamente todas as classes dos

instrumentos testados.

Houve em alguns pontos da curva, pequenas variaes contra a tendncia.

Isso certamente tem como um dos fatores o fato de terem sido feitas poucas simu-

laes. Conforme j foi dito, cada ponto representado por duas misturas, onde

cada mistura foi equivocadamente separada j que a matriz de separao foi con-

taminada com rudo branco (um padro de rudo branco para cada coeciente da

matriz), quando o mais correto seria termos para cada mistura a sua separao

perturbada por vrias matrizes de contaminao com rudo branco. No entanto,

em cada ponto, cada mistura teve sua separao contaminada com uma matriz de

contaminao de rudo branco diferente.

Pode-se observar na Figura 10.4 que, at uma SNR em torno de 90 dB (SDR

prxima a 20 dB), a separao das fontes evolui pouco com a SNR, e exatamente

155
50
SDR
40

SDR 30

20

10

0
31,2 40 60 80 100 120 140
SNR sobre os coeficientes da Matriz de Separacao
(a)
1
% de Acerto
0.8
% de Acerto

0.6

0.4

0.2

0
31,2 40 60 80 100 120 140
SNR sobre os coeficientes da Matriz de Separacao
(b)

Figura 10.4: (a) Erro de separao (MIS); (b) Taxa de acerto classicao (MIS).

nesse trecho que a taxa de acerto do classicador mais progride com a SNR. A partir

desse ponto, o classicador estabiliza a sua taxa de acerto mdia e passa a ocorrer

uma melhora signicativa na separao.

A dependncia com a separao do classicador ocorre na faixa da SNR em

que o classicador no apresenta suas melhores taxas, indicando que nessa regio

uma melhora ou piora na separao afeta a capacidade do classicador em acertar.

A partir desse ponto (SNR prximo a 90 dB, onde o rudo j no afeta tanto o sinal),

a melhora na separao no afeta a capacidade do classicador em acertar. Assim,

existem duas regies em relao SNR quanto a taxa de acerto do classicador:

uma em que a taxa de acerto do classicador dependente da separao, e outra

em que a taxa de acerto do classicador no dependente da separao. Essa

segunda regio representa a regio em que as perturbaes nos coecientes hij no

causam perturbaes nas notas sucientes para afetar a capacidade do classicador

de identicar o instrumento.

156
Parte IV

Concluso

157
Captulo 11

Concluso

Essa dissertao apresentou vrios estudos, assim como alguns comparativos

com trabalhos internacionais, em classicao de instrumentos. Importa ressaltar

que os resultados que aqui sero relatados esto limitados s bases de dados que

foram empregadas. Portanto, a despeito de os resultados sugerirem um alcance am-

plo, cumpre ser cuidadoso para no estender em demasia o campo de aplicabilidade

das concluses.

No Captulo 3 diversos mtodos de extrao de segmentos de uma nota mu-

sical foram descritos. A ideia por trs dessa abordagem a hiptese de se poder

identicar um instrumento musical atravs de uma codicao sobre uma regio

particular da nota musical; ou seja, no imperioso codicarmos aspectos relativos

nota inteira. Esse princpio comumente encontrado em diversos problemas pre-

sentes em nosso cotidiano, como por exemplo, na identicao de pessoas atravs

das digitais, onde no necessrio codicarmos informaes sobre o corpo inteiro

ao discriminarmos os indivduos. Assim, em alguns casos, concentrar a extrao

de informaes numa regio particular (reduo do espao de codicao) mais

efetivo que obter a mesma quantidade de informaes de uma regio muito maior,

ou aumentar a quantidade de informaes de forma a cobrir o corpo inteiro com a

1
mesma densidade .

Essa abordagem no foi observada em outros trabalhos encontrados na lite-

ratura em identicao de instrumentos musicais possuindo dois fatores que a justi-

cam. Em primeiro lugar, em muitos casos o excesso de informao atua mais como

1 O que implica um maior custo computacional oriundo do aumento da dimensionalidade.

158
um agente incrementador da complexidade na busca da soluo do que propriamente

como um agente viabilizador da soluo. Isso ocorre em nosso problema porque de

fato diversos algoritmos de reconhecimento so algoritmos de otimizao e, portanto,

sensveis aos problemas de dimensionalidade, que podem afetar o seu processo de

convergncia na busca dos mnimos ou mximos globais. Dessa forma, podemos

perceber que o excesso de informao pode ser prejudicial na busca do timo. Em

segundo lugar, resolver problemas buscando informaes numa regio menor para

a maioria dos casos levar menos tempo do que resolver o mesmo problema bus-

cando informaes numa regio muito maior. Esses so alguns dos aspectos que

diferem o que necessrio descrever (vetor descritor) para uma classicao do que

necessrio descrever para uma reproduo.

Assim, a ideia (diferente da usual, que consiste em passear uma janela ao

longo da nota e ir extraindo caractersticas da nota) determinarmos somente um

segmento da nota que a princpio contenha informao suciente para discriminar

os instrumentos musicais, a partir do procedimento de extrao de caractersticas

previamente estabelecido.

Dessa forma, avaliaram-se algumas formas distintas de se obter segmentos de

interesse das notas musicais. Os modelos de segmentao avaliados nessa dissertao

podem ser subdivididos em classes: segmentadores por limiar, segmentadores por

pitch e o modelo ADSR [2]. Nessa dissertao avaliaram-se os seguintes modelos:

o modelo ADSR, que segmenta a nota musical nos trechos de ataque, decaimento,

sustentao e relaxao; um modelo elaborado para essa dissertao, o modelo IMF,

baseado em parte nos modelos TP [19] e no modelo de deteco da nota por limiar;

e nalmente um modelo de segmentao baseado na estimao do pitch. Todos esses

modelos podem ser adaptados para uso com outros sinais, tais como pulso RADAR.

Os segmentadores por pitch se mostraram particularmente pouco ecientes

para discriminar segmentos dentro da nota, sendo capazes somente de detectar a

presena da nota em meio ao rudo de fundo. Portanto, no foram utilizados nos

testes do classicador para avaliao de desempenho.

Nem todos os segmentos obtidos foram investigados. O segmento de susten-

tao do modelo ADSR no foi avaliado visto, que em diversos casos havia notas

que no apresentavam esse segmento. Isto ocorreu nas notas dos instrumentos de

159
cordas com pizzicato, em que o padro temporal basicamente formado pelo ata-

que seguido de relaxao, a qual sua envoltria segue um padro aproximado de

uma exponencial decrescente. Assim, foram avaliados os segmentos de ataque do

modelo ADSR, de subida do modelo IMF e o intermedirio do modelo IMF. Desses

segmentos, destacaram-se como bons discriminadores o segmento intermedirio com

codicao MFCC, LSF e LPC, e o segmento de ataque com codicao MFCC

e LSF. Os resultados obtidos para o segmento intermedirio com MFCC e LSF

sempre apresentaram taxas de acerto superiores s taxas de acerto obtidas pelos

segmentos de ataque para seus respectivos codicadores, independentemente dos ta-

manhos testados. Assim, preferiu-se somente classicar as notas usando segmentos

intermedirios do modelo IMF.

Um resultado interessante foi a constatao de que variando-se dentro de

certos limites o tamanho do segmento intermedirio, no ocorre uma tendncia na

reduo da taxa de acerto. Pelo contrrio, em alguns casos propicia-se um aumento

na taxa de acerto, indicando que a reduo do tamanho desse segmento central pode

continuar. Logo, muito provavelmente uma tendncia na reduo da taxa de acerto

ocorrer para algum valor de limiar acima de 90% do valor mdio segundo o modelo

IMF. Nessa dissertao usamos limiares variando de 10% a 90% do valor mdio da

potncia do sinal. Provavelmente, o valor timo desse limiar ser varivel em funo

do padro da nota. Pelo que sabemos esse fenmeno no gura na literatura da

rea, sendo necessrio recorrer a mais simulaes em outras bases de dados para ser

generalizado.

Alguns trabalhos de reconhecimento citam o trecho de ataque como impor-

tante para se extrair caractersticas capazes de discriminar fontes distintas [18],

dessa forma, vrios trabalhos codicam o segmento central juntamente com outros

segmentos (parte do ataque e parte da relaxao) [3, 6, 25, 46]. No entanto, os

resultados obtidos nessa dissertao prope que haja uma reduo da regio que se

pretende codicar (segmento central pelo modelo IMF). Assim, para o uso exclu-

sivo do segmento de ataque (ou segmentos iniciais) num sistema de reconhecimento

automtico de instrumentos musicais, deve-se tomar cuidado com pelo menos trs

fatores que podem atuar como agentes perturbadores da taxa de acerto:

1. a impreciso do instante de encerramento do trecho de ataque, o que pode

160
determinar, para amostras do mesmo instrumento, perdas de caractersticas

importantes ou acrscimos no pertinentes, dicultando a identicao de pa-

dres;

2. o reduzido nmero de amostras, em alguns instrumentos, obtidas para carac-

terizar esse segmento. Tal restrio poderia ser contornada aumentando-se a

taxa de amostragem. Isto foi percebido pelo fato de vrias notas apresentarem

poucas amostras para esse segmento, obrigando a insero de uma regra de

2
tamanho mnimo (1024 amostras) ;

3. a escolha do conjunto de caractersticas que melhor se presta para diferenciar

os instrumentos a partir desse segmento. Nesse ltimo caso, o codicador

MFCC se mostrou promissor, abrindo possibilidades de se investigar o uso de

mais de um segmento com mtodos de extrao de caractersticas distintas

para a formao do vetor de caractersticas.

Existem outros mtodos de segmentao alm dos elaborados ou reporta-

dos nesta dissertao. Como exemplo, podemos citar modelos preditivos usando

SVM [53]. Cabe enfatizar que no avaliamos todos os tipos de codicadores, tais

como: LPCC [3], Wavelet [54, 55, 56] e RASTA-PLP [54, 57]. Uma avaliao exaus-

tiva do impacto do uso dos parametrizadores acima sobre o desempenho do sistema

classicador seria extremamente laboriosa, haja vista o alto nmero de combina-

es envolvidas e as complexas dependncias entre os vrios estgios do sistema de

classicao. Sendo assim, optou-se por utilizar um conjunto limitado de parme-

tros. Contudo, foi possvel constatar que, para o emprego usado nessa dissertao,

os classicadores empregados mostraram uma preferncia em ordem decrescente da

taxa de acerto para as codicaes LSF, MFCC, LPC e CEPSTRUM. Esse resul-

tado tambm conrma as concluses de um dos primeiros trabalhos na rea [6],

acrescentando somente a presena do codicador LSF descrita em [3].

O resultado de Krishna e Sreenivas [3], sugere o uso preferencial do LSF no

lugar do MFCC conjuntamente para os classicadores GMM e K -NN, e tem seu

2 Pode-se argumentar que um aumento na taxa de amostragem no necessariamente incremen-

tar a quantidade de informao que extrairemos do sinal, j que o sinal pode vir a ser limitado

em banda; por outro lado, esses segmentos costumam ser de banda larga, e eventualmente essas

informaes de alta frequncia podem ser determinantes para caracterizar o instrumento.

161
escopo parcialmente conrmado nas solues nais observadas para o agrupamento

MFPC, apesar da forma de extrao de caractersticas desenvolvida nessa dissertao

ser diferente da desenvolvida em [3] (ou seja, para os classicadores K -NN, DLG e

SVM, a LSF apresentou resultados ligeiramente superiores aos da MFCC, com as

diferenas observadas no sendo to signicativas quanto as constatadas em [3]).

Esse resultado nal no foi observado em vrias outras conguraes, quando a

MFCC apresentou desempenho um pouco melhor que a LSF. Portanto, pode-se

armar que ambos os codicadores apresentaram desempenhos equivalentes para a

forma de extrao e classicao utilizada nessa dissertao.

Essa dissertao no teve a pretenso de enumerar todas as abordagens de

classicadores, tampouco todas formas de se obter uma classicao multiclasse.

No entanto, a abordagem multiclasse um-contra-um obteve resultados signicati-

vamente superiores aos da abordagem um-contra-todos, sendo tal resultado con-

soante com [6].

Foi tambm proposta nessa dissertao uma implementao de um classica-

dor DLG, o qual no foi encontrado na literatura em identicao de instrumentos

musicais. Este classicador foi idealizado como um misto de alguns conceitos do

modelo usado pela SVM (uso de hiperplano separador para discriminar duas clas-

ses no espao de caractersticas) e de alguns conceitos presentes em Redes Neurais

(similaridade na funo custo a ser minimizada). Tal classicador aceita transfor-

maes no espao de entrada, sendo que para se obter a soluo multiclasse foram

usadas tcnicas descritas no Captulo 6, e que normalmente so usadas para a SVM.

J as transformaes no espao de entrada que o classicador DLG utilizou nessa

dissertao foram baseadas em [33].

Ao compararmos os melhores resultados obtidos por cada classicador no

se observou uma preferncia clara entre os classicadores, sendo que o classicador

DLG obteve taxas ligeiramente inferiores que as dos demais (cerca de 2 a 3 pon-

tos percentuais para menos). No entanto, a melhor soluo com o codicador LPC

foi obtida com o uso do classicador DLG (entre 2 e 3 pontos percentuais para

mais). Essa pequena diferena na taxa de acerto entre os demais classicadores e

o DLG persistiu tambm para o agrupamento INSTRUMENTO da base de dados

MIS. Essa diferena pode em parte ser explicada pela taxa de acerto obtida para

162
o conjunto de treinamento. Observamos tambm que para nenhum caso a DLG

conseguiu 100% de separao para o conjunto de treinamento, o que no ocorreu

com a SVM. Esse resultado indica que ou a transformao polinomial no foi ade-

quada para conseguir uma separao total dos conjuntos das amostras no espao

das caractersticas ou a condio de parada da DLG interrompeu antecipadamente

o processo de convergncia (por estar lento), ou ambos. Independente de qual foi

o principal responsvel, a consequncia um hiperplano no posicionado no timo

para o conjunto de treinamento. Em alguns casos identicou-se que houve uma

parada antecipada. Nesses casos, aumentou-se um pouco mais o limite de iteraes

que determina a parada. Tal procedimento afeta de forma combinatorial o tempo

de execuo do algoritmo como um todo, j que o problema multiclasse foi tratado

usando a abordagem um-contra-um.

Nas simulaes com a envoltria da potncia do sinal, vericou-se para todas

as bases de dados que quanto maior a suavizao menor a taxa de acerto. Assim,

a envoltria pelo mtodo da mdia RMS obteve taxas de acerto inferiores s da

envoltria pelo mtodo DEAM, o qual por sua vez obteve desempenho inferior ao

mtodo da Potncia Instantnea do sinal. Isso ocorreu nos trs codicadores que

foram testados e em todos os agrupamentos para as trs bases de dados utilizadas.

Entretanto, s se avaliou esse resultado com um classicador K -NN, o que restringe


o escopo dessa armao. Algumas dessas diferenas (em determinadas famlias,

para todas as bases de dados) foram superiores a 50% na taxa de acerto. Esses

resultados sugerem que houve perda de informao.

Apresentou-se nesse trabalho abordagens para se obter a classicao de si-

nais alternativas ao modelo padro, mostrando que o reagrupamento pode eventu-

almente apresentar resultados melhores. Da mesma forma, essa comparao entre

o modelo padro e o modelo hierrquico com o modelo de reagrupamento no foi

observada em outros trabalhos em indenticao de instrumentos musicais.

Famlias de instrumentos distintas formando agrupamentos hierrquicos com

o mesmo nmero de classes (MFPC, FRBS) foram utilizadas apresentando resulta-

dos ligeiramente distintos para o mesmo conjunto de teste e treinamento.

Ao nal do procedimento de elaborao dos melhores classicadores, obtive-

mos quatro solues (1, 2, 5 e 6) que apresentaram os melhores desempenhos para

163
a base de dados MIS, usando o agrupamento MFPC, contendo quatro classes re-

presentadas por famlias de instrumentos, de um total de 14 instrumentos. Todas

obtiveram taxas de acerto iguais ou superiores a 98,8%. Essas solues foram ava-

liadas para um novo agrupamento contendo 14 classes (instrumentos), mantendo o

excelente desempenho, com as seguintes taxas de acerto: 95,6%, 94,8%, 94,8% e

96,4% para as solues 1, 2, 5 e 6, respectivamente. Vericou-se que essas solu-

es mantem o mesmo desempenho para um novo agrupamento contendo 17 classes

formadas por amostras de outra base de dados (RWC), obtendo as seguintes taxas

de acerto: 86,8%, 94,1%, 95,4% e 89,8% para as solues 1, 2, 5 e 6, respectiva-

mente. Isso demonstra a capacidade de migrao da soluo obtida de um agrupa-

mento contendo 4 classes, usando uma determinada base de dados (MIS), para um

novo agrupamento contendo 17 classes (instrumentos) com uma outra base de dados

(RWC). Cabe observar que a soluo 2 e a soluo 5 praticamente no apresentaram

degradao no desempenho com a mudana de base de dados.

Foi observado que o uso de um banco de classicadores para determinar a

classe da amostra apresentou ganhos em relao s solues individuais dos classi-

cadores para os dois agrupamentos testados (MFPC e INSTRUMENTO). Assim,

o classicador proposto nessa dissertao composto por 4 classicadores, 2 SVM

e 2 K -NN, congurados para as solues 1, 2, 5 e 6 descritas na Tabela 7.29. Essa

abordagem de uso de banco de classicadores para identicao de instrumentos

musicais tambm no foi observada em outros trabalhos para esse mesmo propsito.

As estimativas da taxa de acerto para reconhecer os 14 instrumentos da base

de dados MIS e os 17 instrumentos da base de dados RWC usados nessa disserta-

o so de 97,2% e 97,1%, respectivamente, para o classicador proposto em cada

uma das bases de dados, e para suas famlias de instrumentos de 99,2% e 99,0%,

respectivamente.

A estimativa da taxa de acerto para reconhecer os 20 instrumentos das 3 bases

de dados proposta nessa dissertao na forma mais rigorosa (com 100% das amostras

para teste com reverberaes) de 92% e na forma menos rigorosa (com 22% das

amostras para teste com reverberaes) de 94%. Esse resultado est conforidade

com os resultados obtidos na literatura, sendo a taxa de acerto global ligeiramente

superior s taxas de acertos apresentadas em trabalhos anteriores. Contudo, tais

164
comparaes com esses trabalhos devem ser atenuadas devido s eventuais diferen-

as nos testes, como as bases de dados utilizadas e os agrupamentos hierrquicos

avaliados.

Nessa dissertao foi tambm abordado o problema de identicao das fon-

tes em um sinal polifnico a partir de misturas instantneas. Foram usadas duas

abordagens, uma contendo um separador de fontes e outra sem o separador de fontes.

O separador de fontes empregado foi otimizado de forma a interferir minimamente

na taxa de acerto do classicador. De fato, as simulaes avaliaram a capacidade

do classicador conseguir classicar corretamente as notas distorcidas pela superpo-

sio temporal, a qual no foi possvel resolver com separador de fontes otimizado.

Para esse caso, vericou-se que misturas contendo at 6 fontes foram estimadas cor-

retamente. J para misturas sem o separador de fontes vericou-se que misturas com

at 5 fontes tiveram as duas estimativas mais votadas corretamente identicadas.

Tambm se avaliou a robustez do classicador ao contaminar uma sequncia

monofnica com rudo branco e sinal interferente. Vericou-se que o classicador

apresentou uma maior sensibilidade contaminao com rudo branco do que

contaminao com sinal interferente. O motivo dessa sensibilidade se deve ao fato do

rudo branco perturbar signicativamente todas as raias no domnio da frequncia,

para todos os quadros, o que no ocorre com o sinal musical interferente. Essa

caracterstica (do rudo branco no possuir uma estrutura harmnica) diculta a

associao das amostras s fontes originrias. Foram avaliadas as curvas da taxa de

acerto do classicador em funo da SNR e da SIR. Para valores de SNR superiores a

20 dB e SIR superiores a 6 dB, o classicador apresentou excelente desempenho. Esse

resultado evidencia a maior diculdade que o classicador obteve para identicar

sinais contaminados com rudo branco.

Posteriormente vericou-se a capacidade do classicador de identicar mistu-

ras convolutivas. Percebeu-se que a distoro causada por um algoritmo separador

suciente para fazer com que o classicador errasse as estimativas. Assim, foi

necessrio usar um algoritmo de derreverberao para corrigir essas distores cau-

sadas pelo algoritmo separador de misturas convolutivas. Avaliou-se nesse caso uma

perturbao com rudo branco nos coecientes da matriz de separao que sero

determinantes para a deconvoluo da distoro causada pelo algoritmo separador.

165
Os resultados indicam que a SNR necessria para que o classicador consiga esti-

mar corretamente as fontes alta, superior a 90 dB. Esse resultado dependente do

mtodo que foi avaliado nessa dissertao.

No apndice B foi feita uma comparao direta entre os resultados obtidos

em [3] e os resultados obtidos nessa dissertao. A base de dados empregada foi a

MIS, e os instrumentos avaliados em ambos os trabalhos foram os mesmos (14 ins-

trumentos). As diferenas residem somente na formao do conjunto de treinamento

(que em [3] no foi informado) e nos agrupamentos familiares, que foram alterados

no apndice B de forma a se poder fazer a comparao. As taxas de acerto obtidas

para o agrupamento familiar foram de 95% em [3] contra 98,8% nessa dissertao,

e para os instrumentos foram de 90% em [3] contra 96,4% obtida pela soluo 6 ou

97,2% obtida pelo banco de classicadores formado pelos sistemas de classicao

denidos nas solues 1, 5 e 6, de forma que os resultados obtidos nessa dissertao

para esse agrupamento com essa base de dados superaram os melhores resultados

observados na literatura para esses mesmos agrupamento e base de dados.

Essa dissertao levanta algumas questes que possivelmente podem resultar

em futuros trabalhos nas reas de segmentao, codicao, classicao e agrupa-

mentos hierrquicos visando um sistema de reconhecimento automtico para instru-

mentos musicais.

Na rea de segmentao, no foi observada uma reduo signicativa da taxa

de acerto com a reduo do segmento central. Com isso abre-se a possibilidade de

um trabalho que consiga caracterizar o tamanho mnimo desse segmento para uma

dada nota. Uma caracterstica que se deve levar em conta no modelo IMF que

o segmento central possui parte do segmento de ataque mais o decaimento acres-

cido de parte do segmento de sustentao (ou, quando esses no ocorrem, parte

da relaxao). Tambm se deve destacar que grande parte das notas com pizzicato

dos instrumentos de cordas, que no possuem sustentao conforme pode ser obser-

vado na Figura 3.7 (envoltria da nota C4 de um violino), tiveram uma alta taxa

de acerto. Assim, para todos os casos sempre esteve presente parte do segmento

de ataque mais o segmento de decaimento ou parte do segmento da relaxao. Se

assumirmos que para os instrumentos que no possuem sustentao a parte inicial

da relaxao se confunde em parte com o decaimento, podemos supor que bastaria

166
codicar parte do ataque mais o decaimento (ou parte da relaxao, caso no exista

sustentao) para caracterizar o instrumento musical, uma vez que esses trechos da

nota representam o intervalo entre o comeo do m do ataque da nota e o incio

da sustentao ou relaxao da nota, ou seja, onde o instrumentista teria menor

controle sobre a nota. Possivelmente por esse motivo esses trechos carregariam me-

nor contaminao volitiva, e portanto, uma informao mais limpa do instrumento

musical. Alm dessa questo, existe a possibilidade de avaliar-se o desempenho do

trecho de relaxao, que no foi abordado nesse trabalho, como tambm de qualquer

outro segmento decorrente de mtodos de segmentao que no foram investigados

nesse trabalho.

Na rea de codicao foi observado que o codicador MFCC apresentou o

melhor resultado para o trecho de ataque, enquanto que o codicador LSF apresen-

tou um desempenho ligeiramente superior para o segmento central do modelo IMF.

Assim, pode-se investigar em trabalhos futuros a associao desses 2 trechos com

essas codicaes distintas combinados ou no com a transformada Wavelet para

a formao de um vetor de caractersticas com potencial de discriminao maior.

Alm dessas questes, pode-se avaliar o uso de outros codicadores tais como LPCC

e RASTA-PLP.

Na rea de classicao o classicador DLG com uma transformao polino-

mial para o espao de caractersticas apresentou taxas de acerto superiores a 97%

(para o agrupamento MFPC), provando que o desempenho da sua implementao

na forma generalizada proposta nessa dissertao para essas bases de dados com-

parvel dos demais classicadores empregados nessa dissertao, de forma que

o uso de discriminantes lineares na rea de classicao de instrumentos musicais

no pode ser desprezado. Assim, pode-se pensar em trabalhos futuros usando uma

implementao otimizada do DLG com uso de variados kernels a m de reduzir o

seu tempo de resposta e de melhorar seu desempenho, uma vez que a transformao

para o espao de caracterstica que a SVM (gaussiana) empregou pode ter favorecido

esse ltimo na conquista das melhores solues. Outra melhoria possvel que essa

implementao de DLG permite variaes nas funes objetivos, o que pode anga-

riar melhorias no seu desempenho. O classicador DLG elaborado nessa dissertao

usou um mtodo de busca de mnimo local baseado no algoritmo LMS normalizado.

167
No entanto, nada impede que se usem outros mtodos de busca de mnimos locais

ou globais mais ecientes ou mais rpidos, dependendo da situao. Alm dessa

questo, observou-se ainda que a maioria dos trabalhos nessa rea utilizam GMM

ou SVM. Existem alguns casos especcos com Redes Neurais e HMM. Portanto, a

abordagem apresentada nessa dissertao pode ser avaliada juntamente com esses

demais classicadores.

Com relao aos agrupamentos foi mostrado nessa dissertao que o modelo

de reagrupamento difere do modelo padro. Portanto, em trabalhos futuros pode-se

desenvolver novos agrupamentos das amostras dos instrumentos a partir das seme-

lhanas entre elas (medidas por mtrica) ou estimadas pela taxa de acerto (por um

sistema de reconhecimento previamente denido) para uma dada estratgia, visando

reduzir erros de confuso entre instrumentos, e com isso atingir melhores resultados.

Nessa busca possivelmente ser necessrio usarmos clusterizadores.

Com relao ao modelo hierrquico obteve-se no nico caso estudado uma

congurao capaz de discriminar 100% das amostras da famlia MFPC tanto em

teste quanto em treinamento. Isso foi possvel alterando-se para cada n a soluo

(vetor de caracterstica mais classicador) o que levanta a questo de se estudar

qual a melhor estrutura hierrquica (rvore) para se classicar um agrupamento

(conjunto de classes, folhas).

Vericou-se que a presena da reverberao afeta a taxa de acerto. Isso foi

vericado tanto na base de dados MUMS (cujas amostras esto contaminadas com

reverberao) quanto nas misturas convolutivas em uma sala (com reverberao).

Assim, pode-se pensar em usar um conjunto de descritores que sejam menos sen-

sveis reverberao, ou em alguma transformao sobre o vetor de caracteristicas

j formado, uma vez que contornar a distoro causada pela reverberao algo

extremamente complicado visto que a reverberao pode alterar drasticamente o

espectro de forma desconhecida.

168
Referncias Bibliogrcas

[1] Anssi Klapuri e Manuel Davy, Signal Processing Methods for Music Transcrip-

tion, Springer, Science+Business Media LLC, 2006.

[2] Hyoung-Gook Kim, Nicolas Moreau e Thomas Sikora, Introduction to MPEG-7

audio, John Wiley & Sons Ltd, 2005.

[3] A. G. Krishna e T. V. Sreenivas, Music instrument recognition: from isolated

notes to solo phrases, Proc. of ICASSP, pp. 265-268, 2004.

[4] Keith D. Martin e Youngmoo E. Kim, Musical instrument identication: A

pattern-recognition approach, 136th meeting of the Acoustical Society of Ame-

rica, 1998.

[5] Frank Opolko e Joel Wapnick, McGill University Master Samples, conjunto

com 3 DVDs, disponibilizada pela McGill University, Montreal,

via http://www.music.mcgill.ca/resources/mums/html/mums.html, 1987.

[6] Janet Marques e Pedro J. Moreno, A Study of Musical Instrument Classica-

tion Using Gaussian Mixture Models and Support Vector Machines, Cambridge

Research Labs Technical Report Series CRL/4, 1999.

[7] Antii Eronen e Anssi Klapuri, Music instrument recognition using cepstral

coecients and temporal features, Proc. of ICASSP, pp. 753-756, 2000.

[8] G. Agostini, M. Longari e E. Pollastri, Music instrument timbres classication

with spectral features, Proc. of ICME, pp. 97-102, 2001.

[9] Teisuro Kitahara, M. Goto e H. G. Okuno, Music instrument identication

based on F0-dependent multivariate normal distribution, Proc. of ICASSP, pp.

421-424, 2003.

169
[10] Lawrence Fritts, Musical Instruments Samples of IOWA University, MIS, dis-

ponibilizada pela University of IOWA

via http://theremin.music.uiowa.edu/MIS.html, 1997.

[11] Masataka Goto e Takuichi Nishimura, RWC Music Database: Music Genre

Database and Musical Instrument Sound Database, disponibilizada pela Na-

tional Institute of Advanced Industrial Science and Technology (AIST), via

http://sta.aist.go.jp/m.goto/RWC-MDB/m, ISMIR, pp. 229-230, 2003.

[12] Bohumil Med, Teoria da Msica, 4.ed. rev. e ampl., Braslia, DF, Musimed,

1996.

[13] Margaret J. Kartomi, On Concepts and Classications of Musical Instruments,

Chicago: University of Chicago Press, 1990.

[14] Margaret J. Kartomi, Wikipedia, Instrumento Musical, enciclopedia livre, li-

cenciado sob CC-BY-SA , http://pt.wikipedia.org/wiki/Instrumento_musical,

maio de 2008.

[15] Erich M. von Hornbostel e Curt Sachs, Classication of Musical Instruments:

Translated from the Original German by Anthony Baines and Klaus P. Wachs-

mann, The Galpin Society Journal, vol. 14, pp. 3-29, 1961.

[16] Tiago de Oliveira Pinto, Som e msica. Questes de uma Antropologia So-

nora, Rev. Antropol., vol.44, no.1, 2001.

[17] Hwei P. Hsu, Teoria e Problemas de Comunicao Analgica e Digital, 2.ed.,

Porto Alegre, Bookman, pp. 56, 2006.

[18] Keith Dana Martin, Sound-Source Recognition: A Theory and Computational

Model, Tese de Ph.D. submetida ao departamento de Engenharia Eltrica e

Cincia da Computao, Massachusetts Institute of Technology, MIT, 1999.

[19] RAS, Electronic Inteligence, Introduction to Radar, Signal Interception and

EW Databases, Notas, 1995.

[20] Judith C. Brown, Calculation of a constant Q spectral transform, J. Acousti.

Soc. Am., 89, pp. 425-434, 1991.

170
[21] Judith C. Brown e M. S. Puckette, An ecient algorithm for the calculation

of a constant Q transform, J. Acoust. Soc. Am., 92, pp. 2698-2701, 1992.

[22] UCL Department of Phonetics and Linguistics, Introduction to Computer Pro-

gramming with MATLAB, Lecture 10: Speech Signal Analysis, disponibilizada

via http://www.phon.ucl.ac.uk/courses/spsci/matlab/lect10.html, setembro de

2008.

[23] Peyton Z. Peebles, Jr, Probability, Random Variables, and Random Signal

Principles, 4.ed., McGraw Hill, New York, 2001.

[24] Adam Kawalec e Robert Owczarek, Radar Emitter Recognition Using Intra-

pulse Data, Microwaves, Radar and Wireless Communications, MIKON-2004,

15th International Conference, vol. 2, pp. 435-438, 2004.

[25] Jeremiah D. Deng, Christian Simmermacher e Stephen Craneeld, A Study on

Feature Analysis for Musical Instrument Classication, IEEE Transactions On

Systems, Man, And Cybernetics-Part B: Cybernetics, vol. 38, no. 2, 2008.

[26] Lawrence Rabiner e Biing-Hwang Juang, Fundamentals of Speech Recogni-

tion, Englewood Clis, Prentice-Hall, New Jersey, 1993.

[27] Alan V. Oppenheim e Ronald W. Schafer, Discrete-Time Signal Proces-

sing, Prentice Hall, Englewood Clis, New Jersey, 1989.

[28] Marina Bosi e Richard E. Goldberg, Introduction to Digital Audio Coding and

Standards, Kluwer Academic Publishers, 2.ed., Norewll, Massachusetts, USA,

2003.

[29] Alexandre Leizor Szczupak Identicao de Notas Musicais em Registros Solo

de Violo e Piano, Dissertao de Mestrado, COPPE/UFRJ, 2008.

[30] Jorge C. Pires Filho, Diego B. Haddad e Luiz P. Caloba, Classicao de

Padres de Varredura de Radares, Anais do VIII Congresso de Redes Neurais,

vol. 1, 2007.

[31] Antii Eronen, Musical instrument recognition using ICA-based transform of

features and discriminatively trained HMMs, Signal Processing and Its Appli-

171
cations, In Proceedings. Seventh International, Symposium, vol. 2, pp. 133-136,

2003.

[32] Jorge C. Pires Filho, Diego B. Haddad e Luiz P. Calba, Tcnicas de Reconhe-

cimento de Padres aplicadas na Classicao de Varreduras de Radar, Anais

do IX Simpsio Internacional de Guerra Eletrnica, vol. 1, 2007.

[33] Jorge C. Pires Filho, Paulo Antonio Andrade Esquef e Luiz Wagner Pereira

Biscainho, Classicao Automtica de Sons de Instrumentos Musicais usando

Discriminantes Lineares, 6o Congresso da AES Brasil, 12a Conveno Nacional

da AES Brasil, pp. 112-118, 2008.

[34] Ian Kaminskyj e Tadeusz Czaszejko, Automatic Recognition of Isolated Mo-

nophonic Musical Instrument Sounds using kNNC, Journal of Intelligent Infor-

mation Systems, vol. 24, no. 2-3, pp. 199-221(23), 2005.

[35] Richard O. Duda, Peter E. Hart e David G. Stork, Pattern classication, John

Wiley & Sons, Inc, New York, 2000.

[36] John R. Deller, John H. L. Hansen e John G. Proakis, Discrete-Time Processing

of Speech Signals, IEEE Press, 2000.

[37] Simon Haykin, Neural Networks a Comprehensive Foundation, Prentice Hall,

2a. Ed., 1999.

[38] Vladimir Vapnik, The Nature of Statistical Learning Theory, Springer, New

York, 1995. ISBN 0-387-94559-8.

[39] Steve R. Gunn, Support Vector Machines for Classication and Regression,

Technical Report - Faculty of Engineering, Science and Mathematics School of

Electronics and Computer Science, Southtampton University, 1998.

[40] Simon Haykin, Adaptive Filter Theory, Prentice Hall, New Jersey, 1996.

[41] Nachman Aronszajn, Theory of Reproducing Kernels, Transactions of the Ame-

rican Mathematical Society, vol. 68, no. 3, pp. 337-404, 1950.

[42] Grace Wahba, Spline Models for Observational Data, SIAM, 1990.

172
[43] Nancy Heckman, The theory and application of penalized least squares methods

or reproducing kernel Hilbert spaces made easy, UBC Statistics Department

Technical Report, no. 216, 1997.

[44] E. Osuna, R. Freund e Fredrico Girosi, Training support vector machines: An

application to face detection, In Proc. IEEE Conference on Computer Vision

and Pattern Recognition, pp. 130-136, IEEE Press, 1997.

[45] Christopher J.C. Burges, A tutorial on support vector machines for pattern

recognition, Data Mining and Knowledge Discovery 2, pp. 121-167, 1998.

[46] Antti Eronen, Automatic Musical Instrument Recognition, Dissertao de

Mestrado, Departamento de Tecnologia da Informao, Tampere University of

Technology, 2001.

[47] Diego Barreto Haddad, Propostas para Separao Cega e Supervisionada de

Fontes, Dissertao de Mestrado, COPPE/UFRJ, 2008.

[48] Tairone Magalhes et al, Segmentao automtica de sinais musicais monof-

nicos para anlise da expressividade, XVIII Congresso da Associao Nacional

de Pesquisa e Ps-Graduao (ANPPOM), 2008.

[49] Michael Noll, Short-time Spectrum and Cepstrum Techniques for Vocal-Pitch

Detection, The Journal of American Society of Acoustic., vol. 36, no. 2, pp.

296-302, 1964.

[50] Herbert Buchner e Walter Kellerman, A Fundamental Relation Between Blind

and Supervised Adaptive Filtering Illustrated For Blind Source Separation and

Acoustic Echo Cancellation, HSCMA, pp. 17-20, 2008.

[51] Shoji Makino e Te-Won Lee, Blind Speech Separation, Series: Signals and

Communication Technology, Sawada, Hiroshi (Eds.), XV, p. 432, 2007.

[52] Isaac Osunkunle e Sayed ali Shekarchi, A survey on methods for blind acoustic

dereverberation, Blekinge Institute of Technology/(TEK), 2007.

[53] Manuel Davy e Simon Godsill, Detection of Abrupt Spectral Changes Using

Support Vector Machines an Application to Audio Signal Segmentation, Euro-

pean research project MOUMIR, http://www.moumir.org.

173
[54] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, J. Acoust.

Soc. Am., vol. 87, no. 4, pp. 1738-1752, 1990.

[55] C. Pruysers, J. Schnapp e Ian Kaminskyj, Wavelet Analysis in Musical Instru-

ment Sound Classication, 8th Int. Symp Signal Proc. & Applns, University of

Wollongong, pp. 1-4, 2005.

[56] Nishan Canagarajah, Instrument Recognition Based Wavelet Packet Tree

in Audio Feature Extraction, University of Bristol, Digital Music Research

Group, in the Proceedings of International Symposium on Musical Acous-

tics, (ISMA'2001), pp. 465-468, 2001

[57] H. Hermansky e N. Morgan, RASTA processing of speech, IEEE Trans. on

Speech and Audio Proc., vol. 2, no. 4, pp. 578-589, 1994.

174
Parte V

Apndices

175
Apndice A

Banco de Dados de Instrumentos

Foram utilizados no desenvolvimento deste trabalho de reconhecimento de

instrumentos musicais trs bancos de dados de instrumentos: um fornecido pela

Universidade de Iowa [10], outro fornecido pela Universidade McGill [5] e o ltimo

uma base de dados japonesa denominada RWC Music Database [11]. Nem todas as

amostras contidas em cada banco de dados foram utilizadas, ou seja, foram utilizados

nessa dissertao somente alguns dos instrumentos, tendo havido preferncia para os

instrumentos que aparecem em todas as bases de dados. No entanto, especicamente

em relao base de dados MIS, a escolha do subconjunto de instrumentos musicais

foi feita com o intuito de avaliar o desempenho do algoritmo proposto em relao a

um outro trabalho internacional (desenvolvido por Krishna [3]). Somente a partir

desse subconjunto que buscou-se os instrumentos equivalentes nas demais bases de

dados. Posteriormente, acrescentamos mais alguns instrumentos das outras bases

de dados, principalmente os instrumentos de percusso, visto que os mesmos no

existem na base de dados MIS.

A.1 Banco de Dados de Instrumentos MIS-IOWA


As amostras de Instrumentos Musicais da Universidade de Iowa (UIowa)[10]

foram criadas em 1997 por Lawrence Fritts, Diretor da Electronic Music Studios and

Associate e professor de composio da mesma Universidade. Os sons dos instru-

mentos musicais foram gravados em uma cmara anecica no Johnson Speech and

Hearing Center na Universidade de Iowa com os seguintes equipamentos: Microfone

176
Neumann KM 84 ; Mixer Mackie 1402-VLZ ; Gravador DAT anasonic SV-3800.

As gravaes foram transferidas digitalmente para um Macintosh Power PC

8500 atravs de uma interface Digidesign Audiomedia III (1997-1999) e para um

Macintosh G4 por uma interface digital Digidesign Digi-001 (2000-). Posterior-

mente foram editadas para arquivos de udio utilizando a ferramenta Digidesign

Sound Designer II (1997-1999) ou a Bias Peak (2000-). Para cada instrumento mu-

sical selecionado foram gravados (cobrindo toda a tessitura do instrumento) escalas

cromticas com trs nveis dinmicos no normalizados (pp, mf, , ou seja, pians-

simo, mezzo forte, e fortssimo), feitas em mono, 16 bit, 44,1 kHz, e formato AIFF.

A nica exceo o piano cujo som foi gravado em um pequeno estdio (ambiente

no anecico) na forma stereo.

Cada nota tem aproximadamente 2 segundos de durao e imediatamente

precedida e seguida de um intervalo. Quando pertinentes, diferentes estilos de execu-

o e recursos expressivos foram gravados (por exemplo: amostras de sons de violino,

viola e violoncelo com ou sem vibrato alm de execuo com arco em pizzicato ).

Na Tabela A.1 so apresentados todos os instrumentos contemplados por este

banco de dados.

177
Instrumento Arquivo Notas

Alto Flute 11 99

Alto Saxophone 18 192

Bass Clarinet 12 139

Bass Flute 10 102

Bass Trombone 12 131

Bassoon 15 122

Bb Clarinet 13 139

Bb Trumpet 24 212

Cello 77 668

Double Bass 69 571

Eb Clarinet 13 119

Flute 22 227

French Horn 12 96

Oboe 12 104

Piano 259 259

Soprano Saxophone 24 192

Tenor Trombone 12 99

Tuba 9 111

Viola 27 257

Violin 71 601

Tabela A.1: Tabela de instrumentos da base de dados MIS.

As amostras esto organizadas em arquivos separados por nvel dinmico,

que armazenam uma nota ou um conjunto de notas de um dado instrumento em

ordem crescente de pitch.

As Figuras A.1 e A.2 ilustram a sequncia de notas do instrumento Flauta

Contralto (do arquivo AltoFlute..C4B4) e Trompa (do arquivo Horn..C4B4).

178
0,25

0,2

0,15

0,1

0,05
Amplitude

0,05

0,1

0,15

0,2

0,25
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2
n (amostras)

Figura A.1: Flauta Contralto C4-B4.

0,8

0,6
Amplitude

0,4

0,2

0,2

0,4
0 2 4 6 8 10 12
n (amostras) 5
x 10

Figura A.2: Trompa C4-B4.

A.2 Banco de Dados de Instrumentos MUMS


A maioria dos sons da biblioteca MUMS (McGill University Master Samples )

[5] foram gravados diretamente de um gravador DASH Sony PCM 3202, em um

estdio de gravao preparado para ser acusticamente neutro e tendo um tempo de

reverberao de aproximadamente 0,4 segundos. J os instrumentos de cordas e o

179
piano foram gravados em um concert hall tendo o tempo de reverberao variando

de 2,5 a 5 segundos. As amostras foram gravadas com uma taxa de amostragem de

44,1 kHz com 24 bits e possuem um tempo de durao variando entre 2 s e 10 s.

Todas as amostras desta biblioteca so stereo, e diferentemente das bibliotecas

MIS e RWC (onde cada arquivo apresenta um trem de nota), os arquivos desta base

de dados apresentam somente uma nota e se encontram no padro .wav, sendo

armazenados em 3 DVDs.

Existem 6546 amostras de som nessa biblioteca, sendo divididos em 2204

para cordas, 1595 para teclado, 1197 para madeira, 1087 para percusso e 463 para

metais.

Esta biblioteca apresenta uma quantidade numerosa de instrumentos mu-

sicais, perfazendo um total de 211 instrumentos. Assim, uma lista completa de

seus instrumentos musicais pode ser encontrada em [5]. No entanto, o nmero de

amostras por instrumento inferior ao das demais bases de dados usadas nessa dis-

sertao. Devido a esse fato, para cada gravao, as notas dos dois canais foram

usadas nas simulaes.

A seguir na Figura A.3 apresentamos a nota A4 de um Saxofone Contralto

nos dois canais.

0,5
Amplitude

0,5

1
0 2 4 6 8 10 12 14 16
n (amostras) x 10
4

(a)
1

0,5
Amplitude

0,5

1
0 2 4 6 8 10 12 14 16
n (amostras) x 10
4

(b)

Figura A.3: Saxofone Contralto - A4. (a) canal 1; (b) canal 2.

180
A.3 Banco de Dados de Instrumentos RWC
A base de dados da RWC Real Word Computing, RWC Music Database [11]

um projeto japons, formada por 6 bases de dados, a saber: Popular Music Data-

base, Royalty-free Music Database, Classical Music Database, Jazz Music Database,

Music Genre Database e Musical Instrument Sound Database. O pacote usado nessa

dissertao o Musical Instrument Sound Database, composto por 50 instrumentos

distintos e armazenados em 12 DVDs. As amostras foram gravadas em 44,1 kHz,

com 16 bits em formato monoaural.

Ela fornece, a princpio, 3 variaes para cada instrumento, totalizando cerca

de 150 performances de instrumentos de msica, sendo tambm caracterizada por 4

tpicos, a saber:

1. As Variaes so decorrentes de gravaes oriundas de 3 fabricantes de ins-


trumentos, sendo estes instrumentados por at 3 msicos distintos. Assim,

cada variao caracterizada, em princpio, por um instrumento de um dife-

rente fabricante tocado por um diferente msico. Cada prossional empregado

teve em mdia 17 anos de experincia assegurados para cada instrumento musi-

cal. Entretanto, para alguns instrumentos musicais, foi includa uma variao

a partir de um outro tipo de instrumento musical;

2. Estilos de execuo (dependentes do instrumento). Muitos estilos de exe-

cuo foram registrados, dentro da gama de possibilidades para cada instru-

mento. No entanto, para instrumentos de percusso (RWC-MDB-I-2001 No

40-44), cada tipo foi quebrado dentro dos especcos instrumentos e contabili-

zado como estilo de execuo por convenincia (e gravado para cada um destes

mltiplos estilos de execuo);

3. Pitch . Para cada estilo de execuo de um instrumento, o msico geralmente

tocou sons individuais com intervalos de meio tom sobre a faixa inteira de tons

que poderiam ser produzidas pelo instrumento. Para instrumentos de corda,

a faixa total de sons foi obtida para cada corda.

4. Nvel Dinmico (Trs nveis dinmicos). Cada estilo de execuo de um

instrumento foi tambm gravado com 3 (trs) nveis dinmicos (forte, mezzo,

181
piano) sobre a faixa total do instrumento em questo.

As gravaes dos arquivos seguiram o procedimento de agrupar os sons indi-

viduais em ordem crescente de pitch sobre a faixa total do instrumento (tessitura),

inserindo um intervalo de silncio (gap ) entre sons individuais e adjacentes. Dessa

forma facilitado o procedimento de segmentao das notas, bastando para isso um

simples detector de silncio. O nome de cada arquivo formado por oito caracteres

com uma extenso .wav. Estes oito caracteres consistem em:

1. dois dgitos para o identicador do instrumento musical;

2. um dgito para a variao;

3. dois caracteres para uma abreviao do instrumento;

4. dois caracteres para identicao do estilo de execuo;

5. um caractere indicando o nvel dinmico.

Um total de 3544 arquivos compe a totalidade dos instrumentos dessa base

de dados, ocupando um espao de cerca de 29,1 Gbytes e um tempo total de gravao

de cerca de 91 horas 37 minutos e 38 segundos (includo os intervalos de silncio).

Na Tabela A.2 apresentamos uma lista com os 50 instrumentos contemplados

por essa base de dados conforme sua denominao em ingls:

Apresentamos na Figura A.4 o arquivo 261ASNOF.WAV, o qual contm as

notas em toda a faixa do instrumento Saxofone Contralto sem vibrato no nvel

dinmico forte.

182
Tabela A.2: Tabela de instrumentos da base de dados RWC.

A.4 Segmentador Elaborado usando Mdia e Des-


vio.
Esse segmentador foi inicialmente elaborado para extrair as notas dos arqui-

vos fornecidos pela base de dados MIS. Conforme pode se observar nas Figuras A.2

e A.1 necessrio um algoritmo de segmentao que seja capaz de extrair cada nota

do trem de notas do qual composta a amostra do sinal. Infelizmente, os arquivos

da base de dados MIS possuem as suas notas espaadas ora por silncio ora por

rudo de fundo, o que descarta o emprego de um detector de silncio.

183
1

0,8

0,6

0,4
Amplitude

0,2

0,2

0,4

0,6
0 0,5 1 1,5 2 2,5 3
n (amostras)

Figura A.4: Saxofone Contralto.

Posteriormente esse segmentador mostrou-se til quando foram feitas as an-

lises presentes nos captulos 9 e 8, onde foi empregado conjuntamente com outro

extrator de notas, basicamente devido ao fato de ter se mostrado bastante robusto.

O segmentador implementado usou o fato que quando uma janela passeia

sobre a energia do sinal, o desvio padro do sinal na janela que contm o incio ou

nal da nota sofre um acrscimo, visto que a variao do nvel de energia quando

a nota se inicia ou se encerra ser maior que a variao do nvel de energia que

contm somente amostras dos instantes de silncio ou de presena da nota. Assim,

ao variarmos as entradas (tamanho da janela, desvio padro da janela) possvel

gerar uma segmentao correta das notas contidas na amostra do sinal.

Aps a segmentao persiste um segundo problema que saber se o nmero de

notas obtidas pelo segmentador representa o nmero real de notas distintas contidas

no arquivo. Para contornar esse problema fez-se uma inspeo visual e s vezes

auditiva em cada arquivo da base de dados, anotando o nmero de notas contidas

no arquivo e armazenando este resultado num arquivo gabarito. De posse dessa

informao foi possvel ajustar o par de caractersticas do segmentador de forma a

se conseguir uma segmentao correta. Nas Figuras A.5 e A.6 vemos duas notas j

segmentadas referentes a cada um dos arquivos mencionados anteriormente:

Posteriormente, para emprego nos Captulos 9 e 10, foi necessrio automatizar

184
1

0,8

0,6
Amplitude

0,4

0,2

0,2

0,4
0 1 2 3 4 5 6 7 8 9 10
n (amostras) 4
x 10

Figura A.5: Trompa - A4.

0,25

0,2

0,15

0,1

0,05
Amplitude

0,05

0,1

0,15

0,2
0 2 4 6 8 10 12 14 16
n (amostras) 4
x 10

Figura A.6: Flauta Contralto A4.

o processo. Para isso, mais uma entrada foi acrescentada: a mdia da janela, a qual

passou a ser comparada juntamente com o desvio da janela com a mdia e o desvio

do sinal inteiro. Essa modicao no garantiu o sucesso de 100% dos casos, mas

tornou o processo robusto o suciente para que fosse empregado nas avaliaes dos

captulos citados anteriormente.

185
Apndice B

Comparao com outros Trabalhos

Esse apndice tem como objetivo efetuar uma comparao entre os resultados

obtidos pelo classicador proposto por essa dissertao e os resultados obtidos em

[3].

Existem algumas poucas limitaes para uma comparao direta dos resul-

tados obtidos pelos dois trabalhos, as quais relacionam-se com o conjunto de trei-

namento escolhido para treinar os classicadores, porque traduz uma alterao do

conjunto de teste. Portanto, pequenas variaes na taxa de acerto para mais ou

para menos nos instrumentos ou nas famlias podem ocorrer, sem que haja uma

preferncia clara. Alm da limitao anterior, existe uma segunda restrio que

o percentual das notas que foram usadas para o treinamento. Esse percentual

no aparece claramente no artigo, dizendo somente os percentuais globais atingidos

pelos dois agrupamentos usados e os percentuais obtidos por cada instrumento. As-

sim, iremos comparar o resultado do artigo supondo uma formao com 90% das

amostras para treinamento, que foi a mais frequentemente simulada nesse trabalho.

A taxa de acerto global relatada em [3] foi de 90% para os instrumentos e

95% para a famlia dos instrumentos.

A m de podermos fazer uma comparao direta entre as taxas de acerto

necessrio vericarmos tambm se a taxa de acerto global foi obtida de forma pon-

derada com a distribuio das amostras nos instrumentos, conforme foi feita nessa

dissertao. O conjunto de amostras usados em [3] aparentemente foi proporcio-

nal quantidade de amostras por instrumento, pois a taxa global indicada foi de

90%, sendo que, se ponderarmos pelos instrumentos as taxas relatadas para cada

186
instrumento com o total de amostras associada a cada instrumento, obtemos uma

taxa de acerto global de 90,1%. Essa diferena de 0,1% entre o valor relatado e o

estimado foi tambm notada quando se ponderaram pelo mesmo critrio as taxas

obtidas pelo classicador elaborado nessa dissertao. Portanto, ocorreu um erro de

0,1% para menos na estimativa, ou seja, de 97,2% avaliado contra 97,3% estimado.

Logo, atribuiu-se esse erro a problemas de arredondamento.

O artigo [3] usou 2 agrupamentos denidos de forma quase idntica ao que foi

feito nessa dissertao. Essa semelhana foi proposital para a base de dados MIS,

pois j visava essa comparao.

A princpio o trabalho elaborado no artigo [3] usou todas as variaes existen-

tes para os instrumentos presentes na base de dados. Contudo, existe uma diferena,

que uma inconsistncia organolgica com os agrupamentos apresentados no Ca-

ptulo 2, uma vez que Krishna e Sreenivas inseriram o instrumento Saxofone na

famlia metais, onde normalmente ele aparece na famlia palhetas. Denominaremos

esse novo agrupamento, com a presena do saxofone na famlia dos metais, de FRBS.

Nessa dissertao o instrumento saxofone foi inserido na famlia palhetas. Contudo,

para podermos comparar a taxa de acerto do agrupamento de famlia de instru-

mentos, iremos alterar a classicao hierrquica usada nessa dissertao visando

padroniz-la com a classicao hierrquica usada no artigo.

Nas tabelas apresentadas a seguir as duas linhas nais (de cima para baixo)

representam as taxas de acerto globais e as taxas de acerto mdia respectivamente.

Na Tabela B.1 apresentamos as taxas de acerto obtidas por Krishna e Sreenivas para

os instrumentos que foram usados.

Na Tabela B.2 apresentamos os resultados obtidos para os trs melhores

classicadores elaborados nessa dissertao para a base de dados MIS, com 90% da

base de dados usada para treinamento.

Conforme se pode ver, para esse caso, as 3 melhores solues obtiveram indi-

vidualmente um desempenho superior melhor soluo obtida por Krishna usando

GMM com 46 misturas e codicao LSF.

Se compararmos instrumento a instrumento o desempenho entre o melhor

classicador de Krishna e Sreenivas (LSF + GMM) e o melhor classicador indivi-

dual (LSF, soluo 6 + SVM) do banco de classicadores elaborado nesse trabalho,

187
Tabela B.1: Taxas de acerto obtidas por Krishna e Sreenivas usando GMM com 46

misturas.

Tabela B.2: Taxas de acerto obtidas pelos melhores classicadores para a base de

dados MIS.

podemos ver que alguns instrumentos foram melhores classicados com o classica-

dor elaborado nessa dissertao enquanto que outros instrumentos foram melhores

classicados com o classicador elaborado por Krishna e Sreenivas. No entanto,

convm destacar a diferena de desempenho entre os dois classicadores para os

188
instrumentos trompa, clarinetes (Bb e Eb) e obo, os trs primeiros a favor do

classicador elaborado nessa dissertao e o ltimo a favor de Krishna e Sreenivas.

Para avaliarmos o resultado para o agrupamento FRBS com o classicador

elaborado nessa dissertao usaremos somente a estratgia 3, pelo simples motivo

dela servir tanto para o K -NN quanto para a SVM. Infelizmente, nesse caso no

possvel fazer uma comparao direta com os resultados de cada famlia, visto que

Krishna e Sreenivas no apresentaram no seu artigo a taxa de acerto de cada fam-

lia. Apesar disso, apresentaremos na Tabela B.3 os resultados para o agrupamento

FRBS obtidos pelos principais classicadores que compem a soluo proposta nessa

dissertao.

Tabela B.3: Tabela contendo as taxas de acerto para o agrupamento FRBS.

Novamente podemos notar na Tabela B.3 que o classicador individual com

a pior taxa de acerto obteve um desempenho superior taxa de acerto relatada em

[3] (95%). A diferena encontrada no muito signicativa. No entanto, todos os

classicadores apresentados na Tabela B.3 tiveram desempenhos superior a 96%,

enquanto que todas as solues obtidas por Krishna e Sreenivas em [3] para esse

agrupamento foram sempre inferiores a 95%.

O agrupamento FRBS a princpio teve um desempenho similar ao agrupa-

mento MFPC, conforme pode ser visto na Tabela B.4. Sendo assim, a preferncia

de se usar nessa dissertao o agrupamento MFPC mostra-se adequada, j que esse

agrupamento (MFPC) se encontra mais coerente com literatura sobre organologia.

Alm da base de dados MIS, Krishna e Sreenivas usaram a base de dados

RWC para entre outras coisas, classicar notas provenientes de 19 Instrumentos.

Foi relatada para esse caso uma taxa de acerto global de 74%. Como o artigo no

discrimina os instrumentos usados para a RWC, no foi possvel fazer uma com-

parao direta entre os resultados obtidos por Krishna e Sreenivas e os resultados

189
Tabela B.4: Tabela contendo as taxas de acerto para o agrupamento MFPC.

obtidos nessa dissertao para essa mesma base de dados. No entanto, ca claro

que o modelo apresentado por Krishna e Sreenivas teve uma variao de aproxima-

damente 16% para um acrscimo de 5 instrumentos (mantido o modelo obtido com

a base de dados MIS). J o trabalho apresentado nessa dissertao obteve para a

base de dados RWC com 17 instrumentos (mantido o modelo obtido com a base

de dados MIS) uma taxa de acerto de 97,1%, praticamente a mesma obtida para a

base de dados MIS com 14 instrumentos. Um segundo resultado foi obtido para 20

instrumentos, com o mesmo modelo. Nesse caso as amostras das 3 bases de dados

foram misturadas, e a taxa de acerto foi superior a 94%. Percebe-se que a solu-

o proposta nessa dissertao apresenta maior adaptabilidade mudana de base

de dados do que a soluo apresentada por Krishna e Sreenivas, inclusive sofrendo

pouca variao com o acrscimo do nmero de classes.

190