Musica PDF

COPPE/UFRJ
DE INSTRUMENTOS MUSICAIS EM CONFIGURAC
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
Jorge Costa Pires Filho
Dissertacao de Mestrado apresentada ao

Programa de Pos-graduacao em Engenharia
Eletrica, COPPE, da Universidade Federal
do Rio de Janeiro, como parte dos requisitos
necessarios a` obtencao do ttulo de Mestre
em Engenharia Eletrica.
Orientadora: Mariane Rembold Petraglia
Rio de Janeiro
Setembro de 2009
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
DISSERTAC
AO
SUBMETIDA AO CORPO DOCENTE DO INSTITUTO
ALBERTO LUIZ COIMBRA DE POS-GRADUAC

AO
E PESQUISA DE
ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE
JANEIRO COMO PARTE DOS REQUISITOS NECESSARIOS

PARA A
OBTENC
AO
DO GRAU DE MESTRE EM CIENCIAS
EM ENGENHARIA
ELETRICA.
Aprovada por:
Prof. Mariane Rembold Petraglia, Ph.D.
Prof. Luiz Pereira Caloba, D.Sc.
Dr. Sergio Rodrigues Neves, D.Sc.
RIO DE JANEIRO, RJ BRASIL

SETEMBRO DE 2009
Pires Filho, Jorge Costa

Classificacao
de
Instrumentos
Musicais
em
Configuracoes Monofonicas e Polifonicas/Jorge Costa

Pires Filho. Rio de Janeiro: UFRJ/COPPE, 2009.
XIV, 190 p. 29, 7cm.
Dissertacao (mestrado) UFRJ/COPPE/Programa de
Engenharia Eletrica, 2009.
Referencias Bibliograficas: p. 169 174.
1. Classificacao de Instrumentos.
2. Separacao de
Fontes. 3. Processamento Digital de Sinais. I. Petraglia,

Mariane Rembold.
II. Universidade Federal do Rio de
Janeiro, COPPE, Programa de Engenharia Eletrica. III.

Ttulo.
iii
Aos meus pais, Jorge e Diva, à

minha esposa, Ellen, e ao meu
filho,
Rodrigo.
iv
Agradecimentos
Agradeco a todas as pessoas que possibilitaram a elaboracao deste trabalho: meus
pais, minha esposa e meu filho, pelo suporte pessoal e compreensao pelas horas
que lhes foram roubadas; à minha orientadora Mariane Rembold Petraglia pela inspiracao e confianca; aos meus amigos Diego Barreto Haddad pelo apoio irrestrito e
exemplo e Sergio Rodrigues Neves pela ajuda e incentivo, sem os quais nao teria realizado a dissertacao; ao Laboratorio de Processamento de Sinais - LPS, que garantiu
a aquisicao de duas das tres bases de dados usadas nessa dissertacao, em especial
aos Profs. Luiz Wagner Pereira Biscainho e Paulo Antonio Andrade Esquef; ao laboratorio de Processamento Analogico e Digital de Sinais - PADS e ao Instituto de
Pesquisas da Marinha - IPqM, em particular ao Capitao-de-Fragata Jorge Amaral
Alves do Grupo de Guerra Eletronica, pelo grande apoio que me foi concedido.
Resumo da Dissertacao apresentada a` COPPE/UFRJ como parte dos requisitos

necessarios para a obtencao do grau de Mestre em Ciencias (M.Sc.)
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
Setembro/2009
Programa: Engenharia Eletrica
Este trabalho apresenta um conjunto de tecnicas para extracao e classificacao de

caractersticas de sinais de audio provenientes de gravacoes musicais visando reconhecer o tipo de fonte geradora, ou seja, o instrumento musical. Mesclando aspectos
teoricos e praticos, discute-se e afere-se o desempenho das tecnicas correntes e sao
propostas contribuicoes para melhorar a capacidade de discriminacao dos sinais. Sao
abordados classificadores como maquinas de vetor suporte, discriminantes lineares,
K -vizinhos mais proximos, e algumas tecnicas de extracao de caractersticas como
coeficientes de predicao linear, frequencias de linhas espectrais e coeficientes ceps mostrado um estudo de classificacao hierarquica assim como comparacoes
trais. E
com outros trabalhos. Por fim, apresenta-se propostas para classificacao dos instrumentos musicais de gravacoes polifonicas e monofonicas com o uso de algortimos de
separacao de fontes.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Master of Science (M.Sc.)
CLASSIFICATION OF MUSICAL INSTRUMENTS IN MONOPHONIC AND

POLYPHONIC CONFIGURATIONS
September/2009
Advisor: Mariane Rembold Petraglia
Department: Electrical Engineering
This work presents a set of techniques for extraction of features and classification of audio signals from recorded music, aiming at recognizing the source, i.e., the
musical instrument. Mixing theoretical and practical aspects, the performance of
current techniques is evaluated, and contributions are proposed for improving the
signal discrimination. Within the scope of the dissertation, classification techniques
such as Support Vector Machine, Linear Discrimination and K -Nearest-Neighbors
as well as techniques for feature extraction such as Linear Prediction coefficients,
Line Spectral Frequencies and Cepstral Coefficients are discussed. A preliminary
study on a hierarchic classification is shown and compared against other methods
presented in the literature. At last, applications of techniques for musical instruments classification with algorithms for sources separation from polyphonic and
monophonic signals are proposed.
vii
Sumrio
Lista de Abreviaturas
xiii
I Introduo
1 Apresentao
1.1
Tema e Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Objetivo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Abordagens da Literatura
. . . . . . . . . . . . . . . . . . . . . . . .
1.4
Organizao do Texto
. . . . . . . . . . . . . . . . . . . . . . . . . .
2 Instrumentos Musicais e suas Classicaes Hierrquicas

2.1
Componentes
2.1.1
2.1.2
2.2
11
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Caractersticas do Som . . . . . . . . . . . . . . . . . . . . . .
13
2.1.1.1
Altura . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.1.2
Intensidade e Durao
. . . . . . . . . . . . . . . . .
14
2.1.1.3
Timbre
. . . . . . . . . . . . . . . . . . . . . . . . .
15
Elementos Constitutivos
. . . . . . . . . . . . . . . . . . . . .
15
2.1.2.1
Corpo Vibratrio . . . . . . . . . . . . . . . . . . . .
15
2.1.2.2
Corpo . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.2.3
Caixa de Ressonncia
. . . . . . . . . . . . . . . . .
15
2.1.2.4
Elementos de Estmulo e Controle . . . . . . . . . . .
16
2.1.2.5
Acessrios . . . . . . . . . . . . . . . . . . . . . . . .
16
Agrupamentos Hierrquicos
. . . . . . . . . . . . . . . . . . . . . . .
16
2.2.1
Sistema Grego . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2.2
Sistema Hornbostel e Sachs
17
viii
. . . . . . . . . . . . . . . . . . .
2.2.2.1
Idiofones
. . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2.2
Membranofones . . . . . . . . . . . . . . . . . . . . .
19
2.2.2.3
Cordofones
. . . . . . . . . . . . . . . . . . . . . . .
19
2.2.2.4
Aerofones
. . . . . . . . . . . . . . . . . . . . . . . .
20
2.2.3
Sistema de Andr Schaener . . . . . . . . . . . . . . . . . . .
20
2.2.4
Outros Agrupamentos Tradicionais
. . . . . . . . . . . . . . .
21
2.2.4.1
Eletrofones
. . . . . . . . . . . . . . . . . . . . . . .
21
2.2.4.2
Teclados . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2.4.3
Em funo da Altura . . . . . . . . . . . . . . . . . .
22
II Viso Geral do Sistema de Classicao
23
3 Segmentao e Pr-processamento
24
3.1
Caracterizao da Nota Musical . . . . . . . . . . . . . . . . . . . . .
24
3.2
Obteno da Envoltria da Potncia da Nota musical
. . . . . . . . .
25
3.3
3.2.1
Detector de Envoltria AM (DEAM)
. . . . . . . . . . . . . .
26
3.2.2
Mtodo do Mximo . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2.3
Mtodo do Filtro
. . . . . . . . . . . . . . . . . . . . . . . . .
27
Segmentao da Nota Musical . . . . . . . . . . . . . . . . . . . . . .
29
3.3.1
. . . . . . . . . . . . . . . .
30
3.3.2
3.3.3
3.4
Segmentao pelo Modelo ADSR

3.3.1.1
Denies Originais
. . . . . . . . . . . . . . . . . .
30
3.3.1.2
Denies Alternativas . . . . . . . . . . . . . . . . .
32
3.3.1.3
Exemplos
. . . . . . . . . . . . . . . . . . . . . . . .
33
Segmentao por Limiares . . . . . . . . . . . . . . . . . . . .
34
3.3.2.1
Segmentao com 1 Limiar
. . . . . . . . . . . . . .
35
3.3.2.2
Segmentao com 2 limiares - Modelo IMF . . . . . .
36
Segmentao pelo Pitch
. . . . . . . . . . . . . . . . . . . . .
38
Obteno dos Momentos e Escalamento Dinmico . . . . . . . . . . .
41
4 Extrao de Caractersticas
44
4.1
Descritores Temporais
. . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.2
Descritores Especcos
. . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.3
Coecientes de Predio Linear
. . . . . . . . . . . . . . . . . . . . .
ix
47
4.4
Line Spectral Frequencies . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.5
Caractersticas Cepstrais . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.6
Mel Cepstral Features . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.7
Vetor de Caractersticas
52
. . . . . . . . . . . . . . . . . . . . . . . . .
5 Mtodos de Classicao
5.1
K -Vizinhos
5.2
Discriminantes Lineares
5.2.1
5.3
58
mais Prximos . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
60
. . . . . . . . .
61
Mquina de Vetor Suporte . . . . . . . . . . . . . . . . . . . . . . . .
62
5.3.1
Caso linear do Modelo da SVM
63
5.3.2
Transformaes No-Lineares - Kernel
5.3.3
Transformao no Espao das Caractersticas
60
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
64
5.3.2.1
Polinomial . . . . . . . . . . . . . . . . . . . . . . . .
65
5.3.2.2
Gaussian Radial Basis Function . . . . . . . . . . . .
65
5.3.2.3
Exponential Radial Basis Function, RBF . . . . . . .
65
5.3.2.4
Multi-Layer Perceptron
65
. . . . . . . . . . . . . . . .
Caso No-Linear do Modelo da SVM
. . . . . . . . . . . . . .
65
6 Agrupamentos Hierrquicos, Abordagens Multiclasse e Estratgias 67

6.1
Agrupamentos Hierrquicos Empregados
. . . . . . . . . . . . . . . .
67
6.2
Abordagens Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.3
Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.3.1
Estratgia 1 - Modelo Padro
. . . . . . . . . . . . . . . . . .
74
6.3.2
Estratgia 2 - Modelo Hierrquico . . . . . . . . . . . . . . . .
74
6.3.3
Estratgia 3 - Modelo de Reagrupamento - Nvel Alm
77
. . . .
III Resultados
81
7 Construo de um Procedimento de Reconhecimento Automtico 82

7.1
Metodologia de Busca para obter as Solues . . . . . . . . . . . . . .
82
7.2
Formao dos Conjuntos de Teste e Treinamento . . . . . . . . . . . .
85
7.3
Avaliao do Modelo Multiclasse . . . . . . . . . . . . . . . . . . . . .
86
7.4
Anlise do Desempenho da Envoltria versus Potncia Instantnea . .
87
7.5
Anlise dos Segmentos
. . . . . . . . . . . . . . . . . . . . . . . . . .
90
7.6
Obteno do Vetor de Caractersticas . . . . . . . . . . . . . . . . . .
93
7.6.1
Resultados dos Codicadores mais Desvio Padro do Segmento
94
7.6.2
Resultados com as Caractersticas Temporais . . . . . . . . . .
95
7.6.3
Resultados com os Descritores de udio
98
7.6.4
Resultados com Caractersticas Temporais e Descritores de

udio
7.6.5
7.7
. . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anlise da Correlao e Redundncia das Variveis de Entrada 101
Avaliao dos Classicadores . . . . . . . . . . . . . . . . . . . . . . . 103
8 Avaliao da Taxa de Acerto

8.1
99
107
Avaliao da Taxa de Acerto para o Agrupamento MFPC . . . . . . . 107

8.1.1
Resultados do Agrupamento MFPC na Estratgia 1 . . . . . . 109
8.1.2
Resultados do Agrupamento MFPC nas Estratgias 2 e 3 . . . 110
8.2
Avaliao da Taxa de Acerto para o Agrupamento INSTRUMENTO . 113
8.3
Estimativa da Taxa de Acerto do Classicador Proposto
. . . . . . . 119
9 Resultados frente s Misturas Instantneas
124
9.1
Construo Articial de um Sinal Polifnico
. . . . . . . . . . . . . . 126
9.2
Mtodo de Identicao de Instrumentos com Separador de Fontes . . 128
9.3
Mtodo de Identicao de Instrumentos sem Separador de Fontes . . 130
9.4
Extrao das Notas Isoladas de uma sequncia Monofnica . . . . . . 131
9.5
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
9.5.1
Anlise dos Resultados para Misturas contendo vrias Fontes . 135
9.5.2
Anlise dos Resultados para Misturas contendo Sinal Interferente ou Rudo Branco . . . . . . . . . . . . . . . . . . . . . . 140
10 Resultados frente s Misturas Convolutivas
148
10.1 Modelo de Misturas Convolutivas - Duas Fontes e Dois Microfones . . 148

10.2 Compensao da Distoro Causada pela Mistura Convolutiva . . . . 150
10.3 Resultados Obtidos para Misturas Convolutivas
xi
. . . . . . . . . . . . 153
IV Concluso
157
11 Concluso
158
Referncias Bibliogrcas
169
V Apndices
175
A Banco de Dados de Instrumentos
176
A.1
Banco de Dados de Instrumentos MIS-IOWA . . . . . . . . . . . . . . 176
A.2
Banco de Dados de Instrumentos MUMS . . . . . . . . . . . . . . . . 179
A.3
Banco de Dados de Instrumentos RWC . . . . . . . . . . . . . . . . . 181
A.4
Segmentador Elaborado usando Mdia e Desvio. . . . . . . . . . . . . 183
B Comparao com outros Trabalhos
xii
186
Lista de Abreviaturas
ADSR
BW
Attack, Decay, Sustain, Release.

Band Width.
CDA
Canonical Discriminant Analysis.
CQT
Constant Q Transform.
DCT
Discrete Cosine Transform.
DEAM
Detector de Envoltria AM.
DFT
Discrete Fourier Transform.
DLG
Discriminante Linear Generalizado.
FFT
Fast Fourier Transform.
FRBS
FS
Agrupamento - Flutes, Reeds, Brass, Strings.

Fluxo Espectral.
GMM
Gaussian Mixtures Models.
HMM
Hidden Markov Models.
IMF
K-NN
Incio-Meio-Fim.
K-Nearest-Neighbors .
LDA
Linear Discriminant Analysis.
LPC
Linear Prediction Coecients.
LSF
Lines Spectral Frequencies.
MFCC
Mel-Frequencie Cepstral Coecients.
MFPC
Agrupamento - Metais, Flautas, Palhetas e Cordas.
MFPPC
MIMO
MIS
Agrupamento - Metais, Flautas, Palhetas, Percusso e Cordas.
Multiple Input Multiple Output.

Music Instruments Samples.
xiii
MISO
MUMS
Multiple Input Single Output.

McGill Master Samples.
PCA
Principal Component Analysis.
QDA
Quadratic Discriminant Analysis.
RBF
Radial Basis Function.
RMS
Root Mean Square.
RWC
Real World Computing.
SC
Spectral Centroid.
SCF
Separao Cega de Fontes.
SDR
Signal-to-Distortion Ratio.
SF
SIMO
SIR
SISO
Separao de Fontes.
Single Input Multiple Output.

Signal-to-Interference Ratio.
Single Input Single Output.
SNR
Signal-to-Noise Ratio.
SPC
Agrupamento - Sopro, Percusso e Cordas.
STFT
SVM
Shor Time Fourier Transform.

Support Vector Machine.
TP
Temporal do Pulso.
ZCR
Zero-Crossing Rate.
xiv
Parte I
Introduo
Captulo 1
Apresentao
1.1 Tema e Motivao
Um sistema de classicao de instrumentos musicais a partir de sinais gravados representa uma sub-rea de estudo do processamento de sinais de udio.
Pode-se, de antemo, identicar alguns tpicos necessrios ao desenvolvimento do tema proposto, tais como: denio de nota musical, extrao de caractersticas das notas, taxonomia dos instrumentos musicais e classicadores.
Normalmente um sistema de classicao de instrumentos musicais pode ser
estruturado como uma sequncia de blocos que correspondem aos diversos problemas
(relativamente) independentes supracitados.
Assim, um sistema de reconhecimento de instrumentos musicais envolve necessariamente os seguintes estgios: pr-processamento para ltrar informaes desnecessrias e destacar os aspectos que devero ser contemplados; tcnicas de extrao
de caractersticas relevantes desses trechos, visando maximizar a discriminao dos
instrumentos distintos; tcnicas de agrupamento de amostras similares, visando minimizar o erro de classicao; e de classicao, visando identicar o agrupamento
associado ao vetor de caractersticas extradas de um trecho de uma dada amostra.
Cada um dos blocos referidos na Figura 1.1 por si representa uma linha
prpria de pesquisa.
No presente trabalho pretende-se percorrer todas as etapas
conceituais envolvidas na classicao, de forma a no se perder de vista a viso

geral do sistema.
As aplicaes do trabalho incluem, por exemplo: aplicaes comerciais que
Figura 1.1: Sistema padro de classicao.
visam catalogar discotecas atravs de um processo automtico (rotulando cada msica de acordo com a presena dos instrumentos musicais que a compem, facilitando
assim uma busca seletiva); a transcrio automtica de msica [1], quando o processo de classicao, depois de determinado o momento de ocorrncia de uma nota
musical, capaz de identicar, alm do instrumento que a emitiu, o pitch e a durao da nota, facilitando o seu registro correto no trecho musical; ou a codicao
de udio em alto nvel, ao se usar uma modelagem da fonte sonora, tendo esta
sido previamente identicada pelo processo de classicao, para reproduzir total
ou parcialmente a nota, evitando, assim, uma codicao de baixo nvel, ou seja,
uma codicao que exija manipulao direta das amplitudes do sinal [2].
1.2 Objetivo do Trabalho

O presente trabalho tem como principal objetivo obter um mtodo capaz de
reconhecer automaticamente instrumentos musicais a partir das notas por eles produzidas. Pode-se assumir que o escopo do presente trabalho identicar qual o
instrumento musical associado a um sinal e avaliar sua capacidade para classicar
o instrumento musical presente numa sequncia monofnica ruidosa ou contami-
nada com sinal interferente, ambas oriundas de misturas instantneas, e classicar

os instrumentos musicais presentes em sequncias polifnicas oriundas de misturas
instantneas ou convolutivas. Uma das preocupaes deste trabalho foi comparar
resultados obtidos por diferentes classicadores. Assim, para se traar uma avaliao de desempenho utilizaram-se como paradigmas os resultados apresentados por
diversos autores, sumarizados em [3]. Isso permite avaliar o quo bom o desempenho que se obtm com cada classicador combinado com uma dada forma de
obteno do vetor de caractersticas.
O uso de bases de dados obtidas de formas
distintas serve para validar os mtodos empregados. Portanto, espera-se que o sistema de classicao que obtiver o melhor resultado numa base de dados seja uma
das solues a apresentar os melhores resultados na outra base de dados, devendo
apresentar taxas de acertos consistentes e, portanto, revelando sua capacidade de
generalizao.
A opo por abordar a classicao de instrumentos musicais a partir de notas isoladas nesse estudo pode ser justicada por diversos motivos. Primeiramente,
ela pode ser adaptada tanto para classicar trechos monofnicos de uma msica
(polifnica) quanto para outros sinais de udio oriundos de uma nica fonte.
No
mais, a identicao de instrumentos a partir de notas isoladas, apesar de no ser

a mais apropriada para resolver o problema na sua concepo mais geral (sinais
de msica contendo sobreposio no tempo e na frequncia de vrios instrumentos
musicais), no restritiva caso se queira identicar sinais que j tenham passado
por um processo de separao de fontes. Uma desvantagem inerente a essa abordagem a dependncia de um algoritmo que consiga separar a partir de uma msica
polifnica o sinal oriundo de cada instrumento, e/ou de um algoritmo extrator de
notas ou de pequenos trechos oriundos de um nico instrumento musical. Essa dissertao apresenta uma possibilidade do uso desse classicador para o problema de
classicao de instrumentos musicais em sequncias polifnicas havendo superposio temporal. Tal algoritmo necessita de um separador de fontes e um extrator
de notas, os quais devem estar presentes numa fase preliminar.
Portanto, esses
algoritmos inuenciam a taxa de acerto do sistema de classicao posterior. Por

bvio, este pr-processamento poder funcionar como um agente contaminador, caso
ocorra uma separao de fontes mal feita ou uma extrao de nota equivocada.
Outra restrio desse trabalho se encontra nas caractersticas do ambiente

de gravao do banco de dados. Idealmente, escolhe-se uma cmara anecica para
obteno dos sinais de referncia, que apresenta caractersticas distintas das normalmente encontradas em espaos reais que envolvem maior ou menor grau de reverberao. De forma que, bancos de dados distintos gravados em ambientes e sensores
com discriminaes e/ou resolues diferentes podem resultar em padres distintos
para uma mesma nota produzida pelo mesmo instrumento, podendo afetar, assim,
o desempenho do sistema de classicao.
A utilizao de notas isoladas no se mostra um problema na possvel adaptao dessa abordagem para outros problemas, por exemplo, em Guerra Eletrnica,
haja vista que os pulsos emitidos pelos radares na faixa de frequncia de 1 GHz a
40 GHz, num cenrio padro contendo em torno de dezenas de emissores pulsados,
apresentam uma baixa taxa de sobreposio no tempo. Isto permite a um processo
de separao cega identicar o nmero de emissores presentes neste cenrio, o que
torna o problema de classicao do radar a partir da envoltria do pulso similar ao
de identicao de uma fonte sonora a partir das notas isoladas.
1.3 Abordagens da Literatura

No atual contexto de reconhecimento de instrumentos musicais, ainda no h
consenso quanto melhor abordagem para sinais polifnicos (os quais apresentam
simultaneamente sons de diversos instrumentos musicais).
Atualmente, a maior
parte dos estudos desta rea contempla o caso monofnico, seja em notas isoladas,
seja em trechos de msica solo.
Antes de iniciarmos o presente trabalho, foi feito um levantamento de trabalhos de diversos autores na rea de classicao de instrumentos musicais, em que
foram examinadas a taxa de acerto mdia obtida e a abordagem utilizada.
Essa
avaliao objetivou angariar uma noo tanto das diculdades enfrentadas quanto
dos desempenhos obtidos, e qual o estado da arte. Os resultados desses trabalhos
nem sempre podem ser diretamente comparados, por terem sido elaborados a partir
de restries e com objetivos ligeiramente distintos e, eventualmente, de banco de
dados diferentes.
A seguir apresentaremos um breve resumo dos principais trabalhos levantados

nessa rea, em ordem cronolgica.
Em 1998, Keith D. Martin et al. apresentaram um artigo [4] onde uma tcnica estatstica de reconhecimento de padro aplicada para classicao de notas
de instrumentos musicais.
Foram usadas 1023 notas isoladas, compreendendo as
escalas completas para um total de 14 instrumentos (violino, viola, violoncelo, contrabaixo, auta, piccolo, clarinete, obo, corne ingls, fagote, trompete, trombone,
trompa e tuba). As amostras foram obtidas da McGill Masters Samples, MUMS [5].
Foram usadas as macro-famlias cordas, madeiras e metais. As notas foram divididas em dois grupos de 70% e 30% para treinamento e teste, respectivamente. Foram
construdos classicadores maximum a posteriori baseados em modelos gaussianos
derivados diretamente da anlise mltiplo-discriminante de Fisher. Nesse estudo foi
constatada uma melhora no desempenho da classe madeiras quando reagrupada em
subclasses mais homogneas, ou seja, quando as autas foram separadas do conjunto formado pelas palhetas e metais (utes/reeds-brass ). Posteriormente foi feita
uma nova separao das palhetas dos metais (reeds/brass ).
As famlias dos ins-
trumentos obtiveram uma taxa mdia de acerto de 90%, e para o reconhecimento

dos instrumentos individuais foi obtida uma taxa mdia de acerto de 70%. Nesse
estudo tambm se vericou que era possvel uma melhora para 93% na taxa mdia
de acerto das famlias de instrumentos musicais ao se usar somente as 10 melhores
caractersticas que distinguem as subclasses que formam o agrupamento em questo.
Inicialmente os instrumentos so divididos em duas classes ou grupos: beliscado e
sustentado. Posteriormente os instrumentos pertencentes ao grupo beliscado foram
divididos em instrumentos individualizados, todos da famlia das cordas. Abaixo do
grupo sustentado caram trs classes, ou seja, alguns instrumentos da famlia das
cordas e os instrumentos da famlia dos metais e das madeiras.
Em 1999, Janet Marques e Pedro J. Moreno apresentaram um relatrio tcnico
[6] do Laboratrio de Pesquisa de Cambridge contendo um estudo preliminar
para classicar instrumentos musicais com o objetivo de avaliar a capacidade de

identicao do instrumento presente numa msica solo. O modelo proposto pelo
estudo enfocou o uso em um sistema de anotao de arquivos de udio. Portanto,
testaram-se 8 instrumentos musicais, onde um CD foi usado para treinamento e o
outro para teste. Os instrumentos usados foram gaita, clarinete, auta, cravo, rgo, piano, trombone e violino. Para tanto, usaram-se segmentos do sinal de durao
igual a 0,2 s para a extrao das caractersticas. O sistema proposto nesse trabalho
obteve uma taxa de acerto de 70% na determinao do instrumento que originou
o trecho de som.
Foram experimentados vrios tipos de caractersticas e diferen-
tes tipos de algoritmos de classicao. Usou-se para extrao das caractersticas
Linear Prediction Coecients (LPC), Cepstral Coecients FFT e Mel-Frequencies

Cepstral Coecients (MFCC)
. Os algoritmos de classicao usados foram mo-
delo de misturas gaussianas (Gaussian Mixture Model (GMM)) e mquina de vetor

suporte. Nesse estudo foi tambm avaliado que o desempenho do GMM era melhor
para os coecientes mel-cepstrais, seguido pelos coecientes cepstrais e LPC, respectivamente. Tambm se procurou avaliar a taxa de acerto obtida pelo classicador
para as classes que representam os instrumentos acima enumerados.
Eronen e Klapuri publicaram um artigo [7] em que apresentam um sistema
para reconhecimento de instrumentos musicais a partir do pitch obtido das notas
oriundas de diversos instrumentos musicais. Nesse trabalho, foram usadas caractersticas espectrais e temporais para analisar as propriedades do som, a partir de 1498
amostras da MUMS que cobriam a tessitura de cada um de 30 instrumentos musicais
escolhidos. Nesse conjunto de instrumentos estavam compreendidas as seguintes famlias de instrumentos musicais: cordas, madeiras e percusso. Todas essas famlias
tiveram seus instrumentos tocados com diferentes tcnicas de execuo. Algumas
caractersticas usadas foram: tempo de subida, i.e., a durao do ataque; tempo
de decaimento; tempo entre o m do ataque e o mximo valor rms (associado
energia); e mais outras dezenas de caractersticas. Foram usados segmentos de 10
ms com um fator de superposio de 50%.
Os autores avaliaram a classicao
hierrquica (abordada na Seo 6.3.2) contra a classicao no-hierrquica, chegando concluso de que a classicao no-hierrquica vantajosa em termos de
taxa de acerto . Usaram-se dois agrupamentos hierrquicos, um excluindo a classe

metais+palhetas, conforme o agrupamento denido por Martin, e outro contendo-a.
J para a avaliao sem agrupamentos hierrquicos deniu-se o nmero de classes
1 Os dois ltimos a partir da DFT.

2 Quando so preservados o vetor de caractersticas e o classicador.
em funo do nmero de ns existentes para a respectiva altura (nvel) da rvore.

A taxa de acerto para a famlia dos instrumentos foi de 94% e para os instrumentos
individualmente foi de 80%.
Em 2001, Agostini et al.
apresentaram um trabalho [8] onde um conjunto
de caractersticas avaliado para o reconhecimento de instrumentos musicais. Alm

da avaliao das caractersticas tentou-se alcanar uma representao compacta do
sinal. Foram usadas somente caractersticas espectrais do sinal sonoro, limitadas a
um nmero determinado. A partir de 27 instrumentos musicais foram obtidas 1007,
notas e sem emprego de qualquer estrutura hierrquica. As classes denidas foram
seis, piano-staccato, cordas beliscadas em rock, cordas beliscadas em modo no rock,
cordas sustentadas, madeiras sustentadas e metais sustentados. Foram testados os
seguintes classicadores, que aqui aparecem organizados em ordem decrescente da
taxa de acerto: Quadratic Discriminant Analysis (QDA), Support Vector Machines
(SVM), Canonical Discriminant Analysis (CDA), e K-Nearest Neighbours (KNN),
com taxas de acertos para instrumentos individuais de 92,81%, 69,71%, 66,74% e
65,74%, respectivamente. A taxa de acerto mdia obtida pelo QDA para as famlias
de instrumentos denidas anteriormente foi de 96,87%. O kernel usado para a SVM
foi o Radial Basis Function (RBF), e a melhor soluo para o algoritmo de
K-
vizinhos mais prximos foi 1-NN com norma 1 para a mtrica de distncia.
As
caractersticas mais relevantes de um total de 9 tipos de caractersticas foram noharmonicidade, centride espectral e energia contida na primeira parcial.
Alm
dessas caractersticas, so calculadas, entre outras, a taxa de cruzamento por zeros,

a energia contida da segunda at a quarta parcial e a largura da banda. Para cada
uma das 9 caractersticas so calculados o desvio-padro e a mdia.
Em 2003, Kitahara et al. apresentaram um artigo [9] no qual armam que a
relao entre pitch e timbres at ento no vinha sendo bem explorada para a identicao dos instrumentos musicais. Foi avaliada a dependncia das caractersticas
com o pitch, respectivamente a partir das funes que usam a mdia (f0 -dependentes)
e a covarincia (f0 -normalizadas) do pitch. Os sons dos instrumentos musicais so
primeiramente analisados pela distribuio normal multivarivel
f0 -dependente e en-
to, a identicao do instrumento feita usando uma funo discriminante baseada

na regra de deciso de Bayes. So usadas caractersticas espectrais, temporais e de
modulao e caractersticas de componentes no-harmnicos, resultando num total

de 129 caractersticas. Cada instrumento musical possui amostras na taxa de 44,1
kHz com 16 bits.
Para cada trecho de 10 ms, obtido de uma das amostras a ser
analisada, aplicada uma Short-time Fourier Transform (STFT), com uma janela
de Hanning de 4096 pontos; os picos espectrais so extrados do espectro de potncia do sinal. A partir dos picos, so obtidas a
f0
e a estrutura harmnica. Usou-se
posteriormente Principal Component Analysis (PCA), para reduzir o espao de dimenso 129 para dimenso 79. Depois usou-se Linear Discriminant Analysis (LDA),
conseguindo-se uma reduo para um espao de dimenso 18, no caso de 19 instrumentos. So extradas 40 caractersticas espectrais, 35 caractersticas temporais, 32
caractersticas de modulao e 22 caractersticas de componentes no-harmnicos.
So usados 6.247 tons solo de 19 instrumentos, obtendo-se taxas de acerto de cerca
de 90% e 80% para famlia e instrumento, respectivamente.
Em 2004, Krishna e Sreenivas publicaram um artigo [3] que prope o uso de
Line Spectral Frequencies (LSF), como caractersticas representativas de segmentos

obtidos a partir de notas isoladas, vista a sua efetividade para reconhecimento de
voz. Posteriormente feita a classicao, usando os modelos de misturas gaussianas
e
K -NN.
Nesse trabalho so avaliados tambm o uso das caractersticas MFCC, e
Linear Prediction Cepstral Coecients (LPCC). Foram utilizados 14 instrumentos

e agrupamento hierrquico contendo 4 classes, a saber: palhetas, metais, cordas e
autas. Foram usadas 2 bases de dados distintas: a UIowa's MIS [10] e C Music
corporation's RWC [11]. Foram obtidas taxas de acerto de 95% e 90% para famlia
e instrumento, respectivamente.
Exceto para Marques [6], todos os outros resultados reportados se referem a
sistemas classicadores que utilizam notas isoladas.
1.4 Organizao do Texto

O presente trabalho foi dividido em cinco partes: introduo, viso geral do
sistema, resultados, concluso e apndice.
Nesta introduo foram apresentados o tema, a motivao, o objetivo deste
trabalho, um resumo de alguns dos principais trabalhos na rea, um esboo da
metodologia usada e uma breve descrio de como os instrumentos musicais so

comumente agrupados, apresentando tambm alguns agrupamentos hierrquicos alternativos.
Na viso geral do sistema so apresentadas e detalhadas as arquiteturas empregadas, as etapas da cadeia de processamento do sinal, que incluem os mdulos de
segmentao, pr-processamento, extrao de caractersticas e classicao. Ainda
nessa parte so descritos os modelos usados pelos codicadores e classicadores.
Nos resultados so feitas as avaliaes dos codicadores, classicadores, agrupamentos hierrquicos, estimativa da taxa de acerto do classicador, classicao
dos instrumentos em sinais polifnicos, e a avaliao da robustez do classicador
frente insero de rudo branco e sinal interferente. No entanto, devido ao fato de
que uma avaliao exaustiva de todas as combinaes entre o pr-processamento,
os vetores de caractersticas e os classicadores levaria a um custo elevado (por
ser de natureza combinatorial), preferiu-se adotar uma estratgia sequnciada, onde
somente alguns mtodos de codicao e classicao so avaliados.
Por m, apresentam-se as duas ltimas partes, ou seja, a concluso e os
apndices, estes contendo uma descrio mais detalhada dos bancos de dados, e um
estudo de caso que avalia o desempenho do sistema de classicao obtido quando
comparado a um outro sistema de classicao (oriundo de um outro trabalho feito
na rea) a partir das mesmas amostras para identicar as mesmas classes.
10
Captulo 2
Instrumentos Musicais e suas
Classicaes Hierrquicas
O estudo dos instrumentos musicais conhecido como organologia. O propsito de um instrumento musical produzir msica e, para tanto, os materiais
empregados e a forma do objeto, bem como o modo de produzir o som, so elementos importantes para a construo e a classicao do instrumento musical. Existem
diversas formas de classicar os instrumentos musicais, segundo diferentes perspectivas, e cada uma delas se presta melhor para uma dada nalidade. A mais comum
se baseia na forma pela qual o som produzido.
No contexto das orquestras sinfnicas, por exemplo, comum dividir os instrumentos musicais em cordas, sopros (subdivididos em metais e madeiras) e percusso, o que vem a ser uma classicao hbrida, misturando a forma como o som
produzido e o material empregado na confeco do instrumento musical. As madeiras podem ser subdivididas em palhetas (lminas que com a passagem do ar vibram
produzindo o som do instrumento) e sem palhetas (autas). Dessa forma podemos
classicar os instrumentos por essa regra em:
cordas, metais, palhetas, autas e
percusso.
Em tese, qualquer objeto pode servir para produzir sons e ser utilizado na
msica, mas costuma-se utilizar o termo instrumento musical para designar objetos
que so elaborados especicamente com o propsito de produzir msica. A seguir
apresentaremos um breve resumo das principais caractersticas presentes num instrumento musical, pois esses elementos em alguns casos so determinantes na formao
11
da taxonomia dos instrumentos musicais e podero servir de inspirao a qualquer

novo procedimento de classicao automtica dos instrumentos musicais.
Antes de continuarmos necessrio denirmos a notao que ser empregada
para descrever as notas musicais usadas nesse trabalho.
As notas, independente-
mente das oitavas, so sete, a saber [12]: `C' - d, `D' - r, È'- mi, `F' - f, `G' sol, À'- l, `B' - si, podendo representar at 12 semitons com o uso dos acidentes
(bemol para abaixamento e sustenido para elevao), o que pode ser expresso em
uma das duas escalas abaixo:
Escala sustenido - {C, C#, D, D#, E, F, F#, G, G#, A, A#, B}
Escala bemol - {C, Db, D, Eb, E, F, Gb, G, Ab, A, Bb, Cb}
Por sua vez, as oitavas costumam ser numeradas em algarismos arbicos crescentes
com a frequncia fundamental da nota. Tipicamente adota-se como referncia L 4
em 440 Hz e uma distribuio de temperamento igual, o que signica que a frequncia
fundamental associada a cada nota dada pela seguinte expresso:
frequncia
= 440 2oitava4+
tom10
12
(2.1)
Esse captulo ser dividido em duas sees, uma contendo uma descrio dos
componentes que existem em um instrumento musical e outra contendo os agrupamentos hierrquicos tradicionalmente encontrados nos estudos sobre organologia.
2.1 Componentes
Instrumento musical qualquer artefato capaz de produzir msica. denido
como tal todo artefato que de fato consegue controlar com preciso pelo menos
algumas das caractersticas do som produzido, tais como: altura (grave, mdio e
agudo), durao (do som e/ou do silncio), intensidade e timbre.
Por existir uma gama enorme de instrumentos musicais, a generalizao das
caractersticas que descrevem o funcionamento de um instrumento musical difcil;
porm, alguns elementos constitutivos permanecem presentes, tais como: corpo vibratrio, corpo, elementos de estmulos e controle, caixa de ressonncia e acessrios.
A seguir so descritas as principais caractersticas do som, controlados por um instrumento musical, bem como seus principais elementos constitutivos. As descries
12
apresentadas desses elementos (caractersticas do som e elementos constitutivos),

foram obtidas com base no material disponvel em [13, 14].
2.1.1 Caractersticas do Som

2.1.1.1 Altura
A altura o elemento que nos permite distinguir um som grave de um som
agudo. Assim, quanto maior for a frequncia fundamental percebida (pitch ), mais
agudo ser o som e maior ser a sua altura. Os instrumentos musicais podem ser
divididos quanto altura do som produzido em: de altura determinada e de altura
indeterminada.
Um instrumento dito de altura denida ou determinada quando as notas
desse instrumento podem ser anadas de acordo com escalas denidas. A maioria dos
instrumentos musicais de cordas e sopro tm altura denida. Alguns instrumentos
de percusso, como o vibrafone, o glockenspiel e o xilofone, tambm possuem altura
denida.
No necessrio que o instrumento musical durante a execuo consiga variar
a frequncia das notas para que a altura seja considerada como denida, no entanto
necessrio que as notas produzidas por ele possam ser anadas com preciso em
relao a outros instrumentos. Assim, h alguns instrumentos musicais que possuem
altura denida (tons-tons), apesar das suas notas no poderem ser alteradas durante
a execuo.
Um instrumento musical dito de altura indenida ou indeterminada quando
as notas produzidas pelo instrumento no podem ser precisamente anadas.
Isso
ocorre porque esses instrumentos (no-harmnicos) possuem em seu timbre uma

grande quantidade de parciais no harmnicos, tornando a anao difcil ou impossvel. A maioria dos instrumentos musicais de altura no denida est entre os
instrumentos de percusso, como tambores, pratos, gongos e sinos. Existem alguns
instrumentos de cordas (berimbau) e sopros com altura indenida.
Instrumentos musicais de altura indenida, em geral, podem ser utilizados
sem que haja problemas de anao em msicas de qualquer tonalidade, porque
possvel denir o seu registro (posteriormente denido), embora no se possa fazer
o mesmo com sua altura. Assim, um tamborim possui um registro mais agudo que
13
uma caixa e um bumbo mais grave que ambos.

A tessitura a extenso de notas que um instrumento ou voz pode alcanar,
identicada atravs do nome e da oitava da nota mais grave e da mais aguda associada a essa extenso. Por exemplo, a extenso til de um saxofone contralto vai de
Db2 (r bemol da segunda oitava) at Ab4 (l bemol da quarta oitava). A tessitura
do piano vai do A0 at o C7.
Os registros so as denominaes dadas s trs regies em que a tessitura de
um instrumento musical ou voz pode ser dividida: grave, mdio e agudo. Assim, cada
uma dessas regies (registro) conserva caractersticas prprias, podendo em alguns
casos ocorrer diferenas signicativas do timbre de regio para regio. Da mesma
forma, pode ser impossvel executar todas as notas de uma escala em determinadas
regies para um dado instrumento musical. Do mesmo modo, certos efeitos sonoros
de alguns instrumentos musicais podem ter a sua execuo limitada em um de seus
registros.
Para a perfeita execuo do instrumento e composio musical indispensvel o conhecimento da tessitura e do registro instrumental. Caso contrrio, um
compositor poderia querer escrever uma melodia para um instrumento especco
com notas impossveis de serem executadas por esse instrumento. A tessitura s faz
sentido para instrumentos que possibilitam variaes controladas de altura, o que
no inteiramente verdade para o registro, o qual pode indicar a regio de alturas
predominantes mesmo em instrumentos cuja altura indenida.
2.1.1.2 Intensidade e Durao

A intensidade diretamente proporcional potncia, medida relacionada ao
quadrado da amplitude do sinal. Normalmente a percepo da intensidade do som
leva a distingu-lo como sendo forte, mdio (mezzo ) ou baixo (piano ).
A durao representa o tempo transcorrido em que o sinal sonoro existe. O
perodo de tempo em que se d a ausncia do sinal sonoro (a pausa) representa um
aspecto igualmente importante.
14
2.1.1.3 Timbre
O timbre o elemento sonoro que faz com que um ouvinte seja capaz de
distinguir a mesma nota quando produzida por diferentes instrumento musicais.
o que comumente se dene como a cor do som. Assim, facilmente somos capazes de
distinguir a nota produzida por um obo quando a comparamos com a mesma nota
produzida por um violino. Essa percepo se d pelas relaes entre as intensidades
dos harmnicos que cada instrumento gera ao produzir uma nota.
2.1.2 Elementos Constitutivos

2.1.2.1 Corpo Vibratrio
Tambm chamado de elemento produtor do som, a parte do instrumento
musical responsvel pela altura do som emitido. ele que vibra ao entrar em contato
com o estmulo excitante, produzindo assim uma onda sonora. Pode ser parte do
instrumento (cordas, palhetas) ou ser o prprio instrumento. Assim, em princpio,
quanto maior a frequncia da excitao tanto maior ser a altura percebida. Nos
instrumentos aerfonos o prprio ar que entra em vibrao ao passar por uma
aresta, como em uma auta.
2.1.2.2 Corpo
a parte do instrumento que mantm unidas as demais partes do instrumento, como no agog. Em diversos instrumentos o corpo possui funes tambm
na produo ou controle do som, como nos casos dos corpos do violino ou do violo,
que servem como caixas de ressonncia e tambm ajudam no tensionamento das
cordas, permitindo que o instrumentista tenha controle sobre a altura das notas.
2.1.2.3 Caixa de Ressonncia

uma cmara cheia de ar, que funciona como um amplicador da intensidade
do sinal sonoro. Apresenta formatos variados, permitindo um reforo em determinadas frequncias e uma atenuao em outras, determinando em grande parte o timbre
do instrumento. A caixa de ressonncia pode tanto fazer parte do corpo do instrumento (por exemplo piano, um violo ou um tambor) quanto estar incorporada ao
15
prprio elemento produtor de som (por exemplo agog).
2.1.2.4 Elementos de Estmulo e Controle

responsvel por controlar a forma como os sons so produzidos, anados
ou modicados, ou por gerar os estmulos ao elemento produtor de som, fazendo
com que o elemento produtor de som entre em vibrao. Estes elementos englobam
uma variedade de objetos ou mecanismos especicamente destinados para gerar esses
estmulos. Entre outros, temos arcos, trastes, plectros, baquetas, martelos, bocais,
foles, teclados, vlvulas, chaves ou pedais.
2.1.2.5 Acessrios
Alguns instrumentos permitem o uso de acessrios com a nalidade de alterar
a forma de execuo ou modicar algumas caractersticas do som produzido. Podemse citar: caixas de ressonncia alternativas, abafadores (que diminuem a intensidade
sonora), surdinas (que abafam e modicam o som produzido), suportes ou alas (que
servem para facilitar a execuo em posies no convencionais).
2.2 Agrupamentos Hierrquicos

O estudo detalhado dos sistemas de classicao daria material para um livro, portanto se encontrando alm da pretenso deste tpico. Contudo, a denio
do agrupamento hierrquico de extrema importncia devido ao fato de que, dependendo de como feito esse agrupamento, o sistema de reconhecimento automtico
desses agrupamentos pode encontrar maior ou menor facilidade, o que afeta diretamente sua taxa de acerto.
A m de melhor explanar a natureza e as possibilidades dos sistemas de
classicao hierrquica dos instrumentos musicais, se apresentaro alguns deles:
um sistema nativo, o sistema grego (Aristides Quintilianus) [13]; o sistema mais
usual (Hornsbostel e Sachs) [14, 15] e o sistema elaborado por Andr Schaener [13].
16
2.2.1 Sistema Grego

Desde a antiguidade o homem elabora sistemas de classicao para os instrumentos musicais que constri. J na Grcia antiga, Aristides Quintilianus, que
viveu por volta do Sculo III d.C., foi autor de um tratado musical denominado
Per musiks, no qual tentava organizar os instrumentos musicais em famlias de

instrumentos [13].
Naquela obra, apresentaram-se dois esquemas de classicao.
O primeiro
se baseava numa distino dos instrumentos musicais quanto forma de produo

do som.
sopros.
Assim, os gregos classicavam os instrumentos em 2 classes:
cordas e
Os instrumentos de percusso, embora conhecidos, eram desprezados por
serem considerados inferiores.

O segundo esquema de Quintilianus baseava-se em aspectos da morfologia
humana, e classicava o instrumento musical em masculino, feminino ou misto.
Essa teoria tentava responder questo de como instrumentos musicais sem vida
conseguiam causar efeitos emocionais em homens e mulheres.
Portanto, o sistema grego dividia os instrumentos em duas classes quanto
forma do som ser produzido, e em trs classes quanto ao gnero do instrumento,
gerando um total de seis combinaes, ou nove, se incluirmos os instrumentos de
percusso:
1. Cordas-Homem
2. Cordas-Misto
3. Cordas-Mulher
4. Sopro-Homem
5. Sopro-Misto
6. Sopro-Mulher
7. Percusso-Homem
8. Percusso-Misto
9. Percusso-Mulher
2.2.2 Sistema Hornbostel e Sachs

Concepes com caractersticas universais para os instrumentos musicais s
apareceram bem mais tarde, por volta do Sculo XIX. Um primeiro sistema foi formulado por Victor-Charles Mahillon em 1880, que a partir dos conceitos usados
17
pelos gregos antigos e tericos europeus da Idade Mdia, elaborou uma classicao em forma de rvore, onde os ramos representam instrumentos musicais da sua
classe. Para elaborar essa classicao o elemento usado foi o tipo de vibrao causado pelo material usado no corpo vibratrio, a partir do qual o som produzido.
Essa abordagem gerou as seguintes famlias para os instrumentos musicais: a) autofones; b) membranofones; c) cordofones e; d) aerofones. Esse sistema apresentou
como restrio basicamente a incompletude, por se restringir aos instrumentos europeus e o modo de utilizao de alguns instrumentos. Essa concepo gera algumas
inconsistncias como no caso dos instrumentos de teclado e mecnicos [16].
O sistema de Mahillon foi ampliado por Curt Sachs e Erich von Hornbostel,
dando origem ao chamado sistema Hornbostel-Sachs de classicao. Alm de mudarem o nome da classe autofones para idiofones, eles alteraram a forma de subdiviso
de suas classes e introduziram um cdigo decimal baseado no cdigo que Melvil
Dewey criou para a classicao de livros em bibliotecas. A seguir apresentamos as
famlias de instrumentos musicais conforme a classicao mais usual, baseada no
sistema de Hornbostel e Sachs.
1. Cordofones
2. Idiofones
3. Membranofones
4. Aerofones
As subdivises dentro das quatro famlias de instrumentos musicais podem

ser encontradas no artigo [15] de 1914. Alm destas, tambm so previstos no seu
sistema numrico algarismos reservados que permitem uma expanso das divises
para cada classe.
2.2.2.1 Idiofones
Os idiofones so aqueles que produzem som ao serem percutidos, provocando
a vibrao de todo o instrumento musical. Alguns exemplos so:
Agog;
Bateria (pratos), Bloco sonoro;
Caneca, Carrilho, Castanhola, Celesta, Chocalho;
Glockenspiel, Gongos;
Matraca;
Pratos;
Reco-reco;
18
Sino, Sinos tubulares;

Tringulo;
Vibrafone;
Xilofone.
2.2.2.2 Membranofones
Os membranofones so aqueles em que o som produzido quando so percutidos sobre uma membrana esticada que entra em vibrao. As membranas podem
ser de origem animal, sintticas ou at mesmo de tecido. Alguns exemplos so:
Bateria;
Caixa, Cuca;
Djemb;
Pandeireta (pele), Pandeiro (pele);
Repinique, Surdo;
Tambor, Tamborim, Tom-tom;
Zabumba.
2.2.2.3 Cordofones
Os cordofones, ou instrumentos de cordas so aqueles em que o som obtido
pela vibrao das cordas. As cordas podem ser dedilhadas, percutidas ou colocadas
em vibrao com um arco (friccionadas). Alguns exemplos so:
Alade;
Baixo, Balalaica, Bandolim, Banjo, Berimbau ou Urucungo;
Cavaquinho, Cembalo, Ctara, Clavicrdio, Contrabaixo, Cravo;
Dulcmer;
Espineta;
Guitarra, Guitarra inglesa;
Harpa;
Kantele - (Derivado da Ctara), Koto;
Lira;
Piano;
Rabeca;
Saltrio, Sanfona, Sangen, Siamise, Sitar;
Ukulele;
Violo, Viola, Viola caipira, Viola da gamba, Violino, Violoncelo.
19
2.2.2.4 Aerofones
Os aerofones, ou instrumentos de sopro, so aqueles que produzem som
quando o ar ao ser neles introduzido entra em vibrao, excitando os componentes do instrumento musical. Alguns exemplos so:
Acordeo;
Bombardino;
Clarinete, Clarone, Corne-ingls;
Escaleta;
Fagote, Flauta (contralto, doce, baixa) Flautim, Flugelhorn;
Gaita;
rgo, Obo, Ocarina;
Pfaro;
Saxofone (contralto, baixo, bartono, tenor);
Trompa, Trompete (de pistes, de chaves), Trombone, Tuba.
2.2.3 Sistema de Andr Schaener

Em 1932, Andr Schaener publicou na Frana um trabalho chamado D'une
nouvelle classication mthodique des instruments de musique , republicado como

Origine des instruments de musique , em 1936. Nesse trabalho, ele apresenta um
novo esquema de classicao dos instrumentos musicais, que os divide em grupos
segundo o tipo de material pela qual o som produzido [13]. Dessa forma, todos os
instrumentos musicais podem ser agrupados em duas grandes classes, uma em que
o som advm da vibrao dos materiais slidos, os Gaiafones [16], e outra em que o
som advm da vibrao dos materiais gasosos, os Aerofones.
Este mtodo apresenta vantagens em relao aos demais, por exemplo, ao
evitar as possveis confuses com instrumentos que se encontram no limite entre
instrumentos de cordas e de percusso (como o piano); nesse esquema, ambas as
categorias so enquadradas na mesma classe.
Segue um exemplo simplicado da estrutura do sistema de classicao proposto por Schaener, que continua subdividindo suas classes alm das aqui exemplicadas.
I: Gaiafones
I.A: No-Tensionveis - Sem tenso (exemplo: xilofones);
I.B: Flexveis - Linguafones ou lamelofones (exemplo: kalimba)
I.C: Tensionveis - Cordofones (exemplo: piano, violino)
20
II: Aerofones
II.A: Com ar ambiente - (exemplo: acordeo)
II.B: Contendo Cavidades Livres - (exemplo: tambores)
II.C: Contendo uma coluna de ar - (exemplo: autas)
2.2.4 Outros Agrupamentos Tradicionais

2.2.4.1 Eletrofones
Os eletrofones, ou instrumentos musicais eltricos/eletrnicos, representam
uma categoria introduzida por Galpin em 1937 na sua obra, A Textbook of European
Musical Instruments, para permitir a representao dos instrumentos musicais que

produzem sons atravs de componentes que se utilizam da energia eltrica.
Esta
categoria comumente acrescentada ao sistema de Mahillon e Hornbostel e Sachs.

Alguns exemplos de instrumentos musicais pertencentes a essa categoria so:
Ondas Martenot
rgo Eletrnico
Piano Digital
Sampler
Sintetizador
Teremim
2.2.4.2 Teclados
Os instrumentos de teclas so agrupados nessa categoria pelo modo de tocar,
nesse caso, so consierados como pertencentes a uma categoria a parte, no entanto,
tambm podem ser classicados nas diversas categorias anteriormente relacionadas
nessa dissertao (como por exemplo, pelo modo de produo do som).
exemplos so:
Acordeo (Sopro)
Celesta (Percusso)
Clavicrdio (Cordas)
Cravo (Cordas)
Piano Digital (Instrumento Eletrnico)
rgo (Sopro)
Piano (Cordas)
21
Alguns
2.2.4.3 Em funo da Altura

comum uma associao entre o timbre da voz humana cantada com a escala
que os instrumentos musicais alcanam quando comparados a outros instrumentos.
Portanto, podemos dizer que os instrumentos musicais podem ser:
1. Baixo
2. Bartono
3. Tenor
4. Contralto
5. Soprano
Assim, dependendo da escala em que o instrumento atua, ele pode ser enquadrado numa das classes acima e mesmo ser adjetivado por elas, como o saxofone.
22
Parte II
Viso Geral do Sistema de
Classicao
23
Captulo 3
Segmentao e Pr-processamento
Para efeitos de conveno, neste trabalho entende-se nota musical como sendo
o sinal acstico associado ao som (tipicamente, com altura denida) produzido por
um determinado instrumento musical. Nesse captulo, se apresentaro as transformaes efetuadas sobre as notas antes de se extrair as caractersticas pertinentes
ao processo de classicao.
Para tal, sero abordados os seguintes tpicos:
ca-
racterizao da nota musical, obteno da envoltria da potncia da nota musical,

segmentao da nota musical, e obteno dos momentos e escalamento dinmico.
3.1 Caracterizao da Nota Musical

Para a identicao de instrumentos musicais a partir de notas isoladas, cumpre destacar quais fatores podem afetar o padro apresentado pela nota musical. O
desao ser contemplado num cenrio simplicado, onde inexistem interferncias
(como a presena de outras fontes sonoras), bem como reverberaes decorrentes
do ambiente acstico. Portanto, as bases de dados usadas nesse trabalho possuem
gravaes de notas musicais de diversos instrumentos feitas em ambientes prepara-
dos acusticamente (sem interferncias nem reverberaes ). Assim, dada uma nota,
restam os seguintes elementos que a modicam : .
1 Exceto a base de dados MUMS, que possui tempo de reverberao igual a 0,4 s
2 O timbre uma caracterstica perceptiva associada ao processo de identicao de um instrumento musical podendo ser modicado (em maior ou menor grau) pelos elementos citados nessa
lista.
24
1. o instrumento;
2. o modelo (marca, fabricante) do instrumento;
3. o msico;
4. as variaes
aplicadas nota, como o tremolo , vibrato , pizzicato , staccato ,
etc;
5. o pitch com que a nota produzida;
6. a intensidade, nvel dinmico, com que a nota produzida.
Melhor dizer que h duas tarefas em questo: 1) identicar o incio e o m

da nota; e 2) localizar temporalmente trechos (segmentos) de interesse ao longo da
durao da nota.
3.2 Obteno da Envoltria da Potncia da Nota

musical
8
Uma vez que um sinal de udio tipicamente oscila em torno do zero ,

conveniente analisar a forma de onda correspondente potncia instantnea (Figura
3.1) ou a uma verso reticada do sinal. Tais transformaes facilitam, por exemplo,
a atribuio dos instantes inicial e nal da nota bem como uma envoltria a cada
nota musical.
A seguir apresentaremos algumas formas de se obter a envoltria do sinal.
3 Articulaes ou variaes no modo de execuo da nota.

4O
tremolo
um efeito musical que representa variaes peridicas no volume (amplitude) da
nota musical.
5O
vibrato
um efeito musical que representa uma variao peridica no
nota musical. O
vibrato
na velocidade em que o
6O
pizzicato
pitch
(frequncia) da
pode ser classicado tanto pela quantidade de variao no
pitch
pitch,
quanto
varia.
um modo de execuo normalmente empregado nos instrumentos de corda, que
consiste em pinar as cordas com os dedos.
7O
staccato
classicado como sendo uma articulao, ou seja, consiste em executar as notas
musicais inserindo silncio (intervalo) entre elas.
Essa tcnica o oposto do legato, que une as
notas de forma a no haver entre elas insero de silncio.
8 Supondo o sinal sem
oset.
25
Amplitude(n)
1
0.5
0
0.5
1
0
0,5
1,5
n (amostras)
(a)
2,5
0,5
1,5
n (amostras)
(b)
2,5
0,2
P i (n)
0
0,4
0,2
0
Figura 3.1: (a)
Pi (n) nota (A4) de um Clarinete Bb; (b) potncia instantnea, Pi (n).
3.2.1 Detector de Envoltria AM (DEAM)

A primeira forma mais intuitiva de obter uma envoltria para a nota musical
baseou-se no algoritmo que aproxima um circuito detector de envoltria AM [17]
(DEAM).
Primeiramente detectam-se os picos do sinal
Pi (n).
A partir do primeiro
pico, inicia-se uma exponencial denida por uma taxa de decaimento previamente
estabelecida de forma emprica. O mtodo emprico empregado foi estabelecido a
partir da base de dados MIS, avaliando a taxa de decaimento da parte nal da nota
de maior pitch para todos os instrumentos dessa base de dados.
Posteriormente
usou-se a maior taxa de decaimento entre todas avaliaes obtidas. Em seguida, no

instante de tempo associado ao prximo pico detectado, comparam-se os valores da
exponencial e da intensidade do pico: caso o pico seja mais intenso que a exponencial, preserva-se o pico, iniciando a partir da uma nova exponencial decrescente;
em caso contrrio, preserva-se a exponencial decrescente originada a partir do pico
anterior. Neste trabalho, a taxa de decaimento da exponencial decrescente foi ob-
26
tida empiricamente, observando diretamente as notas contidas no banco de dados

[10]. Essa abordagem mantm o nmero de amostras do sinal antes de passar pelo
algoritmo descrito. A funo recursiva usada foi:
Pi (n) = Pi (n 1)e0,002 ,
onde
Pi (n 1)
representa a exponencial presente no instante
(3.1)
n 1.
3.2.2 Mtodo do Mximo

Uma segunda maneira de se obter um padro parecido com o mtodo DEAM
segmentar a nota em N frames de mesmo tamanho e, para cada frame, achar e
armazenar a amostra com o maior valor. Por convenincia denominar-se- tal procedimento de mtodo do mximo. Tal esquema apresenta um padro de resposta
bem prximo ao produzido pelo DEAM. No entanto, a resoluo temporal da curva
de envoltria reduzida por N. Essa reduo pode causar uma suavizao da curva,
ocasionando perda de informao que utilizada pelo sistema de classicao em
estudo. Sendo assim, faz-se necessrio avaliar o impacto dessas perdas na estimao da envoltria sobre o desempenho do processo de identicao automtica dos
instrumentos musicais.
Na Figura 3.2 mostra-se primeiro uma estimativa de envoltria obtida pelo
DEAM (usando a Eq. (3.1)) e, em seguida, outra estimativa produzida pelo mtodo
do mximo [2].
3.2.3 Mtodo do Filtro

Um terceiro procedimento para se obter a envoltria do sinal atravs do uso
de um ltro passa-baixas com frequncia de corte e ordem previamente estabelecidas
representada na Figura 3.3.
A sada do ltro passa-baixas, excitado por
Pi (n),
produz uma estimativa da envoltria do sinal de entrada. No exemplo apresentado

na Figura 3.3, a implementao, aqui denominada mtodo do ltro, se baseou num
ltro FIR de ordem 1023 projetado por janela Hamming com frequncia de corte
igual a fs/1000 (onde fs a frequncia de amostragem). Essa abordagem gera um
9 Pode-se simplesmente usar-se a mdia de cada janela (mtodo da mdia).
27
0,8
Pi(n)
0,6
0,4
0,2
0
0,5
1,5
n (amostras)
(a)
2,5
Pi(m)
0,5
0
1
0,5
0
20
40
60
80
100
m (segmentos)
(b)
120
140
160
Figura 3.2: Envoltrias da nota de um Clarinete: (a) mtodos DEAM; (b) mtodo
do Mximo.
28
nmero nal de amostras, aps a convoluo, superior ao nmero inicial, dado pelo
comprimento do sinal L somado ordem do ltro passa-baixas.
Pi(n)
0,1
0,05
0,5
1,5
n (amostras)
(a)
2,5
Pi(m)
0,1
0,05
20
40
60
80
100
m (segmentos)
(b)
120
140
160
Figura 3.3: Envoltrias da nota de um Clarinete (a) pelo mtodo do ltro e (b) pelo
mtodo da mdia.
3.3 Segmentao da Nota Musical

Existem duas tarefas iniciais a serem resolvidas na elaborao de um sistema
de reconhecimento de instrumentos musicais a partir de notas isoladas: 1) identicar
o incio e o m da nota e 2) localizar temporalmente trechos (segmentos) de interesse
ao longo da durao da nota.
Pode-se, numa abordagem simplicada, dividir qualquer nota em 3 trechos
(segmentos), onde o primeiro representa o surgimento da nota, o segundo (intermedirio) representa a sustentao da nota, e o terceiro representa o encerramento da
nota. A partir destes segmentos, o desao extrair adequadamente a informao
mais til para se identicar o instrumento que a originou. Assim, sero avaliadas al-
29
gumas estratgias, as quais tentaro delimitar de forma aproximada tais segmentos.

A importncia da determinao dos segmentos se deve ao fato de sua localizao
poder ser afetada diferentemente pelo instrumentista, o que pode ser desejvel ou
no, a depender do nvel de discriminao que se pretende chegar.
Por exemplo,
quando o msico prolonga a nota do instrumento (aumentando a durao do segmento intermedirio), ou quando a abafa repentinamente (ocasionando uma reduo
do segmento nal), provoca voluntariamente padres diversos para a mesma nota
proveniente da mesma fonte (instrumento) num dado cenrio (ambientao acstica). Essas alteraes podem gerar confuses caso se queira identicar somente o
instrumento. Nesses casos podemos dizer que certas caractersticas (durao, por
exemplo) desses segmentos, intermedirio e nal, sofreram uma maior modicao
pelo instrumentista do que os segmentos iniciais da nota.
Logo, pode-se pensar
que determinados segmentos so mais interessantes do que outros para a extrao

de caractersticas no-volitivas do instrumento, isso porque eles so mais imunes
10
interveno do instrumentista
. Portanto uma escolha adequada do segmento para
a extrao de caractersticas uma estratgia que deve ser considerada, principalmente quando se quer obter caractersticas para reconhecimento de fontes comuns,
independentemente das inexes expressivas (tais como o vibrato ) que o instrumentista possa vir a inserir no som produzido. Isto importante, j que essas alteraes
podem em princpio ser um fator complicador para a discriminao dos instrumentos
musicais.
3.3.1 Segmentao pelo Modelo ADSR

3.3.1.1 Denies Originais
Uma diviso clssica de um sinal acstico associado ao som (nota) de um
instrumento musical pode ser feita em quatro segmentos, ou seja, Ataque, Decaimento, Sustentao e Relaxao [2], conhecido como ADSR (Attack, Decay, Sustain
10 Dependendo do tipo de instrumento, pois em alguns instrumentos o instrumentista possui

controle sobre a natureza do ataque (suave, incisivo agressivo), o que pode modicar o padro da
nota.
30
e Release )
11
. Cada segmento pode ser melhor determinado no padro da envoltria
da potncia instantnea do sinal, conforme pode se ver na Figura 3.4.
Figura 3.4: Modelo ADSR.
No entanto, nem todos os instrumentos produzem notas contendo todos os

tipos de segmentos, assim, somente os segmentos de ataque e relaxao se encontram
necessariamente presentes em todos os instrumentos [2].
O segmento de ataque normalmente corresponde subida do sinal, em termos
12
de potncia, indo do nvel do rudo de fundo at um mximo inicial
. Representa,
portanto, o intervalo de tempo em que ocorre o transitrio inicial. senso comum

asseverar que retirar o ataque do sinal implica uma maior diculdade para se conseguir uma diferenciao auditiva do timbre de alguns instrumentos musicais por
parte dos ouvintes [18]. Da advm uma justicativa natural para tentar o ataque
na fase de extrao de caractersticas.
O segmento de decaimento representa o intervalo de tempo decorrido entre o
instante do mximo inicial e aquele em que se atinge o nvel de sustentao
13
11 Esse modelo foi concebido por Vladimir Ussachevsky em 1965, quando liderava a
. O seg-
Columbia-
Princeton Electronic Music Center.

12 Normalmente representado pelo mximo global, como o instante desse pode ocorrer dentro do
trecho de sustentao, neste trabalho adotou-se o mximo inicial como o primeiro mximo local.
13 Aproximadamente o intervalo de tempo compreendido entre o instante do primeiro mximo e
31
mento de relaxao ocorre quando novamente o volume do sinal comea a diminuir

at atingir o nvel de rudo de fundo ou zero. J o segmento de sustentao ocorre
entre o trmino do trecho de decaimento e o incio do segmento de relaxao [2].
3.3.1.2 Denies Alternativas

Uma abordagem aproximada seria denir o segmento de ataque como o intervalo compreendido entre o momento em que o sinal ultrapassa o rudo de fundo
at o instante em que ocorre o primeiro pico. Logo, para que o primeiro pico no
venha ser obtido das pequenas utuaes durante a subida da envoltria do sinal,
necessrio suaviz-la sucientemente para que esses pequenos picos desapaream.
Para isso vericou-se que o procedimento mais adequado para a obteno da envoltria foi o mtodo do mximo (ver Seo 3.2.2).
O segmento de decaimento
determinado pelo intervalo circunscrito entre o primeiro pico obtido anteriormente
14
e o instante associado ao primeiro vale aps esse pico
. O segmento de relaxao
denido como o intervalo entre o instante associado ao primeiro pico (mximo local)
com valor superior ao limiar de rudo de fundo, a partir do nal da nota, e o instante
em que o sinal volta a car menor que o limiar de rudo de fundo (no sentido do
incio ao nal da nota). Por m, o segmento de sustentao obtido pelo intervalo
situado entre o nal do segmento de decaimento e o incio do segmento de relaxao.
Como visto anteriormente, as denies aqui propostas para os trechos de
uma nota diferem das do modelo ADSR convencional.
chamaremos o mtodo proposto de modelo ADSRm.
Portanto, nesse trabalho
A modicao proposta se
deve basicamente ao fato de os sinais reais apresentarem em alguns casos comportamento no previsto pelo modelo ADSR que, se fosse aplicado, descaracterizaria o
signicado dos segmentos (e.g., um ataque com durao at o meio da nota). O modelo ADSRm obtm segmentos similares aos do ADSR, sendo capaz de determinar
tambm, quando for o caso, a ausncia do decaimento e da sustentao.
o instante de trmino do primeiro vale.
14 Note-se que o mtodo descrito difere um pouco quanto ao momento do incio do segmento de
sustentao apresentado na Figura 3.4, em que o incio do trecho de sustentao comea a partir
do primeiro pico que sucede o primeiro vale.
32
Pi(m)
0,03
0,02
0,01
0
20
40
60
80
m (segmentos)
(a)
100
120
Pi(m)
0,03
Envoltria
0,02
0,01
Limiar 10%
20
40
60
80
m (segmentos)
(b)
100
120
Figura 3.5: Segmentao segundo o modelo ADSRm de uma nota C4 de uma auta
contralto.
As linhas vermelhas verticais slidas correspondem em (a) aos incios
de cada frame analisado.
J em (b), as linhas pretas verticais, da esquerda para
a direita, correspondem aos incios dos segmentos de decaimento, sustentao e

relaxao, respectivamente.
3.3.1.3 Exemplos
Nas Figuras 3.5, 3.6, 3.7 apresentamos resultados de segmentao obtidos
para 3 instrumentos, respectivamente: Flauta Contralto sem vibrato, Saxofone Contralto sem vibrato e Violino pizzicato.
No caso da auta, ilustrado pela Figura 3.5, pode-se constatar que o segmento
de decaimento bastante curto. J no caso do saxofone contralto, apresentado pela
Figura 3.6, o segmento de decaimento melhor destacado. Pode-se tambm observar
que neste caso todos os segmentos aparecem na forma prevista pelo modelo ADSR.
Finalmente, no caso da envoltria da nota do violino, apresentada na Figura
3.7, pode-se perceber que a nota da envoltria do violino s apresenta os segmentos
de ataque e relaxao. Conforme j comentado, determinadas notas de instrumentos
33
0,08
Pi(m)
0,06
0,04
0,02
0
10
20
30
40
50
m (segmentos)
60
70
80
0,08
Envoltria
Pi(m)
0,06
0,04
0,02
Limiar 10%
10
20
30
40
50
m (segmentos)
60
70
80
Figura 3.6: Segmentao segundo o modelo ADSRm para a nota C4 de um saxofone.

Vide Figura 3.4 para a denio dos elementos grcos envolvidos.
15
podem no apresentar todos os segmentos previstos pelo modelo ADSR
3.3.2 Segmentao por Limiares

Uma forma de se localizar o incio e o m da nota usarmos limiares sobre a
envoltria ou potncia da nota. Tipicamente o segmento em questo caracterizado
pelo intervalo de tempo em que o sinal apresenta intensidade em nveis superiores
a um determinado limiar, cujo valor normalmente escolhido para destacar a nota
do rudo de fundo.
No entanto, essa mesma abordagem pode ser usada para se
obter segmentos de interesse contidos na nota, ou seja, incio, meio e m.
Para
isso basta acrescentarmos um segundo limiar, cujo valor superdimensionado em

relao ao anterior. Neste tipo de abordagem, o objetivo determinar os segmentos
de interesse, a partir dos quais se iro extrair as caractersticas representativas da
15 Os trechos marcados nas guras 3.5 a 3.7 foram obtidos automaticamente pelo algortimo
implementado para o modelo ADSRm
34
0,4
Pi(m)
0,3
0,2
0,1
0
10
15
m (segmentos)
20
25
0,4
Pi(m)
0,3
Envoltria
0,2
0,1
Limiar 10%
10
15
m (segmentos)
20
25
Figura 3.7: Segmentao segundo o modelo ADSRm para a nota C4 de um violino.
nota.
3.3.2.1 Segmentao com 1 Limiar

Como proposta inicial, pensou-se em destacar somente um segmento intermedirio da nota atravs de um limiar. Neste caso, o segmento de interesse obtido
do intervalo compreendido pelo instante em que a potncia da nota
16
pela primeira
vez ultrapassa o limiar at o instante em que a potncia da nota pela ltima vez
cruza esse mesmo limiar.
Assim, o limiar deve ser denido para um valor acima
do nvel do rudo de fundo, pois caso contrrio se poder ter amostras do segmento
contendo somente rudo de fundo. Infelizmente, nessa abordagem, o controle do segmento extrado da nota restrito, ou seja, ser impossvel garantir a extrao de um
segmento intermedirio delineado por nveis distintos de potncia, por um intervalo
de tempo predeterminado, ou mesmo um segmento de sustentao, conforme pode
ser visto na Figura 3.8, a qual ilustra essa situao.
No presente trabalho, usaram-se valores de limiar entre 10% e 90% da mdia
16 O mesmo procedimento pode ser aplicado envoltria da nota.
35
0,08
0,07
Decaimento
1 Limiar alto
0,06
1 Limiar baixo
Pi[m]
0,05
0,04
Sustentao
0,03
Relaxao
Trecho Extrado com 1 limiar baixo
0,02
Trecho Extrado com 1 limiar alto
0,01
0
10
20
30
40
50
m (segmentos)
60
70
80
Figura 3.8: Segmentao a partir de um limiar sobre a envoltria da nota C4 de um

saxofone contralto.
da potncia instantnea do sinal, visando obteno de um segmento intermedirio

mais estvel (em frequncia e possivelmente em amplitude) da nota, sobre o qual
sero medidos elementos caracterizadores, tais como parametrizao por codicadores como LSF, LPC, MFCC e CEPSTRUM. Devido sua simplicidade, essa tcnica
comumente utilizada e, na prtica, apresenta bons resultados [3].
Como visto, a abordagem de segmentao atravs de um nico limiar se
restringe a selecionar apenas um segmento. Tal desvantagem pode ser contornada
pelo acrscimo de mais limiares. Isso resolve o problema parcialmente, restando-se
ainda determinar de forma mais precisa os valores desses limiares em correspondncia
aos segmentos que se pretende extrair.
3.3.2.2 Segmentao com 2 limiares - Modelo IMF

Como uma alternativa ao mtodo de segmentao com um limiar, elaborou-se
para esse trabalho um critrio de segmentao baseado em 2 limiares, possibilitando
36
17
uma possvel correspondncia com alguns segmentos previstos no modelo ADSR
No caso de adotarmos 2 limiares tais que:
limiar 1 (inferior) dene o nvel mximo do rudo de fundo, ou o nvel em que

se considera o sinal presente; e
limiar 2 (superior) determina o nvel mximo que o incio ou o nal da nota

pode atingir;
poderemos obter 3 segmentos, abaixo denidos:
o primeiro segmento (incio), ser denido pelo intervalo que vai do instante
em que o sinal
18
cruza pela primeira vez o limiar 1 at o instante em que o
sinal cruza pela primeira vez o limiar 2 a partir do
incio do sinal, ou seja, a
subida do sinal;
o segundo segmento ser denido pelo intervalo que vai do instante em que o
sinal cruza a primeira vez o limiar 2 at o instante em que o sinal cruza pela
ltima vez o limiar 2, ou seja, a partir do
como segmento
meio
do sinal, aqui denominado
estacionrio19 ;
e o terceiro segmento do sinal ser denido pelo intervalo compreendido entre

o instante em que o sinal cruza pela ltima vez o limiar 2 at o instante em
que o sinal cruza pela ltima vez o limiar 1
nal do sinal, ou seja, a descida
do sinal.
A Figura 3.9 mostra um exemplo em que 2 limiares so aplicados envoltria

do sinal de uma nota, de forma a ilustrar o critrio de segmentao anteriormente
descrito.
Pode-se notar que possvel associar de modo aproximado o primeiro
segmento subida do sinal, o segundo segmento ao trecho mais estacionrio (onde

em tese teramos poucas variaes de amplitude e pouca variao na frequncia
17 Critrios de segmentao usando dois limiares podem obter 3 segmentos aproximadamente

equivalentes aos segmentos de ataque, sustentao e relaxao do modelo ADSR.
18 Neste contexto o termo sinal poder ser entendido como envoltria do sinal ou potncia
instantnea do sinal.
19 Na verdade este segmento representa um trecho intermedirio do sinal, onde normalmente se

encontra o segmento de sustentao.
37
20
fundamental)
do sinal, e o ltimo segmento descida do sinal, conforme se pode
observar na Figura 3.9.
0,08
0,07
Estacionrio (meio)
0,06
Pi(m)
0,05
Limiar 90%
0,04
0,03
Descida (fim)
0,02
Subida (incio)
0,01
0
Limiar 10 %
10
20
30
40
50
m (segmentos)
60
70
80
Figura 3.9: Segmentao IMF a partir de 2 limiares sobre a envoltria da nota C4

de um saxofone contralto. Usou-se 10% e 90% da mdia da potncia instantnea do
sinal para denirmos o limiar 1 e o limiar 2, respectivamente, em vez de 10% e 90%
do maior pico, como proposto em [19].
3.3.3 Segmentao pelo Pitch

Um aspecto que se deve destacar que a nota produzida por um instrumento
musical no apresenta um padro senoidal puro. De fato, quando dizemos que o tom
da referida nota L da quarta oitava, queremos dizer que a percepo auditiva de
um ouvinte sobre a altura (pitch ) desta nota aproximadamente a mesma de escutar
20 Caso ocorra variaes na amplitude, como o caso do tremolo, ainda assim teremos a frequncia
fundamental apresentando pouca variao.
Assim, estamos usando o termo estacionrio num
contexto amplo e no puramente estatstico, ou seja, o segmento onde a fundamental e a amplitude

apresentam variaes menores que os demais segmentos da nota.
38
um sinal senoidal na frequncia de 440 Hz. No entanto, quando analisamos o espectro

de frequncia da nota de um instrumento musical, tipicamente observamos diversas
frequncias, conforme pode ser visto no espectrograma apresentado na Figura 3.10,
referente ao L de quarta oitava (440 Hz) produzida pelo instrumento Clarinete
Si bemol.
A gura tambm apresenta a magnitude do espectro e a envoltria de
potncia do sinal.
Figura 3.10: Espectrograma CQT (constant Q spectral transform ) do L de quarta

oitava (440 Hz) tocado em um Clarinete Si bemol [20, 21].
Uma outra forma de segmentar a nota perceber que, na execuo de notas

isoladas com altura xa, o pitch se manter aproximadamente constante no segmento
que sucede o ataque da nota.
Assim, de se esperar que existam um segmento
associado ao processo de estabilizao do pitch, outro de manuteno do pitch, e

um trecho nal de supresso do pitch.
Portanto, para obtermos o segmento de
manuteno do pitch, basta usar um estimador de pitch para identicar o perodo

em que o pitch da nota se mostra mais estvel. Uma pista que ajuda a determinar o
segmento de estabilizao do pitch da nota sua maior durao em relao a outros
segmentos obtidos nesse processo.
39
Para tanto, precisaremos de algoritmos estimadores de pitch. Foram avaliados vrios algoritmos estimadores de pitch, que apresentaram resultados similares.
Portanto, apresentaremos somente o estimador de pitch a partir da funo de autocorrelao da nota [22].
O tamanho do segmento foi determinado pela menor frequncia audvel, uma
vez que a menor frequncia proporcionar o maior comprimento de onda, que dever
caber dentro da janela usada para estimarmos o pitch. Como a menor frequncia
da base de dados o D da primeira oitava, ou seja, 32,7 Hz, e esta frequncia est
prxima do limite inferior da audio humana (20Hz), preferiu-se arredondar para
baixo (30Hz) esse limite, deixando-o prximo ao limite inferior da audio humana e
independente do limite inferior da tessitura de qualquer instrumento sob considerao neste trabalho. J o limite superior foi a maior frequncia encontrada na base de
dados, que de 3.951,07 Hz, portanto, nesse caso preferiu-se a nota imediatamente
acima
(C8, 4.186, 01
Hz
4.200
Hz) de B7 para a restrio superior
21
Os resultados obtidos para o Saxofone Contralto A4 e Trompa B2 so apresentados nas Figuras 3.11 e 3.12, respectivamente.
No caso de estimarmos o pitch para a nota B2 de uma trompa, podemos
novamente observar que os mtodos 1 e 2 se aproximam do pitch real.
O que se
pode concluir que, apesar de notarmos que possvel destacar o momento em que
o pitch alcanado dentro da nota e quando ele se encerra, observamos tambm que
a estacionariedade do pitch rapidamente obtida, assim podemos dizer que o pitch
se estabiliza ainda durante o ataque e se prolonga at quase o nal da relaxao.
Portanto, pode-se armar que boa parte do segmento associado subida e
parte do segmento associado descida do sinal ainda apresentam estacionariedade
do pitch.
Portanto, o mtodo para obtermos segmentos a partir do pitch ser descartado neste trabalho, visto que o segmento intermedirio deste modelo praticamente
destaca a nota inteira. No entanto, isto no signica que, caso venhamos a extrair
as caractersticas desse segmento, no possamos obter bons resultados. Logo, esse
21 Poderia-se, sem acrscimo no esforo computacional, usar o limite superior da audio humana
(20 kHz), mas no estamos contemplando essas frequncias.
40
Metodo = corr - N. de seg. = 86

0,4
0,35
0,3
Pi (m)
0,25
0,2
0,15
0,1
Pitch = 443,2161
0,05
0
10
20
30
40
50
m (segmentos)
60
70
80
90
Figura 3.11: Envoltria da nota de um saxofone contralto - A4 e seu pitch estimado.

A curva de pitch se encontra fora de escala, e somente est representada juntamente
com a curva de envoltria para indicar os instantes em que o pitch se estabiliza.
um mtodo que, embora no segmente sempre a nota em 3 trechos
22
poder ser
futuramente investigado.
3.4 Obteno dos Momentos e Escalamento Dinmico

Inicialmente temos que levar em conta que no se pretende identicar diferenas das notas em relao a intensidade sonora (nvel dinmico) em que ela foi
produzida. Tambm devemos levar em conta que notas provenientes de bases de dados distintas provavelmente apresentaro valores de intensidades sonoras diferentes,
j que dependem do setup de gravao utilizado. Pode-se, por outro lado, contra-
22 Os segmentos associados subida e descida do sinal para a maioria dos casos avaliados praticamente inexistem.
41
Metodo = corr - N. de seg. = 81

0,12
0,1
Pi (m)
0,08
0,06
0,04
0,02
Pitch = 123,0126
0
10
20
30
40
50
m (segmentos)
60
70
80
90
Figura 3.12: Envoltria da nota de uma trompa - B2 e seu pitch estimado.
argumentar que poderamos deixar que tais diferenas de dinmica fossem resolvidas
pelo classicador. Contudo, observou-se que determinados classicadores, como a
SVM e as Redes Neurais, podem eventualmente apresentar problemas de convergncia na ausncia de escalamento das amostras num dado segmento. Assim, para
evitar problemas de convergncia e possveis confuses nas superfcies de separao,
que poderiam car demasiadamente especializadas com os nveis dinmicos encontrados na base de dados, optou-se por fazer um escalamento dinmico de todas as
amostras conforme:
x =
~x x
(3.2)
Assim, para um dado segmento extrado por um dos mtodos descritos anteriormente, feito o escalamento do segmento, e so calculados os valores
m2
(varincia),
m3 ,
m4
m1 (mdia),
conforme [23]
1 X
xi , i = 1 . . . N
N
r
1 X
2
2
m2 = E[(~x x) ] = , =
(xi x)2 , i = 1 . . . N
N 1
m1 = E[~x] = x =
42
(3.3)
(3.4)
1 X
(xi x)3 , i = 1 . . . N
N
1 X
m4 = E[(~x x)4 ] =
(xi x)4 , i = 1 . . . N
N
m3 = E[(~x x)3 ] =
sendo armazenados os valores

de caractersticas.
(desvio padro),
m3
m4
(3.5)
(3.6)
para compor o vetor
Note-se que o escalamento faz com que o segmento escolhido
tenha mdia zero e desvio-padro unitrio, sendo que, para o valor armazenado do
desvio-padro, usou-se a frmula no polarizada. Esses parmetros sero doravante
denominados descritores estatsticos.
Finalmente, devemos levar em conta que existe uma interdependncia entre a
trade escolhida (segmentao, extrao de caractersticas e classicao) e o resultado obtido (taxa de acerto) do sistema de reconhecimento de notas. Logo, dizer que
uma forma de segmentao melhor ou prefervel outra uma assertiva algo problemtica, uma vez que esse resultado dependente dos demais elementos da trade.
Assim, uma comparao no desempenho do segmento escolhido, em ltima anlise,
somente possvel caso os demais elementos da trade se mantenham inalterados.
43
Captulo 4
Extrao de Caractersticas
Este captulo pretende descrever diversas formas de caractersticas representativas dos segmentos de sinais de udio, obtidos atravs de um dos mtodos descritos
no captulo anterior. Abordamos neste captulo: descritores temporais, caractersticas obtidas sobre a envoltria da nota musical (inspiradas em medidas obtidas
sobre um pulso radar) [19]; descritores de udio usuais (descritores especcos) [2];
coecientes de predio linear (LPC); Line Spectral Frequencies (LSF); coecientes
Cepstrais (CEPSTRUM); coecientes Mel-Cepstrais (MFCC); e formao do vetor
de caractersticas.
Essas caractersticas representativas so usadas pelo mdulo extrator de caractersticas, que responsvel pela obteno de um conjunto de caractersticas
representativas do segmento analisado. O vetor de caractersticas obtido por meio
da concatenao de caractersticas estatsticas (desvio-padro e momento de terceira
ordem) dos segmentos, conforme visto na Seo 3.4, com as novas caractersticas
abordadas nesse captulo.
Este vetor ser utilizado pelo processo de classicao
no sistema de reconhecimento automtico de instrumentos musicais, o qual objeto

dessa dissertao.
4.1 Descritores Temporais

A ideia de se usar essas caractersticas obtidas a partir da envoltria da potncia instantnea da nota em sinais de udio veio, originalmente, de uma abordagem
utilizada no campo da Guerra Eletrnica (Warfare [19, 24]) para o problema de re-
44
conhecimento automtico do pulso radar. Nessa rea existe um problema similar ao

da identicao dos instrumentos musicais atravs de notas isoladas, que consiste em
identicar e classicar de forma individualizada pulsos de Rdio Frequncia (RF),
originados por radares distintos. Espera-se que o pulso de RF gerado por um radar preserve caractersticas especcas desse Radar, em funo de particularidades
como o circuito gerador do pulso de RF, a vlvula, o amplicador do pulso e a antena transmissora. Todos esses elementos impactam no padro do pulso de RF em
funo das escolhas feitas durante o projeto do RADAR. Abaixo apresentamos na
Figura 4.1, o modelo temporal de um pulso (Modelo TP), com a descrio dessas
caractersticas representadas pelos seus respectivos rtulos (A,B, ... etc), extradas
da envoltria da potncia instantnea da nota.
Figura 4.1: Modelo TP - Parmetros de um pulso de RF tpico.
A-
Tempo de subida: denido como o perodo de tempo entre os pontos de 10%

e 90% da intensidade do pico mximo de amplitude marcados sobre o leading
edge (bordo de ataque) do pulso;
B-
Tempo de descida: denido como o perodo de tempo entre o ponto com a
amplitude correspondendo ao primeiro vale
e o ponto de 10% da intensidade
1 Normalmente se adota 90% da intensidade do pico mximo, no entanto tal ponto quando
marcado sobre o
tralling edge
(borda posterior) nos sinais de udio no representava a descida do
sinal, assim, fez-se essa adequao.
45
do pico mximo da envoltria, marcados sobre o tralling edge do pulso;
C-
Largura do pulso: denida como o perodo de tempo entre os pontos com

50% da amplitude do pico mximo marcados sobre o leading edge e o tralling
edge do pulso, respectivamente;
D-
Tempo dos 90% do pico: denido como o perodo de tempo entre o primeiro
pico e o ponto de 90% do pico mximo de amplitude marcado sobre o leading
edge do pulso;
E-
Tempo entre pico e vale: denido como o perodo de tempo entre o primeiro
pico e o primeiro vale da modulao do pulso;
F-
Ripple percentual: denido como a diferena percentual de amplitude entre

o vale mais baixo e o pico mais alto;
G-
Tempo entre vale e segundo pico: denido como o perodo de tempo entre o
primeiro vale e o segundo pico de modulao do pulso;
H-
Percentual entre o vale e o segundo pico: denido como a diferena percentual

de amplitude entre o primeiro vale e o segundo pico;
I-
Droop : denido como o ngulo em radianos entre a linha que liga o segundo
pico ao primeiro pico e a vertical.
Conforme se pode observar, exceto o droop (que uma medida angular) todas
essas caractersticas correspondem a medidas temporais ou de amplitude do sinal.
4.2 Descritores Especcos

Alguns trabalhos de classicao de instrumentos musicais utilizam determinados descritores especcos para udio denidos no MPEG-7 [2] como medidas
discriminadoras para o processo de classicao. Esses descritores apresentam correlao com aspectos da percepo humana.
Portanto, so tambm chamados de
descritores perceptuais [25], apesar de serem parmetros objetivos e no subjetivos,

como deveriam ser para que pudessem ser assim denominados.
A seguir apresentam-se alguns desses parmetros e suas denies.
46
1. A taxa de cruzamento pelo zero (ZCR) representa um indicador da presena

de componentes peridicas no sinal, sendo frequentemente utilizado nas aplicaes de processamento de voz. denido por:
ZCR =
onde
n |sign(F (n))
sign(F (n 1))|
,
2Na
(4.1)
Na o nmero de amostras no frame, e F (n) o valor da n -sima amostra
do frame.
2. A raiz da mdia quadrtica (RMS) das amostras em um frame, denida por
RMS =
rP
n
F (n)2
,
N
(4.2)
est associada distribuio da energia ao longo dos frames.
3. O centride espectral mede a frequncia mdia ponderada em um dado frame ;

no seu clculo, as frequncias so ponderadas por suas respectivas amplitudes,
dividindo-se o resultado pela soma das amplitudes:
P
k P (f (k))f (k)
,
SC = P
k P (f (k))
onde
f (k)
k -sima
frequncia do espectro do frame e
(4.3)
P (f (k))
o valor de
amplitude associado a essa frequncia.
4. A largura do centride calculada pelo mdulo da diferena entre o centride

espectral e cada frequncia, sendo ponderado pelas respectivas magnitudes:
BW =
P
k
|SC f (k)|P (f (k))

P
k P (f (k))
(4.4)
5. O uxo espectral representa uma medida da mudana local espectral; no seu

clculo, considera-se o quadrado da diferena entre as magnitudes normalizadas de distribuies espectrais consecutivas:
FS =
|P (f (k)) P (f (k 1))|2 .
(4.5)
4.3 Coecientes de Predio Linear

A parametrizao LPC muito utilizada em modelos fonte-ltro de produo
de fala e msica. No caso da voz, por exemplo, cujo modelo de produo mostrado
47
na Figura 4.2, a fonte
u(n)
um sinal de excitao que representa a vibrao pro-
duzida no ar ao ser forado atravs das cordas vocais. Tal excitao passa ento por
um ltro
H(z)
que modela as ressonncias produzidas pelo trato vocal com funo
de transferncia:
H(z) =
onde
1+
o ganho do modelo fonte-ltro,
G
PNr
i=1
Nr
ai z i
(4.6)
a ordem do ltro e
ai , i = 1 . . . N r ,
representam os seus coecientes.

A sada do ltro
o(n)
origina o sinal de voz de interesse. A modelagem do
som produzido por um instrumento musical anloga [26].
Figura 4.2: Modelo de fonte-ltro para produo de voz e msica.
Uma vez que o sistema mostrado na Figura 4.2 modela convenientemente a

produo da fala ou do som originado por um instrumento musical, espera-se que no
caso dos instrumentos musicais, seus coecientes forneam um vetor de caractersticas capaz de modelar a tendncia espectral, de forma a permitir uma discriminao
dos instrumentos musicais.
A estimao dos coecientes de predio linear consiste em encontrar um
conjunto de coecientes que minimizam o erro quadrtico mdio do seguinte preditor
forward, aplicado em uma sequncia:
s(n) =
N
X
ak s(n k)
(4.7)
k=1
onde o erro de predio
e(n)
a diferena entre o valor estimado
s(n)
e o valor real
s(n)2 .
2 A predio pode ser feita utilizando-se outros mtodos de predio, tais como: mtodo da
autocorrelao, covarincia, Burg, etc...
48
Line Spectral Frequencies
4.4
Pela anlise LPC, o preditor da Equao (4.7) pode ser visto como a sada
de um ltro gerador s-plos
H(z) = 1/A(z)
excitado por
u(n),
onde
A(z) = 1 + a1 z 1 + a2 z 2 + + an z N ,
sendo
(4.8)
a ordem do ltro. Para obtermos os coecientes LSFs, so elaborados dois
polinmios, um simtrico e outro antisimtrico, que so denidos a partir de
A(z),
respectivamente, por
P (z) = A(z) + z (N +1) A(z 1 )
(4.9)
Q(z) = A(z) z (N +1) A(z 1 ).
(4.10)
As razes de P(z) e Q(z) se localizam na circunferncia unitria e suas fases

denem os valores das LSFs.
4.5 Caractersticas Cepstrais

Diversas aplicaes em processamento de sinais utilizam-se de tcnicas nolineares, tais como a anlise cepstral. Conceitualmente, o cepstrum complexo de um
sinal
u(n)
dado por:
u(n) = Z 1 {ln Z {u(n)}}

onde a transformao
(4.11)
normalmente a DFT conforme pode ser visto na Figura
4.3 [27].
Na prtica, antes da computao do cepstrum, a sequncia
u(n) multiplicada
por uma janela de suavizao (e.g., janela de Hamming).

Os primeiros componentes do cepstrum guardam informao sobre a envoltria da magnitude do espectro de um sinal, enquanto que os picos localizados no
nal do cepstrum correspondem parte coerente (determinstica) do espectro, tais
como os picos senoidais de um sinal harmnico.
Assim, os coecientes de ordem
mais alta do cepstrum podem ser relacionados excitao quasi-harmnica em um

modelo de produo de fala [27].
49
Figura 4.3: Modelo cepstrum para entrada u(n).
Mel Cepstral Features
4.6
Uma das contribuies da psico-acstica foi a descoberta que o sistema auditivo humano realiza uma anlise espectral de sinais sonoros na qual a resoluo
frequncial no-uniforme. Esta descoberta levou proposio de escalas auditivas (e.g., Mel, Bark e ERB), no lugar de escalas fsicas (em Hz), para a anlise
perceptual de sinais acsticos.
O ponto de referncia entre as escalas mel e Hz foi denido como sendo 1000
mels para o pitch de um tom senoidal puro de frequncia igual a 1 kHz, com potncia
40 dB acima do limiar mnimo da audio humana.
Na Figura 4.4 vemos o mapeamento aproximado entre as escalas mel e Hz,
que analiticamente fornecida por:
M el(f ) = 2595 log10

onde
f
1+
700
(4.12)
a frequncia em Hz. Para as frequncias abaixo de 1000 Hz a relao
aproximadamente linear, e acima desse valor a relao logartmica.

Um outro fenmeno psico-acstico de interesse o mascaramento dentro das
chamadas bandas crticas [28].
Com o intuito de incorporar a escala mel e o conceito de banda crtica,
introduziu-se o efeito da banda crtica dentro da escala mel, de forma que, ao invs
de usarmos o logaritmo da magnitude das frequncias, passou-se a utilizar o loga-
50
4000
3500
Freque ncia (Mel)
3000
2500
2000
1500
1000
500
0
1000
5000
10000
Freque ncia (Hz)
15000
Figura 4.4: Mapeamento entre as escalas Hz e Mel, segundo a Eq. (4.12).
ritmo da energia total das bandas crticas em torno das frequncias mel. Para isso
utiliza-se um banco de ltros triangulares com resposta unitria na sua frequncia
central. No mais, as frequncias centrais dos ltros so espaadas linearmente na
escala Mel. Seus limites (inferior e superior da banda de passagem) coincidem com
as frequncias centrais dos ltros triangulares adjacentes [1].
A principal diferena entre o cepstrum e os coecientes mel-frequency cepstral
que no primeiro a anlise espectral feita com as bandas linearmente espaadas,
enquanto que no segundo as bandas de frequncia so igualmente espaadas conforme a escala mel, aproximando-se mais do processo de anlise realizado no sistema
humano de audio.
Finalmente, para se calcular os MFCC, divide-se o sinal
s(n)
em janelas.
Para cada janela estima-se a magnitude do espectro (na escala Hz), utilizando-se
o mdulo da DFT. Posteriormente cada espectro tem sua magnitude multiplicada
com cada ltro triangular. Ao m desse processo, faz-se o agrupamento dos valores
obtidos em cada canal. Obtm-se assim um coeciente para cada canal. O vetor feito
do logaritmo destes coecientes, mapeado novamente para o domnio do tempo
usando a DCT. A Figura 4.5 representa as etapas necessrias para obteno do vetor
MFCC .
3 Figura baseada no livro [2].
51
Figura 4.5: Esquema de obteno do vetor MFCC.
A escala mel normalmente garante uma melhor representao do som. Por

esse motivo os coecientes MFC tm um uso amplo em diversas aplicaes de udio,
como por exemplo na compresso e extrao de caractersticas para sistemas de
reconhecimento automtico, tanto para a fala quanto para instrumentos musicais [3,
6].
4.7 Vetor de Caractersticas

Conforme foi descrito nas sees anteriores, poderemos ter descritores temporais, descritores especcos de udio ou coecientes provenientes de um dos codicadores (LPC, LSF, CEPSTRUM ou MFCC). O nmero de coecientes que cada
codicador fornecer para o vetor de caracterstica, assim como o nmero de elementos estatsticos, sero objetos de estudo no Captulo 7. J os demais descritores
possuem nmero xo de coecientes, ou seja, 9 para o descritor temporal e 5 para o
descritor especco de udio.
Ao nal da codicao ser montado um vetor de caractersticas. Nesse vetor
52
sero acrescentados os elementos descritos nesse captulo e os descritores estatsticos

elencados ao nal do captulo anterior.
Assim, o vetor de caractersticas poder
apresentar uma das seguintes formas:
descritores temporais + descritores especcos de udio + descritores estatsticos;
codicadores + descritores estatsticos;
codicadores + descritores especcos de udio + descritores estatsticos;
codicadores + descritores temporais + descritores estatsticos;
codicadores + descritores temporais + descritores especcos de udio +

descritores estatsticos.
Alm disso, devemos levar em conta que os descritores temporais usaro o

modelo TP, portanto a envoltria da potncia do sinal (mdia RMS) ser normalizada. J os codicadores iro codicar um segmento especco, o qual, conforme
comentado no Captulo 3, ser escalonado. Portanto, o segmento onde se far parte
da extrao de caractersticas poder ser:
subida (modelo IMF);
ataque (modelo ADSR);
intermedirio (modelo IMF);
Todos os segmentos iniciais tiveram dois padres distintos processados pelo

sistema de reconhecimento automtico, um que sofreu uma transformao antes de
calcularmos os coecientes e um outro que no. No primeiro padro aplica-se a DCT
com intuito de aproveitarmos a propriedade de que a DCT de um sinal impulsivo
aproximadamente uma reta horizontal (conforme pode ser observado na Figura
4.6); j no segundo padro no se aplica a DCT.
Ao aplicarmos a DCT no segmento inicial, onde se espera que exista maior incidncia de sinais impulsivos e no peridicos, podemos garantir que a sada resultar
num segmento com uma menor variao da amplitude e um certo nvel de estacionariedade como se estivssemos no segmento de sustentao do modelo ADSR. Dessa
53
1,2
f(n)
DCT(f(n))
1
f(n)
0,8
0,6
0,4
0,2
0
600
400
200
0
n (amostras)
200
400
600
Figura 4.6: Sinal impulsivo e sua DCT.
forma espera-se facilitar a predio linear. Pode-se constatar essa menor variao da
amplitude nas Figuras 4.7 e 4.8, onde mostramos a DCT do segmento de ataque e
do segmento de subida, respectivamente, de uma nota C4 do instrumento Saxofone
Contralto.
Neste momento, podemos nalmente elaborar a Figura 4.9, a qual apresenta
um quadro resumo dos segmentos e dos descritores que sero empregados nessa
dissertao.
54
0,08
Ataque
0,06
0,04
0,02
0
200
400
600
800
1000
1200
1400
1600
1800
2000
1400
1600
1800
2000
n (amostras)
(a)
DCT (ataque)
0,15
0,1
0,05
0
0,05
200
400
600
800
1000
1200
n (amostras)
(b)
Figura 4.7: (a) o segmento de ataque de uma nota C4 de um Saxofone Contralto;
(b) DCT do segmento (a).
55
0,08
Subida
0,06
0,04
0,02
0
500
1000
1500
2000
1500
2000
n (amostras)
(a)
DCT (subida)
0,04
0,02
0
0,02
0,04
500
1000
n (amostras)
(b)
Figura 4.8: (a) o segmento de subida de uma nota C4 de um Saxofone Contralto;

(b) DCT do segmento (a).
56
Figura 4.9: Quadro resumo da codicao.
57
Captulo 5
Mtodos de Classicao
Este captulo tem como escopo apresentar os mtodos de classicao que
foram empregados nessa dissertao e as transformaes no-lineares aplicadas aos
mtodos de classicao.
Existem diversos mtodos que usualmente so empregados para a etapa de
classicao, e que, de forma geral, podem ser classicados em um dos seguintes
grupos:
1. Mtodos conexionistas (Redes Neurais);

2. Mtodos probabilsticos (Modelo de Misturas Gaussianas);
3. Mtodos baseados em distncia (K -Vizinhos mais prximos);
4. Mtodos baseados em hiperplanos separadores (Mquina de vetor suporte).
Para reconhecimento automtico de padres ou no processo automtico de

reconhecimento de padres so encontrados diversos mtodos de classicao, tais
como: Redes Neurais [29, 30], Hidden Markov Models (HMM [31]), Modelo de Misturas Gaussianas (GMM [6, 32]), Mquina de Vetor Suporte (SVM [8, 33]), Discriminantes Lineares [33],
K -Vizinhos
mais prximos (K -NN [34]), etc.
O presente trabalho no almeja avaliar todos os possveis mtodos de classicao. Assim, sero abordados 3 mtodos de classicao:
ximos, SVM e Discriminantes Lineares.
K -vizinhos
mais pr-
O primeiro mtodo foi escolhido por se
tratar de um classicador que normalmente encontrado em trabalhos de reconhecimento de padres. Sua popularidade deve-se ao fato de ser um mtodo simples
e, por esse motivo, normalmente encontrado como referncia nos trabalhos para a
demonstrao dos resultados obtidos. O segundo mtodo foi escolhido em funo
58
da sua popularidade no emprego para trabalhos de reconhecimento automtico de

instrumentos musicais. Nesse quesito existem 2 mtodos que se destacam: a SVM
e o GMM. A escolha da SVM em detrimento do GMM foi arbitrria. J a escolha
do terceiro mtodo se deu visando apresentar uma abordagem diferente para reconhecimento de instrumentos musicais, a m de que se possa fazer uma contribuio
alternativa nessa etapa para o sistema de reconhecimento automtico de instrumentos musicais. Assim, foi elaborado um classicador por discriminantes lineares,
por apresentar uma complexidade intermediria entre o SVM e o 1-NN e por ter
baixssimo emprego em reconhecimento de instrumentos musicais.
comum que, a partir das variveis de entrada obtidas do vetor de caractersticas, aqui neste captulo chamado de vetor de entrada, delimitado por um domnio,
conhecido como espao de entrada (de dimenso
N ),
se faa uma transformao
no-linear (sobre o vetor de entrada) que mapeia a imagem num espao de dimenso maior (de dimenso
M ),
conhecido como espao de caractersticas. Aps essa
transformao no-linear feita a classicao, que mapeia a relao entre o conjunto denido pelo espao de caractersticas e o conjunto delimitado pelo espao de
sada, conforme pode se ver na Figura 5.1
Figura 5.1: Mapeamento dos espaos envolvidos na classicao.
Portanto, o presente captulo ir apresentar as principais caractersticas dos

mtodos
K -vizinhos
mais prximos, uma implementao alternativa e generalizada
de Discriminantes Lineares, conhecida como Generalized Linear Discriminant [35],

e aqui denominada de DLG (Discriminantes Lineares Generalizados) e Mquina de
Vetor Suporte.
59
5.1 K -Vizinhos mais Prximos

O algoritmo dos
K -vizinhos mais prximos (K -NN) um mtodo baseado em
distncia [35]. Assim, este mtodo estima a classe mais provvel de uma dada amostra a ser classicada segundo alguma mtrica de distncia a um conjunto de treinamento formado por amostras cujas classes so previamente conhecidas. Percorre-se
o conjunto de treinamento, calculando a distncia de cada uma de suas amostras em
relao amostra a classicar. Obtm-se ento as
amostra que se deseja classicar, ou seja, os
atribuda quela que foi mais frequente nos
menores distncias associadas
K -vizinhos
K -vizinhos.
mais prximos. A classe

Caso
seja igual a 1, o
algoritmo reduzido busca do vizinho que apresenta a menor distncia, ou seja, o

vizinho mais prximo (1-NN). Nesse trabalho usou-se a mtrica de Minkowski [36]
de ordem
p, para medir a distncia entre uma amostra do conjunto de treinamento e
a amostra que se pretende classicar. Para

distncia Euclidiana entre a amostra
p=2,
a mtrica de Minkowski equivale
X e a amostra Mj do conjunto de treinamento.
A mtrica de Minkowski denida por:
v
u n
uX
j
p
(xi Mji )p
Dx = t
(5.1)
i=1
onde
xi
o elemento
do vetor de caractersticas da amostra
do vetor de caractersticas da amostra
Mj
X e Mji
o elemento
do conjunto de treinamento
M.
Alm dessa mtrica tambm foi avaliada uma mtrica conhecida como city-
block, que mede os valores absolutos da diferena entre as amostras.
5.2 Discriminantes Lineares

O discriminante linear almeja encontrar um hiperplano que separe duas classes. Assim, o seu objetivo achar, a partir de um conjunto de treinamento, o vetor
w
~
que dene um hiperplano separador, por meio da minimizao do quadrado do
erro de classicao dado por:
= t~x y(~x)
onde t~
x (que pode assumir os valores -1 e 1) a classe da amostra
estimadora da classe. Assim, espera-se que se
60
(5.2)
~x, e y uma funo
w
~ 0~x > 0 , a amostra ~x pertena classe
1, caso contrrio pertencer classe -1. Portanto, a classe da amostra determinada

por:
~y (~x) = sign(w0~x)
(5.3)
Para viabilizar a minimizao por mtodos que utilizam a direo do gradiente, substituiu-se a funo sinal na Equao (5.3) pela funo tangente hiperblica.
A mudana se justica, uma vez que esta funo, assim como a funo sinal, possui
sua imagem limitada pelos valores -1,1, sendo, ao contrrio da funo sinal, totalmente diferencivel em todo o seu domnio. Redene-se, ento, a classe da amostra
~x
por:
y(~x) = tanh(w0~x)
(5.4)
O algoritmo utilizado para minimizar o erro quadrtico foi o Least Mean
Squares (LMS) modicado por uma normalizao [37]. Portanto o passo de iterao
para se obter a convergncia pode ser facilmente obtido, sendo dado por:
w
~ k+1
f
=w
~ k w~
+
(5.5)
O algoritmo de gradiente utilizado para a atualizao da estimativa dado

pela equao acima e por:
onde
f~
= 2(1 y2 )~x
w
~
(5.6)
= (1 ) + x0 x
(5.7)
assume o valor 0,05 (arbitrrio), a matriz
triz zero e
inicializada como uma ma-
uma matriz diagonal que apresenta valores da diagonal idnticos e
prximos a zero, a m de que a Equao (5.5) no apresente diviso por zero.
5.2.1 Transformao no Espao das Caractersticas

Tambm foi investigado o efeito de uma extenso do espao de caractersticas [33], consistindo na incorporao das potncias, at um inteiro
parmetro do vetor de caractersticas. Desta forma, se
caractersticas associado a uma amostra, aps a extenso
k,
de cada
a dimenso do vetor de
kM
ser a nova dimenso
tanto deste vetor de caractersticas transformado, agora denido pela Equao (5.8)
~xp = [ (~xT ) (~xT )2 . . . (~xT )k1 (~xT )k ]T

61
(5.8)
quanto do hiperplano separador, agora dado por
T
w
~ p = [ (w
~ 1T ) (w
~ 2T ) . . . (w
~ k1
) (w
~ kT ) ]T
(5.9)
Nesse caso, a nova funo estimadora da classe passa a ser
k
X
y0 (~x) = tanh(
w
~ iT ~xi )
(5.10)
i=1
Esta transformao no-linear foi usada em particular com o classicador
DLG, de forma que a partir dela pode-se separar classes que antes no eram linearmente separveis. Como se ver mais adiante, ela provocou um aumento na taxa de
acerto das classes.
5.3 Mquina de Vetor Suporte

Esta seo pretende fazer uma breve descrio de como funciona uma M-
quina de Vetor Suporte, SVM, (do ingls Support Vector Machine ) . A SVM implementa discriminantes lineares (hiperplanos) num espao obtido por uma transformada do espao de entrada, diferenciando uma classe, a positiva, de outra, a
negativa (uma classicao binria, na sua forma tradicional).
A SVM visa construir um hiperplano que maximize a margem de separao entre os exemplares positivos e os negativos.
Esse objetivo obtido atravs
de uma abordagem baseada na Teoria Estatstica de Aprendizagem [38], implemen-
tando aproximadamente o mtodo de minimizao do risco estrutural . Na Figura

5.2 encontramos um exemplo de um hiperplano separador timo. Neste exemplo, as
cruzes pertencem a uma classe e os traos pertencem a outra classe. A despeito da
utilizao de discriminantes lineares, uma SVM no necessita, para efeitos de generalizao, de classes linearmente separveis. Tal se deve ao fato de a discriminao
poder ser empregada num espao de caractersticas, o qual j uma transformao
no-linear (kernel ) do espao de entradas. Assim o vetor de entrada (~
x), no espao
de entradas, mapeado em uma dimenso mais alta no espao das caractersticas
(~
z ). Escolhendo um mapeamento no linear a priori, a SVM constri um hiperplano
1 Um maior aprofundamento pode ser obtido em [35].

2 Uma demonstrao sobre as caractersticas desse modelo pode ser encontrada em [39].
62
Figura 5.2: Hiperplano separador timo.
separador timo neste espao de dimenso mais alta, conforme pode-se ver na Figura
5.1.
As restries que o mapeamento no-linear sofre sero abordadas na Subseo
5.3.2, a qual apresentar alguns mapeamentos aceitveis, tais como o polinomial,
RBF e algumas funes sigmides.
5.3.1 Caso linear do Modelo da SVM

Se o problema linearmente separvel por um hiperplano separador, o equacionamento para o modelo SVM dado por:
n
X
1 XX
max D(~
) =
k
i j yi yj h~
xi , x~j i,
2 i=1 j=1
k=1
sujeito a:
n
X
(5.11)
i y i = 0
(5.12)
0 i C,
(5.13)
i=1
onde
i o multiplicador de Lagrange, x~i o vetor de entrada e yi a classe associada
ao i-simo vetor de entrada [+1,-1]. O coeciente
tem que ser determinado. Este
parmetro introduz uma capacidade de controle adicional no classicador, podendo

representar algum tipo de conhecimento a priori
[39].
Assim, a soluo tima fornecida por:
n
n
n
X
1 XX
= arg min
i j yi yj h~
xi , x~j i
k
2
i=1 j=1
k=1
63
(5.14)
5.3.2 Transformaes No-Lineares - Kernel

O mapeamento do espao de entrada num espao de dimenso mais alta,
a m de resolver a limitao de classes que no so linearmente separveis por
hiperplanos separadores, pode ser justicada invocando-se o clebre Teorema de
Cover [40], o qual arma que padres no-linearmente separveis pertencentes a um
dado espao de entradas so, com alta probabilidade, linearmente separveis num
espao de caractersticas, desde que a transformao seja no-linear e a dimenso
do espao de caractersticas seja alta o suciente.
A teoria das funes kernel baseada em Reproducing Kernel Hilbert Spaces,
RKHS [41, 42, 43, 44] arma que um produto interno no espao de caractersticas
tem um kernel equivalente no espao de entrada, ou seja,
K(x, x0 ) = (h(x), (x0 )i)
(5.15)
desde que garanta certas condies, como K ser uma funo simtrica denida positiva, e respeite as condies de Mercer dadas por:
K(x, x0 ) =
am m (x)m (x0 ), am 0
(5.16)
K(x, x0 )g(x)g(x0 )dxdx0 > 0, g L2 3
(5.17)
ZZ
Assim, existem algumas restries para que um mapeamento no-linear sob a

forma de kernel possa ser empregado. Portanto, dado um mapeamento
(onde a dimenso de H maior que
d)
: Rd 7 H
a ideia encontrar um hiperplano separador
num espao dimensional mais alto, equivalente a uma superfcie no-linear em
Rd .
Esta abordagem resolve um problema, j que teramos de calcular o produto interno
h(x), (x0 )i,
e isto seria complicado, visto que a dimenso H pode
ser muito alta, ocasionando um problema de complexidade combinatorial, a um

custo computacional impraticvel.
No entanto, se for conhecida a funo kernel
0
(K(x, x )), pode-se us-la no lugar do produto interno da funo
o que reduziria
o custo computacional, evitando que o produto interno no espao de caractersticas

fosse calculado. Esta abordagem fornece um caminho de se contornar a maldio
da dimensionalidade, porm o treinamento continuar dependente do nmero de
3 Ou seja,
g(x)2 dx
nito.
64
amostras, o que continua sendo uma restrio, visto que uma boa aproximao da
distribuio dos dados depende de um grande nmero de amostras.
Assim, o kernel representa o produto interno no espao de caractersticas, e,
a seguir, apresentamos alguns mapeamentos que satisfazem as condies de Mercer.
5.3.2.1 Polinomial
5.3.2.2
K(x, x0 ) = (hx, x0 i)d
(5.18)
K(x, x0 ) = (hx, x0 i + 1)d
(5.19)
Gaussian Radial Basis Function
kx x0 k2
K(x, x ) = exp
2 2
5.3.2.3
Exponential Radial Basis Function,
RBF
kx x0 k
K(x, x ) = exp
2 2
0
5.3.2.4
(5.20)
(5.21)
Multi-Layer Perceptron
K(x, x0 ) = tanh(ahx, x0 i + b)
(5.22)
Dentro os mapeamentos descritos o polinomial o mtodo mais popular.

Note-se que o kernel apresentado na Equao (5.19) evita possveis problemas de
singularidade quando a hessiana vai a zero.
5.3.3 Caso No-Linear do Modelo da SVM

A SVM no espao de caractersticas resolve um problema de programao
no-linear que almeja maximizar a margem entre os vetores de entrada transformados e o hiperplano separador. A maximizao se d conforme o equacionamento na
65
forma dual dada por [35]:
n
X
1 XX
k
max D(~
) =
i j yi yj K(~
xi , x~j )
2
i=1 j=1
k=1
n
(5.23)
sujeito a:
n
X
i y i = 0
(5.24)
i=1
0 i C
onde
K(~
xi , x~j )
(5.25)
o kernel aplicado ao espao de entrada e as demais variveis esto
descritas na Seo 5.3.1. Nesse caso conforme [39] a soluo dada pela Equao
5.26, e a classicao obtida a partir da Equao 5.27.
n
n
n
X
1 XX
k
= arg min
i j yi yj K(~
xi , x~j )
2
i=1 j=1
k=1
h(~x) = sgn(
i yi K(~
xi , ~x) + b)
(5.26)
(5.27)
iSV
onde b representa o bias, e
SV
representa o conjunto dos vetores suporte, maiores
detalhes sobre esse classicador pode ser encontrado alm das referncias j citadas
nessa seo em [45].
66
Captulo 6
Agrupamentos Hierrquicos,
Abordagens Multiclasse e Estratgias
Neste captulo analisaremos os seguintes tpicos: agrupamentos hierrquicos empregados nessa dissertao; abordagens multiclasse usadas em discriminantes
lineares e mquinas de vetor suporte; e algumas estratgias associadas a essas abordagens para o sistema de reconhecimento automtico de instrumentos musicais. Usaremos o conceito de famlia de instrumentos como sendo constituda de um conjunto
particular de instrumentos musicais denida por um dos agrupamentos hierrquicos discutidos no Captulo 2, e grupo de instrumentos como sendo um conjunto de
instrumentos obtidos por um algoritmo que vise melhorar a sua diferenciao.
6.1 Agrupamentos Hierrquicos Empregados

Inicialmente no Captulo 2 discutimos algumas formas de se agrupar os instrumentos musicais segundo taxonomias padres da literatura, referentes ao estudo de
organologia. No entanto, essa dissertao ir se restringir a basicamente 3 padres
de agrupamentos.
O primeiro padro de agrupamento consiste na coleo indivi-
dual dos instrumentos. O segundo consiste na coleo das famlias de instrumentos

conforme a taxonomia normalmente empregada nas orquestras sinfnicas, com um
desdobramento, decorrente dos trabalhos anteriormente elaborados por [3, 4], onde
as autas constituem uma famlia separada. Assim, nesse agrupamento as famlias
so as autas, as palhetas, os metais, as cordas e os instrumentos de percusso. Por
67
m, essas famlias de instrumentos, em algumas simulaes, foram agrupadas formando outras famlias, constituda pelos instrumentos de sopro (autas, palhetas,
metais), cordas e percusso.
Assim, para cada uma das bases de dados (MIS, MUMS e RWC) foram
utilizados conjuntos de instrumentos distintos, representando tambm taxonomias
distintas quanto ao agrupamento de instrumentos.
Assim, os agrupamentos contendo 2 e 4 famlias de instrumentos, SC (sopro e
cordas) e MFPC (metais, autas, palhetas e cordas), foram utilizados para o banco
de dados MIS, enquanto que os agrupamentos contendo 3, 4 e 5 famlias, SPC (sopro,
percusso e cordas), MFPC e MFPPC (metais, autas, palhetas, percusso e cordas)
foram utilizados para o Banco de dados RWC e MUMS.
Alm disso, foram criados 3 agrupamentos distintos de instrumentos (denominados INSTRUMENTOS) para cada base de dados e um agrupamento contendo
instrumentos das 3 bases de dados.
Resumindo, foram criados dez agrupamentos para avaliar o desempenho do
sistema. Seis deles representam taxonomias aplicadas famlia de instrumentos e os
outros quatro representam taxonomias aplicadas aos instrumentos individualmente.
Nas Tabelas 6.1, 6.2 e 6.3, apresentamos a descrio dos agrupamentos hierrquicos utilizados nesse trabalho para cada uma das 3 bases de dados, seguida da
Tabela 6.4 que contm a descrio do agrupamento hierrquico reunindo as 3 bases
de dados.
68
Tabela 6.1: Tabela contendo os agrupamentos usados para a base de dados MIS.
Tabela 6.2: Tabela contendo os agrupamentos usados para a base de dados MUMS.
6.2 Abordagens Multiclasse

Em princpio existem duas abordagens normalmente empregadas para a multiclasse no uso de discriminantes lineares, um-contra-um (one-against-one ) e um69
Tabela 6.3: Tabela contendo os agrupamentos usados para a base de dados RWC.
Tabela 6.4: Agrupamento usado combinando as 3 bases de dados.
70
contra-todos (one-against-all ). Cada uma delas apresenta particularidades e podemos dizer que uma segue uma losoa hierarquizada e a outra uma losoa direta,
portanto no-hierarquizada.
1. Um-contra-todos: nesse caso (representado pela Figura 6.1) o procedimento
de generalizao do problema de discriminao de 2 classes para o problema
de discriminao multiclasse resolvido atravs de um processo de deciso
em cadeia, como uma rvore binria, onde cada n representa a deciso de
separar uma classe especca contra o restante. Caso a deciso seja a favor da
classe especca, a amostra em teste classicada como sendo desta classe, e o
processo decisrio de classicao para aquela amostra se encerra. No entanto,
caso a deciso seja contrria classe especca, o processo decisrio prossegue
e outra classe especca testada contra o restante, excluindo-se para esse
conjunto (dito restante) todas as classes especcas que o processo de deciso
j testou. Nesse contexto, a raiz representa todos os instrumentos, e as folhas
representam as classes nais a serem identicadas, ou instrumentos caso venhase querer identicar ao nvel de instrumentos. Os ns representam as decises
entre uma classe nal e o conjunto restante.
Esta abordagem apresenta o
inconveniente de acumular o erro ocorrido na deciso do n predecessor.
2. Um-contra-um: nesse caso, a generalizao obtida por meio de

nantes, onde
discrimi-
representa todas as duplas possveis, a partir do total de classes
que esto sendo avaliadas (vide Figura 6.2). A amostra testada em todos os
discriminantes, e posteriormente contabilizada a classe que foi mais vo-
tada para aquela amostra. A amostra classicada como sendo a classe que
recebeu mais votos. Portanto, nesse caso procura-se identicar diretamente todas as classes de instrumentos (folhas). Nesse contexto, dada uma amostra ela
ser identicada como correspondente classe que apresentar a maior probabilidade. Normalmente essa abordagem costuma apresentar uma taxa mdia
de acerto global maior que a abordagem anterior, conforme podemos constatar
no trabalho de Eronem [46]. Uma das justicativas para que isso ocorra que,
ao utilizarmos a abordagem anterior, caso existam instrumentos com taxas de
acerto baixas, estes iro contaminar a soluo obtida para o treinamento de
suas respectivas famlias (n pai), fazendo com que o nmero de instrumentos
71
Figura 6.1: rvore binria - representao um-contra-todos.
que venham a ser classicados para outra famlia (n irmo) aumente, e assim
o erro se propague. A princpio, a desvantagem do mtodo sem hierarquizao
a maior dimensionalidade que se exigir no vetor de caractersticas para que
todas as particularidades de todos instrumentos sejam igualmente apreciadas,
aumentando assim a complexidade computacional e dicultando a obteno
da soluo do classicador na fase de treinamento.
6.3 Estratgias
Nesta seo iremos abordar trs estratgias para o sistema de reconhecimento
automtico com o intuito de se obter as classes pretendidas, ou seja: modelo padro,
modelo hierrquico e um modelo de reagrupamento. Cada uma das formas apresentadas nesta seo apresenta singularidades; no h nessa dissertao a pretenso de
se fazer uma anlise aprofundada de cada uma dessas formas a m de se determinar
qual delas a melhor na maioria dos casos. No entanto, para algumas situaes especcas, uma determinada estratgia poder ter uma desempenho superior (taxa de
72
Figura 6.2: rvore contendo as classes de interesse - representao um-contra-um.
acerto global) em relao s demais. Esse resultado vlido para um dado conjunto
de treinamento e teste, e limitado a um nmero nito de classicadores e formas de
codicao investigadas.
Em alguns casos, a taxa de acerto global pode ser afetada por suas amostras
ao menos por 2 motivos:
problemas de contaminao:
ocasionados por existirem algumas amos-
tras mal-posicionadas no espao de caractersticas, ou seja, a amostra que se

pretende classicar pertence a uma classe distinta da classe majoritria das
amostras da sua vizinhana.
Este problema pode ocorrer por medidas mal
efetuadas na formao da base de dados.
problemas de confuso:
ocasionados por classes mal separveis no espao
de caractersticas, ou seja, na vizinhana da amostra a ser classicada existem

amostras tanto de sua classe quanto de outras classes em propores equivalentes.
Esse problema, na maioria dos casos nesse trabalho, ocorre com
instrumentos de uma mesma famlia.
73
6.3.1 Estratgia 1 - Modelo Padro

A primeira estratgia, ilustrada na Figura 6.3 e conhecida como modelo padro, uma abordagem direta e amplamente utilizada em diversos trabalhos de
reconhecimento automtico de padres, conforme pode-se encontrar nas referncias [2, 46] A estratgia 1 composta pelos seguintes mdulos:
Figura 6.3: Sistema padro de classicao.
1. Pr-processador;
2. Processador de Caractersticas;
3. Gerador de Classes;
4. Classicador de Instrumentos.
O classicador de Instrumentos pode usar qualquer uma das duas abordagens

multiclasse j citadas anteriormente.
6.3.2 Estratgia 2 - Modelo Hierrquico

Uma segunda estratgia (hierrquica), proposta nesta dissertao, difere da
primeira estratgia porque, ao invs de obter diretamente a taxa de acerto ao classicar as amostras em instrumentos musicais, utiliza uma abordagem indireta, ou
74
seja, obtm primeiro as classicaes para as famlias de instrumentos, para depois

obter as classicaes para os instrumentos (com um classicador especializado).
Essa estratgia tem sua arquitetura esboada na Figura 6.4 e est exemplicada na
Figura 6.5.
Figura 6.4: Estratgia 2.
A estratgia 2 apresenta 5 mdulos independentes:
1. Pr-processador;
4. Classicador de Famlias;
5. Classicadores Especializados de Instrumentos por Famlias.
Assim, uma caracterstica interessante desse mtodo que pode-se pensar

em aplicar mtodos de classicao distintos e/ou vetor de caractersticas distintos
para cada n (famlia, grupo, etc).
Igualmente, nessa abordagem, possvel construir esquemas onde parte das
amostras do instrumento cam num ramo e o restante das amostras ca em outro
ramo, sendo que ambos conjuntos de amostras pertenam ao mesmo instrumento.
Um exemplo disso se encontra em [46] em que os instrumentos com vibrato so
75
Figura 6.5: Agrupamento hierrquico de famlias de instrumentos musicais.
separados dos instrumentos sem vibrato, antes de se identicar o instrumento. Assim, em ambos os ramos aps essa separao aparecero amostras pertencendo ao
mesmo instrumento. Dessa forma, no necessrio que amostras que tenham caractersticas distintas quem agrupadas na mesma classe. Essa possibilidade permite
que se construa classes (famlias) articiais a partir de mtodos de clusterizao,
visando agrupar as amostras que possuam caractersticas comuns. Isso facilitar a
discriminao das classes alterando a taxa de acerto na classicao.
Muitas vezes existem vrias possibilidades de agrupar as amostras em famlias
disjuntas, cada qual formada por um conjunto distinto de instrumentos musicais, de
forma que existem diversas estruturas hierrquicas (rvores) cujas folhas consistem
nos instrumentos que sero classicados.
A escolha da melhor rvore (estrutura
hierrquica) a ser usada pode fazer parte do problema do modelo hierrquico, uma
vez que se pode agrupar os instrumentos em famlias (ns) de diversas maneiras.
Pelos motivos enumerados acima, essa abordagem pode obter excelentes taxas
de acerto, podendo superar o modelo padro que utiliza uma abordagem direta nohierarquizada, desde que se permita nesse modelo exibilizar o classicador e o vetor
76
de caractersticas empregado em cada n.
6.3.3 Estratgia 3 - Modelo de Reagrupamento - Nvel Alm

Uma terceira estratgia (mtodo 3), mais simples, consiste em classicar pelo
mtodo 1 as amostras em grupos formados em um nvel alm do nvel de interesse
(aqui denominado como subtipos de instrumentos), para depois reagrup-los ao nvel
de interesse (instrumentos), conforme pode ser visto na Figura 6.6. Essa abordagem exige que as classes no nvel de interesse possam ser subdivididas em classes
mais atomizadas , o que normalmente possvel, bastando que existam amostras

sucientes para isso.
Figura 6.6: Estratgia 3.
A estratgia 3 apresenta os seguintes mdulos:
1. Pr-processador;
4. Classicador de Subtipos de Instrumentos;
5. Reagrupador em Instrumentos.
1 Pode se pensar em usar para cada classe um clusterizador, de forma que cada classe ser
atomizada em subclasses.
77
O reagrupamento em famlia difere de um treinamento direto para classicar

as famlias, porque os hiperplanos separadores das famlias idealmente sero solues
timas para o espao das caractersticas, o que o reagrupamento no necessariamente
ir seguir.
Assim, uma transformao do espao de entrada para o espao das
caractersticas que no permita uma soluo (com o uso de um hiperplano separador)

capaz de obter uma separao de 100% das amostras das classes distintas (na fase
de treinamento), pode em tese, com o uso do reagrupamento, obter uma curva de
separao (formada por vrios hiperplanos) capaz de distinguir 100% das amostras
das classes distintas oferecidas na fase de treinamento, conforme pode-se observar
na Figura 6.7.
Figura 6.7: Diferena entre a classicao direta e com reagrupamento com uso de
hiperplanos separadores.
Na Figura 6.7, a classe 1 formada pelas subclasses mais e asterisco,

enquanto que a classe 2 formada pelas subclasses crculo e quadrado.
O hi-
perplano separador da subclasse asterisco da subclasse quadrado representado

pela reta A-Q, enquanto que o hiperplano separador da subclasse mais da subclasse
crculo e o hiperplano separador da subclasse mais da subclasse quadrado so
representados respectivamente pelas retas M-C e M-Q. O hiperplano separador da
subclasse asterisco da subclasse crculo no se encontra representado na Figura
6.7 porque o hiperplano representado pela reta A-Q satisfaz esta separao.
Pode-se observar na Figura 6.7 que no existe uma reta capaz de separar
totalmente as amostras da classe 1 da classe 2. A reta 1-2 representa um hiperplano
separador (timo) da classe 1 da classe 2 com erro mnimo.
78
No entanto, a curva
obtida pelo reagrupamento dos hiperplanos separadores obtidos para as subclasses,

representado pela curva R, capaz de separar 100% das amostras. Evidentemente
o reagrupamento nem sempre representa uma soluo melhor; o que poder indicar
qual separao melhor nesse espao de caractersticas ser o erro obtido para as
amostras teste nas regies divergentes . Assim, nesse exemplo, apesar da curva de
separao obtida pelo reagrupamento dos hiperplanos separadores para as subclasses
ser capaz de conseguir distinguir 100% das amostras das classes 1 e 2, no representa
necessariamente uma separao melhor. Para que isso ocorra, basta existirem mais
amostras teste da classe 2 do que da classe 1 nas regies divergentes (cinzas).
Os erros de contaminao e confuso, nesse caso, se do nas amostras dos
subtipos de instrumentos (nvel alm), afetando a classicao nesse nvel.
Nesse
caso, o erro de classicao pode ser carregado para o nvel acima (o nvel de interesse, instrumento), mesmo aps o reagrupamento, caso o erro se d entre subtipos
de instrumentos que pertenam a instrumentos diferentes. Portanto, esses erros s
sero evitados caso as amostras pertenam ao mesmo instrumento. Caso os erros
ocorram entre amostras que pertenam a instrumentos distintos, pode-se pensar em
redenir os instrumentos, de forma que as amostras de subtipos de instrumentos
distintos (em que ocorrem os erros) venham a pertencer ao mesmo grupo (instrumento), o que em princpio pode no ser sempre possvel, face existncia de uma
pr-denio das classes que se pretende classicar (instrumentos) ou o nvel de
confuso e contaminao que o conjunto de dados apresenta.
Assim, os erros causados entre subtipos de instrumentos distintos so eliminados quando reagrupamos os respectivos subtipos num mesmo grupo (instrumento).
Da mesma forma podemos generalizar essa tcnica a nvel de instrumentos, com restries, e determinar que um agrupamento hierrquico adequado pode maximizar a
taxa de acerto global no nvel acima (famlia), abrindo possibilidades de denirmos
formas mais adequadas de agrupamentos de instrumentos visando a maximizao
da taxa de acerto (famlias), e no por convenes denidas pelas caractersticas
dos instrumentos ou por modelos fsicos de produo do som, conforme vimos no
Captulo 2.
Assim, essa abordagem na prtica pode ter um melhor desempenho global
2 Representada na Figura 6.7 pelas regies preenchidas de cinza.
79
caso o algoritmo de posicionamento dos hiperplanos separadores (para os subtipos

de instrumentos) venha a obter um posicionamento melhor para os hiperplanos sepa-
radores , quando comparado com o posicionamento obtido nas demais abordagens.

Um dos fatores para que isso venha a ocorrer uma parada antecipada forada pelo
algoritmo de posicionamento dos hiperplanos em funo de uma convergncia lenta
ou outra condio satisfeita pelo critrio de parada, gerando assim, uma soluo
ruim quando comparada quela obtida sem essa antecipao.
Assim, os mtodos 1, 2 e 3 no so equivalentes entre si, e eventualmente
cada qual pode obter um desempenho global melhor que os demais, dependendo
dos classicadores empregados, de como ocorre a distribuio das amostras nos
espao das caractersticas e do mapeamento do espao de entrada para o espao das
caractersticas utilizado.
3 Principalmente se o posicionamento do hiperplano for melhor para os instrumentos contendo

mais amostras, supondo uma medida para a taxa de acerto global ponderada.
80
Parte III
Resultados
81
Captulo 7
Construo de um Procedimento de
Reconhecimento Automtico
Este captulo descreve a metodologia de busca utilizada para obter as solues, a formao dos conjuntos de teste e treinamento, a avaliao do modelo
multiclasse, a anlise do desempenho da envoltria comparado ao da potncia instantnea, a anlise do segmento a ser utilizado, a obteno do vetor de caractersticas, a avaliao dos classicadores e a obteno de um mtodo de reconhecimento
automtico para um dado agrupamento musical .

Nesse trabalho o mtodo de reconhecimento automtico para um dado agrupamento dentro de uma dada base de dados representa uma descrio dos elementos
que compem o vetor de caractersticas, combinados a um classicador limitado a
um subconjunto de possibilidades pesquisadas. Assim, o conjunto descritor [vetor
de caractersticas, classicador]
para um dado agrupamento ser indistintamente
chamado de soluo.
7.1 Metodologia de Busca para obter as Solues

Devido ao fato da anlise ser extremamente complexa admitindo uma mirade
de combinaes, de bom tom que avaliemos o custo computacional para pesquisar
1 Podendo ser o prprio instrumento.

2 Inseridos nesse contexto: as transformaes sobre o sinal, sobre o vetor de caractersticas e
sobre o classicador.
82
minimamente as principais combinaes possveis frente ao leque de possibilidades
que essa dissertao apresenta na busca da soluo tima . Tal clculo pode ser feito
de maneira aproximada da seguinte forma: temos basicamente 2 formatos (envoltria
da potncia instantnea ou a potncia instantnea), 4 codicadores a serem testados,
4 momentos, 5 segmentos intermedirios do modelo IMF
+ ataque + subida ,
4 quantidades de coecientes (8, 16, 24, 32), presena ou no de caractersticas

temporais, presena ou no de descritores de udio, 3 classicadores, 3 tipos de
agrupamentos e 3 bases de dados, perfazendo um total de
2 3 3 3 = 96768
244742
possibilidades. Levando em conta que cada classicao em
MATLAB leva aproximadamente 5,7 minutos
(DLG e SVM > 8 minutos,
1 minuto) teremos 774.144 minutos, ou, 551577,6/1440 dias
K -NN <
383 dias de simulao
ininterrupta, ou seja, mais que 1 ano, e sem levar em considerao as variaes sobre
o kernel, mtricas e transformaes do espao de entrada, o tempo de codicao dos
dados e o pr-processamento. Assim, sero adotados alguns critrios para reduzir o
espao de solues visando garantir uma maior viabilidade na busca das melhores
solues.
Neste captulo sero apresentados indicativos para uma dada soluo como
a taxa de acerto global, que representa o nmero de acertos divididos pelo nmero
de amostras testadas, e a taxa de acerto mdia, que representa a mdia das taxas
de acertos entre cada classe testada (como se as classes tivessem sido testadas com
o mesmo nmero de amostras), ou seja, nesse caso cada classe entra com igual peso
no clculo da taxa de acerto mdia. Arbitrariamente se adotar o seguinte critrio:
a taxa de acerto global (mais usual) ser preferida, enquanto que a taxa de acerto
mdia vir como critrio de desempate, uma vez que no se pretende avaliar todas
as possveis combinaes para os agrupamentos com maior nmero de classes.
Assim, o procedimento ser feito atravs de uma heurstica, e seguir uma
sequncia de etapas para a obteno das solues, de forma que a deciso obtida
3 Numa busca exaustiva, ou seja, para um espao de solues discreto.

4 Variando-se os limiares.
5 Os segmentos contendo a parte nal da nota foram retirados desse estudo, devido ao fato de
alguns testes preliminares com esse segmento no apresentaram bons resultados.
6 Foi usado um processador DUAL CORE 3,0 Ghz com 1Gb de memria RAM.
83
em cada etapa tender a reduzir o nmero de possibilidades a serem investigadas

na etapa posterior.
Certamente esse procedimento excluir vrias combinaes,
seguindo aproximadamente um algoritmo guloso, baseado nos indicativos da taxa

de acerto global e da taxa de acerto mdia obtidas para o agrupamento MFPC
(Metais, Flautas, Palhetas e Cordas).
Portanto, no se espera que as melhores solues encontradas para cada agrupamento pesquisado, sejam as solues timas nos espaos de solues pesquisados.
No entanto, algumas (ou qui todas as solues sub-timas encontradas) podem
eventualmente ser as solues timas para seus respectivos espaos de solues.
Num primeiro momento, cada uma das bases de dados descritas sumariamente no apndice A sero tratadas de forma independente, ou seja, cada qual ter
um conjunto de instrumentos diferentes, mas contendo um conjunto menor de instrumentos comuns (aos pares). Esse conjunto menor de instrumentos comuns ser
usado no nal, com o emprego de todas as bases de dados, para avaliarmos melhor
a capacidade de generalizao do mtodo obtido.
Nas avaliaes das primeiras etapas as estimativas sero obtidas a partir de
conguraes bsicas. Essas conguraes bsicas sero denominadas sistemas de
referncia .
1. sistema de referncia A - Composto por um vetor de caractersticas contendo

24 coecientes LSF mais o desvio do segmento, conforme resultados obtidos em
[33], extrados do segmento associado intermedirio proposto pelo modelo IMF
com limiares de 10% e 90%, descritos no Captulo 3. Foi usado um classicador
1-NN com uma mtrica de distncia euclideana, associada estratgia denida
pelo modelo padro, com uma distribuio dos dados de 10% das amostras para
teste e 90% das amostras para treinamento;
2. sistema de referncia B - Igual ao sistema de referncia A, exceto pelo classi-
cador usado (SVM
com um kernel gaussiano de desvio padro igual 1).
7 Essa congurao bsica no to trivial, mas foi decorrente de um estudo anterior presente
em [33]. Assim, a taxa de acerto alta inicialmente se deve presena dos codicadores.
8 Para todos os casos que esse classicador (SVM) foi usado nessa dissertao a constante C
presente na Equao 5.25 assumiu o valor innito.
84
Nas etapas iniciais iremos denir qual das 3 bases de dados ser empregada
nas anlises que determinaro a melhor soluo. As demais bases de dados sero
novamente utilizadas somente na avaliao da taxa de acerto de seus respectivos
agrupamentos (aps a obteno de um conjunto de solues mais provveis) e ao
nal, na avaliao da capacidade de generalizao do mtodo, quando ento misturaremos as bases de dados.
Devido ao fato de estarmos usando nas anlises um dos sistemas anteriormente denidos, importa ressaltar que sempre teremos resultados parcialmente verdadeiros, embora esses resultados sejam usados como a melhor escolha no tocante
reduo do espao de solues, o que no impede que esses resultados obtidos possam vir a ser verdadeiros para alm do escopo no qual eles se mostraram verdadeiros
(conforme as simulaes realizadas).
7.2 Formao dos Conjuntos de Teste e Treinamento

Salvo informao expressamente contrria, todas as simulaes usaro 10%
das amostras de cada banco de dados para teste e 90% das amostras para treinamento. Foram usados 2 classicadores usualmente empregados em diversos trabalhos
na rea (K -NN e SVM), os quais tambm serviro de controle para a taxa de acerto
obtida para a implementao elaborada nessa dissertao em DLG. Assim, pode-se
avaliar se os percentuais obtidos por esse classicador (DLG) esto prximos ou no
dos percentuais atingidos pelos outros classicadores.
Todas as amostras foram organizadas a partir do seguinte procedimento: os
instrumentos foram subdivididos nas suas respectivas variaes (pizzicato, vibrato,
tremolo, staccato, etc...), inclusive para as suas variaes no nvel dinmico (Forte,
Mezzo e Piano ). A partir de cada agrupamento resultante das subdivises anteriores,
as notas foram ordenadas segundo a tessitura do instrumento (em ordem crescente
de pitch ).
Para teste foram sorteadas amostras na regio central da tessitura de cada
instrumento, de forma que os 10% iniciais e os 10% nais da tessitura foram excludos, restando, portanto, 80% da regio central. Dessa regio central sortearam-se
85
para cada subdiviso 10% das amostras para formarem o conjunto de teste .
As
amostras restantes foram usadas para treinamento. Tal critrio foi adotado tendo
em vista que a regio central da tessitura de cada instrumento a regio para a qual
o instrumento musical foi melhor projetado, e portanto onde se espera encontrar
seu maior uso. Assim, avaliar o desempenho com amostras sorteadas dessa regio
central representa avaliarmos o desempenho do classicador onde se espera ocorrer
uma maior frequncia das notas numa distribuio real.
7.3 Avaliao do Modelo Multiclasse

Nesta seo faremos uma breve simulao usando o sistema de referncia B
para avaliar qual modelo multiclasse que ser empregado no resto desta dissertao
10
Certamente o resultado obtido por algumas simulaes aqui apresentadas no

permite que se arme categoricamente qual mtodo o melhor, e em que circunstncias isso ocorre.
No entanto, pretende-se conseguir um indicativo do modelo
multiclasse que mais adequado ao problema proposto nessa dissertao.

As avaliaes feitas nessa seo contemplaro somente o agrupamento MFPC.
Na Tabela 7.1 apresentamos os resultados obtidos para cada um dos mtodos multiclasse descritos na Seo 6.2, considerando todas as bases de dados.
Tabela 7.1: Tabela contendo os resultados das abordagens multiclasse nas 3 bases
de dados usando o sistema de referncia B.
Conforme pode-se observar, o modelo multiclasse um-contra-um obteve re-
9 Foram feitos 3 sorteios para cada base de dados, e optou-se por aquele conjunto de amostras
que apresentou uma taxa de acerto intermediria a partir do sistema de referncia A. A maior
variao obtida foi em torno de 3%.
10 No faz sentido fazer uma avaliao do modelo multiclasse para o classicador

foi usado o classicador SVM.
86
K -NN, por isso
sultados superiores para todas as bases de dados quando comparado ao desempenho
11
do modelo um-contra-todos
. Assim, face aos resultados vericados, o modelo um-
contra-um ser adotado no restante dessa dissertao.
7.4 Anlise do Desempenho da Envoltria versus

Potncia Instantnea
Nas avaliaes feitas nessa seo foi usado o sistema de referncia A associado
ao classicador 1-NN para o codicador LSF, para as classes MFPC, MFPPC, SC
e SPC, a depender das possibilidades em cada banco de dados.
Num primeiro momento, sero extrados trechos do sinal a partir de sua
envoltria pelo mtodo da mdia e pelo algoritmo detector de envoltria, assim
como diretamente da potncia instantnea do sinal.
Sero avaliados 3 formatos:
a potncia instantnea (Pi ), a envoltria da
potncia instantnea pelo algoritmo detector de envoltria (Epi ), e a envoltria

obtida pelo algoritmo da mdia RMS (Eprmsi ), para cada uma das classes associada
a cada base de dados.
Na Tabela 7.2 apresentamos as taxas de acerto para o banco de dados MIS em
alguns agrupamentos num sistema de reconhecimento automtico de instrumentos
musicais.
Tabela 7.2: Tabelas da base de dados MIS representando agrupamentos hierrquicos

versus formato do sinal.
11 Na implementao realizada para o modelo um-contra-todos vericou-se primeiro qual o desempenho de cada classe contra o restante; posteriormente ordenou-se esses resultados formando
a deciso hierrquica na rvore binria.
87
Nas Tabelas 7.3 e 7.4 apresentamos as taxas de acerto para os bancos de dados
MUMS e RWC em alguns agrupamentos hierrquicos usando o mesmo sistema de
reconhecimento automtico empregado nas simulaes que constam na Tabela 7.2.
Tabela 7.3: Tabelas da base de dados MUMS representando agrupamentos hierrquicos versus formato do sinal.
Tabela 7.4: Tabelas da base de dados RWC representando agrupamentos hierrquicos versus formato do sinal.
Ao analisarmos as Tabelas 7.2, 7.3 e 7.4 podemos concluir, caso se queira

usar a codicao LSF, que a potncia instantnea obteve taxas de acerto muito
superiores s das envoltrias, seja pelo mtodo DEAM, seja pelo mtodo da Mdia
(RMS). Isto foi verdade para todos os agrupamentos e para todas as bases de dados testados. Assim, para o restante da dissertao no se avaliar o formato das
88
12
envoltrias para se obter as caractersticas via codicadores
13
Pode-se inferir uma possvel explicao para esse comportamento

oriundo da suavizao da curva ao obtermos a envoltria do sinal.
, como
Dessa forma,
perdemos informao til para a codicao. Corroborando este raciocnio, temos

que, quanto maior for a suavizao, maior ser a perda. E para constatar tal armao basta vericar nas Tabelas 7.2, 7.3 e 7.4, onde o mtodo da mdia obteve
taxas de acertos inferiores ao mtodo DEAM, da mesma forma o DEAM obteve
um desempenho inferior em relao ao mtodo da potncia instantnea, em todos
os agrupamentos e para todas as bases de dados. Uma outra observao que pode
ser feita que as taxas obtidas para o formato potncia instantnea nas 3 bases
de dados variou menos de 4% para o agrupamento MFPC, indicando que o mtodo
usado possui capacidade de generalizao para essas bases de dados.
A partir desta seo iremos privilegiar a base de dados MIS, porque ela apresentou a menor taxa de acerto para a classe MFPC. Assim, espera-se que uma
congurao que angarie uma melhoria na sua taxa de acerto para um dado agrupamento implique tambm em melhorias nas demais bases de dados no agrupamento
correspondente.
Tambm iremos privilegiar o agrupamento MFPC, a m de evitarmos uma
14
exploso combinatorial de possibilidades
quando usarmos os classicadores DLG
ou SVM. Ao nal, para as solues que apresentarem melhores resultados, avaliaremos os demais agrupamentos em suas diversas bases de dados.
12 Esse resultado foi tambm vericado para os codicadores LPC e MFCC em todos os conjuntos
de amostras testados.
13 Esse comportamento teve sua comprovao parcial feita no classicador 1-NN.

14 Uma vez que a classe MFPC possui somente 4 classes, o nmero de mquinas classicadoras a
serem executadas ca reduzido. Para cada vetor de caractersticas uma soluo multiclasse (umcontra-um) contendo
classes atravs de hiperplanos separadores usa
obter a soluo.
89
nn1
classicadores para
2
7.5 Anlise dos Segmentos

A ideia por trs da anlise dos segmentos determinar se existe algum seg-
15
mento privilegiado
, ou seja, que concentra mais informao com capacidade de
discriminao para as famlias de instrumentos musicais ou para os prprios instrumentos musicais.
Se a resposta for positiva, iremos nos concentrar em extrair as
caractersticas das notas concentradas somente nesse(s) segmento(s) privilegiado(s),

ao invs de tentarmos extrair caractersticas sobre toda a nota. Os segmentos pesquisados sero o ataque, a subida e o segmento estacionrio (intermedirio) obtido
pelo modelo IMF. O segmento estacionrio do modelo ADSR, ou seja, o segmento
de sustentao, foi posto de lado nessas avaliaes pelo fato de este segmento no
estar presente em todas as notas, para todos os instrumentos. Para essas simulaes
usaremos o sistema de referncia A
16
Na Tabela 7.5 apresentamos os resultados obtidos para o segmento intermedirio do modelo IMF usando o sistema de reconhecimento automtico de instrumentos musicais descrito na seo anterior para a base de dados MIS. Variou-se o
limiar superior para os valores 10%, 30%, 50%, 70% e 90% na expectativa de encontramos o limiar que dene o segmento mais signicativo para a discriminao
das classes. Avaliaram-se os codicadores LSF, MFCC e LPC, para vericar uma
possvel persistncia na escolha do limiar.
Tabela 7.5: Tabela para a base de dados MIS contendo a taxa de acerto para o
segmento intermedirio para o modelo IMF.
A Tabela 7.6 apresenta as mesmas simulaes para a base de dados RWC.

Conforme se pode observar ao vericarmos os percentuais obtidos para cada
15 Esse privilgio logicamente funo da forma de extrao de caractersticas e do classicador

empregado.
16 Dessa forma, o resultado dessa seo foi avaliado somente para o classicador 1-NN.
90
Tabela 7.6: Tabela para a base de dados RWC contendo a taxa de acerto para o
segmento intermedirio para o modelo IMF.
codicador, no existe um segmento que se destaque, cando as taxas de acerto

sempre na mesma ordem de grandeza, independentemente do tamanho do segmento
intermedirio. No entanto, esse resultado signicativo, uma vez que o segmento
intermedirio com limiar de 90% menor que o segmento que seria obtido caso o
limiar fosse 10%. Portanto, prefervel codicar um segmento menor, obtendo taxas
de acerto equivalentes. Assim, visando reduzir o nmero de possibilidades a serem
investigadas, iremos daqui em diante sempre adotar o limiar de 90% como o limiar
superior para o modelo IMF.
Alm dos segmentos de ataque e de subida foi avaliado o segmento que representa os primeiros 23,2 ms
17
. Na Tabela 7.7 apresentamos os resultados obtidos na
base de dados MIS para os segmentos de ataque (modelo ADSR), subida (modelo
18
IMF)
e no segmento que representa os 23,2 ms iniciais.
Tabela 7.7: Tabela para a base de dados MIS contendo a taxa de acerto nos segmentos iniciais.
17 Para todas as notas considerou-se o limiar de 10% para a deteco da nota.

18 Nos instrumentos em que os segmentos de ataque e subida apresentaram menos que 1024
amostras, o segmento foi redimensionado para ter 1024 amostras, que corresponde 23,2 ms.
91
O mesmo procedimento feito para montar a Tabela 7.7 foi feito para a base
de dados RWC apresentado na Tabela 7.8.
Tabela 7.8:
Tabela para a base de dados RWC contendo a taxa de acerto nos
segmentos iniciais.
Conforme se pode observar, o uso da DCT no segmento de ataque piorou a

taxa de acerto. O mesmo foi verdade para os codicadores LSF e MFCC. No entanto,
para o codicador LPC, o uso da DCT foi praticamente indiferente, apresentando
uma pequena melhora. Para os segmentos iniciais, os segmentos de ataque sem o
uso da DCT foram os que apresentaram os melhores resultados, caso combinados
com o codicador LSF ou MFCC. No entanto, at mesmo esses segmentos obtiveram
taxa de acerto inferior dos segmentos intermedirios quando codicados pelos seus
respectivos codicadores em suas respectivas bases de dados. De outra forma, o pior
resultado obtido pelos segmentos intermedirios foi melhor que o melhor resultado
obtido pelos segmentos iniciais, obviamente respeitando o codicador e o banco de
dados.
Portanto, nessa dissertao iremos, a partir desse ponto, trabalhar somente
com o segmento intermedirio proposto pelo modelo IMF. No entanto, os resultados
do segmento de ataque (Modelo ADSR) para o codicador MFCC foram signicati-
19
vos
, embora inferiores aos resultados obtidos no segmento intermedirio. Por esse
20
motivo esse trecho (ataque) foi colocado de lado
19 Os resultados desse trecho para o codicador LSF foram considerados razoveis quando comparados aos resultados obtidos no segmento intermedirio ou no segmento de ataque.
20 A ideia somente codicar um trecho que contenha capacidade de discriminar os instrumentos

musicais.
92
7.6 Obteno do Vetor de Caractersticas

Nesta seo sero avaliados os codicadores, os elementos estatsticos, perceptuais, e temporais a partir da potncia instantnea do sinal.
Os codicadores
avaliados so o LSF, LPC, MFCC e CEPSTRUM, sendo que o nmero de coecientes

desses codicadores sero 8, 16, 24 e 32, obtidos a partir do segmento previamente
escolhido da amostra na seo anterior, o qual j sofreu o escalonamento dinmico.
Um fator que se deve destacar que o codicador LSF representado pelos
ngulos dos nmeros complexos que representam as razes dos polinmios
Q(z)
P (z)
vistos nas Equaes (4.9), (4.10) na Seo 4.4, portanto de natureza diversa
dos coecientes MFCC e LPC. Se por acaso estabelecermos que usaremos 16 ngulos
LSFs, devemos levar em conta que toda soluo complexa um par conjugado, e
sabendo que um par conjugado possui o mesmo ngulo (a menos do sinal), devemos
ento trabalhar com o dobro de solues (32) para obtermos os 16 ngulos pretendidos. Logo, a ordem do polinmio para obtermos as solues LSFs o dobro da
ordem dos polinmios para obtermos as solues LPC e MFCC. Assim, comparaes
diretas entre a taxa de acerto obtida com uma soluo usando LSFs e outra usando
LPC ou MFCC (xado o nmero de coecientes) sero feitas nessa dissertao, apesar dessa diferena no grau do polinmio. Caso se queira compensar essa diferena,
devemos avaliar as solues com 32 coecientes LPCs e MFCCs contra a soluo
contendo 16 coecientes LSFs.
Nesta seo tambm sero avaliadas as caractersticas estatsticas de ordens
2, 3 e 4 do trecho da amostra, os descritores especcos de udio tais como ZCR,
RMS, SC, ux, BW, e as caractersticas temporais obtidas a partir da envoltria da
potncia instantnea do sinal, tais como largura do pulso, tempo de subida, tempo
de descida, droop, etc.
A implementao do DLG empregada nessa dissertao utilizou dois outros
critrios de parada alm do erro a ser minimizado, um a partir do nmero mximo
de iteraes (6000) e outro que estima se variao do erro absoluto menor que um
nmero arbitrariamente pequeno.
Ambos os critrios acrescentados prejudicam a
otimizao almejada, o que justica em parte os resultados ligeiramente inferiores

que foram obtidos.
No entanto, tal procedimento evita problemas de regies de
convergncia lenta, ou problemas de otimizao sem soluo, que ocorreram com
93
relativa frequncia no caso da SVM.
7.6.1 Resultados dos Codicadores mais Desvio Padro do

Segmento
Uma vez denido o segmento (segmento intermedirio do modelo IMF) que
contm mais informao discriminante das famlias de instrumentos musicais (obtido
a partir do limiar de 90%), se far nessa seo uma anlise mais detalhada do nmero
mais adequado de coecientes associados aos codicadores e quais codicadores que
apresentam resultados mais signicativos para a abordagem empregada.
Inicialmente iremos avaliar se todos os codicadores apresentam taxas de
acerto similares. Caso algum que com taxas de acerto bem abaixo dos demais, este
ser descartado. Da mesma forma, se algum car com taxas de acerto muito acima
das taxas dos demais este ser ento preferido.
A partir dessa seo ir aparecer um outro indicativo, denominado Taxa de
Treinamento (Tx Treino), que avalia o desempenho do treinamento. Logo, para
os classicadores SVM e DLG, a soluo obtida pode no ser capaz de discriminar
100% das amostras que foram usadas no treinamento.
Essa informao indica se
a transformao no espao de caractersticas foi adequada ou se as amostras so

facilmente separveis. Na Tabela 7.9 apresentamos os resultados obtidos.
Tabela 7.9: Estatstica das taxas de acerto para todos os codicadores empregados
nessa dissertao com o classicador 1-NN.
94
Pode-se observar na Tabela 7.9 que as solues obtidas usando o codicador

CEPSTRUM obtiveram desempenho bem abaixo dos demais codicadores, num
patamar inferior a 69%. Portanto, o codicador CEPSTRUM no conseguiu obter
um vetor de caractersticas com capacidade discriminatria (nmero de coecientes
igual a 8, 16, 24 e 32) usando o segmento intermedirio do modelo IMF. Assim, se
descartar o uso desse codicador para a pesquisa da melhor soluo.
Podemos tambm observar que o codicador MFCC em mdia apresentou os
melhores resultados, seguido do codicador LSF e LPC, em ordem decrescente de
desempenho. Da mesma forma, optou-se por retirar das anlises a codicao com 8
coecientes, visto ter sido a que apresentou o pior desempenho para os codicadores
LPC, CEPSTRUM e MFCC, e apesar de no ter sido a pior para o codicador LSF
21
tambm no foi a que apresentou o melhor desempenho
A seguir foram avaliadas as solues para 16, 24 e 32 coecientes do mesmo

vetor de caractersticas para os classicadores SVM (kernel gaussiano) e DLG (transformao de potenciao de ordem 2) mostrados nas Tabelas 7.10 e 7.11
Tabela 7.10: Estatsticas com as taxas de acerto para o classicador SVM (kernel
gaussiano com desvio padro unitrio).
7.6.2 Resultados com as Caractersticas Temporais

Os descritores temporais usados foram os discutidos na Seo 4.1.
De todos os resultados apresentados nesta seo sero apresentados somente
22
aqueles que apresentaram os melhores desempenhos para cada codicador
, por-
21 Esses resultados, onde aparece um pior desempenho no uso de 8 coecientes, foram tambm
observados em outras simulaes envolvendo outros conjunto de amostras de teste.
22 No entanto, para todos os casos aqui constantes foram feitas simulaes que aparecem segundo
95
Tabela 7.11: Estatsticas com as taxas de acerto para o classicador DLG (transformao de potenciao de ordem 2).
que caso apresentssemos todos os resultados, apareceriam solues repetidas, de

desempenho bem similar.
A m de evitarmos problemas de discriminao da mtrica de distncia (1NN) e de problemas de convergncia com a SVM, foi feito um escalamento estatstico, usado somente para esses classicadores, ou seja, SVM e 1-NN, j que o
DLG no teve problemas com a ausncia do escalamento estatstico. Ao usarmos o
escalamento estatstico, surge um problema que a necessidade de determinar um
escalamento para as amostras teste. A soluo adotada foi escalar as amostras testes
com as mdias e desvios obtidos do conjunto de treinamento.
Nas Tabelas 7.12, 7.13, e 7.14 apresentamos os resultados para os classicadores DLG, 1-NN e SVM, respectivamente, acrescidos no seu vetor de caractersticas
das caractersticas temporais.
o formato apresentado na Tabela 7.9.
96
Tabela 7.12: Melhores resultados para o classicador DLG (Potenciao de ordem

2) com caractersticas temporais.
Tabela 7.13: Tabela com os melhores resultados para o classicador 1-NN (mtrica
euclideana) com caractersticas temporais.
Os resultados obtidos atravs do classicador 1-NN (mtrica euclideana, com

o acrscimo dos descritores temporais sem aplicar o escalamento estatstico), se mostraram indiferentes s variaes do nmero de coecientes e variao dos descritores estatsticos. Assim, a soluo obtida neste caso foi a seguinte: metais 40,00%,
palhetas 32,35%, autas 59,49% e cordas 78,10%, totalizando uma taxa de acerto
global de 61,29%.
Portanto, podemos vericar na Tabela 7.13 que o escalamento
estatstico apresentou bons resultados, melhorando o desempenho signicativamente

quando comparado aos resultados sem o escalamento estatstico. No entanto os classicadores SVM e 1-NN obtiveram uma taxa de acerto pior quando foi acrscido os
descritores temporais aos codicadores.
Tabela 7.14: Melhores resultados para o classicador SVM (kernel gaussiano) com
caractersticas temporais.
97
7.6.3 Resultados com os Descritores de udio

Nesta seo apresentaremos os resultados obtidos com o acrscimo dos descritores de udio que foram vistos na Seo 4.2. Igualmente a seo anterior os dados
das amostras de treinamento para os classicadores SVM e 1-NN foram escalonados
estatisticamente.
Nas Tabelas 7.15, 7.16, 7.17 apresentamos as taxas de acerto para os classicadores DLG, SVM e 1-NN respectivamente.
Tabela 7.15: Resultados obtidos pelo classicador DLG.
Tabela 7.16: Resultados obtidos pelo classicador SVM.
Tabela 7.17: Resultados obtidos pelo classicador 1-NN.
98
J o acrscimo dos descritores de udio provocou uma melhoria na taxa de

acerto para os classicadores 1-NN e DLG quando comparada aos resultados obtidos
para o vetor de caractersticas contendo somente os codicadores e os descritores
estatsticos (acrescidos ou no dos descritores temporais).
7.6.4 Resultados com Caractersticas Temporais e Descritores de udio

Nas Tabelas 7.18, 7.19, 7.20 apresentamos os quadros com todas as melhores
solues, incluindo os resultados com as caractersticas temporais e perceptuais para
os classicadores DLG, 1-NN e SVM respectivamente.
Tabela 7.18: Resultados obtidos pelo classicador DLG.
Tabela 7.19: Resultados obtidos pelo classicador 1-NN.
Tabela 7.20: Resultados obtidos pelo classicador SVM.
99
Conforme pode-se observar, os resultados obtidos apresentaram para o DLG

um acrscimo na taxa de acerto global, com o aumento do nmero de elementos no
vetor de caractersticas, sendo que o vizinho mais prximo apresentou o seu pice
com o acrscimo dos descritores de udio, assim como a SVM.
Porm pode-se observar que para a maioria dos casos a melhor soluo para
o codicador LSF 16 (exceto para o classicador DLG cuja melhor soluo foi com
32 coecientes), sendo tambm a melhor soluo para os codicadores MFCC e LPC
(ou seja, o mesmo nmero de coecientes).
Da mesma forma podemos dizer que a combinao para MFCC de 16 coecientes + desvio +
m3
foi unnime, o mesmo acontecendo para LPC. A nica
divergncia foi a presena ou no das caractersticas temporais, onde cada classicador apresentou um quadro diverso.
Pode-se vericar no quadro 7.21 uma sntese das melhores solues.
Tabela 7.21: Melhores solues para cada classicador/codicador.
100
7.6.5 Anlise da Correlao e Redundncia das Variveis de

Entrada
Nesta seo avaliaremos (via correlao) se as variveis de entrada apresentam algum grau de similaridade.
Caso isso seja verdade haver a necessidade de
avaliarmos a permanncia dessas variveis.

As variveis que sero avaliadas so as caractersticas temporais, os descritores especcos de udio, e os momentos.
Nas Tabelas 7.22, 7.23 e 7.24 que se seguem esto marcadas as correlaes
com mais de 40% de similaridade, sendo que as que obtiverem mais de 95% esto
marcadas em tom mais escuro.
Tabela 7.22: Tabela contendo a correlao das variveis para o banco de dados MIS.
Conforme pode-se observar nas Tabelas 7.22, 7.23 e 7.24 existem 3 correlaes com alta taxa de similaridade (superior a 95%) que so comuns a todas as bases
23
de dados, ou seja, RMS com std
, BW com SC, e
m3
com
m4 .
Simulaes feitas
retirando-se uma das variveis que apresentaram alto grau de correlao para SVM
e DLG levaram a pequenas variaes na taxa de acerto (entre 1% e 2,5%), reduzindo a taxa de acerto, o que indica que essas variveis, apesar de possurem entre
si um alto grau de correlao, esto contribuindo positivamente no desempenho dos
23 Essas medidas representam basicamente a mesma informao, uma apresenta o desvio polarizado e a outra o desvio no polarizado.
101
Tabela 7.23:
Tabela contendo a correlao das variveis para o banco de dados
MUMS.
Tabela 7.24:
Tabela contendo a correlao das variveis para o banco de dados
RWC.
classicadores empregados. Dessa forma, no se far o descorrelacionamento das variveis nessa dissertao, deixando tal procedimento para trabalhos futuros quando
se pretende avaliar tambm outros classicadores, como, por exemplo, redes neurais.
A seguir aplicou-se uma ferramenta de anlise de componentes principais
(PCA) para vericarmos se existem variveis linearmente dependentes das demais
102
variveis. Em outras palavras, vericamos se h redundncia suciente para a reduo da dimenso do espao de entrada. Na Tabela 7.25 apresentamos as primeiras
10 observaes da matriz dos dados (da base de dados MIS) contendo as observaes
(descritas em variveis temporais, descritores especcos de udio e momentos do
segmento avaliado) na representao do espao de componentes principais.
Caso
haja redundncia em alguma varivel, uma coluna aparecer zerada na matriz no

espao das componentes principais, indicando que essa varivel linearmente dependente.
Tabela 7.25: Tabela contendo as 10 primeiras observaes da Matriz de dados no

espao das componentes principais.
Portanto, vericamos a inexistncia de variveis linearmente dependentes das

demais no vetor de caractersticas, apesar de algumas delas apresentarem alta taxa
de correlao. Logo, no se far eliminao de nenhuma varivel de entrada, uma
vez que, no se vericou nenhuma redundncia de varivel (PCA), e a retirada das
variveis com alto grau de correlao apresentou um efeito danoso na taxa de acerto
global (entre 1% e 2,5% para os classicadores SVM e DLG).
7.7 Avaliao dos Classicadores

Nesta seo iremos avaliar o desempenho dos classicadores empregados nessa
dissertao variando-se o kernel para o classicador SVM, empregando um kernel
polinomial de ordem 2 ou 3. Tambm iremos variar a transformao no espao de
entrada usando potenciao de ordem 3 ou 4, e nalmente iremos variar a mtrica
de distncia do classicador
K -NN,
assim como o nmero de vizinhos mais prxi-
103
mos para 3 ou 5. Essas avaliaes sero feitas somente para as melhores solues
obtidas para cada codicador a cada classicador. Ao nal, cada classicador ter 4
possibilidades (3 com uso de codicadores e uma sem uso de codicador) de solues
otimizadas frente s variaes a serem feitas para cada classicador, perfazendo um
total de 12 candidatos.
Assim, seguindo o mtodo proposto visando reduzir o nmero de possibilidades a serem analisadas, apresentam-se as melhores solues obtidas para cada
classicador (Tabelas 7.26, 7.27, 7.28) em funo de algumas variaes investiga-
24
das
Tabela 7.26: Melhores solues obtidas para o classicador
K -NN.
Ao nal podemos agrupar as 12 melhores solues (conforme a Tabela 7.29),

que sero usadas para avaliar a capacidade de generalizao do mtodo e as taxas
de acerto nas demais bases de dados.
A partir dessa seo todas as matrizes de confuso que aparecero nessa
dissertao faro referncia ao nmero da soluo constante na primeira coluna da
Tabela 7.29.
24 As solues marcadas com * diferem do que apareceram inicialmente na Tabela 7.10 porque
para essas solues foi feito o escalonamento estatstico.
104
Tabela 7.27: Melhores solues obtidas para o classicador SVM.
Tabela 7.28: Melhores solues obtidas para o classicador DLG.
105
Tabela 7.29: As melhores solues obtidas para cada codicador em cada classicador.
106
Captulo 8
Avaliao da Taxa de Acerto
Este captulo contm a avaliao da taxa de acerto para o agrupamento
MFPC, a avaliao da taxa de acerto para o agrupamento INSTRUMENTO e a
estimativa da taxa de acerto do classicador proposto. Esta ltima tem por objetivo avaliar o desempenho do mtodo de reconhecimento automtico elaborado nos
captulos anteriores, usando amostras reservadas para teste pertencentes s 3 bases
de dados (MIS, MUMS e RWC).
As amostras da base de dados MUMS s aparecero na Seo 8.3, uma vez que
essa base de dados possui poucas amostras para alguns instrumentos. As amostras
da base de dados RWC sero usadas a partir da Seo 8.2.
Assim, apresentare-
mos alguns resultados obtidos inicialmente para as amostras da base de dados MIS,
variando-se os agrupamentos e as estratgias, depois contendo amostras da base de
dados RWC para o agrupamento instrumento, e nalmente contendo amostras da
base de dados MUMS, quando faremos uma estimativa da taxa de acerto do classicador proposto. Todas as solues usadas foram obtidas da Tabela 7.29 presentes
no captulo anterior.
8.1 Avaliao da Taxa de Acerto para o Agrupamento MFPC

Nesta seo iremos apresentar os resultados obtidos com amostras da base
de dados MIS usando o agrupamento MFPC, tanto para a estratgia padro quanto
para algumas estratgias alternativas que foram ilustradas no Captulo 6. No en-
107
tanto, essas estratgias alternativas aparecem nessa dissertao somente como uma
avaliao exploratria dessas estratgias (comprovando que apresentam taxas de
acertos globais diferentes para a mesma soluo com o mesmo agrupamento), j que
no se pretende avaliar para essas estratgias (alternativas) a taxa de acerto para
outros agrupamentos alm do agrupamento MFPC.
O estudo feito sobre o agrupamento MFPC a partir do segmento central do
modelo IMF, apresentado no captulo anterior, determinou quais eram as melhores solues.
Para se chegar s 12 melhores solues analisou-se 391 sistemas de
reconhecimento automtico, formados por 8 solues com variaes sobre o classicador DLG, 12 solues com variaes sobre o classicador SVM, 20 solues com
variaes sobre o classicador
K -NN,
27 solues sem codicador, e 324 solues
resultantes da combinao dos seguintes elementos: 3 estatsticas (m2 ,
m3
m4 ),
coecientes (LSF, MFCC e LPC), 3 quantidades de coecientes (16, 24, e 32), 3 classicadores (DLG, SVM e
K -NN)
e 4 padres de vetor de caracterstica ( somente
codicadores, codicadores e descritores temporais, codicadores e descritores de

udio, codicadores e descritores temporais e descritores de udio).
Com intuito de sintetizar os resultados apresentados por essa busca das melhores solues, apresentaremos somente duas tabelas contendo 351 solues correspondentes s 324 solues descritas anteriormente acrescidos das 27 solues sem o
uso dos codicadores.
Tabela 8.1: Taxa de acerto versus codicadores.
Conforme pode se observar na Tabela 8.1, todas as solues na faixa de

acerto superior a 90% usaram codicadores. E na faixa de acerto superior a 95%
esto somente solues com o uso dos codicadores LSF e MFCC. J na Tabela 8.2
todos os classicadores apresentaram solues em todas as faixas. Deve-se destacar
que, de modo geral, o classicador
K -NN teve um desempenho melhor que o DLG, o
108
Tabela 8.2: Taxa de acerto versus classicadores.
qual, por sua vez, foi ligeiramente melhor que a SVM. No entanto, se incluirmos as 40
solues que no constam nessas tabelas, o classicador SVM apresentou a soluo
com melhor desempenho. Portanto, apesar das amostras demonstrarem uma ligeira
preferncia para o classicador
K -NN, no houve uma superioridade clara entre um
classicador em relao aos demais.

As amostras usadas para se avaliar o desempenho nas matrizes de confuso
que sero apresentadas nessa seo foram as mesmas em todos os casos.
8.1.1 Resultados do Agrupamento MFPC na Estratgia 1

Nessa subseo ilustraremos alguns dos resultados obtidos. As solues 2, 6
e 10 apresentadas nas Tabelas 8.3, 8.4 e 8.5 representam, respectivamente, solues
obtidas de classicadores distintos, a saber:
K -NN,
SVM e DLG.
Tabela 8.3: Matriz de confuso para o agrupamento MFPC, usando a soluo 2.
109
8.1.2 Resultados do Agrupamento MFPC nas Estratgias 2

e3
Nesta subseo ilustraremos os resultados obtidos para algumas estratgias
alternativas. Deve-se ressaltar que as solues para a estratgia 1 e estratgia 3 so
as mesmas quando se usa o classicador
K -NN.
Assim, iremos avaliar a estratgia
3 somente para as solues 6 e 10, que foram ilustradas na Seo 8.1.1, as quais
utilizam os classicadores SVM e DLG, respectivamente.
Conforme se pode observar na matriz de confuso ilustrada pela Tabela 8.6,
a taxa de acerto obtida para essa estratgia foi superior taxa de acerto obtida
usando o modelo padro, conforme pode se ver na matriz de confuso apresentada
pela Tabela 8.5, comprovando o fato de que as estratgias podem obter desempenhos
distintos.
J a soluo 6 combinada com a estratgia 3 (conforme pode se ver na Tabela 8.7) apresentou um resultado ligeiramente inferior ao resultado obtido por essa
110
Tabela 8.6: Matriz de confuso para o agrupamento MFPC, usando a soluo 10

combinada com a estratgia 3.
soluo quando combinada com o modelo padro (estratgia 1).

obtida usando a estratgia 3.
Para a estratgia 2, a seguir ilustraremos para as mesmas amostras, uma

escolha combinando duas das trs solues aqui investigadas, para demonstrar a
potencialidade dessa abordagem.
Conforme pode-se observar, tanto para a estratgia 3 quanto para a estra-
tgia 1, o melhor desempenho foi para a soluo 6 combinada com a estratgia 1 ,

demonstrado pela sua taxa de acerto de 99,6%
No entanto, se combinarmos a
soluo 2 com a soluo 6 e usarmos a estratgia 2, possvel obtermos para esse

caso uma taxa de acerto de 100%
Primeiro iremos classicar as amostras cordas do total de amostras conforme
1 Isso tambm foi verdade para as as demais solues usando a estratgia 1, conforme se encontra
ilustrado na Tabela 7.29.
2 A taxa de acerto para a estratgia 3 foi de 99,2%, o mesmo valor foi obtido para a soluo 2.
111
a Tabela 8.8.

(cordas) combinada com a estratgia 2.
A seguir iremos classicar os metais das amostras restantes, ou seja, o total

de amostras menos as amostras j classicadas como cordas, conforme a Tabela 8.9.

(metais) combinada com a estratgia 2.
Finalmente iremos classicar as amostras autas e palhetas, conforme a Tabela 8.10.

(autas e palhetas) combinada com a estratgia 2.
Evidentemente que, devido ao fato da taxa de acerto ter sido alta para todas
as estratgias, podemos dizer que elas nesse caso se equivalem.
112
No entanto, foi
possvel constatar, para esse caso especco, pequenas variaes na taxa de acerto,
as quais constatam diferenas entre suas abordagens.
8.2 Avaliao da Taxa de Acerto para o Agrupamento INSTRUMENTO

Nesta seo iremos analisar algumas das melhores solues obtidas para o
agrupamento INSTRUMENTO para cada codicador, e avaliaremos a capacidade de
generalizao do mtodo ao vericarmos as taxas de acerto obtidas dessas mesmas
solues para a base de dados RWC, seguindo o mesmo modelo, como se fosse
independente.
Conforme se pode ver na Tabela 7.29, as taxas de acerto para o agrupamento
MFPC usando o classicador DLG foram ligeiramente inferiores s obtidas com o
classicador SVM e
K -NN.
Em igual vericao pode se constatar que as solues
com o acrscimo dos codicadores LSF e MFCC se mostraram superiores em relao

s demais. Portanto, s avaliaremos as solues que representam a interseco dessas constataes (solues 1, 2, 5 e 6) para o agrupamento INSTRUMENTO. Por
motivo de espao, para simplicar a apresentao dos resultados, s iremos ilustrar
as matrizes de confuso com a melhor e a pior taxa de acerto para essas solues.
A m de avaliarmos se a retirada das solues usando o classicador DLG
com o uso dos codicadores LSF e MFCC foi ruim (solues 9 e 10), apresentamos a
Tabela 8.11 contendo as solues 1, 2, 5, 6, 9 e 10 e suas respectivas taxas de acerto
para o agrupamento INSTRUMENTO, usando amostras da base de dados MIS. As
demais solues apresentaram para o agrupamento MFPC uma taxa de acerto ainda
pior, e portanto no foram avaliadas para o agrupamento INSTRUMENTO .

Novamente pode-se constatar que as solues para o agrupamento INSTRUMENTO usando o classicador DLG obtiveram as piores taxas de acerto.
J as
taxas de acerto obtidas para as solues 1, 2, 5 e 6 para amostras provenientes da

base de dados RWC podem ser vistas na Tabela 8.12:
A seguir ilustraremos 4 matrizes de confuso nas Tabelas 8.13, 8.14, 8.15 e
3 Esse corte contorna um procedimento guloso, portanto existe a possibilidade de uma dessas
solues apresentar resultados melhores.
113
Soluo #
Taxa de Acerto
soluo 1
95,6 %
soluo 2
94,8 %
soluo 5
94,8 %
soluo 6
96,4 %
soluo 9
92,7 %
soluo 10
94,0 %
Tabela 8.11: Tabela contendo as solues e suas taxas de acerto para o agrupamento
INSTRUMENTO a partir das da base de dados MIS.
Soluo #
Taxa de Acerto
soluo 1
86,8 %
soluo 2
94,1 %
soluo 5
95,4 %
soluo 6
89,8 %
Tabela 8.12: Tabela contendo as solues e suas taxas de acerto para o agrupamento
INSTRUMENTO a partir das da base de dados RWC.
8.16 do agrupamento INSTRUMENTO para as solues 6 e 2 para as amostras da

base de dados MIS e para as solues 5 e 1 para a base de dados RWC. Cabe novamente ressaltar que os instrumentos pertencentes ao agrupamento INSTRUMENTO
para base de dados RWC so ligeiramente diferentes dos instrumentos que compem
o agrupamento INSTRUMENTO para a base de dados MIS.
Uma vez que as matrizes de confuso, para as melhores solues, do agrupamento INSTRUMENTO, em cada uma das bases de dados, apresentam resultados
com erro disperso (conforme parcialmente se v nas Tabelas 8.13, 8.14, 8.16 e 8.15),
possvel denir um classicador formado por um banco de classicadores, onde
cada amostra classicada por
classicadores, sendo que a estimativa esta-
belecida pela classe mais votada nesses
classicadores.
A escolha de
preferencialmente, visando a maximizao da taxa de acerto .
se d,
No entanto, arbi-
4 O domnio da funo a ser maximizada nesse caso discreto. Por exemplo, caso se use um
espao simplicado composto por
N = {1, 3},
a partir das solues=
114
{1, 2, 5, 6},
devero ser
Tabela 8.13: Matriz de confuso para o agrupamento INSTRUMENTO, usando a

soluo 2.

soluo 6.
trariamente adotou-se um critrio mais simples para avaliar essa hiptese, ou seja,
deniu-se o mesmo
N =3
para as duas bases de dados, formado pelas 3 melhores
solues para cada uma das bases de dados . A seguir apresentamos os resultados
investigadas as seguintes possibilidades:
{1, 2, 5, 6, (1, 2, 5), (1, 2, 6), (1, 5, 6), (2, 5, 6)}.
5 Solues 1, 5 e 6 para base de dados MIS; solues 2, 4 e 5 para a base de dados RWC.
115

soluo 5.

soluo 1.
obtidos para as bases de dados MIS e RWC, respectivamente, presentes nas matrizes
de confuso das Tabelas 8.17 e 8.18:
Somente para ilustrarmos, as taxas de acerto obtidas para o agrupamento
116
Tabela 8.17: Matriz de confuso com o banco de classicadores 1, 5 e 6 - MIS.
Tabela 8.18: Matriz de confuso com o banco de classicadores 2,4 e 5 - RWC.
MFPC e MFPPC (base de dados RWC) usando os banco de classicador propostos

pelas 3 melhores solues para as bases de dados RWC e MIS, respectivamente, so
apresentadas nas matrizes de confuso das Tabelas 8.19, 8.20 e 8.21.
Assim, podemos constatar que para ambas bases de dados o banco de classicadores proporcionou um ganho na taxa de acerto para o agrupamento INSTRUMENTO, cando prxima em ambas, ou seja, em torno de 97%. Assim, passaremos
117
Tabela 8.19: Matriz de confuso com o banco de classicadores 1,5 e 6 - MIS.
Tabela 8.20: Matriz de confuso com o banco de classicadores 2,4 e 5 - RWC.
Tabela 8.21: Matriz de confuso com o banco de classicadores 2, 4 e 5 - RWC.
a partir desta seo a denir o classicador proposto como sendo formado por um
banco de classicadores composto pelas 4 melhores solues (1, 2, 5 e 6) obtidas para
o agrupamento MFPC, a m de possibilitar que a mesma soluo seja empregada independentemente da base de dados escolhida. Tal abordagem no foi encontrada na
literatura pesquisada nessa dissertao. Na Figura 8.1 apresentamos a arquitetura
do classicador proposto nessa dissertao, onde os processos em amarelo representam o pr-processamento, em branco representam a codicao (e obteno do vetor
de caractersticas) e em verde representam a classicao. As abreviaes E.D. e
118
Figura 8.1: Arquitetura do classicador proposto.
E.E. signicam escalamento dinmico e escalamento estatstico. J as abreviaes

D.A. e Pot. Inst. signicam respectivamente descritores especcos de udio e
potncia instantnea da nota. As letras A, B e C representam os trs vetores
de caractersticas extrados pelo classicador proposto, cujas dimenses so 22, 18
e 23 respectivamente. E nalmente, os nmeros 1, 2, 5 e 6 representam as predies
das classes provenientes das solues 1, 2, 5 e 6, respectivamente, conforme a Tabela
7.29
8.3 Estimativa da Taxa de Acerto do Classicador

Proposto
Nesta seo variaremos o conjunto de treinamento, em relao s amostras
e ao percentual, a m de termos uma estimativa da taxa de acerto do classicador
proposto.
Para avaliarmos a taxa de acerto do classicador proposto usaremos um novo
agrupamento, de forma a combinar os instrumentos comuns das bases de dados
119
distintas. Esse agrupamento ser formado por 20 instrumentos, conforme a Tabela

6.4.
Poderia-se contra-argumentar que o melhor seria empregar a soluo obtida
numa base de dados em outra (sem retreinar). O problema dessa abordagem que,
em nosso caso, existem diferenas signicativas entre as bases de dados, ou seja,
na forma de deteco, na presena ou no de um rudo de fundo, alm do fato
de apresentarem distribuies das amostras por instrumento diversas. Todas essas
diferenas quando combinadas podero ocasionar variaes signicativas na taxa de
acerto global.
Dependendo da escolha que se faz das amostras (contendo ou no os problemas confuso e contaminao anteriormente referidos), estas iro contribuir ou para
o treinamento do classicador ou para serem usadas como teste. Portanto, para cada
escolha feita a taxa de acerto obtida pode variar, em funo das contribuies que
cada amostra dar para o classicador, seja para denir a classe, seja para estimar
a taxa de acerto. Assim, independentemente de se manter constante o percentual
escolhido para o treinamento, a taxa de acerto poder variar.
Uma forma de contornar esse problema e se obter uma estimativa da taxa de
acerto mais adequada escolhermos um conjunto de amostras (teste e treinamento)
capaz de obter uma medida razovel da capacidade que o classicador tem para
discriminar as classes que ele se prope a classicar.
Outra forma estimarmos
atravs da mdia de todas ou de diversas combinaes possveis entre as amostras
existentes no banco de dados para o percentual usado no treinamento . Dessa forma,

se levaro em conta as diversas possibilidades para a formao da estimativa, o que
impede parcialmente que uma escolha mal feita do conjunto de amostras para teste
e treinamento possa servir para obter uma medida ruim da taxa de acerto.
Adotaremos uma abordagem intermediria entre os dois mtodos normalmente usados para se ter uma estimativa da taxa de acerto. Portanto, para avaliarmos a taxa de acerto a partir desse agrupamento fez-se dois tipos de simulaes,
variando tanto o conjunto de teste quanto a quantidade de amostras empregadas.
Alm disso, foi elaborado um procedimento para sortear as amostras de testes, restringindo essas amostras regio central da tessitura de cada instrumento musical
6 Caso haja amostras em quantidade sucientes no conjunto de treinamento para que essa medida
no represente uma distoro em relao distribuio real.
120
(80%). Tal procedimento est melhor detalhado na Seo 7.2, e tem como conceito
central a expectativa de uso das notas de cada instrumento ocorrer de forma desigual
(na prtica), ou seja, espera-se que as notas da regio central de cada instrumento
musical tenham uma maior probabilidade de surgimento. Portanto, o conjunto de
teste sorteado, levando em conta essa preferncia, ter uma maior representatividade. A seguir descrevemos os dois modos nos quais foram avaliadas as taxas de
acerto.
1. MODO 1:
nesse modo xou-se o conjunto de treinamento com a seguinte
composio: 90% da base de dados RWC, 90% da base de dados MIS, e X

da base de dados MUMS. O valor de X variou de 50% a 80%, no passo de
10%. Nesse caso as amostras para teste foram somente as amostras que no
participaram do treinamento pertencentes base de dados MUMS;
2. MODO 2: nesse modo variou-se igualmente o conjunto de treinamento para

todas as bases de dados na proporo de X. O valor de X variou entre 50%
e 90% no passo de 10%.
O conjunto de teste foi formado por todas as de-
mais amostras das 3 bases de dados que no participaram do conjunto de

treinamento.
Os resultados obtidos aparecem nas Tabelas 8.22 e 8.23, onde cada percentual
apresentado representa um conjunto de amostras distinto, uma vez que, para cada
percentual, foi feito um novo sorteio.
Tabela 8.22: Tabela contendo a taxa de acerto para o MODO 1.
Independentemente do percentual de treinamento, em todos os casos a soluo obtida pelo banco de classicadores foi sempre melhor que a melhor soluo
obtida individualmente (por cada classicador), o que valida essa abordagem e a
escolha das solues 1, 2, 5 e 6 para formar o classicador proposto, considerando
121
Tabela 8.23: Tabela contendo a taxa de acerto para o MODO 2.
os bancos de dados e o sistema de reconhecimento automtico presentes nessa dissertao.

A soluo 5 para o MODO 2, apresentada na Tabela 8.23, sempre foi a que
obteve melhor resultado. Isso j era esperado, uma vez que a maioria dos dados,
quando se misturam as 3 bases de dados, provm da RWC. A Tabela 8.12 j indicava
essa tendncia.
J a soluo 6 pela Tabela 8.11 indicava ser a melhor soluo para as amostras
provenientes do banco de dados MIS. ela tambm que apresenta a melhor soluo
para os dados provenientes do banco de dados MUMS , o que se pode constatar ao

vericarmos a Tabela 8.22 para o MODO 1.
Conforme pode ser observado nas Tabelas 8.22 e 8.23, caso o treinamento
ocorra com um nmero superior a 80% das amostras, independentemente da origem
da amostra
podemos armar que a taxa de acerto ser superior a 92 %.
Foram feitas 5 estimativas da taxa de acerto com conjuntos distintos (tanto

na composio quanto na quantidade) contendo instrumentos das 3 bases de dados.
O percentual da taxa de acerto variou pouco, de cerca de 90,42% a 95,76% para
uma variao de 50% a 90% no conjunto de treinamento.
Todas as estimativas
com percentuais entre as duas medidas apresentaram taxas de acerto em sequncia,

indicando que a estimativa correta se encontra num valor entre as estimativas dos
extremos.
Assim, podemos constatar que um aumento de 40% na quantidade de
amostras a serem testadas concomitantemente com uma reduo de 40% do conjunto

de treinamento reduziu menos de 6% na taxa de acerto.
Por outro lado, a base de dados MUMS, que contm o menor nmero de
7 Essas armaes obviamente esto restritas s solues pesquisadas nessa dissertao, por isso
as armaes tem carter relativo.
8 Restringindo a somente uma das 3 bases de dados.
122
amostras, isoladamente apresentou taxas inferiores. Esse resultado se justica em

parte pelo fato de suas gravaes no terem sido feitas em cmaras anecicas, por-
tanto contendo reverberaes . Assim, preferiu-se usar essa estimativa mais rigorosa
para representar a capacidade de classicao do conjunto contendo as 3 bases de
dados caso no se conhea as caractersticas das amostras (com reverberao ou
no). Optou-se pelo ponto de 80% das amostras porque atende ao primeiro critrio
de estar entre os percentuais de 90,42% e 95,76%.
Logo, uma estimativa razovel para a taxa de acerto do classicador, caso ele
venha ser treinado com 80% das amostras, cerca de 92% se o conjunto de amostras
a serem testadas contm reverberao; caso contrrio a estimativa da taxa de acerto
de 94% mais consistente para classicar os 20 instrumentos.
Como mostrado no Apndice B, estes ndices so coerentes, superando o
estado da arte em reconhecimento de instrumentos para o agrupamento contido
nesse apndice.
9 Inclusive a prpria base de dados indica o tempo de reverberao presente nas gravaes.
123
Captulo 9
Resultados frente s Misturas
Instantneas
Os mtodos propostos nesse captulo visam avaliar o desempenho do classicador quando h superposio temporal, seja entre instrumentos, seja entre estes
e rudos.
Para isso, iremos avaliar o impacto da superposio temporal frente
insero de rudo ou insero de sinal interferente.

Um dos problemas que se ir contornar uma restrio do classicador proposto, qual seja a de ter sido treinado para reconhecer notas isoladas, j que seu
aprendizado baseado em condies idealizadas (equivalentes a cmaras anecicas). Assim, iremos introduzir alguns blocos que almejam generalizar a aplicao
do classicador, contornando em parte tal restrio. De antemo, ca esclarecido
que a proposta aqui apresentada somente uma das possibilidades, sendo possvel
adotar-se outras arquiteturas.
Primeiramente, deve-se levar em conta que, normalmente, um sinal de udio
gravado na maior parte produto de conguraes polifnicas (gravaes contendo
diversas fontes). So essas gravaes que normalmente apresentam maior interesse
para a comunidade cientca.
O procedimento elaborado nessa dissertao para
classicar notas isoladas pode ser facilmente generalizado para msicas monofnicas (gravaes com uma nica fonte), bastando para isso treinar os classicadores
com pequenos trechos obtidos a partir de msicas previamente eleitas (logicamente
o vetor de caractersticas dever ser refeito para se ter um melhor desempenho).
Assim, o banco de amostras (tanto para teste quanto para treinamento) nessa abor-
124
dagem dever ser construdo a partir de pequenos trechos retirados de msicas que
compem a base de dados empregada.
No entanto, essa abordagem apresenta o
inconveniente de exigir um re-treinamento do classicador para esse novo conjunto

de amostras, o que acaba por dicultar uma comparao direta entre o resultado
obtido nos captulos anteriores (taxa de acerto) e a robustez do classicador que se
pretende avaliar nesse captulo. Por causa desse problema, essa abordagem mais natural ser descartada. Adotaremos uma abordagem diferente, na qual o classicador
continuar classicando notas, sendo necessrio para isso recorrer a uma etapa de
pr-processamento em que se extrairo as notas contidas nas gravaes polifnicas
ou monofnicas.
Uma possibilidade interessante (embora ressaltemos que no a nica), de se
contornar este problema consiste na extrao, a partir da gravao polifnica, dos
instrumentos em separado (sequncias monofnicas). Supondo ausncia de conhecimento das amostras de todos os instrumentos, bem como do sistema que efetua a
mistura, as tcnicas que extraem os componentes so chamadas de tcnicas de separao cega de fontes (SCF). Na nomenclatura das tcnicas de SCF, fonte signica
cada componente da mistura .
Assim, nesta dissertao, cada fonte identica-se
com um instrumento de uma base de dados.

Desta forma, o problema do reconhecimento de instrumentos em misturas
polifnicas pode ser dividido em trs etapas:
1. Separao dos instrumentos (sinal polifnico) em sequncias monofnicas;
2. Extrao das notas de cada sequncia monofnica;
3. Classicao das notas de cada sequncia monofnica.
O instrumento ser identicado por um critrio de votao que verica o

instrumento majoritrio obtido na classicao de cada nota de uma sequncia monofnica. A razo desta abordagem se baseia no fato de que o algoritmo usado na
separao das sequncias monofnicas um separador de fontes, portanto espera-se
que as sequncias de notas sejam formadas majoritariamente por notas provenien-
1 Um componente da mistura nessa dissertao uma sequncia de notas proveniente de um

nico instrumento (sequncia monofnica).
125
tes de um determinado instrumento musical (com reduzida interferncia de outras

fontes).
Conforme se pode observar na descrio das trs etapas feitas anteriormente,
ser necessrio empregar sinais polifnicos para simularmos o nosso problema. Uma
forma de resolvermos essa questo foi gerarmos articialmente para cada instrumento musical, a partir das notas do conjunto de teste, sequncias monofnicas.
Posteriormente, iremos gerar misturas instantneas dessas sequncias monofnicas,
de forma que ocorra superposio temporal, construindo assim um sinal polifnico
a partir das notas usadas para teste.
A partir deste instante, avaliaremos os problemas inerentes a cada um dos
algoritmos referenciados nos itens 1 e 2 e na construo dos sinais polifnicos, sendo
que o algoritmo previsto no item 3 foi coberto pelos captulos precedentes.
Assim, esse captulo descrever a construo articial de um sinal polifnico, o
mtodo de identicao de fontes com separador de fontes, o mtodo de identicao
de fontes sem separador de fontes, a extrao das notas isoladas de uma sequncia
monofnica e os resultados.
9.1 Construo Articial de um Sinal Polifnico

Conforme comentado anteriormente, a construo articial de sinais polifnicos facilita a avaliao do classicador elaborado nos captulos precedentes. Portanto, no se pretende simular uma msica polifnica com todas as suas caractersticas, sendo que a motivao para a construo desse sinal (polifnico) nessa dissertao somente de servir como um mecanismo til para a introduo de outros
sinais simultneos no tempo. Assim, possvel avaliar a robustez do classicador
com relao superposio temporal.
De outra forma, teramos que enfrentar o
problema de deteco das notas de um sinal real polifnico (msica polifnica) de

maneira bem mais aprofundada, o que foge ao escopo dessa dissertao. Assim, foi
utilizado um algoritmo simples para a construo dos sinais polifnicos.
O procedimento usado para se construir um sinal polifnico primeiramente
cria sequncias monofnicas e depois efetua misturas instantneas (somando-se diretamente os sinais). O tamanho dessas sequncias monofnicas (comprimento)
126
proporcional quantidade de notas que a fonte tem associada no conjunto de teste.

Antes de se somar os sinais monofnicos para obtermos uma sequncia polifnica, necessrio vericar se os sinais monofnicos apresentam tamanhos diferentes.
Se isso acontecer, deve-se igualar o tamanho deles para que no haja uma facilitao
no processo de separao das fontes, porque em determinado instante teramos uma
fonte contribuindo com o sinal (polifnico) enquanto que a outra estaria em silncio.
Tal situao em determinados casos um facilitador para os algoritmos de separao. Preferiu-se evitar esses casos, uma vez que estamos tentando avaliar a condio
em que a superposio temporal afeta o classicador. Assim, optou-se por truncar
a sequncia monofnica de maior comprimento, de forma que seu tamanho casse
igual sequncia de menor comprimento. Assim, nas misturas polifnicas, sequncias de notas contendo vrias fontes tero seu comprimento denido pela sequncia
monofnica de menor comprimento.
Cada sequncia monofnica foi construda usando as notas do conjunto de
teste, conforme o procedimento anteriormente descrito de sortear um percentual da
regio central da tessitura do instrumento musical.
Essas notas, pertencentes ao
conjunto de teste, foram sorteadas e separadas por intervalos aleatrios positivos

escolhidos arbitrariamente variando entre 0,045 ms e 0,3 ms. Procurou-se usar intervalos pequenos para que a sequncia das notas tivesse uma maior continuidade
auditiva, sem que chegassem a ponto de interromper a nota precedente. Em alguns
sinais polifnicos reais foi observada a ocorrncia de uma nota posterior interromper
a nota anterior, como se o intervalo fosse negativo. Esses problemas no foram tratados nessa dissertao, visto que teriam inuncia maior no algoritmo de extrao
das notas do que no classicador. A princpio, a inuncia da perda da parte nal
da nota no afeta o classicador, uma vez que o mesmo somente utiliza o segmento
intermedirio da nota (modelo IMF). No entanto, se a interrupo ocorrer a ponto
de se perder parte desse segmento intermedirio, poderemos ter erros de classicao
para essa nota corrompida.
Apresentamos na Figura 9.1 um sinal polifnico real e um sinal polifnico
construdo pelo algoritmo acima usando notas de instrumento de sopro para as
bases de dados RWC e MIS.
127
Amplitude
1
0
1
0
0,2
0,4
0,6
0,8
1,2
1,4
1,6
1,8
Tempo (amostras)
(a)
Amplitude
1
0
1
0
0,5
1,5
2,5
Tempo (amostras)
(b)
Figura 9.1: Exemplo de um sinal polifnico (a) articial; (b) real.
9.2 Mtodo de Identicao de Instrumentos com

Separador de Fontes
Dada a sequncia polifnica articialmente construda e exemplicada na
Figura 9.1, o objetivo desse algoritmo obter as sequncias (monofnicas) originais
que serviram para a construo do sinal polifnico.
O caso mais difcil de separao de fontes ocorre quando temos apenas uma
mistura. Uma forma de tentar resolver este problema consiste em converter a mistura para o domnio da frequncia (via janelamento/STFT) e associar cada raia de
cada quadro a uma das estimativas. Esta associao em geral necessita de um conhecimento estatstico acerca das fontes, o qual permite-nos efetuar uma inferncia
estatstica hora da associao. Duas formas muito difundidas de associao so o
mascaramento hard (binrio) e o soft (suave).
Num modelo instantneo e monocanal, uma raia de um certo quadro da
mistura resultante da soma das fontes escaladas. Supondo a presena de apenas
128
duas fontes e que apenas uma delas seja a dominante, podemos associar esta raia a
esta fonte, impondo que a da outra seja zero (isto deve ser feito quadro-a-quadro).
A proposta nessa seo vericar a viabilidade deste tipo de tcnica, supondo que
temos acesso s fontes durante a separao.
Este acesso s fontes permite-nos escolher a fonte qual associaremos uma
dada amostra (uma raia num certo quadro) de forma tima. Isto signica que estamos trabalhando no universo do melhor caso possvel que esta tcnica de separao
de fontes permite. Em outras palavras, analisaremos o melhor desempenho (limitante superior) que o reconhecimento de instrumentos pode ter nesta congurao.
Seja uma amostra
S2 (f, t) da fonte 2,
X(f, t)
da mistura.
possvel estimarmos
Conhecendo
S1 (f, t) e S2 (f, t).
S1 (f, t)
da fonte 1, e
No mascaramento Hard
(binrio) a estimativa ser:
|X(f, t) S1 (f, t)| < |X(f, t) S2 (f, t)|,
caso
ento
S1 (f, t) = X(f, t)
S2 (f, t) = 0;
caso
|X(f, t) S2 (f, t)| < |X(f, t) S1 (f, t)|,
ento
S1 (f, t) = 0
S2 (f, t) =
X(f, t);
No mascaramento Soft (suave) feita uma ponderao pela soma, ou seja,
S(f, t) = |S1 (f, t)| + |S2 (f, t)|.

[|S1 (f, t)|/S(f, t)] X(f, t)
Nesse caso a estimativa tima ser:
S1 (f, t) =
S2 (f, t) = [|S2 (f, t)|/S(f, t)] X(f, t).
Em geral, o mascaramento suave gera resultados melhores que o binrio.

Para maiores detalhes, vide o penltimo captulo constante em [47] e as respectivas
referncias.
Obviamente, os mascaramentos anteriormente apresentados prestam-se tambm a casos onde temos mais do que duas fontes. O principal fator que esse algoritmo
trar de forma a afetar a taxa de acerto ser a distoro que ele provocar nas notas,
decorrente de um desembaralhamento das sequncias mal efetuado. Assim, a nota
quando extrada carregar invariavelmente informao proveniente de outra fonte
ou de algum sinal contaminante (rudo ou sinal interferente) na maioria dos casos.
O fato de estarmos usando um limitante superior nesse algoritmo signica que no
estamos interessados em avaliar o real impacto desse algoritmo no processo de classicao como um todo, mas somente o impacto (para o melhor caso) dele nas notas,
a m de avaliarmos se o classicador se mantm consistente apesar da perturbao
129
residual que esse algoritmo causar nas notas a serem classicadas.

Na Figura 9.2 apresentamos uma mistura contendo notas provenientes da
base de dados RWC.
0,8
0,6
0,4
Amplitude
0,2
0
0,2
0,4
0,6
0,8
Sinal de udio
1
6
8
Tempo (amostras)
10
12
14
5
x 10
Figura 9.2: Mistura com notas de cordas e percusso.
9.3 Mtodo de Identicao de Instrumentos sem

Separador de Fontes
Na prtica, o acesso s fontes revela-se uma hiptese demasiado restritiva.
No entanto, podemos pensar numa abordagem alternativa sem o uso de separadores
de fontes, que consiste em obtermos uma estimativa do rudo do ambiente e usarmos
essa mesma tcnica para separarmos o rudo (ou interferncia) do restante do sinal
X(f, t) = R(f, t) + S(f, t).

S(f, t),
Posteriormente, extrair-se-o as notas do sinal ltrado
classicando o instrumento (fonte) originrio correspondente cada notas.
Caso se tenha de antemo a informao do nmero

pode-se optar por identicar as
de fontes presentes no cenrio,
fontes como sendo as
mais votadas no processo
de classicao.
Essa tcnica necessariamente precisar de algoritmos de extrao de notas
130
mais elaborados, visto que a extrao se dar diretamente sobre o sinal
X(f, t)
contendo as superposies temporais ocorridas entre as fontes distintas. Portanto,

nessa dissertao no avaliaremos essa tcnica da mesma forma que faremos com
a abordagem anterior. No entanto, a m de ilustrarmos o conceito iremos mostrar
a viabilidade dessa tcnica para misturas com poucas fontes (2, 3 e 5 para a base
de dados RWC), j que nesse caso ocorrer uma menor superposio temporal em
funo do menor nmero de fontes.
9.4 Extrao das Notas Isoladas de uma sequncia

Monofnica
O uso de um algoritmo de extrao das notas a partir de um sinal polifnico real pode introduzir uma perda signicativa na taxa de acerto do classicador,
visto que num sinal polifnico real as notas podem no estar espaadas por intervalos, dicultando a extrao. Essa m extrao pode dicultar uma avaliao da
robustez do classicador. Uma maneira de se contornar o problema seria fazer uma
extrao na (supervisionada) de forma a minimizar ao mximo possvel o impacto
de uma possvel m extrao da nota na taxa de acerto do classicador.
Dessa
forma, o classicador no teria sua medida de robustez (em relao superposio

temporal com outros sinais) afetada pelo algoritmo de extrao, facilitando assim
uma medida posterior que caracterizaria uma perda na taxa de acerto decorrente
do uso desses algoritmos de extrao de notas em sinais polifnicos reais. Devido
grande quantidade de dados disponveis para essa dissertao, uma extrao na
ir requerer uma grande quantidade de tempo para que se obtenha cada nota. Por
outro lado, poderamos pensar em usar poucas amostras juntamente com uma extrao supervisionada, mas isto tambm no interessante, pois a medida na taxa
de acerto do classicador obtida poder permanecer viciada pelas caractersticas
no representativas que essas poucas amostras poderiam reter. Assim, optou-se por
uma soluo intermediria, ou seja, o uso de uma quantidade signicativa de amostras (notas) representadas pelos sinais polifnicos articiais montados a partir de
sequncias monofnicas. Estas sequncias foram formadas por notas espaadas, de
forma que a extrao das notas fosse mais simples, reduzindo a perda na taxa de
131
acerto do classicador ocasionada pela extrao. Portanto, na simulao, ainda se

espera que ocorram algumas extraes de notas ruins, de sorte que, caso ocorra uma
perda na subida da nota ou na descida da nota, a mesma no afetar a classicao.
Para a obteno das notas a partir dos arquivos que foram fornecidos (base
de dados MIS e RWC) j havia sido elaborado um algoritmo para retirar as notas
desses arquivos (trens de notas). Esse algoritmo, derivado do mtodo do desvio, se
baseia na anlise da envoltria da potncia instantnea do sinal, onde o incio e o
m de cada nota so detectados ao se passear uma janela previamente denida sobre
o sinal e vericar variaes do desvio padro e da mdia da janela em relao a um
valor de referncia (1/10 do desvio padro e da mdia do sinal, incluindo o rudo
de fundo e/ou intervalos entre as notas) medido sobre o sinal inteiro.
Esse algo-
ritmo funciona bem na maioria dos casos, requerendo somente algumas adequaes
para os casos em que o cenrio gravado possua uma baixa SNR . Assim, neste caso
tambm foram vericados alguns algoritmos que comumente so sugeridos na literatura. Foram implementados, alm do mtodo anteriormente descrito, outros dois
mtodos (usando a envoltria RMS, e visando a deteco da
f0
ou pitch ) presentes
em [48]. Em ambos os casos, a indicao dos instantes que determinam o incio e

o m da nota feita acompanhando os mximos e mnimos da funo derivada do
sinal correspondente, a depender do mtodo escolhido. O mtodo nal usado nessa
dissertao foi uma combinao de dois deles (envoltria RMS e desvio).
O algoritmo de deteco pelo pitch se mostrou mais sensvel que os anteriores
(conforme vericado na Figura 9.3) e por este motivo no foi usado na composio
nal do extrator da notas. Isto ocorre porque, alm do problema da deteco do
incio e nal da nota, ele tambm mostra uma sensibilidade maior em relao ao
algoritmo usado para a estimao do pitch, conforme pode ser observado na Figura
9.3. Nesse grco foram usados trs mtodos para estimao do pitch : coecientes
cepstrais [49], correlao [22] e acompanhamento da
f0 .
Esse ltimo no faz a
estimao do pitch, mas pressupe que o pitch acompanha a frequncia fundamental,

uma vez que esse componente espectral aquele que dar a maior contribuio na
composio do pitch.
2 denida pela seguinte equao:
SN R = 10 log10
a potncia do rudo.
132
Ps
Pr
, onde
Ps
potncia do sinal e
Pr
Env. da Pi()
Env. Pi()
Env. da Pi()
0,1
Pitch = 422.0096
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(a)
1200
1400
1600
0,1
Pitch = 30.0102
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(b)
1200
1400
1600
0,1
Pitch = 390
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(c)
1200
1400
1600
Figura 9.3: Identicao da nota pelo Pitch : (a) Mtodo da Correlao; (b) Mtodo
dos coecientes cepstrais; (c) Mtodo de acompanhamento da
f0 .
Foi avaliado que a combinao escolhida conseguiu detectar corretamente as

notas em cerca de 75% das notas para alguns dos instrumentos que compem a base
de dados MIS (esse ndice foi obtido de algumas sequncias monofnicas sem contaminaes de rudo ou sinal interferente). No se procurou melhorar o desempenho
desse algoritmo, uma vez que no se espera que seja necessria uma deteco perfeita de todas as notas que compem a msica, pois alm dos fatores j mencionados
garantirem uma certa robustez do classicador, ser empregado um mtodo de votao, bastando a princpio que a maioria das notas esteja corretamente identicada
para que o classicador consiga determinar corretamente qual foi o instrumento que
gerou a msica (no caso de estarmos usando um separador de fontes), j que o
classicador possui uma boa taxa de acerto (superior a 90%). Portanto, espera-se
que os algoritmos que extraem notas corretamente (numa taxa em torno de 60%) sejam sucientemente bons para serem empregados conjuntamente com o classicador
desenvolvido nessa dissertao.
133
9.5 Resultados
Foram escolhidos 11 instrumentos das msicas monofnicas, que sero misturadas para formarem as msicas polifnicas que pretendemos investigar, conforme
o padro abaixo:
1. Instrumentos de Sopro (6):
Saxofone Contralto, Saxofone Soprano, Trompa, Obo, Flauta e Fagote.
2. Instrumentos de Cordas (2):

Violoncelo e Violino.
3. Instrumentos de Percusso (3):

Glockenspiel, Vibrafone e Xilofone.
Foram usadas notas contidas em duas bases de dados, RWC e MIS. A principal diferena entre as duas bases de dados para essa seo, alm do prprio gravador,
o ambiente de gravao. Na base de dados MIS as notas esto espaadas por um
rudo de fundo varivel com o instrumento. J as notas da base de dados RWC esto
espaadas com silncio (sequncia de zeros).
Foram gravadas notas dos 11 instrumentos que esto presentes em ambas
bases de dados, exceto os instrumentos de percusso que s existem na base de
dados RWC.
A nota de menor pitch para as bases de dados empregadas o D de primeira
oitava (cerca de 32 Hz); logo, a frequncia mnima usada foi de 30 Hz. De posse
dessa informao e a de que o algoritmo usado exige que a janela seja divisvel por
4, ajustou-se uma janela de 1472 amostras no algoritmo de separao de fontes, j
que a taxa de amostragem para ambas as bases de dados de 44.100 Hz.
Foram gerados arquivos de msicas monofnicas para todos os instrumentos
de cada base de dados (14-MIS, e 17-RWC), ou seja, um total de 31 arquivos de
msicas monofnicas formadas a partir das notas pertencentes ao conjunto de teste,
denido na proporo de 10% para teste e 90% para treinamento.
De antemo, deve-se ressaltar tambm que se esperam variaes nas taxas
de acerto em relao s taxas obtidas pelo classicador quando comparamos um
instrumento especco, mesmo que a contaminao no tenha afetado o classicador,
134
porque o conjunto de notas usado, nas msicas monofnicas, um subconjunto

(aleatrio) das notas usadas para testar o classicador, alm do fato de o algoritmo
extrator de notas poder introduzir perdas de algumas notas quando no consegue
extra-las, ou introduzir notas falsas quando faz uma m extrao. Essa variao na
taxa de acerto tender a car menor com o aumento de notas usadas. Assim, esperase tambm que taxas de acerto que representam totalizaes quem mais prximas
das taxas de acertos globais obtidas pelo classicador quando a contaminao (efeito
da superposio temporal) tenha tido pouco efeito.
9.5.1 Anlise dos Resultados para Misturas contendo vrias

Fontes
Nesta seo mostraremos como foram feitas as simulaes para avaliar o desempenho do classicador frente s misturas contendo mais de uma fonte. A ideia
foi determinar a capacidade do classicador em reconhecer as diversas fontes.
Para cada uma das 19 msicas monofnicas que se pretendia usar (11 da
RWC e 8 da MIS) foram elaborados 16 arquivos de msicas polifnicas conforme o
padro a seguir:
Misturas com notas da base de dados MIS:
1. Instrumentos de Cordas (2 fontes): Violino e Violoncelo;
2. Instrumentos de Sopro (6 fontes):
Saxofone Contralto, Saxofone Soprano,
Trompa, Obo, Flauta e Fagote;
3. Instrumentos de Cordas e Sopro (contendo todas as fontes acima relacionadas).
Misturas com notas da base de dados RWC:
1. Instrumentos de Cordas (2 fontes): Violino e Violoncelo;
2. Instrumentos de Sopro (6 fontes):
Saxofone Contralto, Saxofone Soprano,
Trompa, Obo, Flauta e Fagote;
3. Instrumentos de Percusso (3 fontes): Glockenspiel, Xilofone e Vibrafone;
4. Instrumentos de Sopro e Percusso (9 fontes);
135
5. Instrumentos de Cordas e Percusso (5 fontes);
6. Instrumentos de Sopro e Cordas (8 fontes);
7. Instrumentos de Sopro, Percusso e Cordas (11 fontes).
Misturas com notas de ambas as bases de dados (MIS e RWC)
1. Instrumentos de Cordas (4 fontes): Violino(2) e Violoncelo(2);
2. Instrumentos de Sopro (12 fontes): Saxofone Contralto(2), Saxofone Soprano(2),

Trompa(2), Obo(2), Flauta(2) e Fagote(2);
3. Instrumentos de Sopro e Percusso (15 fontes);
4. Instrumentos de Cordas e Percusso (7 fontes);
5. Instrumentos de Sopro e Cordas (16 fontes);
6. Instrumentos de Sopro, Percusso e Cordas (19 fontes).
Assim, o nmero de fontes varia entre 2 e 19. A partir desse ponto foi usado
o algoritmo de extrao de notas, combinado com o algoritmo separador de fontes
(SF). Assim, se espera que aps o SF tenhamos sequncias monofnicas, pertencentes
a fontes distintas. Para cada sequncia o algoritmo extrator de notas identicar as
notas que compem a sequncia.
Aps a obteno das notas, essas foram codicadas em 3 formas distintas, que
comporo os padres de extrao de caractersticas de melhor desempenho obtidos
no estudo do classicador, conforme mostrado abaixo:
1. Descritores de udio + 16 coecientes LSF + desvio padro (solues 1 e 6);
2. Descritores de udio + 16 coecientes MFCC + desvio padro +
m3
(soluo
2);
3. 16 coecientes MFCC + desvio padro +
m3
(soluo 5).
O conjunto de notas codicadas foi avaliado pelo classicador aps o seu

treinamento (90% restante).
As Tabelas 9.1 a 9.5 contm os resultados obtidos
para ambas as bases de dados usando o mtodo de identicao de instrumento
136
numa sequncia polifnica com o uso do separador de fontes.
Os nmeros que
aparecem entre parntesis em algumas dessas tabelas representam os nmeros de

notas extradas.
Tabela 9.1: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.
137
Tabela 9.4: Identicao das fontes para misturas polifnicas.
Tabela 9.5: Identicao das fontes para misturas polifnicas.
As estimativas sombreadas indicam que houve erro na estimao.
Obser-
vando as Tabelas 9.1 a 9.5 podemos vericar que para at 6 fontes houve estimao
correta de todos os instrumentos presentes na mistura . Acima de 6 fontes, dependendo da origem das fontes na composio da mistura, ocorre erro de ao menos uma
3 Na Tabela 9.1 o sombreamento no identica propriamente um erro, mas indica que houve
uma segunda estimativa para outro instrumento com igual probabilidade que a estimativa correta.
138
estimativa.
As Tabelas 9.6 a 9.11 contm os resultados obtidos para ambas as bases de
dados usando o mtodo de identicao da fonte numa sequncia polifnica sem o
uso de SF.
Tabela 9.6: Identicao das fontes sem separador de fontes.
Conforme pode ser observado nas Tabelas 9.6 a 9.11, as duas estimativas com
maior frequncia se mostraram corretas para misturas com at 5 fontes. Eventualmente aparece na coluna Fontes o instrumento denominado Outros que consiste
de vrios insturmentos. Em todos esses casos (Outros), o instrumento mais votado
139
cou abaixo de 8,33%. Assim, mesmo que no se tenha um bom algoritmo extrator
de notas, possvel usar esse modelo para identicar as fontes de misturas com
sequncias polifnicas (formadas a partir das bases de dados MIS e RWC) quando
as misturas so formadas por apenas duas fontes.
Este proceder pode reduzir a
complexidade para esses casos, uma vez que dispensa o uso dos algoritmos SF.
9.5.2 Anlise dos Resultados para Misturas contendo Sinal

Interferente ou Rudo Branco
Nesta seo pretende-se avaliar o desempenho do classicador quando as notas que devero ser classicadas so contaminadas, seja com sinal interferente ou
com rudo branco. Foram gerados os sinais na qual ser feita a anlise, para todas
as msicas monofnicas anteriormente relatadas, com contaminao de rudo branco
gaussiano, variando-se a SNR (entre 10 e 26 dB). O mesmo foi feito com sequncias
monofnicas contaminadas por um sinal interferente, para os valores de SIR (relao
140
sinal interferncia)
entre 10 e 20 dB.
Foi escolhida arbitrariamente uma mistura contendo notas de todos os instrumentos musicais (19 fontes distintas) das duas bases de dados para servir de sinal
interferente. Assim, o sinal interferente no um sinal especco de um instrumento
particular, o que poderia suscitar dvidas em relao a um possvel favorecimento
ou no da interferncia sobre o sinal.
A seguir apresentamos o padro do sinal interferente e do rudo branco usados
para uma SIR e uma SNR iguais a 10 dB para um sinal polifnico.
Nas Figuras 9.4 e 9.5, o primeiro grco representa o sinal contaminante, o
segundo grco o sinal original e o terceiro grco ilustra o sinal contaminado.
Amplitude
sinal interferente
0,2
0
0,2
Amplitude
sequencia monofnica
6
n (amostras)
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
Amplitude
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
10
12
5
x 10
Figura 9.4: Efeito do sinal interferente sobre uma sequncia monofnica.
Nas Figuras 9.6 a 9.13 apresentamos alguns resultados, sendo que cada instrumento possui dois grcos. Um contm o erro sem o separador (curva azul), em
que o rudo ou o sinal interferente no foi retirado e o outro contm o erro com
separador (curva vermelha), em que o rudo ou o sinal interferente foi retirado.
4 denida pela seguinte equao:
Ps
10 log10
Ps
Pi
a potncia do sinal.
141
, onde
Pi
a potncia do sinal interferente e
Amplitude
rudo branco
0,2
0
0,2
Amplitude
sequencia monofnica
6
n (amostras)
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
Amplitude
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
0
10
12
5
x 10
Figura 9.5: Efeito do rudo branco sobre uma sequncia monofnica.
Em ambos os grcos aparecem curvas em verde que representam estimativas

do instrumento majoritrio para uma dada sequncia monofnica, ou seja, se o
classicador conseguiu acertar o instrumento (erro=0) ou no (erro=1).
Os valores intermedirios, que porventura aparecem no esboo grco para
essa curva (entre zero e um), representam mudanas na estimativa do classicador
em algum ponto do intervalo.
Primeiramente apresentamos os resultados obtidos para a base de dados MIS
com sinal interferente polifnico nas Figuras 9.6 e 9.7.
Nas Figuras 9.8 e 9.9, apresentaremos os resultados com a contaminao por
rudo branco, para a base de dados MIS.
Conforme pode ser observado nas Figuras 9.6 a 9.9, o classicador se mostrou
mais sensvel ao rudo branco do que ao sinal interferente. Uma das possveis explicaes para isso o fato do rudo branco afetar o espectro inteiro, tornando mais difcil
a sua separao com o algoritmo SF utilizado. Assim, para contaminaes com SIR,
mesmo quando no se usou o separador para extrair o sinal interferente da sequncia monofnica, o classicador apresentou bons resultados, o que no ocorreu com
142
1
Erro mdio sem separador
Erro na estimativa da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(a)
14
16
18
20
1
Erro Medio
0,8
Erro mdio com separador

Erro na estimativa da fonte
0,6
0,4
0,2
0
10
12
SIR
(b)
14
16
18
20
Figura 9.6: Erros estimados na contaminao com sinal interferente: (a) Clarinete
Bb sem separador e (b) Clarinete Bb com separador.
1
Erro de estimao da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(a)
14
16
18
20
1
Erro de estimao da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(b)
14
16
18
20
Figura 9.7: Erros estimados na contaminao com sinal interferente: (a) Saxofone
Soprano sem separador e (b) Saxofone Soprano com separador.
contaminaes de rudo branco, conforme pode-se observar na Figura 9.9. Portanto,

o uso do separador fundamental para melhorar o desempenho do classicador.
Podemos observar que a taxa de acerto varia muito em funo do tipo de
143
1
Erro Medio
0,8
0,6
0,4
0,2
0
10

Erro de estimativa da fonte
12
14
16
18
SNR
(a)
20
22
24
26
1
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
14
16
18
SNR
(b)
20
22
24
26
Figura 9.8: Erros estimados na contaminao com rudo branco: (a) Clarinete Bb
sem separador e (b) Clarinete Bb com separador.
1
Erro Medio
0,8
0,6
0,4
0,2
0
10

12
14
16
18
SNR
(a)
20
22
24
26
1
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
14
16
18
SNR
(b)
20
22
24
26
Figura 9.9: Erros estimados na contaminao com rudo branco: (a) Saxofone Soprano sem separador e (b) Saxofone Soprano com separador.
fonte.
A seguir apresentamos nas Figuras 9.10 a 9.13, para ambas as bases de
dados, o erro total em funo da SNR e SIR para todos os instrumentos usados na
base de dados MIS e RWC.
144
O fato de o erro estar acima de 50% no signica que a estimativa estar

errada, porque o classicador usa um critrio de votao para determinar qual a
fonte daquela sequncia monofnica para um dado conjunto de notas classicadas.
Assim, em 10 notas, uma votao de trs pode representar o mais votado. Isso pode
ser atestado na Figura 9.9, que ilustra a contaminao com rudo branco para o
Saxofone Soprano com separador.
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
14
16
18
SNR
20
22
24
26
Figura 9.10: Erro do classicador para misturas contaminadas com rudo branco,
para amostras provenientes da base de dados MIS.
Sabendo de antemo que a taxa de acerto do classicador superior a 90%,

espera-se um erro residual inferior a 10% para as relaes em que a potncia do sinal
muito superior a do sinal contaminante.
Independentemente do tipo de sinal contaminante utilizado na sequncia monofnica, podemos observar a relao esperada, ou seja, uma dependncia proporcional da taxa de acerto com a SIR ou com a SNR.
Flutuaes (a princpio inversamente proporcionais taxa de acerto como
ocorre na Figura 9.13 para SNR entre 10 e 12 dB) so decorrentes de variaes da
quantidade de notas que testada quando a SNR varia. Assim foi observado que
quanto menor a SNR, maior a diculdade tanto no algoritmo separador (SF)
quanto no algoritmo extrator de notas, ocasionando alm da m extrao uma
grande variao na quantidade de notas que foram identicadas.
145
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
SIR
14
16
18
20
Figura 9.11: Erro do classicador para misturas contaminadas com sinal interferente,
para amostras provenientes da base de dados MIS.
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
14
16
18
SNR
20
22
24
26
Figura 9.12: Erro do classicador para misturas contaminadas com rudo branco,
para amostras provenientes da base de dados RWC.
Alm disso, podemos tambm observar que para as contaminaes de rudo
branco e sinal interferente, os grcos apresentam pontos de quebra . Isso indica
5 Em torno dos limiares de 20 dB para SNR e 6 dB para SIR.
146
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
SIR
14
16
18
20
Figura 9.13: Erro do classicador para misturas contaminadas com sinal interferente,
para amostras provenientes da base de dados RWC.
que, independentemente dos bons resultados obtidos com o uso do separador para
SNR maiores que 20 dB ou SIR maiores que 6 dB, a taxa de acerto passa a ter um
salto qualitativo a partir desse ponto.
J o uso do separador, para todas as SNRs simuladas, no resultou em erro
com valor inferior a 10%, que seria o valor esperado caso no houvesse contaminao,
indicando que o algoritmo SF teve diculdades em separar o sinal do rudo branco.
J em relao contaminao com sinal interferente, o uso do separador
de fontes garantiu uma taxa de erro inferior a 10% desde o incio, que aproximadamente o erro do classicador, explicando porque o erro (com o uso do SF)
praticamente no variou com a SIR.
Portanto, o uso do separador mostrou-se eciente para sinais interferentes, e
garantiu uma reduo na taxa de erro para em torno de 50 % para ambas as bases
de dados quando os sinais so submetidos a rudo branco.
147
Captulo 10
Resultados frente s Misturas
Convolutivas
Na prtica, as misturas do sinal com rudo (ou outros sinais) ocorrem de
forma convolutiva sendo que o conjunto dos sistemas de mistura e separao pode
ser classicado em 4 topologias bsicas: SISO (single input and single output ), SIMO
(single input and multiple output ), MISO (multiple input and single output ) e MIMO
(multiple input and multiple output ).
Nesse captulo avaliaremos o classicador
quando se depara com misturas convolutivas, segundo o padro MIMO.

Esse captulo contm o modelo terico para misturas convolutivas com duas
fontes e dois gravadores, a compensao da distoro causada pela mistura convolutiva, e os resultados obtidos para misturas convolutivas.
10.1 Modelo de Misturas Convolutivas - Duas Fontes e Dois Microfones

Consideraremos em todo o desenvolvimento a seguir, que tanto o nmero de
fontes quanto o de misturas (gravaes) igual a 2.
Apesar dessa restrio, esse
caso pode servir para separar duas fontes pontuais de sinais (podendo ser uma delas
um sinal interferente).
Um ambiente acstico altera, por meio de uma ltragem,
cada uma das fontes. Um microfone capta os sinais das fontes somados, cada qual
distorcido de forma diferente, j que as posies das fontes so distintas.
Assim,
podemos modelar a distoro de cada fonte por um ltro FIR com comprimento
148
da ordem de centenas ou mesmo milhares de coecientes.
Assim, o modelo que
representa essa situao ilustrado na Figura 10.1.
Figura 10.1: Modelo de Separao de fontes.
s1 (n) e s2 (n) representam as fontes (em nosso caso, sequncias
Na Figura 10.1,
monofnicas originadas de instrumentos distintos),

(ltro FIR) entre a
j -sima
fonte e a
i-sima
hij
a funo de transferncia
mistura (ou gravao),
x1 (n)
x2 (n)
representam os sinais captados pelos microfones, os quais podem ser expressos como:
x1 (n) = h11 (n) s1 (n) + h12 (n) s2 (n)
(10.1)
x2 (n) = h21 (n) s1 (n) + h22 (n) s2 (n)
(10.2)
onde * signica convoluo. Num formato matricial, podemos reescrever as Equaes (10.1) e (10.2) na seguinte forma:

s (n)
x (n)
h (n) h12 (n)
1 = 11
1
s2 (n)
h21 (n) h22 (n)
x2 (n)
onde
e
wij
a funo de transferncia (ltro FIR) que representa a separao, e
(10.3)
y1 (n)
y2 (n) representam as estimativas das fontes obtidas aps a separao, podendo ser
expressas como:
y1 (n) = w11 (n) x1 (n) + w12 (n) x2 (n)
(10.4)
y2 (n) = w21 (n) x1 (n) + w22 (n) x2 (n)
(10.5)
ou na forma matricial:
x (n)
w (n) w12 (n)
y (n)
1
1 = 11
x2 (n)
w21 (n) w22 (n)
y2 (n)
149
(10.6)
Conforme [50, 51], a escolha ideal dos ltros de separao (a menos de eventuais constantes de escalamento) dada por:
w11 (n) w12 (n)

h22 (n) h12 (n)
w21 (n) w22 (n)

h21 (n) h11 (n)
(10.7)
10.2 Compensao da Distoro Causada pela Mistura Convolutiva

Nesta seo daremos prosseguimento ao desenvolvimento terico para misturas convolutivas a partir de duas fontes e dois gravadores, e mostraremos que a
soluo obtida pela Equao (10.7) insere uma distoro, que dever ser compensada a m de que o classicador consiga reconhecer o padro correto da nota que se
pretende classicar.
A soluo da Equao (10.7) de fcil obteno, bastando para isso substituir
x1 (n) e x2 (n) conforme as Equaes (10.1) e (10.2) nas Equaes (10.4) e (10.5) para
termos:
y1 (n) = [w11 (n) h11 (n) + w12 (n) h21 (n)] s1 (n)
+ [w11 (n) h12 (n) + w12 (n) h22 (n)] s2 (n)
y2 (n) = [w21 (n) h12 (n) + w22 (n) h22 (n)] s1 (n)
+ [w21 (n) h11 (n) + w22 (n) h21 (n)] s2 (n)
Para que ocorra a separao queremos que
de
s1 (n),
y2 (n)
seja somente dependente de
y1 (n)
s2 (n).
(10.8)
(10.9)
seja somente dependente
Portanto, obrigaremos que os
termos cruzados sejam zero, ou seja:
w11 (n) h12 (n) + w12 (n) h22 (n) = 0
(10.10)
w21 (n) h11 (n) + w22 (n) h21 (n) = 0
(10.11)
Podemos observar que as solues triviais da Equao (10.10) so:
w11 (n) = h22 (n) e w12 (n) = h12 (n) ou w11 (n) = h22 (n) e w12 (n) = h12 (n),
e para a Equao (10.11) so:
w21 (n) = h21 (n) e w22 (n) = h11 (n) ou w21 (n) = h21 (n) e w22 (n) = h11 (n),
150
Assim, combinando as solues anteriores, temos as seguintes matrizes de

solues triviais:
w11 (n) w12 (n)

h22 (n) h12 (n)
w21 (n) w22 (n)

h21 (n) h11 (n)
(10.12)
ou
w11 (n) w12 (n)

h22 (n) h12 (n)
w21 (n) w22 (n)

h21 (n) h11 (n)
(10.13)
Supondo o conhecimento da funo de transferncia dos canais, podemos

implementar a escolha tima dos ltros. Porm, cabe ressaltar que as estimativas
das fontes no equivalem s fontes, mas a verses ltradas das mesmas.
Ao nal de um processo de separao bem sucedido, as estimativas das fontes
y1 (n)
y2 (n)
no apresentam interferncia das outras fontes, mas so distorcidas.
Para vericarmos isso, basta efetuar a seguinte operao:

h (n) h12 (n)
h (n) h12 (n)
h (n) h12 (n)
w (n) w12 (n)
= 22
11
11
11
h21 (n) h22 (n)
h21 (n) h11 (n)
h21 (n) h22 (n)
w21 (n) w22 (n)
(10.14)
para constatarmos que:
y1 (n)
h22 (n) h11 (n) h12 (n) h21 (n)
s1 (n)
y2 (n)
h22 (n) h11 (n) h12 (n) h21 (n)
s2 (n)
(10.15)
Assim, ocorre uma distoro do sinal original nas estimativas obtidas por um
fator de distoro
t(n)
dado por:
t(n) = h11 (n) h22 (n) h12 (n) h21 (n)

que o mesmo em ambas estimativas
y1 (n)
y2 (n).
(10.16)
Portanto, antes de usarmos
o classicador para estimarmos o instrumento a partir de cada uma das sequncias monofnicas obtidas aps a separao, faremos uma correo nessa distoro
causada pelo mtodo de separao.
Essa proposta de correo tem o intuito de
aumentar a taxa de acerto do classicador. Usualmente tal procedimento denominado derreverberao ou deconvoluo. Aps a obteno das estimativas
y2 (n)
determinaremos o fator de distoro
t(n).
151
y1 (n)
Assim, combinando as Equaes (10.4) e (10.5) com a Equao (10.16) e aps

aplicarmos a DFT teremos:
Y1 (k) = T (k)S1 (k)
(10.17)
Y2 (k) = T (k)S2 (k)
(10.18)
Sabendo que o comprimento de

igual a
t(n)
igual a
e o comprimento de
podemos armar que o comprimento de
S1 (k)
S2 (k)
Y1 (k) = Y2 (k)
N M + 1.
No entanto, devemos ter o cuidado de observar que as equaes acima podem ser
reescritas conforme as Equaes (10.19) e (10.20):
Y1 (k) = DF T (t(n), N ).DF T (s1 (n), N ),
(10.19)
Y2 (k) = DF T (t(n), N ).DF T (s2 (n), N ),
(10.20)
onde cada termo tem comprimento
N.
(k) =
Denindo o fator de correo
(k)
1
,
DF T (t(n), N )
onde a inverso ocorrer sobre cada elemento do vetor
como:
(10.21)
T (k),
e, combinando com as
Equaes (10.19), (10.20) e (10.21), teremos:
s1 (n) = F F T 1 ((k).Y1 (k)),
(10.22)
s2 (n) = F F T 1 ((k).Y2 (k)),
(10.23)
Pode-se observar que o comprimento obtido para
N M +1
primeiras
como deveria ser.
N M +1
s1 (n)
s2 (n)
e no
Portanto, reduz-se esse comprimento extraindo as
amostras de
s1 (n)
e de
s2 (n).
Para as simulaes foram usados somente instrumentos da base de dados MIS.

Foram feitas duas misturas convolutivas, sendo a primeira mistura composta por dois
instrumentos de sopro (saxofone contralto e saxofone soprano) e a segunda mistura
composta por dois instrumentos de cordas (violoncelo e violino). A disposio dos
componentes na sala foi estabelecida arbitrariamente para uma distncia de 1 m
entre os microfones, com as fontes xadas nas posies 1 e 2 conforme a Figura 10.2.
152
A seguir apresentaremos grcos a partir de um ndice normalmente utilizado

para comparar sinais de udio, a razo sinal distoro, dada por:
SDR = 10 log10
PN
PN
i=1
onde
s(i)
representa o sinal e
y(i)
i=1 |s(i)|
|s(i) y(i)|
(10.24)
representa a estimativa do sinal. Esta medida
equivalente ao erro RMS numa escala logartmica, conforme pode ser observado na
Figura 10.3.
10.3 Resultados Obtidos para Misturas Convolutivas

Foram usadas funes de transferncias reais [50] nas simulaes, medidas na
sala representada na Figura 10.2.
Figura 10.2: Congurao da sala.
O espaamento entre os microfones foi ora de 5 cm e ora de 1 m.
Logo,
existem um total de 2 posies de microfone (com espaamentos de 5 cm e 1 m) e 4

posies das fontes, sendo que um par de fontes ocupa duas posies necessariamente
distintas.
Portanto, teremos:
(2 posies de microfones)(26 combinaes de
153
posies das fontes), perfazendo um total de 24 funes de transferncia, uma vez

que no ocorre simetria entre as posies
(i, j)
(j, i)
das fontes em relao aos
microfones e das paredes da sala.

Foram simulados 49 pontos, onde cada ponto representa uma totalizao de
4 estimativas de fontes (sequncia monofnica). Portanto, cada ponto o resultado
da separao de duas misturas convolutivas distintas, uma mistura contendo instrumentos de cordas (violino e violoncelo) e outra contendo instrumentos de sopro
(Saxofone Contralto e Saxofone Soprano). Cada sequncia monofnica foi prejudicada no processo de separao, devido a uma contaminao com rudo branco feita
diretamente sobre os coecientes da matriz de mistura H . Essa contaminao ocorreu de forma solidria em relao a SNR, ou seja, se um coeciente foi contaminado
com uma dada SNR, todos os demais coecientes tambm sofreram contaminaes
de rudo branco (aleatrio) com a mesma SNR. Essa perturbao nos coecientes
da matriz de mistura visa provocar um erro na estimativa dessa matriz.
A idia
identicar a capacidade do classicador de estimar corretamente as fontes, caso

ocorra erros na estimao da matriz de mistura.
As contaminaes do sinal com rudo branco aleatrio foram feitas a partir
de 48 nveis de SNR.
Os grcos apresentados nas Figuras 10.3 a 10.4 foram feitos a partir das
duas misturas anteriormente descritas.
Na Figura 10.3 o primeiro grco representa o erro de separao estimado
com a SDR e o outro o grco com a estimao do erro RMS (em escala logartmica).
O algoritmo de derreverberao se baseou na suposio que os coecientes
hij
estivessem corretamente estimados.
Erros nessas estimativas propagam os er-
ros na cadeia de manipulaes algbricas. Isso ocorre porque essas variaes (nos
coecientes) afetam a separao obtida, pois a matriz de separao empregada
funo dos
hij .
Portanto, a derreverberao car tambm prejudicada, j que ten-
tar compensar a partir desses mesmos
hij
os sinais j erradamente separados pela
matriz de separao. Uma possibilidade alternativa seria estimarmos diretamente os

coecientes de uma Matriz Inversa (correspondente a Separao + Derreverberao)
1 Cada elemento da matriz de mistura possui 4.000 amostras.

2E
rms
1
N
PN
i=1
[x(i) x
(i)]
154
50
SDR
40
30
20
10
SDR
0
31,2 40
60
80
100
120
140
Erro RMS (escala log.)
SNR sobre os coeficientes da Matriz de Separac a o

(a)
Erro RMS
2
10
10
31,2 40
60
80
100
120
140

(b)
Figura 10.3: (a) Erro RMS da separao (MIS); (b) SDR (MIS).
conforme a proposta presente em diversos trabalhos tal como [52]. No entanto, a

tendncia foi melhorar a SDR com o aumento da SNR, sendo que, a partir de uma
SNR maior que 50 dB a tendncia foi estimar corretamente todas as classes dos
instrumentos testados.
Houve em alguns pontos da curva, pequenas variaes contra a tendncia.
Isso certamente tem como um dos fatores o fato de terem sido feitas poucas simulaes.
Conforme j foi dito, cada ponto representado por duas misturas, onde
cada mistura foi equivocadamente separada j que a matriz de separao foi contaminada com rudo branco (um padro de rudo branco para cada coeciente da
matriz), quando o mais correto seria termos para cada mistura a sua separao
perturbada por vrias matrizes de contaminao com rudo branco.
No entanto,
em cada ponto, cada mistura teve sua separao contaminada com uma matriz de
contaminao de rudo branco diferente.
Pode-se observar na Figura 10.4 que, at uma SNR em torno de 90 dB (SDR
prxima a 20 dB), a separao das fontes evolui pouco com a SNR, e exatamente
155
50
SDR
SDR
40
30
20
10
0
31,2 40
60
80
100
120
140

(a)
1
% de Acerto
% de Acerto
0.8
0.6
0.4
0.2
0
31,2 40
60
80
100
120
140

(b)
Figura 10.4: (a) Erro de separao (MIS); (b) Taxa de acerto classicao (MIS).
nesse trecho que a taxa de acerto do classicador mais progride com a SNR. A partir
desse ponto, o classicador estabiliza a sua taxa de acerto mdia e passa a ocorrer
uma melhora signicativa na separao.
A dependncia com a separao do classicador ocorre na faixa da SNR em
que o classicador no apresenta suas melhores taxas, indicando que nessa regio
uma melhora ou piora na separao afeta a capacidade do classicador em acertar.
A partir desse ponto (SNR prximo a 90 dB, onde o rudo j no afeta tanto o sinal),
a melhora na separao no afeta a capacidade do classicador em acertar. Assim,
existem duas regies em relao SNR quanto a taxa de acerto do classicador:
uma em que a taxa de acerto do classicador dependente da separao, e outra
em que a taxa de acerto do classicador no dependente da separao.
segunda regio representa a regio em que as perturbaes nos coecientes
hij
Essa
no
causam perturbaes nas notas sucientes para afetar a capacidade do classicador

de identicar o instrumento.
156
Parte IV
Concluso
157
Captulo 11
Concluso
Essa dissertao apresentou vrios estudos, assim como alguns comparativos
com trabalhos internacionais, em classicao de instrumentos. Importa ressaltar
que os resultados que aqui sero relatados esto limitados s bases de dados que
foram empregadas. Portanto, a despeito de os resultados sugerirem um alcance amplo, cumpre ser cuidadoso para no estender em demasia o campo de aplicabilidade
das concluses.
No Captulo 3 diversos mtodos de extrao de segmentos de uma nota musical foram descritos. A ideia por trs dessa abordagem a hiptese de se poder
identicar um instrumento musical atravs de uma codicao sobre uma regio
particular da nota musical; ou seja, no imperioso codicarmos aspectos relativos
nota inteira. Esse princpio comumente encontrado em diversos problemas presentes em nosso cotidiano, como por exemplo, na identicao de pessoas atravs
das digitais, onde no necessrio codicarmos informaes sobre o corpo inteiro
ao discriminarmos os indivduos.
Assim, em alguns casos, concentrar a extrao
de informaes numa regio particular (reduo do espao de codicao) mais

efetivo que obter a mesma quantidade de informaes de uma regio muito maior,
ou aumentar a quantidade de informaes de forma a cobrir o corpo inteiro com a
mesma densidade .
Essa abordagem no foi observada em outros trabalhos encontrados na literatura em identicao de instrumentos musicais possuindo dois fatores que a justicam. Em primeiro lugar, em muitos casos o excesso de informao atua mais como
1 O que implica um maior custo computacional oriundo do aumento da dimensionalidade.
158
um agente incrementador da complexidade na busca da soluo do que propriamente

como um agente viabilizador da soluo. Isso ocorre em nosso problema porque de
fato diversos algoritmos de reconhecimento so algoritmos de otimizao e, portanto,
sensveis aos problemas de dimensionalidade, que podem afetar o seu processo de
convergncia na busca dos mnimos ou mximos globais.
Dessa forma, podemos
perceber que o excesso de informao pode ser prejudicial na busca do timo. Em

segundo lugar, resolver problemas buscando informaes numa regio menor para
a maioria dos casos levar menos tempo do que resolver o mesmo problema buscando informaes numa regio muito maior.
Esses so alguns dos aspectos que
diferem o que necessrio descrever (vetor descritor) para uma classicao do que
necessrio descrever para uma reproduo.
Assim, a ideia (diferente da usual, que consiste em passear uma janela ao
longo da nota e ir extraindo caractersticas da nota) determinarmos somente um
segmento da nota que a princpio contenha informao suciente para discriminar
os instrumentos musicais, a partir do procedimento de extrao de caractersticas
previamente estabelecido.
Dessa forma, avaliaram-se algumas formas distintas de se obter segmentos de
interesse das notas musicais. Os modelos de segmentao avaliados nessa dissertao
podem ser subdivididos em classes: segmentadores por limiar, segmentadores por
pitch e o modelo ADSR [2]. Nessa dissertao avaliaram-se os seguintes modelos:

o modelo ADSR, que segmenta a nota musical nos trechos de ataque, decaimento,
sustentao e relaxao; um modelo elaborado para essa dissertao, o modelo IMF,
baseado em parte nos modelos TP [19] e no modelo de deteco da nota por limiar;
e nalmente um modelo de segmentao baseado na estimao do pitch. Todos esses
modelos podem ser adaptados para uso com outros sinais, tais como pulso RADAR.
Os segmentadores por pitch se mostraram particularmente pouco ecientes
para discriminar segmentos dentro da nota, sendo capazes somente de detectar a
presena da nota em meio ao rudo de fundo. Portanto, no foram utilizados nos
testes do classicador para avaliao de desempenho.
Nem todos os segmentos obtidos foram investigados. O segmento de sustentao do modelo ADSR no foi avaliado visto, que em diversos casos havia notas
que no apresentavam esse segmento. Isto ocorreu nas notas dos instrumentos de
159
cordas com pizzicato, em que o padro temporal basicamente formado pelo ataque seguido de relaxao, a qual sua envoltria segue um padro aproximado de
uma exponencial decrescente.
Assim, foram avaliados os segmentos de ataque do
modelo ADSR, de subida do modelo IMF e o intermedirio do modelo IMF. Desses

segmentos, destacaram-se como bons discriminadores o segmento intermedirio com
codicao MFCC, LSF e LPC, e o segmento de ataque com codicao MFCC
e LSF. Os resultados obtidos para o segmento intermedirio com MFCC e LSF
sempre apresentaram taxas de acerto superiores s taxas de acerto obtidas pelos
segmentos de ataque para seus respectivos codicadores, independentemente dos tamanhos testados. Assim, preferiu-se somente classicar as notas usando segmentos
intermedirios do modelo IMF.
Um resultado interessante foi a constatao de que variando-se dentro de
certos limites o tamanho do segmento intermedirio, no ocorre uma tendncia na
reduo da taxa de acerto. Pelo contrrio, em alguns casos propicia-se um aumento
na taxa de acerto, indicando que a reduo do tamanho desse segmento central pode
continuar. Logo, muito provavelmente uma tendncia na reduo da taxa de acerto
ocorrer para algum valor de limiar acima de 90% do valor mdio segundo o modelo
IMF. Nessa dissertao usamos limiares variando de 10% a 90% do valor mdio da
potncia do sinal. Provavelmente, o valor timo desse limiar ser varivel em funo
do padro da nota.
Pelo que sabemos esse fenmeno no gura na literatura da
rea, sendo necessrio recorrer a mais simulaes em outras bases de dados para ser
generalizado.
Alguns trabalhos de reconhecimento citam o trecho de ataque como importante para se extrair caractersticas capazes de discriminar fontes distintas [18],
dessa forma, vrios trabalhos codicam o segmento central juntamente com outros
segmentos (parte do ataque e parte da relaxao) [3, 6, 25, 46].
No entanto, os
resultados obtidos nessa dissertao prope que haja uma reduo da regio que se
pretende codicar (segmento central pelo modelo IMF). Assim, para o uso exclusivo do segmento de ataque (ou segmentos iniciais) num sistema de reconhecimento
automtico de instrumentos musicais, deve-se tomar cuidado com pelo menos trs
fatores que podem atuar como agentes perturbadores da taxa de acerto:
1. a impreciso do instante de encerramento do trecho de ataque, o que pode
160
determinar, para amostras do mesmo instrumento, perdas de caractersticas

importantes ou acrscimos no pertinentes, dicultando a identicao de padres;
2. o reduzido nmero de amostras, em alguns instrumentos, obtidas para caracterizar esse segmento. Tal restrio poderia ser contornada aumentando-se a
taxa de amostragem. Isto foi percebido pelo fato de vrias notas apresentarem
poucas amostras para esse segmento, obrigando a insero de uma regra de
tamanho mnimo (1024 amostras) ;
3. a escolha do conjunto de caractersticas que melhor se presta para diferenciar

os instrumentos a partir desse segmento.
Nesse ltimo caso, o codicador
MFCC se mostrou promissor, abrindo possibilidades de se investigar o uso de

mais de um segmento com mtodos de extrao de caractersticas distintas
para a formao do vetor de caractersticas.
Existem outros mtodos de segmentao alm dos elaborados ou reportados nesta dissertao.
Como exemplo, podemos citar modelos preditivos usando
SVM [53]. Cabe enfatizar que no avaliamos todos os tipos de codicadores, tais
como: LPCC [3], Wavelet [54, 55, 56] e RASTA-PLP [54, 57]. Uma avaliao exaustiva do impacto do uso dos parametrizadores acima sobre o desempenho do sistema
classicador seria extremamente laboriosa, haja vista o alto nmero de combinaes envolvidas e as complexas dependncias entre os vrios estgios do sistema de
classicao. Sendo assim, optou-se por utilizar um conjunto limitado de parmetros. Contudo, foi possvel constatar que, para o emprego usado nessa dissertao,
os classicadores empregados mostraram uma preferncia em ordem decrescente da
taxa de acerto para as codicaes LSF, MFCC, LPC e CEPSTRUM. Esse resultado tambm conrma as concluses de um dos primeiros trabalhos na rea [6],
acrescentando somente a presena do codicador LSF descrita em [3].
O resultado de Krishna e Sreenivas [3], sugere o uso preferencial do LSF no
lugar do MFCC conjuntamente para os classicadores GMM e
K -NN,
e tem seu
2 Pode-se argumentar que um aumento na taxa de amostragem no necessariamente incrementar a quantidade de informao que extrairemos do sinal, j que o sinal pode vir a ser limitado
em banda; por outro lado, esses segmentos costumam ser de banda larga, e eventualmente essas
informaes de alta frequncia podem ser determinantes para caracterizar o instrumento.
161
escopo parcialmente conrmado nas solues nais observadas para o agrupamento

MFPC, apesar da forma de extrao de caractersticas desenvolvida nessa dissertao
ser diferente da desenvolvida em [3] (ou seja, para os classicadores
K -NN,
DLG e
SVM, a LSF apresentou resultados ligeiramente superiores aos da MFCC, com as

diferenas observadas no sendo to signicativas quanto as constatadas em [3]).
Esse resultado nal no foi observado em vrias outras conguraes, quando a
MFCC apresentou desempenho um pouco melhor que a LSF. Portanto, pode-se
armar que ambos os codicadores apresentaram desempenhos equivalentes para a
forma de extrao e classicao utilizada nessa dissertao.
Essa dissertao no teve a pretenso de enumerar todas as abordagens de
classicadores, tampouco todas formas de se obter uma classicao multiclasse.
No entanto, a abordagem multiclasse um-contra-um obteve resultados signicativamente superiores aos da abordagem um-contra-todos, sendo tal resultado consoante com [6].
Foi tambm proposta nessa dissertao uma implementao de um classicador DLG, o qual no foi encontrado na literatura em identicao de instrumentos
musicais.
Este classicador foi idealizado como um misto de alguns conceitos do
modelo usado pela SVM (uso de hiperplano separador para discriminar duas classes no espao de caractersticas) e de alguns conceitos presentes em Redes Neurais
(similaridade na funo custo a ser minimizada). Tal classicador aceita transformaes no espao de entrada, sendo que para se obter a soluo multiclasse foram
usadas tcnicas descritas no Captulo 6, e que normalmente so usadas para a SVM.
J as transformaes no espao de entrada que o classicador DLG utilizou nessa
dissertao foram baseadas em [33].
Ao compararmos os melhores resultados obtidos por cada classicador no
se observou uma preferncia clara entre os classicadores, sendo que o classicador
DLG obteve taxas ligeiramente inferiores que as dos demais (cerca de 2 a 3 pontos percentuais para menos). No entanto, a melhor soluo com o codicador LPC
foi obtida com o uso do classicador DLG (entre 2 e 3 pontos percentuais para
mais). Essa pequena diferena na taxa de acerto entre os demais classicadores e
o DLG persistiu tambm para o agrupamento INSTRUMENTO da base de dados
MIS. Essa diferena pode em parte ser explicada pela taxa de acerto obtida para
162
o conjunto de treinamento.
Observamos tambm que para nenhum caso a DLG
conseguiu 100% de separao para o conjunto de treinamento, o que no ocorreu

com a SVM. Esse resultado indica que ou a transformao polinomial no foi adequada para conseguir uma separao total dos conjuntos das amostras no espao
das caractersticas ou a condio de parada da DLG interrompeu antecipadamente
o processo de convergncia (por estar lento), ou ambos. Independente de qual foi
o principal responsvel, a consequncia um hiperplano no posicionado no timo
para o conjunto de treinamento.
Em alguns casos identicou-se que houve uma
parada antecipada. Nesses casos, aumentou-se um pouco mais o limite de iteraes

que determina a parada. Tal procedimento afeta de forma combinatorial o tempo
de execuo do algoritmo como um todo, j que o problema multiclasse foi tratado
usando a abordagem um-contra-um.
Nas simulaes com a envoltria da potncia do sinal, vericou-se para todas
as bases de dados que quanto maior a suavizao menor a taxa de acerto. Assim,
a envoltria pelo mtodo da mdia RMS obteve taxas de acerto inferiores s da
envoltria pelo mtodo DEAM, o qual por sua vez obteve desempenho inferior ao
mtodo da Potncia Instantnea do sinal. Isso ocorreu nos trs codicadores que
foram testados e em todos os agrupamentos para as trs bases de dados utilizadas.
Entretanto, s se avaliou esse resultado com um classicador
o escopo dessa armao.
K -NN, o que restringe
Algumas dessas diferenas (em determinadas famlias,
para todas as bases de dados) foram superiores a 50% na taxa de acerto.
Esses
resultados sugerem que houve perda de informao.

Apresentou-se nesse trabalho abordagens para se obter a classicao de sinais alternativas ao modelo padro, mostrando que o reagrupamento pode eventualmente apresentar resultados melhores. Da mesma forma, essa comparao entre
o modelo padro e o modelo hierrquico com o modelo de reagrupamento no foi
observada em outros trabalhos em indenticao de instrumentos musicais.
Famlias de instrumentos distintas formando agrupamentos hierrquicos com
o mesmo nmero de classes (MFPC, FRBS) foram utilizadas apresentando resultados ligeiramente distintos para o mesmo conjunto de teste e treinamento.
Ao nal do procedimento de elaborao dos melhores classicadores, obtivemos quatro solues (1, 2, 5 e 6) que apresentaram os melhores desempenhos para
163
a base de dados MIS, usando o agrupamento MFPC, contendo quatro classes representadas por famlias de instrumentos, de um total de 14 instrumentos. Todas
obtiveram taxas de acerto iguais ou superiores a 98,8%. Essas solues foram avaliadas para um novo agrupamento contendo 14 classes (instrumentos), mantendo o
excelente desempenho, com as seguintes taxas de acerto: 95,6%, 94,8%, 94,8% e
96,4% para as solues 1, 2, 5 e 6, respectivamente.
Vericou-se que essas solu-
es mantem o mesmo desempenho para um novo agrupamento contendo 17 classes

formadas por amostras de outra base de dados (RWC), obtendo as seguintes taxas
de acerto: 86,8%, 94,1%, 95,4% e 89,8% para as solues 1, 2, 5 e 6, respectivamente. Isso demonstra a capacidade de migrao da soluo obtida de um agrupamento contendo 4 classes, usando uma determinada base de dados (MIS), para um
novo agrupamento contendo 17 classes (instrumentos) com uma outra base de dados
(RWC). Cabe observar que a soluo 2 e a soluo 5 praticamente no apresentaram
degradao no desempenho com a mudana de base de dados.
Foi observado que o uso de um banco de classicadores para determinar a
classe da amostra apresentou ganhos em relao s solues individuais dos classicadores para os dois agrupamentos testados (MFPC e INSTRUMENTO). Assim,
o classicador proposto nessa dissertao composto por 4 classicadores, 2 SVM
e 2
K -NN,
congurados para as solues 1, 2, 5 e 6 descritas na Tabela 7.29. Essa
abordagem de uso de banco de classicadores para identicao de instrumentos

musicais tambm no foi observada em outros trabalhos para esse mesmo propsito.
As estimativas da taxa de acerto para reconhecer os 14 instrumentos da base
de dados MIS e os 17 instrumentos da base de dados RWC usados nessa dissertao so de 97,2% e 97,1%, respectivamente, para o classicador proposto em cada
uma das bases de dados, e para suas famlias de instrumentos de 99,2% e 99,0%,
respectivamente.
A estimativa da taxa de acerto para reconhecer os 20 instrumentos das 3 bases
de dados proposta nessa dissertao na forma mais rigorosa (com 100% das amostras
para teste com reverberaes) de 92% e na forma menos rigorosa (com 22% das
amostras para teste com reverberaes) de 94%. Esse resultado est conforidade
com os resultados obtidos na literatura, sendo a taxa de acerto global ligeiramente
superior s taxas de acertos apresentadas em trabalhos anteriores.
164
Contudo, tais
comparaes com esses trabalhos devem ser atenuadas devido s eventuais diferenas nos testes, como as bases de dados utilizadas e os agrupamentos hierrquicos
avaliados.
Nessa dissertao foi tambm abordado o problema de identicao das fontes em um sinal polifnico a partir de misturas instantneas. Foram usadas duas
abordagens, uma contendo um separador de fontes e outra sem o separador de fontes.
O separador de fontes empregado foi otimizado de forma a interferir minimamente
na taxa de acerto do classicador. De fato, as simulaes avaliaram a capacidade
do classicador conseguir classicar corretamente as notas distorcidas pela superposio temporal, a qual no foi possvel resolver com separador de fontes otimizado.
Para esse caso, vericou-se que misturas contendo at 6 fontes foram estimadas corretamente. J para misturas sem o separador de fontes vericou-se que misturas com
at 5 fontes tiveram as duas estimativas mais votadas corretamente identicadas.
Tambm se avaliou a robustez do classicador ao contaminar uma sequncia
monofnica com rudo branco e sinal interferente.
Vericou-se que o classicador
apresentou uma maior sensibilidade contaminao com rudo branco do que

contaminao com sinal interferente. O motivo dessa sensibilidade se deve ao fato do
rudo branco perturbar signicativamente todas as raias no domnio da frequncia,
para todos os quadros, o que no ocorre com o sinal musical interferente.
Essa
caracterstica (do rudo branco no possuir uma estrutura harmnica) diculta a

associao das amostras s fontes originrias. Foram avaliadas as curvas da taxa de
acerto do classicador em funo da SNR e da SIR. Para valores de SNR superiores a
20 dB e SIR superiores a 6 dB, o classicador apresentou excelente desempenho. Esse
resultado evidencia a maior diculdade que o classicador obteve para identicar
sinais contaminados com rudo branco.
Posteriormente vericou-se a capacidade do classicador de identicar misturas convolutivas. Percebeu-se que a distoro causada por um algoritmo separador
suciente para fazer com que o classicador errasse as estimativas.
Assim, foi
necessrio usar um algoritmo de derreverberao para corrigir essas distores causadas pelo algoritmo separador de misturas convolutivas. Avaliou-se nesse caso uma
perturbao com rudo branco nos coecientes da matriz de separao que sero
determinantes para a deconvoluo da distoro causada pelo algoritmo separador.
165
Os resultados indicam que a SNR necessria para que o classicador consiga estimar corretamente as fontes alta, superior a 90 dB. Esse resultado dependente do
mtodo que foi avaliado nessa dissertao.
No apndice B foi feita uma comparao direta entre os resultados obtidos
em [3] e os resultados obtidos nessa dissertao. A base de dados empregada foi a
MIS, e os instrumentos avaliados em ambos os trabalhos foram os mesmos (14 instrumentos). As diferenas residem somente na formao do conjunto de treinamento
(que em [3] no foi informado) e nos agrupamentos familiares, que foram alterados
no apndice B de forma a se poder fazer a comparao. As taxas de acerto obtidas
para o agrupamento familiar foram de 95% em [3] contra 98,8% nessa dissertao,
e para os instrumentos foram de 90% em [3] contra 96,4% obtida pela soluo 6 ou
97,2% obtida pelo banco de classicadores formado pelos sistemas de classicao
denidos nas solues 1, 5 e 6, de forma que os resultados obtidos nessa dissertao
para esse agrupamento com essa base de dados superaram os melhores resultados
observados na literatura para esses mesmos agrupamento e base de dados.
Essa dissertao levanta algumas questes que possivelmente podem resultar
em futuros trabalhos nas reas de segmentao, codicao, classicao e agrupamentos hierrquicos visando um sistema de reconhecimento automtico para instrumentos musicais.
Na rea de segmentao, no foi observada uma reduo signicativa da taxa
de acerto com a reduo do segmento central. Com isso abre-se a possibilidade de
um trabalho que consiga caracterizar o tamanho mnimo desse segmento para uma
dada nota.
Uma caracterstica que se deve levar em conta no modelo IMF que
o segmento central possui parte do segmento de ataque mais o decaimento acrescido de parte do segmento de sustentao (ou, quando esses no ocorrem, parte
da relaxao). Tambm se deve destacar que grande parte das notas com pizzicato
dos instrumentos de cordas, que no possuem sustentao conforme pode ser observado na Figura 3.7 (envoltria da nota C4 de um violino), tiveram uma alta taxa
de acerto.
Assim, para todos os casos sempre esteve presente parte do segmento
de ataque mais o segmento de decaimento ou parte do segmento da relaxao. Se

assumirmos que para os instrumentos que no possuem sustentao a parte inicial
da relaxao se confunde em parte com o decaimento, podemos supor que bastaria
166
codicar parte do ataque mais o decaimento (ou parte da relaxao, caso no exista
sustentao) para caracterizar o instrumento musical, uma vez que esses trechos da
nota representam o intervalo entre o comeo do m do ataque da nota e o incio
da sustentao ou relaxao da nota, ou seja, onde o instrumentista teria menor
controle sobre a nota. Possivelmente por esse motivo esses trechos carregariam menor contaminao volitiva, e portanto, uma informao mais limpa do instrumento
musical. Alm dessa questo, existe a possibilidade de avaliar-se o desempenho do
trecho de relaxao, que no foi abordado nesse trabalho, como tambm de qualquer
outro segmento decorrente de mtodos de segmentao que no foram investigados
nesse trabalho.
Na rea de codicao foi observado que o codicador MFCC apresentou o
melhor resultado para o trecho de ataque, enquanto que o codicador LSF apresentou um desempenho ligeiramente superior para o segmento central do modelo IMF.
Assim, pode-se investigar em trabalhos futuros a associao desses 2 trechos com
essas codicaes distintas combinados ou no com a transformada Wavelet para
a formao de um vetor de caractersticas com potencial de discriminao maior.
Alm dessas questes, pode-se avaliar o uso de outros codicadores tais como LPCC
e RASTA-PLP.
Na rea de classicao o classicador DLG com uma transformao polinomial para o espao de caractersticas apresentou taxas de acerto superiores a 97%
(para o agrupamento MFPC), provando que o desempenho da sua implementao
na forma generalizada proposta nessa dissertao para essas bases de dados comparvel dos demais classicadores empregados nessa dissertao, de forma que
o uso de discriminantes lineares na rea de classicao de instrumentos musicais
no pode ser desprezado. Assim, pode-se pensar em trabalhos futuros usando uma
implementao otimizada do DLG com uso de variados kernels a m de reduzir o
seu tempo de resposta e de melhorar seu desempenho, uma vez que a transformao
para o espao de caracterstica que a SVM (gaussiana) empregou pode ter favorecido
esse ltimo na conquista das melhores solues. Outra melhoria possvel que essa
implementao de DLG permite variaes nas funes objetivos, o que pode angariar melhorias no seu desempenho. O classicador DLG elaborado nessa dissertao
usou um mtodo de busca de mnimo local baseado no algoritmo LMS normalizado.
167
No entanto, nada impede que se usem outros mtodos de busca de mnimos locais
ou globais mais ecientes ou mais rpidos, dependendo da situao.
Alm dessa
questo, observou-se ainda que a maioria dos trabalhos nessa rea utilizam GMM
ou SVM. Existem alguns casos especcos com Redes Neurais e HMM. Portanto, a
abordagem apresentada nessa dissertao pode ser avaliada juntamente com esses
demais classicadores.
Com relao aos agrupamentos foi mostrado nessa dissertao que o modelo
de reagrupamento difere do modelo padro. Portanto, em trabalhos futuros pode-se
desenvolver novos agrupamentos das amostras dos instrumentos a partir das semelhanas entre elas (medidas por mtrica) ou estimadas pela taxa de acerto (por um
sistema de reconhecimento previamente denido) para uma dada estratgia, visando
reduzir erros de confuso entre instrumentos, e com isso atingir melhores resultados.
Nessa busca possivelmente ser necessrio usarmos clusterizadores.
Com relao ao modelo hierrquico obteve-se no nico caso estudado uma
congurao capaz de discriminar 100% das amostras da famlia MFPC tanto em
teste quanto em treinamento. Isso foi possvel alterando-se para cada n a soluo
(vetor de caracterstica mais classicador) o que levanta a questo de se estudar
qual a melhor estrutura hierrquica (rvore) para se classicar um agrupamento
(conjunto de classes, folhas).
Vericou-se que a presena da reverberao afeta a taxa de acerto. Isso foi
vericado tanto na base de dados MUMS (cujas amostras esto contaminadas com
reverberao) quanto nas misturas convolutivas em uma sala (com reverberao).
Assim, pode-se pensar em usar um conjunto de descritores que sejam menos sensveis reverberao, ou em alguma transformao sobre o vetor de caracteristicas
j formado, uma vez que contornar a distoro causada pela reverberao algo
extremamente complicado visto que a reverberao pode alterar drasticamente o
espectro de forma desconhecida.
168
Referncias Bibliogrcas
[1] Anssi Klapuri e Manuel Davy, Signal Processing Methods for Music Transcrip-
tion, Springer, Science+Business Media LLC, 2006.

[2] Hyoung-Gook Kim, Nicolas Moreau e Thomas Sikora, Introduction to MPEG-7
audio, John Wiley & Sons Ltd, 2005.

[3] A. G. Krishna e T. V. Sreenivas, Music instrument recognition: from isolated
notes to solo phrases, Proc. of ICASSP, pp. 265-268, 2004.
[4] Keith D. Martin e Youngmoo E. Kim,
Musical instrument identication: A
pattern-recognition approach, 136th meeting of the Acoustical Society of America, 1998.
[5] Frank Opolko e Joel Wapnick,
McGill University Master Samples, conjunto
com 3 DVDs, disponibilizada pela McGill University, Montreal,

via http://www.music.mcgill.ca/resources/mums/html/mums.html, 1987.
[6] Janet Marques e Pedro J. Moreno,
A Study of Musical Instrument Classica-
tion Using Gaussian Mixture Models and Support Vector Machines, Cambridge
Research Labs Technical Report Series CRL/4, 1999.
[7] Antii Eronen e Anssi Klapuri,
Music instrument recognition using cepstral
coecients and temporal features, Proc. of ICASSP, pp. 753-756, 2000.

[8] G. Agostini, M. Longari e E. Pollastri, Music instrument timbres classication
with spectral features, Proc. of ICME, pp. 97-102, 2001.
[9] Teisuro Kitahara, M. Goto e H. G. Okuno,
Music instrument identication
based on F0-dependent multivariate normal distribution, Proc. of ICASSP, pp.

421-424, 2003.
169
[10] Lawrence Fritts, Musical Instruments Samples of IOWA University, MIS, disponibilizada pela University of IOWA
via http://theremin.music.uiowa.edu/MIS.html, 1997.
[11] Masataka Goto e Takuichi Nishimura,
RWC Music Database: Music Genre
Database and Musical Instrument Sound Database, disponibilizada pela National Institute of Advanced Industrial Science and Technology (AIST), via
http://sta.aist.go.jp/m.goto/RWC-MDB/m, ISMIR, pp. 229-230, 2003.
[12] Bohumil Med,
Teoria da Msica, 4.ed. rev. e ampl., Braslia, DF, Musimed,
1996.
[13] Margaret J. Kartomi, On Concepts and Classications of Musical Instruments,
Chicago: University of Chicago Press, 1990.

[14] Margaret J. Kartomi, Wikipedia, Instrumento Musical, enciclopedia livre, licenciado sob CC-BY-SA , http://pt.wikipedia.org/wiki/Instrumento_musical,
maio de 2008.
[15] Erich M. von Hornbostel e Curt Sachs,
Classication of Musical Instruments:
Translated from the Original German by Anthony Baines and Klaus P. Wachsmann, The Galpin Society Journal, vol. 14, pp. 3-29, 1961.
[16] Tiago de Oliveira Pinto,
Som e msica. Questes de uma Antropologia So-
nora, Rev. Antropol., vol.44, no.1, 2001.

[17] Hwei P. Hsu, Teoria e Problemas de Comunicao Analgica e Digital,
2.ed.,
Porto Alegre, Bookman, pp. 56, 2006.
[18] Keith Dana Martin,
Sound-Source Recognition: A Theory and Computational
Model, Tese de Ph.D. submetida ao departamento de Engenharia Eltrica e

Cincia da Computao, Massachusetts Institute of Technology, MIT, 1999.
[19] RAS, Electronic Inteligence,
Introduction to Radar, Signal Interception and
EW Databases, Notas, 1995.
[20] Judith C. Brown,
Calculation of a constant Q spectral transform, J. Acousti.
Soc. Am., 89, pp. 425-434, 1991.
170
[21] Judith C. Brown e M. S. Puckette,
An ecient algorithm for the calculation
of a constant Q transform, J. Acoust. Soc. Am., 92, pp. 2698-2701, 1992.

[22] UCL Department of Phonetics and Linguistics, Introduction to Computer Pro-
gramming with MATLAB, Lecture 10: Speech Signal Analysis, disponibilizada

via http://www.phon.ucl.ac.uk/courses/spsci/matlab/lect10.html, setembro de
2008.
[23] Peyton Z. Peebles, Jr,
Probability, Random Variables, and Random Signal
Principles, 4.ed., McGraw Hill, New York, 2001.
[24] Adam Kawalec e Robert Owczarek,
Radar Emitter Recognition Using Intra-
pulse Data, Microwaves, Radar and Wireless Communications, MIKON-2004,

15th International Conference, vol. 2, pp. 435-438, 2004.
[25] Jeremiah D. Deng, Christian Simmermacher e Stephen Craneeld, A Study on
Feature Analysis for Musical Instrument Classication, IEEE Transactions On

Systems, Man, And Cybernetics-Part B: Cybernetics, vol. 38, no. 2, 2008.
[26] Lawrence Rabiner e Biing-Hwang Juang,
Fundamentals of Speech Recogni-
tion, Englewood Clis, Prentice-Hall, New Jersey, 1993.
[27] Alan V. Oppenheim e Ronald W. Schafer,
Discrete-Time Signal Proces-
sing, Prentice Hall, Englewood Clis, New Jersey, 1989.

[28] Marina Bosi e Richard E. Goldberg, Introduction to Digital Audio Coding and
Standards, Kluwer Academic Publishers, 2.ed., Norewll, Massachusetts, USA,

2003.
[29] Alexandre Leizor Szczupak Identicao de Notas Musicais em Registros Solo
de Violo e Piano, Dissertao de Mestrado, COPPE/UFRJ, 2008.
[30] Jorge C. Pires Filho, Diego B. Haddad e Luiz P. Caloba,
Classicao de
Padres de Varredura de Radares, Anais do VIII Congresso de Redes Neurais,

vol. 1, 2007.
[31] Antii Eronen,
Musical instrument recognition using ICA-based transform of
features and discriminatively trained HMMs, Signal Processing and Its Appli-
171
cations, In Proceedings. Seventh International, Symposium, vol. 2, pp. 133-136,

2003.
[32] Jorge C. Pires Filho, Diego B. Haddad e Luiz P. Calba, Tcnicas de Reconhe-
cimento de Padres aplicadas na Classicao de Varreduras de Radar, Anais

do IX Simpsio Internacional de Guerra Eletrnica, vol. 1, 2007.
[33] Jorge C. Pires Filho, Paulo Antonio Andrade Esquef e Luiz Wagner Pereira
Biscainho, Classicao Automtica de Sons de Instrumentos Musicais usando
Discriminantes Lineares, 6o Congresso da AES Brasil, 12a Conveno Nacional

da AES Brasil, pp. 112-118, 2008.
[34] Ian Kaminskyj e Tadeusz Czaszejko,
Automatic Recognition of Isolated Mo-
nophonic Musical Instrument Sounds using kNNC, Journal of Intelligent Information Systems, vol. 24, no. 2-3, pp. 199-221(23), 2005.
[35] Richard O. Duda, Peter E. Hart e David G. Stork, Pattern classication, John
Wiley & Sons, Inc, New York, 2000.
[36] John R. Deller, John H. L. Hansen e John G. Proakis, Discrete-Time Processing
of Speech Signals, IEEE Press, 2000.
[37] Simon Haykin,
Neural Networks a Comprehensive Foundation, Prentice Hall,
2a. Ed., 1999.
[38] Vladimir Vapnik,
The Nature of Statistical Learning Theory, Springer, New
York, 1995. ISBN 0-387-94559-8.
[39] Steve R. Gunn,
Support Vector Machines for Classication and Regression,
Technical Report - Faculty of Engineering, Science and Mathematics School of

Electronics and Computer Science, Southtampton University, 1998.
[40] Simon Haykin, Adaptive Filter Theory, Prentice Hall, New Jersey, 1996.
[41] Nachman Aronszajn, Theory of Reproducing Kernels, Transactions of the Ame-
rican Mathematical Society, vol. 68, no. 3, pp. 337-404, 1950.

[42] Grace Wahba, Spline Models for Observational Data,
172
SIAM, 1990.
[43] Nancy Heckman, The theory and application of penalized least squares methods
or reproducing kernel Hilbert spaces made easy, UBC Statistics Department

Technical Report, no. 216, 1997.
[44] E. Osuna, R. Freund e Fredrico Girosi, Training support vector machines: An
application to face detection, In Proc. IEEE Conference on Computer Vision

and Pattern Recognition, pp. 130-136, IEEE Press, 1997.
[45] Christopher J.C. Burges,
A tutorial on support vector machines for pattern
recognition, Data Mining and Knowledge Discovery 2, pp. 121-167, 1998.

[46] Antti Eronen,
Automatic Musical Instrument Recognition,
Dissertao de
Mestrado, Departamento de Tecnologia da Informao, Tampere University of

Technology, 2001.
[47] Diego Barreto Haddad,
Propostas para Separao Cega e Supervisionada de
Fontes, Dissertao de Mestrado, COPPE/UFRJ, 2008.

[48] Tairone Magalhes et al, Segmentao automtica de sinais musicais monof-
nicos para anlise da expressividade, XVIII Congresso da Associao Nacional

de Pesquisa e Ps-Graduao (ANPPOM), 2008.
[49] Michael Noll,
Short-time Spectrum and Cepstrum Techniques for Vocal-Pitch
Detection, The Journal of American Society of Acoustic.,
vol. 36, no. 2, pp.
296-302, 1964.
[50] Herbert Buchner e Walter Kellerman, A Fundamental Relation Between Blind
and Supervised Adaptive Filtering Illustrated For Blind Source Separation and
Acoustic Echo Cancellation, HSCMA, pp. 17-20, 2008.
[51] Shoji Makino e Te-Won Lee,
Blind Speech Separation,
Series: Signals and
Communication Technology, Sawada, Hiroshi (Eds.), XV, p. 432, 2007.

[52] Isaac Osunkunle e Sayed ali Shekarchi, A survey on methods for blind acoustic
dereverberation, Blekinge Institute of Technology/(TEK), 2007.

[53] Manuel Davy e Simon Godsill,
Detection of Abrupt Spectral Changes Using
Support Vector Machines an Application to Audio Signal Segmentation, European research project MOUMIR, http://www.moumir.org.
173
[54] H. Hermansky, Perceptual linear predictive (PLP) analysis of speech, J. Acoust.
Soc. Am., vol. 87, no. 4, pp. 1738-1752, 1990.

[55] C. Pruysers, J. Schnapp e Ian Kaminskyj, Wavelet Analysis in Musical Instru-
ment Sound Classication, 8th Int. Symp Signal Proc. & Applns, University of
Wollongong, pp. 1-4, 2005.
[56] Nishan Canagarajah,
Instrument Recognition Based Wavelet Packet Tree
in Audio Feature Extraction, University of Bristol, Digital Music Research

Group, in the Proceedings of International Symposium on Musical Acoustics, (ISMA'2001), pp. 465-468, 2001
[57] H. Hermansky e N. Morgan,
RASTA processing of speech, IEEE Trans. on
Speech and Audio Proc., vol. 2, no. 4, pp. 578-589, 1994.
174
Parte V
Apndices
175
Apndice A
Banco de Dados de Instrumentos
Foram utilizados no desenvolvimento deste trabalho de reconhecimento de
instrumentos musicais trs bancos de dados de instrumentos:
um fornecido pela
Universidade de Iowa [10], outro fornecido pela Universidade McGill [5] e o ltimo
uma base de dados japonesa denominada RWC Music Database [11]. Nem todas as
amostras contidas em cada banco de dados foram utilizadas, ou seja, foram utilizados
nessa dissertao somente alguns dos instrumentos, tendo havido preferncia para os
instrumentos que aparecem em todas as bases de dados. No entanto, especicamente
em relao base de dados MIS, a escolha do subconjunto de instrumentos musicais
foi feita com o intuito de avaliar o desempenho do algoritmo proposto em relao a
um outro trabalho internacional (desenvolvido por Krishna [3]). Somente a partir
desse subconjunto que buscou-se os instrumentos equivalentes nas demais bases de
dados.
Posteriormente, acrescentamos mais alguns instrumentos das outras bases
de dados, principalmente os instrumentos de percusso, visto que os mesmos no

existem na base de dados MIS.
A.1 Banco de Dados de Instrumentos MIS-IOWA

As amostras de Instrumentos Musicais da Universidade de Iowa (UIowa)[10]
foram criadas em 1997 por Lawrence Fritts, Diretor da Electronic Music Studios and
Associate e professor de composio da mesma Universidade. Os sons dos instrumentos musicais foram gravados em uma cmara anecica no Johnson Speech and
Hearing Center na Universidade de Iowa com os seguintes equipamentos: Microfone
176
Neumann KM 84 ; Mixer Mackie 1402-VLZ ; Gravador DAT anasonic SV-3800.

As gravaes foram transferidas digitalmente para um Macintosh Power PC
8500 atravs de uma interface Digidesign Audiomedia III (1997-1999) e para um

Macintosh G4 por uma interface digital Digidesign Digi-001 (2000-).
Posterior-
mente foram editadas para arquivos de udio utilizando a ferramenta Digidesign
Sound Designer II (1997-1999) ou a Bias Peak (2000-). Para cada instrumento musical selecionado foram gravados (cobrindo toda a tessitura do instrumento) escalas
cromticas com trs nveis dinmicos no normalizados (pp, mf, , ou seja, pianssimo, mezzo forte, e fortssimo), feitas em mono, 16 bit, 44,1 kHz, e formato AIFF.
A nica exceo o piano cujo som foi gravado em um pequeno estdio (ambiente
no anecico) na forma stereo.
Cada nota tem aproximadamente 2 segundos de durao e imediatamente
precedida e seguida de um intervalo. Quando pertinentes, diferentes estilos de execuo e recursos expressivos foram gravados (por exemplo: amostras de sons de violino,
viola e violoncelo com ou sem vibrato alm de execuo com arco em pizzicato ).
Na Tabela A.1 so apresentados todos os instrumentos contemplados por este
banco de dados.
177
Instrumento
Arquivo
Notas
Alto Flute
11
99
Alto Saxophone
18
192
Bass Clarinet
12
139
Bass Flute
10
102
Bass Trombone
12
131
Bassoon
15
122
Bb Clarinet
13
139
Bb Trumpet
24
212
Cello
77
668
Double Bass
69
571
Eb Clarinet
13
119
Flute
22
227
French Horn
12
96
Oboe
12
104
Piano
259
259
Soprano Saxophone
24
192
Tenor Trombone
12
99
Tuba
111
Viola
27
257
Violin
71
601
Tabela A.1: Tabela de instrumentos da base de dados MIS.
As amostras esto organizadas em arquivos separados por nvel dinmico,

que armazenam uma nota ou um conjunto de notas de um dado instrumento em
ordem crescente de pitch.
As Figuras A.1 e A.2 ilustram a sequncia de notas do instrumento Flauta
Contralto (do arquivo AltoFlute..C4B4) e Trompa (do arquivo Horn..C4B4).
178
0,25
0,2
0,15
Amplitude
0,1
0,05
0
0,05
0,1
0,15
0,2
0,25
0
0,2
0,4
0,6
0,8
1
1,2
n (amostras)
1,4
1,6
1,8
2,2
Figura A.1: Flauta Contralto C4-B4.
0,8
Amplitude
0,6
0,4
0,2
0,2
0,4
6
8
n (amostras)
10
12
5
x 10
Figura A.2: Trompa C4-B4.
A.2 Banco de Dados de Instrumentos MUMS

A maioria dos sons da biblioteca MUMS (McGill University Master Samples )
[5] foram gravados diretamente de um gravador DASH Sony PCM 3202, em um
estdio de gravao preparado para ser acusticamente neutro e tendo um tempo de
reverberao de aproximadamente 0,4 segundos. J os instrumentos de cordas e o
179
piano foram gravados em um concert hall tendo o tempo de reverberao variando

de 2,5 a 5 segundos. As amostras foram gravadas com uma taxa de amostragem de
44,1 kHz com 24 bits e possuem um tempo de durao variando entre 2 s e 10 s.
Todas as amostras desta biblioteca so stereo, e diferentemente das bibliotecas
MIS e RWC (onde cada arquivo apresenta um trem de nota), os arquivos desta base
de dados apresentam somente uma nota e se encontram no padro .wav, sendo
armazenados em 3 DVDs.
Existem 6546 amostras de som nessa biblioteca, sendo divididos em 2204
para cordas, 1595 para teclado, 1197 para madeira, 1087 para percusso e 463 para
metais.
Esta biblioteca apresenta uma quantidade numerosa de instrumentos musicais, perfazendo um total de 211 instrumentos.
Assim, uma lista completa de
seus instrumentos musicais pode ser encontrada em [5]. No entanto, o nmero de

amostras por instrumento inferior ao das demais bases de dados usadas nessa dissertao.
Devido a esse fato, para cada gravao, as notas dos dois canais foram
usadas nas simulaes.

A seguir na Figura A.3 apresentamos a nota A4 de um Saxofone Contralto
nos dois canais.
Amplitude
1
0,5
0
0,5
1
10
12
14
n (amostras)
(a)
16
4
x 10
Amplitude
1
0,5
0
0,5
1
n (amostras)
(b)
10
12
14
16
4
x 10
Figura A.3: Saxofone Contralto - A4. (a) canal 1; (b) canal 2.
180
A.3 Banco de Dados de Instrumentos RWC

A base de dados da RWC Real Word Computing, RWC Music Database [11]
um projeto japons, formada por 6 bases de dados, a saber: Popular Music Data-
base, Royalty-free Music Database, Classical Music Database, Jazz Music Database,
Music Genre Database e Musical Instrument Sound Database. O pacote usado nessa
dissertao o Musical Instrument Sound Database, composto por 50 instrumentos
distintos e armazenados em 12 DVDs. As amostras foram gravadas em 44,1 kHz,
com 16 bits em formato monoaural.
Ela fornece, a princpio, 3 variaes para cada instrumento, totalizando cerca
de 150 performances de instrumentos de msica, sendo tambm caracterizada por 4
tpicos, a saber:
1.
As Variaes so decorrentes de gravaes oriundas de 3 fabricantes de instrumentos, sendo estes instrumentados por at 3 msicos distintos.
Assim,
cada variao caracterizada, em princpio, por um instrumento de um diferente fabricante tocado por um diferente msico. Cada prossional empregado
teve em mdia 17 anos de experincia assegurados para cada instrumento musical. Entretanto, para alguns instrumentos musicais, foi includa uma variao
a partir de um outro tipo de instrumento musical;
2.
Estilos de execuo (dependentes do instrumento).
Muitos estilos de exe-
cuo foram registrados, dentro da gama de possibilidades para cada instrumento. No entanto, para instrumentos de percusso (RWC-MDB-I-2001 No
40-44), cada tipo foi quebrado dentro dos especcos instrumentos e contabilizado como estilo de execuo por convenincia (e gravado para cada um destes
mltiplos estilos de execuo);
3.
Pitch . Para cada estilo de execuo de um instrumento, o msico geralmente

tocou sons individuais com intervalos de meio tom sobre a faixa inteira de tons
que poderiam ser produzidas pelo instrumento. Para instrumentos de corda,
a faixa total de sons foi obtida para cada corda.
4.
Nvel Dinmico
(Trs nveis dinmicos).
Cada estilo de execuo de um
instrumento foi tambm gravado com 3 (trs) nveis dinmicos (forte, mezzo,
181
piano) sobre a faixa total do instrumento em questo.
As gravaes dos arquivos seguiram o procedimento de agrupar os sons individuais em ordem crescente de pitch sobre a faixa total do instrumento (tessitura),
inserindo um intervalo de silncio (gap ) entre sons individuais e adjacentes. Dessa
forma facilitado o procedimento de segmentao das notas, bastando para isso um
simples detector de silncio. O nome de cada arquivo formado por oito caracteres
com uma extenso .wav. Estes oito caracteres consistem em:
1. dois dgitos para o identicador do instrumento musical;
2. um dgito para a variao;
3. dois caracteres para uma abreviao do instrumento;
4. dois caracteres para identicao do estilo de execuo;
5. um caractere indicando o nvel dinmico.
Um total de 3544 arquivos compe a totalidade dos instrumentos dessa base

de dados, ocupando um espao de cerca de 29,1 Gbytes e um tempo total de gravao
de cerca de 91 horas 37 minutos e 38 segundos (includo os intervalos de silncio).
Na Tabela A.2 apresentamos uma lista com os 50 instrumentos contemplados
por essa base de dados conforme sua denominao em ingls:
Apresentamos na Figura A.4 o arquivo 261ASNOF.WAV, o qual contm as
notas em toda a faixa do instrumento Saxofone Contralto sem vibrato no nvel
dinmico forte.
182
Tabela A.2: Tabela de instrumentos da base de dados RWC.
A.4 Segmentador Elaborado usando Mdia e Desvio.

Esse segmentador foi inicialmente elaborado para extrair as notas dos arquivos fornecidos pela base de dados MIS. Conforme pode se observar nas Figuras A.2
e A.1 necessrio um algoritmo de segmentao que seja capaz de extrair cada nota
do trem de notas do qual composta a amostra do sinal. Infelizmente, os arquivos
da base de dados MIS possuem as suas notas espaadas ora por silncio ora por
rudo de fundo, o que descarta o emprego de um detector de silncio.
183
1
0,8
0,6
Amplitude
0,4
0,2
0
0,2
0,4
0,6
0
0,5
1,5
n (amostras)
2,5
Figura A.4: Saxofone Contralto.
Posteriormente esse segmentador mostrou-se til quando foram feitas as anlises presentes nos captulos 9 e 8, onde foi empregado conjuntamente com outro
extrator de notas, basicamente devido ao fato de ter se mostrado bastante robusto.
O segmentador implementado usou o fato que quando uma janela passeia
sobre a energia do sinal, o desvio padro do sinal na janela que contm o incio ou
nal da nota sofre um acrscimo, visto que a variao do nvel de energia quando
a nota se inicia ou se encerra ser maior que a variao do nvel de energia que
contm somente amostras dos instantes de silncio ou de presena da nota. Assim,
ao variarmos as entradas (tamanho da janela, desvio padro da janela) possvel
gerar uma segmentao correta das notas contidas na amostra do sinal.
Aps a segmentao persiste um segundo problema que saber se o nmero de
notas obtidas pelo segmentador representa o nmero real de notas distintas contidas
no arquivo.
Para contornar esse problema fez-se uma inspeo visual e s vezes
auditiva em cada arquivo da base de dados, anotando o nmero de notas contidas

no arquivo e armazenando este resultado num arquivo gabarito.
De posse dessa
informao foi possvel ajustar o par de caractersticas do segmentador de forma a

se conseguir uma segmentao correta. Nas Figuras A.5 e A.6 vemos duas notas j
segmentadas referentes a cada um dos arquivos mencionados anteriormente:
Posteriormente, para emprego nos Captulos 9 e 10, foi necessrio automatizar
184
0,8
Amplitude
0,6
0,4
0,2
0,2
0,4
5
6
n (amostras)
10
4
x 10
Figura A.5: Trompa - A4.
0,25
0,2
0,15
0,1
Amplitude
0,05
0
0,05
0,1
0,15
0,2
8
10
n (amostras)
12
14
16
4
x 10
Figura A.6: Flauta Contralto A4.
o processo. Para isso, mais uma entrada foi acrescentada: a mdia da janela, a qual
passou a ser comparada juntamente com o desvio da janela com a mdia e o desvio
do sinal inteiro. Essa modicao no garantiu o sucesso de 100% dos casos, mas
tornou o processo robusto o suciente para que fosse empregado nas avaliaes dos
captulos citados anteriormente.
185
Apndice B
Comparao com outros Trabalhos
Esse apndice tem como objetivo efetuar uma comparao entre os resultados
obtidos pelo classicador proposto por essa dissertao e os resultados obtidos em
[3].
Existem algumas poucas limitaes para uma comparao direta dos resultados obtidos pelos dois trabalhos, as quais relacionam-se com o conjunto de treinamento escolhido para treinar os classicadores, porque traduz uma alterao do
conjunto de teste.
Portanto, pequenas variaes na taxa de acerto para mais ou
para menos nos instrumentos ou nas famlias podem ocorrer, sem que haja uma
preferncia clara.
Alm da limitao anterior, existe uma segunda restrio que
o percentual das notas que foram usadas para o treinamento.
Esse percentual
no aparece claramente no artigo, dizendo somente os percentuais globais atingidos

pelos dois agrupamentos usados e os percentuais obtidos por cada instrumento. Assim, iremos comparar o resultado do artigo supondo uma formao com 90% das
amostras para treinamento, que foi a mais frequentemente simulada nesse trabalho.
A taxa de acerto global relatada em [3] foi de 90% para os instrumentos e
95% para a famlia dos instrumentos.
A m de podermos fazer uma comparao direta entre as taxas de acerto
necessrio vericarmos tambm se a taxa de acerto global foi obtida de forma ponderada com a distribuio das amostras nos instrumentos, conforme foi feita nessa
dissertao.
O conjunto de amostras usados em [3] aparentemente foi proporcio-
nal quantidade de amostras por instrumento, pois a taxa global indicada foi de
90%, sendo que, se ponderarmos pelos instrumentos as taxas relatadas para cada
186
instrumento com o total de amostras associada a cada instrumento, obtemos uma

taxa de acerto global de 90,1%. Essa diferena de 0,1% entre o valor relatado e o
estimado foi tambm notada quando se ponderaram pelo mesmo critrio as taxas
obtidas pelo classicador elaborado nessa dissertao. Portanto, ocorreu um erro de
0,1% para menos na estimativa, ou seja, de 97,2% avaliado contra 97,3% estimado.
Logo, atribuiu-se esse erro a problemas de arredondamento.
O artigo [3] usou 2 agrupamentos denidos de forma quase idntica ao que foi
feito nessa dissertao. Essa semelhana foi proposital para a base de dados MIS,
pois j visava essa comparao.
A princpio o trabalho elaborado no artigo [3] usou todas as variaes existentes para os instrumentos presentes na base de dados. Contudo, existe uma diferena,
que uma inconsistncia organolgica com os agrupamentos apresentados no Captulo 2, uma vez que Krishna e Sreenivas inseriram o instrumento Saxofone na
famlia metais, onde normalmente ele aparece na famlia palhetas. Denominaremos
esse novo agrupamento, com a presena do saxofone na famlia dos metais, de FRBS.
Nessa dissertao o instrumento saxofone foi inserido na famlia palhetas. Contudo,
para podermos comparar a taxa de acerto do agrupamento de famlia de instrumentos, iremos alterar a classicao hierrquica usada nessa dissertao visando
padroniz-la com a classicao hierrquica usada no artigo.
Nas tabelas apresentadas a seguir as duas linhas nais (de cima para baixo)
representam as taxas de acerto globais e as taxas de acerto mdia respectivamente.
Na Tabela B.1 apresentamos as taxas de acerto obtidas por Krishna e Sreenivas para
os instrumentos que foram usados.
Na Tabela B.2 apresentamos os resultados obtidos para os trs melhores
classicadores elaborados nessa dissertao para a base de dados MIS, com 90% da
base de dados usada para treinamento.
Conforme se pode ver, para esse caso, as 3 melhores solues obtiveram individualmente um desempenho superior melhor soluo obtida por Krishna usando
GMM com 46 misturas e codicao LSF.
Se compararmos instrumento a instrumento o desempenho entre o melhor
classicador de Krishna e Sreenivas (LSF + GMM) e o melhor classicador individual (LSF, soluo 6 + SVM) do banco de classicadores elaborado nesse trabalho,
187
Tabela B.1: Taxas de acerto obtidas por Krishna e Sreenivas usando GMM com 46
misturas.
Tabela B.2: Taxas de acerto obtidas pelos melhores classicadores para a base de
dados MIS.
podemos ver que alguns instrumentos foram melhores classicados com o classicador elaborado nessa dissertao enquanto que outros instrumentos foram melhores
classicados com o classicador elaborado por Krishna e Sreenivas.
No entanto,
convm destacar a diferena de desempenho entre os dois classicadores para os
188
instrumentos trompa, clarinetes (Bb e Eb) e obo, os trs primeiros a favor do

classicador elaborado nessa dissertao e o ltimo a favor de Krishna e Sreenivas.
Para avaliarmos o resultado para o agrupamento FRBS com o classicador
elaborado nessa dissertao usaremos somente a estratgia 3, pelo simples motivo
dela servir tanto para o
K -NN
quanto para a SVM. Infelizmente, nesse caso no
possvel fazer uma comparao direta com os resultados de cada famlia, visto que
Krishna e Sreenivas no apresentaram no seu artigo a taxa de acerto de cada famlia. Apesar disso, apresentaremos na Tabela B.3 os resultados para o agrupamento
FRBS obtidos pelos principais classicadores que compem a soluo proposta nessa
dissertao.
Tabela B.3: Tabela contendo as taxas de acerto para o agrupamento FRBS.
Novamente podemos notar na Tabela B.3 que o classicador individual com

a pior taxa de acerto obteve um desempenho superior taxa de acerto relatada em
[3] (95%). A diferena encontrada no muito signicativa. No entanto, todos os
classicadores apresentados na Tabela B.3 tiveram desempenhos superior a 96%,
enquanto que todas as solues obtidas por Krishna e Sreenivas em [3] para esse
agrupamento foram sempre inferiores a 95%.
O agrupamento FRBS a princpio teve um desempenho similar ao agrupamento MFPC, conforme pode ser visto na Tabela B.4. Sendo assim, a preferncia
de se usar nessa dissertao o agrupamento MFPC mostra-se adequada, j que esse
agrupamento (MFPC) se encontra mais coerente com literatura sobre organologia.
Alm da base de dados MIS, Krishna e Sreenivas usaram a base de dados
RWC para entre outras coisas, classicar notas provenientes de 19 Instrumentos.
Foi relatada para esse caso uma taxa de acerto global de 74%. Como o artigo no
discrimina os instrumentos usados para a RWC, no foi possvel fazer uma comparao direta entre os resultados obtidos por Krishna e Sreenivas e os resultados
189
Tabela B.4: Tabela contendo as taxas de acerto para o agrupamento MFPC.
obtidos nessa dissertao para essa mesma base de dados.
No entanto, ca claro
que o modelo apresentado por Krishna e Sreenivas teve uma variao de aproximadamente 16% para um acrscimo de 5 instrumentos (mantido o modelo obtido com
a base de dados MIS). J o trabalho apresentado nessa dissertao obteve para a
base de dados RWC com 17 instrumentos (mantido o modelo obtido com a base
de dados MIS) uma taxa de acerto de 97,1%, praticamente a mesma obtida para a
base de dados MIS com 14 instrumentos. Um segundo resultado foi obtido para 20
instrumentos, com o mesmo modelo. Nesse caso as amostras das 3 bases de dados
foram misturadas, e a taxa de acerto foi superior a 94%.
Percebe-se que a solu-
o proposta nessa dissertao apresenta maior adaptabilidade mudana de base

de dados do que a soluo apresentada por Krishna e Sreenivas, inclusive sofrendo
pouca variao com o acrscimo do nmero de classes.
190

Musica PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Musica PDF

Enviado por

Direitos autorais:

Formatos disponíveis

COPPE/UFRJ

DE INSTRUMENTOS MUSICAIS EM CONFIGURAC

Jorge Costa Pires Filho

Dissertacao de Mestrado apresentada ao

DE INSTRUMENTOS MUSICAIS EM CONFIGURAC

Jorge Costa Pires Filho

ALBERTO LUIZ COIMBRA DE POS-GRADUAC

JANEIRO COMO PARTE DOS REQUISITOS NECESSARIOS

Prof. Mariane Rembold Petraglia, Ph.D.

Prof. Luiz Pereira Caloba, D.Sc.

Dr. Sergio Rodrigues Neves, D.Sc.

RIO DE JANEIRO, RJ BRASIL

Pires Filho, Jorge Costa

Configuracoes Monofonicas e Polifonicas/Jorge Costa

Fontes. 3. Processamento Digital de Sinais. I. Petraglia,

II. Universidade Federal do Rio de

Janeiro, COPPE, Programa de Engenharia Eletrica. III.

Aos meus pais, Jorge e Diva, `a

Resumo da Dissertacao apresentada a` COPPE/UFRJ como parte dos requisitos

DE INSTRUMENTOS MUSICAIS EM CONFIGURAC

Jorge Costa Pires Filho

Orientadora: Mariane Rembold Petraglia

Programa: Engenharia Eletrica

Este trabalho apresenta um conjunto de tecnicas para extracao e classificacao de

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the

CLASSIFICATION OF MUSICAL INSTRUMENTS IN MONOPHONIC AND

Jorge Costa Pires Filho

Advisor: Mariane Rembold Petraglia

Department: Electrical Engineering

2 Instrumentos Musicais e suas Classicaes Hierrquicas

Elementos de Estmulo e Controle . . . . . . . . . . .

Sistema Hornbostel e Sachs

Sistema de Andr Schaener . . . . . . . . . . . . . . . . . . .

Outros Agrupamentos Tradicionais

II Viso Geral do Sistema de Classicao

Caracterizao da Nota Musical . . . . . . . . . . . . . . . . . . . . .

Obteno da Envoltria da Potncia da Nota musical

Detector de Envoltria AM (DEAM)

Segmentao da Nota Musical . . . . . . . . . . . . . . . . . . . . . .

Segmentao pelo Modelo ADSR

Segmentao por Limiares . . . . . . . . . . . . . . . . . . . .

Segmentao com 1 Limiar

Segmentao com 2 limiares - Modelo IMF . . . . . .

Segmentao pelo Pitch

Obteno dos Momentos e Escalamento Dinmico . . . . . . . . . . .

Coecientes de Predio Linear

Line Spectral Frequencies . . . . . . . . . . . . . . . . . . . . . . . . .

Mel Cepstral Features . . . . . . . . . . . . . . . . . . . . . . . . . . .

Mquina de Vetor Suporte . . . . . . . . . . . . . . . . . . . . . . . .

Caso linear do Modelo da SVM

Transformaes No-Lineares - Kernel

Transformao no Espao das Caractersticas

Gaussian Radial Basis Function . . . . . . . . . . . .

Exponential Radial Basis Function, RBF . . . . . . .

Caso No-Linear do Modelo da SVM

6 Agrupamentos Hierrquicos, Abordagens Multiclasse e Estratgias 67

Agrupamentos Hierrquicos Empregados

Estratgia 1 - Modelo Padro

Estratgia 2 - Modelo Hierrquico . . . . . . . . . . . . . . . .

Estratgia 3 - Modelo de Reagrupamento - Nvel Alm

7 Construo de um Procedimento de Reconhecimento Automtico 82

Metodologia de Busca para obter as Solues . . . . . . . . . . . . . .

Formao dos Conjuntos de Teste e Treinamento . . . . . . . . . . . .

2 Instrumentos Musicais e suas Classicaes Hierrquicas

Sistema de Andr Schaener . . . . . . . . . . . . . . . . . . .

II Viso Geral do Sistema de Classicao

Coecientes de Predio Linear

Resultados dos Codicadores mais Desvio Padro do Segmento

Avaliao dos Classicadores . . . . . . . . . . . . . . . . . . . . . . . 103

Estimativa da Taxa de Acerto do Classicador Proposto

Construo Articial de um Sinal Polifnico

Mtodo de Identicao de Instrumentos com Separador de Fontes . . 128

Mtodo de Identicao de Instrumentos sem Separador de Fontes . . 130

Linear Prediction Coecients.

Mel-Frequencie Cepstral Coecients.

conceituais envolvidas na classicao, de forma a no se perder de vista a viso

Figura 1.1: Sistema padro de classicao.

nada com sinal interferente, ambas oriundas de misturas instantneas, e classicar

mais, a identicao de instrumentos a partir de notas isoladas, apesar de no ser

algoritmos inuenciam a taxa de acerto do sistema de classicao posterior. Por