Identificação de Notas Musicais

IDENTIFICAO DE NOTAS MUSICAIS EM REGISTROS SOLO DE VIOLO E PIANO
Alexandre Leizor Szczupak
DISSERTAO SUBMETIDA AO CORPO DOCENTE DA COORDENAO DOS PROGRAMAS DE PS-GRADUAO DO RIO DE DE ENGENHARIA COMO PARTE DA DOS
UNIVERSIDADE
FEDERAL
JANEIRO
REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE MESTRE EM CINCIAS EM ENGENHARIA ELTRICA.
Aprovada por:
Prof. Luiz Wagner Pereira Biscainho, D.Sc.
Prof. Luiz Pereira Calba, Dr.Ing.
Prof. Srgio Lima Netto, Ph.D.
Prof. Marcio Nogueira de Souza, D.Sc.
RIO DE JANEIRO, RJ - BRASIL JUNHO DE 2008
SZCZUPAK, ALEXANDRE LEIZOR Identificao de Notas Musicais em Registros Solo de Violo e Piano [Rio de Janeiro] 2008 IX, 123 p., 29,7 cm (COPPE/UFRJ, M.Sc., Engenharia Eltrica, 2008) Dissertao - Universidade Federal do Rio de Janeiro, COPPE 1.Transcrio Musical Automtica 2.Redes Neurais 3. Transformada de Q Constante I. COPPE/UFRJ II. Ttulo (srie)
ii
Agradecimentos
Agradeo aos meus orientadores, Luiz Wagner Pereira Biscainho e Luiz Pereira Calba e aos amigos, Tadeu Nagashima Ferreira, Alan Freihof Tygel, Filipe Castello da Costa Beltro Diniz, Fbio Pacheco Freeland, Leonardo de Oliveira Nunes, Rafael Almeida de Jesus, Flvio Rainho vila, Rafael Cauduro Dias de Paiva, Rafael Andrade Santos Pantoja, Jorge Costa Pires Filho, Iri Kothe, Lisandro Lovisolo, Michel Pompeu Tcheou, Alessandro J. Salvaterra Dutra, Ana Luisa A. Santos, Amaro Azevedo de Lima, Wallace Alves Martins, Markus Vincius Santos Lima, Gustavo Luis Almeida de Carvalho, Rodrigo C. Meirelles, Jose Fernando Leite de Oliveira, Arnaldo Satoru Gunzi, Maurcio de Carvalho Machado, Daniele Cristina Oliveira da Silva, Paulo Antnio Andrade Esquef, Lara Christiana R. L. Feio, Michelle de Arajo Nogueira, Luciana Requio, Pedro Lucio Bittencourt e Renato Baran.
iii
Resumo da Dissertao apresentada COPPE/UFRJ como parte dos requisitos necessrios para a obteno do grau de Mestre em Cincias (M.Sc.)
IDENTIFICAO DE NOTAS MUSICAIS EM REGISTROS SOLO DE VIOLO E PIANO
Junho/2008
Orientadores: Luiz Wagner Pereira Biscainho Luiz Pereira Calba
Programa: Engenharia Eltrica
Nesta dissertao so apresentados mtodos desenvolvidos para a identicao de notas musicais em registros de violo solo. Estes mtodos tm como base o uso de redes neurais
feed-forward
de mltiplas camadas, treinadas com representa-
es espectrais obtidas atravs de uma transformada de
constante. Alm destes,
tambm so apresentadas adaptaes voltadas para a identicao de notas musicais em registros de piano. Os mtodos podem ser divididos em duas abordagens: na primeira, apenas uma rede utilizada na identicao das notas presentes em cada segmento de sinal analisado; na segunda, duas redes so utilizadas em seqncia: a primeira para identicar apenas a nota mais grave de cada segmento de sinal analisado e a segunda para encontrar os intervalos entre a nota mais grave e as notas restantes. Os resultados dos mtodos desenvolvidos para violo foram promissores, porm, os resultados das adaptaes para piano no foram bons. Para ambos os casos, os melhores resultados foram obtidos atravs da segunda abordagem, principalmente no desempenho isolado da etapa de identicao de intervalos entre a nota mais grave de cada segmento de sinal e as notas restantes.
iv
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulllment of the requirements for the degree of Master of Science (M.Sc.)
MUSICAL NOTES IDENTIFICATION IN SOLO RECORDINGS OF ACOUSTIC GUITAR AND PIANO
June/2008
Advisors: Luiz Wagner Pereira Biscainho Luiz Pereira Calba
Department: Electrical Engineering
This dissertation presents methods developed for the identication of musical notes in acoustic guitar recordings. These methods are based on multilayer
feed-forward neural networks, trained with frequency domain representations obtained via a constant-Q transform. Versions of these methods, developed for the
identication of musical notes in piano recordings, are also presented. The proposed methods can be divided in two categories: methods based on a single neural network, used to identify the notes in a signal excerpt; and methods with two neural networks used in sequence, the rst one to identify the bottom note of a signal excerpt and the second to determine the intervals between the bottom note and the remaining ones. Encouraging results were obtained on the identication of musical notes in acoustic guitar recordings, but not on the identication of musical notes in piano recordings. For both instruments, the best results were obtained using methods
of the second category, especially regarding the isolated performance of the neural network used to determine intervals between the bottom note and the remaining ones.
Sumrio
Folha de Rosto Ficha Catalogrca Agradecimentos Resumo Abstract Sumrio 1 Introduo
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Transcrio Musical Automtica . . . . . . . . . . . . . . . . . . . . . Polifonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i ii iii iv v vi 1
1 2 2 3 4 6 7 11 13 14
Pitch
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Temperamento
Inarmonicidade em Pianos e Violes . . . . . . . . . . . . . . . . . . . No-Linearidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
O Violo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . O Piano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10 Proposta da Dissertao
2 A Transformada de
2.1 2.2 2.3 Descrio
Constante
17
17 19 19
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Algoritmo Rpido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transposio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
2.4 2.5
Anlise Tempo-Freqncia . . . . . . . . . . . . . . . . . . . . . . . . Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 22
3 Redes Neurais Feed-Forward de Mltiplas Camadas

3.1 3.2 3.3 3.4 3.5 3.6 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Os Neurnios Articiais . . . . . . . . . . . . . . . . . . . . . . . . .
23
23 24 26 28 33 35
A Organizao em Camadas . . . . . . . . . . . . . . . . . . . . . . . Algoritmo
Backpropagation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Treinamentos Seqencial e por Batelada Algoritmo Rprop
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Metodologia para Identicao de Notas de Violo

4.1 4.2 4.3 4.4 4.5 4.6 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Criao dos
38
38 39 41 42 43 46
Kernels
da CQT
. . . . . . . . . . . . . . . . . . . . . .
Criao das Combinaes de Notas Musicais . . . . . . . . . . . . . . Treinamento das Redes Neurais . . . . . . . . . . . . . . . . . . . . .
5 Implementao e Testes - Violo

5.1 5.2 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mtodos para Identicao de Notas de Violo - Objetivo 1 . . . . . . 5.2.1 Mtodos do Primeiro Grupo . . . . . . . . . . . . . . . . . . . 5.2.1.1 5.2.1.2 5.2.2 Mtodo 1A - Objetivo 1 Mtodo 1B - Objetivo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
51 52 53 53 55 58 59 61 61 63 65 66 67
Mtodos do Segundo Grupo 5.2.2.1 5.2.2.2 5.2.2.3 5.2.2.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mtodo 2A - 1 etapa - Objetivo 1 Mtodo 2B - 1 etapa - Objetivo 1 Mtodo 2C - 1 etapa - Objetivo 1 Mtodo 2C - 2 etapa - Objetivo 1
a a
5.2.3 5.3
Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mtodos para Identicao de Notas de Violo - Objetivo 2 . . . . . . 5.3.1 Mtodo 1A - Objetivo 2 . . . . . . . . . . . . . . . . . . . . .
vii
5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 5.4
Mtodo 2A - 1 etapa - Objetivo 2 . . . . . . . . . . . . . . . . Mtodo 2B - 1 etapa - Objetivo 2 . . . . . . . . . . . . . . . . Mtodo 2C - 1 etapa - Objetivo 2 . . . . . . . . . . . . . . . . Mtodo 2C - 2 etapa - Objetivo 2 . . . . . . . . . . . . . . . . Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69 70 71 72 74 74 75 76 77 79 80 80 81 83 84
a a
Mtodos para Identicao de Notas de Violo - Objetivo 3. 5.4.1 5.4.2 5.4.3 5.4.4 Mtodo 1A - Objetivo 3
. . . . . . . . . . . . . . . . . . . . .
Mtodo 2C - 1 etapa - Objetivo 3 . . . . . . . . . . . . . . . . Mtodo 2C - 2 etapa - Objetivo 3 . . . . . . . . . . . . . . . . Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
a a
5.5
Mtodos para Identicao de Notas de Violo - Objetivo 4. 5.5.1 5.5.2 5.5.3 5.5.4 Mtodo 1A - Objetivo 4
. . . . . . . . . . . . . . . . . . . . .
Mtodo 2C - 1 etapa - Objetivo 4 . . . . . . . . . . . . . . . . Mtodo 2C - 2 etapa - Objetivo 4 . . . . . . . . . . . . . . . . Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
a a
6 Metodologia para Identicao de Notas de Piano

6.1 6.2 6.3 6.4 6.5 6.6 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Criao dos
86
86 87 88 88 89 91
Kernels
da CQT
. . . . . . . . . . . . . . . . . . . . . .
Criao das Combinaes de Notas Musicais . . . . . . . . . . . . . . Treinamento das Redes Neurais . . . . . . . . . . . . . . . . . . . . .
7 Implementao e Testes - Piano

7.1 7.2 7.3 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mtodo 1A para Piano . . . . . . . . . . . . . . . . . . . . . . . . . . Mtodos do Segundo Grupo 7.3.1 7.3.2 7.4 . . . . . . . . . . . . . . . . . . . . . . .
93
93 93 95 96 97
Mtodo 2A para Piano - 1 etapa Mtodo 2A para Piano - 2 etapa
a a
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Concluso
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8 Concluses
viii
101
Referncias Bibliogrcas A Marcaes de

A.1 A.2
105 110
Onsets
da Base RWC
Violes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Pianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
ix
Captulo 1 Introduo
1.1 Transcrio Musical Automtica
Transcrio musical um processo de atribuio de smbolos para eventos selecionados de um sinal musical. A atribuio deve ser realizada de modo que torne possvel reproduzir a qualidade e a seqncia destes eventos. Este processo pode ser comparado com uma codicao de sinal, com interesse no na recuperao do sinal original, mas na recriao dos eventos com um novo sistema (instrumento musical) para obter um novo sinal que caracterize, de acordo com a percepo humana, a msica transcrita. Diversos tipos de eventos podem ser registrados, e a escolha de quais devem constar na transcrio depende da forma que ela ser apresentada. Formas comuns para a transcrio so: partituras musicais, cifras, tablaturas e arquivos MIDI. Cada uma delas possui um conjunto diferente de smbolos para representar os eventos de uma msica. Alguns eventos importantes so: as notas tocadas, os instantes em que se iniciam (
onsets ), suas duraes e os intervalos (diferenas de altura) entre notas
simultneas. Tambm pode ser importante representar informaes auxiliares como o andamento da msica, a escala musical e o compasso. Nesta tese o foco a identicao, ao longo do tempo, de notas musicais. O objetivo obter um mtodo computacional para a identicao das notas presentes em gravaes solo de violo e piano. Tambm deve ser possvel adaptar o
mtodo para uso com gravaes de outros instrumentos musicais polifnicos com
pitch
determinado.
1.2 Polifonia
No contexto da anlise de gravaes de instrumentos musicais solo, a polifonia entendida como a presena de mais que uma nota simultaneamente em um trecho de sinal.
O grau de polifonia de um violo igual ao nmero de cordas Um msico tocando um violo de 6 cordas pode produzir at 6 No caso de um piano, na execuo tradicional, um m-
do instrumento.
notas simultaneamente.
sico pode acionar at 10 teclas simultaneamente, porm mais notas podem soar ao mesmo tempo. Como cada nota do piano tem um mecanismo independente, tocar uma nota no interrompe o som de outras que j estejam soando. Assim, o grau de polifonia do piano , no limite, igual ao nmero de suas teclas.
1.3
Pitch
O termo
pitch usualmente se refere freqncia da onda senoidal que melhor pitches
associada, perceptivamente, a um dado som. Na anlise de sinais de msica,
podem ser associados aos sons da voz cantada e aos sons de muitos instrumentos musicais. De acordo com HERRERA-BOYER
et al.
[1], instrumentos com sons
que provocam sensao evidente de chamados de no tm
pitch
(como os cordofones e os aerofones)
so
pitched ,
anados ou com
pitch
determinado. Instrumentos que
pitch
denido (como a maioria dos idiofones e dos membranofones)
so
chamados de
unpitched , sem anao
ou com
pitch
indeterminado.
Alguns instrumentos fortemente inarmnicos, como os pratos de bateria, dicilmente podem ser usados para gerar sons com sicados como instrumentos de
pitch
evidente, e por isto so clasPorm, outros que recebem
pitch
indeterminado.
esta mesma classicao podem provocar sensaes evidentes de
pitch, embora no
1 Para a teoria musical, a polifonia denida como a combinao de duas ou mais linhas meldicas.
2 Cordofones so instrumentos com atuao sobre cordas, como violes e pianos. Aerofones so
instrumentos com atuao sobre colunas de ar, como autas e trompetes.
3 Idiofones so instrumentos com atuao sobre o prprio corpo do instrumento, como pratos de
bateria e marimbas. Membranofones so instrumentos com atuao sobre uma membrana elstica, como surdos e atabaques.
sejam projetados para gerar sons de acordo com escalas de valores pr-estabelecidos de um
pitch. pitch
Um exemplo o surdo de bateria, que pode ser anado para evidenciar de uma escala pr-determinada, apesar de isto normalmente no ser feito.
Sua anao em geral feita buscando apenas estabelecer razes de
pitch
entre seu
som e os de outros membranofones tocados em conjunto com ele, que tambm tm
pitch
indeterminado. Na anao da maioria dos membranofones, as razes entre (intervalos musicais) no seguem regras pr-estabelecidas, cando ao gosto J no caso dos instrumentos com
pitches pitches
do msico.
pitch pitches
determinado, as razes entre
de diferentes notas seguem regras de acordo com o projeto do instrumento escolhida.
e de acordo com o temperamento da escala de
Apesar de alguns autores utilizarem os termos
pitch e freqncia fundamental
(f 0) indistintamente, estabelecer a diferena entre eles importante para a anlise de sinais musicais, particularmente na anlise de sinais de cordofones, sujeitos a fortes efeitos de inarmonicidade.
1.4 Temperamento
Na teoria musical no se utilizam diretamente valores de
pitch
para designar
a altura dos sons. Em vez disto, cada altura indicada como uma nota musical e cada nota tem um valor associado a ela. A escala denida a partir da determinao de um
pitch
para uma nota de referncia e do uso de uma regra de temperamento.
Alguns exemplos de regras de temperamento so: a anao justa, a anao pitagrica e a anao em temperamento igual. Todas tm em comum a subdiviso de oitavas em 12 intervalos, chamados semitons, porm cada regra determina de forma diferente a extenso de cada intervalo da escala. A regra mais comum na
msica ocidental contempornea a de temperamento igual. Nela, os notas so dispostos em uma progresso geomtrica com razo o
pitches
das
q = 21/12 .
Para obter
pitch
de uma nota
semitons mais alta ou mais baixa que a nota de referncia,
deve-se, respectivamente, multiplicar ou dividir o Desta forma, cada oitava abrange 12 notas com
pitch da nota de referncia por qn . pitches

igualmente espaados em
escala logartmica. Uma referncia comumente utilizada a nota L 4 , com
pitch
4 Nesta tese, adota-se como conveno nomear a primeira oitava dos pianos comuns, de 88 teclas,
igual a
440
Os
Hz. de notas geradas com instrumentos musicais reais normalmente
pitches
no recaem perfeitamente sobre os valores denidos no temperamento utilizado. Na prtica recaem sobre pontos na vizinhana destas freqncias. Alguns instrumentos, inclusive, possibilitam utilizar como recurso esttico uma modulao cclica do o
pitch,
vibrato.
1.5 Inarmonicidade em Pianos e Violes

Um dos problemas presentes na identicao de notas musicais, a inarmonicidade ocorre quando um som no tem suas parciais
ordenadas em uma srie
harmnica, isto , suas parciais no so ordenadas em uma progresso aritmtica com razo igual freqncia fundamental. Para cordofones ela caracterizada por desvios positivos nas freqncias das parciais em relao s freqncias harmnicas. Estes desvios se devem rigidez elstica do material. As freqncias das parciais de uma corda real sem enrolamento fundamental
podem ser obtidas, em funo de sua freqncia
f0 ,
atravs das equaes abaixo [2]:
fn = nf0 1 + Bn2 B=
onde as propriedades da corda so:
(1.1) (1.2)
3 Ed4 , 64l2 T
B = coeciente E = mdulo
de inarmonicidade,
de Young,
d = dimetro, l = comprimento T = tenso

e
da corda.
de `oitava 0'. A primeira nota do piano, uma nota L, ento chamada de L 0. A nota L 4 a
49a
nota nos pianos de 88 teclas e ca na oitava 4.
5 Parcial aqui se refere a cada uma das componentes senoidais que modelam o sinal. 6 Como artifcio para abaixar o
pitch de uma corda sem aumentar excessivamente seu dimetro
ou comprimento, ela pode ser fabricada envolta por um enrolamento metlico.
O coeciente de inarmonicidade
assume valores no-negativos.
Quando
B = 0,
a relao entre as parciais perfeitamente harmnica, mas para um
po-
sitivo, o desvio das parciais cresce com
n.
As equaes (1.1) e (1.2) so de fato
aproximaes, vlidas apenas se o deslocamento transversal da corda estiver restrito a uma pequena regio em torno da posio de equilbrio. Um modelo completo precisaria levar em conta que a tenso sobre a corda, bem como seu comprimento, variam no-linearmente com seu deslocamento transversal, e que seus modos de vibrao tambm dependem da rigidez dos suportes em suas extremidades [3]. Quanto maior for a rigidez do suporte, menor sua inuncia no deslocamento das parciais. Os efeitos da variao do coeciente de inarmonicidade
na percepo do
pitch
foram estudados por JRVELINEN
et al. [2].
Os autores realizaram testes
perceptivos utilizando sons de 4 notas de piano, sintetizados atravs de modelagem senoidal. Nos testes, freqncias parciais de cada nota sintetizada foram ajustadas seguindo variaes nos valores de de
B,
de acordo com a Equao (1.1). Para valores
prximos a zero, os
pitches
B
se mantiveram prximos aos valores das freqn-
cias fundamentais, porm cada nota tambm apresentou uma faixa particular de valores na qual o aumento de foi acompanhado pelo aumento do
pitch.
Valores
do coeciente de inarmonicidade alm destas faixas geraram resultados ambguos: alguns indivduos igualaram os
pitches
novamente a valores prximos das freqn-
cias fundamentais, enquanto outros continuaram acompanhando os incrementos na inarmonicidade. Os conjuntos de parciais de duas verses de uma mesma nota, tocadas da mesma forma em dois instrumentos iguais exceto por cordas de modelos distintos, podem ser diferentes por causa das mudanas nos valores de
E.
A distncia entre os suportes das cordas de um violo, a ponte (localizada no tampo superior do instrumento) e o capotraste (localizado no brao do instrumento), depende do modelo do instrumento. Quanto maior esta distncia, menor a
inarmonicidade da corda, como indicado na Equao (1.2). Cada nota de piano gerada pela vibrao simultnea de uma, duas ou trs cordas de mesmo comprimento. Os valores de
das cordas associadas a uma de-
terminada nota, podem variar no s de modelo para modelo do instrumento, como entre as prprias cordas. Os comprimentos das cordas tambm variam muito entre
diferentes modelos do instrumento. Cordas mais longas so utilizadas para obter menor inarmonicidade, fator importante na caracterizao do timbre do instrumento.
1.6 No-Linearidades
O comprimento de uma corda vibrante, presa entre dois suportes xos, varia no-linearmente acompanhando seu movimento oscilatrio. O efeito desta nolinearidade sobre as parciais se torna relevante quando a amplitude de vibrao grande, como acontece quando um msico usa dinmica
forte
ou
fortissimo.
Nesta
situao, o deslocamento transversal inicial da corda, que precede sua oscilao, muito grande. Isto aumenta transitoriamente a tenso mdia da corda. Por isto, as freqncias de todos os modos iniciam em valores ligeiramente superiores aos previstos na Equao (1.1) e, acompanhando a variao na amplitude das oscilaes, decaem para os valores previstos para oscilaes de baixa amplitude [4]. LEGGE e FLETCHER [3] demonstraram a presena de no-linearidades de segunda e terceira ordem nos sistemas formados por cordas vibrantes montadas em suportes no perfeitamente rgidos . Entre os efeitos destas no-linearidades esto o surgimento, ao longo do tempo, de modos de vibrao inicialmente no excitados nas cordas e de acoplamentos entre os modos presentes. Aps o
onset
de uma
nota, os modos de vibrao da corda que tm um n sobre a posio do golpe tm amplitudes iniciais prximas a zero. Devido aos acoplamentos, as amplitudes destes modos crescem e atingem valores mximos aps um perodo de tempo da ordem de
0,1
s. Os acoplamentos, associados inarmonicidade das cordas, tambm causam
utuaes nas amplitudes de todos os modos de vibrao presentes. As freqncias das parciais presentes na sada de um sistema no-linear so dadas, para cada termo de ordem possveis, tomadas
que modela o sistema, por todas as somas
entre as freqncias das parciais presentes na entrada [5].
Assim, o nmero de parciais observadas na sada de um sistema no-linear maior que o nmero de parciais observadas na entrada do sistema. Isto comum nos
7 Um suporte perfeitamente rgido tem admitncia mecnica igual a zero. A admitncia mecnica fora.
denida como
Y ( ) = V ( )/F ( ),
sendo
freqncia,
V =
velocidade e
F =
perodos de ataque e decaimento das notas , que concentram a maior parte dos efeitos de no-linearidades sobre o sinal. Numa anlise espectral feita com alta resoluo possvel observar que cada modo das cordas na verdade um par de modos com freqncias muito prximas [7]. A vibrao de cada corda pode ser decomposta em dois planos de polarizao. Como os suportes das cordas tm impedncias acsticas diferentes em cada plano, os comprimentos efetivos das cordas (e as freqncias dos modos de vibrao) diferem ligeiramente para cada plano.
1.7 O Violo
Um violo comum de seis cordas tem extenso de 44 notas, de Mi 2 at Si 5. Numa execuo tradicional, as notas podem soar individualmente ou em combinaes de duas at seis notas simultneas. O posicionamento de trastes ao longo do brao serve para estabelecer os ns de vibrao necessrios para gerar cada nota. Das 44 notas, 34 podem ser obtidas a partir de pelo menos duas posies distintas do brao. As cinco notas mais graves e as cinco mais agudas do instrumento s
podem ser obtidas, cada uma, a partir de uma nica posio sobre o brao.
Figura 1.1: Representao do brao de um violo. As cordas mais agudas cam nas posies inferiores.
O brao do violo projetado para manter em progresso geomtrica as
8 A envoltria de uma nota musical comumente descrita atravs de um modelo ADSR [6],
formado por uma seqncia de quatro perodos: Ataque, Decaimento, Sustentao e Liberao (Attack, Decay, Sustain and Release )
freqncias fundamentais das notas adjacentes de uma mesma corda. Esta progresso, como a das escalas igualmente temperadas, tem razo freqncia fundamental de vibrao da
q = 21/12 .
Assim, se a
5a
corda solta (L 2) igual a
110,00
Hz, a
freqncia fundamental da nota adjacente mais alta (L 2, um semitom acima)
110,00 Hz 21/12 116,54 Hz.
Pode-se notar que a progresso geomtrica entre as
freqncias fundamentais pode ser obtida pelo correto posicionamento dos trastes, porm a razo entre os
pitches
de notas adjacentes de uma mesma corda depende
do valor do mdulo de Young (E ) da corda. Quanto menor for o valor de prximo de
E,
mais
q ser a razo entre pitches
adjacentes de uma mesma corda e maior ser
a correlao entre estes
pitches
e a escala de temperamento igual. Se
for muito
elevado, grandes desvios de
pitch
podem ocorrer em comparao com as freqn-
cias previstas nas escalas de temperamento igual, principalmente nas notas obtidas utilizando pequenos segmentos de corda. Cada modelo de violo apresenta um conjunto particular de ressonncias, de acordo com seu projeto. As duas ressonncias mais inuentes na sonoridade da maioria dos modelos so a A0 (ressonncia de Helmholtz) do tampo superior). A ressonncia A0 resulta da interao do sistema formado pelo corpo do instrumento com a cavidade do tampo superior, j a ressonncia T1 se d no modo fundamental de vibrao do tampo superior [8, 9]. Para medir A0, a vibrao do tampo superior deve ser impedida, enquanto para medir T1, a cavidade do tampo superior deve ser fechada. Desta forma evita-se o acoplamento dos dois sistemas. Em um violo livre (sem restries de vibrao e com a cavidade desimpedida), as duas primeiras freqncias de ressonncia resultam da interao entre os sistemas e diferem das freqncias de ressonncia A0 e T1 [8]. A
e a T1 (1
a ressonncia
1a
freqncia de ressonncia de um violo livre localizada tipicamente
dentro da faixa entre
70
Hz e
140
Hz.
A posio exata depende do modelo do
instrumento. Esta faixa sobrepe parcialmente a faixa de freqncias fundamentais da
1a
oitava do violo.
2a
ressonncia, geralmente de menor intensidade, tem
9 O smbolo da ressonncia de Helmholtz, A0, tambm utilizado para representar, de acordo

com o padro norte-americano de notao musical, a nota musical L 0, mas no h relao entre os dois conceitos.
freqncia prxima ao dobro da freqncia da a
1a
ressonncia. Contudo, enquanto
1a
freqncia de ressonncia do violo livre pode ter um desvio signicativo em
relao freqncia de A0, a freqncia da prxima do valor da freqncia de T1.
2a
ressonncia do violo livre se mantm
Parciais causadas por estas ressonncias podem ser observadas no espectro dos sinais de violo, principalmente no perodo inicial de ataque e decaimento das notas, onde uma grande quantidade de modos do instrumento so excitados graas natureza impulsiva do golpe sobre a corda.
A Figura 1.2 contm a forma de onda dos 0,30 s iniciais de um registro de violo (nota D 3). Nas Figuras 1.3 e
1.4 so mostrados os valores absolutos de DFTs (
discrete Fourier transforms )
dos trechos entre 0,0 s e 0,15 s e entre 0,15 s e 0,30 s deste registro. Figura 1.2: Forma de onda dos 0,30 s iniciais de um registro da nota D 3.
Figura 1.3: DFT do trecho entre 0,0 s e 0,15 s do registro da nota D 3.
Figura 1.4: DFT do trecho entre 0,15 s e 0,30 s do registro da nota D 3.
Na DFT do primeiro trecho (Figura 1.3) possvel observar no s as parciais da srie harmnica de D 3 (f 0 aproximadamente
138,59 Hz) como tambm duas outras parciais em

A primeira ocorre na
110 Hz e 220 Hz.
1a
freqncia de ressonn-
cia do violo, e a segunda, de menor amplitude, na
2a
freqncia de ressonncia do
instrumento.
A segunda DFT (Figura 1.4), realizada sobre um trecho do perodo
de sustentao da nota, no apresenta mais as parciais devidas s freqncias de ressonncia do violo. A anlise de trechos de sinal contidos em perodos de ataque ou decaimento de notas de violo pode revelar a existncia desta formao de parciais, em pares e em razo harmnica, mas que no pertencem s notas buscadas. No caso acima as freqncias das parciais causadas pelas ressonncias do violo so prximas s freqncias das duas primeiras parciais da nota L 2, porm esta nota no faz parte do sinal. As parciais devidas s ressonncias do violo podem variar de amplitude de acordo com a intensidade e com quais notas so tocadas, mas suas freqncias so xas.
A Figura 1.5 contm a forma de onda dos 0,30 s iniciais de outro registro do mesmo violo, desta vez da nota Sol 3. Nas Figuras 1.6 e 1.7 so mostrados os valores absolutos de DFTs dos trechos entre 0,0 s e 0,15 s e entre 0,15 s e 0,30 s deste registro. Figura 1.5: Forma de onda dos 0,30 s iniciais de um registro da nota Sol 3.
Figura 1.6: DFT do trecho entre 0,0 s e 0,15 s do registro da nota Sol 3.
Figura 1.7: DFT do trecho entre 0,15 s e 0,30 s do registro da nota Sol 3.
Na DFT do primeiro trecho (Figura 1.6) novamente possvel observar uma
10
parcial em aproximadamente
110
Hz, causada pela
1a
ressonncia do violo. Nesta
gura, no possvel distinguir a fundamental da srie de Sol 3 (f 0 da parcial da
207,65
Hz)
2a
ressonncia do instrumento, em aproximadamente
220
Hz. A se-
gunda DFT (Figura 1.7), realizada sobre um trecho do perodo de sustentao da nota, novamente no apresenta parciais devidas s freqncias de ressonncia do instrumento.
1.8 O Piano
Um piano comum tem extenso de 88 notas, de L 0 at D 8. Cada nota do instrumento gerada atravs do golpe de um martelo sobre um conjunto diferente de cordas. Quando uma tecla do instrumento pressionada, aciona o martelo correspondente atravs de um intrincado mecanismo que garante ao msico o controle da dinmica da nota. O martelo atinge simultaneamente todas as cordas associadas tecla, anadas em unssono. A quantidade de cordas utilizadas no mecanismo de gerao de cada nota depende do projeto do instrumento. De forma geral, so utilizadas de uma a trs cordas por nota. Os mecanismos das notas mais graves utilizam menos cordas que os mecanismos de notas mais agudas. Durante a anao de um piano, deve ser feita a compensao do efeito de elevao do
pitch causado pela presena de inarmonicidade nas cordas [2].
A anao Hz), em
iniciada a partir de uma nota da regio central, como o L 4 (f 0 geral utilizando um diapaso.
= 440
Em seguida, uma seqncia de intervalos sobre a
regio central do piano ajustada, buscando-se estabelecer batimentos pr-denidos entre as parciais de determinadas notas [10]. Por exemplo: a segunda parcial da
nota D 4 deve, em combinao com o terceiro harmnico da nota F 3, gerar um batimento audvel de aproximadamente
0,59
Hz.
Aps todas as notas da regio
central estarem anadas, realizada a anao das regies mais graves e mais agudas do instrumento. Para anar uma nota uma oitava acima de outra nota j anada, forada a coincidncia de sua primeira parcial com a segunda parcial da nota j anada. Para anar uma nota na oitava abaixo de uma nota j anada, forada a coincidncia de sua segunda parcial com a primeira parcial da nota j anada. Este
11
procedimento repetido para todas as notas restantes. Assim, diz-se que o piano, anado pela percepo auditiva, tem escala alongada [11], caracterizada principalmente por uma distoro na seqncia de frequncias fundamentais de suas notas em relao s freqncias da escala de temperamento igual. As freqncias fundamentais de notas prximas regio central do piano
acompanham aproximadamente as freqncias da escala de temperamento igual; porm, conforme se observam notas cada vez mais graves, o decrscimo nas freqncias fundamentais se torna mais rpido que o decrscimo dos valores da escala de temperamento igual. No outro sentido, conforme se observam notas cada vez mais agudas, o incremento nos valores das freqncias fundamentais se torna mais rpido que o incremento nos valores da escala de temperamento igual. Na anlise do espectro de uma nota de piano pode ser observada, alm da srie de parciais com freqncias regidas pela Equao (1.1), a presena de um segundo grupo de parciais. Existem diferentes teorias sobre como deve ser realizada a modelagem das parciais deste grupo [12, 13]. Para CONKLIN [14, 15], que as chama de
phantom partials,
elas ocorrem em dois subgrupos: um formado em freqncias
iguais ao dobro das freqncias regidas pela Equao (1.1) e outro em freqncias dadas pelas somas e diferenas de freqncias da mesma equao, tomadas duas a duas. Segundo NAKAMURA e NAGANUMA [16], as freqncias deste grupo de parciais podem ser aproximadas por uma srie como a da Equao (1.1), porm com um coeciente de inarmonicidade igual a
B/4.
WOODHOUSE [7] reportou a
presena em registros de violo de parciais que no se enquadram na Equao (1.1) e sugeriu que elas tambm podem ser modeladas como
phantom partials.
O primeiro destes modos,
Outra caracterstica do espectro de notas de piano a possvel presena de parciais causadas por modos de vibrao longitudinal.
LM1, contribui perceptivelmente na sonoridade de pianos, principalmente nas notas mais graves. Para uma corda sem enrolamento, a freqncia de LM1 aproximadamente igual a
2500/l
Hz [17].
Esta freqncia normalmente no coincide com
nenhuma das freqncias da srie de modos transversais da corda, o que provoca um efeito dissonante no som. Para contornar este problema, muitos fabricantes controlam as freqncias dos modos LM1 alterando as caractersticas dos enrolamentos utilizados sobre cada corda. Conseguem assim obter freqncias consonantes com o
12
pitch
de cada nota.
1.9 Histrico
Um sistema desenvolvido para a identicao de notas de sinais polifnicos de violo foi apresentado por BONNET e LEFEBVRE [18]. Neste, a anlise realizada sobre trechos segmentados de sinais, correpondentes sustentao das notas. Os autores desenvolveram uma heurstica para identicar no espectro freqencial, normalizado e suavizado, os picos correspondentes s freqncias fundamentais de notas musicais. GAGNON
et al. [19], propuseram um mtodo de auxlio ao reconhecimento
de acordes em sinais de instrumentos solo, em especial de violo. O mtodo, com base em redes neurais e representao da distribuio energtica dos sinais sobre a escala Bark [20], tem como objetivo indicar o nmero de cordas usadas na gerao do acorde e a posio sobre o brao do instrumento em que as notas foram tocadas. A aplicao de redes neurais
feed-forward
na identicao de notas em si-
nais polifnicos foi estudada por MAROLT [21], que desenvolveu um sistema para transcrio de gravaes de piano que envolve, alm de redes neurais, um modelo auditivo e redes adaptativas de osciladores usadas no rastreamento de parciais. SZCZUPAK
et al.
[22] apresentaram um estudo sobre a identicao notas
musicais em registros polifnicos de violo atravs de redes neurais. Neste estudo foram desenvolvidas seis redes neurais projetadas para a anlise de espectros obtidos atravs de uma transformada de Q constante. Cada rede foi desenvolvida para a
identicao de notas em registros com graus diferentes de polifonia. KLAPURI [23] desenvolveu um mtodo para estimar freqncias fundamentais de sinais polifnicos sem restries em relao aos instrumentos presentes na gravaes. O mtodo, com base em modelos computacionais de percepo de
pitch,
utilizado para estimar, uma a uma, as freqncias fundamentais das notas presentes no sinal. Para cada freqncia fundamental estimada, se busca subtrair do espectro do sinal a contribuo de parte das parciais relacionadas a esta freqncia. O processo ento repetido iterativamente no sinal residual. RYYNNEN e KLAPURI [24] associaram o mtodo desenvovido por KLAPURI [23] a um sistema completo de transcrio musical que utiliza um modelo
13
probabilstico, descrito por
hidden Markov models
[25], para a anlise das notas ao
longo da durao dos sinais. Este sistema foi projetado para transcrever gravaes de instrumentos com
pitch
denido, incluindo misturas de instrumentos diferentes,
porm com extenses restritas regio que compreende as notas F 1 e B 6. POLINER e ELLIS [26] desenvolveram um sistema para transcrio musical de gravaes de piano que tem como base classicadores do tipo mquina de vetor de suporte [27], treinados com representaes espectrais. O sistema trata o problema de identicao das notas como um grupo de classicaes binrias. So utilizados 87 classicadores OVA (
one-versus-all ), cada um para deteco de uma nota diferente.
1.10 Proposta da Dissertao

Comumente, sinais discretos so representados no domnio da freqncia atravs da DFT, com as componentes resultantes distribudas ao longo de uma escala linear de freqncias. Assim, as oitavas mais altas do espectro freqencial so representadas com mais componentes que as oitavas mais baixas. J nas escalas musicais de temperamento igual, as freqncias de cada nota so dispostas em uma progresso geomtrica com razo
21/12 .
Conseqentemente,
quando a gravao de um instrumento anado em escala de temperamento igual analisada usando-se a DFT, a quantidade de linhas espectrais em torno do conjunto de parciais de notas mais graves menor do que em torno do conjunto de parciais de notas mais agudas. Como alternativa para equalizar a anlise de diferentes notas, pode-se utilizar a CQT (
constant-Q transform ) [28], uma transformada espectral discreta com sele-
tividade constante e freqncias espaadas em progresso geomtrica, assim como as das notas de escalas de temperamento igual. Para identicar as notas musicais presentes em gravaes de violo, so propostos mtodos de classicao com base em redes neurais
feed-forward
de mltiplas
camadas, treinadas com representaes freqenciais obtidas pela CQT. Este tipo de rede apropriado para tarefas de classicao que envolvem padres no linearmente separveis [29]. O projeto das redes foi realizado explorando propriedades da CQT e carac-
14
tersticas do violo. Busca-se abordar aspectos de execuo musical que podem ser observados em registros do instrumento, como variaes na acentuao das notas (dinmica) e a anlise de segmentos de sinal compostos por notas soando durante diferentes perodos do modelo ADSR. Os mtodos propostos foram desenvolvidos e testados utilizando sinais gerados computacionalmente pela combinao de trechos de registros reais de notas musicais de violo. mica, Foram utilizados registros com trs nveis diferentes de dinA escolha dos segmentos utilizados de cada registro foi
piano, mezzo e forte.
realizada de acordo com uma seqncia de quatro objetivos:
1. Identicar notas em combinaes de registros com dinmica
mezzo
a partir
de segmentos extrados aproximadamente do perodo de sustentao de cada nota.
2. Identicar notas em combinaes de registros com dinmica um, com dinmica
mezzo (exceto por
forte ) a partir de segmentos extrados aproximadamente do mezzo a partir de
perodo de sustentao de cada nota.
3. Identicar notas em combinaes de registros com dinmica
trs possibilidades de segmentao: todos os segmentos extrados aproximadamente do perodo que compreende o ataque e decaimento, todos os segmentos extrados aproximadamente do perodo de sustentao e todos os segmentos extrados aproximadamente do perodo de liberao.
4. Identicar notas em combinaes de registros que tm, independentemente, um entre trs nveis de dinmica (
piano, mezzo
ou
forte )
a partir de segmentos
extrados, independentemente, de um entre trs perodos (aproximadamente do perodo que compreende o ataque e o decaimento, aproximadamente do perodo de sustentao ou aproximadamente do perodo de liberao).
Tambm so apresentadas adaptaes dos mtodos voltadas para a identicao de notas musicais em sinais de piano. Estas adaptaes foram aplicados para identicar notas em combinaes de registros que tm, independentemente, um entre trs nveis de dinmica (
piano, mezzo
ou
forte ) a partir de segmentos extrados,
independentemente, de um entre trs perodos (aproximadamente do perodo que
15
compreende o ataque e o decaimento, aproximadamente do perodo de sustentao ou aproximadamente do perodo de liberao). O objetivo obter material para comparao de resultados com outros mtodos de identicao de notas em registros polifnicos, comumente desenvolvidos para piano solo porm escassos para violo.
16
Captulo 2 A Transformada de Q Constante

2.1 Descrio
A CQT uma transformada espectral com seletividade constante e componentes denidas sobre uma escala de freqncias em progresso geomtrica:
f [kcq ] = q kcq fmin ,

onde:
kcq = 0, 1, ..., kmax ,
(2.1)
fmin = fs =
freqncia mnima escolhida para a anlise, e
freqncia de amostragem do sinal
2f [kmax ]< fs .
Para facilitar a anlise de sinais musicais, esta escala pode ser gerada com:
q = 2 12 ,
O fator de
{1, 2, 3, ...} .
(2.2)
dene a resoluo espectral em fraes de semitom. Quanto maior o valor
maior a resoluo e a seletividade
Q=
1 f [kcq ] = qf [kcq ] f [kcq ] q1 =1

e
(2.3)
da transformada. Por exemplo, com nota musical, os valores de
fmin
1
coincidente com o
pitch
de uma
f [kcq ]
coincidem com os
pitches
de uma seqncia de
notas espaadas por um intervalo de semitom .
1 A coincidncia dos valores de
f [kcq ]
com os pitches de uma seqncia de notas no signica
17
O espectro
Xcq
da CQT de
x[n]
dado por:
1 Xcq [kcq ] = N [kcq ] fs Q N [kcq ] = , f [kcq ]

sendo
N [kcq ]1 n=0
w[n, kcq ]x[n]e
j 2 N [Q k
cq ] n ,
(2.4)
(2.5)
w[n, kcq ]
uma funo-janela de comprimento
N [kcq ].
A Figura 2.1 contm um esquema que relaciona
pitches
em uma escala de
temperamento igual (representados por teclas de piano) s freqncias das componentes de uma CQT e de uma DFT. Neste exemplo, ambas as transformadas tm o mesmo nmero de componentes sobre a faixa de freqncias representada. CQT, neste caso com Na
= 1,
a densidade de componentes por elementos da escala
permanece constante. Na DFT a densidade de componentes por elementos cresce com o incremento da freqncia.
Figura 2.1: Esquema que relaciona
pitches
em uma escala de temperamento igual,
representados por teclas de piano na parte superior da gura, s freqncias das componentes de uma CQT e de uma DFT, representadas no meio e na parte inferior da gura, respectivamente.
que exista coincidncia dos valores de
f [kcq ]
com as freqncias fundamentais das notas. Devido
inarmonicidade presente em instrumentos reais, discutida no captulo introdutrio, as freqncias fundamentais das notas de um instrumento anado em temperamento igual no seguem uma progresso geomtrica exata.
18
2.2 Algoritmo Rpido

Nesta tese a CQT foi implementada atravs de um algoritmo rpido [30], com base no algoritmo FFT. Denindo um
kernel
temporal
para cada
kcq ,
f [k
na forma:
[n, kcq ] = w[n, kcq ]ej 2 fs

segue
cq ] n
(2.6)
1 Xcq [kcq ] = x[n] [n, kcq ] = N n=0
onde
N 1
N 1
X [k ]K [k, kcq ],
(2.7)
k=0
N=
e
fs Q f [0]
f [kcq ] N kn ej 2 fs (n 2 ) ej 2 N
(2.8)
K[k, kcq ] =
o
N 1
w n
n=0
N N (kcq ) 2 2
, kcq
(2.9)
kernel
freqencial, dado pela DFT de
N , kcq . Na Equao (2.9), a funo 2
tem o mesmo nmero de amostras
para todo
kcq ,
porm seus valores fora de
cada intervalo
N 2
N [kcq ] N , 2 2
N [kcq ] 2
so iguais a zero. Dentro deste intervalo,
uma janela de ponderao. Nesta tese foram utilizadas janelas de Hamming. Assim,
w[n, kcq ] = 0,54 0,46 cos 2 n N [kcq ] w[n, k ] = 0, cq

Como os
N 2
N [kcq ] 2
, n n /
N 2 N 2
N [kcq ] N , 2 2 N [kcq ] N , 2 2
+ +
N [kcq ] 2 N [kcq ] 2
kernels kernels
temporais so seqncias simtricas conjugadas ([n, kcq ] freqenciais
[n, kcq ]),
os
K [kcq ]
so reais [31]. Cada
kernel
freqencial
apresenta valores signicativos apenas para uma faixa concentrada de valores de
k.
Considerando nulos os valores muito pequenos, pode-se reduzir drasticamente o
nmero de multiplicaes realizadas, obtendo assim o algoritmo rpido.
2.3 Transposio
Transpor um acorde signica mudar suas notas sem alterar seus intervalos. Para um vetor contendo os valores absolutos dos elementos de uma CQT, a transpo-
19
sio corresponde a um deslocamento igual de cada um destes elementos pela escala de freqncias Sendo
f [kcq ].
a CQT de
Xcq [kcq ]
x[n], Tcq [kcq ]
a CQT de
x[n]
transposta por
q kd
abs() uma funo que, aplicada a um vetor, retorna os valores absolutos de cada um de seus elementos, ento:
abs(Tcq [kcq ])
= abs(Xcq [kcq kd ]).
(2.10)
Para ilustrar esta propriedade, nas Figuras 2.2 e 2.3 so mostrados grcos dos valores absolutos dos elementos de duas transformadas realizadas com
= 1.
A Figura 2.2 contm o grco da CQT de uma composio de senides com freqncias da srie harmnica de L 2 (freqncia fundamental=110,00 Hz). A Figura 2.3 contm o grco da CQT de uma composio de senides com freqncias da srie harmnica de D 4 (freqncia fundamental 277,18 Hz). Ambas as composies foram geradas articialmente. Cada uma formada pela soma de cinco
senides com amplitudes ponderadas, da mais baixa mais alta, por 1; 1/2; 1/4; 1/8 e 1/16, contaminadas por rudo aditivo Gaussiano branco (SNR=10 dB).
Figura 2.2: L 2.
CQT de harmnicos de
Figura 2.3: D 4.
CQT de harmnicos de
Da transposio 16 semitons acima de um acorde que contm a nota L 2, obtm-se um acorde que contm a nota D 4. Do mesmo modo, do deslocamento
16
componentes acima do espectro CQT de uma nota L 2, obtm-se o espectro de
uma nota D 4.
20
2.4 Anlise Tempo-Freqncia

O centro da anlise de todos os intervalos de calcular a CQT o mesmo para todas as
N [kcq ] amostras utilizadas para
kcq componentes; porm, o nmero de amos-
tras utilizadas depende do valor de cada componente analisada na Equao (2.5). Quanto menor a componente
kcq , maior o valor de N [kcq ].
Assim, em uma anlise
tempo-freqncia composta por uma seqncia de CQTs tomadas ao longo da durao de um sinal, o nmero de amostras sobrepostas depende tanto da quantidade de amostras
h (hop )
entre centros consecutivos de anlise, quanto da componente
kcq
analisada. Para que todas as amostras do sinal sejam analisadas para cada componente
kcq , necessrio estabelecer um passo h com comprimento mximo igual ao comprimento do menor
N [kcq ].
Assim,
fs Q . f [kmax ]
(2.11)
Com esta escolha, para grandes extenses de freqncias (f [kmax ] o passo
>> f [0]), <<
ser bem menor que o comprimento do maior intervalo analisado (h
N [0]).
Alm do elevado custo computacional decorrente do
reduzido, haver
grande sobreposio entre intervalos
N [kcq ]
consecutivos para as componentes de
freqncias mais baixas, resultando em uma anlise redundante desta faixa do espectro. Como alternativa, pode-se optar por um passo de comprimento intermedirio:
fs Q fs Q <h< . f [kmax ] f [0]
(2.12)
Neste caso, haver amostras nunca analisadas durante os clculos das componentes mais elevadas do espectro. Como conseqncia, eventos transitrios no sinal analisado com energia signicativa nesta faixa podem no ser satisfatoriamente descritos.
21
2.5 Estacionariedade
A dependncia entre o nmero de amostras componente
N [kcq ]
e a freqncia de cada
f [kcq ]
(Equao (2.5)) no condio suciente para garantir a seleti-
vidade constante da CQT. Tambm necessrio que as componentes freqenciais do sinal permaneam estacionrias ao longo de cada janela
w[n, kcq ].
Isto pode no
se vericar em sinais de msica reais, principalmente se a anlise for realizada sobre componentes de baixa freqncia. Por exemplo: a durao do intervalo de anlise da CQT, com uma componente centrada em
= 1,
para
f = 27, 5 Hz (pitch
da nota L 0) aproximadamente
612 ms.
Tipicamente, um sinal de udio real pode ser considerado aproximadamente
estacionrio por cerca de
20
ms.
Assim, as anlises sobre componentes de baixa
freqncia podem acabar sendo realizadas sobre perodos no-estacionrios de sinal.
22
Captulo 3 Redes Neurais Feed-Forward de Mltiplas Camadas

3.1 Redes Neurais
Redes neurais articiais so estruturas computacionais para processamento de informao inspiradas no funcionamento cerebral. So compostas por combinaes de estruturas computacionais bsicas, os neurnios articiais, por sua vez inspiradas no funcionamento dos neurnios biolgicos. Uma rede neural articial no emula
todo o funcionamento cerebral; em vez disto, de acordo com seu projeto, modela apenas alguns de seus mecanismos. Entre os mecanismos comumente modelados esto: o processamento em paralelo de informao, a capacidade de aprender (para as redes neurais articiais, `capacidade de aprender' pode ser entendida como a capacidade de adaptao de sua arquitetura e de seus parmetros livres para melhor desempenhar uma determinada tarefa [32]) e a capacidade de generalizao (uma rede neural projetada para reconhecimento de padres pode, aps um processo de treinamento, tornarse imune a pequenas variaes dos sinais de entrada, sendo assim apropriada para processamento de sinais com rudo ou distoro [33]). O projeto de uma rede neural articial (bem como dos neurnios articiais) depende do objetivo do processamento. Entre os objetivos tpicos esto: reconhecimento de padres, aproximao de funes e clusterizao. As redes do tipo
feed-
forward
de mltiplas camadas podem ser treinadas, atravs do algoritmo
backpropa-
23
gation (descrito na Seo 3.4), para tarefas de reconhecimento de padres, aplicao

de interesse nesta tese. O algoritmo
backpropagation descreve como modicar os pe-
sos sinpticos da rede utilizando sinais de entrada para os quais as sadas desejadas so conhecidas. A modicao dos pesos sinpticos visa a minimizar uma medida de erro entre as sadas da rede e as sadas desejadas (que, no caso das aplicaes de reconhecimento, identicam os padres dos sinais de entrada). Uma rede treinada para reconhecimento de padres deve, na presena de um sinal de entrada pertencente a algum dos padres treinados, gerar uma sada coerente com este padro, mesmo que o sinal seja indito.
3.2 Os Neurnios Articiais

O modelo de neurnio formado por [27]:
de uma rede
feed-forward
de mltiplas camadas
um conjunto de sinapses que conectam o vetor de entrada ao
neurnio, associando cada elemento do vetor a um fator multiplicador (peso sinptico); um somador que opera sobre os elementos do vetor de entrada (ponderados pelos respectivos pesos sinpticos) e sobre um elemento de polarizao; e uma funo de ativao, que recebe como argumento o campo do neurnio (a sada do somador).
Figura 3.1: Diagrama de um modelo de neurnio articial.
A Figura 3.1 contm o diagrama de um neurnio de uma rede de mltiplas camadas. O neurnio, com vetor de entrada
feed-forward
tem pesos
(x1 x2 ... xm )T ,
1 A partir deste ponto, por brevidade, a palavra neurnio substitui neurnio articial. Do
mesmo modo, rede neural substituir adiante rede neural articial.
24
sinpticos
{w1 ... wm }.
Assim, seu campo
dado por
u=
p=1
onde (ou
(xp wp ) + b, xp
e
(3.1)
wp
o peso sinptico associado ao elemento
b o elemento de polarizao
bias ) do campo.
O termo
pode ser modelado como o produto entre uma entrada
x0 = 1
um peso sinptico
w 0 = b.
Assim
pode ser reescrito como
u=
p=0
e a sada
xp w p ,
(3.2)
do neurnio pode ser escrita como
y=
p=0
onde
xp w p
wT x ,
(3.3)
w = (w0 w1 ... wm )T e x = (x0 x1 ... xm )T .

O neurnio normalmente representado de uma forma simplicada, mostrada
na Figura 3.2.
Figura 3.2: Diagrama simplicado de neurnio de uma rede
feed-forward.
Isto
A funo de ativao
usualmente uma funo no-linear suave.
permite que, em aplicaes de reconhecimento de padres, se obtenham fronteiras de deciso suaves entre classes. algoritmo vel. Para realizar o treinamento da rede utilizando o
back-propagation
necessrio que a funo de ativao seja diferenci-
Funes sigmoidais como a logstica (Equao 3.4) e a tangente hiperblica
so opes comuns que atendem estas condies. Elas so funes monotnicas que apresentam comportamento aproximadamente linear para argumentos com pequeno
25
valor absoluto, porm suas sadas se aproximam assintoticamente de um limite superior ou inferior conforme o argumento cresce ou decresce. Os limites da funo logstica e da funo tangente hiperblica so, respectivamente, {0,1} e {-1,1}. Em geral, quando se utilizam funes sigmoidais, as sadas desejadas so compostas com valores pertencentes aos limites das funes de ativao utilizadas nos neurnios de sada da rede. A funo logstica dada por
(u) =
onde o parmetro
1 , 1 + expu
> 0,
(3.4)
controla a inclinao da funo ao longo de sua imagem.
As Figuras 3.3 e 3.4 contm as respostas das funes logstica e tangente hiperblica para valores de entrada dentro da faixa
[6, 6].
Figura 3.3: Curva de respostas da funo logstica com
Figura 3.4: Curva de respostas da funo tangente hiperblica.
= 1.
3.3 A Organizao em Camadas

As redes
feed-forward
podem ter uma ou mais camadas de neurnios. Nelas
no existem ligaes de realimentao entre neurnios de diferentes camadas, nem ligaes entre neurnios de uma mesma camada. Cada neurnio recebe como entrada apenas sadas de neurnios de camadas precedentes ou, no caso da primeira camada, do vetor de entrada da rede. Na congurao mais comum, a rede organizada em camadas ligadas em cascata. As sadas dos neurnios de uma camada servem como entradas para os neurnios da camada seguinte. A
1a
camada de neurnios recebe
26
o vetor de entrada da rede, a
2a
camada recebe o vetor composto pelas sadas da
1a
camada, a
3a
camada se existir recebe o vetor composto pelas sadas da
2a
camada, e assim por diante. As redes so chamadas totalmente conectadas se todos os neurnios de uma camada qualquer tiverem ligaes sinpticas com as sadas de todos os neurnios da camada anterior (ou, no caso da
1a
camada, se todos os neurnios tiverem conexes
sinpticas com todos os elementos do vetor de entrada da rede). Todas as camadas de neurnios, exceto a camada de sada, so chamadas de camadas ocultas. A Figura 3.5 contm a representao de uma rede madas com vetor de entrada
feed-forward
de duas ca-
(x1 x2 ... xm )T .
A rede totalmente conectada, com
trs neurnios na primeira camada (a camada oculta) e dois neurnios na segunda (a camada de sada) .
Figura 3.5: Rede neural
feed-forward
de duas camadas. Para simplicar o desenho,
os pesos sinpticos e elementos de polarizao dos neurnios no esto representados.
Durante o treinamento supervisionado, atravs de uma transformao nolinear dos dados de entrada para um novo espao, os neurnios das camadas ocultas extraem progressivamente dos vetores de entrada as caractersticas mais signicativas para a separao das classes [27]. Neste novo espao, as classes de interesse podem ser mais facilmente separadas entre si do que no espao original de entrada.
2 Alguns autores se referem ao vetor de entrada como a 1a camada da rede. Neste caso, uma rede
como a da Figura (3.5) seria classicada como feed-forward de trs camadas. Nesta tese adota-se a conveno em que o vetor de entrada nomeado `camada com o nmero de camadas de neurnios, apenas.
0'
e as redes so nomeadas de acordo
27
3.4 Algoritmo Backpropagation

Para realizar o treinamento por
backpropagation
necessrio ter um con-
junto de vetores de entrada para os quais se conhecem os vetores desejados como sadas da rede. Em uma tarefa de reconhecimento de padres, todos os vetores
de entrada pertencentes a uma mesma classe so usualmente associados ao mesmo vetor-objetivo. O algoritmo realizado em iteraes sucessivas, cada uma composta por duas etapas: a propagao adiante do sinal de entrada, quando, de acordo com o vetor de entrada apresentado, so calculadas as sadas de cada camada da rede para a congurao corrente de pesos sinpticos; e a retropropagao do erro, quando so calculados os ajustes dos pesos sinpticos em funo de uma medida de erro entre o vetor de sada da rede e o vetor-objetivo associado ao vetor de entrada apresentado. Considerando uma rede com camadas de neurnios numeradas
c = 1, ..., s
(sendo
a camada de sada), nesta etapa inicialmente so calculados os ajustes dos pesos
sinpticos da camada
s,
em seguida so calculados os ajustes dos pesos da camada
s 1,
e assim por diante at serem calculados os ajustes dos pesos da camada
1.
Antes de realizar o treinamento aconselhvel que todos os pesos sinpticos sejam inicializados com valores escolhidos randomicamente e pequenos o suciente para que no ocorram saturaes em neurnios na iterao inicial [33]. A saturao de um neurnio com funo de ativao sigmoidal ocorre quando sua sada se aproxima de um de seus limites e a derivada de sua funo de ativao, em relao ao campo do neurnio, se aproxima de zero. Na etapa de propagao adiante do sinal de entrada, para cada vetor de entrada
(x1 ... xm )T
so calculadas as sadas de cada neurnio de acordo com a
congurao corrente de pesos sinpticos. Sendo
wc,pq
o peso sinptico do
q -simo neurnio da camada c que pondera a

de uma camada
p-sima sada da camada anterior y(c1),p , a sada de um neurnio r

(c = v ) dada por:
yv,r =
onde
wT v y(v 1) ,
(3.5)
wv = (wv,0r wv,1r ... wv,mr )T ,

wv,0r = bv,r
(elemento de polarizao do
r-simo
28
neurnio da
v -sima
camada),
m=
nmero de elementos de sada na camada
v 1,
y(v1) = (y(v1),0 y(v1),1 ... y(v1),m )T e

y(v1),0 = 1.
A camada anterior primeira camada de neurnios (c = 1) o vetor de entrada (a camada
0),
assim a sada de um neurnio
da
1a
camada dada por:
y1,p =
onde
wT 1x ,
(3.6)
w1 = (w1,0p w1,1p ... w1,mp )T ,

w1,0p = b1,p
p-simo
neurnio da
1a
camada),
x = (x0 x1 ... xm )T e
x0 = 1.
A sada de um neurnio
da segunda camada (c = 2) dada por:
y2,q =
onde
wT 2 y1 ,
(3.7)
w2 = (w2,0q w2,1q ... w2,mq )T ,

w2,0q = b2,q
q -simo
neurnio da
2a
camada),
y1 = (y1,0 y1,1 ... y1,m )T e

y1,0 = 1.
Na retropropagao do erro, sendo da rede,
ys = (ys,1 ys,2 ... ys,j )T o vetor de sada
d = (d1 d2 ... dj )T o vetor-objetivo, eq = dq ys,q (diferena entre o q-simo

q -simo
elemento do vetor de sada) e a funo de a minimizar, igual soma dos quadrados das diferenas
elemento do vetor-objetivo e o custo
E,
eq ,
isto ,
E=
q =1
para ajustar o peso
e2 q
=
q =1
(dq ys,q )2 ,
(3.8)
wc,pq necessrio produzir um ajuste wc,pq no sentido de descida
do gradiente da superfcie de custo em relao ao espao de pesos sinpticos,
wc,pq =
A taxa
E . wc,pq
(3.9)
utilizada para controlar a evoluo do processo de treinamento. Uma
taxa muito elevada pode tornar o processo de treinamento instvel. Uma taxa muito
29
pequena pode tornar o processo muito lento. A escolha de um valor timo para esta constante depende do problema tratado. Para ajustar um neurnio da camada de sada (wc,pq exprimir
= ws,pq ),
necessrio
E ws,pq
em funo de valores conhecidos (calculados na etapa de propagao
adiante do sinal de entrada). Utilizando a regra da cadeia pode-se escrever:
E E eq ys,q us,q = . ws,pq eq ys,q us,q ws,pq
(3.10)
A seguir so descritos, em funo dos valores calculados na etapa de propagao adiante do sinal de entrada, os fatores direita da Equao (3.10).
E = eq
q =1
e2 q eq = 2eq ,
(3.11)
(dq ys,q ) eq = = 1, ys,q ys,q ys,q (us,q ) = , us,q us,q
(3.12)
(3.13)
us,q = ws,pq
p
y(s1),p ws,pq ws,pq = y(s1),p .

(3.14)
Substituindo as solues das Equaes (3.11), (3.12), (3.13) e (3.14) na Equao (3.10), segue:
E (us,q ) = 2eq y(s1),p . ws,pq us,q
(3.15)
O produto de
eq
(us,q ) , parte da Equao (3.15), pode ser reescrito em funo us,q
E . us,q
Utilizando-se o resultado da Equao (3.11) pode-se escrever:
s,q = eq
Pela regra da cadeia,
(us,q ) 1 E (us,q ) = . us,q 2 eq us,q 1 E ys,q (us,q ) . 2 ys,q eq us,q

30
(3.16)
s,q =
(3.17)
Substituindo o resultado da Equao (3.12) na Equao (3.17),
s,q =
Como
1 E (us,q ) . 2 ys,q us,q 1 E ys,q , 2 ys,q us,q 1 E . 2 us,q
(3.18)
(us,q ) = ys,q , s,q =

(3.19)
s,q =
(3.20)
Substituindo o resultado da Equao (3.20) na Equao (3.15):
E = 2 s,q y(s1),p . ws,pq
(3.21)
A regra de atualizao para pesos sinpticos da camada de sada (c = s) pode ser obtida atravs da substituio do resultado da Equao (3.21) na Equao (3.9),
ws,pq = 2 s,q y(s1),p .

Os pesos sinpticos da camada
(3.22)
c = s 1 podem ser corrigidos aps os ajustes w(s1),rp

a (o peso sinptico
da camada de sada (c = s). Para ajustar o peso sinptico do
p-simo
neurnio da camada
s1
e que pondera
y(s2),r ,
r-sima
sada da
camada o peso
s 2)3
necessrio, analogamente ao procedimento utilizado para ajustar
ws,pq ,
produzir um ajuste
w(s1),rp
no sentido de descida do gradiente da
superfcie de custo em relao ao espao de pesos sinpticos:
w(s1),rp =
E w(s1),rp q
(3.23)
Assim como para ajustar um neurnio
da camada de sada necessrio
utilizar a derivada parcial da funo de custo em relao ao campo deste neurnio
E us,q
camada
Equaes (3.19) e (3.20) , para calcular o ajuste de um neurnio
p da
s 1,
necessrio utilizar a derivada parcial da funo de custo em relao
ao campo
u(s1),p ,
E u(s1),p
. Pela regra da cadeia,
w(s1),rp =
u(s1),p E . u(s1),p w(s1),rp

y(s2),r = xr
(o
(3.24)
3 Se a rede tiver duas camadas de neurnios, ento

de entrada da rede).
r-simo
elemento do sinal
31
Como
u(s1),p = w(s1),rp
ento:
y(s2),r w(s1),rp
r
w(s1),rp
= y(s2),r ,
(3.25)
w(s1),rp =
E y(s2),r . u(s1),p
(3.26)
Denindo (analogamente ao resultado da Equao 3.20)
(s1),p =
pela regra da cadeia
1 E , 2 u(s1),p
(3.27)
(s1),p =
onde
y(s1),p 1 E , 2 y(s1),p u(s1),p s 1.

Como
(3.28)
y(s1),p
a sada do neurnio
da camada
y(s1),p = (u(s1),p ) ,
(3.29)
(s1),p = E y(s1),p
(u(s1),p ) 1 E . 2 y(s1),p u(s1),p
O fator
direita da Equao (3.29) pode ser reformulado:
e2 q =2
E q =1 = y(s1),p y(s1),p
Pela regra da cadeia,
eq
q =1
eq . y(s1),p
(3.30)
E eq us,q =2 eq . y(s1),p us,q y(s1),p q =1

Os fatores mulados:
(3.31)
eq us,q
us,q y(s1),p
direita da Equao (3.31) tambm podem ser refor-
eq (dq ys,q ) ys,q (us,q ) = = = , us,q us,q us,q us,q us,q = y(s1),p
p
(3.32)
y(s1),p ws,pq y(s1),p = ws,pq .

(3.33)
Substituindo os resultados das Equaes (3.32) e (3.33) na Equao (3.31),
32
E ((us,q )) eq ws,pq . = 2 y(s1),p us,q q =1
(3.34)
Substituindo o resultado da Equao (3.34) na Equao (3.29) e rearranjando os fatores,
(s1),p
(u(s1),p ) = u(s1),p s,q
eq
q =1
((us,q )) ws,pq . us,q
(3.35)
De acordo com a denio de
feita na Equao (3.16),
(s1),p
(u(s1),p ) = u(s1),p
s,q ws,pq .
q =1
(3.36)
Reformulando a Equao (3.27),
E = 2(s1),p . u(s1),p
Deste modo,
(3.37)
E w(s1),rp
= 2(s1),p y(s2),r .
(3.38)
Substituindo o resultado da Equao (3.37) na Equao (3.26),
w(s1),rp = 2 (s1),p y(s2),r .
(3.39)
Para redes com mais que duas camadas, as regras de atualizao das camadas restantes podem ser obtidas, por induo, a partir das Equaes (3.36) e (3.39). Para ajustar o peso sinptico
w(sl),nr
(o peso sinptico do
r-simo
neurnio da camada
s l, l {2, 3, ...},
que pondera
y(sl1),n ,
n-sima
sada da camada
s l 1),
as
equaes de atualizao so:
(sl),r =
(u(sl),r ) u(sl),r
(sl+1),p w(sl+1),rp ,
p
(3.40)
w(sl),nr = 2 (sl),r y(sl1),n .
(3.41)
3.5 Treinamentos Seqencial e por Batelada

O algoritmo
backpropagation
descreve como utilizar um par de vetores (um
vetor de entrada e o respectivo vetor-objetivo) para calcular ajustes que produzam
33
a reduo de uma medida de custo
(funo do vetor de entrada utilizado, do
respectivo vetor-objetivo e da congurao de pesos da rede). Porm, o treinamento de uma rede do algoritmo
feed-forward
normalmente realizado atravs de sucessivas aplicaes sobre diversos pares de vetores pertencentes a um
backpropagation
conjunto de treinamento (composto por
vetores de entrada e pelos respectivos N
vetores-objetivo). O treinamento visa a minimizar o custo mdio onde
E [i]
o custo associado ao
i-simo
i=1 par de vetores utilizados durante o treina-
= 1 E N
E [i],
mento. Existem dois mtodos principais para aplicar o algoritmo
backpropagation
sobre o conjunto de vetores de treinamento: o mtodo de treinamento seqencial e o de treinamento por batelada. No treinamento seqencial, dentro de cada poca (perodo em que so apresentados os pares de vetores do conjunto de treinamento, uma vez cada, at todos serem utilizados), os ajustes dos pesos sinpticos so realizados a cada iterao do algoritmo
backpropagation.
Inicialmente, um par de vetores do conjunto de treinamento
selecionado e uma iterao do algoritmo aplicada. Nesta iterao so realizados tanto os clculos dos ajustes, de acordo com as Equaes (3.22) e (3.39), quanto as atualizaes dos pesos sinpticos. O procedimento ento repetido seqencialmente para os outros pares de vetores do conjunto de treinamento at que todos sejam utilizados. Aps cada poca, se um critrio de parada pr-estabelecido no for atendido, necessrio iniciar uma nova poca de treinamento. Neste mtodo, as atualizaes realizadas em uma iterao podem reduzir o custo para o padro apresentado, mas tambm aumentar o custo mdio do conjunto de treinamento. Para um nmero elevado de iteraes, porm, o custo mdio decresce [29]. No treinamento por batelada os pesos sinpticos so atualizados somente aps cada poca. Inicialmente um par de vetores do conjunto de treinamento
selecionado e uma iterao do algoritmo
backpropagation
aplicada. Nesta iterao
so realizados apenas os clculos dos ajustes, de acordo com as Equaes (3.22) e (3.39). Os valores dos ajustes so, ento, armazenados. O procedimento repetido para os outros pares de vetores do conjunto de treinamento at que todos sejam utilizados. Cada peso sinptico , ento, atualizado com a mdia de seus
ajustes,
calculados dentro da poca. Assim como no treinamento seqencial, ser necessrio
34
iniciar uma nova poca de treinamento se um critrio de parada pr-estabelecido no for atendido aps a atualizao dos pesos sinpticos. O critrio de parada utilizado nesta tese envolve a avaliao da funo de M custo
= E
E [i],
aplicada a um conjunto de validao formado por
vetores
i=1 de entrada (diferentes dos vetores de entrada do conjunto de treinamento, porm

pertencentes s mesmas classes) e seus respectivos vetores-objetivo. Aps o m das atualizaes realizadas a cada poca, o custo
avaliado para os pares de veto-
res do conjunto de validao, processados na congurao corrente da rede. Cada nova congurao da rede que gerar um custo inferior ao menor custo anteriormente avaliado armazenada, e uma nova poca de treinamento iniciada. O critrio de parada s atendido quando o custo para o conjunto de validao aumentar consistentemente durante um nmero mnimo de pocas. A congurao nal da rede (aquela que gerar o menor custo para o conjunto de validao dentre as conguraes testadas) utilizada para classicar novos sinais. Este mtodo utilizado para evitar o excesso de treinamento. O aumento do custo para o conjunto de validao indica a reduo do desempenho da rede na classicao de vetores que no fazem parte do conjunto de treinamento, mas que pertencem s classes treinadas. A avaliao do desempenho da rede na classicao de vetores inditos deve ser feita sobre um conjunto de teste formado por vetores diferentes dos vetores dos conjuntos de treinamento e de validao, porm pertencentes s mesmas classes.
3.6 Algoritmo Rprop

RIEDMILLER e BRAUN [34] desenvolveram o algoritmo Rprop (ou
Resili-
ent Backpropagation ) para treinamento por batelada como uma alternativa para o
treinamento de redes
feed-forward
capaz de evitar falhas de convergncia que podem utilizado. Pela Equao (3.9), repe-
ocorrer quando o algoritmo
backpropagation
tida abaixo para facilitar a leitura, a evoluo de um treinamento realizado com o algoritmo
backpropagation
E : wc,pq
depende tanto do valor de
quanto do comportamento
da derivada parcial
wc,pq =
E . wc,pq
(3.42)
35
A escolha de um valor apropriado para a taxa
pode no ser suciente para
garantir a convergncia do processo de treinamento porque a evoluo da magnitude de
backpropagation
E wc,pq
imprevisvel. Alternativas de treinamento inspiradas no algoritmo que utilizam termos de momento ou taxas de aprendizado adapta-
tivas [35, 36] tambm so suscetveis a este problema, porm em diferentes escalas. No algoritmo Rprop, o valor do ajuste de
wc,pq
no proporcional magnitude
E . wc,pq
Em vez disto, o ajuste denido pela evoluo do sinal de
E wc,pq
(obtido,
para redes de duas camadas, atravs das Equaes (3.21) e (3.38)) de acordo com a seguinte heurstica:
Sendo
[t] E wc,pq
igual a soma das derivadas parciais da funo de custo
em relao
ao peso sinptico em uma poca
wc,pq
para todos os pares de vetores de treinamento apresentados
t,
dado um valor adaptativo
c,pq
referente ao peso sinptico
wc,pq ,
+ c,pq [t 1], c,pq [t] = c,pq [t 1], c,pq [t 1],

onde
se
[t 1] E [t] E >0 wc,pq wc,pq [t] [t 1] E E <0 wc,pq wc,pq [t 1] E [t] E = 0, wc,pq wc,pq
se
se
0 < < 1 < + ,
c,pq [t], wc,pq [t] = +c,pq [t], 0,

Assim, o valor de
se
[t] E >0 wc,pq [t] E <0 wc,pq [t] E = 0. wc,pq E wc,pq

mantiver o
se
se
c,pq
aumenta enquanto a derivada parcial
mesmo sinal (incrementando a velocidade de treinamento). Se a derivada trocar de sinal (na possvel passagem por um mnimo local), o valor de a poca
c,pq
diminui. Para
t,
se a derivada for positiva, o ajuste
wc,pq [t]
recebe o negativo do valor
c,pq
(buscando corrigir o sentido do treinamento).
Se a derivada for negativa, o Alm destas regras,
sentido no precisa ser corrigido, e
wc,pq [t] recebe o valor c,pq .

36
quando ocorrer troca do sinal da derivada na passagem da poca
t1
para a poca
t,
o ajuste realizado na poca
t1
deve ser revertido (wc,pq [t]
= wc,pq [t 1])
e o novo valor, reduzido, de seguinte (c,pq [t
c,pq ,
calculado na poca
t,
deve ser utilizado na poca
+ 1] = c,pq [t]).
37
Captulo 4 Metodologia para Identicao de Notas de Violo

4.1 Introduo
Os mtodos para identicao de notas desenvolvidos nesta tese podem ser separados em dois grupos principais. No primeiro grupo esto os mtodos que
utilizam apenas uma rede neural e uma representao espectral na identicao das notas de cada combinao. No segundo grupo esto os mtodos que utilizam duas redes neurais e duas representaes espectrais na identicao das notas de cada combinao. Os mtodos do segundo grupo tm uma rede para identicar a nota mais grave de cada combinao e outra para encontrar os intervalos entre a nota mais grave e as notas restantes. A segunda rede recebe como vetor de entrada As duas redes so utilizadas
uma verso `transposta' da representao espectral. em seqncia.
Aps conhecer a estimativa para a nota mais grave, resultado do
processamento com a primeira rede, o espectro da CQT alterado (de modo similar ao descrito na Seo 2.3) para que a componente analisada sobre o
pitch
da nota
mais grave se torne a primeira componente do espectro. O novo espectro ento analisado com a segunda rede para obter estimativas dos intervalos entre a nota mais grave da combinao e as notas restantes.
38
4.2 Banco de Dados

Para treinar e testar as redes neurais desenvolvidas nesta tese foram utilizados bancos de dados compostos por registros de notas individuais de violo e piano. Os registros de notas de violo foram obtidos do banco de gravaes de udio
RWC
Music Database: Musical Instrument Sound Database [37] e de um banco criado por
mim, referido aqui como banco RNV (Registros de Notas de Violo). Ambos os bancos so compostos por registros digitais monaurais com resoluo de 16 bits e taxa de amostragem de 44100 Hz. As gravaes do banco RWC
utilizadas nesta tese, nomeadas com as si-
glas 091CGAFP, 091CGAFM, 091CGAFF, 092CGAFP, 092CGAFM, 092CGAFF, 093CGAFP, 093CGAFM e 093CGAFF, contm seqncias de notas de 3 violes diferentes (designados por `091CG', `092CG' e `093CG'). Estas gravaes foram realizadas com a tcnica
apoyando 2
(indicada pela letra `A'), sem palheta (indicado
pela penltima letra de cada sigla, `F'), executadas com 3 nveis diferentes de dinmica (indicados pela ltima letra de cada sigla, `P' para `F' para
piano,
`M' para
mezzo
forte ).
Cada gravao composta por uma seqncia de 78 sons de notas Pode-se notar que
individuais, registros das 13 notas mais graves de cada corda.
a variao de amplitude entre notas iguais em gravaes com dinmicas diferentes , muitas vezes, pequena. Isto pode ter sido causado por variaes na amplicao dos sinais ou na distncia do microfone ao instrumento. A Figura 4.1 contm a
representao de um brao de violo com o desenho das cordas apenas sobre as posies utilizadas para gerar estes registros, incluindo 6 posies sobre o capotraste (a parte do brao que suporta as cordas e que serve como n quando as cordas vibram livremente). Como o som de uma mesma nota pode ser obtido utilizando cordas
diferentes, com algumas excees (como visto na Seo 1.7), cada nota pode ter um, dois ou trs registros em cada gravao. Por exemplo: a nota L 2 tem 2 registros: um obtido tocando a
6a
corda (mantida pressionada sobre a
5a
casa a partir do
capotraste ) e outro obtido tocando a
5a
corda solta. A nota R 4 tem 3 registros

RWC Music Database: Musical Instrument Sound
1 A partir deste ponto, por brevidade, o banco
Database ser referido apenas como banco RWC.
2 Na tcnica
apoyando o msico apoia, aps o plectro, o dedo ou palheta na corda adjacente.
3 As casas so os espaos entre trastes.
39
em cada gravao: o primeiro obtido tocando a a
4a
corda (mantida pressionada sobre
12a
casa), o segundo obtido tocando a
3a
7a
casa) e o terceiro obtido tocando a
2a
3a
casa).
Cada gravao contm de um a trs registros de 37 notas diferentes.
Figura 4.1: Representao do brao de um violo com as cordas desenhadas somente sobre a regio utilizada para realizar as gravaes da base RWC.
Para a construo do banco RNV foram gravados sons de 5 violes diferentes, nomeados A, B, C, D e E. A Figura 4.2 contm a representao de um brao de violo com o desenho das cordas sobre as 78 posies utilizadas para gerar estes registros, novamente incluindo as 6 posies sobre o capotraste. Com esta escolha foram
gravadas todas as 44 notas diferentes que podem ser obtidas com violo normal, com dois registros de cada uma das 34 notas que podem ser tocadas em cordas diferentes. As 10 notas restantes tm apenas um registro.
Figura 4.2: Representao do brao de um violo com as cordas desenhadas somente sobre a regio utilizada para realizar as gravaes do banco RNV.
Durante as gravaes, apenas a corda utilizada na gerao da nota podia vi-
40
brar. As 5 demais cordas permaneciam abafadas. Todas as notas foram executadas com dinmica
mezzo.
As gravaes foram realizadas em um ambiente sem trata-
mento acstico mas silencioso. Foi utilizado um microfone Shure
R,
modelo SM81.
a Nas gravaes de notas obtidas a partir de posies entre o capotraste e a 12 casa,

o microfone foi voltado para a 12 a partir de posies alm da 12
casa do brao. Nas gravaes de notas obtidas
casa, o microfone foi apontado para a regio entre
a casa pressionada e a cavidade do tampo. A distncia entre o microfone e o brao foi mantida em torno de 5 cm, com pequenas variaes para evitar a saturao da cpsula.
4.3 Segmentao
Para utilizar as gravaes descritas na Seo 4.2 no desenvolvimento das redes foi necessrio segment-las, separando cada uma das notas, a partir de seu em um arquivo independente. A segmentao de cada registro do banco RNV foi realizada atravs da anlise visual das formas de onda de cada gravao. Este mtodo comumente chamado de `mtodo manual', porque no faz uso de algoritmos computacionais para deteco de
onset,
onsets.
Cada registro foi disponibilizado no banco de dados como uma gravao
independente, j segmentada. Uma parte dos
onsets
das gravaes da base RWC foi especicada de acordo Outra parte foi especicada utili-
com marcaes disponibilizadas por YEH [38]. zando um algoritmo de deteco de
onsets, em desenvolvimento, gentilmente cedido
por Jorge Costa Pires Filho. Um grupo de marcaes foi realizada manualmente, assim como no banco RNV. Todas as marcaes foram revisadas, e corrigidas quando necessrio, inclusive as marcaes disponibilizadas por Chunghsin Yeh. O nal de cada segmento, o
oset,
foi estabelecido como o instante da amostra anterior ao
onset
da nota seguinte ou, no caso do ltimo registro de cada gravao, como o As marcaes de
instante da ltima amostra da gravao.
onsets
da base RWC
utilizadas nesta teste esto listadas no Apndice A.1.
41
4.4 Criao dos
Kernels da CQT
N [kcq ]
utilizadas no clculo da CQT cresce
Como a quantidade de amostras
medida que a anlise se estende para freqncias mais baixas (Equao (2.5)), intervalos utilizados na anlise de gravaes de violo podem compreender trechos no-estacionrios de sinal. Reduzir a seletividade da CQT diminui a quantidade
de amostras necessrias para calcular cada componente da transformada, porm uma anlise com baixa seletividade pode no possibilitar a distino entre parciais presentes no sinal. Para calcular uma componente da CQT sobre o a nota mais grave do violo, com seletividade resoluo de
pitch
ms.
de Mi 2,
Q 68,75
correspondente a uma
1/4
de semitom, necessrio utilizar um intervalo de
0,83
BROWN [28] props alterar a seletividade dos
kernels
da CQT em funo
da faixa do espectro sob anlise para obter uma representao que tenha boa resoluo nas regies mais elevadas do espectro (que podem concentrar superposies de parciais), sem que seja necessrio utilizar um grande nmero de amostras para a anlise de componentes nas regies mais baixas da faixa do instrumento (onde menor o efeito de superposio de parciais). Nesta tese foram utilizados quatro valores diferentes para a seletividade ao longo da representao espectral. Para o primeiro e para o segundo grupo de mtodos foram criados da CQT para a anlise de componentes a partir do violo (Mi 2;
kernels
pitch
da nota mais grave do Com esta escolha
pitch 82,41 Hz) at aproximadamente 5274,04 Hz.
para o limite superior possvel representar cinco parciais da nota mais aguda do instrumento (Si 5;
pitch 987,77 Hz) e, se os efeitos de inarmonicidade no forem pitch 1046,50 Hz).
muito elevados, cinco parciais da nota seguinte (D 6; Os cial
kernels da 1a oitava da transformada foram criados com resoluo freqen1
q = 2 12 ,
correspondente a 1 semitom.
Deste modo, a durao do intervalo
necessrio para o clculo da componente sobre o igual a o
pitch
de Mi 2 aproximadamente para a anlise da
0,20
s.
Foram criados dois grupos de
kernels
1/6
2a
oitava:
1o
com resoluo freqencial
q = 2 24 ,
correspondente a
1/4
de tom e o
2o
com
resoluo freqencial
q =2
1 36 ,
correspondente a
de tom. O
1o
grupo abrange,
com 14 componentes, as 7 primeiras notas dessa oitava. O 15 componentes, as 5 ltimas notas dessa oitava.
2o
grupo abrange, com
A troca de seletividade dentro
da oitava justicada pelo possvel aumento no nmero de parciais, dependendo de
42
quais notas so analisadas, presentes dentro da oitava. A mais grave do violo ocorre em aproximadamente existe inarmonicidade), enquanto a freqncia
3a
parcial referente nota
247,22 2o
Hz (assumindo que no
1a
componente do
grupo analisada sobre a
246,94
Hz. A partir da
3a
oitava os
1
kernels
da transformada foram rea-
lizados com resoluo freqencial
q = 2 48 ,
correspondente a
1/8
de tom. No total,
uma representao freqencial criada utilizando estes nentes: 12 na
kernels
contm 234 compocomponente da
1a
oitava, 29 na
2a
oitava e 193 a partir da
1a
3a
oitava at a ltima componente da transformada. Para o segundo grupo de mtodos so utilizados, alm dos anteriormente,
kernels
descritos
kernels
complementares para o clculo dos espectros transpostos. A
rede utilizada para estimar os intervalos entre a nota mais grave de cada combinao e as notas restantes processa representaes espectrais que tm a mesma seqncia de seletividade por componente descrita para o primeiro grupo de mtodos, porm as transformadas devem ser calculadas a partir do combinao. Assim, se a nota mais grave for R 3 ( calculada, utilizando 234
pitch
da nota mais grave da
pitch 146,83 Hz), a CQT ser pitch
kernels,
com componentes a partir de aproximadamente
146,83 Hz.
Deste modo, transformadas com a primeira componente a partir do
da nota F 4 (
pitch 349,23 Hz) teriam componentes calculadas acima da freqncia

Os
de Nyquist [39].
kernels
referentes a estas componentes no so calculados, e
os valores de suas componentes so preenchidos com zeros durante o clculo das transformadas. Como a seletividade das componentes varia em funo da nota mais grave da combinao, s possvel aproveitar parte das componentes calculadas no processo de identicao da nota mais grave. Apenas as componentes que tiverem a seletividade mantida podem ser usadas para gerar a nova representao espectral (Seo 2.3).
4.5 Criao das Combinaes de Notas Musicais

Os bancos de dados descritos na Seo 4.2 foram utilizados para criar sons formados por combinaes de diferentes notas musicais. Representaes espectrais destes sons servem como vetores de entrada para as redes neurais. Cada vetor de entrada foi associado a um vetor-objetivo de 44 elementos que indica quais notas esto
43
presentes em cada combinao, possibilitando realizar o treinamento supervisionado das redes. As combinaes de notas foram realizadas computacionalmente, criando sons com diferentes graus de polifonia, com at seis notas simultneas. Usar combinaes realizadas computacionalmente, em vez de gravaes de um msico, possibilita criar uma grande quantidade de exemplos para o treinamento das redes sem a necessidade de gravar individualmente cada combinaco de notas. Por outro lado, os sons gerados com este procedimento no apresentam efeitos de acoplamento entre modos de vibrao de cordas diferentes, que podem ocorrer durante a execuo do instrumento. Espera-se que estes efeitos possam ser desconsiderados durante o desenvolvimento das redes sem causar impacto signicativo na aplicao prtica do mtodo. Nenhuma limitao com base em regras harmnicas foi utilizada na escolha das combinaes de notas utilizadas. Na msica ocidental existem vrias regras de construo harmnica regras para a combinao musical de notas simultneas e muitos msicos que ignoram, propositalmente ou no, estas regras. Deste modo, desenvolver um sistema de transcrio estabelecendo quais combinaes so vlidas e quais no so implicaria a polarizao dos resultados para um determinado conjunto de regras e no reetiria a riqueza de possibilidades que podem ser encontradas em composies da msica ocidental moderna. Estabelecer, porm, algum tipo de limitao harmnica pode ser til para obter transcries voltadas para determinados estilos musicais ou como um passo intermedirio para a criao de um sistema mais abrangente. As notas presentes em um instante qualquer de uma gravao real podem estar em etapas diferentes na evoluo de suas envoltrias. Algumas notas podem, por exemplo, estar no perodo de ataque, enquanto outras esto no perodo de decaimento ou de sustentao. As notas tambm podem ter dinmicas diferentes. Para construir um conjunto realista de sinais, com eventos similares aos que podem ocorrer em gravaes musicais, alguns cuidados foram tomados na criao das combinaes:
a.
Para cada instrumento do banco de dados foi gerada uma srie independente de
combinaes dos registros disponveis. O primeiro registro era escolhido aleatoria-
44
mente, de uma distribuio uniforme, entre os 78 registros disponveis. Em seguida, todos os registros de notas tocadas na mesma corda eram excludos da escolha seguinte. Tambm eram excludos todos os registros da mesma nota tocados em outras cordas. O segundo registro era escolhido aleatoriamente, de uma nova distribuio uniforme, entre os registros restantes. Novamente todos os registros de notas tocadas na mesma corda e registros da mesma nota tocados em outras cordas eram excludos da escolha seguinte. Este processo era repetido at se completar o grau de polifonia desejado. Para grau de polifonia igual a dois, foram esgotadas todas as combinaes possveis segundo esta regra (2480 combinaes para cada violo da base RWC e 2427 combinaes para cada violo da base RNV). Para graus de polifonia maiores que dois, foram escolhidas de 2750 at 4000 combinaes diferentes para cada violo disponvel, de acordo com o experimento realizado. Na prtica, o nmero de casas sobre o brao do instrumento que podem ser alcanadas simultaneamente limitado pelo alcance dos dedos do msico. Assim, foram simuladas combinaes de posies que no so possveis no instrumento. Porm, o projeto do violo permite ao msico tocar muitas dessas combinaes a partir de outras posies. Por exemplo, no possvel pressionar simultaneamente a 1
casa da 6
corda (F 2) e a 10
casa da 2
corda (L 4), mas possvel tocar
as mesmas notas desta combinao, simultaneamente, pressionando a 1 corda (F 2) e a 5
casa da 6
a casa da 1 corda (L 4).
b.
Cada combinao era formada por trechos de registros segmentados de
acordo com os objetivos apresentados na Seo 1.10. Os trechos que deveriam compreender aproximadamente o perodo de ataque e decaimento (como em combina-
o o es determinadas no 3 e no 4 objetivo) eram segmentados a partir da primeira

amostra dos registros. Os trechos que deveriam compreender aproximadamente o perodo de sustentao (como em combinaes determinadas em todos os objetivos) eram segmentados a partir da amostra 10001 dos registros. Os trechos que deveriam compreender aproximadamente o perodo de liberao (como em combinaes determinadas no 3
e no 4
objetivo) eram segmentados a partir da amostra 20001
dos registros. Todos os segmentos tiveram a durao do maior intervalo necessrio para o clculo da CQT, aproximadamente
0,20
s. A escolha das amostras 10001 e
20001 como posies associadas aos incios dos perodos de sustentao e liberao
45
foi realizada empiricamente, buscando valores coerentes com os incios destes perodos na maioria dos registros utilizados. A deteco automtica dos perodos do modelo ADSR [40] deve ser estudada em trabalhos futuros.
c.
Antes de compor cada combinao, as dinmicas dos trechos utilizados
eram escolhidas, de acordo com os objetivos apresentados na Seo 1.10, entre
forte,
mezzo e piano.
Todos os trechos segmentados das bases RWC e RNV foram norma-
lizados pela norma quadrtica e em seguida, de acordo com a dinmica escolhida, poderiam ter suas amplitudes alteradas. Quando a dinmica escolhida era
forte
o o (como em combinaes determinadas no 2 e no 3 objetivo), a amplitude era mantida. Quando a dinmica escolhida era
mezzo
(como em combinaes determinadas
em todos os objetivos), a amplitude era alterada, formando sinais com
10 dB
de
potncia em relao aos segmentos normalizados. Quando a dinmica escolhida era
piano (como em parte das combinaes criadas para o 4o objetivo), a amplitude era
alterada, formando sinais com
20 dB de potncia em relao aos segmentos norma-
lizados. Os registros da base RWC, que possui gravaes de notas executadas com dinmicas
forte, mezzo
piano,
eram selecionados de acordo com as dinmicas es-
colhidas. Como no existem variaes dinmicas na base RNV, diferentes potncias eram associadas a qualquer registro desta base.
d.
Sinais de notas simples tambm foram utilizados nos treinamentos e testes
das redes, do mesmo modo que sinais polifnicos. Cada registro disponvel, incluindo as diferentes verses de dinmica dos registros da base RWC, foi segmentado em trechos de aproximadamente
0,20
s, com incios a partir da primeira amostra, da
amostra 10001 e da amostra 20001, de acordo com os objetivos apresentados na Seo 1.10.
As combinaes foram criadas atravs da soma dos vetores compostos pelos elementos de cada segmento. Aps a soma, cada combinao foi normalizada por sua norma quadrtica.
4.6 Treinamento das Redes Neurais

Para cada combinao de notas foram calculadas duas transformadas atravs do algoritmo rpido da CQT (Seo 2.2). A primeira transformada, para aplicao
46
no primeiro e no segundo grupo de mtodos, foi calculada com componentes a partir do
pitch
da nota Mi 2. A segunda transformada, para aplicao apenas no segundo
grupo de mtodos, foi calculada com componentes a partir do grave de cada combinao.
pitch
da nota mais
Na maioria dos testes, os vetores de entrada das redes neurais foram formados pelos valores absolutos das componentes de cada transformada. Os vetores-objetivo foram formados com 44 elementos, cada um correspondente a uma das notas do violo. A presena de cada nota foi indicada pelo valor dente. As notas ausentes foram indicadas pelo valor
no elemento correspon-
0.
As dinmicas e amostras
iniciais escolhidas para cada combinao foram armazenadas para uso na anlise dos resultados. Os pares formados pelos vetores de entrada e vetores-objetivo foram divididos em trs conjuntos: um de treino, um de teste e um de validao. O conjunto de
treino continha os pares formados a partir de combinaes das notas dos violes A, C e 091CG. O conjunto de validao continha os pares formados a partir de combinaes das notas dos violes D, E e 093CG. O conjunto de teste continha os pares formados a partir de combinaes das notas dos violes B e 092CG. No desenvolvimento das redes utilizadas nas anlises referentes ao
1o obje-
tivo, foram realizados experimentos com um nmero xo de vetores nos grupos de
treino e validao. Foram criados 3000 pares de vetores (entrada e objetivo) para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo. Para o grupo de teste foram criados 2750 pares de vetores para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo. No total foram criados 43568 pares de vetores para os conjuntos de treino
47
e validao e 27063 pares de vetores para o grupo de teste, todos construdos a partir de registros com dinmica sustentao das notas. No desenvolvimento das redes utilizadas nas anlises referentes ao
mezzo, extrados aproximadamante do perodo de
2o obje-
tivo, os experimentos foram realizados com um nmero xo de vetores nos grupos
de treino e validao. Cada vetor foi construdo a partir de registros com dinmica
mezzo (exceto por um com dinmica forte ), extrados aproximadamante do perodo

de sustentao das notas. Foram criados 3000 pares de vetores (entrada e objetivo) para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo, todos com dinmica
forte.
extrados aproximadamante
Para o grupo de teste cada vetor foi construdo a partir de registros com dinmica
mezzo
(exceto por um com dinmica
forte ),
do perodo de sustentao das notas. Foram criados 2750 pares de vetores para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo, todos com dinmica
forte.
No total foram criados 43568 pares de vetores para os conjuntos de treino e validao e 27063 pares de vetores para o grupo de teste. No desenvolvimento das redes utilizadas nas anlises referentes ao
3o obje-
tivo, os experimentos tambm foram realizados com um nmero xo de vetores nos
grupos de treino e validao. Cada vetor foi construdo a partir de registros com dinmica
mezzo
utilizando trs possibilidades de segmentao: todos os segmentos
extrados aproximadamente do perodo que compreende o ataque e decaimento, todos os segmentos extrados aproximadamente do perodo de sustentao e todos os segmentos extrados aproximadamente do perodo de liberao. Foram criados 1000 pares de vetores (entrada e objetivo) para cada violo, para cada grau de polifonia maior que dois, para cada segmentao possvel. Foram
48
criados 826 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC, para cada segmentao possvel e 809 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV, para cada segmentao possvel. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo, para cada segmentao possvel. Para o grupo de teste, cada vetor foi construdo a partir de registros com dinmica
mezzo
utilizando as mesmas trs possibilidades de segmentao; porm,
neste caso o grupo de teste foi dividido em 3 subgrupos, um para cada perodo aproximado da envoltria. Foram criados 2750 pares de vetores para cada instrumento, para cada grau de polifonia maior que dois, para cada segmentao possvel. Tambm foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC, para cada segmentao possvel e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV, para cada segmentao possvel. Alm destes, foram criados 78 pares de vetores referentes a notas simples para cada violo, para cada segmentao possvel. No total foram criados 44034 pares de vetores para os conjuntos de treino e validao contendo exemplos e 27063 pares de vetores para cada subgrupo de teste. No desenvolvimento das redes utilizadas nas anlises referentes ao
4o obje-
tivo, foram realizados experimentos variando o nmero de vetores nos conjuntos de

treinamento e validao. Cada vetor foi construdo a partir de registros com dinmicas escolhidas aleatoriamente entre
forte, mezzo
piano,
extrados de perodos
escolhidos aleatoriamente entre ataque e decaimento, sustentao e liberao. Para os conjuntos de treinamento e validao foram criados subconjuntos de 1000, 1500, 2000, 2500, 3000, 3500 e 4000 pares de vetores (entrada e objetivo) para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 702 pares de vetores referentes a notas simples para cada violo, abrangendo todas as combinaes possveis de 78 registros com 3 dinmicas diferentes e 3 perodos de segmentao diferentes. A quantidade de vetores utilizados no conjunto de teste foi mantida xa para
49
permitir comparaes entre resultados. Foram criados 2750 pares de vetores para cada instrumento, para cada grau de polifonia maior que dois. Foram criados 2480 pares de vetores referentes a combinaes de duas notas para cada violo da base RWC e 2427 pares de vetores referentes a combinaes de duas notas para cada violo da base RNV. Alm destes, foram criados 702 pares de vetores referentes a notas simples para cada violo, abrangendo todas as combinaes possveis de 78 registros com 3 dinmicas diferentes e 3 perodos de segmentao diferentes. No total, para o 4
objetivo, foram realizados testes com conjuntos de treino
e validao que continham 20504, 26504, 32504, 38504, 44504, 50504 e 56504 pares de vetores. O grupo de teste continha, sempre, 27843 pares de vetores. Para todos os objetivos, os vetores de entrada foram escalonados para o uso com redes neurais. Os valores de cada componente foram reduzidos das mdias de
ensemble correspondentes (calculados apenas sobre o conjunto de treino), e divididos

pelo dobro dos desvios-padro de
ensemble correspondentes (calculados apenas sobre
o conjunto de treino). Apenas mdias e desvios-padro do conjunto de treino foram utilizados para evitar a polarizao dos resultados em favor do grupo de teste ou do grupo de validao. Os treinamentos foram realizados utilizando o algoritmo Rprop (Seo 3.6) e o critrio de parada descrito na Seo 3.5. As constantes utilizadas no treinamento foram estabelecidas, empiricamente, como:
+ = 1,05; = 0,5; wc,pq [0] = 0,05.

Foi criado um limite mximo para
wc,pq [n]: wmax = 5.
Este limite foi
proposto por RIEDMILLER [41] para evitar o aumento excessivo de valores de
wc,pq [n].
Todas as redes desenvolvidas nesta tese tm duas camadas de neurnios com funes de ativao logstica. Para encontrar topologias apropriadas para cada rede, a maioria dos testes envolveu variaes na quantidade de neurnios na camada oculta. Os pesos sinpticos de todas as redes foram inicializados com valores entre
0,25
0,25,
selecionados aleatoriamente dentro de uma distribuio uniforme.
Esta faixa de valores foi escolhida para evitar a saturao de neurnios durante a inicializao das redes.
50
Captulo 5 Implementao e Testes - Violo

5.1 Introduo
Neste captulo so detalhados os mtodos propostos para identicao de notas de violo e os resultados dos testes realizados. Trs medidas so apresentadas para avaliao dos resultados: o NER (
Note
Error Rate ), o CER (Chord Error Rate )1 e a acurcia.

NC = FN =
Estas medidas so realizadas
sobre as classicaes obtidas dos vetores do grupo de teste, sendo: total de notas classicadas corretamente nas combinaes analisadas, total de falsos negativos (nmero de notas que deveriam ser classicadas
como presentes nas combinaes analisadas, mas no o foram),
FP =
total de falsos positivos (nmero de notas que no deveriam ser classicadas
como presentes nas combinaes analisadas, mas o foram) e
Nobj =
total de notas-objetivo associadas s combinaes analisadas, (total de va-
lores iguais a
no conjunto de vetores-objetivo).
Primeira medida, NER: NER
somatrio da quantidade falsos negativos e erros de insero, divi-
dido por
Nobj .
Os erros de insero ocorrem quando a quantidade de notas
classicadas como presentes em uma combinao excede o nmero de suas
1 A palavra
chord (acorde), no jargo musical, s utilizada para combinaes de trs ou mais
notas. Nesta dissertao, a medida CER tambm utilizada para avaliar classicaes de notas simples e de combinaes de duas notas.
51
notas-objetivo. Para cada combinao, o erro de insero igual ao nmero de notas acusadas em excesso [18, 42].
Segunda medida, CER: CER
total das combinaes classicadas com pelo menos uma nota errada
(erro falso positivo ou falso negativo), dividido pelo total de combinaes testadas [42].
Terceira medida: acurcia
NC . F N + F P + NC
Como critrio de avaliao de desempenho, a acurcia tem uma vantagem sobre o NER. A acurcia no pode exceder 100%, porm o NER pode (a soma de falsos negativos e erros de insero pode exceder o nmero de notas-objetivo). O resultado da acurcia ser no mnimo erradas) e no mximo
0 (se todas as classicaes estiverem
(se todas as classicaes estiverem corretas) [26].
Por isto, esta medida foi utilizada como critrio para a escolha das redes desenvolvidas nesta tese. Uma medida similar acurcia, chamada
score
[43],
utilizada na avaliao de transcries consolidadas ao longo do tempo, nas quais o interesse no recai sobre as classicaes de cada segmento de sinal analisado, mas sobre o resultado inferido da anlise dinmica dessas classicaes. Este resultado normalmente composto pelo nome de cada nota estimada.
onset, pela durao e pelo
Todas as medidas descritas nesta seo so apresentadas em formato percentual nas prximas sees. Para comparao com resultados encontrados na li-
teratura, algumas medidas so apresentadas em funo do grau de polifonia dos segmentos analisados.
5.2 Mtodos para Identicao de Notas de Violo - Objetivo 1

Nesta seo so detalhados os mtodos desenvolvidos para identicar notas em combinaes de registros com dinmica
mezzo
a partir de segmentos extrados
52
aproximadamente do perodo de sustentao de cada nota.
5.2.1
Mtodos do Primeiro Grupo

Nos mtodos do primeiro grupo utilizada apenas uma rede neural para a
anlise das representaes espectrais de cada combinao de notas.
5.2.1.1 Mtodo 1A - Objetivo 1

No mtodo 1A, os vetores de entrada da rede neural so formados pelos valores absolutos dos elementos das CQTs de cada combinao de notas. As CQTs so obtidas atravs do algoritmo rpido descrito na Seo 2.2, utilizando os para mtodos do primeiro grupo, descritos na Seo 4.4. Cada nota classicada como presente ou ausente de acordo com os valores dos elementos obtidos nos vetores de sada da rede treinada. As notas correspondentes aos elementos com valores maiores que
kernels
0,5
so classicadas como presentes.
Se forem encontrados mais que 6 elementos com valores maiores que
0,5,
apenas as
6 notas correspondentes aos 6 maiores elementos so classicadas como presentes na combinao correspondente. Se nenhum elemento tiver valor acima de
0,5,
apenas
a nota correspondente ao maior valor encontrado classicada como presente. O treinamento das redes foi realizado de acordo com a metodologia apresentada na Seo 4.6. Foram treinadas 3 redes diferentes, todas com 234 neurnios na camada oculta, o mesmo nmero de elementos do vetor de entrada. Cada realizao foi inicializada com um grupo de pesos sinpticos diferentes, cada um deles, selecionado aleatoriamente de uma distribuio uniforme dos valores entre -0,25 e 0,25.
Tabela 5.1: Mtodo 1A rede 1 2 3 n
de pocas 41 38 40
acurcia % 68,6
69,7
68,8
Na Tabela 5.1 so mostrados os resultados da implementao do mtodo 1A,
53
com as 3 realizaes desenvolvidas, na classicao do conjunto de teste. O melhor resultado foi obtido na 2
realizao, com uma rede treinada em 38 pocas. Outros
resultados desta classicao so mostrados nas Figuras 5.1 e 5.2, conjuntamente com resultados apresentados por BONNET e LEFEBVRE [18], obtidos atravs de seu mtodo de identicao de notas em sinais polifnicos de violo. Para esta
realizao os resultados de NER e CER foram, respectivamente, 25,3% e 58,7%.
Figura 5.1: Percentuais do NER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais e sintetizados de violo), e para o mtodo 1A (na classicao do conjunto de teste).
Bonnet e Lefebvre realizaram suas anlises sobre trechos de sinais correpondentes ao perodo de sustentao das notas (porm realizaram as segmentaes de forma diferente da utilizada nesta tese). Os autores testaram seu mtodo na classicao de dois conjuntos de sinais, um com sons sintetizados e outro com registros reais de acordes de violo . Eles no apresentaram informaes sobre a dinmica das notas presentes nos sinais e no realizaram anlises de sinais com notas simples. Bonnet e Lefebvre apresentaram suas medies de erro em funo do grau de polifonia dos acordes analisados. Eles realizaram medies do NER para ambos os conjuntos de sinais analisados e medies do CER apenas para o conjunto de registros reais de violo. Como o conjunto de teste desenvolvido para testar o
2 Bonnet e Lefebvre se referem, tambm, a duas notas executadas simultaneamente como um

acorde.
54
Figura 5.2: Percentuais do CER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo), e para o mtodo 1A (na classicao do conjunto de teste).
mtodo 1A diferente dos conjuntos analisados por Bonnet e Lefebvre, a comparao entre os resultados apresentados nas Figuras 5.1 e 5.2 pode ser vista apenas como indicativa das vantagens de cada mtodo. Como pode ser observado na Figura 5.3, a maior parte dos erros de classicao obtidos utilizando o mtodo 1A so do tipo falso positivo. Uma das diculdades na identicao de notas a falta de conhecimento prvio do grau de polifonia do segmento de sinal analisado. Alguns autores propuseram sistemas nos quais o grau de polifonia dos segmentos analisados previamente conhecido [23, 24]. Acrescentar esta informao ao vetor de entrada e ao mtodo de classicao pode favorecer os resultados, porque os erros de insero (todos falsos positivos) so eliminados. Esta a motivao para o desenvolvimento do Mtodo 1B.
5.2.1.2 Mtodo 1B - Objetivo 1

Os vetores de entrada utilizados no mtodo 1B tm 6 elementos adicionais. Cada um representa um grau diferente de polifonia do violo. Um vetor de entrada associado a uma combinao de mentos, sendo o
notas complementado com um vetor de 6 eleDado o conhecimento
q -simo igual a 1 e os restantes iguais a zero. q,

as notas referentes aos
prvio do grau de polifonia
maiores elementos do vetor
55
Figura 5.3: Totais de falsos positivos e falsos negativos por grau de polifonia para o mtodo 1A.
de sada so classicadas como presentes na combinao. As redes desenvolvidas para o mtodo 1B tm, assim como as redes desenvolvidas para o mtodo 1A, 234 neurnios na camada oculta. Na Tabela 5.2 so
mostrados os resultados da implementao do mtodo 1B, com as 3 realizaes desenvolvidas, na classicao do conjunto de teste.
Tabela 5.2: Mtodo 1B rede 1 2 3 n
de pocas 41 44 40
acurcia % 69,2 69,9
70,0
a
O melhor resultado foi obtido na 3
realizao, com uma rede treinada em 40
pocas. Outros resultados desta classicao so mostrados nas Figuras 5.4 e 5.5, novamente em conjunto com os resultados obtidos por Bonnet e Lefebvre. Para esta realizao os resultados de NER e CER foram, respectivamente, 17,7% e 45,9%. Pode-se observar na Figura 5.6 que ocorreu reduo no nmero de falsos positivos para graus de polifonia de 2 at 4. O aumento no nmero de falsos positivos para 6 notas simultneas ocorreu por causa da escolha, obrigatria, de 6 notas
56
Figura 5.4: Percentuais do NER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo), para o mtodo 1A (na classicao do conjunto de teste) e para o mtodo 1B (na classicao do conjunto de teste).
Figura 5.5: Percentuais do CER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo), para o mtodo 1A (na classicao do conjunto de teste) e para o mtodo 1B (na classicao do conjunto de teste).
57
para este grau de polifonia, estipulada no critrio de classicao do mtodo 1B. Utilizando este critrio, elementos dos vetores de sada com valores abaixo de 0,5 tambm podem ser associados a notas (caso estejam entre os
maiores elementos).
A ocorrncia deste tipo de erro aumenta, neste caso, com o crescimento do grau de polifonia.
Figura 5.6: Falsos positivos por grau de polifonia para os mtodos 1A e 1B.
Utilizar a informao do grau de polifonia para identicar as notas presentes em uma combinao melhora os resultados porque, principalmente, elimina os erros de insero. Porm, esta informao pode no estar disponvel. Para tentar melhorar os resultados, sem utilizar a informao do grau de polifonia, foram desenvolvidos os mtodos do segundo grupo.
5.2.2
Mtodos do Segundo Grupo

A identicao de notas musicais atravs da anlise espectral dicultada
pelo grande nmero de combinaes possveis entre notas. Porm, dado o conhecimento de qual a nota mais grave de cada combinao analisada, possvel transformar o problema de identicao de notas em um problema de identicao dos intervalos musicais entre a nota mais grave e as notas restantes. Utilizando a CQT, descrita na Seo 2.3, representaes espectrais de notas diferentes ou de combinaes de notas diferentes, porm com os mesmos intervalos entre si podem ter suas parciais alinhadas atravs de um deslocamento apropriado sobre a escala de
58
freqncias.
Este procedimento cria um referencial comum para todos os vetores
de entrada. Combinaes com os mesmos intervalos so representadas por parciais alinhadas, mesmo se no tiverem as mesmas notas Nos mtodos do segundo grupo, a identicao realizada utilizando duas redes em seqncia. Neles, a primeira rede utilizada para identicar a nota mais grave de cada combinao e a segunda para encontrar os intervalos entre a nota mais grave de cada combinao e as notas restantes. As representaes espectrais utilizadas no treinamento das redes criadas para identicao da nota mais grave de cada combinao so as mesmas utilizadas para realizar os treinamentos do primeiro grupo de mtodos. As representaes espectrais utilizadas no treinamento das redes criadas para identicao dos intervalos entre a nota mais grave e as notas restantes so realizadas utilizando os
kernels
criados para o segundo grupo de mtodos, como descrito na
Seo 4.4. As representaes espectrais dos grupos de treino e validao so criadas, para cada combinao, a partir da componente sobre o
pitch de sua nota mais grave.
As representaes espectrais do grupo de teste so criadas, para cada combinao, a partir da componente sobre o
pitch
da nota mais grave estimada.
Nas prximas sees so apresentados os mtodos desenvolvidos para identicar a nota mais grave de cada combinao e, em seguida, o mtodo desenvolvido para encontrar os intervalos entre a nota mais grave de cada combinao e as notas restantes.
5.2.2.1 Mtodo 2A - 1a etapa - Objetivo 1

No mtodo 2A - 1 etapa, as redes neurais recebem vetores de entrada formados apenas pelas representaes espectrais de cada combinao. Cada vetor-objetivo formado por 44 elementos, correspondentes, cada um, a uma nota diferente do violo. A presena da nota mais grave indicada pelo valor
no elemento correspon-
dente. Todas os outros elementos do vetor, inclusive os elementos correspondentes a outras notas presentes nas combinaes analisadas, recebem o valor
0.
Para cada vetor de sada, a nota correspondente ao elemento com o maior valor classicada como a nota mais grave da combinao. A avaliao do desempenho dada pelo percentual de combinaes com erro
59
na classicao da nota mais grave (erro nmg). As estimativas das notas mais graves de cada combinao do conjunto de teste, obtidas com o mtodo que gerar o menor erro nmg, so utilizadas para realizar as transposies dos vetores de entrada do conjunto. Foram treinadas 3 redes diferentes, todas com 234 neurnios na camada oculta, o mesmo nmero de elementos do vetor de entrada. mostrados os resultados da implementao da 1 rede com 234 neurnios na camada oculta. Na Tabela 5.3 so
estapa do mtodo 2A com uma
Tabela 5.3: Mtodo 2A -
1a etapa
- Objetivo 1
rede 1 2 3
de pocas 36 41 48
erro nmg
24,5
25,1 24,8
O principal motivo para o elevado nmero de erros na identicao da nota mais grave, 24,5% para a melhor realizao, pode ser inferido pela anlise do histograma na Figura (5.7). Nele so dadas as quantidades de falsos positivos por nota da melhor realizao da
1a
etapa do mtodo 2A.
Figura 5.7: Histograma de Falsos Positivos.
Ocorreram muitos falsos positivos indicando notas da 1
oitava do violo,
60
principalmente as notas 1, 3 e 4 (Mi 2, F 2 e Sol 2). sivelmente, causados pela
Estes erros foram, posA
1a
freqncia de ressonncia do violo (Seo 1.7).
1a
freqncia de ressonncia localizada tipicamente dentro da faixa entre Hz. Os Hz e
70
Hz e Hz,
140
pitches
das notas Mi 2, F 2 e Sol 2 so aproximadamente
82,41
92,50
98,00
Hz. Todos esto dentro desta faixa.
5.2.2.2 Mtodo 2B - 1a etapa - Objetivo 1

A 1 etapa do mtodo 2B foi criada visando correo do problema de identicao da nota mais grave. Neste mtodo, as 12 componentes da CQT calculadas sobre a 1
oitava da faixa do instrumento so substitudas por 68 componentes de
uma transformada discreta de Fourier sobre a mesma oitava. Novamente, foram treinadas 3 redes diferentes para realizar a classicao, todas com 290 neurnios na camada oculta, quantidade igual ao nmero de elementos nos novos vetores de entrada. implementao da 1 Na Tabela 5.4 so mostrados os resultados da
etapa do mtodo 2B.
Tabela 5.4: Mtodo 2B -
1a etapa
- Objetivo 1
rede 1 2 3
de pocas 32 30 28
erro nmg
23,1
23,4
23,1
O desempenho deste mtodo, apesar de melhor (23,1% nas duas melhores realizaes), ainda baixo. No histograma da Figura (5.8) so dadas as quantidades de falsos positivos por nota obtidos utilizando a primeira rede desenvolvida para este mtodo. Novamente ocorreram muitos falsos positivos indicando notas da 1 do violo.
oitava
5.2.2.3 Mtodo 2C - 1a etapa - Objetivo 1

Para reduzir mais os erros, foi criado um mtodo em que os vetores-objetivo eram iguais aos utilizados nos mtodos do primeiro grupo, com a presena de cada
61
Figura 5.8: Histograma de Falsos Positivos por Notas.
nota (no s a da nota mais grave), indicada pelo valor
1 no elemento correspondente.
a
Os vetores de entrada eram iguais aos criados para a 1 etapa do mtodo 2B. Neste mtodo, a classicao realizada da mesma forma utilizada no mtodo 1A. Cada nota classicada como presente ou ausente de acordo com os valores dos elementos obtidos nos vetores de sada da rede treinada. As notas correspondentes aos elementos com valores maiores que
0,5
so classicadas como presentes.
Se forem encontrados mais que 6 elementos com valores maiores que
0,5,
apenas as
6 notas correspondentes aos 6 maiores elementos so classicadas como presentes na combinao correspondente. Se nenhum elemento tiver valor acima de
0,5,
apenas
a nota correspondente ao maior valor encontrado classicada como presente. Aps este processo, a nota mais grave encontrada para cada combinao era selecionada como estimativa. Foram treinadas 3 redes diferentes para realizar a classicao, todas com 290 neurnios na camada oculta. implementao da 1 Na Tabela 5.5 so mostrados os resultados da
etapa do mtodo 2C.
Este mtodo obteve o melhor desempenho entre os mtodos da nmg
1a
etapa (erro
21,9%). Os mtodos desenvolvidos para identicao da nota mais grave devem ser
aperfeioados em trabalhos futuros.
62
Tabela 5.5: Mtodo 2C -
1a etapa
- Objetivo 1
rede 1 2 3
de pocas 33 29 30
erro nmg 22,0
21,9
22,3
5.2.2.4 Mtodo 2C - 2a etapa - Objetivo 1

O desenvolvimento da 2 etapa do mtodo 2C independe do desenvolvimento dos mtodos da 1 etapa.
Para testar seu desempenho foram realizados dois con-
juntos de testes. No primeiro, as transposies dos espectros foram realizadas utilizando as estimativas para as notas mais graves obtidas na 1 etapa do mtodo 2C (avaliao completa). No segundo, as transposies dos espectros foram realizadas utilizando, sempre, a informao correta de qual a nota mais grave de cada combinao (avaliao parcial). Na avaliao completa, o desempenho do mtodo foi
medido sobre todas as classicaes obtidas (inclusive as das notas mais graves). Na avaliao parcial, o desempenho do mtodo foi medido descontando as classicaes das notas mais graves. Deste modo, foi possvel avaliar o desempenho da 2 etapa do mtodo 2C, independentemente dos resultados da 1 etapa. Para formar os vetores-objetivo deste mtodo, os elementos dos vetoresobjetivo originais (vetores usados nos mtodos 1A e 1B) so deslocados, de modo que o elemento referente nota mais grave se torne, sempre, o primeiro elemento do vetor. Por exemplo, para um vetor-objetivo novo vetor-objetivo ser
original igual a
[0 0 1 0 0 1 0 1]t ,
[1 0 0 1 0 1 0 0]t .
a
As redes desenvolvidas para a 2 etapa do mtodo 2C tm 234 neurnios na camada oculta, o mesmo nmero de elementos de seus vetores de entrada. Na Tabela 5.6 so mostrados os resultados da implementao desta verso do mtodo 2C (avaliaes parcial e completa), em 3 realizaes, na classicao do conjunto de teste. O melhor resultado foi obtido na 3
realizao, com uma rede treinada em
3 Apesar de o exemplo apresentar vetores de 8 elementos, os vetores-objetivo, usados nos mtodos

de identicao de notas de violo, tm 44 elementos.
63
Tabela 5.6: Mtodo 2C - 2 etapa
rede 1 2 3
de pocas 72 74 82
acurcia (completa) 81,1 81,3
acurcia (parcial) 85,2 85,6
81,5
85,7
82 pocas.
Outros resultados obtidos na avaliao completa so mostrados nas
Figuras 5.9 e 5.10. Para esta realizao, os resultados do NER e CER na avaliao completa foram, respectivamente, 15,1% e 42,3%. O resultado do NER obtido na avaliao parcial foi igual a 12,1%.
Figura 5.9: Percentuais do NER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo), para os mtodos 1A e 2C (na classicao do conjunto de teste).
Apesar de 21,9% das estimativas da nota mais grave utilizadas nesta realizao do mtodo 2C estarem erradas, os valores do NER por grau de polifonia foram signicativamente menores que os valores obtidos utilizando o mtodo 1A. Isto ocorre porque, dado que a estimativa da nota mais grave esteja correta, a estimativa de intervalos realizada na 2
etapa do mtodo 2C tem melhor desempenho
do que a estimativa direta de todas as notas, como no mtodo 1A. Na Figura 5.11 esto os valores do NER por grau de polifonia para o mtodo 1A e para o mtodo 2C
64
Figura 5.10: Percentuais do CER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo), para os mtodos 1A e 2C (na classicao do conjunto de teste).
com avaliao parcial. A valor do NER por grau de polifonia diminuiu consideravelmente em comparao com os resultados do mtodo 1A . Alm disto, muitas das estimativas erradas obtidas na 1
etapa do mtodo 2C, indicam notas que, apesar
de no serem as mais graves, pertencem s combinaes testadas.
5.2.3
Concluses
Da comparao dos resultados obtidos a partir das aplicaes dos mtodos 1A
e 1B, pode-se observar que o conhecimento do grau de polifonia de cada combinao analisada pode ser usado para reduzir o nmero de ocorrncias de falsos positivos. Ao estabelecer que o nmero de notas estimadas em uma combinao deve ser igual ao seu grau de polifonia, impede-se a gerao de erros de insero. A diviso do problema de identicao de notas musicais em duas etapas, sendo uma para a identicao da nota mais grave e outra para identicao dos intervalos entre a nota mais grave e as notas restantes, produziu melhores resultados do que a tentativa de estimar todas as notas simultaneamente. Isto ocorre porque, dado que a estimativa da nota mais grave esteja correta, a identicao dos intervalos
4 Apesar de, na avaliao parcial, ser utilizada a informao correta de qual a nota mais grave
de cada combinao, estes acertos so descontados.
65
Figura 5.11: Percentuais do NER por grau de polifonia para o mtodo 1A e para o mtodo 2C (avaliao parcial), na classicao do conjunto de teste.
entre a nota mais grave e as notas restantes (realizada na 2 etapa do mtodo 2C) tem melhor desempenho do que a estimativa direta de todas as notas (realizada no mtodo 1A). Alm disto, mesmo quando erradas, as estimativas para as notas mais graves obtidas na 1 etapa dos mtodos do segundo grupo comumente indicam notas que tambm pertencem s combinaes testadas. Nestes casos, mesmo com a decorrente falha na 2
etapa, pelo menos uma nota corretamente indicada. O
melhor desempenho de identicao da nota mais grave foi obtido utilizando-se a 1 etapa do mtodo 2C.
5.3 Mtodos para Identicao de Notas de Violo - Objetivo 2

Nesta seo so apresentadas adaptaes de mtodos descritos na Seo 5.2. Estas adaptaes so voltadas para a identicao de notas em combinaes nas quais uma nota tem dinmica
forte
e as restantes tm dinmica
mezzo.
Os seg-
mentos dos registros usados para criar as combinaes foram extrados de trechos que compreendem, aproximadamente, o perodo de sustentao das notas. Foram realizadas adaptaes dos mtodos que no usam o conhecimento prvio do grau de polifonia.
66
As adaptaes foram realizadas atravs da mudana dos conjuntos de treinamento, teste e validao, de acordo com as regras descritas na Seo 4.6 para o objetivo 2.
5.3.1
Mtodo 1A - Objetivo 2
Os treinamentos das redes foram realizados de acordo com a metodologia
apresentada na Seo 4.6. Foram treinadas 3 redes diferentes, todas com 234 neurnios na camada oculta, o mesmo nmero de elementos do vetor de entrada. Cada realizao foi inicializada com um grupo de pesos sinpticos diferentes, cada um deles selecionado aleatoriamente de uma distribuio uniforme dos valores entre -0,25 e 0,25. Os critrios de classicao utilizados nesta verso so os mesmos utilizados na Seo 5.2.1.1. Na Tabela 5.7 so mostrados os resultados da implementao do mtodo 1A, na classicao do conjunto de teste referente ao objetivo 2. O melhor resultado foi obtido na 2
realizao, com uma rede treinada em 75 pocas.
de pocas 81 75 63
acurcia % 66,9
67,5
66,2
Outros resultados desta classicao so mostrados nas Figuras 5.12 e 5.13, conjuntamente com os resultados da verso do mtodo 1A desenvolvida para o objetivo 1. Devido presena de um nvel extra de dinmica ocorreram aumentos em quase todas as medidas de erro, exceto para o NER de 6 notas simultneas. Pelo critrio de classicao, o nmero de notas estimadas no mximo igual a 6. Por isto no podem ocorrer erros de insero para combinaes de 6 notas (este tipo de erro s ocorre quando, para uma combinao, existirem mais falsos positivos que
67
Figura 5.12: Percentuais do NER por grau de polifonia para verses do mtodo 1A referentes aos objetivos 1 e 2.
Figura 5.13: Percentuais do CER por grau de polifonia para verses do mtodo 1A referentes aos objetivos 1 e 2.
68
notas-objetivo). Esta limitao para o nmero de notas estimadas contribui para a reduo do NER para graus de polifonia mais altos. Na Figura 5.14 so mostrados os percentuais de falsos positivos por grau de polifonia para as verses do mtodo 1A referentes aos objetivos 1 e 2. Pode-se observar que o aumento no nmero de falsos positivos, que ocorre para o objetivo 2, maior para combinaes de poucas notas.
Figura 5.14: Percentuais de falsos positivos por grau de polifonia para verses do mtodo 1A referentes aos objetivos 1 e 2.
Na Figura 5.15 so mostrados os percentuais de falsos negativos por dinmica (a quantidade de falsos negativos para notas associadas a uma determinada dinmica dividida pelo nmero de notas-objetivo associadas mesma dinmica). O percentual de notas que no foram encontradas maior entre as notas com dinmica que entre as notas com dinmica
mezzo
do
forte.
Como s existe uma nota com dinmica
forte
por combinao, suas parciais (normalmente com maior amplitude) se destacam nos espectros analisados.
5.3.2
Mtodo 2A - 1a etapa - Objetivo 2

Como os melhores resultados obtidos entre os mtodos analisados na Se-
o 5.2.2, na etapa de identicao da nota mais grave, foram prximos (24,5% para o mtodo 2A, 23,1% para o mtodo 2B e 21,9% para o mtodo 2C), esta etapa foi repetida para todos, com a troca dos conjuntos de treinamento, teste e validao,
69
Figura 5.15: Percentuais de falsos negativos para dinmicas
forte e mezzo, para cada
grau de polifonia, obtidos na aplicao do mtodo 1A ao objetivo 2.
de acordo com o objetivo 2. Os procedimentos de classicao utilizados nesta verso da 1 etapa do mtodo 2A so iguais aos apresentados na Seo 5.2.2.1. Na Tabela 5.8 so mostrados os resultados da implementao desta verso para trs realizaes diferentes de redes com 234 neurnios na camada oculta.
Tabela 5.8: Mtodo 2A -
1a etapa
rede 1 2 3
de pocas 99 65 96
erro nmg
24,2
24,6 25,8
O melhor resultado obtido na aplicao da
1a
etapa do mtodo 2A para
o objetivo 2 (erro nmg=24,2%) foi muito prximo do melhor resultado obtido na aplicao do mtodo desenvolvido para o objetivo 1 (erro nmg=24,5%).
5.3.3
Mtodo 2B - 1a etapa - Objetivo 2

Os critrios de classicao utilizados nesta verso da 1 etapa do mtodo 2B
so iguais ao apresentados na Seo 5.2.2.2.
70
Na Tabela 5.9 so mostrados os resultados da implementao desta verso para trs realizaes diferentes, utilizando redes com 290 neurnios na camada oculta (a mesma quantidade de elementos dos vetores de entrada).
Tabela 5.9: Mtodo 2B -
1a etapa
rede 1 2 3
de pocas 81 75 63
erro nmg 22,2
21,6
24,1
O erro obtido na segunda realizao do mtodo 2B para o objetivo 2 (21,6%) foi menor que o erro mais baixo obtido na aplicao deste mtodo desenvolvida para o objetivo 1 (23,1%).
5.3.4
Mtodo 2C - 1a etapa - Objetivo 2

Os procedimentos de classicao utilizados nesta verso so iguais aos apre-
sentados na Seo 5.2.2.3. Na Tabela 5.10 so mostrados os resultados da implementao desta verso para trs realizaes diferentes, utilizando redes com 290 neurnios na camada oculta (a mesma quantidade de elementos dos vetores de entrada). Foram treinadas 3 redes diferentes para realizar a classicao, todas com 290 neurnios na camada oculta. Na Tabela 5.10 so mostrados os resultados da implementao da 1
etapa do mtodo 2C.
1a etapa
rede 1 2 3
de pocas 60 58 53
erro nmg
19,4
21,3 20,4
Novamente, este mtodo obteve o melhor desempenho entre os mtodos da
1a
etapa (erro nmg
19,4%).
71
O erro obtido na segunda realizao do mtodo 2C para o objetivo 2 foi melhor que o erro mais baixo obtido na aplicao deste mtodo desenvolvida para o objetivo 1 (21,9%). Nas duas verses apresentadas para a 1 etapa dos mtodos 2A, 2B e 2C o menor erro foi obtido com o mtodo 2C.
5.3.5

As redes desenvolvidas para a 2 etapa do mtodo 2C tm 234 neurnios na
camada oculta, o mesmo nmero de elementos de seus vetores de entrada. Na Tabela 5.11 so mostrados os resultados da implementao desta verso do mtodo 2C (avaliaes parcial e completa), em 3 realizaes, na classicao do conjunto de teste. Os critrios de classicao utilizados nesta etapa do mtodo 2C so iguais aos apresentados na Seo 5.2.2.4.
rede 1 2 3
de pocas 105 105 99
acurcia (completa) 78,1
acurcia (parcial) 79,0
78,5
77,8
79,3
78,5
O melhor resultado foi obtido na 2 realizao, com uma rede treinada em 105 pocas. Para esta realizao, os resultados do NER e CER na avaliao completa foram, respectivamente, 18,2% e 53,1%. O resultado do NER obtido na avaliao parcial foi igual a 18,2%. Do total de falsos negativos, apenas 1,2% ocorreram para notas com dinmica
forte.
As medidas de NER e CER em cada grau de polifonia na avaliao completa so mostradas na Figuras 5.16 e 5.17, em conjunto com as medidas obtidas por Bonnet e Lefebvre (apresentadas anteriormente na Seo 5.2). Deve-se destacar
que Bonnet e Lefebvre no apresentaram informaes sobre a dinmica das notas presentes em seu banco de sinais reais de violo. nesta seo apenas como uma referncia. Seus resultados so mostrados
72
Figura 5.16: Percentuais do NER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo) e para duas verses do mtodo 2C (nas classicaes referentes aos objetivos 1 e 2).
Figura 5.17: Percentuais do CER por grau de polifonia para o mtodo de Bonnet e Lefebvre (na classicao de sinais reais de violo) e para duas verses do mtodo 2C (nas classicaes referentes aos objetivos 1 e 2).
73
Apesar de o percentual de estimativas erradas para a nota mais grave utilizado nesta implementao do mtodo 2C (19,4%), ser menor que o percentual obtido na implementao referente ao objetivo 1 (21,9%), a presena de apenas uma nota com dinmica
forte
por combinao provocou o aumento dos percentuais de NER e
CER para todos os graus de polifonia.
5.3.6
Concluses
Para a verso do mtodo 1A referente ao objetivo 2, a presena de uma nota
com dinmica
forte
por combinao provocou (em comparao com os resultados
obtidos para o objetivo 1) o aumento do NER para todos os graus de polifonia analisados, exceto para 6 notas simultneas. O limite para o nmero de notas
estimadas, estabelecido no critrio de classicao, impede a ocorrncia de erros de insero na anlise de combinaes de 6 notas e contribui para a reduo do NER nas classicaes de combinaes com nmero de notas prximo ao grau de polifonia do instrumento. O percentual de notas que no foram encontradas (falsos negativos) foi, para os mtodos 1A e 2C, maior entre as notas com dinmica com dinmica
mezzo do que entre as notas
forte.
a
Novamente, o melhor desempenho de identicao da nota mais grave foi obtido utilizando-se a 1 etapa do mtodo 2C. Assim como na comparao das verses dos mtodos 1A e 2C desenvolvidas para o objetivo 1, no desenvolvimento para o objetivo 2 a diviso do problema em uma etapa de identicao da nota mais grave e outra para identicao dos intervalos entre a nota mais grave e as notas restantes teve melhores resultados do que a tentativa de estimar todas as notas simultaneamente.
5.4 Mtodos para Identicao de Notas de Violo - Objetivo 3.

Nesta seo so apresentadas adaptaes dos mtodos 1A e 2C. Estas adaptaes so voltadas para a identicao de notas em combinaes de registros com dinmica
mezzo
a partir de trs possibilidades de segmentao: todos os segmentos
74
extrados aproximadamente do perodo que compreende o ataque e decaimento, todos os segmentos extrados aproximadamente do perodo de sustentao e todos os segmentos extrados aproximadamente do perodo de liberao.
5.4.1
Os treinamentos das redes utilizadas nesta adaptao foram realizados de
acordo com a metodologia apresentada na Seo 4.6 para o objetivo 1. Os critrios de classicao utilizados so os mesmos apresentados na Seo 5.2.1.1. Na Tabela 5.12 so mostrados os resultados da implementao do mtodo 1A, na classicao do conjunto de teste referente ao objetivo 3. Foram treinadas 3 redes diferentes, todas com 234 neurnios na camada oculta. As medidas de acurcia obtidas para os diferentes segmentos so indicadas pelas letras caimento), S (sustentao) e R (liberao).
AD (ataque e de-
Os resultados foram muito prximos
nas 3 realizaes (os melhores esto destacados em negrito). Os piores resultados ocorreram, em todas as realizaes, na classicao das combinaes formadas com segmentos que compreendem os perodos de ataque e decaimento.
de pocas 38 36 43
acurcia % (AD) 63,6 63,5
acurcia % (S) 70,2
acurcia % (R) 70,1
70,8
70,1
70,4
69,3
63,7
A Figura 5.18 contm, para os perodos AD e S, o nmero de falsos positivos que ocorreram para cada nota. A quantidade de falsos positivos, para ambas as
anlises, maior nas regies correspondentes aos da
pitches
que recaem sobre as faixas
1a e 2a freqncias de ressonncia do violo. 1a
Pode-se observar que a quantidade de
falsos positivos na regio da
freqncia de ressonncia maior para o perodo que
compreende aproximadamente o ataque e o decaimento. Este tipo de erro aumenta
5 As letras utilizadas compem a sigla, comumente usada, da modelagem de envoltria

Decay, Sustain and Release.
Attack,
75
por causa da presena mais acentuada da perodo, como descrito na Seo 1.7.
1a
freqncia de ressonncia durante este
Figura 5.18: Histograma de Falsos Positivos.
5.4.2

Na Tabela 5.13 so mostrados os resultados da adaptao da 1
etapa do
mtodo 2C ao objetivo 3.
1a etapa
erro nmg % (R) 15,8 16,8
rede 1 2 3
de pocas 35 34 28
erro nmg % (AD) 39,4 35,8
erro nmg % (S) 21,5 20,7
35,5
19,5
15,3
Nas 3 realizaes, o nmero de erros na estimao da nota mais grave maior no perodo que compreende aproximadamente o ataque e o decaimento, e decai para os perodos seguintes. Este efeito mais destacado nesta etapa do que nas estimativas realizadas na Seo 5.4.1. Isto ocorre porque muitas das notas mais graves tm parciais (dadas pela Equao (1.2)) com frequncias prximas a pelo menos uma das freqncias de ressonncia mais baixas do instrumento. No perodo de ataque, o acoplamento entre estas parciais e as freqncias de ressonncia mais acentuado do que nos perodos seguintes.
76
5.4.3

Na Tabela 5.14 so mostrados os resultados da implementao desta verso
do mtodo 2C (avaliaes parcial e completa), em 3 realizaes, na classicao do conjunto de teste.
n rede 1 2 3
de
acurcia (AD) total 74,7 74,7 parcial 81,7 81,5
acurcia (S) total parcial 86,1 86,5
acurcia (R) total 80,9 80,5 parcial 81,4 81,0
pocas 84 77 100
83,1
83,0
74,9
82,1
83,1
a
86,2
81,0
81,6
O melhor resultado foi obtido na 3 100 pocas.
Para esta realizao, os resultados do NER e CER (avaliao com-
pleta) dos vetores referentes ao perodo que compreende aproximadamente o ataque e decaimento, foram, respectivamente, 21,6% e 60,1%. O resultado do NER obtido na avaliao parcial foi igual a 15,7%. Os resultados do NER e CER na avaliao completa para o perodo de sustentao, foram, respectivamente, 13,7% e 38,8%. O resultado do NER obtido na avaliao parcial foi igual a 12,1%. Os resultados do NER e CER na avaliao completa para o perodo de liberao, foram, respectivamente, 15,4% e 45,0%. O resultado do NER obtido na avaliao parcial foi igual a 15,5%. Outros resultados obtidos na avaliao completa so mostrados nas Figuras 5.19 e 5.20. A classicao de trechos que compreendem o ataque das notas dicultada pela grande quantidade de modos presentes neste perodo (devidos natureza impulsiva do plectro), como discutido na Seo 1.7. A classicao trechos extrados aproximadamente do perodo de liberao pode ser dicultada pela reduo da razo sinal/rudo. Os melhores resultados, em todos as medidas, foram obtidos na
classicao de trechos extrados aproximadamente do perodo de sustentao. Todos vetores referentes ao objetivo 1 e parte dos vetores referentes ao objetivo 3 compartilham as mesmas caractersticas: foram criados usando notas com
77
Figura 5.19:
Percentuais do NER por grau de polifonia para o mtodo 2C para
classicaes referentes as segmentaes sobre os perodos, aproximados, de ataque e decaimento, sustentao e liberao.
Figura 5.20:
Percentuais do CER por grau de polifonia para o mtodo 2C para
classicaes referentes as segmentaes sobre os perodos, aproximados, de ataque e decaimento, sustentao e liberao.
78
dinmica
mezzo
e trechos obtidos a partir do perodo de sustentao. Os melhores
resultados para os mtodos 1A e 2C referentes ao objetivo 1 foram, respectivamente, 69,7% e 81,5%; j os melhores resultados para os mtodos 1A e 2C referentes ao objetivo 3 para vetores com as mesmas caractersticas foram, respectivamente, 70,8% e 83,1%. Isto indica que aumentar a variabilidade de exemplos de treinamento
aumenta a robustez da anlise.
5.4.4
Concluses
Para esta verso do mtodo 1A, as menores acurcias foram obtidas nas
classicaes de vetores criados a partir de segmentos extrados, aproximadamente, dos perodos de ataque e decaimento. Para estes perodos, e para o perodo de
sustentao, a maior parte dos casos de falsos positivos foram obtidos nas regies correspondentes aos
pitches
1a
que recaem sobre as faixas da
1a
2a
freqncias de
ressonncia do violo. Particularmente, pode-se observar que a quantidade de falsos positivos na regio da freqncia de ressonncia maior no perodo que compre-
ende aproximadamente o ataque e o decaimento, resultado da presena acentuada da
1a
freqncia de ressonncia durante este perodo. Novamente o mtodo 2C gerou melhores resultados que o mtodo 1A (neste
caso para todas as segmentaes). Os resultados dos mtodos 1A e 2C, obtidos da anlise de vetores criados a partir de segmentos com dinmica
mezzo
extrados do perodo de sustentao das
notas, foram melhores que os resultados dos mtodos desenvolvidos para o objetivo 1, tambm obtidos da anlise de vetores criados a partir de segmentos com dinmica
mezzo
extrados do perodo de sustentao das notas. Isto serve como indicao de
que o aumento da variedade de exemplos de treinamento (utilizados nos mtodos referentes ao objetivo 3) aumenta a robustez da anlise. Os melhores resultados do mtodo 2C foram obtidos na classicao de trechos extrados aproximadamente do perodo de sustentao. A classicao de trechos que compreendem o ataque das notas dicultada pela grande quantidade de modos presentes neste perodo (devidos natureza impulsiva do plectro). A classicao de trechos extrados aproximadamente do perodo de liberao pode ser dicultada pela reduo da razo sinal/rudo.
79
Deve-se ressaltar que as combinaes de notas utilizadas para desenvolver esta dissertao foram realizadas computacionalmente. Desta forma, as amplitudes de parciais resultantes de acoplamentos entre modos de diferentes cordas e dos tampos inferior e superior do violo podem no ter sido bem aproximadas. A combinao automtica pode, por exemplo, gerar parciais sobre as freqncias de ressonncia com amplitude consideravelmente maior do que seria encontrada em um registro do instrumento que contenha as mesmas notas. Bancos de dados com registros de acordes realizados por um msico devem ser testados em trabalhos futuros.
5.5 Mtodos para Identicao de Notas de Violo - Objetivo 4.

Nesta seo so apresentadas adaptaes dos mtodos 1A e 2C voltadas para a identicao de notas em combinaes de registros com dinmicas escolhidas aleatoriamente entre
forte, mezzo e piano, extrados de perodos escolhidos aleatoriamente
entre ataque e decaimento, sustentao e liberao. O conjunto dos vetores criados para os experimentos do objetivo 4 simulam situaes mais complexas do que as abordadas nos experimentos referentes aos primeiros 3 objetivos. As notas presentes em um instante qualquer de uma gravao real podem estar em etapas diferentes na evoluo de suas envoltrias e, simultaneamente, terem diferentes dinmicas.
5.5.1
Os treinamentos das redes utilizadas nesta adaptao foram realizados de
acordo com a metodologia apresentada na Seo 4.6 para o objetivo 1. Os critrios de classicao utilizados so os mesmos apresentados na Seo 5.2.1.1. Na Tabela 5.15 so mostrados os resultados da implementao do mtodo 1A com 3 redes diferentes de 234 neurnios na camada oculta, utilizando 44504 vetores no conjunto de treinamento e no conjunto de validao. Para aprimorar os resultados, alm dos experimentos com resultados apresentados na Tabela 5.15, foram testadas realizaes com diferentes topologias de rede e quantidades de vetores para treinamento e validao. As mudanas de topologia
80
Tabela 5.15: Mtodo 1A - Objetivo 4
rede 1 2 3
de pocas 72 67 62
acurcia 58,4
58,9
58,1
foram obtidas alterando o nmero de neurnios na camada oculta. Foram realizados testes utilizando topologias com 209, 184, 159 e 134 neurnios na camada oculta. Para cada topologia foram feitos testes com 20504, 26504, 32504, 38504, 44504, 50504 e 56504 pares de vetores de treinamento. O melhor resultado (acurcia igual a
59,3%),
foi obtido utilizando uma rede com 209 neurnios na camada oculta e
44504 pares de vetores para os conjuntos de treinamento e validao. Os valores de NER e CER foram, respectivamente, 40,8% e 83,2 %, percentuais bem mais elevados do que os encontrados na implementao referente ao objetivo 1 (NER=25,3% e CER=58,7%), onde todas as notas nas combinaes tinham a mesma dinmica e foram extradas do perodo de sustentao. Do total de falsos negativos desta implementao, 71,9% ocorreram para notas com dinmica
piano,
23,4% para notas com dinmica
mezzo
e apenas 5,1%
para notas com dinmica
forte.
O total de falsos negativos em funo dos perodos
aproximados de segmentao foi dividido em 34,1% para notas segmentadas a partir do ataque e decaimento, 31,7% para notas segmentadas a partir do perodo de sustentao e 34,2% para notas segmentadas a partir do perodo de liberao. Outros resultados desta implementao so mostrados nas Figuras 5.21 e 5.22, conjuntamente com os resultados da verso do mtodo 1A desenvolvida para o objetivo 1.
5.5.2

Na Tabela 5.16 so mostrados os resultados da implementao da
etapa
do mtodo 2C para o objetivo 4, em 3 realizaes diferentes.
Foram utilizadas
redes com 234 neurnios na camada oculta, utilizando 44504 vetores no conjunto de treinamento e no conjunto de validao.
81
Figura 5.22: Percentuais do CER por grau de polifonia para verses do mtodo 1A referentes aos objetivos 1 e 4.
1a etapa
rede 1 2 3
de pocas 72 67 62
erro nmg 37,5
36,5
37,5
82
Novamente, para aprimorar os resultados, alm dos experimentos com resultados apresentados na Tabela 5.16, foram testadas realizaes com diferentes topologias de rede e quantidades de vetores para treinamento e validao. As alternativas testadas para topologia e quantidade de vetores utilizados no treinamento foram as mesmas descritas na Seo 5.5.1. O melhor resultado (
35,9%), foi obtido
utilizando uma rede com 234 neurnios na camada oculta e 38504 pares de vetores para os conjuntos de treinamento e validao. A maior parte dos erros, 62,9% do total, ocorreu na identicao de notas com dinmica dinmica
piano.
O resto dos erros foi dividido em 20,5% para notas com O total de falsos negativos
mezzo e 16,6% para notas com dinmica forte.
em funo dos perodos aproximados de segmentao foi dividido em 37,3% para notas segmentadas a partir do ataque e decaimento, 30,9% para notas segmentadas a partir do perodo de sustentao e 31,8% para notas segmentadas a partir do perodo de liberao.
5.5.3

Na Tabela 5.17 so mostrados os resultados da implementao do mtodo 2C
com 3 redes diferentes de 234 neurnios na camada oculta, utilizando 44504 vetores no conjunto de treinamento e no conjunto de validao. Foram utilizadas as estimativas com o menor percentual de erros, 35,92%, obtidas na implementao da
1a etapa
do mtodo 2C.
Tabela 5.17: Mtodo 1A - Objetivo 4
rede 1 2 3
de pocas 138 134 154
acurcia (completa) 66,1 66,1
acurcia (parcial) 68,6 68,3
66,2
68,7
Seguindo o mesmo procedimento apresentado para o mtodo 1A e para a 1 etapa do mtodo 2C, foram testadas realizaes com diferentes topologias de rede e quantidades de vetores para treinamento e validao. mesmas descritas na Seo 5.5.1. As alternativas foram as
83
O melhor resultado, acurcia igual a
66,2%, foi obtido utilizando uma rede
com 234 neurnios na camada oculta e 54504 pares de vetores para os conjuntos de treinamento e validao. Os valores de NER e CER obtidos na anlise completa
foram, respectivamente, 30,4% e 74,6%. Na anlise parcial os valores obtidos para a acurcia e para o NER foram, respectivamente, 68,8% e 21,0%. Outros resultados desta classicao so mostrados nas Figuras 5.23 e 5.24, conjuntamente com os resultados da verso do mtodo 2C desenvolvida para o objetivo 1.
Figura 5.23: Percentuais do NER por grau de polifonia para as verses do mtodo 2C referentes aos objetivos 1 e 4.
Do total de falsos negativos desta implementao, 72,8% ocorreram para notas com dinmica com dinmica
piano, 21,7% para notas com dinmica mezzo e 5,5% para notas
O total de falsos negativos em funo dos perodos aproximados
forte.
de segmentao foi dividido em 33,7% para notas segmentadas a partir do ataque e decaimento, 31,1% para notas segmentadas a partir do perodo de sustentao e 35,2% para notas segmentadas a partir do perodo de liberao.
5.5.4
Concluses
Tanto para o mtodo 1A quanto para o mtodo 2C, a maior parte das notas
que no foram encontradas tinham dinmica
piano.
O segundo maior percentual de
falsos negativos ocorreu na classicao de notas com dinmica na classicao de notas com dinmica
mezzo
e o menor,
forte.
84
Figura 5.24: Percentuais do CER por grau de polifonia para as verses do mtodo 2C referentes aos objetivos 1 e 4.
No ocorreram diferenas elevadas nos percentuais de falsos positivos para cada perodo de segmentao. Para ambos os mtodos, cada perodo recebeu acima de 31% do total de falsos negativos. Os menores percentuais, porm, ocorreram na identicao de notas extradas aproximadamente do perodo de sustentao. Os resultados obtidos com os mtodos 1A e 2C voltados para o objetivo 4 foram inferiores aos resultados obtidos com verses destes mtodos voltadas para os 3 primeiros objetivos. Isto ocorreu porque o conjunto de vetores criados para
os experimentos do objetivo 4 simulam situaes mais complexas (com dinmicas e segmentaes escolhidas aleatoriamente) do que as abordadas nos experimentos referentes aos outros objetivos. O mtodo 2C gerou, assim como nas anlises referentes aos objetivos 1, 2 e 3, melhores resultados que o mtodo 1A.
85
Captulo 6 Metodologia para Identicao de Notas de Piano

6.1 Introduo
Neste captulo e no captulo seguinte so apresentadas adaptaes dos mtodos dos Captulos 4 e 5, voltadas para a identicao de notas musicais em registros de piano solo. Os mtodos para identicao de notas de piano seguem os mesmos princpios dos mtodos apresentados para identicao de notas de violo. So divididos em dois grupos principais: no primeiro, mtodos que utilizam apenas uma rede neural e apenas uma representao espectral na identicao das notas de cada combinao; no segundo, mtodos que utilizam duas redes neurais e duas representaes espectrais na identicao das notas de cada combinao. Os mtodos do segundo grupo para identicao de notas de piano, assim como os mtodos do segundo grupo para identicao de notas de violo, tm uma rede para identicar a nota mais grave de cada combinao e outra para encontrar os intervalos entre a nota mais grave e as notas restantes. Da mesma forma que
foi apresentada no Captulo 4, a segunda rede recebe como vetor de entrada uma verso `transposta' da representao espectral. As duas redes so utilizadas em
seqncia. Aps conhecer a estimativa para a nota mais grave, o espectro da CQT alterado para que a componente analisada sobre o
pitch
da nota mais grave se
torne a primeira componente do espectro. O novo espectro ento analisado com
86
a segunda rede para obter estimativas dos intervalos entre a nota mais grave da combinao e as notas restantes.
6.2 Banco de Dados

Os registros de notas de piano foram obtidos do banco de gravaes de udio
RWC Music Database: Musical Instrument Sound Database

vaes de udio
[37] e do banco de gra-
McGill University Master Samples
[44]. O banco de gravaes de
piano RWC composto por registros digitais monaurais com resoluo de 16 bits e taxa de amostragem de 44100 Hz. O banco de gravaes de piano MUMS
com-
posto por registros digitais estreo com resoluo de 32 bits e taxa de amostragem de 44100 Hz. As gravaes de piano do banco RWC utilizadas nesta tese, nomeadas com as siglas 011PFNOP, 011PFNOM, 011PFNOF, 012PFNOP, 012PFNOM, 012PFNOF, 013PFNOP, 013PFNOM, 013PFNOF, 011PFSTP, 011PFSTM, 011PFSTF, 012PFSTP, 012PFSTM, 012PFSTF, 013PFSTP, 013PFSTM e 013PFSTF, contm seqncias de notas de 3 pianos diferentes (designados por `011PF', `012PF' e `013PF'). As gravaes com nomes que contm as letras `NO' foram realizadas com tcnica normal. As gravaes com nomes que contm as letras `ST' foram realizadas com tcnica
staccato.
Foram utilizados 3 nveis diferentes de dinmica (indicados
pela ltima letra de cada sigla, `P' para
piano,
`M' para
mezzo
e `F' para
forte ).
Cada gravao composta por uma seqncia de 88 sons de notas individuais, cada som de uma nota diferente. Os registros de cada nota de piano do banco MUMS so disponibilizados como gravaes independentes, j segmentadas. As gravaes so organizadas em grupos de 88 registros de notas diferentes. Os registros utilizados nesta tese pertencem aos grupos MPP SOFT, MPP MEDIUM, MPP LOUD, todos com sons de um mesmo piano. Cada grupo contm gravaes com um nvel diferente de dinmica (indicados por `SOFT' para
piano, `MEDIUM' para mezzo e `LOUD' para forte ).
Foi utilizado
apenas o canal esquerdo de cada gravao.
1 A partir deste ponto, por brevidade, o banco

apenas como banco MUMS.
McGill University Master Samples ser referido
87
6.3 Segmentao
A segmentao dos registros de piano do banco de dados RWC foi realizada atravs da anlise visual das formas de onda de cada gravao. Cada registro foi disponibilizado no banco de dados como uma gravao independente, j segmentada. Os registros de piano do banco de dados MUMS no requereram segmentao. As marcaes de Apndice A.2.
onsets
da base RWC utilizadas nesta teste esto listadas no
6.4 Criao dos
Kernels da CQT
da CQT para a anlise de componentes a partir
A abordagem utilizada para a criao dos kernels descrita na Seo 4.4 foi repetida, exceto pela extenso da faixa de anlise. Para o primeiro e segundo grupo de mtodos foram criados do
kernels
pitch da nota mais grave do piano (L 0; pitch = 27,50 Hz) at aproximadamente

Hz. Com esta escolha para o limite superior possvel representar cinco
21096,16
parciais da nota mais aguda do instrumento (D 8; Novamente os soluo freqencial
pitch 4186,01 Hz).
kernels
1
da
1a
oitava da transformada foram criados com re-
q = 2 12 ,
correspondente a 1 semitom. Deste modo, a durao
do intervalo necessrio para o clculo da componente sobre o ximadamente igual a da
pitch
de L 0 apropara a anlise
0,61
s. Foram criados dois grupos de
kernels
1/6
2a
oitava:
1o
q = 2
1 24 ,
correspondente a
1/4
de
tom e o
2o
q=2
1 36 ,
correspondente a
de tom. O
1o
grupo abrange, com 14 componentes, as 7 primeiras notas dessa oitava. O
2o
grupo
abrange, com 15 componentes, as 5 ltimas notas dessa oitava. A partir da tava os
3a
oi1
kernels
da transformada foram realizados com resoluo freqencial
q = 2 48 ,
correspondente a zando estes a partir da Os
1/8
de tom. No total, uma representao freqencial criada utili-
kernels
1a
contm 406 componentes: 12 na
1a
oitava, 29 na
2a
oitava e 365
componente da
3a
oitava at a ltima componente da transformada.
kernels
complementares para o clculo dos espectros transpostos so cal-
culados da mesma forma, acompanhando o aumento da faixa de anlise. As transformadas com a primeira componente a partir do
pitch da nota L 0 (pitch 29,14 Hz),
a segunda nota do instrumento, j teriam componentes calculadas acima da freqn-
88
cia de Nyquist [39]. Os
kernels
referentes a estas componentes no so calculados
e os valores de suas componentes so preenchidos com zeros durante o clculo das transformadas.
6.5 Criao das Combinaes de Notas Musicais

As combinaes de notas foram novamente realizadas computacionalmente, criando sons com diferentes graus de polifonia, com at dez notas simultneas. Assim como nas combinaes de registros de violes, os sons gerados com este procedimento no apresentam os efeitos de acoplamento entre modos de vibrao de cordas diferentes, que podem ocorrer durante a execuo do instrumento. A construo dos conjuntos de combinaes obedeceu as normas descritas a seguir:
a.
Para cada instrumento do banco de dados foi gerada uma srie independente de
combinaes dos registros disponveis. A escolha dos registros utilizados foi feita da seguinte forma:
1. As combinaes com duas notas simultneas foram escolhidas utilizando todas as combinaes possveis de dois registros de notas, exceto as combinaes de registros com notas iguais. Assim foram criadas 3828 combinaes por piano de ambas as bases de dados.
2. Na escolha dos registros de cada combinao com grau de polifonia maior que dois, o primeiro registro era escolhido aleatoriamente, de uma distribuio uniforme, entre os 88 registros disponveis. Este registro ento era retirado das opes disponveis para a prxima escolha. O segundo registro era escolhido aleatoriamente, de uma nova distribuio uniforme, entre os registros restantes. Novamente o registro escolhido era retirado das opes disponveis para a prxima escolha. Este processo era repetido at se completar o grau de polifonia desejado. Foram escolhidas 1000 combinaes diferentes por cada grau de polifonia (a partir de trs notas), por piano utilizado nos grupos de treino e validao. A reduo na quantidade de combinaes testadas, em comparao com as quantidades utilizadas nos testes de violo, se deu por limitaes computacionais. Com o aumento no tamanho das representaes espectrais e
89
no nmero de possveis notas simultneas, o consumo de memria durante o treinamento cresceu, dicultando o uso de mais combinaes por instrumento. Para o grupo de teste foram escolhidos 2750 vetores por cada grau de polifonia (a partir de trs notas), por piano utilizado. Como este grupo no utilizado durante o treinamento, no tem inuncia no aumento do uso de memria durante a adaptao da rede. Por isto foi possvel utilizar mais vetores.
b.
Trechos diferentes dos registros escolhidos foram selecionados aleatoritrechos que deveriam compreender aproximadamente o
amente, entre 3 opes:
perodo de ataque e decaimento (segmentados a partir da primeira amostra do registro), trechos que deveriam compreender aproximadamente o perodo de sustentao (segmentados a partir da amostra 8001) e trechos que deveriam compreender aproximadamente o perodo de liberao (segmentados a partir da amostra 16001). As notas agudas do piano comumente tm perodos muitos curtos de sustentao e liberao, por isto, para associar valores coerentes com os incios destes perodos, foram utilizados valores menores que os utilizados na segmentao dos registros de violo. Deste modo, reduz-se tambm o risco de realizar clculos utilizando amostras localizadas aps o perodo de liberao das notas agudas. Uma exceo foi
usada na segmentao dos registros 012PFNO. A amostra 12001 foi associada ao incio do perodo de liberao para esses registros. A reduo foi devida a uma falha em alguns dos registros da gravao 012PFNOM: algumas notas tm a gravao emudecida precocemente. Todos os trechos foram segmentados com a durao do maior intervalo necessrio para o clculo da CQT, aproximadamente
0,61
s.
c.
Antes de compor cada combinao, as dinmicas dos segmentos utilizados
eram escolhidas aleatoriamente, entre
forte, mezzo
piano.
Os trechos utilizados
eram normalizados pela norma quadrtica e em seguida, de acordo com a dinmica escolhida, poderiam ter suas amplitudes alteradas. Quando a dinmica escolhida era
forte, a amplitude era mantida.

normalizados.
Quando a dinmica escolhida era
mezzo, a amplitude
era alterada, formando sinais com
10 dB
de potncia em relao aos segmentos
Quando a dinmica escolhida era
piano,
a amplitude era alterada,
formando sinais com
20 dB
de potncia em relao aos segmentos normalizados.
Ambas as bases possuem gravaes com nveis de dinmica
forte, mezzo
piano.
Os registros eram selecionados entre as opes de dinmica disponveis (listadas na
90
Seo 6.2) de acordo com as dinmicas escolhidas.
d.
Sinais de notas simples tambm foram utilizados nos treinamentos e tes-
tes das redes, do mesmo modo que sinais polifnicos. Cada registro disponvel foi segmentado em 3 trechos de aproximadamente
0,61
s, com incios a partir da pri-
meira amostra, da amostra 8001 e da amostra 16001 (ou 12001 no caso dos registros 012PFNO). Assim, foram utilizados 264 sinais de notas simples por piano de ambas as bases.
As combinaes foram criadas atravs da soma dos vetores compostos pelos elementos de cada segmento. Aps a soma, cada combinao foi normalizada por sua norma quadrtica.
6.6 Treinamento das Redes Neurais

Assim como descrito na Seo 4.6, para cada combinao de notas foram calculadas duas transformadas atravs do algoritmo rpido da CQT (Seo 2.2). A primeira transformada, para aplicao no primeiro e no segundo grupo de mtodos, foi calculada com componentes a partir do
pitch
da nota L 0.
A segunda trans-
formada, para aplicao apenas no segundo grupo de mtodos, foi calculada com componentes a partir do
pitch
da nota mais grave de cada combinao.
Os vetores de entrada das redes neurais foram formados pelos valores absolutos das componentes de cada transformada. Os vetores-objetivo foram formados com 88 elementos, cada um correspondente a uma das notas do piano. A presena de cada nota foi indicada pelo valor foram indicadas pelo valor
no elemento correspondente. As notas ausentes
0.
As dinmicas e amostras iniciais escolhidas para cada
combinao foram armazenadas para uso na anlise dos resultados. Os pares formados pelos vetores de entrada e vetores-objetivo foram divididos em trs conjuntos: um de treino, um de teste e um de validao. O conjunto
de treino continha os pares formados a partir de combinaes das notas do piano 011PF (011PFNO e 011PFST) e MPP. O conjunto de validao continha os pares formados a partir de combinaes das notas do piano 012PF (012PFNO e 012PFST). O conjunto de teste continha os pares formados a partir de combinaes das notas do piano 013PF (013PFNO e 013PFST).
91
Foram realizados testes com um nmero xo de vetores nos grupos de treino e validao. Foram criados, para os grupos de treino e validao, 1000 pares de
vetores (entrada e objetivo) para cada instrumento, para cada grau de polifonia maior que dois. Alm destes, foram utilizados todos os vetores referentes a notas simples e combinaes de duas notas. Para o grupo de teste foram criados 2750
pares de vetores para cada instrumento, para cada grau de polifonia maior que dois, e todos os vetores referentes a notas simples e combinaes de duas notas. No total foram realizados testes com conjuntos de treino e validao contendo 37860 pares de vetores (entrada e objetivo). 53240 pares de vetores. Os vetores de entrada dos conjuntos de treino, teste e validao foram escalonados para o uso com redes neurais. Os valores de cada componente foram reduzidos das mdias de O grupo de teste continha, sempre,
ensemble
correspondentes (calculados apenas sobre o conjunto
de treino), e divididos pelo dobro dos desvios-padro de (calculados apenas sobre o conjunto de treino).
ensemble
correspondentes
As redes foram implementadas com as mesmas conguraes usadas no treinamento das redes para identicao de notas de violo (descritas na Seo 4.6), utilizando o algoritmo Rprop e o critrio de parada descrito na Seo 3.5. Para encontrar topologias apropriadas para as redes utilizadas em cada mtodo, foram realizados testes com variaes na quantidade de neurnios na camada oculta.
92
Captulo 7 Implementao e Testes - Piano

7.1 Introduo
Neste captulo so detalhadas adaptaes dos mtodos 1A e 2A (desenvolvidas para torn-los compatveis com a identicao de notas musicais em registros de piano) e os resultados dos testes realizados.
7.2 Mtodo 1A para Piano

Nesta adaptao, os vetores analisados so novamente formados por representaes espectrais, obtidas atravs da CQT, de cada combinao de registros. As notas so classicadas como presentes ou ausentes de acordo com os valores dos elementos do vetor de sada de uma rede neural desenvolvida para o processo de classicao. As notas correspondentes aos elementos com valor maior que
0,5
so
classicadas como presentes. Apesar da utilizao de combinaes com, no mximo, 10 notas simultneas, durante a execuo de um piano possvel obter polifonia igual quantidade de teclas do instrumento (como descrito na Seo 1.2). Por isto, so aceitos resultados que indiquem mais que 10 notas simultneas por combinao. Se, para cada vetor de sada, nenhum elemento tiver valor acima de
0,5,
apenas
a nota correspondente ao maior valor encontrado classicada como presente na combinao. Para encontrar conguraes apropriadas para as redes foram feitos experimentos com diferentes topologias. As mudanas foram obtidas alterando o nmero
93
de neurnios na camada oculta. Foram realizados experimentos utilizando topologias com 406, 381, 356, 331, 306, 281 e 256 neurnios nesta camada. A camada de sada tinha 88 neurnios, o mesmo nmero de teclas do instrumento. Na Tabela 7.1 so mostrados os resultados da implementao do mtodo 1A com duas topologias diferentes. A primeira, com tantos neurnios na camada oculta quanto elementos em cada vetor de entrada. A segunda, da qual se obteve o melhor resultado entre as implementaes, com 306 neurnios na camada oculta.
Tabela 7.1: Mtodo 1A para Piano
topologia
rede 1
de pocas 17 14 14
acurcia 24,5 22,4 23,4
topologia
rede 1
de pocas 34 16 20
acurcia
28,5
23,6 26,2
406
x 88
2 3
306
x 88
2 3
As fortes diferenas entre as acurcias das realizaes da segunda topologia podem ter sido causadas pela presena de mltiplos mnimos locais na superfcie de custo do treinamento. Particularmente, a diferena elevada entre as acurcias
obtidas nas duas primeiras realizaes (4,9%), bem como a grande diferena no nmero de pocas de treinamento, indicam problemas de convergncia para um mnimo nico e global. Resultados de NER por grau de polifonia so mostrados na Figura 7.1, conjuntamente com resultados apresentados por POLINER e ELLIS [26], obtidos atravs de seu mtodo de identicao de notas em sinais polifnicos de piano. Poliner e Ellis realizaram suas anlises sobre dois bancos de dados, um composto por sinais de piano sintetizados a partir de arquivos MIDI e outro composto por registros de piano automtico executados a partir de arquivos MIDI. As medidas apresentadas na Figura 7.1 se referem aos resultados da classicao conjunta dos dois bancos. Poliner e Ellis apresentaram medidas de NER e de NER em funo do grau de polifonia para at oito notas simultneas. Eles no apresentaram medidas de CER. Alm do prprio mtodo, os autores testaram (sobre as mesmas bases de dados) um mtodo proposto por MAROLT [21] para a transcrio de registros de piano e um mtodo proposto por RYYNNEN e KLAPURI [24] para transcrio de registros de
94
instrumentos com
pitch
denido. Como o conjunto de teste desenvolvido para esta
dissertao diferente dos conjuntos analisados por Poliner e Ellis, a comparao dos resultados obtidos da aplicao do mtodo 1A com os resultados obtidos por outros autores pode ser vista apenas como indicativa das vantagens de cada mtodo.
Na Tabela 7.2 so mostrados os resultados das medies de NER e acurcia obtidos por Poliner e Ellis e os resultados obtidos da aplicao do mtodo 1A.
Tabela 7.2: Resultados de Acurcia e NER para Diferentes Mtodos
mtodo 1A - piano Poliner e Ellis Ryynnen e Klapuri Marolt
acurcia 28,5 67,7 46,6 36.9
NER 69,7 34,2 52,3 65.7
7.3 Mtodos do Segundo Grupo

Assim como nos mtodos do segundo grupo desenvolvidos para a identicao de notas musicais em registros de violo, nos mtodos apresentados nesta seo a
95
identicao de notas de realizada utilizando duas redes em seqncia. Neles, a primeira rede utilizada para identicar a nota mais grave de cada combinao e a segunda para encontrar os intervalos entre a nota mais grave de cada combinao e as notas restantes. As representaes espectrais utilizadas no treinamento das redes criadas para identicao da nota mais grave de cada combinao so as mesmas utilizadas para realizar os treinamentos do mtodo 1A para piano. As representaes espectrais utilizadas no treinamento das redes criadas para identicao dos intervalos entre a nota mais grave e as notas restantes so realizadas utilizando os
kernels
criados para o segundo grupo de mtodos para identicao de
notas de piano, descritos na Seo 6.4. As representaes espectrais dos grupos de treino e validao so criadas, para cada combinao, a partir da componente sobre o
pitch
de sua nota mais grave. As representaes espectrais do grupo de teste so
criadas, para cada combinao, a partir da componente sobre o grave estimada.
pitch
da nota mais
Nas prximas sees so apresentados os mtodos desenvolvidos para identicar a nota mais grave de cada combinao e, em seguida, o mtodo desenvolvido para encontrar os intervalos entre a nota mais grave de cada combinao e as notas restantes.
7.3.1
Mtodo 2A para Piano - 1a etapa

Nesta adaptao da 1 etapa do mtodo 2A, as redes neurais recebem vetores
de entrada formados apenas pelas representaes espectrais de cada combinao. Cada vetor-objetivo formado por 88 elementos, correspondentes, cada um, a uma nota diferente do piano. A presena da nota mais grave indicada pelo valor
no
elemento correspondente. Todas os outros elementos do vetor, inclusive os elementos correspondentes a outras notas presentes nas combinaes analisadas, recebem o valor
0.
Para cada vetor de sada, a nota correspondente ao elemento com o maior
valor classicada como a nota mais grave da combinao. Para encontrar conguraes apropriadas para as redes foram feitos experimentos com vrias topologias. As mudanas foram obtidas alterando-se o nmero de
96
neurnios na camada oculta. Foram realizados experimentos utilizando topologias com 431, 406, 381, 356, 331, 306, 281 e 256 neurnios nesta camada. As topologias com, no mximo, tantos neurnios na camada oculta quanto elementos nos vetores de entrada foram testadas primeiro. Como o melhor resultado foi obtido utilizando a topologia com 406 neurnios na camada oculta (mesmo nmero de elementos dos vetores de entrada), foram realizados novos testes com uma topologia com 431 neurnios na camada oculta. esta congurao. Na Tabela 7.3 so mostrados os resultados da implementao da 1 etapa do mtodo 2A para pianos, utilizando redes com 406 neurnios na camada oculta. Porm, no foram obtidos resultados melhores com
Tabela 7.3: Mtodo 2A para Piano - 1 etapa
rede 1 2 3
de pocas 87 71 69
erro nmg
45,7
47,0 47,1
Adaptaes das primeiras etapas dos mtodos 2B e 2C propostos para violo, bem como propostas alternativas para a identicao da nota mais grave, sero desenvolvidas em trabalhos futuros. Neste captulo, as classicaes obtidas na 1 etapa do mtodo 2A so utilizadas como estimativas para a 2
etapa.
7.3.2
Mtodo 2A para Piano - 2a etapa

Assim como o desenvolvimento da 2 etapa do mtodo 2C para violo inde-
pende do desenvolvimento de sua 1 etapa, o desenvolvimento da 2 etapa do mtodo 2A para piano tambm independe de sua 1 etapa.
Novamente, para testar Na
o desempenho do mtodo, foram realizadas avaliaes completas e parciais.
avaliao completa, as transposies dos espectros foram realizadas utilizando as estimativas para as notas mais graves obtidas na 1 etapa do mtodo. Na avaliao parcial, as transposies dos espectros foram realizadas utilizando, sempre, a informao correta de qual a nota mais grave de cada combinao (avaliao parcial). Na avaliao completa, o desempenho do mtodo foi medido sobre todas as classi-
97
caes obtidas (inclusive as das notas mais graves). Na avaliao parcial, realizada para medir o desempenho da 2 etapa independentemente dos resultados da 1 etapa, so descontadas as classicaes das notas mais graves. A criao dos vetores-objetivo para esta etapa realizada da mesma forma descrita na Seo 5.2.2.4. Os elementos dos vetores-objetivo originais (no caso,
vetores usados nos mtodos 1A para piano) so deslocados, de modo que o elemento referente nota mais grave se torne, sempre, o primeiro elemento do vetor. Foram realizados experimentos utilizando topologias com 431, 406, 381, 356 e 331 neurnios na camada oculta. As topologias com 406, 381, 356 e 331 neurnios na camada oculta foram testadas primeiro. Como o melhor resultado foi obtido utilizando 406 neurnios, foram realizados novos testes utilizando 431 neurnios. Assim como na 1 etapa do mtodo 2A, os melhores resultados foram obtidos utilizando 406 neurnios na camada oculta. Na Tabela 7.4 so mostrados os resultados da implementao do mtodo 2A para piano (avaliaes parcial e completa), em 3 realizaes, na classicao do conjunto de teste, utilizando redes com 406 neurnios na camada oculta.
Tabela 7.4: Mtodo 2A - 2 etapa - piano
rede 1 2 3
de pocas 120 134 126
acurcia (completa) 36,8
acurcia (parcial) 34,4
36,9
36,6
34,4
34,1
O melhor resultado foi obtido na 2
134 pocas. Resultados de NER por grau de polifonia so mostrados na Figura 7.2, conjuntamente com resultados obtidos com a aplicao do mtodo 1A e com os resultados apresentados por Poliner e Ellis. Exceto pelo resultado para notas simples, a aplicao do mtodo 2A apresentou erros menores que o mtodo 1A. Para nota simples, o aumento do NER foi determinado pelos erros obtidos na 1 etapa do mtodo 2A somados aos erros de insero ocorridos na 2 etapa. Na Tabela 7.5 so mostrados, alm da repetio dos resultados da Tabela 7.2,
98
Figura 7.2: Percentuais do NER por grau de polifonia para o mtodo de Poliner e Ellis (na classicao conjunta de sinais sintetizados e de registros reais de piano automtico) e para os mtodos 1A e 2A (na classicao do conjunto de teste).
os resultados das medies de NER e acurcia das avaliaes completa e parcial, obtidas da aplicao do mtodo 2A.
Tabela 7.5: Resultados de Acurcia e NER para Diferentes Mtodos
mtodo 1A - piano 2A - piano (completa) 2A - piano (parcial) Poliner e Ellis Ryynnen e Klapuri Marolt
acurcia 28,5 36,9 34,4 67,7 46,6 36.9
NER 69,7 59,4 62,9 34,2 52,3 65.7
Os resultados de acurcia e NER obtidos na avaliao parcial foram piores do que os resultados obtidos na avaliao completa. Isto , parcialmente, devido
escala alongada do piano, discutida na Seo 1.8. Na 2 etapa do mtodo 2A, as transposies de espectros de diferentes combinaes de notas (com os mesmos intervalos) executados em oitavas distantes, no resultam em espectros to similares entre si quanto as transposies de espectros de combinaes (com os mesmos in-
99
tervalos), executados em oitavas prximas. Isto implica que a rede da 2 etapa pode receber vetores de entrada muito diferentes, mas que representam intervalos iguais entre a nota mais grave e as notas restantes, reduzindo sua ecincia. Este problema no to acentuado na implementao dos mtodos do segundo grupo para violo porque este instrumento tem, usualmente, metade da extenso de um piano comum.
7.4 Concluso
Assim como nos mtodos desenvolvidos para a identicao de notas de violo, a diviso do problema em uma etapa de identicao da nota mais grave e outra para identicao dos intervalos entre a nota mais grave e as notas restantes, teve melhores resultados do que a tentativa de estimar todas as notas simultaneamente. Apesar disto, no mtodo 2A, a etapa de identicao de intervalos entre a nota mais grave e as notas restantes de cada combinao dicultada pela escala alongada do instrumento. Vetores de entrada criados para a 2 etapa do mtodo, referentes combinaes de notas com os mesmos intervalos, podem no ter mximos nos mesmos elementos, dicultando a identicao dos intervalos.
100
Captulo 8 Concluses
Nesta dissertao foram apresentados mtodos desenvolvidos para a identicao de notas musicais em registros de violo solo. Estes mtodos tm como base o uso de redes neurais
feed-forward
de mltiplas camadas, treinadas com representa-
es espectrais obtidas atravs de uma transformada de
constante. Alm destes,
tambm foram apresentadas adaptaes voltadas para a identicao de notas musicais em registros de piano. Os mtodos podem ser divididos em duas abordagens: na primeira, apenas uma rede utilizada na identicao das notas presentes em cada segmento de sinal analisado; na segunda, duas redes so utilizadas em seqncia: a primeira para identicar apenas a nota mais grave de cada segmento de sinal analisado e a segunda para encontrar os intervalos entre a nota mais grave e as notas restantes. Os mtodos criados para identicar notas de violo foram desenvolvidos e aferidos de acordo com uma seqncia de objetivos (designados 1, 2, 3 e 4). De acordo com o objetivo 1 buscou-se identicar notas de combinaes formadas a partir de registros com apenas um nvel de dinmica (
mezzo ), extrados aproximadamente do
perodo de sustentao das notas. De acordo com o objetivo 2 buscou-se identicar notas de combinaes similares s desenvolvidas para o objetivo 1, porm, criadas com um registro com dinmica diferenciada (
forte ) em cada combinao.
De acordo
com o objetivo 3 buscou-se identicar notas de combinaes formadas a partir de registros com a mesma dinmica (
mezzo ),
extrados, para todas as notas de uma
mesma combinao, de um entre trs possveis perodos de segmentao. De acordo com o objetivo 4 buscou-se identicar notas de combinaes formadas por registros
101
que tinham, independentemente, um entre trs nveis de dinmica (
piano, mezzo ou
forte ) extrados, independentemente, de um entre trs perodos de segmentao.

As adaptaes dos mtodos voltadas para a identicao de notas de piano solo foram desenvolvidas e aferidas buscando-se identicar notas de combinaes formadas por registros que tinham, independentemente, um entre trs nveis de dinmica (
piano, mezzo
ou
forte )
extrados, independentemente, de um entre trs
perodos de segmentao. Pde-se observar em experimentos referentes ao objetivo 1 para identicao de notas de violo que o conhecimento prvio do grau de polifonia de cada combinao de notas analisada pode ser utilizado para reduzir o nmero de ocorrncias de erros de insero, principalmente para combinaes com muitas notas. De forma similar, pde-se observar em experimentos referentes ao objetivo 2 que estabelecer um limite superior para o nmero de notas que podem ser classicadas como presentes em uma dada combinao contribui para a reduo do NER nas classicaes de combinaes com nmero de notas prximo ao grau de polifonia do instrumento. Pde-se observar em experimentos referentes aos objetivos 2 e 4 que a presena de variaes dinmicas nas combinaes analisadas dicultam a identicao das notas que possuem dinmicas mais baixas. Particularmente nos experimentos referentes ao objetivo 4, onde foram utilizados trs nveis diferentes de dinmica, a maior parte das notas que no foram encontradas tinham dinmica pequenos percentuais das notas com dinmica
piano.
Apenas
forte
no foram identicadas.
Pde-se observar em experimentos referentes ao objetivo 3, onde foram utilizadas redes neurais treinadas com exemplos de combinaes de registros com dinmica
mezzo
extrados a partir de 3 possibilidades de segmentao (com todos os
segmentos de cada combinao extrados do mesmo perodo), que a presena de parciais devidas s freqncias de ressonncia do violo, principalmente nos perodos de ataque e decaimento, pode provocar muitos casos de falsos positivos, indicando notas que correspondem s faixas de freqencias onde ocorrem as ressonncias. Foi possvel observar atravs da comparao dos resultados obtidos na aplicao dos mtodos voltados para objetivo 1 com resultados obtidos na aplicao dos mtodos voltados para objetivo 3 que aumentar a variedade de exemplos de treinamento pode aumentar a robustez do processo de classicao. Os resultados
102
obtidos utilizando os mtodos criados para o objetivo 3 na anlise de combinaes de registros com dinmica
mezzo
extrados aproximadamente do perodo de susten-
tao foram melhores que os resultados obtidos utilizando os mtodos criados para o objetivo 1 na anlise do mesmo tipo de combinaes. Para cada objetivo, os resultados dos mtodos do segundo grupo, nos quais se divide o problema de identicao de notas musicais em duas etapas (uma para a identicao da nota mais grave e outra para identicao dos intervalos entre a nota mais grave e as notas restantes), foram sempre melhores que os resultados dos mtodos do primeiro grupo, nos quais se buscava identicar todas as notas em apenas uma etapa. Isto ocorre porque, dado que a estimativa da nota mais grave esteja correta, a identicao dos intervalos entre a nota mais grave e as notas restantes tem melhor desempenho do que a estimativa direta de todas as notas. Alm disto, estimativas para as notas mais graves, obtidas na 1 etapa dos mtodos do segundo grupo, mesmo quando erradas, comumente indicam notas que tambm pertencem s combinaes testadas. Nestes casos, mesmo com a decorrente falha na 2
etapa, pelo menos uma nota corretamente indicada. Para a identicao de notas de piano, os resultados das classicaes reali-
zadas em apenas uma etapa no foram promissores. A diviso do problema em uma etapa de identicao da nota mais grave e outra para identicao dos intervalos entre a nota mais grave e as notas restantes, assim como nos mtodos desenvolvidos para identicao de notas de violo, produziu melhores resultados. A etapa de identicao de intervalos entre a nota mais grave e as notas restantes de cada combinao dicultada pela escala alongada do instrumento. Vetores de entrada criados para esta etapa, referentes a combinaes de notas com os mesmos intervalos, podem no ter mximos nos mesmos elementos, dicultando a identicao dos intervalos.
Trabalhos Futuros
Devem-se desenvolver propostas alternativas para a etapa de identicao da nota mais grave dos mtodos do segundo grupo. Os mtodos para identicao de notas de piano, assim como os mtodos
103
desenvolvidos para violo, devem ser adaptados de acordo com caractersticas do instrumento. Deve ser implementado um mtodo de deteco automtica dos perodos do modelo ADSR em funo de cada registro analisado. Novos bancos de dados, compostos por registros de acordes realizados por msicos, em vez de combinaes de registros realizadas computacionalmente, devem ser testadas.
104
Referncias Bibliogrcas
[1] HERRERA-BOYER, P., KLAPURI, A., DAVY, M., Automatic Classication of Pitched Musical Instrument Sounds. In: Klapuri, A., Davy, M. (eds.),
Signal
Processing Methods for Music Transcription,

163200, 2006.
New York, USA, Springer, pp.
[2] JRVELINEN, H., VERMA, T., VLIMKI, V., The Eect of Inharmonicity on Pitch in String Instruments Sounds. In:
Proceedings of the Inter-
national Computer Music Conference,

August/September 2000.
pp. 237240, ICMA, Berlin, Germany,
[3] LEGGE, K. A., FLETCHER, N. H., Nonlinear Generation of Missing Modes on a Vibrating String, pp. 512, July 1984.
Journal of the Acoustical Society of America, v. 76, n. 1, Reports
[4] FLETCHER, N. H., The Nonlinear Physics of Musical Instruments,
on Progress in Physics, v. 62, n. 5, pp. 723764, May 1999.

[5] EVANS, C., REES, D., Nonlinear Distortions and Multisine Signals - Part I: Measuring the Best Linear Approximation,
IEEE Transactions on Instrumen-
tation and Measurement, v. 49, n. 3, pp. 602609, June 2000.

[6] JENSEN, K.,
Timbre Models of Musical Sounds.
Ph.D. thesis, Department of
Computer Science, University of Copenhagen, Denmark, July 1999.
[7] WOODHOUSE, J., Plucked Guitar Transients: Comparison of Measurements and Synthesis,
ACTA Acustica United with Acustica, v. 90, n. 5, pp. 945965,
September/October 2004.
105
[8] CHRISTENSEN, O., VISTISEN, B. B., Simple Model for Low-frequency Guitar Function,
Journal of the Acoustical Society of America, v. 68, n. 3, pp. 758
766, September 1980.
[9] FIRTH, I. M., Physics of the Guitar at the Helmholtz and First Top-plate Resonances,
Journal of the Acoustical Society of America, v. 61, n. 2, pp. 588 Anais
593, February 1977.
[10] GOLDEMBERG, R., Aspectos Acsticos da Anao de Pianos. In:
do II Seminrio de Msica, Cincia e Tecnologia, Unicamp, Campinas, Brasil,

Outubro 2005. [online]
http://www.proceedings.scielo.br/scielo.php?
script=sci_arttext&pid=MSC0000000102005000100005&lng=en&nrm=iso.
[11] WARD, W. D., Musical Perception. In: Tobias, J. V. (ed.),
Foundations of
Modern Auditory Theory, v. 1, New York, USA, Academic Press, pp. 407459,
1970.
[12] BENSA, J., DAUDET, L., Ecient Modeling of Phantom Partials in Piano Tones. In:
Proceedings of the International Symposium on Musical Acoustics,

pp. 207210, ISMA, Nara, Japan,
March 31st to April 3rd 2004 ISMA2004),

March/April 2004.
[13] NISHIGUCHI, I., Recent Research on the Acoustics of Pianos,
Acoustical
Science and Technology, v. 25, n. 6, pp. 413418, November 2004.

[14] CONKLIN JR., H. A., Piano Strings and `Phantom' Partials,
Journal of the
Acoustical Society of America, v. 102, n. 1, pp. 659, July 1997.

[15] CONKLIN JR., H. A., Generation of Partials due to Nonlinear Mixing in a Stringed Instrument,
Journal of the Acoustical Society of America, v. 105, n. 1,
pp. 536545, January 1999.
[16] NAKAMURA, I., NAGANUMA, D., Characteristics of Piano Sound Spectra. In:
Proceedings of the Stockholm Music Acoustics Conference, 1993,
pp. 325
330, Stockholm, Sweden, July/August 1993.
106
[17] CONKLIN JR., H. A., Design and Tone in the Mechanoacoustic Piano. Part III. Piano Strings and Scale Design,
Journal of the Acoustical Society of Ame-
rica, v. 100, n. 3, pp. 12861298, September 1996.

[18] BONNET, L., LEFEBVRE, R., High-Resolution Robust Multipitch Analysis of Guitar Chords. In:
114th AES Convention, Preprint 5772,
AES, Amster-
dam, The Netherlands, March 2003.
[19] GAGNON, T., LAROUCHE, S., LEFEBVRE, R., A Neural Network Approach for Pre-classication in Musical Chords Recognition. In:
Conference Record
of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers,

v. 2, pp. 21062109, IEEE, November 2003.
[20] SMITH III, J. O., ABEL, J. S., Bark and ERB Bilinear Transforms,
IEEE
Transactions on Speech and Audio Processing, v. 7, n. 6, pp. 697708, November

1999.
[21] MAROLT, M., A Connectionist Approach to Automatic Transcription of Polyphonic Piano Music, 449, June 2004.
IEEE Transactions on Multimedia, v. 6, n. 3, pp. 439
[22] SZCZUPAK, A. L., BISCAINHO, L. W. P., CALBA, L. P., Identicao de Notas Musicais de Violo Utilizando Redes Neurais. In:
Anais do 4o Congresso
de Engenharia de udio, v. 1, pp. 108112, AES Brasil, So Paulo, Brasil, Maio

2006.
[23] KLAPURI, A., A Perceptually Motivated Multiple-F0 Estimation Method. In:
Proceedings of the IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics, pp. 291294, IEEE, New Paltz, USA, October 2005.
[24] RYYNNEN, M. P., KLAPURI, A., Polyphonic Music Transcription Using Note Event Modelling. In:
Proceedings of the IEEE Workshop on Applications

pp. 319322, IEEE, New Paltz,
of Signal Processing to Audio and Acoustics,

USA, October 2005.
107
[25] RABINER, L. R., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, February 1989.
Proceedings of the IEEE, v. 77, n. 2, pp. 257286,
[26] POLINER, G. E., ELLIS, D. P. W., A Discriminative Model for Polyphonic Piano Transcription,
EURASIP Journal on Advances in Signal Processing,
v. 2007, January 2007. Article ID 48317, 9 pages.
[27] HAYKIN, S.,
Redes Neurais. 2 ed., Porto Alegre, Brasil, Bookman, 2001. Journal of
[28] BROWN, J. C., Calculation of a Constant Q Spectral Transform,
the Acoustical Society of America, v. 89, n. 1, pp. 425434, January 1991.

[29] DUDA, R. O., HART, P. E., STORK, D. G., York, USA, Wiley-Interscience, 2001.
Pattern Classication. 2 ed., New
[30] BROWN, J. C., PUCKETTE, M. S., An Ecient Algorithm for the Calculation of a Constant Q Transform,
Journal of the Acoustical Society of America, Processamento Digital de
v. 92, n. 5, pp. 26982701, November 1992.
[31] DINIZ, P. S. R., SILVA, E. A. B., NETTO, S. L.,
Sinais: Projeto e Anlise de Sistemas. Porto Alegre, Brasil, Bookman, 2004.

[32] JAIN, A. K., MAO, J., MOHIUDDIN, K. M., Articial Neural Networks: A Tutorial,
Computer, v. 29, n. 3, pp. 3144, March 1996. Neural computing: Theory and Practice.
New York,
[33] WASSERMAN, P. D.,
USA, Van Nostrand Reinhold Co., 1989.
[34] RIEDMILLER, M., BRAUN, H., A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm. In:
Proceedings of the ICNN
- International Conference on Neural Networks,

Francisco, USA, March/April 1993.
v. 1, pp. 586591, IEEE, San
[35] TOLLENAERE, T., Supersab: Scaling Properties,
Fast Adaptive Backpropagation with Good
Neural Networks, v. 3, n. 5, pp. 561573, October 1990.
[36] JACOBS, R. A., Increased Rates of Convergence Through Learning Rate Adaptation,
Neural Networks, v. 1, n. 4, pp. 295307, December 1988.

108
[37] GOTO, M., NISHIMURA, T., HASHIGUCHI, H. base:
et al.,
RWC Music Data-
Music Genre Database and Musical Instrument Sound Database. In:
Proceedings of the 4th International Conference on Music Information Retrieval (ISMIR 2003), pp. 229230, Baltimore, USA, October 2003.
[38] YEH, C., RWC Sample Markers Files Including Onset Markers for Instruments in RWC-MDB-I-2001, 2008,
http://recherche.ircam.fr/equipes/
analyse-synthese/cyeh/dbfiles/RWC_Markers.zip.
[39] OPPENHEIM, A. V., WILLSKY, A. S., NAWAB, S. H., 2 ed., Upper Saddle River, USA, Prentice-Hall, 1997.
Signals and Systems.
[40] HELN, M., VIRTANEN, T., Perceptually Motivated Parametric Representation for Harmonic Sounds for Data Compression Purposes. In:
Proceedings of
the 6th International Conference on Digital Audio Eects (DAFx-03), London,

United Kingdom, September 2003.
[41] RIEDMILLER, M.,
Rprop - Description and Implementation Details, Technical
report, Institute fr Logik, Komplexitt und Deduktionsstyme, University of Karlsruhe, Karlsruhe, Deutschland, January 1994.
[42] KLAPURI, A., VIRTANEN, T., HOLM, J.-M., Robust Multipitch Estimation for the Analysis and Manipulation of Polyphonic Musical Signals. In:
Procee-
dings of the COST-G6 Conference on Digital Audio Eects (DAFx-00), Verona,

Italy, December 2000.
[43] DIXON, S., On the Computer Recognition of Solo Piano Music. In:
Proce-
edings of the Australasian Computer Music Conference,

Australia, July 2000.
pp. 3137, Brisbane,
[44] OPOLKO, F., WAPNICK, J., McGill University Master Samples Collection on DVD: Volume 2, DVD, 2006, McGill University.
109
Apndice A Marcaes de
A.1 Violes
Tabela A.1: Amostras marcadas como
Onsets
da Base RWC
onsets
na gravao 091CGAFP.
2134 1307336 2688001 4050938 5331455 6737001 8104962 9499349 10838123 12216323 13588482 14875138 16215145
217600 1580264 2939616 4274266 5558971 6952565 8327680 9714283 11059716 12439154 13816835 15092929 16397318
438785 1790968 3160769 4505197 5834351 7213565 8549895 9943044 11260316 12658179 14074369 15307780 16579071
659547 2012788 3388645 4718706 6058072 7427295 8800870 10164745 11488771 12908546 14253346 15531523 16750074
878180 2236525 3608185 4921854 6285416 7660238 9051350 10396677 11769453 13134850 14463489 15751683 16976605
1089240 2462827 3836013 5114365 6508141 7880431 9265883 10615300 11964538 13361670 14668289 15972352 17146486
110
onsets
na gravao 091CGAFM.
1 1259215 2563073 3836020 5105263 6355971 7675514 8937166 10372098 11702010 12929535 14209026 15524972
193536 1479415 2783465 4056176 5310700 6569987 7885318 9152098 10595846 11911280 13144787 14429293 15693030
402943 1694815 2995431 4280950 5522943 6776546 8099328 9367138 10807297 12104194 13353991 14644229 15841554
619631 1909755 3190366 4485224 5743215 6982661 8289272 9587712 11016706 12273663 13569130 14864899 16010056
840283 2129523 3406330 4704254 5958776 7247448 8504027 9826303 11255386 12483070 13789698 15074307 16191483
1049703 2348127 3626608 4903938 6160890 7462493 8713580 10040949 11481501 12703746 13993980 15328256 16362533
onsets
na gravao 091CGAFF.
585 1304268 2592255 3880057 5121623 6450285 7742290 9028178 10304513 11558912 12859906 14212097 15500398
220258 1519192 2807912 4095088 5333504 6670851 7962228 9207391 10519554 11779484 13074844 14417921 15675909
440939 1715446 3009244 4321371 5583877 6885888 8175223 9433597 10734593 11988593 13295106 14629384 15839861
659458 1935997 3218555 4530692 5798641 7102561 8378470 9648637 10948098 12203623 13510148 14850051 16014337
879718 2156654 3444837 4737030 6013566 7317601 8593506 9868800 11139688 12424193 13730817 15065089 16183395
1100012 2371729 3670645 4918379 6238304 7524449 8780900 10089472 11338243 12639233 13980673 15285346 16338540
111
onsets
na gravao 092CGAFP.
2016 1293866 2705913 4111104 5449418 6846565 8152572 9435775 10715994 11943678 13193324 14571835 15865118
200927 1560257 2941775 4364677 5689506 7100769 8357193 9627357 10951607 12140762 13411893 14763644 16118616
399558 1815281 3162544 4559488 5915644 7310074 8582944 9864203 11146810 12332989 13654011 14967352 16327920
646809 2045455 3410271 4793425 6132631 7502141 8809014 10079498 11378498 12525283 13880027 15192966 16553856
851618 2277630 3647996 4994712 6391842 7737656 8999665 10289823 11580820 12751596 14088803 15404036 16813124
1059626 2506801 3874950 5201388 6592164 7942814 9223290 10479033 11742519 12976713 14334833 15638956 16985732
onsets
na gravao 092CGAFM.
1395 974632 2016496 3047955 3981691 4952539 5936699 6906010 7597197 8338432 9017456 9721520 10379568
139776 1147080 2196464 3223859 4140315 5114843 6114299 7038147 7761517 8434528 9155536 9825776 10467152
316896 1311656 2356944 3389499 4297627 5282907 6282331 7149709 7883341 8527328 9297728 9934672 10523216
491200 1497352 2538864 3539643 4458491 5445243 6461915 7279581 7980589 8640768 9423008 10046016 10594240
644816 1671984 2708147 3701115 4618171 5593627 6617435 7380445 8101005 8786224 9510992 10209488 10670896
810696 1840272 2880307 3843419 4791739 5769595 6734026 7462669 8225856 8905936 9604624 10291552 10746208
112
onsets
na gravao 092CGAFF.
2105 1401951 2779245 4113227 5382338 6609054 8020311 9421085 10858609 12320204 13588058 14867417 16117653
226218 1644500 3004968 4301831 5554790 6807506 8257291 9669138 11095573 12535114 13797559 15033471 16342469
485212 1876103 3190022 4533236 5776675 7011436 8488818 9911692 11343638 12739150 13978421 15237341 16557452
733425 2121370 3432606 4753743 5975030 7265006 8720978 10165221 11619261 12959648 14193403 15446859 16777953
962278 2332869 3650334 4985291 6184530 7518608 8947005 10413338 11884707 13180157 14419414 15676708 17042559
1203355 2569889 3903829 5161830 6394060 7777649 9184049 10621455 12094192 13384002 14662117 15897251 17279594
onsets
na gravao 093CGAFP.
2014 1234546 2261680 3331853 4401644 5502519 6580905 7650755 8667661 9624995 10643732 11642319 12609610
187113 1401802 2440003 3508728 4566410 5685077 6764315 7812908 8873270 9788559 10815397 11804583 12812437
396625 1575608 2606115 3686009 4742018 5849357 6946711 7970319 9036224 9941401 10989113 11945569 12952030
606313 1744418 2792227 3869400 4932291 6032614 7140106 8131421 9188972 10099941 11175122 12119385 13119765
815542 1917536 2972093 4066120 5136981 6216417 7295308 8322954 9347843 10277574 11343118 12286849 13275893
1025035 2095921 3155906 4238221 5331967 6403017 7459212 8497690 9482500 10465072 11499786 12455770 13456001
113
onsets
na gravao 093CGAFM.
1033 1324609 2529445 3657404 4744022 5883383 7028891 8192902 9328094 10442616 11512984 12706017 13899202
210528 1540153 2734716 3845062 4919004 6055429 7206554 8377931 9532059 10608640 11695950 12893465 14117901
442164 1747211 2912968 4044506 5120621 6249401 7395650 8560022 9698613 10780942 11905604 13086371 14310849
662384 1928418 3115114 4226307 5303442 6448620 7635451 8744344 9924685 10933301 12120658 13295876 14467782
888465 2124017 3302778 4414068 5499415 6643609 7833908 8938954 10106311 11109522 12298161 13485723 14682927
1103651 2317299 3487119 4583693 5687816 6835678 8006423 9135064 10271719 11303508 12518635 13684228 14837377
onsets
na gravao 093CGAFF.
1008 1001421 1978318 3231010 4379685 5526006 6684241 8079307 9474073 10937983 12183818 13399491 14619908
155613 1170205 2138902 3419617 4559491 5704507 6899622 8305417 9755133 11158402 12361101 13597902 14839566
291213 1340064 2332641 3651131 4753647 5897413 7120141 8536889 9981136 11378970 12570644 13771021 15054557
478502 1527501 2564044 3840203 4946623 6094662 7379229 8773911 10254397 11571928 12769163 13980504 15226294
649505 1688905 2795520 4049702 5150603 6296808 7583204 9021959 10530011 11781482 12960902 14189952 15452309
831501 1830057 3010521 4225410 5327504 6494606 7825766 9248070 10723004 11985304 13214527 14399307 15661718
114
A.2 Pianos
onsets
na gravao 011PFNOF.
2849 1475864 2922008 4344600 5747480 7128344 8500760 9884952 11272059 12593019 13918587 15306619 16675707
213784 1681176 3125016 4544792 5942040 7324184 8701208 10085656 11462267 12782971 14112379 15503739 16865403
428312 1889304 3325464 4742680 6139928 7522072 8901400 10284568 11654267 12967291 14313083 15697283 17055867
643096 2094104 3533080 4945176 6335768 7717912 9100568 10481176 11844219 13155963 14507643 15894907 17247355
852248 2298904 3739928 5148184 6533144 7910936 9292824 10675992 12033915 13344960 14711421 16092283
1061144 2503704 3940376 5346072 6732824 8106520 9488920 10876696 12216443 13532283 14913403 16286075
1272344 2712088 4143128 5544984 6928664 8304664 9684504 11067672 12406139 13721723 15107195 16480635
onsets
na gravao 011PFNOM.
4535 1489919 2950980 4372069 5782117 7201891 8608436 9971813 11293797 12591783 13966076 15483083 16867322
202240 1703603 3161091 4573285 5986621 7404171 8807343 10165349 11489893 12762213 14203083 15662546 17064707
412017 1913445 3360186 4780320 6189472 7608081 9005793 10367362 11688920 12951969 4449785 15857456 17257472
630920 2123751 3564299 4980922 6389557 7809741 9200741 10563911 11882704 13141048 14638580 16063155 17451609
846079 2326629 3767147 5182373 6591143 8010354 9406933 10723468 12050021 13333070 14866136 16265168
1064021 2535297 3969781 5382146 6794301 8211112 9600101 10903141 12204943 13521611 15106240 16474611
1278921 2745099 4173268 5580901 6995141 8405605 9796197 11102274 12399169 13742933 15323714 16672017
115
onsets
na gravao 011PFNOP.
3267 1189329 2434339 3715972 5003807 6406285 7806160 9204892 10541548 11900800 13130127 14543363 15778163
156528 1378213 2601425 3900623 5229923 6593543 8008933 9405671 10754344 12070260 13391408 14719763 15955720
319758 1542434 2801171 4087342 5420513 6788288 8202378 9570560 10962967 12241659 13602367 14896163 16130963
485099 1732473 2981661 4255728 5634617 6988810 8401830 9768431 11171129 12428052 13837763 15072563 16247120
666715 1911662 3169466 4421378 5833403 7200279 8610022 9959234 11375014 12598200 14014163 15248963
844759 2083072 3354513 4598935 6037764 7418777 8807146 10144642 11566713 12756504 14190563 15426752
1017808 2260882 3550451 4793654 6228292 7606374 9006932 10335269 11732689 12930054 14366963 15585662
onsets
na gravao 011PFSTF.
12784 783352 1514876 2158783 2765931 3355925 3932677 4532655 5107104 5690396 6284820 6977662 7549750
132861 888647 1612698 2248834 2850073 3439013 4011195 4609793 5197260 5768405 6391585 7062904 7617980
237071 993523 1711095 2337432 2937288 3516684 4091163 4690915 5274247 5842673 6503848 7146771 7691268
346140 1096710 1799153 2429340 3022651 3597476 4180177 4783657 5360650 5920424 6600467 7222795 7767606
457310 1204822 1892241 2518939 3105601 3680969 4271285 4867687 5445011 5999847 6697288 7302759
563644 1306137 1978348 2605033 3192880 3769241 4361493 4946230 5522941 6075078 6799078 7388790
672499 1415251 2070992 2687000 3273103 3852203 4449294 5025144 5607976 6163585 6891786 7471334
116
onsets
na gravao 011PFSTM.
17844 914133 1767122 2623994 3472511 4307415 5150024 6039857 6971278 7910734 8953428 10211169 11309761
147292 1036194 1889589 2736274 3601322 4417915 5272614 6166960 7105381 8052046 9133782 10365799 11458519
281000 1159318 2010807 2857087 3725913 4528729 5403644 6292377 7237656 8188766 9328598 10515898 11605354
417238 1288424 2136804 2978780 3845317 4641325 5528497 6428189 7375916 8322907 9521809 10684383 11762496
554920 1406992 2257446 3097499 3965231 4771286 5661044 6560468 7509539 8458554 9714535 10834367
687996 1545251 2371759 3219484 4083310 4893178 5785490 6695705 7647400 8595261 9885349 10994089
794858 1658731 2499630 3345985 4190441 5024072 5911245 6834213 7780154 8746847 10049647 11158391
onsets
na gravao 011PFSTP.
15352 1139004 2299846 3377610 4503808 5590648 6751207 7911771 9040660 10300116 11535417 13107450 14260681
153082 1282836 2469520 3536022 4664086 5750649 6908338 8068157 9196862 10457636 11826587 13276805 14440266
304614 1440435 2615297 3691864 4817298 5911418 7062887 8229836 9387788 10625091 12051320 13434060 14615756
479356 1604252 2768648 3845828 4948375 6074798 7215174 8427658 9612254 10774396 12269710 13623644 14797134
654186 1779316 2920038 4015528 5113056 6256914 7383213 8582052 9815236 10929381 12519551 13775119
818739 1954011 3071889 4191264 5271168 6439354 7573180 8732479 9976293 11083597 12764732 13933865
988416 2121694 3217500 4346238 5429409 6593461 7755447 8883747 10134712 11272969 12929538 14089762
117
onsets
na gravao 012PFNOF.
11330 1013479 1933010 2867072 3803107 4755200 5747712 6613760 7460736 8184064 8783021 9418354 9906048
150245 1148544 2063616 2999640 3929600 4903839 5881856 6734848 7541568 8263936 8881554 9497088 9972608
297187 1278916 2193152 3137232 4056971 5055508 6016754 6869952 7624192 8344280 8970848 9566080 10034432
449332 1401984 2333314 3264240 4194596 5187328 6142439 7004736 7736320 8424192 9068928 9634560 10104576
603126 1535616 2469149 3399186 4335406 5320320 6264155 7131328 7840256 8506384 9161440 9704576
736749 1667342 2594712 3529610 4475520 5461938 6378112 7242048 7971072 8601792 9250016 9775488
879232 1798184 2727012 3667751 4613201 5597885 6505728 7367936 8087040 8693504 9341303 9843072
onsets
na gravao 012PFNOM.
4288 1192834 2366464 3533763 4631552 5677568 6605539 7304232 8045696 8685952 9186752 9691244 10279639
164816 1355712 2530560 3697408 4784768 5816064 6720028 7403392 8126848 8756672 9250240 9770243 10404416
337248 1533239 2689284 3844630 4936064 5930916 6828937 7545984 8203904 8828928 9316160 9842702 10511867
504373 1704480 2849802 3998784 5105417 6080768 6919840 7668352 8302720 8900672 9382025 9914135 10598012
673792 1876288 3028224 4155474 5246342 6249984 7030013 7764569 8397824 8969152 9442432 9991624
847275 2047963 3194624 4312087 5388160 6375424 7126229 7864576 8511872 9040960 9536447 10066960
1016192 2211264 3369984 4473856 5535380 6479872 7216352 7958784 8608640 9115840 9616540 10178181
118
onsets
na gravao 012PFNOP.
9920 1343348 2587290 3853918 5022304 6247334 7334732 8200192 9169975 9997825 10754916 11508776 12377696
202448 1524135 2766560 4005374 5211146 6429723 7474123 8319962 9349056 10111972 10860333 11628472 12500704
400015 1700368 2948539 4168826 5382720 6566208 7604244 8444080 9452904 10221708 10966352 11738202 12636816
596126 1875239 3131751 4329054 5551625 6749696 7719040 8592512 9562952 10318086 11087208 11865492 12751704
779191 2053600 3329176 4503138 5729259 6924960 7831436 8708800 9679694 10421632 11188272 12003822
967360 2241408 3512551 4667744 5906225 7077566 7964032 8871152 9789572 10535704 11287527 12138689
1153600 2418208 3687187 4829906 6074624 7199786 8091083 8994963 9900128 10655136 11386728 12249856
onsets
na gravao 012PFSTF.
18236 932960 1762053 2550324 3290656 4065840 4801616 5523024 6252544 6995872 7722976 8553872 9373184
165128 1055680 1873592 2666772 3396784 4169728 4901568 5626800 6355731 7117408 7860992 8669984 9463598
293588 1178464 1984256 2778052 3508576 4276080 5021840 5733520 6463824 7218528 7966064 8803771 9567109
447518 1302784 2102071 2879840 3612135 4378736 5119408 5855504 6560616 7317280 8088768 8918929 9675253
569728 1423616 2217212 2982080 3732416 4485488 5223072 5951168 6674464 7427286 8202954 9029048
687888 1544096 2327245 3086944 3843632 4587694 5318112 6056144 6778240 7515444 8319744 9137220
812752 1648032 2430800 3193632 3953904 4690256 5420240 6156192 6889984 7625312 8442864 9263442
119
onsets
na gravao 012PFSTM.
12032 908580 1783648 2662603 3483337 4327412 5176349 5946582 6694672 7474592 8328288 9169832 9966008
153792 1039731 1903136 2778126 3587922 4461274 5293096 6043920 6806896 7609255 8455810 9300840 10062424
282880 1163487 2030880 2905561 3722671 4577664 5390070 6156608 6907952 7754828 8572888 9408688 10171848
424576 1296864 2162400 3003649 3822456 4676544 5501597 6252160 7032736 7860908 8697080 9525120 10285088
547136 1414656 2294048 3141320 3937814 4799424 5617920 6371488 7142368 7972268 8800472 9633320
682496 1533280 2438353 3262577 4082029 4917275 5727111 6475584 7262336 8102336 8919504 9747120
800768 1671872 2542848 3372107 4193842 5046130 5829008 6577136 7372602 8212072 9034080 9846392
onsets
na gravao 012PFSTP.
9376 988160 1895840 2765772 3604848 4458976 5325953 6178318 7053328 7911904 8759156 9704880 10829720
164640 1124028 2037696 2896039 3721332 4596608 5449536 6307200 7165456 8031856 8897936 9840712 10981325
314144 1252576 2168682 3019875 3841297 4715936 5559817 6448495 7287680 8148104 9050572 10021826 11135297
456416 1394176 2294748 3143152 3959824 4840467 5673595 6552752 7419236 8267264 9195160 10169808 11282552
596832 1515908 2425799 3252719 4079376 4961664 5797216 6670875 7533856 8390576 9333968 10336720
736896 1638304 2543815 3373568 4223070 5078265 5916544 6799269 7658176 8521107 9464568 10503112
866464 1761856 2648399 3491541 4350144 5200916 6049440 6924519 7782192 8646221 9595864 10656192
120
onsets
na gravao 013PFNOF.
23526 1376836 2773567 4191486 5597824 6929118 8392437 9658522 10912374 12057888 12994790 13806376 14565841
213812 1582549 2972627 4394496 5790752 7156352 8579185 9845408 11102832 12232480 13119864 13909712 14673616
397204 1778079 3186291 4602840 5981240 7365338 8761940 10020160 11251551 12386512 13234944 14048271 14767348
594869 1967712 3407200 4810432 6165729 7587672 8939218 10192272 11433609 12517296 13359640 14171464 14864080
791418 2159708 3624960 5012928 6352656 7785280 9112160 10380470 11593088 12634144 13478896 14288693
977345 2366773 3816288 5213024 6544838 8001408 9296217 10552837 11768735 12764677 13597944 14380240
1181496 2572815 3998746 5397024 6719290 8195744 9463104 10726400 11924464 12874980 13706440 14474210
onsets
na gravao 013PFNOM.
21027 1350656 2776672 4220483 5557568 6920672 8266752 9559269 10836093 12123277 13311808 14822487 16243587
196415 1568928 2983296 4424416 5751326 7114720 8458976 9743213 11020288 12294880 13526285 15044850 16437117
378560 1780864 3180672 4629280 5935168 7296896 8648288 9931373 11199363 12462528 13732432 15228991 16621075
570918 1977568 3386688 4832400 6113888 7490528 8838208 10104992 11386251 12638592 13960846 15432087 16829381
780544 2180608 3599616 5020702 6313184 7687392 9001984 10284000 11568032 12804688 14194784 15641485
976672 2381312 3797984 5193701 6526115 7887424 9195648 10469344 11757696 12981904 14389403 15857600
1162720 2577312 4006656 5373632 6723232 8074368 9385184 10656122 11937376 13143356 14610710 16057612
121
onsets
na gravao 013PFNOP.
24178 1539116 3195165 4731729 6271822 7766976 9294114 10707968 12196928 13575468 15065376 16581720 18016128
218348 1783306 3416911 4945913 6486290 7976838 9495056 10911328 12413120 13794538 15258272 16789856 18203648
443729 2017790 3649149 5154110 6711232 8184146 9719372 11119808 12614336 14036416 15487801 16999061 18409529
667980 2247601 3850050 5372294 6932416 8395040 9924966 11325433 12820256 14252064 15688576 17219957 18570063
884408 2467786 4077733 5584108 7149610 8620178 10132879 11542336 13031968 14438816 15919488 17439808
1099457 2741324 4299522 5815633 7351743 8843029 10360435 11732096 13233536 14637344 16129726 17637836
1314859 2971354 4525545 6041074 7560059 9072279 10510656 11994656 13431360 14841963 16355721 17833899
onsets
na gravao 013PFSTF.
23780 1015982 2054214 3088918 4127791 5110096 6114649 7160904 8165826 9117159 10108209 11159251 12242899
158682 1158117 2188168 3227907 4265396 5265396 6276362 7311387 8306210 9270822 10250861 11322199 12412059
297480 1312752 2342360 3373392 4402642 5416013 6437122 7451894 8438226 9394732 10397582 11492510 12559282
446059 1463062 2486306 3519850 4526471 5552317 6567114 7598961 8567169 9537336 10538211 11647936 12712427
590588 1603921 2641230 3687727 4656661 5708314 6714183 7735222 8684983 9676845 10691433 11807199
727829 1746110 2781527 3825423 4805037 5828425 6860402 7892215 8817532 9829368 10862465 11950027
874890 1889985 2930678 3971928 4958022 5961010 7006436 8030637 8963307 9963043 11000856 12099791
122
onsets
na gravao 013PFSTM.
25838 848924 1701740 2573374 3405503 4237540 5071281 5875994 6666161 7510793 8330235 9347916 10306913
137276 972928 1834912 2684618 3512042 4366797 5190441 5989468 6793452 7638721 8457523 9484921 10456356
253408 1087686 1955452 2806032 3639300 4500555 5306785 6107085 6911374 7745156 8581385 9622185 10588914
381380 1214848 2072234 2931508 3759356 4627672 5418842 6215040 7032974 7856606 8729722 9764358 10746216
508771 1325974 2202465 3045867 3879802 4739136 5537326 6329636 7147783 7973053 8877076 9893179
630808 1446207 2335256 3160420 4002046 4854178 5649848 6440141 7266594 8099737 9025841 10033656
739432 1577740 2457514 3288386 4120307 4963746 5758520 6554214 7380250 8221050 9196440 10177933
onsets
na gravao 013PFSTP.
25632 906932 1832330 2686877 3555820 4409388 5311786 6199579 7153957 8147468 9200764 10275205 11318024
152641 1035890 1955072 2796728 3680203 4559816 5450760 6328050 7289587 8311466 9352740 10433288 11472633
281580 1170692 2080010 2926106 3793690 4677876 5582216 6446272 7423998 8468986 9502803 10571686 11614351
410748 1288402 2198268 3062912 3918346 4784208 5701644 6567279 7550972 8624477 9650706 10720657 11765708
534526 1417250 2321609 3193596 4053200 4890068 5820322 6697456 7686714 8771851 9802067 10869809
666784 1545511 2444422 3319860 4179916 5037004 5945064 6866390 7828360 8924392 9954055 11024785
784014 1689218 2564116 3439503 4294544 5178788 6068102 7011822 7991228 9070246 10130704 11177489
123

Identificação de Notas Musicais

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Identificação de Notas Musicais

Enviado por

Direitos autorais:

Formatos disponíveis

IDENTIFICAO DE NOTAS MUSICAIS EM REGISTROS SOLO DE VIOLO E PIANO

Alexandre Leizor Szczupak

REQUISITOS NECESSRIOS PARA A OBTENO DO GRAU DE MESTRE EM CINCIAS EM ENGENHARIA ELTRICA.

Prof. Luiz Wagner Pereira Biscainho, D.Sc.

Prof. Luiz Pereira Calba, Dr.Ing.

Prof. Srgio Lima Netto, Ph.D.

Prof. Marcio Nogueira de Souza, D.Sc.

RIO DE JANEIRO, RJ - BRASIL JUNHO DE 2008

IDENTIFICAO DE NOTAS MUSICAIS EM REGISTROS SOLO DE VIOLO E PIANO

Alexandre Leizor Szczupak

Orientadores: Luiz Wagner Pereira Biscainho Luiz Pereira Calba

Programa: Engenharia Eltrica

de mltiplas camadas, treinadas com representa-

es espectrais obtidas atravs de uma transformada de

constante. Alm destes,

MUSICAL NOTES IDENTIFICATION IN SOLO RECORDINGS OF ACOUSTIC GUITAR AND PIANO

Alexandre Leizor Szczupak

Advisors: Luiz Wagner Pereira Biscainho Luiz Pereira Calba

Department: Electrical Engineering

Inarmonicidade em Pianos e Violes . . . . . . . . . . . . . . . . . . . No-Linearidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.10 Proposta da Dissertao

Algoritmo Rpido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transposio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Anlise Tempo-Freqncia . . . . . . . . . . . . . . . . . . . . . . . . Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Redes Neurais Feed-Forward de Mltiplas Camadas

A Organizao em Camadas . . . . . . . . . . . . . . . . . . . . . . . Algoritmo

Treinamentos Seqencial e por Batelada Algoritmo Rprop

4 Metodologia para Identicao de Notas de Violo

Criao das Combinaes de Notas Musicais . . . . . . . . . . . . . . Treinamento das Redes Neurais . . . . . . . . . . . . . . . . . . . . .

5 Implementao e Testes - Violo

Mtodos do Segundo Grupo 5.2.2.1 5.2.2.2 5.2.2.3 5.2.2.4

Mtodos para Identicao de Notas de Violo - Objetivo 2 . . . . . . 5.3.1 Mtodo 1A - Objetivo 2 . . . . . . . . . . . . . . . . . . . . .

5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 5.4

Mtodo 2C - 1 etapa - Objetivo 3 . . . . . . . . . . . . . . . . Mtodo 2C - 2 etapa - Objetivo 3 . . . . . . . . . . . . . . . . Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Mtodo 2C - 1 etapa - Objetivo 4 . . . . . . . . . . . . . . . . Mtodo 2C - 2 etapa - Objetivo 4 . . . . . . . . . . . . . . . . Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 Metodologia para Identicao de Notas de Piano

Criao das Combinaes de Notas Musicais . . . . . . . . . . . . . . Treinamento das Redes Neurais . . . . . . . . . . . . . . . . . . . . .

7 Implementao e Testes - Piano

Mtodo 2A para Piano - 1 etapa Mtodo 2A para Piano - 2 etapa

Referncias Bibliogrcas A Marcaes de

Violes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Pianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

onsets ), suas duraes e os intervalos (diferenas de altura) entre notas

pitch usualmente se refere freqncia da onda senoidal que melhor pitches

associada, perceptivamente, a um dado som. Na anlise de sinais de msica,

[1], instrumentos com sons

que provocam sensao evidente de chamados de  no tm

(como os cordofones e os aerofones)

determinado. Instrumentos que

denido (como a maioria dos idiofones e dos membranofones)

unpitched , sem anao

evidente, e por isto so clasPorm, outros que recebem

esta mesma classicao podem provocar sensaes evidentes de

Sua anao em geral feita buscando apenas estabelecer razes de

som e os de outros membranofones tocados em conjunto com ele, que tambm tm

determinado, as razes entre

de diferentes notas seguem regras de acordo com o projeto do instrumento escolhida.

e de acordo com o temperamento da escala de

Apesar de alguns autores utilizarem os termos

pitch e freqncia fundamental

para uma nota de referncia e do uso de uma regra de temperamento.

semitons mais alta ou mais baixa que a nota de referncia,

pitch da nota de referncia por qn . pitches

escala logartmica. Uma referncia comumente utilizada a nota L 4 , com

Hz. de notas geradas com instrumentos musicais reais normalmente

4 Metodologia para Identicao de Notas de Violo

Mtodos para Identicao de Notas de Violo - Objetivo 2 . . . . . . 5.3.1 Mtodo 1A - Objetivo 2 . . . . . . . . . . . . . . . . . . . . .

6 Metodologia para Identicao de Notas de Piano

Referncias Bibliogrcas A Marcaes de

que provocam sensao evidente de chamados de no tm

determinado. Instrumentos que

denido (como a maioria dos idiofones e dos membranofones)

unpitched , sem anao

esta mesma classicao podem provocar sensaes evidentes de

Sua anao em geral feita buscando apenas estabelecer razes de

nota nos pianos de 88 teclas e ca na oitava 4.

freqncia de ressonncia do violo livre pode ter um desvio signicativo em

gura, no possvel distinguir a fundamental da srie de Sol 3 (f 0 da parcial da

na identicao de notas em si-

[22] apresentaram um estudo sobre a identicao notas

denido, incluindo misturas de instrumentos diferentes,