Você está na página 1de 197

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014

Anais do 12 Congresso de Engenharia


de udio da AES-Brasil

Proceedings of the 12th AES Brazil Conference

13-15 Maio/May, 2014

Pavilho Amarelo do Expo Center Norte So Paulo SP Brasil


Copyright 2014

C76a Congresso de Engenharia de udio, 12., So Paulo, 2014.


Anais do 12 Congresso de Engenharia de udio AES Brasil e
18 Conveno Nacional AES Brasil / editado por R.R.A.Faria
Rio de Janeiro: Sociedade de Engenharia de udio, 2014.

Disponvel em: www.aesbrasil.org/congressos

1. Engenharia de udio Congressos. 2. Processamento de sinais


Congressos. 3. Computao musical Congressos. 4. Acstica
Congressos. I. Faria, Regis Rossi A. II. Conveno Nacional AES Brasil,
17., So Paulo, 2014. III. Sociedade de Engenharia de udio. IV. Ttulo.

ISSN 2177-529X

ndices para Catlogo Sistemtico


1. Engenharia de udio Congressos 621.3893
2. Processamento de sinais Congressos 621.38043
3. Computao musical Congressos 789.9
4. Acstica Congressos 620.21
Os artigos publicados nestes anais foram editorados a partir dos originais finais entregues pelos
autores, sem edies, correes ou consideraes feitas pelo comit tcnico. A AES Brasil no se
responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, (www.aes.org). Informaes
sobre a seo Brasileira podem ser obtidas em (www.aesbrasil.org). Todos os direitos so reservados.
No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

Organizador / Editor Responsvel: Regis Rossi A. Faria

Editorao e arte / Publishing and art

II
Rafael Mendes Phillip
SantosBurt Universidade
Universidade Estadual de So Paulo
de Campinas Usp
Unicamp
Rafael Mendes Santos Universidade Estadual de Campinas Unicamp
Regis Rossi Faria Universidade de So Paulo Usp
Regis Rossi Faria Universidade de So Paulo Usp
Ricardo Goldemberg Universidade Estadual de Campinas Unicamp
Ricardo Goldemberg Universidade Estadual de Campinas Unicamp
Patrocnio
Sidnei Noceti Filho Universidade Federal de Santa Catarina UFSC
Sidnei Noceti Filho Universidade Federal de Santa Catarina UFSC
Thiago Prego Centro Fed.de Educao Tecnolgica Celso Suckow da Fonseca
Thiago Prego Centro Fed.de Educao Tecnolgica Celso Suckow da Fonseca
Victor Lazzarini National University of Ireland (Irlanda)
Victor Lazzarini National University of Ireland (Irlanda)

Apoio

Realizao

Pgina 7 de 8
Pgina 7 de 8

Sociedade de Engenharia de udio


AES Audio Engineering Society Brazil Section
Rua Carlos Machado 164, sala 305, Plo Rio de Cine e Vdeo Barra da Tijuca
Rio de Janeiro, Brasil Cep. 22775-042 | e-mail: aesbrasil@aes.org | www.aesbrasil.org
telefone: +55(21) 2421-0112 | fax: +55(21)2421-0112

Administrao

Presidente / Chairman: Armando Vicente Baldassarra


Vice- Presidente / Vice- Chairman: Jos Pereira Anselmo Jnior
Secretrio / Secretary: Jos Carlos Giner
Tesoureiro / Treasurer: Joel Vieira de Brito
Coordenador Acadmico / Academic Coordinator: Jlio Lucchi
Conselheiros / Counselors: Aldo Soares
Jos Augusto Mannis
Marcelo Claret
Julio Lucchi
Joo Americo Bezerra
Audio Engineering Society, Inc.
International headquarters
60 East 42nd St., Room 2520, New York, NY, 10165-2520, USA
e-mail: hq@aes.org | www.aes.org telephone: +1(212)661-8528 | fax: +1(212)661-7829
III
Comit de Organizao / Organizing Committee
Coordenadores do Programa Tcnico / Program Committee Chairs
Jos Augusto Mannis (IA-UNICAMP)
Sidnei Noceti Filho (LINSE-EEL-CTC-UFSC)

Coordenadores de Artigos / Papers Chairs


Luiz Wagner Biscainho (COPPE/UFRJ)
Diego Barreto Haddad (CEFFET/RJ)

Coordenadores Editoriais / Editorial Chairs


Regis Rossi A. Faria (USP)
Paulo R. A. Marins (UnB)

Coordenador de infra-estrutura / Infrastructure Chair


Jlio C. Lucchi (USJT-IMT-FEI-ITA)

Coordenador de Comunicao / Communication Chair


Mrcio Brando (UnB)

Coordenador da Conveno / Convention Chair


Jos Carlos Giner (AES-Brasil)

IV
Comit de Programa Tcnico (revisores)
Technical Program Committee (reviewers)

Alexandre Leizor Szczupak - Universidade Federal do Rio de Janeiro UFRJ


Amaro Lima - Centro Federal de Educao Tecnolgica do Rio de Janeiro
Andr Dalcastagn - Instituto Federal de Santa Catarina IF-SC
Carlos Arajo - Universidade Federal da Paraba UFPB
Carlos Ynoguti - Instituto Nacional de Telecomunicaes Inatel
Celso Kurashima - Universidade Federal do ABC UFABC
Dante Coaquira Begazo - Universidade de So Paulo
Diego Haddad - Centro Federal de Educao Tecnolgica do Rio de Janeiro CEFET-RJ
Eric Brando - Universidade Federal de Santa Maria UFSM
Fernando Pacheco - Instituto Federal de Santa Catarina
Flvio vila - Universidade Federal do Rio de Janeiro
Ivandro Sanches - Depto de Engenharia Eltrica do Centro Universitrio da FEI
Jos A. Mannis - Universidade Estadual de Campinas Unicamp
Juan Pablo Pinto Santana - Universidade de So Paulo
Julio Lucchi - Universidade Sao Judas Tadeu USJT
Leonardo Nunes - Universidade Federal do Rio de Janeiro UFRJ
Lisandro Lovisolo - Universidade do Estado do Rio de Janeiro
Lucas Maia - Universidade Federal do Rio de Janeiro
Luiz Biscainho - Universidade Federal do Rio de Janeiro UFRJ
Marcelo Pimenta - Universidade Federal do Rio Grande do Sul UFRGS
Marcelo Queiroz - Universidade de So Paulo USP
Marcio Brandao - Universidade de Braslia UnB
Marcus Alessi Bittencourt - Universidade Estadual de Maring Uem
Maria Luisa da Silva - Universidade Federal do Par UFPA
Markus Lima - Universidade Federal do Rio de Janeiro
Maurcio Costa - COPPE / Universidade Federal do Rio de Janeiro
Michel Tcheou - Universidade Federal do Rio de Janeiro
Miguel Ramrez - Universidade de So Paulo USP
Mikhail Malt - IRCAM & IReMus UMR8223 Paris Sorbonne
Paulo Marins - Universidade de Braslia UnB
Phillip Burt - Universidade de So Paulo USP
Rafael Iriya - Universidade de So Paulo
Rafael Mendes Santos - Universidade Estadual de Campinas Unicamp
Regis Rossi Faria - Universidade de So Paulo
Ricardo Goldemberg - Universidade Estadual de Campinas Unicamp
Sidnei Noceti Filho - Universidade Federal de Santa Catarina UFSC
Tadeu Ferreira - Universidade Federal Fluminense
Thiago Prego - Centro Federal de Educao Tecnolgica Celso Suckow da Fonseca
Victor Lazzarini - National University of Ireland (Irlanda)
Wallace Martins - Universidade Federal do Rio de Janeiro

V
editorial

Nesta 12a edio do Congresso de Engenharia de udio publicamos 20 trabalhos inditos


aceitos - entre full-papers e short-papers - de 40 trabalhos submetidos ao evento (ndice de
aprovao de 50%). Entre os tpicos mais abordados nos artigos deste ano citamos o processa-
mento de udio (30% dos artigos), psicoacstica e percepo auditiva (23%), e anlise e sntese
de msica e fala (20%), seguidos por computao musical e acstica de salas (16%), e sistemas
de udio multicanal e espacial (10%). Em ano de copa no Brasil, a seleo de destaques aponta
para assuntos de interesse no atual cenrio e to diversos quanto: ferramentas para realidade
aumentada e aplicaes para dispositivos mveis, criao musical colaborativa e pedagogia
do ensino de udio e msica, instrumentao musical, percepo sonora e fenomenologia da
audio, sintetizadores e polifonia, descritores sonoros e classificadores de gneros musicais,
udio espacial e acstica de ambientes.

Alm dos artigos cientficos tradicionais, este volume traz ainda 4 artigos tcnicos do mais alto
nvel preparados por palestrantes convidados desta edio do congresso. Especialistas em
suas respectivas reas de trabalho, eles abordam em suas palestras, de uma maneira didtica e
revestida de ineditismo, tpicos fundamentais engenharia de sistemas de udio e msica,
como por exemplo as tecnologias de sintetizadores, a realidade aumentada, a fisiologia audi-
tiva e psicoacstica, a caracterizao de transdutores, e questes relevantes em projetos de
sistemas de sonorizao.

Alm das palestras, destacamos na programao geral do evento a realizao de reunies


das comunidades de acstica e de engenharia de udio, integradas em prol da construo de
slidas competncias tcnicas e cientficas, e finalmente inclumos - na forma de uma oficina
colaborativa integrando vrias vozes - uma discusso importante acerca de propostas curricu-
lares para cursos de udio no Brasil, pas em que cada vez mais se percebe a importncia do
ensino formal e a falta que fazem polticas educacionais efetivas e de longo prazo que possam
mitigar as mazelas culturais que nos detm.

Alegramo-nos em poder, desta forma, oferecer aos participantes e comunidade de udio em


geral textos to informativos e com potencial real para contribuir efetivamente na divulgao
do conhecimento cientfico e tcnico para estudantes, profissionais e cientistas, quer atuem
na pesquisa, no ensino, na prtica profissional ou no desenvolvimento inovador destas reas
no Brasil.

Por fim, gostaramos de destacar que esta edio alcanou o maior nmero de participantes
inscritos previamente, tornando-se, desde j, a maior edio do congresso desde a sua criao,
o que denota o interesse crescente por envolver-se com as novidades por aqui propaladas.

Regis Rossi Alves Faria e Paulo Marins


Coordenadores Editoriais

VI
Programao
Tera-feira / Tuesday, Maio / May 13, 2014

Sesso de Artigos 1 / Paper Session 1


Chair: Diego Haddad

Multiple stage neural classifier for an automatic music genre


classification system
Elmo Borges Jr, UFBA, Brazil
Lucas Ribeiro, Eduardo Furtado de Simas Filho, Universidade Federal da Bahia, Brazil
Antonio Fernandes Junior, State University of Campinas, Brazil.

Extrao de tempo musical utilizando transformada Wavelet e


rede neural artificial
Antonio Fernandes Junior, State University of Campinas, Brazil
Furio Damiani, Unicamp, Brazil.

Determinao da diferena no limiar do observvel:


comparao dos resultados de ensaios subjetivos com fala e msica
Priscila Wunderlich, Universidade Federal de Santa Maria, Brazil
Jessica Souza, Federal University of Santa Maria, Brazil
9:00AM - 11:00AM
Bernardo Henrique Murta, Universidade Federal de Santa Maria, Brazil
Sala 1 / Room 1
Stephan Paul, University of Santa Catarina, Brazil
Eric Brando, Universidade Federal de Santa Maria - UFSM, Brazil.

Aquisio e tratamento de dados 3D para modelao acstica de salas


Jorge Pereira, Universidade de Aveiro, DETI, Portugal
Nuno Silva, Universidade de Aveiro, IEETA, Portugal
Paulo Dias, Guilherme Campos, Jos Vieira, Universidade de Aveiro, Portugal.

Sistema de realidade aumentada udio 3D para dispositivos iOS


Srgio Lopes, Jos Vieira, Guilherme Campos, Paulo Dias, Universidade de Aveiro, Portugal.

The perception of unpleasant sounds


Max Magalhes, Federal University of Minas Gerais, Brazil.

Auralizao em tempo real para ambientes virtuais dinmicos


Nuno Silva, Andr Oliveira, Paulo Dias, Guilherme Campos, Jos Vieira,
Universidade de Aveiro, Portugal
Jorge Santos, Universidade do Minho, Portugal.

Palestra / Lecture
Chair: Sidnei Noceti Filho

1:30PM - 3:00PM Sintetizadores: tecnologias e tendncias


Auditrio D
Ratton Miguel, Informus Music Center, Brazil
Lecture Room D
Miguel Labolida, Labolida Sintetizadores Ltda, Brazil
Vinicius Brazil, VBrazil Systems, Brazil
Paulo Santos, EMW, Brazil.

VII
Programao
Quarta-feira / Wednesday, Maio / May 14, 2014

Sesso de Artigos 2 / Paper Session 2


Chair: Paulo Marins

Subband proportionate adaptive algorithm with variable learning factor


Diego Haddad, CEFET-RJ, Brazil
Mariane Petraglia, Universidade Federal do Rio de Janeiro, Brazil.

On the extraction of parameters from expressive musical performances


Lucas Maia, Luiz Biscainho, Universidade Federal do Rio de Janeiro, Brazil.

Reconhecimento de sons no estruturados do ambiente


utilizando dispositivos mveis
Leonardo Fanzeres, Luiz Biscainho, Universidade Federal do Rio de Janeiro, Brazil
Adriana Vivacqua, DCC-IM/UFRJ, Brazil.

Extrao de descritores sonoros timbrsticos


9:00AM - 11:30AM a partir da transformada Wavelet Packet
Sala 1 / Room 1 Thiago Roque, Universidade Estadual de Campinas, Brazil
Rafael Mendes, Universidade Estadual de Campinas - Unicamp, Brazil.

A bayesian procedure for restoration of audio signals


degraded by low-frequency pulses
Hugo Carvalho, Universidade Federal do Rio de Janeiro, Brazil
Flvio vila, Universidade Estadual do Rio de Janeiro, Brazil
Luiz Biscainho, Universidade Federal do Rio de Janeiro, Brazil.

The effect of speech rate on automatic speaker verification:


a comparative analysis of GMM-UBM and I-vector based methods
Anderson Avila, Universidade Federal do ABC (UFABC), Brazil
Milton Sarria-Paja, Institut National de la Recherche Scientifique (INRS-EMT),
University of Quebec, Canada
Francisco Fraga, Universidade Federal do ABC (UFABC), Brazil
Tiago Falk, Institut National de la Recherche Scientifique, Canada

Palestra / Lecture
10:00AM - 11:30PM Chair: Sidnei Noceti Filho
Auditrio B
Lecture Room B Realidade Aumentada udio
Jos Vieira, Guilherme Campos, Universidade de Aveiro, Portugal.

Palestra / Lecture
1:30PM - 3:00PM Chair: Regis Rossi Faria
Auditrio B
Lecture Room B A fisiologia da audio como base para fenmenos auditivos
Stephan Paul, Universidade de Santa Maria, Brazil.

VIII
Programao
Quarta-feira / Wednesday, Maio / May 14, 2014

Palestra / Lecture
Chair: Joel Brito
3:30PM - 5:00PM
Auditrio B Behavior of the real part of the mechanical impedance of a loudspeaker
Lecture Room within the piston range including the effect of acoustic loading of the
magnetic circuit: a preliminaty study
Jorge Moreno, Rihchard Rivera, Pontificia Universidad Catlica del Per, Peru.

Palestra / Lecture
5:30PM - 7:00PM Chair: Jos A. Mannis
Auditrio B
Lecture Room Fator de potncia, PFC e sua importncia nos sistemas de sonorizao
Marcelo Barros, Enterprise Electronics Ltda/Next Digital/Next Pro, Brazil.

Programao
Quinta-feira / Thursday, Maio / May 15, 2014

Sesso de Artigos 3 / Paper Session 3


Chair: Luiz Biscainho

Programao dinmica em Pure Data aplicada a Wave Field Synthesis


Marcio Silva, Flvio Schiavoni, Universidade de So Paulo, Brazil
Regis Rossi Faria, University of So Paulo, Brazil.

Proposta de compensador PID para Servosubwoofer com acelermetro MEMS


Cludio Delgado,
Instituto Federal de Educao Cincia e Tecnologia de Pernambuco IFPE, Brazil.

Uma camada de ps-processamento para sistemas de transcrio de acordes


Uraquitan Cunha, Geber Ramalho, Universidade Federal de Pernambuco, Brazil
Giordano Cabral, UFRPE, Brazil.

9:00AM - 11:30AM Um mtodo para obter experimentalmente a impedncia


Sala 1 / Room 1 de radiao acstica vista por um alto-falante
Christian Herrera, CEFET-MG, Brazil
Pedro Donoso-Garcia, Universidade Federal de Minas Gerais, Brazil
Eduardo Medeiros, UFMG, Brazil.

Ferramentas on-line para a criao musical colaborativa


Daniel Mio, Universidade de Braslia (UnB), Brazil
Paulo Marins, Universidade de Braslia, Brazil.

Sistema fsico virtual acoplado a efeitos digitais para guitarra


aumentada com Acelermetro
Felipe Paterniani, Tiago Fernandes, Romis Attux, Universidade Estadual de Campinas, Brazil.

Implementao em FPGA de um sintetizador de udio polifnico


de baixa complexidade
Lucas Carvalho, Marcio Brando, Marcus Lamar, Universidade de Braslia, Brazil.
IX
Programao
Quinta-feira / Thursday, Maio / May 15, 2014

9:00AM - 11:00AM Encontro C / Meeting C - Parte 1/ Part 1


ENCONTRO Chair: Jos A. Mannis
MEETING
Auditrio C Reunio do Conselho da SOBRAC Sociedade Brasileira de Acstica
Lecture Room C Dinara Paixo, Universidade Federal de Santa Maria, Brazil.

11:00AM - 1:00PM Encontro C / Meeting C - Parte 2/ Part 2


ENCONTRO Chair: Jos A. Mannis
MEETING
Auditrio C Reunio do Conselho da SOBRAC Sociedade Brasileira de Acstica - Parte II
Lecture Room C Dinara Paixo, Universidade Federal de Santa Maria, Brazil.

Encontro SOBRAC
1:30PM - 3:00PM Chair: Jos A. Mannis
MEETING
Auditrio C 1 Encontro de cursos de Ps-Graduao com nfase em Acstica,
Lecture Room C udio, Vibraes e reas afins
Dinara Paixo, Universidade Federal de Santa Maria, Brazil.

Workshop C
Chair: Jos A. Mannis

Grades curriculares na educao em udio


3:30 PM - 5:00PM
Jos A. Mannis, Universidade Estadual de Campinas - Unicamp, Brazil
MEETING
Auditrio C Mauricio Gargel, Middle Tennessee State University, USA
Lecture Room C Regis Rossi Faria, Fernando Iazzetta, Universidade de So Paulo, USP, Brazil
Marcelo Claret, IAV - Instituto de udio e Video, Brazil
Lus Antnio Galhego Fernandes, FATEC Faculdade de Tecnologia de Tatu, Brazil
Reginaldo Ribeiro, Jos Carlos da Silva, SATED, Sindicato dos Artistas e Tcnicos
em Espetculos de Diverses no Estado de So Paulo, Brazil.

Programao sujeita a alteraes - atualizada at 12/5/2014


Autores e afiliao conforme cadastrados na plataforma JEMS (https://submissoes.sbc.org.br/)

X
Sumrio / Contents

Comit de Organizao / Organizing Committee ................................................................................................................

Comit de Programa Tcnico (revisores) / Technical Program Committee (reviewers) .............................

Editorial ..........................................................................................................................................................................................................

Programao / Schedule .....................................................................................................................................................................

ARTIGOS COMPLETOS / FULL PAPERS

Multiple Stage Neural Classifier for an Automatic Music Genre Classification System
Elmo Borges Jr, Lucas Ribeiro, Eduardo Furtado de Simas Filho, Antonio Fernandes Junior.................................................

Extrao de tempo musical utilizando Transformada Wavelet e Rede Neural Artificial


Antonio Fernandes Junior, Furio Damiani................................................................................................................................................

Subband Proportionate Adaptive Algorithm With Variable Learning Factor


Diego Haddad, Mariane Petraglia ..............................................................................................................................................................

On the extraction of parameters from expressive musical performances


Lucas Maia, Luiz Biscainho ............................................................................................................................................................................

Reconhecimento de sons no estruturados do ambiente utilizando dispositivos mveis


Leonardo Fanzeres, Luiz Biscainho, Adriana Vivacqua..........................................................................................................................

Extrao de Descritores Sonoros Timbrsticos a Partir da Transformada Wavelet Packet


Thiago Roque, Rafael Mendes......................................................................................................................................................................

A bayesian procedure for restoration of audio signals degraded by low-frequency pulses


Hugo Carvalho, Flvio vila, Luiz Biscainho ...........................................................................................................................................

Programao dinmica em Pure Data aplicada a Wave Field Synthesis


Marcio Silva, Flvio Schiavoni, Regis Rossi A. Faria ..............................................................................................................................

Proposta de Compensador PID para Servosubwoofer com Acelermetro MEMS


Cludio Delgado ...............................................................................................................................................................................................

Uma camada de ps-processamento para sistemas de transcrio de acordes


Uraquitan Cunha, Geber Ramalho, Giordano Cabral ..........................................................................................................................

Um Mtodo para Obter Experimentalmente a Impedncia de Radiao Acstica Vista por um


Alto-falante
Christian Herrera, Pedro Donoso-Garcia, Eduardo Medeiros ...........................................................................................................

Ferramentas on-line para a criao musical colaborativa


Daniel Mio, Paulo Marins .............................................................................................................................................................................

XI
Sumrio / Contents
ARTIGOS CURTOS / SHORT PAPERS

Determinao da diferena no limiar do observvel: comparao dos resultados de


ensaios subjetivos com fala e msica
Priscila Wunderlich, Jessica Souza, Bernardo Henrique Murta, Stephan Paul, Eric Brando.................................................

Aquisio e tratamento de dados 3D para modelao acstica de salas


Jorge Pereira, Nuno Silva, Paulo Dias, Guilherme Campos, Jos Vieira ........................................................................................

Sistema de Realidade Aumentada udio 3D para Dispositivos iOS


Srgio Lopes, Jos Vieira, Guilherme Campos, Paulo Dias ................................................................................................................

The Perception of Unpleasant Sounds


Max Magalhes .................................................................................................................................................................................................

Auralizao Em Tempo Real Para Ambientes Virtuais Dinmicos


Nuno Silva, Andr Oliveira, Paulo Dias, Guilherme Campos, Jos Vieira, Jorge Santos ..........................................................

The Effect of Speech Rate on Automatic Speaker Verification: a Comparative Analysis of


GMM-UBM and I-vector Based Methods
Anderson Avila, Milton Sarria-Paja, Francisco Fraga, Tiago Falk ......................................................................................................

Sistema Fsico Virtual Acoplado a Efeitos Digitais para Guitarra Aumentada com
Acelermetro
Felipe Paterniani, Tiago Fernandes, Romis Attux ............................................................................................................

Implementao em FPGA de um sintetizador de udio polifnico de baixa complexidade


Lucas Carvalho, Marcio Brando, Marcus Lamar ..................................................................................................................................

Palestras / Lectures

Sintetizadores: tecnologias e tendncias


Ratton Miguel, Miguel Labolida, Vinicius Brazil, Paulo Santos .........................................................................................................

Realidade Aumentada udio


Jos Vieira, Guilherme Campos ..................................................................................................................................................................

A Fisiologia da Audio como Base para Fenmenos Auditivos


Stephan Paul .....................................................................................................................................................................................................

Behavior of the real part of the mechanical impedance of a loudspeaker within the piston
range including the effect of acoustic loading of the magnetic circuit: a preliminaty study
Jorge Moreno, Rihchard Rivera...................................................................................................................................................................

Fator de potncia, PFC e sua importncia nos sistemas de sonorizao


Marcelo Barros ..................................................................................................................................................................................................

OFICINA / WORKSHOP

Grades curriculares na educao em udio


Jos A. Mannis, Jos Carlos da Silva, Mauricio Gargel, Regis Rossi Faria, Marcelo Claret,
Lus Antnio Galhego Fernandes, Reginaldo Ribeiro...........................................................................................................................

ndice de Autores / Authors Index ...............................................................................................................................................

XII
ARTIGOS
ARTIGOS COMPLETOS
COMPLETOS
FULL
FULL PAPERS
PAPERS
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de udio
18a Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________

MULTIPLE STAGE NEURAL CLASSIFIER FOR AN


AUTOMATIC MUSIC GENRE CLASSIFICATION SYSTEM
Elmo A. T. Borges Junior1, Lucas C. S. Ribeiro1, Eduardo F. Simas Filho1,
Antonio Carlos Lopes Fernandes Jr1,2
1Laboratrio de Sistemas Digitais, Programa de Ps-Graduao em Engenharia Eltrica,

Universidade Federal da Bahia


Salvador, Bahia, 40210-630, Brasil
2Universidade Estadual de Campinas, Departamento de Semicondutores, Instrumentos e Fotnica

Campinas, So Paulo, 13083-852, Brasil


elmo.alberto@hotmail.com.br, sobaum@gmail.com, eduardo.simas@ufba.br, aclfjr@dsif.fee.unicamp.br

ABSTRACT
The availability of audio files on the Internet and in personal collections is growing rapidly. In some cases, these
data sets comprise hundreds or thousands of files, which do not always carry explicitly information about their
content. Considering specifically music files, an important task is to organize the available data set according to
the prevailing musical genre. The purpose of this work is to develop an automatic music genre classification
system able to identify up to 13 different classes. Initially, typical audio signal features are computed (such as
the mel-cepstral coefficients and the beat histogram). A statistical signal processing technique (independent
component analysis) was applied in order to reduce the redundancy in the features set. In order to achieve higher
efficiencies, a multiple stage classifier is proposed in this work.

to transfer music files quickly between users of


0. INTRODUCTION
mobile devices connected to the internet,
Considering the large amount of data that is contributing to spread the content of the personal
available both, on the Internet and in personal audio collections. In this context, the use of an
collections, the search for the desired information is automatic system for efficient manipulation of these
becoming increasingly difficult. In the case of audio large data sets represents a considerable time saving
files, the development of new technologies also leads for the final user.
to an increasing availability of mobile digital audio
When dealing with a musical excerpt, different
playing devices. The growing of social networks has
aspects such as the prevailing genre, the singer and
also contributed significantly to the increased need
the used instruments are relevant for classification
for MIR (Music Information Retrieval) systems for
purposes.
classification of musical genre. Today, it is possible

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 1
BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

For automatic classification of audio signals, the techniques and discussed several open issues for
initial step comprises the extraction of relevant future research.
features (or parameters) from the digital files. In the
The work [11] performs a study on the contribution
following, hypothesis testing (classification) shall be
of psychoacoustic transformations in the calculation
performed in order to assign to each audio signal a
of Rhythm Patterns for efficient content-based music
given class [1]. In this work, the proposed genre
description. Two additional descriptors were
classification system was designed for 13 different
calculed: Rhythm Histogram features and the
classes, including Brazilian genres such as Samba,
Statistical Spectrum Descriptor. Were used three
MPB (Brazilian Popular Music) and Forr.
audio collections in the experiments, for
classification, we used Support Vector Machines
with pairwise classification. A 10-fold cross
1. RELATED WORK validation was performed in each experiment.
Compared to other studies that used the same
Some studies had been conducted in the literature
collections of audio accuracy improvements of 16.4,
aiming at achieving content based audio signal
9.33, and 2.58%. The work [12] uses Short Time
classification. The work [2] quantified the relevance
Fourier Transform information (4 features) and Mel-
of the estimated parameters for musical instrument
Frequency Cepstral Coefficients (5 features)
recognition. In [3], a multi-temporal analysis of
computed using windows of 20 milliseconds and 1
audio signals was proposed, selecting equal segments
second, respectively. An important contribution is
and spaced 10 seconds segments 30 seconds and all
the comparison of the obtained results with different
audio. The parameters estimated from different
genre classification systems on the same dataset. The
fragments of audio are merged to allow the
paper [13] proposed the application of a machine
characterization of the audio file. A simpler audio
learning technique called Optimum-Path Forest
segmentation scheme is proposed in [4], where the
(OPF) for the classification of musical genres. It was
signals are preprocessed considering three segments
demonstrated that OPF presents similar results when
of 30 seconds taken from the beginning, middle and
compared to the commonly used techniques, but it
end of each file. This approach considerably reduces
proved to be much faster for some applications.
the overall processing time. In [5] and [6] different
signal processing algorithms were applied to classify It can be seen that, even if the music genre
audio files contents (considering music, speech or classification problem have been addressed
other sources). previously in several works, it remains a very active
research field. One of the main reasons for this
More specifically, the musical genres classification
comes from the definition of musical genre that is not
problem was addressed in [7], where GMM
exact and may vary from one listener to the other.
(Gaussian Mixture Model) and KNN (k-Nearest
Additionally, few works had explored Brazilian
Neighbor) classifiers were applied for this purpose.
musical genres such as Samba, Forr, and MPB
[8] Proposes a feature extraction method for music
(Brazilian Popular Music).
genre classification based in components of
Daubechies Wavelet. For automatic classification In the present work is proposed an automatic
were used Support Vector Machines and Linear musical genre classification system in which the
Discriminant Analysis. In [9], discusses the audio files were initially segmented in a similar way
importance of music genres with their definitions and to what was proposed in [14] and parameters such as
hierarchies. It also presents techniques to extract the MFCC (Mel-frequency cepstral coefficients), the
meaningful information from audio data to zero crossing rate (ZCR), the spectral centroid and
characterize musical excerpts. The paper also the beat histogram were estimated from the audio
presents the results of new emerging research fields segments. A statistical signal processing algorithm
and techniques that investigate the proximity of (ICA - independent component analysis [15]) was
music genres .In [10], signals were classified applied to reduce redundancy among the estimated
according to the audio type, separating three speech parameters, allowing efficient feature extraction.
classes, 13 musical genres, and the background Finally, signal classification was performed through
noise. Direct and hierarchical approaches for feature a multiple stage neural classifier. Neural Networks
selection and classification were also evaluated and [16] had proved to be efficient for classification in
compared. The work [3] provides a comprehensive different problems such as audio signal processing
review on audio-based classification and [4] and particle identification in high-energy
systematically summarize the state-of-the-art detectors [17].
techniques for music classification. The differences
among the features and the types of classifiers used 2. PROPOSED METHOD
for different classification tasks were addressed. This
As shown in Figure 1, the proposed musical genre
survey emphasized on the recent development of
classification system comprises a signal processing

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 2

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

chain that initiates with the temporal segmentation. features used in this work for audio characterization
Three 30 seconds segments are taken at the are described below.
beginning, the middle and the end of the audio signal
[14]. Considering that a given music file total length 2.1.1 Zero Crossing Rate (ZCR)
is T seconds, the selected time intervals are: I1: [10; Zero Crossing Rate (ZCR) a commonly used audio
40] s; I2: [T/2-15; T/2+15] s; I3: [T-40; T-10] s. The signal characteristic [19], the ZCR is computed by
10 seconds separation from the beginning and the counting the number of times the signal crosses the
end of the files avoids problems such as noise or zero axis [12] and can be seen as an estimator of the
silence that may occur in these periods during the pitch frequency.
recording process.
The following step is feature extraction, in which 2.1.2 Mel-frequency Cepstral Coefficients
audio signal parameters are estimated from the (MFCC)
previously selected segments. The composition of the Mel-Frequency Cepstral Coefficients (MFCC)
used feature vector will be detailed in the following widely used in the literature for description of audio
subsection. (especially speech) signals [6], the MFCC provide
In a preprocessing step for the neural classifier, the information that attempts to model the perception of
estimated features are transformed to reduce the the human ear.
redundant information. For this, a statistical method
(ICA - independent components analysis) was 2.1.3 Beat Histogram
applied [16]. Beat Histogram is used to find the amplitude and
frequency of the main beats of a song. The
The neural classifier proposed in this work occurrence of relevant secondary beats indicates that
comprises two decision stages. The first one is the music presents a more intense rhythmic
responsible for assigning the audio signals to groups content [14].
composed by correlated genres (referred in this work
as super-genres). The second decision stage was 2.1.4 Spectral Power Concentration
designed to distinguish among the genres belonging
to a specific super-genre. Spectral Power Concentration is a parameter that
evaluates the distribution of signal power in three
frequency bands: 0 > f > 600Hz, 600 > f > 2.4 kHz
and f > 2.4 kHz. The power spectral density was
computed and the concentration in each band is
estimated after digital filtering (using FIR - Finite
Impulse Response filters) [20].

2.1.5 Spectral Centroid


Spectral Centroid estimates the center of gravity of
spectrum energy [13].

2.1.6 The Used Feature Vector


In this work, the feature vector was composed from
the mean values and variances of the following
characteristics: ZCR, first five MFCC, spectral
power concentration, spectral centroid and four beat
histogram measures (the relative amplitude of the
first peak; the amplitude of the second peak divided
by the amplitude of the first peak; sum of histogram
and the period of the first peak). Finally, 26
parameters were used to feed the neural classifier.
Figure 1. Overview of the proposed signal processing chain

2.1 Features Extraction 2.2 Statistical Signal Processing


In this work, feature extraction was performed in In this work, a statistical signal processing
short time windows (~ 30ms). Only one estimated technique (independent components analysis - ICA)
parameter, the beat histogram, needs a larger time was applied in order to remove the redundancy
window to be computed. Here, Hamming windows between the neural network input attributes. It was
with 30% overlap-ping were used [18] [19] [1]. The observed in previous works [18] [17], that neural
classifiers may benefit from statistical independence

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 3

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

among the input features by achieving, either, higher


discrimination efficiencies or more compact neural
structures (i.e. a smaller number of neurons or
layers).
Considering that a set of measured (or observed)
signals x(t) = [x1(t), ... , XN(t)] is formed from a
linear combination of statistically independent
sources s(t) = [s1(t), ... , SN(t)] so that x=As. The
independent component analysis (ICA) aims at the
estimation of the sources s(t) using only the
measured signals x(t) [16].
In ICA estimation, principal component analysis
(PCA) [17] is often used in a preprocessing step, as it
produces signal decorrelation. ICA searches for
statistical independence, and thus needs to use higher Figure 2. Diagram of the used MLP neural classifier
order statistical information. As PCA removes
second order statistical dependencies, it simplifies
the ICA problem. 3. RESULTS
Among the existing ICA algorithms, FastICA [15] The used database comprises 1120 music files
was used in this work as it presents fast response and assigned by experts to thirteen different musical
high accuracy in the independent components genres such as Blues, Classical, Country, Forr, Hip
estimation. Hop, Jazz, MPB (Brazilian Popular Music), Pop
Rock, Punk Rock, Reggae, Rock and Roll, Soul, and
Samba (see Table 1).
2.3 Neural Classification
Two different neural classifier architectures were
used in this work for musical genre identification. In
the first one (see Figure 2) was a traditional
feedforward multi-layer perceptron (MLP) [16]. In
this case, the neural network has a single hidden
layer and 13 output neurons, each one associated to a
musical genre. The number of neurons in the hidden
layer was chosen after exhaustively testing the
discrimination performance. The hyperbolic tangent
was used as activation function.
The second discriminator design comprises two
classification steps (see Figure 3), both performed by Figure 3. Diagram of the proposed multiple stage neural
a MLP networks. The first one is responsible for classifier
assigning the input signals to groups of genres with
similar characteristics (called super-genres). In the To evaluate the performance of the proposed
second step, expert neural networks are designed to classifiers, the confusion matrix and the class
identify the prevailing musical genre within a super efficiencies geometric mean (EFGM) were computed.
genre. This last discrimination step comprises a MLP While the confusion matrix presents the efficiencies
network for each super-genre. and classification errors for each class of interest,
For both neural classifier architectures, in order to EFGM provides a measure of the classifier overall
account for statistical fluctuations in the dataset, the performance:
training procedure was restarted 10 times using
different samples for the training, testing and N
validation sets, but keeping the same proportion, EFGM = N i=1 EFi (1)
respectively 50%, 30% and 20% of available signals.
In this work, for all neural networks, the standard
error back propagation training algorithm [16] was where EFi is the classification efficiency obtained for
applied. class i. The geometric mean is preferred in this case
as it is more sensitive to low efficiencies for a single
class.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 4

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

Table 1 - Composition of the used database. in a future implementation in mobile media players,
it was decided to use the temporal segmentation in
Classes N Files Classes N Files subsequent analyzes.
Blues(Bl) 81 MPB 102
Classical(Cla) 83 Pop Rock(PR) 93 3.2 Statistical Pre-Processing
Country(Ctry) 68 Punk(Pk) 102 As can be seen in Figure 5, there is considerable
Forr(For) 84 Reggae(Rg) 98 correlation between some of the features vector
Hip hop(HH) 77 Rock 87 components (e.g. beat histogram and MFCC). This
may contribute to confuse the neural classifiers
Jazz(Jaz) 74 Samba(Sb) 96
training process.
Soul(Sl) 75
Aiming at reducing this mutual redundancy, the
features vector was projected into independent
components. The ICA was estimated from the
3.1 Effects of Time-Domain Segmentation training data set, and Figure 6 illustrates the effect of
As it can be observed in Table 2, the use of this processing step applied to the testing dataset. It
temporal segmentation produced a significant can be observed that cross correlation is almost
reduction in the feature extraction processing time eliminated, as evidenced by the quasi diagonalization
(~50 %). It is also worth noting that, considering the of the correlation matrix.
entire processing flow, which includes feature
extraction (FEX) and classification, FEX consumes 3.3 Results for the MLP classifier
approximately 98% of the total time. For comparison, the features vectors with and
without ICA preprocessing were used to feed the
Table 2 - Processing time reduction when using the
temporal segmentation. MLP classifier. In order determine the optimum
number of neurons in the hidden layer, several
Features % Total Time % Reduction
initialization were performed varying the number of
hidden neurons. In Figure 7 one can see the variation
Mel Coefficients 53 55 of the average efficiency (EFGM) as the number of
Spectral Power hidden neurons increase. It can be seen that ICA
26 47
Concentration preprocessing helps to improve the discrimination
ZCR 2 51 performance in almost all considered cases.
Beat Histogram 17 47
Spectral Centroid 2 49
Total 100 50

Figure 5 - Features vector correlation matrix.

Figure 4 - EFMG vs the number of neurons in the hidden


layer of the MLP classifier for the original signals and the
temporal segmented case.

A drawback of temporal segmentation is that it


produces a slightly decrease in the discrimination
efficiency, as shown in Figure 4 for the MLP
classifier. Considering that the processing time is an
important factor for the proposed system, especially
Figure 6 - Correlation matrix after ICA (testing set).

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 5

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

Classification (%)
Bl Cla Ctry For HH Jaz MPB PR Pk Rg Rock Sb Sl
Bl 48,31 1,00 6,71 4,31 0,48 2,86 6,21 5,74 5,74 3,33 9,12 5,24 0,95
Cla 5,00 75,32 1,36 0,45 0,45 5,50 1,39 0,91 0,00 0,00 5,48 2,77 1,36
Ctry 7,25 2,25 40,72 6,70 0,00 1,70 5,62 15,62 2,81 2,84 3,89 4,48 6,11
For 3,64 0,45 11,47 55,24 0,91 0,91 5,45 8,18 0,91 0,45 0,45 8,25 3,68
HH 1,50 0,50 0,00 2,50 49,18 1,50 7,53 5,55 4,03 18,66 2,00 5,53 1,53
Jaz 6,71 5,74 1,90 4,76 2,40 28,74 18,21 5,26 0,98 4,76 10,02 8,60 1,90
MPB 8,52 1,54 7,72 6,94 5,05 6,20 26,97 4,65 0,40 3,86 9,65 15,05 3,46
PR 4,18 0,83 8,37 1,67 4,62 1,67 9,22 37,21 9,26 3,35 7,54 7,08 5,00
Pk 1,54 0,77 1,15 2,34 3,85 2,69 0,00 5,38 68,32 2,71 7,37 1,57 2,31
Rg 2,80 0,80 0,80 3,60 6,83 2,02 6,40 0,80 1,62 61,87 2,43 4,02 6,02
Rock 12,90 4,57 5,93 5,00 3,20 5,02 10,04 2,29 3,64 5,50 30,02 6,41 5,48
Sb 7,23 1,20 4,82 9,22 2,42 4,85 12,07 7,65 1,20 6,03 4,40 37,70 1,22
Sl 4,80 2,63 4,21 12,13 3,68 3,71 5,85 7,40 5,32 9,47 10,61 5,79 24,39

Table 4 - Confusion Matrix for ICA pre-processing (MLP


Figure 7 - EFGM vs the number of neurons in the hidden classifier).
layer.

Table 3 shows the confusion matrix obtained by 3.4 Results for the two stages neural
the classifier that achieved the maximum EFGM for classifier
the case without ICA preprocessing (45 hidden As detailed in Section 2.3, this work proposes a
neurons, EFGM = 38.9 0.5 %). It is possible to novel neural network classifier architecture which
observe that there are classes which are more easily comprises two discrimination steps. The first one
identified as Classical music, Punk and Reggae. assigns the audio signals to super-genres and the
However, there are some rhythms that present second is expert on the classification of genres
considerable cross-confusion, for example, MPB, belonging to a specific super-genre. This
Rock, Samba and Jazz. In this case, an average discriminator divides a complex 13 class
efficiency of 38.9 % was achieved. These results classification problem into several simpler scenarios.
indicate that this 13 class discrimination problem is a
A particular problem that arises here is how to
difficult task, reinforcing what was observed by the
choose the optimal discriminator structure. There are
human experts that performed the musical genre
several parameters that must be determined such as
attribution in the used data set composition.
the number of super-genres, the genres assigned to a
Table 4 shows the confusion matrix obtained after given super-genre and also the individual MLP
ICA preprocessing, considering the maximum EFGM classifiers parameters (i.e. the number of hidden
discriminator (50 hidden neurons, EFGM = 40.8 0.4 neurons).
%). It was observed a slightly improvement in the
After several attempts varying all the discriminator
results when compared to the no preprocessing case.
structural parameters a high efficiency setup was
The individual efficiencies of nine genres increased.
achieved by using three super-genres as illustrated in
The blues genre had his confusion with both
Figure 8. In order to choose the genres that belong to
Classical music and Forro diminished. Considering
a given super-genre, an unsupervised clustering
the Forro genre, it was possible to increase the
algorithm (k-means) was applied. In this case, the
discrimination efficiency and reduce the con-fusion
discrimination efficiencies for the first classification
with other classes such as Classical music, Jazz,
step (in super-genres) were EFGM = 66.29 1.1 %
Rock and Soul. For the rock genre, it was achieved
and EFGM = 67.41 1.7 %, respectively for the
52% confusion reduction with Classical music.
original features and after ICA preprocessing. The
Classification (%) confusion matrixes obtained for the first stage
Bl Cla Ctry For HH Jaz MPB PR Pk Rg Rock Sb Sl discriminator are presented in Table 5.
Bl 47,88 4,29 6,74 1,43 0,48 5,24 6,21 7,67 1,90 3,83 7,64 4,79 1,90
Cla 4,13 77,64 2,27 1,84 0,91 3,66 0,45 0,91 0,00 0,45 5,91 0,91 0,91 Considering the second classification step, Tables
Ctry 3,37 2,25 45,26 3,92 1,70 3,37 7,22 6,73 5,03 4,48 7,78 7,78 1,11
For 4,57 1,39 10,97 51,62 2,73 2,27 5,00 3,18 0,00 0,93 2,73 9,57 5,04
6 and 7 present the confusion matrixes obtained
HH 1,50 0,00 3,00 4,53 56,29 1,03 6,50 5,05 4,00 12,11 2,00 3,50 0,50 respectively for the original features and after ICA
Jaz 9,07 8,62 3,81 0,98 1,43 30,10 10,07 12,02 3,38 1,43 7,64 8,57 2,88 preprocessing.
MPB 6,22 3,85 4,65 4,25 7,37 12,37 21,58 9,31 1,54 8,88 4,23 11,15 4,62
PR 2,93 0,42 5,89 1,68 5,45 1,68 12,54 34,73 8,39 7,10 7,93 9,17 2,08 It was observed that the two-stage neural classifier
Pk 2,31 0,77 3,49 2,32 5,00 1,92 1,54 3,88 66,78 4,25 5,05 0,77 1,92
Rg 3,63 0,00 2,00 1,62 9,62 2,00 7,23 4,42 0,80 59,88 2,40 1,20 5,20 achieved high efficiencies for genres such as
Rock 10,97 9,57 6,43 4,59 5,45 5,04 9,59 6,84 1,82 7,79 26,41 2,75 2,75 Classical, Hip-Hop, Reggae and Punk-Rock. In this
Sb 4,83 2,02 10,82 6,02 0,80 4,82 19,28 10,53 1,22 2,82 2,00 32,83 2,02
case, the use of ICA preprocessing also contributes to
Sl 4,21 1,08 3,19 7,92 3,16 3,71 14,42 9,01 2,11 10,53 11,14 4,74 24,80
increase the overall discrimination efficiency from
Table 3 - Confusion matrix for signals without pre- EFGM = 37.88 1.9 % up to EFGM = 44.12 3.1 %.
processing (MLP classifier).

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 6

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

Jaz 5.00 10.00 0.00 0.00 5.00 40.00 15.00 0.00 0.00 5.00 15.00 5.00 0.00
MPB 12.00 0.00 4.00 12.00 8.00 32.00 16.00 12.00 0.00 0.00 0.00 0.00 4.00
PR 0.00 0.00 17.39 4.35 8.70 4.35 0.00 34.78 17.39 0.00 8.70 0.00 4.35
Pk 0.00 0.00 4.00 4.00 0.00 0.00 0.00 8.00 72.00 4.00 0.00 0.00 8.00
Rg 0.00 0.00 0.00 4.17 4.17 8.33 0.00 4.17 4.17 75.00 0.00 0.00 0.00
Rock 9.52 9.52 4.76 9.52 0.00 9.52 0.00 9.52 4.76 9.52 28.57 4.76 0.00
Sb 0.00 0.00 8.33 20.83 4.17 12.50 8.33 12.50 0.00 8.33 4.17 20.83 0.00
Sl 5.56 5.56 5.56 0.00 0.00 11.11 5.56 0.00 11.11 5.56 11.11 5.56 33.33

4. CONCLUSION
This work proposes an automatic musical genre
classification system for digital music files that
includes Brazilian genres such as Samba, Forr and
MPB. The signal processing chain comprises
temporal segmentation (in order to reduce the
computational requirements), efficient feature
extraction, combining the estimation of parameters
such as the MFCCs and the beat histogram, and
statistical dependence minimization through
Figure 8. Diagram of the proposed two stages neural
independent component analysis. Multiple stages
classifier automatic music genre classification system. supervised neural classifier architecture was
proposed to properly deal with a complex 13 classes
discrimination problem. Through the proposed
Table 5. Confusion matrix for the two-stage neural classifier
considering signals without pre-processing (left) and
approach it was obtained a discriminator with both,
preprocessed through ICA (right). low computational cost and high discrimination
efficiency.
Classification (%) Classification (%) The computational requirements were reduced in
Super
1 2 3
Super
1 2 3 ~50% and the overall efficiency presented no
Genre Genre
significant variation. These results show that,
1 65.82 18.99 15.19 1 68.35 18.99 12.66 although there is room for improvement, musical
2 16.07 68.75 15.18 2 17.86 66.06 16.07 genre classification is inherently subjective and
3 8.05 27.59 64.37 3 12.64 19.54 67.82 therefore perfect results can not be expected neither
classification [12]. In future works, the use of fuzzy
decision boundaries will be investigated. It is also
important to compare the efficiency of the proposed
Table 6. Confusion matrix for signals without pre-processing
method with other classification paradigms such as
(two-stage neural classifier).
Support Vector Machine (SVM), Gaussian mixtures
Classification (%) models (GMM) and decision trees. In addition, a
Bl Cla Ctry For HH Jaz MPB PR Pk Rg Rock Sb Sl mobile phones prototype embedded version of the
Bl 35.00 0.00 5.00 10.00 0.00 20.00 0.00 5.00 10.00 0.00 5.00 5.00 5.00 proposed system is under development.
Cla 9.52 85.71 0.00 0.00 0.00 4.76 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Ctry 0.00 5.88 41.18 17.65 0.00 5.88 0.00 5.88 11.76 5.88 0.00 5.88 0.00
For 4.76 0.00 14.29 57.14 0.00 0.00 4.76 0.00 0.00 0.00 0.00 19.05 0.00
HH 0.00 0.00 0.00 10.53 68.42 0.00 5.26 5.26 0.00 10.53 0.00 0.00 0.00
Jaz 5.00 20.00 5.00 0.00 0.00 45.00 0.00 5.00 10.00 5.00 5.00 0.00 0.00 REFERENCES
MPB 12.00 4.00 0.00 8.00 8.00 24.00 8.00 26.00 0.00 4.00 0.00 12.00 4.00
PR 4.35 0.00 8.70 4.35 13.04 0.00 8.70 21.74 17.39 4.35 8.70 4.35 4.35 [1] PEREIRA, E. M.; BARBEDO, J.; LOPES, A.
Pk 4.00 0.00 4.00 4.00 0.00 0.00 0.00 0.00 84.00 0.00 4.00 0.00 0.00
4.17 0.00 0.00 12.50 0.00 0.00 0.00 4.17 0.00 75.00 4.17 0.00 0.00
Studies about a Musical Classification Tool.
Rg
Rock 4.76 4.76 0.00 19.05 0.00 9.52 4.76 4.76 4.76 9.52 28.57 9.52 0.00 Proceedings of the 7th Congress Audio
Sb 0.00 0.00 4.17 4.17 4.17 0.00 16.67 0.00 4.17 8.33 16.67 29.17 12.50 Engineering, 2009, pp. 18-25.
Sl 5.56 0.00 0.00 5.36 0.00 5.56 11.11 11.11 11.11 11.11 16.67 5.56 16.67
[2] FUHRMANN, F AND HERRERA, P.
Quantifying The Revelance Of Locally Extracted
Information For Musical Instrument Recognition
Table 7. Confusion matrix for signals with ICA pre- From Entire Pieces Of Music. Proceedings of
processing (two-stage neural classifier). the 12th International Society for Music
Retrieval Conference, 2011, pp. 239-244.
Classification (%) [3] FU, Z., LU, G., TING, K. M., ZHANG, D., A
Bl Cla Ctry For HH Jaz MPB PR Pk Rg Rock Sb Sl
Survey of Audio-Based Music Classification and
Bl 40.00 5.00 10.00 0.00 0.00 15.00 0.00 10.00 15.00 0.00 0.00 5.00 0.00
Cla 4.76 90.48 0.00 0.00 0.00 4.76 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Annotation. IEEE Transactions on Multimedia.
Ctry 0.00 5.88 52.94 11.76 0.00 5.88 0.00 11.76 0.00 0.00 0.00 11.76 11.76 Vol. 13, Issue. 2, 2011, pp. 303-319.
For 0.00 4.76 14.29 66.67 0.00 0.00 4.76 4.76 0.00 0.00 0.00 4.76 0.00
[4] QIAN, D. AND NIAN Z., Classification of
HH 0.00 0.00 0.00 5.26 78.95 0.00 0.00 0.00 0.00 5.26 5.26 0.00 5.26
Recorded Musical Instruments Sounds Based on
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 7

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


BORGES JR ET AL. MULTIPLE STAGE NEURAL CLASSIFIER
FOR AN AUTOMATIC MUSIC GENRE
CLASSIFICATION SYSTEM

Neural Networks, IEEE Symposium on Classification System Based in Independents


Computational Intelligence in Image and Signal Components. Proceedings of the 19th Brazilian
Processing, 2007, pp. 157-162. Congress on Automatic, 2012, pp. 3236-3243 (in
[5] KIM, H.-G., MOREAU, N. AND SIKORA, T.: Portuguese).
MPEG-7 Audio and Beyond: Audio Content [19] LU, L., ZHANG, H. J. AND JIANG, H.,
Indexing and Retrieval, Wiley, 2005, New York, Content Analysis for Audio Classification and
United States. Segmentation, IEEE Transactions on Speech and
[6] LOGAN, B., Mel frequency cepstral coefficients Audio Processing, Vol. 10, No. 7, 2002, pp. 504-
for music modeling, Proc. Int. Symp. Music Inf. 516.
Retrival, 2000, pp. 1-11. [20] DINIZ, P. S. R., DA SILVA, E. A. B., S. LIMA
[7] TZANETAKIS, G. AND COOK, P. Musical NETTO, S.: Digtal Signal Processing: System
genre classification of audio signals, IEEE Analysis and Design, 2002, Ed. Cambridge
Transactions on Speech and Audio Processing, University Press, New York.
Vol. 10,No. 5, 2002, pp. 293-302.
[8] LI, T., OGIHARA, M, LI, Q.: A Comparative
Study on Content-Based Music Genre
Classification. Proc. SIGIR, 2003, pp 282-289.
[9] SCARINGELLA, N., ZOIA, G. AND
MLYNEK, D., Automatic genre classification of
music content: a survey, IEEE Signal Processing
Magazine, Vol. 23, Issue: 2 , 2006, pp. 133-141.
[10] BURRED, J. J., LERCH, A., Hierarchical
Automatic Audio Signal Classification. Journal
of the AES, Vol 52, 2004, pp. 724-739.
[11] LIDY, T., RAUBER, A.: Evaluation of Feature
Extractors and Psycho-Acoustic transformations
for Music Genre Classification. Proc. Int. Symp.
Music Inf. Retrival, 2005, pp. 34-41.
[12] LIPPENS, S., MARTENS, J. P., DE MULDER,
T, TZANETAKIS, G., A Comparison of Human
and Automatic Music Genre Classification,
Proc. Int. Conference on Acoustics, Speech, and
Signal, Vol. 4. 2004, pp. iv-233 - iv-236.
[13] MARQUES, C., GUILHERME, I. R.,
NAKAMURA, R. Y. M AND PAPA, J. P., New
Trends in Musical Genre Classification Using
Optimum-Path Forest. Proceedings of the 12th
International Society for Music Retrieval
Conference, 2011, pp. 699-704.
[14] SILLA JR, N.; KAESTNER, C. A. A; CELSO
AND KOERICH, A. Automatic Classification of
Musical Genres Using Bagging and Boosting
Methods. Proceedings of the 10th Brazilian
Symposium on Computer Music. 2005, pp. 48-
57 (in Portuguese).
[15] HYVRINEN, A., Fast and Robust Fixed-Point
Algorithms for Independent Component
Analysis. IEEE Transactions on Neural
Networks, 1999, pp. 626-634.
[16] HAYKIN, S., Neural Networks and Learning
Machines, Prentice Hall, 2008.
[17] SIMAS FILHO, E. F., SEIXAS, J. M. E
CALBA, L. P., Optimized Calorimeter Signal
Compaction for an Independent Component
based ATLAS Electron/Jet Second-Level
Trigger. Proceedings of Science, Vol. 8, 2009.
pp. 1-10.
[18] BORGES JR, E. A. T; SIMAS FILHO, E. F.;
SILVA, F. G. S, Neural Musical Genre

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 8

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


Sociedade
SociedadededeEngenharia
EngenhariadedeAudio
Audio
Artigo de Congresso
Convention Artigo
Apresentado no 12o Congresso de Engenharia de Audio
a
Apresentado no 10a Convention
1808 Convenc
a 10 de ao Nacional
Maio da AES
de 2006, Sao Brasil
Paulo, SP
13 a 15 de Maio de 2014, Sao Paulo, SP
EsteEste artigo
artigo foi reproduzido
foi reproduzido dofinal
do original original
entregueentregue pelo
pelo autor, semautor,
edicoes,sem edicoes,
correcoes correcoes efeitas
ou consideracoes consideracoes
pelo comite feitas pelo com
tecnico
tecnico. A AESdeste evento.
Brasil Outros artigos
nao se responsabiliza pelopodem serOutros
conteudo. adquiridos atraves
artigos podem ser da Audioatraves
adquiridos Engineering
da AudioSociety,
Engineering60 East 42nd Stre
New York, Newnd York 10165-2520, USA; www.aes.org. Informacoes sobre a secao Brasileira podem ser obtidas
Society, 60 East 42 Street, New York, New York 10165-2520, USA, www.aes.org. Informacoes sobre a secao Brasileira
www.aesbrasil.org.
podem Todos os direitos
ser obtidas em www.aesbrasil.org. Todos ossao reservados.
direitos Nao Nao
sao reservados. e permitida
e permitidaaa reproducao
reproducao total
total ou parcial
ou parcial deste deste artigo s
autorizacao
artigo expressa
sem autorizacao expressadadaAES
AES Brasil.
Brasil.

Ttuloutilizando
Extracao de tempo musical do ArtigoTransformada
Wavelet e Rede Neural Artificial
Autor 1, Jr.
Antonio Carlos Lopes Fernandes Autor
1,2 2, Autor 3
e Furio Damiani1
1
Universidade Estadual de Campinas, Departamento deAliacao
Semicondutores, Instrumentos e Fotonica
Campinas, Codigo
Sao Paulo, 13083-852,
Postal, Cidade,Brasil
Estado, Pas
2
Universidade Federal da Bahia, Departamento de Engenharia Eletrica
endereco@eletr^
Salvador, Bahia, 40210-630, Brasil onico

RESUMO aclfjr@dsif.fee.unicamp.br, furio@dsif.fee.unicamp.br


Um resumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. U
resumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um
RESUMO
sumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um resum
A deteccao de tempo em um sinal
com aproximadamente de 60musical e uma tarefa
a 80 palavras, muito importante
devera apresentarpara diversas aplicacoes.
o conteudo NesteUm resumo, co
deste artigo.
artigo apresentamos o de
aproximadamente resultado
60 a 80 dapalavras,
deteccao de andamento
devera utilizando
apresentar uma nova
o conteudo proposta
deste baseada em
artigo.
Transformada Wavelet e Redes Neurais Artificiais. A Transformada Wavelet e utilizada para separar o
sinal musical em resolucoes distintas para construcao de Funcoes de Deteccao de Onsets multirresolu-
cionais usando o metodo do Domnio Complexo. Em seguida, Funcoes de Deteccao de Periodicidades
1. ITEM
multirresolucionais dito, e em fonte
sao geradas por intermedio de funcoes de autocorrelacao. Times sao
Descritores Roman, tamanho 9 e just
extrados
destas cadode(como este).
Estefuncoes e apresentados
template, em LATEXa deve uma rede neural do tipocom
ser compatvel Perceptron Multiplas Camadas que calcula
o tempo da musica.
qualquer PC ou Macintosh. O objetivo deste tem- 1.1. Sub-Item 1
plate e sugerir um formato padrao para apresentacao Subitens usam letras maiusculas e minusculas, com
de trabalhos tecnicos e cientcos. Para isto, basta acima.
0 INTRODUC AO (bpm). O tempo de uma A fonte
musica, e Helvetica,
ou andamento, tamanho 8, est
e a taxa
salvar este template com outro nome, e como arquivo negrito, alinhamento a esquerda,
com que uma pessoa intuitivamente bate os pes para como no item pr
Atualmente
*.tex, com o avanco
e ir digitando tecnologico
o novo na areaeste.
texto sobre do acompanha-la. cipal.
audio digital e sua popularizacao a extracao de carac-
Os artigos
tersticas destes submetidos
sinais para uma a determinada
Convencaoaplicacao
da AES nao saoMuita pesquisa tem sido feita com o objetivo de cal-
revisados
tornou-se pelotopicos
um dos corpomais
editor, e poderao
importantes nestaser publicados
area. cular de forma2. automatizada
CONTEUDO o tempo de um sinal musi-
Dentre
em suasas aplicacoes
formas pode-se
originais,destacar
como a classificacao
submetidos. cal. Em geralPara
Para duas garantir
estrategiasque os sao
basicas artigos da Convencao
utilizadas: a da A
de isto,
generos musicais, a geracao automatica de playlist
as versoes nais devem ser enviadas em arquivos construcao sejam
de uma consistentes
funcao que com
represente os
os objetivos
onsets que da AES Bra
e oPDFBeat (*.pdf)
Tracking ou[1]. em
Dentre as caractersticas mais
postscript (*.ps), segundo este ocorrem no sinal
as e a confeccao
instrucoes de
abaixouma funcao
devem que
ser re-
consideradas pe
fundamentais
formato. que necessitam ser conhecidas em um si- presente as periodicidades
autores. existentes neste sinal de on-
nal musical esta o tempo, dado em batidas por minuto sets. Contudo dada a riqueza de detalhes que existem
Itens principais (veja acima) sao em letras O conteudo tecnico deve ser preciso e coeren
maiusculas, fonte Helvetica, tamanho 8, estilo Citacao a trabalhos anteriores e/ou de terceiros d
negrito, alinhado a esquerda. O texto, propriamente vem ter seus respectivos creditos.
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 9
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

em uma gravacao musical, inumeros instrumentos com frequencia, e de um sistema neural, capaz de tomar
espectros muitas vezes superpostos e formas de onda decisoes a respeito do tempo da peca musical. Opta-
temporais tambem superpostas, a tarefa de se obter o mos por analise em sub-bandas do sinal musical de in-
andamento para o conjunto completo nao e das mais teresse. O objetivo aqui foi o de simular o comporta-
simples. mento de um musico quando este se concentra em um
Neste artigo, propomos o uso conjunto da Transfor- determinado instrumento, dentre um conjunto de fontes
mada Wavelet com o Domnio Complexo (complex do- sonoras, para perceber o andamento no qual ele deve
main) para a construcao de Funcoes de Deteccao de On- executar o seu proprio instrumento. Desta forma, de-
sets em nveis de resolucao distintos, o calculo posterior cidimos gerar sinais em resolucoes distintas, e a par-
das Funcoes de Deteccao de Periodicidades nestes di- tir destas, construir as ODF equivalentes e posterior-
versos nveis, a extracao de descritores destas funcoes mente as PeDF equivalentes a cada resolucao. Com
e a utilizacao de uma rede neural do tipo SLFN (Sin- isto escolhemos a Transformada Wavelet [12] como a
gle Layer Feedforward Network) para mapear os des- principal estrategia de pre-processamento para a analise
critores multirresolucionais no tempo musical corres- mutirresolucao. A instancia decisoria ficou a cargo
pondente. da rede neural artificial que mapeia caractersticas das
PeDF em um andamento equivalente.
0.1 BASES TEORICAS
1 WAVELETS E MULTIRRESOLUC AO
Boa parte dos metodos atuais de deteccao de tempo
compartilham uma filosofia basica: o calculo de uma A Transformada Wavelet [13] se baseia no produto
Funcao de Detecao de Onsets (ODF) e de uma Funcao interno de um sinal x(t) com uma base de funcoes osci-
de Detecao de Periodicidades (PeDF). A ODF e uma lantes wjk (t) localizadas em um determinado intervalo
versao subamostrada do sinal de audio que exibe de tempo que sao escalonadas e deslocadas ao longo do
os onsets do sinal musical desenvolvida a partir da eixo temporal:
observacao de mudancas em diferentes propriedades do
sinal. A PeDF e uma funcao que representa as periodi- bjk =< x(t), wjk (t) > (1)
cidades mais proeminentes exibidas na ODF de onde onde j representa a escala, k representa o deslocamento
se extrai, apos processamento, o tempo musical percep- e wjk = w(2j t k) sao as versoes escalonadas e des-
tual. Processos de pre-processamento podem ou nao ser locadas de uma wavelet mae w(t). Esta e a equacao
realizados antes do calculo da ODF como por exemplo de analise que gera os coeficientes bjk . A principal
a separacao em bandas de frequencias [2]. diferenca entre a base de funcoes da Transformada Wa-
Existem varios metodos de pre-processamento, velet e da Transformada de Fourier esta no fato de que
geracao de ODF e PeDF e pos processamento utiliza- as wavelets sao, na maioria das aplicacoes, de suporte
dos em sistemas detectores de tempo. A ODF pode ser compacto, i.e., restritas a um intervalo de tempo bem
baseada em caractersticas extradas do sinal ou em mo- definido enquanto a base de Fourier oscila eternamente.
delos probabilsticos [3]. No caso da utilizacao de ca- Isto ja demonstra a capacidade das wavelets de pode-
ractersticas dos sinais, o foco pode estar no domnio do rem localizar eventos no tempo. Uma outra diferenca
tempo ou no domnio da frequencia. Em [4] a ODF e vem do processo de representacao de um sinal em di-
gerada a partir de mudancas de energia no sinal, em [5] versas escalas. Atraves do escalonamento das wavelets
tanto o modulo quanto a fase sao utilizados para per- o mesmo sinal pode ser visto com mais ou menos deta-
ceber mudancas no sinal. Abordagens usando modelos lhes.
probabilsticos [3] sao baseadas no conceito de que o Avaliando o poder desta ferramenta matematica
sinal pode ser descrito por algum modelo de probabi- para o contexto de extracao de caractersticas de audio
lidade. O metodo de construcao da PeDF mais utili- musical observe um sinal de bateria formado por bumbo
zado e a funcao de autocorrelacao (ACF) [6] [7]. Ou- (B) e caixa (C) sendo executado a 100 bpm na Figura 1.
tros metodos incluem, por exemplo, comb filters [8] No topo da Figura 1 (letra a) esta o audio da bate-
[9], e analise espectral [10] [6]. No que se refere ao ria com 44, 1 kHz de amostragem. O compasso equi-
pre-processamento as opcoes existentes seguem em li- vale ao padrao (B, C, B, B, C) identificado na Figura
nhas gerais dois caminhos: sinal unico como entrada 1 e que se repete por mais 4 vezes. Pode-se observar
[11] ou analise em sub-bandas [2]. Em relacao ao pos- que no sinal aproximacao (A7 ) (letra b) a proeminencia
processamento da PeDF pode-se destacar ponderacoes e do bumbo. O ultimo nvel de resolucao, detalhe 1
[2], imposicao de limiares e construcao de histogramas. (D1 ) (letra c), mostra a presenca marcante da caixa e
um spike, provavelmente gerado pelo kick do pedal de
0.2 SISTEMA PROPOSTO bumbo. Podemos observar entao que a multirresolucao
A proposta deste artigo segue a filosofia de que um promovida pela Transformada wavelet separou o sinal
sistema de deteccao de tempo pode ser livremente ins- em diferentes escalas.
pirado no sistema aural e neural humano. Com isto, Com este exemplo, percebe-se que um pre-
e necessario dotar o algoritmo de um sistema audi- processamento utilizando Wavelets pode gerar resul-
tivo, capaz de separar estmulos sonoros em faixas de tados interessantes para a deteccao de onsets e uma

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 10
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

0.5 gumas cordas como o violino excitado com arco.


a) Sinal

0
0.5 A abordagem geral e a separacao do sinal alvo em
0.5
B C B BC
1 1.5 2 2.5 3 3.5 4 4.5 5
x 10
5 frames, com determinado numero de amostras, e cada
10
5
frame, apos o processo de reducao, gera um valor que
b) A7

0
5
compoe a ODF, representando um onset musical. O
500 1000 1500 2000 2500 3000 3500 4000 padrao aqui utilizado foi um numero de frames igual a
256.
c) D1

0.05
0
0.05
O metodo do Domnio Complexo (ODFCD ) utiliza
0.5 1 1.5 2 2.5
5
tanto as informacoes de magnitude quanto de fase dos
Amostras x 10
espectros dos frames. Comparacoes entre quadros ad-
jacentes sao utilizadas para avaliar se houve ou nao um
Figura 1: Decomposicao Wavelet em 7 nveis, coiflet: onset entre dois blocos. A Transformada de Fourier de
(a) Sinal, (b) Aproximacao (A7 ), (c) Detalhe 1 (D1 ). Tempo Curto (STFT) do n-esimo frame, janelada por
Os outros detalhes foram omitidos para simplificacao. uma janela de Hanning H(m) de tamanho N de um
sinal x(n) e dada por,
posterior analise de periodicidades existentes no sinal. N 1

Desta forma, apos a avaliacao de formas de wavelet mae X(k, n) = x(m)H(m)e
2jmk
N , (2)
e nveis possveis [12], decidimos utilizar a Transfor- m=0
mada Wavelet com 5 nveis de decomposicao e wavelet
mae coiflet3. A escolha desta base de funcoes se deve onde X(k, n) e a STFT do k-esimo bin do n-esimo
ao fato das coiflets serem wavelets biortogonais e, por- frame. Para cada bin de cada frame e calculado o es-
tanto, de fase linear, o que contribui para a simplificacao pectro de amplitude e o de fase. Estas duas informacoes
do processo de compensacao de atrasos distintos no para uma determinada frequencia, de um frame, podem
banco de filtros para os diferentes sinais em possveis ser visualizadas como um fasor. Para um frame sub-
aplicacoes do nosso sistema em tempo real. sequente podem haver mudancas de amplitude e fase
Definiu-se o numero de amostras a serem pro- do fasor. A distancia Euclidiana entre os dois fasores
cessadas dos sinais como sendo potencia de base 2, e o parametro utilizado para a construcao da ODFCD
para adequacoes ao algoritmo DWT (Discrete Wave- (Equacao 3):
let Transform). Entao, os sinais analisados possuem
524.288 amostras (219 ), o que corresponde a aproxima-
damente 11,89 segundos de audio (em taxa de amos- k (n) = Rk2 (n) + Rk2 (n) 2Rk (n)Rk (n)C (3)
tragem de 44,1kHz). Assim, foram gerados, para cada
arquivo de audio, 6 vetores de coeficientes Wavelet: onde (n) e a distancia Euclidiana, Rk (n) e Rk (n)
Aproximacao 5 (A5 ), Detalhe 5 (D5 ), Detalhe 4 (D4 ), sao os modulos da STFT de frames adjacentes, C =
Detalhe 3 (D3 ), Detalhe 2 (D2 ), e Detalhe 1 (D1 ). cos( ), = princarg[k (n) k (n)], k (n) e
Cada vetor passou pelos processamentos indicados nas k (n) = 2k (n 1) k (n 2), as fases dos espec-
secoes a seguir. tros de frames adjacentes. A funcao princarg mapeia
a fase para o intervalo [, ].
2 FUNC OES DE DETECC AO DE Desta forma a ODFCD e calculada por intermedio
ONSETS da soma de todos os bins em um frame (Equacao 4):
A geracao de ODF, processo tambem denomi-
N

nado de reducao, esta associada a tarefa de deteccao
de onsets de forma bastante consolidada [3] [14] [2] ODFCD (n) = k (n). (4)
k=0
[7]. O objetivo da reducao e, independente de pre-
processamentos, transformar um sinal de audio em Uma ODF e exibida na Figura 2 letra b. O sinal
uma versao drasticamente subamostrada que possua as analisado x(t) e o mesmo audio de bateria anterior. A
ocorrencias de transientes do sinal original. ODF e processada com um filtro de media movel (MA)
De um modo geral os metodos de reducao podem Figura 2, letra b) e este processo gera um limiar abaixo
ser divididos em dois grandes grupos: metodos base- do qual a funcao e descartada gerando um versao que
ados no uso de caractersticas predefinidas do sinal ou chamamos de ODF limitada (ODFL ) (Figura 2, letra
metodos baseados em modelos probabilsticos do sinal c).
[7]. Dentre os metodos existentes optou-se por realizar Observe que, na Figura 2 letra b, os onsets (asteris-
um metodo espectral: Domnio Complexo (ODFCD ) cos) foram localizados, para ilustracao, apos um pro-
[5]. Este metodo e mais adequado do que o puramente cesso de peak picking, por uma busca de maximos lo-
energetico para sinais polifonicos e para detectar on- cais. A ODF limitada (ODFL ) foi calculada para cada
sets suaves gerados por instrumentos sem ataque per- resolucao de todas as musicas do banco de dados e uti-
cussivo, como por exemplo instrumentos de sopro e al- lizada para o calculo das PeDF na proxima secao.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 11
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

C B C 4
x 10
2.5
a) x(t)

0.5
0
0.5 D=8 =16
D
2
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Amostras x 10
5

1.5

5
CD

A
6000

PeDF
ODFCD Mdia Mvel Onset
b) ODF

4000
2000 1

50 100 150 200 250


Frames 0.5
L
c) ODF

5000
0
0 300 200 100 0 100 200 300
50 100 150 200 250 D (Amostras)
Frames

Figura 3: PeDF da aproximacao 5 (P eDFA5 ).


Figura 2: ODF calculada a partir de sinal de bateria da
Figura 1: (a) audio bateria (x(t)), (b) ODFCD , Media
Movel e onsets, (c) ODFL .
4
x 10
4

3 FUNC OES DE DETECC AO DE PERI- 3

ODICIDADES
2
1
D
A chamada Funcao de Deteccao de Periodicidade
PeDF

(PeDF) expressa as periodicidades existentes no sinal 1

musical. A partir das periodicidades das ODF de


0
cada resolucao gera-se um conjunto de P eDF corres-
pondentes por intermedio de funcoes de autocorrelacao 1
300 200 100 0 100 200 300
(ACF ). Esta funcao examina quao similar uma D (Amostras)
sequencia x(n) e quando comparada com seus valores
previos quando se desloca a sequencia de diversos valo- Figura 4: PeDF do detalhe 1 (P eDFD1 ).
res de atraso D (valores em amostras da ODF ). Desta
forma, a PeDF calculada em nossa abordagem se torna:

N 1
resolucoes, omitidas por questoes de espaco no texto,
1 sugerem que uma das resolucoes pode ser eleita para
P eDF (D) = ODFL (D)ODFL (n + D) (5)
N n=0 o calculo do andamento musical ou que todas podem
ser avaliadas para o reconhecimento de um padrao de
Para avaliar as PeDF multirresolucionais de um si- tempo comum. Logo, assim como um musico real faria
nal musical, mostraremos resultados obtidos a partir de para descobrir com que andamento tocaria seu instru-
uma musica do banco de dados construdo para este tra- mento para acompanhar um conjunto musical ouvindo
balho. A cancao e de um grupo brasileiro executada a ou a massa sonora completa ou um instrumento es-
82 bpm com guitarra, baixo, bateria, teclado e outros pecfico, e preciso uma extrategia de decisao que es-
instrumentos de percussao, onde ha uma fusao de al- colha a melhor resolucao, ou o melhor conjunto de
guns generos musicais como baiao, reggae e rock: resolucoes, para um determinado sinal de entrada.
Observa-se da Figura 3 que a sua P eDFA5 exibe O metodo da ACF por si so, nao e suficiente
dois valores candidatos D = 8 e D = 16. Utili- para o calculo automatico de periodicidades. Isto
zando a equacao de reducao [12], que leva em conta o se deve a grande dinamica que pode ocorrer nestas
tamanho dos frames (2048 amostras) e a taxa de amos- funcoes, ao aparecimento de multiplos e submultiplos
tragem do sinal de audio original, do perodo e ao fato de eventos de amplitude baixa
60 em alta frequencia poderem parecer menos importantes.
T = (6) Contudo, o uso da Transformada Wavelet para analise
(2048)(1/44100)(D )
mutirresolucao permite a observacao de P eDF multir-
calcula-se os tempos equivalentes: T1 = 161, 5 bpm e resolucionais que podem suplantar as dificuldades elen-
T2 = 80.8 bpm, respectivamente. O valor de T2 esta cadas anteriormente. Mas para isto se faz necessario a
muito proximo do tempo perceptual de 82 bpm do sinal escolha do melhor nvel de resolucao e do melhor can-
e o de T1 e um multiplo. Caso contrario ocorre com didato a tempo dentro do nvel escolhido. Para os nos-
o grafico da P eDFD1 na Figura 4, onde a dinamica sos objetivos de calculo automatico de andamento mu-
de amplitudes da funcao torna a tarefa do calculo do sical e preciso projetar uma instancia decisoria que sera
melhor candidato a tempo um processo arduo. alimentada pelas P eDF multirresolucionais para uma
As diferencas existentes entre os dois casos, tomada de decisao. Esta instancia e uma Rede Neural
aqui exibidos, e as existentes tambem nas outras 4 Artificial.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 12
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

4 REDES NEURAIS ARTIFICIAIS 5 RESULTADOS


As Redes Neurais Artificiais (RNA) tem sido uti- 5.1 Banco de dados
lizadas em diversas tarefas na area de recuperacao de Para avaliar os algoritmos implementados e proce-
informacao musical (MIR). Dentre estas podemos ci- der ao treinamento de uma rede neural foi necessaria a
tar a deteccao de pitch [1], a transcricao musical au- confeccao de um banco de dados que contivesse 3 atri-
tomatica [1] e a deteccao de onsets [15]. butos principais: quantidade, qualidade e diversidade.
A estrutura basica de uma RNA e uma rede de Desta forma 507 musicas dos mais diversos generos
nos que sao conectados por intermedio de conexoes musicais e andamentos foram selecionadas. Deve-se
ponderadas [16]. Na biologia, seus correlatos sao os ressaltar que este banco de musicas difere bastante dos
neuronios e as sinapses. As entradas, apresentadas aos utilizados na literatura [17] pois 68% das cancoes sao
nos de entrada, ativam a rede, e esta ativacao se espalha brasileiras, musicas com caractersticas intrnsecas de
atraves de toda a rede pelas conexoes ponderadas. As fusao de diversas matrizes rtmicas, o que torna o es-
ativacoes dos nos de sada podem ser usadas para clas- tudo bastante complexo. Todos os arquivos deste banco
sificar as entradas ou mapea-las em outra dimensao. de dados foram importados para o ambiente computa-
Existem diversas topologias de RNA. Dentre as cional a partir de CDs de audio originais e armazena-
mais conhecidas as Redes Neurais feedforward (FNN) dos em formato wave para garantir a qualidade no que
sao classicamente utilizadas como aproximadores uni- se refere a resposta em frequencia. O downmixing dos
versais. Dado que a funcao de ativacao seja contnua, arquivos, ou seja, transformacao de sinais estereo em
limitada e nao constante, mapeamentos podem ser apro- sinais mono, e realizado gerando um unico vetor por
ximados a partir de um conjunto compacto de entra- musica.
das [16] utilizando-se uma FNN com uma unica ca- Para garantir uma correta determinacao manual dos
mada oculta (SLFN). O nosso objetivo e mapear carac- andamentos de cada peca musical e o descarte de
tersticas das 6 PeDF de uma musica em um escalar que musicas com flutuacoes de tempo, a seguinte metodo-
represente o tempo. Para isto e necessario a extracao logia foi empregada:
de atributos que foi realizada utilizando-se descritores
que costumam ser aplicados para analise de conteudo escolha de musicas executadas com bateria ou ins-
de audio [1]. trumentos de percussao reforcando os beats;
Do conjunto de descritores ja disponveis na litera- audicao de um trecho de cada peca entre os instan-
tura, 7 foram selecionados para mapear o tempo: tes de tempo ti = 40s e tf = 90s determinando o
bpm e sua estabilidade dentro deste trecho;
1. media ( );
uso de um programa comercial de tempo tapping
via teclado do computador para determinacao ma-
2. desvio padrao ( );
nual de andamento.
3. moda ( ) O trecho de audio selecionado a partir dos 40 segun-
dos iniciais garante, geralmente, que a parte transitoria
4. centroide espectral (SC ); do arranjo musical tenha sido executada. O programa
de tempo tapping foi validado comparando os resul-
5. espalhamento espectral (SS ); tados determinados a partir de um metronomo digital.
Assim, este conjunto de andamentos formam o ground
6. taxa de cruzamento por zero (ZCR ); truth do nosso sistema.

7. skewness espectral (SSk ). 5.2 Treinamento da RNA


Uma das contribuicoes originais de nossa proposta
Antes da extracao de atributos, realizamos 3 pre- e a utilizacao da rede neural como instancia decisoria
processamentos nas funcoes de periodicidade: remocao para a extracao de tempo musical a partir de atributos de
de nvel DC, normalizacao e retificacao em meia onda PeDF multirresolucionais. Na literatura recente, para a
(HWR). Os descritores , e sao extrados a par- tarefa de calculo de andamento, a RNA e utilizada para
tir da distribuicao dos valores D calculados a partir gerar as ODF [15]. Contudo, quando se trabalha com
das PeDF pre-processadas e os descritores espectrais RNA e preciso apresentar um banco de dados de qua-
a partir do seu espectro de amplitude considerando- lidade (ground truth), o chamado alvo que sera usado
as PeDF quasi periodicas. A ZCR e extrada dire- para o treinamento. Isto significa que para treinar uma
tamente das PeDF sem pre-processamento. Uma vez rede para detectar um onset e preciso apresentar para
pre-processadas, as 6 PeDF multirresolucionais foram a rede bons exemplos de ocorrencias destes eventos e
utilizadas para a extracao de atributos. Assim, para uma isto nao e uma tarefa facil. Utilizar o andamento como
unica musica, utilizando os 7 descritores mencionados alvo e muito mais simples devido a maior facilidade de
por resolucao, obtivemos um vetor R42 . determinacao manual dos andamentos.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 13
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

Para o treinamento das SLFN construmos uma ma-


triz T42m , onde m e o numero de musicas utiliza- 8

Nmero de msicas
das para realizar o ajuste dos parametros. Para ava-
6
liar os resultados obtidos a seguir selecionamos 200
musicas (68, 5 %) que denominamos de banco 2 e seus 4
respectivos tempos foram armazenados em um vetor
alvo denominado abanco2 e matriz de entrada de atri- 2

butos T42200 . A distribuicao destes andamentos esta 0


descrita na Figura 5. Este vetor, alvo do processo de 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180
BPM
treinamento supervisionado, possui uma potencia P =
9, 269 103 , valor que usaremos para balizar a perfor-
mance das redes com o erro quadratico medio (MSE). Figura 5: Histograma do banco 2.
Um dos experimentos realizados para validar a fac-
tibilidade do metodo proposto foi o treinamento de uma treino. O erro quadratico medio MSE e a correlacao R
SLFN com algoritmo de retropropagacao Levenberg- entre as sadas y e os alvos a estao descritos na Tabela
Marquardt, criterio de parada Early Stopping e particao 1. O erro para o conjunto de treinamento foi de 0, 14 e
dos alvos em 3 conjuntos: treinamento, validacao e da validacao foi de 743, 97. E importante salientar que
teste, com seus respectivos vetores atrbanco2 R126 , sendo uma medida quadratica os erros ficaram em torno
avbanco2 R37 e atsbanco2 R37 . Dado que o his- de 0, 37bpm e 27bpm, respectivamente.
tograma de abanco2 , Figura 5, e nao uniforme, deci-
dimos apresentar para a RNA uma selecao balance-
ada de andamentos do histograma, ou seja, cada con- 10
0

junto contem pelo menos uma amostra de andamento Treinamento


disponvel, quando possvel. As operacoes de pre- 10 Validao
MSE

10
Teste
processamento dos atributos e alvos apresentados para timo
a RNA foram o mapeamento para um intervalo de [-1,1] 10
20

e a remocao de nvel medio.


A seguinte metodologia foi utilizada para gerar os 0 2 4 6
pocas
8 10 12

reultados aqui analisados:


Figura 7: Performance durante o treinamento.
Uma camada oculta nao-linear com numero N de
neuronios variando de 1 a 20, gerando 20 topolo-
gias distintas;
Tabela 1: RNA com 12 neuronios
Camada de sada linear com 1 neuronio;
Conjunto Amostras MSE R
Distribuicao balanceada das musicas no que se re-
fere aos andamentos; Treinamento 126 0, 14 0, 99
Validacao 37 743, 97 0, 46
Treinamento efetuado 20 vezes para cada topolo- Teste 37 1, 38 103 0, 36
gia de rede devido a necessidade de variacao de
condicoes iniciais;
Performance de avaliacao: erro quadratico medio 5.3 Analise de Erro
(MSE), entre sadas e alvos, e correlacao (R), que
mede a correlacao entre sada e alvo. Apesar do baixo desempenho no que se refere
a generalizacao, a potencia do erro do conjunto de
O melhor resultado ocorreu para uma rede de 12 validacao esta bem abaixo da potencia de abanco2 , cerca
neuronios, Figura 6. A hipotese y foi tracada para os de 1/12 menor. Isto, juntamente com o fato da rede ter
tres conjuntos. Pode-se observar que a RNA aprendeu aprendido o mapeamento subjacente entre os descrito-
com performance excelente o conjunto de treinamento. res e os alvos, para o conjunto de treinamento, indica a
Contudo, os conjuntos de validacao e teste nao exibiram possibilidade de melhora da generalizacao da rede com
resultados tao expresivos, ou seja, a RNA nao adquiriu o uso de outras estrategias.
uma boa capacidade de generalizacao. O criterio de medida MSE para o treinamento de
A Figura 7 exibe a evolucao do treinamento que apredizagem de maquina esta bastante consagrado.
obteve a melhor performance. O comportamento das Contudo, para a avaliacao de desempenho da deteccao
curvas de validacao e teste nao exibiram anormalida- de tempo certos cuidados devem ser tomados. Por
des como, por exemplo, se a curva do conjunto de teste exemplo, um erro da ordem de 10 bpm para um alvo
houvesse comecado a crescer antes da validacao indi- igual a 120 bpm resultaria em MSE=100 enquanto um
cando uma divisao pobre dos dados para o processo de erro por multiplicidade, digamos, tempo alvo igual a

12o CONGRESSO / 18aDECONVENC


12 CONGRESSO AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 APAULO,
SO 15 DE13MAIO DE
A 15 DE 2014
MAIO DE 2014 14
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

Treinamento: R=0.99994 Teste: R=0.3635 Validao: R=0.46143

y 0.64a + 25
150

y 0.63a + 32
y 1a + 0.21
150 150

100
100 100
50
50 50
50 100 150 50 100 150 50 100 150
alvo alvo alvo

Dados
Hiptese
y=a

Figura 6: Regressao: treinamento, teste, validacao.

120 bpm e uma hipotese igual a 240 bpm implicaria em de precisao para confrontar os resultados aqui atingidos
MSE=14.400. Este ultimo caso, apesar da magnitude com alguns resultados da literatura.
do valor, seria um erro qualitativo que traz informacoes Avaliando o desempenho do nosso sistema em cima
importantes a respeito da estrutura rtmica do sinal mu- dos resultados obtidos para o conjunto de teste, que nao
sical e, a depender da aplicacao, pode ser posterior- e utilizado para o treinamento da RNA, se considerar-
mente tratado, enquanto o primeiro seria um erro ina- mos a janela de precisao, houve um ndice de acerto de
ceitavel para esta faixa de andamento. 16, 22%, considerando a metrica 1. Em [17] o pior e
Alguns estudos comparativos sobre algoritmos de o melhor desempenho, avaliando somente a metrica 1,
extracao de tempo foram realizados pela comunidade foi de 5, 15% e 60, 43%, respectivamente. Neste con-
MIR e um dos mais recentes [17] considera 3 metricas fronto e importante ressaltar dois aspectos. O primeiro
para a avaliacao de desempenho da extracao de anda- e que a base de dados usada em [17] e muito diferente
mento: da nossa base. So para citar uma diferenca fundamen-
tal, das 465 musicas do trabalho de Zapata et al [17]
Metrica 1: Valores detectados que estejam dentro 59 sao do genero eletronico e 144 musicas classifica-
de janela de precisao de 4% do ground truth; das como grega e balca, enquanto no nosso banco de
musicas nao ha musica eletronica e mais de 65% e de
Metrica 2: Valores detectados que estejam dentro musica brasileira. O genero de musica eletronica torna
de janela de precisao de 4% do ground truth e seus a tarefa em questao, extracao de tempo, muito mais sim-
submultiplos (1/2 e 1/3) e multiplos (2 e 3); plificada, pois a presenca marcante do beat neste tipo
de musica e ponto fulcral. Para alem disto, como ci-
Metrica 3: Valores detectados que estejam dentro tado anteriormente, a musica brasileira possui um cor-
de janela de precisao de 4% do ground truth e seus pus extremamente variado e complexo do ponto de vista
submultiplos (1/2, 1/3 e 1/4) e multiplos (2, 3, 4 e rtmico devido a fusao de elementos do samba, africa-
6); nos, indgenas, ocidentais e outros, estando estes ele-
mentos marcadamente presentes em nosso banco de da-
As metricas 2 e 3 buscam incluir a deteccao de dos. O segundo aspecto e que as multiplicidades, de
tempo que sofra de ambiguidades devido aos varios todos os tipos indicados nas metricas 2 e 3, nao ocorre-
nveis hierarquicos do beat, pois e comum resultados ram. Isto pode indicar que o nosso sistema seja poten-
como tempo dobrado, triplicado e etc. Tomando estas cialmente mais robusto em relacao as ambiguidades de
metricas como baliza, deve-se observar que: tempo, apesar deste tipo de dificuldade ser natural para
o ser humano. Em contrapartida, verificou-se uma mul-
4%@60 bpm = 2, 4 bpm SE = 5, 8 tiplicidade de 2/3 no conjunto de validacao e outra no
conjunto de teste.
4%@120 bpm = 4, 8 bpm SE = 23, 0

4%@240 bpm = 9, 6 bpm SE = 92, 2 6 CONCLUS AO


Neste artigo, nos propusemos um novo sistema para
onde SE e o erro quadratico. Logo, percebendo a rela- a extracao de tempo em sinais musicais baseado na
tividade do erro a depender do valor do tempo alvo, sen- aplicacao da Transformada Wavelet e de Redes Neurais
timos a necessidade de avaliar o resultado do processo Artificiais. Um banco de dados com 507 musicas, com
de treinamento da SLFN a luz destes criterios de janela cerca de 66% de musicas brasileiras, dos mais variados

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 15
FERNANDES JR. E DAMIANI EXTRACAO DE TEMPO MUSICAL

generos, foi construdo e seus respectivos andamentos [7] S. Dixon, Onset detection revisited, in Proc.
anotados manualmente. Deste banco total, seleciona- Digital Audio Effects (DAFx-06).
mos 200 musicas (68, 5% brasileiras) para a realizacao [8] A.P. Klapuri, A.J. Eronen, and J.T. Astola,
dos treinamentos aqui descritos. Avaliando o conjunto Analysis of the meter of acoustic musical sig-
de teste, o desempenho do sistema proposto foi de nals, IEEE Transactions on Audio, Speech and
16, 22%, considerando as metricas propostas em traba- Language Processing, vol. 14, no. 1, pp. 342355,
lhos existentes na literatura. Comparando com outros Jan. 2006.
algoritmos existentes, guardando as devidas proporcoes
devido as diferencas qualitativas e quantitativas entre [9] E. Scheirer, Tempo and beat analysis of acoustic
os bancos de dados, o nosso metodo se mostrou pro- musical signals, The Journal of the Acoustical
missor pois o mapeamento entre os atributos e os alvos Society of America, vol. 103, pp. 588601, 1998.
foi realizado de forma bastante precisa para o conjunto [10] Geoffroy Peeters, Spectral and Temporal Perio-
de treinamento e a potencia do erro para os conjun- dicity Representations of Rhythm for the Automa-
tos de validacao e teste ficou abaixo de cerca de 15% tic Classification of Music Audio Signal, IEEE
da potencia do alvo. Isto pode indicar uma possibili- Transactions on Audio, Speech, and Language
dade para a melhora da generalizacao com o uso de ou- Processing, vol. 19, no. 5, pp. 12421252, July
tras estrategias adicionais. Dentre as alternativas, ja em 2011.
fase de implementacao, podemos citar a ampliacao do
numero de descritores a partir dos existentes na litera- [11] M. E. P. Davies and M. D. Plumbley, Context-
tura, a criacao de novos descritores especficos para ati- Dependent Beat Tracking of Musical Audio,
vidade rtmica a partir das PeDF multirresolucionais e IEEE Transactions on Audio, Speech and Lan-
a selecao da combinacao de descritores mais adequada guage Processing, vol. 15, no. 3, pp. 10091020,
a solucao do problema proposto, utilizando abordagens Mar. 2007.
de selecao de atributos e variaveis como metodo de ran-
king, filtros e wrappers. [12] A. C. L. Fernandes Jr. and F. Damiani, Tempo
extraction in musical signals using complex do-
REFER ENCIAS BIBLIOGR AFICAS main and wavelet transforms, in Proceedings of
the SPS 2013, Campinas, Brazil, September. 18-
[1] A. Lerch, An Introduction to Audio Content 20, 2013.
Analysis, John Wiley and Sons, New Jersey, USA,
first edition, 2012. [13] G. Strang and T. Nguyen, Wavelet and Filter
Banks, Wellesley-Cambridge Press, Wellesley
[2] M. Gainza and E. Coyle, Tempo Detection Using MA, USA, second edition, 1997.
a Hybrid Multiband Approach, IEEE Transacti-
ons on Audio, Speech, and Language Processing, [14] J. P Bello, C. Duxbury, M. Davies, and M. San-
vol. 19, no. 1, pp. 5768, 2011. dler, On the Use of Phase and Energy for Musical
Onset Detection in the Complex Domain, IEEE
[3] J. P. Bello, L. Daudet, and S. Abdallah, A tutorial Signal Processing Letters, vol. 11, no. 6, pp. 553
on onset detection in music signals, IEEE Tran- 556, 2004.
sactions on Audio, Speech, and Language Proces-
sing,, pp. 113, 2005. [15] Florian Krebs Markus Schedl Sebastian Bock,
Andreas Arzt, Online Real-Time Onset Detec-
[4] J. Laroche, Estimating Tempo, Swing, and Beat tion with Recurrent Neural Networks, in Proc.
Locations in Audio Recordings , IEEE Workshop Digital Audio Effects (DAFx2012), 2012, pp. 15
on Applications of Signal Processing to Audio and 18.
Acoustics, pp. 135138, October 2001.
[16] S. Haykin, Neural Networks and Learning Ma-
[5] C. Duxbury, J. P. Bello, M. Davies, and M Sandler, chines, Pearson-Prentice Hall, New Jersey, USA,
Complex domain onset detection for musical sig- third edition, 2009.
nals, in Proc. Digital Audio Effects (DAFx-03),
London, UK, September. 8-11, 2003. [17] Jose R. Zapata and Emilia Gomes, Compara-
tive evaluation and combination of audio tempo
[6] M. Alonso, B. David, and G. Richard, A hy- estimation approaches, in AES 42nd Internatio-
brid approach to musical note onset detection, in nal Conference, Ilmenau, Germany, July. 22-24,
Proc. 5th Int. Symp. Music Inf. Retrieval (ISMIR- 2011, pp. 110.
2004).

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 16
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de udio
18a Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original nal entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste
artigo sem autorizao expressa da AES Brasil.

Subband Proportionate Adaptive Algorithm With


Variable Learning Factor
Diego B. Haddad,1 and Mariane R. Petraglia2
1
CEFET-RJ, Unidade Descentralizada de Nova Iguau, Coordenao de Telecomunicaes
Nova Iguau, RJ, 26041-271, Brasil
2
Universidade Federal do Rio de Janeiro, COPPE, DEL
Rio de Janeiro, RJ, 21945-970, Brasil

diego@pads.ufrj.br, mariane@pads.ufrj.br

ABSTRACT
In contexts where an adaptive algorithm aims to identify a sparse impulse response (e.g., in an echo
cancellation setting), some problems may arise, such as slow convergence. This fact motivated a great
interest in proportionate adaptation techniques, which the PNLMS algorithm pioneered. In this paper,
to deal with the compromise between convergence rate and steady-state MSE, we combine a learning
factor variation technique with a non-uniform subband structure which employs sparse adaptive lters.
The extension of PNLMS-type algorithms to subbands prevents signicant loss in convergence rate if
the input is not white (such as audio signals).

0 INTRODUCTION vector


hk =
hk (0) ...
hk (L 1) . (1)
System identication is one of the most impor- hk (1)
tant applications of adaptive ltering techniques [1],
in which an adaptive lter gradually moves from Thus, the adaptive algorithm attempts to approximate
an arbitrary state, towards a given reference sys- its output y(k) =
hk xk to the ideal response
tem, which we want to emulate [2]. Let xk = d(k) = hxk , (2)
T
x(k) x(k 1) . . . x(k L + 1) be the vector for-
med by L consecutive samples of the input signal x(k), which is dependent on the unknown impulse response
where L is the length of the adaptive lter, whose co- to identify h. Inaccuracies resulting from measure-
efcients, in the k-th iteration, are collected in the row ments of the desired response d(k) typically produce an

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 17
HADDAD AND PETRAGLIA SUBBAND PROPORTIONATE ADAPTIVE ALGORITHM

additive noise (k). The unpredictability of such noise sparse subband lters (WT-SF structure [8]). Two ad-
prevents us from removing it, and hence the algorithm ditional reasons motivated the choice of such structure:

has access to d(k) = d(k) + (k). Therefore, given i) absence of decimation1 , which avoids deleterious ef-
a learning factor = 1, we can associate the NLMS fects produced by aliasing; ii) the tendency of spar-
algorithm, which is very popular in the context of iden- sifying the transfer functions to be identied, which we-
tifying long impulse responses, to the optimization pro- akens the hypothesis that they are sparse in the time do-
blem main, allowing to include also the cases that the sparsity
is concentrated in some subbands. Note that even when
1 T
the transfer functions are sparse in the time domain, the
min hk+1 hk 1
k

hk+1 hk (3)
hk+1 2
use of the WT-SF structure does not usually yield sig-

s.t. d(k) hk+1 xk = 0, nicant performance degradation regarding the conver-
gence rate. The disadvantage of the WT-SF structure
where k is the identity matrix [3]. is the delay in producing estimates, which, for being
Many audio applications, such as echo cancellation, small, is usually not critical. This delay can be circum-
use adaptive ltering in order to identify impulse res- vented by techniques similar to those advocated by [9],
ponses whose lengths are variable in a large range. In which, on the other hand, have the disadvantage of in-
order to deal with the worst-case situation, the adaptive creasing the computational cost.
lter order could be very large, which might provide, in Illustrated in Figure 1, the WT-SF structure employs
easier contexts, sparse impulse responses (that is, with a non-uniform lter bank with analysis lters H n (z)
energy concentrated in a few coefcients).
and sparse adaptive lters H n,k z Ln . For a wavelet
In this paper, three powerful strategies are combi- transform whose bands are divided into octaves, the l-
ned in order to attain a reasonable compromise of con- ters of the equivalent analysis lter bank with M sub-
vergence rate versus steady-state MSE when the in- bands are [10]:
put signal is not white and the impulse response to be
identied tends to be sparse. This sparsity is frequen- M 2
j
tly observed in several applications, both in the time H 0 (z) = H 0 z2 , (5)
domain (e.g., in HDTV systems, underwater acoustic j=0

channels and wireless multipath channels [4]) and in the M 1k M


k2 j
frequency domain (e.g., in acoustic recordings, where H n (z) = H 1 z 2 H 0 z2 ,
the corresponding transfer functions present a low-pass j=0
characteristic [5], [6]).
n = 1, , M 1,
Owing to such sparse characteristics of the system
to be identifed, the slow convergence of the adaptive al- where H (z) and H 1 (z) are, respectively, the lowpass
0

gorithm can be circumvented by distributing the update and highpass lters associated to the wavelet functions
energy unevenly among the lter coefcients, which [10]. The sparsity factors are:
is a procedure that can be interpreted, in a context of
scarcity, as the optimal allocation of a nite resource. L0 = 2M 1 , Ln = 2M n , n = 1, , M 1. (6)
Such allocation can be efciently implemented through
the distribution of the learning factors, which is usu- The delays n in Figure 1 are given by n = MH 0
ally done by the PNLMS-type algorithms (adhering to MH n , where MH n is the length of the n-th analysis l-
the paradigm of [7]), by changing the main diagonal ter. For modeling an FIR system of length L, the num-
components gk (l) of the diagonal matrix k , so that the ber of adaptive coefcients Mn of H n,k (z) must be at
adaptive coefcients hk (l) of largest magnitudes cor- least
respond to the largest values of gk (l). Since L + MFn
Mn = + 1, (7)
Ln
where MFn is the length of the n-th synthesis lter. In
L1
(
hk+1 (l) hk (l))2
hk+1
( hk )1
k (hk+1 hk ) =
T ,
l=0
gk (l) the WT-SF structure the synthesis lters are not imple-
(4) mented separately; the adaptive lters, besides mode-
the minimization associated to the PNLMS-type algo- ling the unknown system, take care of the correct re-
rithms becomes less sensitive to the distance (
hk+1 (l) construction of the output signal.

hk (l))2 as the magnitude of


hk (l) increases. This stra- Finally, we adopt a variable step-size method to ob-
tegy enables a more pronounced update of the larger tain fast convergence and small misadjustment, by ap-
magnitude coefcients, which is equivalent to increa- plying the NPVSS (Nonparametric Variable Step Size)
sing their corresponding learning factors. This update technique presented in [11] to the WT-SF proportionate
is known as proportionate adaptation. algorithm. The NPVSS technique was derived by ap-
For colored input signals, the use of subband struc- proximating the expected value of the squared a pos-
tures can avoid a substantial loss of convergence rate. teriori error to the noise variance, corresponding to a
To this end, we chose to employ a closed loop nonu- 1 It is worth pointing out that the wavelet transform (WT) does not

niform structure by combining wavelet transform and avoid decimation, but the WT-SF does.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSO PAULO,
DA AES BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 18
HADDAD AND PETRAGLIA SUBBAND PROPORTIONATE ADAPTIVE ALGORITHM

when it is dispersive. The conversion of h to the do-


x(k) H 0 (z) z 0
x0 (k)
H0,k z L0
y0 (k)
main of the parameter (k) was obtained through si-
mulations, as detailed in [16]. Instead of using the lo-
x1 (k) y1 (k) garithm of the each coefcient magnitude as step gain
H 1 (z) z 1 H1,k z L1
(as proposed by [15]), the following line segment func-
tion F (), which reduces the complexity of the mu-law
H 2 (z) z 2
x2 (k)
H2,k z L2
y2 (k) PNLMS algorithm, was employed:
d(k D )
400|hk (n)|, |
hk (n)| < 0.005
H M 1 (z)
xM 1 (k)
HM 1,k z LM 1
yM1 (k) F (
hk (n)) = ,
z M 1
y (k)
8.51|
hk (n)| + 1.96, otherwise
Analysis Filter Bank (9)
The adopted proportional algorithm (IMPNLMS)
Figure 1: WT-SF structure with nonuniform lter banks can be used in conjunction with the WT-SF structure,
and sparse adaptive sublters. which consists of a non-uniform version of the struc-
ture proposed by [18].
The combination of the proportional update techni-
change, along the iterations, of the amount of available que with the WT-SF structure improves the adaptation
update energy, so as to obtain larger learning factors in convergence rate for sparse systems and colored inputs,
the early iterations (maximizing the convergence rate) but does not solve the well-known trade-off between
and smaller ones in the steady state, which reduces the fast convergence rate and low misadjustment. Seeking a
MSE after convergence. good solution, we generalize the NPVSS strategy [11],
originally aimed at the NLMS, in order to apply it to
1 RELATION TO PRIOR WORK the proportional update algorithms. The main advan-
tage of the NPVSS technique, when compared to other
Several strategies have been proposed to deal with variable step-size methods such as the Set-Membership
the identication of sparse impulse responses, inclu- approach [19],[20], is that it does not depend on para-
ding the use of an approximation of the standard l0 meters that are difcult to tune in practice.
norm to obtain a more accurate measure of sparsity [12]
or the use of Krylov subspace [13]. The technique ap- 2 DERIVATION OF THE PROPOSED
plied in this paper follows the paradigm of proportio- ALGORITHM
nal update, whose rst algorithm (PNLMS) was pre-
sented in [7]. The disadvantages of the PNLMS ap- We rst derive the NPVSS version of the PNLMS-
proach, including requirements of large sparsity of the type algorithms. The extension of this approach to the
impulse response to be identied and loss of conver- WT-SF proportionate algorithms is presented later.
gence rate after an initial rapid convergence, have been The update equation of a PNLMS-type algorithm is
the object of attention in several papers, e.g. [14], [15].
One of the most successful algorithms in this respect is xT k e(k)
hk+1 =
hk + k kT , (10)
the improved mu-law PNLMS (IMPNLMS) algorithm xk k xk
[16], which adjusts the distribution of the learning fac-
tor energy (or, equivalently, the parameters gk (l)) th- where the index k indicates that the learning factor be-
rough an adaptive estimation of the degree of the spar- comes dependent on the iteration, owing to the variable
sity of the system, making it advantageous (compared step size technique.
to the NLMS) in almost all contexts2 . For this reason, Subtracting h from both sides and multiplying them
the parameters gk (l) become dependent on hk , (k) on the right by xk , we obtain
and F (hk (n)), which are related to the sparsity of the
hk+1 h xk =
hk h xk + k e(k). (11)
system and to the norm of hk , as dened next.
In the IMPNLMS algorithm, the sparsity measure hk
is dened as [17] from which it follows that
ep (k) = e(k) k e(k) = (1 k )e(k), (12)
L ||
hk ||1
hk = 1 , (8)
L L L||hk ||2 k+1 )xk + (k) is the a posteri-
where ep (k) = (h h
(1/p) ori measurement error. Taking the square of both sides
where ||
hk ||p =
L1 of the above equation, applying
the expected value and
n=0 |hk (n)| . The sparsity
p

choosing k so that E e2p (k) = 2 , we arrive at the
measure assumes values in the interval [0,1], approa-
ches 1 when the impulse response is sparse and zero quadratic equation

2 Note that, although we have adopted the IMPNLMS algorithm in 2

this paper, our proposal allows the use of any PNLMS-type algorithm.
k2 2k + 1 2 = 0, (13)
e

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO SO
NACIONAL PAULO,
DA AES BRASIL13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 19
HADDAD AND PETRAGLIA SUBBAND PROPORTIONATE ADAPTIVE ALGORITHM

where e2 and 2 are the variance estimates of the er-


ror and measurement noise, respectively. A physically Table 1: NPVSS-IMPNLMS-WT-SF Algorithm
plausible solution of the above equation is
Initialization (typical values)


k = 1 . (14) = 0.01, = 0.001, 0 = 0.9, = 0.1

e
2 = estimated noise variance
e2 (1) = 0,

For the WT-SF proportionate algorithm, a factor
n (1) = 0.96
= 0 /M should be included to deal with the fact
that this algorithm presents an upper bound for the lear- hn,0 =
hn (0) hn (Mn 1) = 0
hn (1)
ning factor k that decreases as the number of subbands Processing and Adaptation
M increases [21]. The condition = 0 = 1 leads to
the fullband update equation [11], as this can be unders- For k = 0, 1, 2,
tood as a particular case of WT-SF structure with only For n = 0, 1, , M 1
one subband. Thus, the NPVSS proportionate update MH n 1

equation for the WT-SF structure becomes xn (k) = hn (i)x(k i)

i=0
k + 0 1 xTk k e(k)
hk+1 = h
. (15) xn,k = xn (k n ) xn (kn Ln )
M
e xTk k xk T
xn (kn (Mn 1)Ln )]
Table 1 presents the implementation details of the yn (k) = h
n,k xn,k
NPVSS-IMPNLMS-WT-SF algorithm, including the
Mn
e estimation. In this table, diag{y} is a diagonal ma-
(n) =
trix whose main diagonal is composed by the coef- Mn Mn
Mn 1

cients of the vector y. In practice, an estimate of the h n,k (j)
j=0
noise standard deviation (e.g. [22]), which can be ob-
hn,k = (n) 1 Mn 1 2

tained during silence periods [11], is employed. At the Mn j=0 hn,k (j)
initialization part of this table, n (1) and h
n,0 are all
n (k) = (1 )n (k 1) + hn,k
set equal, for n = 0, 1, . . . , M 1, assuming that no a
priori information is available. n (k) = 2n (k) 1
For i = 0, . . . , Mn 1
3 COMPUTER SIMULATIONS 1 n (k)
gn,k (i) = +
Using as input signal a unit variance Gaussian white 2Mn

noise ltered by H(z) = 11.5z 1 +z 2 0.25z 3 and
0.25

(1 + n (k))F hn,k (i)
Model 6 of the ITU Recommendation [23] as system
to be identied, whose impulse response has 120 co- Mn 1
2 j=0 F hn,k (j) +
efcients, we tested the NLMS, IMPNLMS, IMPNLS-
WT-SF and proposed NPVSS-IMPNLS-WT-SF (with End
bior4.4 wavelet) algorithms. A white noise Gaussian n,k = diag {gn,k (0), . . . , gn,k (Mn 1)}
signal of variance 106 was added to the desired sig- End
nal d(k). The NLMS parameters values were = 0.9, M 1

= 0.01 and L = 120. For the algorithms derived y(k) = yn (k)
from the IMPNLMS approach, we adopted 2 = 106 , n=0
= 0.01, = 0.001, = 0.1, = 0.96, 0 = 0.9 ) y(k)
e(k) = d(k D
and L = 120. The MSE curves, smoothed by averaging
1 1 2
over 500 consecutive samples, of the NPVSS and stan- 2
e (k) = 1 e2 (k 1) +
e (k)
dard (with xed step-size) versions of the algorithms 2L 2L

are shown in Figure 2. It can be observed from this = 1


gure that the use of the NPVSS technique (dashed li-
e (k)
nes) does not produce any signicant loss of conver- For n = 0, 1, , M 1
gence rate. The use of WT-SF structure combined to If > 0
the NPVSS algorithm (D) shows advantageous, so as
to keep the convergence rate increase without sacri- 0 xTn,k n,k e(k)
hn,k+1 =
hn,k +
cing the misadjustment. The MSE in steady state, ob- M xTn,k n,k xn,k +
tained by averaging over 40,000 iterations in the steady End
state, is presented in Table 2, which shows that the use End
of the NPVSS technique leads to a signicant reduc-
End
tion of the misadjustment, with the MSE in steady-state
approaching its minimum value (-60 dB). The WT-SF

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSO PAULO,
DA AES BRASIL13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 20
HADDAD AND PETRAGLIA SUBBAND PROPORTIONATE ADAPTIVE ALGORITHM

structure with M = 3 and NPVSS technique presents [2] H. J. Butterweck, A steady-state analysis of the
the best results among all tested algorithms, because LMS adaptive algorithm without use of the inde-
the reduction in the convergence rate due to the use of pendence assumption, IEEE International Con-
NPVSS is imperceptible and its steady-state MSE is si- ference on Acoustic, Speech and Signal Proces-
milar to the other NPVSS algorithms. sing (ICASSP), vol. 2, pp. 14041407, May 1995.
[3] L. Xu and P. Li, A set-membership approach
20 to improved PNLMS algorithm, International
25
D Conference on Intelligent Control and Informa-
C
B tion Processing, pp. 5457, Aug. 2010.
30
A
35 [4] G. Mileounis, B. Babadi, N. Kalouptsidis, and
MSE (dB)

Vahid Tarokh, An adaptive greedy algorithm


40
with application to nonlinear communications,
45 IEEE Transactions on Signal Processing, vol. 58,
50 no. 6, pp. 29983007, Jun. 2010.
55 [5] F. A. Everest and K. Pohlmann, Master Handbook
60 of Acoustics, McGraw-Hill, New York, 4 edition,
2000 4000 6000 8000 10000 12000 14000 2000.
Iteration Number
[6] J. Liu and H. Malvar, Blind deconvolution of
Figure 2: MSE evolution (in dB) of NLMS (A), reverberated speech signals via regularization,
IMPNLMS (B), IMPNLMS-WT-SF with M = 2 (C) IEEE International Conference on Acoustic, Spe-
and IMPNLMS-WT-SF with M = 3 (D) algorithms. ech and Signal Processing (ICASSP), vol. 5, pp.
NPVSS versions of these algorithms are shown in 30373040, May 2001.
dashed lines; and in solid lines, their standard versions.
[7] D. L. Duttweiler, Proportionate normalized least-
mean squares adaptation in echo cancelers, IEEE
Transactions on Speech and Audio Processing,
4 CONCLUSIONS vol. 8, no. 5, pp. 508518, Aug. 2000.
In this paper, we applied the nonparametric variable [8] M. R. Petraglia and G. Barboza, Improved
step size approach to the WT-SF adaptive algorithm, in PNLMS algorithm employing wavelet transform
order to keep its high convergence rate while reducing and sparse lters, Proceedings of the 16th Euro-
its steady-state MSE. The WT-SF algorithm employs a pean Signal Processing Conference (EUSIPCO),
non-uniform subband structure, whose absence of ali- pp. 18, Aug. 2008.
asing yields a misadjustment that is similar to the one
produced by the fullband version of the adaptive algo- [9] R. Merched, P. S. R. Diniz, and M. R. Petra-
rithm. Additionally, the use of proportional algorithms glia, A delayless alias-free subband adaptive l-
enables to speed up the convergence when identifying ter structure, IEEE Transactions on Signal Pro-
systems with sparse impulse responses. The combina- cessing, vol. 47, no. 6, pp. 12901299, Jun. 1999.
tion of these three strategies (namely, variable step-size,
[10] P. P. Vaidyanathan, Multirate Systems and Filter
subband and proportionate update techniques) proved
Banks, Prentice Hall, New Jersey, 1 edition, 1993.
to be quite promising.
[11] J. Benesty, H. Rey, L. R. Vega, and S. Tressens, A
REFERENCES nonparametric VSS NLMS algorithm, IEEE Sig-
nal Processing Letters, vol. 13, no. 10, pp. 581
[1] S. Haykin, Adaptive Filter Theory, Prentice Hall, 584, Oct. 2006.
New Jersey, 3 edition, 1996.
[12] C. Paleologu, J. Benesty, and S. Ciochina, An
improved proportionate NLMS algorithm based
Table 2: Steady-State MSE (in dB) of the standard on the l0 norm, IEEE International Confe-
(MSES ) and the NPVSS (MSENP ) algorithms. rence on Acoustic, Speech and Signal Processing
(ICASSP), pp. 309312, Mar. 2010.
Algorithm M MSES MSENP [13] M. Yukawa and W. Utschick, Proportionate
NLMS 1 -57.34 -59.53 adaptive algorithm for nonsparse systems based
IMPNLMS 1 -57.41 -59.59 on krylov subspace and constrained optimiza-
IMPNLMS-WT-SF 2 -57.90 -59.83 tion, IEEE International Conference on Acous-
IMPNLMS-WT-SF 3 -57.59 -59.85 tic, Speech and Signal Processing (ICASSP), pp.
31213124, Apr. 2009.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSO PAULO,
DA AES BRASIL13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 21
HADDAD AND PETRAGLIA SUBBAND PROPORTIONATE ADAPTIVE ALGORITHM

[14] H. Deng and M. Doroslovacki, Improving con- [19] S. Gollamudi, S. Nagaraj, S. Kapoor, and Y.-
vergence of the PNLMS algorithm for sparse im- F. Huang, Set-membership ltering and a set-
pulse response identication, IEEE Signal Pro- membership normalized LMS algorithm with an
cessing Letters, vol. 12, no. 3, pp. 181184, Mar. adaptive step size, IEEE Signal Processing Let-
2005. ters, vol. 5, no. 5, pp. 111114, Feb. 1998.

[15] H. Deng and M. Doroslovacki, Proportionate [20] A. Mader, H. Puder, and G. U. Schmidt, Step-
adaptive algorithms for network echo cancella- size control for acoustic echo cancellation lters:
tion, IEEE Transactions on Signal Processing, an overview, Signal Processing, vol. 80, pp.
vol. 54, no. 3, pp. 17941803, Apr. 2006. 16971719, Sep. 2000.

[16] L. Liu, M. Fukumoto, and S. Saiki, An improved [21] M. R. Petraglia and D. B. Haddad, Mean-square
mu-law proportionate NLMS algorithm, IEEE error and stability analysis of a subband structure
International Conference on Acoustic, Speech and for the rapid identication of sparse impulse res-
Signal Processing (ICASSP), pp. 37973800, Apr. ponses, Digital Signal Processing, vol. 22, no. 6,
2008. pp. 10681072, Dec. 2012.

[17] Y. Huang, J. Benesty, and J. Chen, Acoustic [22] J. Ni and F. Li, A variable step-size matrix nor-
MIMO Signal Processing (Signals and Communi- malized subband adaptive lter, IEEE Transacti-
cations Technology), Springer, New York, 1 edi- ons on Audio, Speech, and Language Processing,
tion, 2006. vol. 18, no. 6, pp. 12901299, Aug. 2010.

[18] M. R. Petraglia and S. K. Mitra, Adaptive FIR [23] ITU-T (Study Group 15), Digital network echo
lter structure based on the generalized subband cancellers (recommendation), Tech. Rep. G.168,
decomposition of FIR lters, IEEE Transactions ITU-T, 2004.
on Circuits and Systems - II: Analog and Digital
Processing, vol. 40, no. 6, pp. 354362, Jun. 1993.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSO PAULO,
DA AES BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 22
Sociedade de Engenharia de Audio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de Audio
18a Convencao Nacional da AES Brasil
13 a 15 de Maio de 2014, Sao Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edicoes, correcoes ou consideracoes feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informacoes sobre a secao Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproducao total ou parcial deste
artigo sem autorizacao expressa da AES Brasil.

On the extraction of parameters from expressive


musical performances
Lucas S. Maia1 and Luiz W. P. Biscainho1
1
Universidade Federal do Rio de Janeiro, SMT, DEL/Poli & PEE/COPPE
Rio de Janeiro, RJ, Caixa Postal 68504, Brasil

lucas.maia@smt.ufrj.br, wagner@smt.ufrj.br

ABSTRACT
This paper approaches the extraction of parameters from expressive musical performances. Although
several other elements (e.g. pitch, timbre, and articulation) that are jointly perceived contribute to shape
a performance, studying the evolution of both dynamics and agogics along a piece may provide an
important feel of the performers expressive resources. The novelty in this work is the extraction of
the dynamic curve along time by means of an algorithm based on the equal-loudness contours (described
in ISO 226 Standard). The new approach is compared to a previous technique; applied to a subset of
Chopins 24 Preludes, Op. 28, recorded by different pianists; and plugged into a graphical visualization
tool.

0 INTRODUCTION sive strategies from other performances of the same


piece, a musician usually ends up by imprinting his/her
One of the main tasks a performer faces when own style to a performance. This means that the inter-
he/she is given a piece of music to play is understand- nal motion evocated by the composer and experienced
ing the composers intentions embedded in each musi- by the performer together with the latters own creativ-
cal phrase as well as the underlying architecture. Of ity will give the piece a unique shape [2]. The per-
course, the composer leaves the performer some cues, formers ability to convey emotion through expressive
such as tempo and dynamic markings, on the sheet mu- strategies is also unique and depends on his/her tech-
sic. In the case of classical music, the title may also help nical background, sensibility and musical culture [1].
to set the mood under which a certain piece should be Without expression, i.e., when the notes are played with
played [1]. equal intensity and exact duration as notated on the
Although he/she can simply translate the written sheet music, the piece sounds poor [3], lifeless and
cues from the sheet music or even replicate expres- mechanical [4].

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 23
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

The interest in characterizing a performer through The organization of this paper is as follows. In Sec-
his/her commonly employed expression strategies, i.e., tion 1, a brief overview of theoretical aspects is made,
his/her signature, arises naturally. Many works and a basic system for the extraction of expressive el-
achieved important insights on performers expressive- ements is presented. In Section 2, the new method for
ness by studying dynamic or agogic structures alone [5, the dynamic curve extraction is described in detail. The
6, 7, 8, 9]. Their joint evolution along the piece was proposed method is assessed against another one and
analyzed with different visualization techniques [10, further results are presented in Section 3. Conclusions
11, 12, 13], which allowed further investigation. The are drawn in Section 4.
Mazurka Project [14] conducted at the AHRC Cen-
tre for the History and Analysis of Recorded Music 1 THEORETICAL BACKGROUND
(CHARM) has collected almost 3000 recordings of This section makes a brief overview of the neces-
Chopins mazurkas and, by analyzing tempo and dy- sary background for this work. The concepts of sound
namic data, verified the potential of computational tech- pressure level and loudness level are presented and con-
niques for characterizing performances, e.g., style sim- trasted. The first one is very important from the physi-
ilarity. It is important to notice that the analysis of only cal/acoustical point of view, whereas the latter is related
a couple of parameters is not an attempt to reduce mu- to the perception of sound intensity. The parameters
sic and musical composition to a few elements. On the of expressiveness considered in this work are then de-
contrary, understanding those elements and their inter- scribed, and a basic extraction system is introduced.
action has been proved very useful in the study of ex-
The objective of a generic expressive performance
pressive strategies, e.g., in the case of style classifica-
analysis system is to extract the expressive elements of
tion.
interest, e.g., agogic and dynamic accents, so that style
In this paper, an approach to the extraction of those
strategies can be inferred. In a digital domain, the re-
expressive elementsdynamics and agogicsfrom a
sulting expression curve obtained from the analysis
musical performance is studied. While the analysis of
of a recording is a sampled version of the performances
temporal characteristics is easily inferred after the de-
true tempo/dynamic flow.
tection of beats or other metrical level of interest, the
essence of the pieces dynamic evolution requires fur- 1.1 Sound Pressure Level, Loudness and
ther treatment. An objective measurement of sound Equal-Loudness Contours
intensity may be obtained from the spectrogram of a
recording or live performance. However, this measure In Acoustics, sound is a mechanical wave generated
does not contemplate the subjective features of sound by the vibration of a source, e.g. vocal chords of a
perception, and a proper loudness measurement must singer, the vibrating string and sound board of a violin,
be employed to this end. or the diaphragm of a kettle drum [17]. It propagates
When estimating dynamics, the work developed by through the displacement of a medium, usually the air,
the Mazurka Project deals only with a power curve, causing local regions of compression and rarefaction.
and therefore does not take perceptual information into This means that sound is essentially a pressure wave,
account. In [12], Martin Gasser estimates dynamic data which is measured in pascal (Pa).
from a MIDI parameter called velocity, which indi- In Psychoacoustics, values from 105 Pa (threshold
cates how forcefully a note is played. Gassers ap- of hearing) to 102 Pa (threshold of pain) are commonly
proach is not precise since the pressure exerted on a dealt with [15]. To help handling such a broad range,
key does not share a linear relation with loudness. Fi- the sound pressure level, Lp , has been created. It is a
nally, in [5, 10, 11], the dynamic curve is obtained from logarithmic measure of sound pressure, p, relative to a
the PCM (Pulse Code Modulation) representation of the reference value, p0 , i.e.,
signal with a procedure based on Zwickers psychoa- p
coustic model of loudness [15]. Lp = 20 log , (1)
p0
In the specific context of the analysis of expressive
musical performances, this paper introduces a new way where p and p0 are given in Pa, and Lp is given in
to evaluate dynamics by means of the equal-loudness dBSPL (from Sound Pressure Level). The standard
contours defined in ISO 226 [16]. By doing so, the value for p0 is 20 Pa [15].
method incorporates some psychoacoustics characteris- The sensation of sound intensity, however, is not
tics to sound intensity extraction aiming at a more faith- just a linear function of sound pressure level as defined
ful representation of human perception. in Equation (1), since it also depends on the sounds
This paper illustrates the application of expres- frequency content. The quantity that expresses the per-
siveness elements extraction into the study of perfor- ception of intensity is the loudness level. For a given
mances trajectories in the tempoloudness space, as sound, it is defined as the sound pressure level of the
proposed by Jorg Langner and Werner Goebl [10]. A frontally-incident plane wave of a pure 1-kHz tone that
subset of Frederic Chopins 24 Preludes, Op. 28, was is perceived as loud as the sound [15]. A non-SI unit of
chosen as object of analysis. loudness level, LN , is the phon.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 24
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

LN = 100 phons
N = 64 sones According to [1], dynamics is the degree to which
100
sound is emitted or articulated. Again, the composer
Level of test tone (dBSPL)

80
80 16 leaves the performer some cues regarding how strong
the musical phrases should sound. These are called the
60
60
4
dynamic markings, e.g. f (forte, loud) and p (piano,
40 1
soft). Gradual transitions in intensity such as crescendo
40 (gradual increase of volume) and decrescendo (gradual
20 0.15 decrease of volume) may also be requested by the com-
20
3
poser. Again, the performer is expected to use his/her
0
0
own discretion to arrive at the proper dynamics of notes,
phrases, etc.
0.02 0.05 0.1 0.2 0.5 1 2 5 10 20
Frequency (kHz) Therefore, agogics and dynamics designate sub-
tleties of performance accomplished through the mod-
Figure 1: Equal-loudness contours. Adapted from [15]. ification of tempo and intensity, respectively. A musi-
cian has such resources at his disposal in order to shape
the performance, and their study may provide signifi-
The sone scale was also introduced with the pur- cant insights into his/her stylistic choices.
pose of measuring loudness sensation based on Stevens
power law. Phon values relate to the sone by [18]: 1.3 Tempo Data
LN 40 As mentioned, the extraction of the tempo curve is
2 10 , for LN > 40 phons, straightforward once a metrical level has already been
L 2.642 (2)
N
40 , otherwise. determined. This can be done either by tapping along
or applying a beat tracking algorithm to the perfor-
For pure tones, a set of equal-loudness contours mance. In the first case, a subject must synchronize
measured as a function of sound pressure level and fre- taps while listening to the piece, usually by pressing a
quency can be seen in Figure 1. It follows immediately key in the keyboard. The set of taps then represents a
from the definition of the loudness level that the value hierarchic level in the pieces metric sub-beat, beat
of the sound pressure level that all curves go through or super-beat structure. The objective of a beat tracking
at 1 kHz in dBSPL is the same as the parameter of the algorithm is the same: estimating, from a recording, a
curve, in phon. set of beat times from this audio which would match
In all curves, human hearing achieves its highest those given by a trained human musician [20]. Stephen
sensitivity in the frequency range between 2 kHz and Hainsworth gives a good overview of beat tracking al-
5 kHz. This means that, in this region, a smaller value gorithms in [20]. There is an extensive and subsequent
of sound pressure level is needed to make a tone sound literature on the subject, which the reader is invited to
as loud as tones at lower or higher frequencies. investigate.
The equal-loudness contours where measured ex- Generally, the beat tracking problem can be pinned
perimentally by several researchers over the years with down in:
a few discrepancies. A brief review of those stud-
ies can be found in [19]. This work by Yoiti Suzuki 1. Finding notes onset (start) times;
and Hisashi Takeshima led to the revision of the 2. Ascertaining which onsets are part of the time
ISO 226:1987 standard in 2003 [16], which contains structure, i.e., apply the tracking algorithm to this
the currently preferred official loudness contours. set of discrete impulses.
1.2 Agogics and Dynamics As Hainsworth points out, when this approach is
At the beginning of a sheet music, the composer used, the onset detection process becomes as important
indicates the tempo, i.e. the speed at which the piece as the beat tracking algorithm per se since the reliability

bpm (beats per minute), e.g. allegro or = 132 bpm.


should be played. Tempo markings are usually given in of the whole system now depends on the quality of the
Italian words or equivalent metronome markings in determined onsets. It goes without saying from Step
2 that onsets and metrical units are not always inter-
Without further consideration, this can be regarded as a changeable. Figure 2 shows where metrical levels and
fixed determination of notes and rests durations. The onsets can be found on an excerpt of Happy Birthday
composer may also indicate some alterations he/she ex- sheet music. For example, it is possible to see that not
pects to be applied onto the overall tempo along the every beat has an associated onset, and vice versa.
piece, e.g. accelerando to speed up the execution. Nev- One way to characterize onsets in a performance is
ertheless, the performer never paces the piece exactly as by calculating the spectral flux function [21] from its
written, both due to the inaccuracy and incompleteness recording. The peaks of this onset detection function
of the notation and for artistic reasons, but rather fol- are expected to coincide with the locations of note on-
lows his/her individual judgement to produce the proper sets. In [21], Simon Dixon discusses thresholds and
agogics. constraints for a robust peak picking algorithm.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 25
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

G2
25], an implementation based on Zwickers loudness

3
4 model [15] is used to obtain a loudness envelope (in
sones) from an audio recording. This process can be
Tatum
summarized as follows:

Beat The power spectrum is computed for a window of


the audio data using the FFT (Fast Fourier Trans-
Bar
form);
Onsets
Frequency bins are bundled into critical bands ac-
Figure 2: Metrical levels and onsets on an excerpt of cording to the Bark scale;
Happy Birthday sheet music. Adapted from [20]. Spectral masking effects are taken into account us-
ing a spreading function to calculate the influence
of each critical band on its neighbors;
In the present paper, the determination of tempo is
achieved through a mixed procedure. For the record- Sound pressure levels are calculated for each crit-
ing i of a piece, candidate (sub-, super-) beats are ical bandthe threshold of hearing is used as ref-
set while tapping to the performance and form the se- erence;
quence Bi = {b0 , b1 , . . . , bB1 }. A sequence of onsets,
Oi = {o0 , o1 , . . . , oO1 }, is found through the spec- Loudness levels, in phons, are estimated from the
tral flux function. The elements bj and ok are given equal-loudness contours;
in seconds. The determined metrical level is then vali- The specific loudness sensation is calculated using
dated through the sequence of onset timeseach tap is a transformation from phons to sones.
moved to the nearest onset, i.e.,
The procedure above considers not only the way
bj = arg min |bj ok |. (3) different tones are perceived, but also simulates the
ok Oi masking effect, i.e., how they interfere with one another
when presented simultaneously. It also reflects charac-
Special treatment is given to beats that occur when no
teristics of the cochlea in the human hearing system by
onset is presenteither during a rest or note: in both
abutting frequency bins into critical bands.
cases, a careful interpolation procedure based on pre-
vious and succeeding onsets is carried out. Initial taps In the next section, the proposed alternative to the
were made with the aid of Sonic Visualiser [22] and the extraction of the dynamic curve is detailed. Unlike
MzSpectralFlux plugin [23], developed by the Mazurka the method described above, it does not incorporate the
Project team, was used to evaluate onsets. masking effect and approaches the equal-loudness con-
tours differently.
From Bi , the sequence of validated beats, it is possi-
ble to calculate the tempo samples for recording i mea- 2 PROPOSAL DESCRIPTION
sured on each beat location, in bpm, with
This work presents a simple way to locally evalu-
ate loudness in order to obtain a discrete representa-
60
j b , for 1 j B 1, tion of the performances dynamic flow. It is difficult
Ai = b j j1 (4)
1 to compare interpretations of the same piece in abso-
Ai , for j = 0.
lute time. Thus, the dynamic curve has to be obtained
from regions that are similar in all of the different per-
However, if the tracking level to which taps were
formances. A proper way to do so is to analyze loud-
synchronized is not that of the beat, the sequence Aji is
ness in a neighbourhood of the detected beats. Once in


only proportional to the actual tempo flow. Assume that

ative to the whole note, , e.g., = 4 . By establishing


the metrical level domain, all interpretations are di-

the basis of metronome markings as the quarter note, ,


the value of the tracking level reference note is Q 1
, rel-
1 rectly comparable.
2.1 ITU-R Loudness Recommendation
the corrected tempo curve is obtained with The recommendation ITU-R BS.1770 from the Ra-
diocommunication Sector/International Telecommuni-
1/Q j 4
Aji, = Ai = Aji . (5) cation Union specifies a loudness measurement algo-
1/4 Q rithm for multichannel broadcasting in [26]. The algo-
This derivation can be found in [13]. rithm consists of four stages:
In each channel, the frequency components of a
1.4 Dynamic Data windowed signal are weighted with a K-curvea
As mentioned in Section 0, the extracted dy- two-stage filter implementation that accounts for
namic curve should carry, at least, the characteris- some of the characteristics expressed in the equal-
tics expressed in the equal-loudness contours. In [24, loudness contours;

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 26
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

The mean square value is calculated for each chan- frequencies ranging from 20 Hz to 12 500 Hz, i.e.,
nel (in the perceptual domain);
P (n, k) = |X(n, k )|2 , (6)
The weighted channels are summed up; Fk

Signal blocks are gated according to a few thresh- where Fk = {k |kinf k < ksup } is the set

olds. of frequency bins between the kth subband limits,


kinf and ksup ;
Although the recommendations algorithm is aimed
at digital television production and distribution, it in- 4. For each subband, power is averaged over the M
volves some important concepts and it was an inspira- frames,
tion for the proposed loudness meter. M 1
1
P (k) = P (n, k); (7)
2.2 Loudness Meter M n=0
In order to make the comparison of dynamic data
from different performances and the synchronization of 5. The mean power for the 3 seconds-wide excerpt is
tempo and loudness information possible, only a lim- obtained using
ited time interval around each beat will be considered
to quantify the loudness. As seen in the ITU-R rec- Pm = P (k); (8)
ommendation, this windowed signal should be treated k

in a perceptual domainwhich in that document con-


sists in applying a generic (i.e. level-independent) 6. The equivalent sound pressure level is calculated
weighting curve to the signal in the frequency domain. in a similar way to the one expressed in Equa-
A proper weighting curve should compensate for the tion 1, by assuming that power is proportional to
equal-loudness contour relative to the mean loudness the square of sound pressure [15], i.e.,
level during that time interval. For instance, a 200- Pm
Hz pure tone of 70 dBSPL reaches the loudness level Lp = 10 log , (9)
Pcal
of 60 phons (cf. Figure 1). The weighting curve that
transforms the sound pressure level into loudness level where Pcal is a constant that calibrates the 1-kHz
must then attenuate 10 dB. This curve is precisely the reference tone in full scale to match 80 dBSPL ;
equal-loudness contour at 60 phons, mirrored around
7. While the difference between two successive ap-
the 60 dBSPL level, and shifted down by 60 dB.
proximations of the loudness level, LN , of the
Although this is easily achieved for pure tones, a
whole excerpt is less than a threshold value, , do:
similar process can be done for critical bands or a full
spectrum. In order to estimate the mean loudness level i) Apply the compensation curve parameter-
of a signal frame, the index (in phons) of the required ized by the last value of LN to the mean
compensation curve must be determined beforehand. power spectrum given by Step 4for the
In [24, 25] a loudness level value is estimated through first iteration, use Lp as an estimate of the
linear interpolation for each critical band before the loudness level;
frame total loudness can be calculated. In the present ii) Calculate the mean power for the excerpt in
work, the calculation of this operating point is done it- the perceptual domain, similarly to what was
eratively and it is determined for the entire frame: its done in Step 5;
value is taken as the index of the compensation curve
that, once applied to the frame, produces that very loud- iii) Calculate a new approximation for the mean
ness sensation. The proposed algorithm is as follows: loudness level, LN , as shown in Step 6;
8. Go back to Step 1 and repeat the whole procedure
1. For the sequence Bi , a 3-seconds wide rectangu-
for the (j + 1)th beat.
lar window is selected around the instant bj of the
recording (sampled at rate fs ); The resulting sequence, Dij , represents the mean
loudness level, LN , estimated for a region around the
2. The selected region is transformed to the fre- jth determined beat of the recording i. Its value can be
quency domain using the STFT (Short-Time given either in phons or sones.
Fourier Transform) with a Hann window of about
400 ms and 75% overlap. This leads to the signal 3 METHOD EVALUATION AND APPLI-
representation X(n, k)where n is the frame and
CATIONS
k the frequency bin of the FFT;
In this section, the results of some investigations
3. For each frame in the STFT representation, power made on the database are discussed. First, tempo and
is bundled into one-third octave bands with center dynamic data are extracted for a single interpretation

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 27
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

of Chopins prelude no. 1 by pianist Bella Davidovich. 150


B. DAVIDOVICH Prelude No. 1

The algorithm described in the previous section and the

Tempo (bpm)
method employed by [24, 25] for the extraction of the 100

dynamic curve are compared. Then, a statistical anal-


ysis is performed over all the interpretations of that 50

prelude available in the database. Finally, a powerful


0
visualization technique for the extracted parameters is 0 5 10 15 20 25 30 35
Bar
presented and its capabilities are briefly studied.
6

3.1 Database

Loudness (sones)
5

The following analysis were performed over a 4

database containing a subset of Chopins 24 Preludes, 3

Op. 28, interpreted by 27 different musicians: Al- 2

fred Cortot (in 1925, 1934, 1942, 1955 and 1957), 1


0 5 10 15 20 25 30 35
Alicia de Larrocha, Adam Harasiewicz, Arthur Mor- Bar
eira Lima, Abdel Rahman El Bacha, Arthur Rubinstein,
Bella Davidovich, Claudio Arrau, Cyprien Katsaris, Figure 3: Tempo and dynamics analysis of prelude no. 1
Francois-Rene Duchable, Guiomar Novaes, Garrick as interpreted by Davidovich. Two dynamic curve ex-
Ohlsson (in 1974 and 1995), Ivo Pogorelich, Martha traction techniques are compared: the proposed method
Argerich, Maria Joao Pires, Murray Perahia, Maurizio (solid) and the one described in [24, 25] (dashed).
Pollini, Miguel Proenca, Nelson Freire, Nikita Maga-
loff, Rafa Blechacz, Shura Cherkassky, Sergio Daniel
Tiempo, Samson Francois, Vladimir Ashkenazy, Wo- dynamic range when compared with the proposed one.
jciech Switaa and Yevgeniy Kissin. All tracks were Systematic subjective tests should be designed and per-
sampled at 44 100 Hz, with 16 bits per sample. formed in order to provide a more accurate comparison
between the two measures.
3.2 Data Extraction The next two sections illustrate the application of
Here, the interpretation of the first prelude by Bella the presented strategies for extraction of expressive in-
Davidovich is analyzed in terms of her shaping tech- formation to the visual representation of musical per-
nique. First, dynamic and tempo data (referenced to the formances.
quarter note) were extracted as defined above. For the
dynamic curve, both the proposed extraction method 3.3 Average Performance
and the one used in [24, 25] were tested. Once tempo and dynamic curves were extracted for
The objective of this evaluation procedure is to de- all the interpretations of prelude no. 1, it might be in-
termine if the proposed algorithm is suitable for the teresting to infer an average performance for that
analysis of expressive performances, i.e., the resulting prelude. This is done by taking the mean value of tempo
dynamic data represents well the evolution of the per- and loudness data at each beat for all the performances.
ceived sound intensity on a recording. Figure 4 shows this average interpretation.
The reference method analyzes loudness in win-
dows of width 23 ms with 50% overlap. In order 300
Average Interpretation Prelude No. 1

to compare its result with the proposed method, the 250


Tempo (bpm)

mean value within a 3-second region around each beat 200

(roughly 260 frames) was taken as representative of the 150

loudness value at that beat. The curve was then rescaled 100

to disregard calibration issues. The results for tempo 50

0
and dynamic curves are presented in Figure 3. 0 5 10 15 20 25 30 35
Bar
As expected, the tempo curve is rather nervous
and its shape is highly dependent of the tapped beats 12
Loudness (sones)

quality. Three tempo apexes stand out near the 20th 10

barthese coincides with quintuplets1 on the score. 8


6
Quintuplets also appear in bars 23, 25 and 26. 4
From the dynamic data, one can see that both mea- 2
surements are coherent and that the dynamic apex oc- 0
0 5 10 15 20 25 30 35
curs around bar 20. Although one cannot choose either Bar
method as the best from the obtained results, the exper-
iment indicates the reference method tends to flatten the Figure 4: Average interpretation of prelude no. 1. Error
1 Tuplets are a group of notes that modifies the regular rhythmic bars show the maximum and minimum values at each
subdivision of the time signature [1]. beat. Adapted from [13].

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 28
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

Prelude No. 6
There is a great visual similarity between the aver- A. CORTOT (1925) A. CORTOT (1934)
3.5 3.5
aged dynamic curve and the one from Davidovichs in-
3 3

Loudness (sones)

Loudness (sones)
terpretation (seen in Figure 3). As for the tempo curve, 2.5 2.5
it seems that an average performer would describe 2 2

longer tempo arches (phrases), specially at the begin- 1.5 1.5


1 1
ning of the piece. This contrasts with Davidovichs 0.5 0.5
nervous tempo curve in this prelude. 0
20 30 40 50 60
0
20 30 40 50 60
Tempo (bpm) Tempo (bpm)
3.4 TempoLoudness Space Representa-
C. ARRAU F-R. DUCHABLE
tion 3.5 3.5
3 3

Loudness (sones)

Loudness (sones)
In [10], the authors develop a visualization tool 2.5 2.5

that allows the simultaneous display of tempo and dy- 2 2


1.5 1.5
namic variations along expressive performances. Data 1 1
are smoothed with gaussian windows and presented in 0.5 0.5
a two-dimensional spacetempo (in the x axis) against 0
20 30 40 50 60
0
20 30 40 50 60
loudness (in the y axis). This technique works as an an- Tempo (bpm) Tempo (bpm)
imation: a dot moves on the space in synchrony with
the recording and its trajectory describes the evolution Figure 5: Tempoloudness space representation of four
of those parameters along the performance. Thus, the different interpretations of prelude no. 6. From [13].
technique allows for both a high-level analysis of struc-
tural information and a dedicated study of the complex for each frame directly over a few iterations. Further-
relationship between agogic and dynamic accents. more, the reference method considers the masking ef-
Figure 5 shows the expression trajectories in the fect, which is not taken into account here. A proper
tempoloudness space of the first two bars of prelude way to validate the proposed method is yet to be ex-
no. 6, as played by three distinctive pianists: Alfred plored. In a future work, further investigations will be
Cortot (1925 and 1934 recordings), Claudio Arrau and performed through carefully designed subjective tests.
Francois-Rene Duchable. The pianists start by acceler- The described procedures for extraction of agogics
ating the tempo and providing some dynamic develop- and dynamics behavior along time were coupled to a vi-
ment. In the middle of the trajectory (end of the first sualization technique which provides a tempoloudness
bar/start of the second bar), the performers begin to space representation, thus depicting the joint evolution
soften their execution, except for Duchable, that puts of dynamics and agogics in an interpretation. The per-
some strength on the first note of the second measure. formances trajectory in the tempoloudness space is
For Cortot (1934), Arrau and Duchable, the tempo apex a high-level portrayal of the musicians expressivity
occurs amid the second measure. Finally, for the begin- strategies. Such techniques can also help understand-
ning of the third bar, the pianists adopt different stylis- ing what characterizes the performer, i.e., his/her sig-
tic strategies: Arrau decelerates, Duchable maintains nature, thus might be of interest to music researchers,
the overall tempo and Cortot speeds up on both record- teachers, and students. Similarities between perform-
ings. Clearly, all four interpretations follow a clock- ers must also be further analyzed so that interpretation
wise movementwhich matches well the crescendo schools can be traced. Additional research on these
decrescendo evolution of the left hand notated on the topics is being conducted.
score.
ACKNOWLEDGEMENTS
Only those two bars of prelude no. 6 were analyzed
here. In [13], more considerations on the first eight bars The authors would like to thank CNPq and FAPERJ
of the same prelude in the interpretation of Arrau, Cor- for funding this work.
tot and Duchable can be found. The original paper by REFERENCES
Langner and Goebl presents the analysis of other pieces
[1] Bohumil Med, Teoria da Musica, MusiMed,
composed by Chopin and Schubert [10].
Braslia, Brasil, 4th edition, 1996.
4 CONCLUSION [2] Alexander Truslit, Gestaltung und Bewegung
The purpose of this work was to analyze a new dy- in der Musik, Chr. Friedrich Vieweg, Berlin,
namic curve extraction technique in an expressiveness Deutschland, 1938.
parameter retrieval environment. The proposed method
[3] Hugo Riemann, Musikalische Dynamik und
was compared with a benchmark from the literature and
Agogik, D. Rahter, Hamburg, Deutschland, 1884.
the two results were coherent. The main conceptual dif-
ference of the two methods is the approach to the equal- [4] Bruno Repp, Music as motion: A synopsis of
loudness contours. While the reference method inter- Alexander Truslits (1938) gestaltung und bewe-
polates loudness-level values for each critical band, the gung in der musik, Psychology of Music, vol. 21,
proposed technique estimates an overall loudness value no. 1, pp. 4872, Jan. 1993.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 29
MAIA & BISCAINHO ON THE EXTRACTION OF PARAMETERS FROM EXPRESSIVE MUSICAL PERFORMANCES

[5] Jorg Langner, Multidimensional dynamic shap- [16] ISO/TC 43, Acoustics normal equal-
ing, in Proceedings of the Third Triennial ES- loudness-level contours, ISO 226: 2003(E), In-
COM Conference, Alf Gabrielsson, Ed., Uppsala, ternational Standardization Organization, Geneva,
Sweden, June 1997, pp. 713718. Switzerland, Oct. 2003.
[6] Craig Stuart Sapp, Comparative analysis of mul- [17] Meinard Muller, Information Retrieval for Music
tiple musical performances, in Proceedings of the and Motion, Springer, New York, USA, 2007.
8th International Conference on Music Informa-
tion Retrieval (ISMIR), Wien, Austria, 2007, pp. [18] Richard Bladon and Bjorn Lindblom, Modeling
497500. the judgment of vowel quality differences, The
Journal of the Acoustical Society of America, vol.
[7] Ching hua Chuan and Elaine Chew, A dynamic 69, no. 5, pp. 14141422, Aug. 1981.
programming approach to the extraction of phrase
boundaries from tempo variations in expressive [19] Yoiti Suzuki and Hisashi Takeshima, Equal-
performances, in In Proceedings of the 8th In- loudness-level contours for pure tones, Journal
ternational Conference on Music Information Re- of the Acoustical Society of America, vol. 116, no.
trieval (ISMIR 2007), Wien, Austria, Sept. 2007, 2, pp. 918933, Aug. 2004.
pp. 305308.
[20] Stephen Hainsworth, Beat tracking and musical
[8] Alan Dodson, Expressive timing in expanded metre analysis, in Signal Processing Methods for
phrases: an empirical study of recordings of three Music Transcription, Anssi Klapuri and Manuel
Chopin preludes, Music Performance Research, Davy, Eds., chapter 4. Springer, New York, USA,
vol. 4, pp. 229, 2011. 2006.
[9] Elaine Chew, About time: Strategies of perfor-
[21] Simon Dixon, Onset detection revisited, in
mance revealed in graphs, Visions of Research in
Proceedings of the 9th International Conference
Music Education, vol. 20, no. 1, Jan. 2012.
on Digital Audio Effects (DAFx-06), Montreal,
[10] Jorg Langner and Werner Goebl, Visualizing ex- Canada, 2006, pp. 133137.
pressive performance in tempo-loudness space,
Computer Music Journal, vol. 27, no. 4, pp. 69 [22] C. Cannam, C. Landone, and M. Sandler, Sonic
83, Dec. 2003. visualiser: An open source application for view-
ing, analysing, and annotating music audio files,
[11] Werner Goebl, Elias Pampalk, and Gerhard Wid- in Proceedings of the ACM Multimedia 2010 In-
mer, Exploring expressive performance tra- ternational Conference, Firenze, Italy, Oct. 2010,
jectories: Six famous pianists play six Chopin pp. 14671468.
pieces, in Proceedings of the 8th International
Conference on Music Perception and Cognition [23] Centre for the History and Analysis of Recorded
(ICMPC8), Adelaide, Australia, Aug. 2004, pp. Music, Manpage for sv mazurka plu-
505509. gin: MzSpectralFlux, Avaiable at: http:
//www.mazurka.org.uk/software/sv/
[12] Martin Gasser, Interactive visualization of ex- plugin/MzSpectralFlux, Last access:
pressive piano performance, Master thesis, In- May, 2013.
stitut fur Computational Perception, Johannes-
Kepler-Universitat, Wien, Austria, May 2005. [24] Jorg Langner, Musikalischer Rhythmus und Oszil-
lation: Eine theoretische und empirische Erkun-
[13] Lucas Simoes Maia, Representacao e analise
dung, Peter Lang, Frankfurt am Main, Deutsch-
de interpretacoes expressivas um estudo da
land, 2002.
dinamica e da agogica, Graduation Project,
DEL/Escola Politecnica, Universidade Federal do [25] Elias Pampalk, Andreas Rauber, and Dieter
Rio de Janeiro, Rio de Janeiro, Brasil, Avaiable Merkl, Content-based organization and visual-
at: http://www.smt.ufrj.br/lucas. ization of music archives, in Proceedings of the
maia/pfMaiaLS.pdf, Aug. 2013. Tenth ACM International Conference on Multime-
[14] Centre for the History and Analysis of Recorded dia, Juan-les-Pins, France, Dec. 2002, pp. 570
Music, The mazurka project, Avaiable at: 579.
http://www.mazurka.org.uk, Last ac-
[26] ITU-R, Algorithms to measure audio programme
cess: May, 2013.
loudness and true-peak audio level, Recommen-
[15] Hugo Fastl and Eberhard Zwicker, Psychoacous- dation ITU-R BS.1770, International Telecommu-
tics: Facts and Models, Springer, New York, nication Union, Geneva, Switzerland, July 2006.
USA, 3rd edition, 2007.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 30
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de udio
18a Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo
comit tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________




!""#$%
&'(&)&

!*#+**#",*
&'-(&.)
/0/123045/120/12

RESUMO
O experimento descrito neste documento foi conduzido durante pesquisa sobre contextualizao do indivduo
surdo atravs de sistema de reconhecimento de sons do ambiente utilizando dispositivos mveis. Para a
realizao do experimento foi produzida uma base de conhecimento com features extradas a partir de 300
amostras de udio distribudas em 30 classes. A partir destes dados foram realizados testes de classificao e os
resultados permitem avaliar tanto o desempenho dos classificadores quanto o seu comportamento de acordo com
o aumento da base. Para minimizar os problemas observados na execuo do aplicativo em ambiente no
monitorado foi proposto um indicador de pertencimento ao grupo formado pelas instncias da classe,
oferecendo apoio ao resultado da classificao.

INTRODUO mveis. O estudo citado incluiu o desenvolvimento de um


aplicativo que tem o objetivo de informar ao usurio,
Os estudos existentes sobre classificao do som visualmente ou atravs de vibraes, quais eventos sonoros
abordam predominantemente o reconhecimento de sons da ocorrem no ambiente. O experimento aqui apresentado
fala, msica e sons do ambiente, neste caso considerando consistiu em basicamente trs fases: amostragem,
um modelo pr-definido de categorias, geralmente aplicado construo da base de conhecimento e testes de
indexao e recuperao de documentos de udio e classificao. Os resultados foram organizados de forma a
vdeo. No entanto, o reconhecimento de sons no permitir visualizar tanto o desempenho detalhado dos
estruturados ainda um tema pouco explorado [1], classificadores utilizando a base mais completa, quanto o
especialmente quando se trata de processamento baseado comportamento desses classificadores de acordo com o
em tecnologia mvel. Neste documento apresentado um aumento da base. A classificao realizada na prtica com
experimento elaborado durante pesquisa sobre o aplicativo sendo executado em um ambiente no
contextualizao do indivduo surdo atravs de sistema de monitorado apontou alguns pontos fracos no desempenho
reconhecimento de sons do ambiente (ESR, acrnimo de geral do processo. Para minimizar os problemas
environmental sound recognition) utilizando dispositivos observados foi proposto um indicador de pertencimento ao

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 31
FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

grupo formado pelas instncias da classe prevista que pode obtida uma acurcia de 72% na classificao dos sons da
ser calculado com um baixo custo computacional, fala. Eles tambm apresentaram uma avaliao da preciso
oferecendo apoio classificao. O estudo no aborda, no dos classificadores utilizando amostras de quatro categorias
entanto, os problemas relacionados ao reconhecimento em de sons do ambiente proporcionadas por um estudo anterior
ambientes com sons sobrepostos. Tampouco so tratados [5]. Um ponto importante neste estudo que todo o
os mtodos de deteco automtica de eventos sonoros. processamento realizado em dispositivo mvel, uma
Nesta pesquisa so considerados sons do ambiente caracterstica comum ao aplicativo utilizado no experimento
quaisquer manifestaes sonoras com intensidade suficiente aqui documentado.
para serem registradas pelo aplicativo. Sons da fala e de Hipke et al. [6] realizaram em 2012 testes de classificao
msica podem ser includos, porm considerando-se durante o desenvolvimento de um aplicativo de ESR para
somente as classes correspondentes como, por exemplo, voz surdos utilizando as amostras de udio capturadas com um
grave e voz aguda, no estando no escopo deste estudo a smartphone, porm a extrao de features e a classificao
transcrio da fala ou a identificao da msica. O do som foram realizadas em um servidor remoto.
experimento apresentado pode, no entanto, auxiliar estudos Em 2013, Mogi e Kasai [1] conduziram um experimento
que procurem abordar tais funcionalidades em tecnologia sobre ESR utilizando amostras de smartphones. O estudo
mvel atravs das informaes proporcionadas sobre o d nfase avaliao das features extradas
desempenho dos mtodos utilizados para o reconhecimento. proporcionando uma comparao do desempenho da
Este documento est organizado da seguinte forma. Na classificao quando se aplicam diferentes combinaes
Seo 1 so comentadas abordagens anteriores semelhantes entre MFCC, Matching Pursuit (MP) e Independent
ao estudo realizado. Na Seo 2 apresentado o aplicativo Component Analysis (ICA). O classificador utiliza o
utilizado no experimento. Na Seo 3 as fases do algoritmo nearest neighbor (NN). O experimento
experimento so detalhadas e os resultados dos testes de demonstrou uma acurcia maior com a combinao de MP
classificao so apresentados e avaliados. Na Seo 4 com ICA, sendo este obtido a partir do vetor de MFCC. No
explicado o indicador de pertencimento ao grupo, utilizado entanto, o clculo de ICA implica alto custo
na representao da incerteza da classificao em situaes computacional, sendo pouco indicado para situaes com
reais com o uso do aplicativo em ambientes no limitao de recursos. Diante desse problema, os autores
monitorados. Na Seo seguinte so feitas as consideraes propem o uso de processamento baseado em nuvem para
finais. viabilizar a execuo da soluo proposta.
Alm de testar o desempenho dos algoritmos de
1 ESTUDOS CORRELATOS
classificao em dispositivos mveis, o experimento aqui
Em 1993, realizando experimentos em ESR, Goldhor [2] documentado tem o objetivo de analisar o comportamento
verificou o comportamento da classificao com relao ao da classificao com o aumento da base e fornecer
nmero de atributos da feature extrada. O estudo informaes que permitam estabelecer parmetros para a
apresenta, entre outros experimentos, a variao da configurao do aplicativo visando otimizao do
acurcia de acordo com o aumento do nmero de amostras reconhecimento de sons no estruturados utilizando uma
para cada classe de som; porm, neste experimento base de conhecimento escalvel.
somente so testados dois estados da base de
conhecimento, no sendo possvel portanto observar a 2 APLICATIVO UTILIZADO NO EXPERIMENTO
curva do comportamento da classificao. O sistema utilizado consiste em um aplicativo mvel
Temko e Nadeu [3] realizaram um experimento de com basicamente trs funcionalidades: captura de amostras
classificao de sons do ambiente, obtendo no teste com de udio com anotao feita pelo usurio, explorao dos
melhor desempenho uma mdia de acurcia de 88% dados registrados e reconhecimento do som. O aplicativo
utilizando support vector machines baseadas em rvores de tambm disponibiliza a visualizao do espectrograma
deciso binrias. No entanto, o estudo no aplicado a durante a captura ou reproduo do som pelo dispositivo.
dispositivos mveis. Os parmetros de amostragem, extrao de features e
Lu et al. [4] apresentaram em 2009 os resultados do classificao so definidos durante o desenvolvimento do
desempenho de um software de reconhecimento sonoro aplicativo, no sendo permitido ao usurio configurar essas
baseado em tecnologia mvel. Nesse estudo, a classificao funes.
realizada em dois estgios. O primeiro decide a qual de trs
classes genricas (fala, msica ou som ambiente) pertence a 2.1 Requisitos Destacados
amostra, utilizando rvore de deciso e modelos de Markov. A seguir so feitas algumas consideraes sobre os requisitos
No segundo estgio, somente os sons da fala seguem no do aplicativo levantados durante a pesquisa que influenciaram
processo de classificao, que decidir se se trata de fala mais intensamente na elaborao do experimento.
feminina ou masculina. Para eventos classificados como O aplicativo deve realizar todo o processo de registro
sons ambientes, adotou-se aprendizado no supervisionado e classificao de udio com os recursos do
para a identificao de clusters utilizando a representao de dispositivo no qual executado, sem depender de
Mel-Frequency Cepstrum Coefficients (MFCC). Nesse caso, nenhum processamento ou informao remota, seja
a nica inferncia efetuada sobre o som capturado quanto por rede ou por qualquer outro dispositivo acoplado.
sua relevncia, que baseada na durao e na frequncia
O tempo de reconhecimento do evento sonoro e a sua
com que o som ocorre. No primeiro estgio a classificao apresentao ao usurio deve ser o menor possvel,
registrou entre 80 e 90% de acerto. No segundo estgio foi no ultrapassando 10 segundos.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 32

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

Estes requisitos implicaram a seleo de algoritmos de sobre a qualidade do registro, mas nenhuma em estdio de
classificao com menor custo computacional, compatveis gravao. Das 300 amostras, 80 foram realizadas em
com a capacidade de processamento de dispositivos mveis. ambientes como parque, restaurante, estacionamento, rua
O sistema deve ser capaz de reconhecer sons do com trnsito de veculos ou praia.
ambiente de qualquer tipo, no havendo portanto Ao registrar uma amostra, o usurio a classifica
possibilidade de assumir como premissa alguma definindo o nome do som no atributo classe. O valor
estruturao prvia dos eventos a serem deste atributo ser previsto no processo de reconhecimento
reconhecidos. do som. O incio e o fim da captura so definidos pelo
Esta exigncia quanto abrangncia dos sons a serem usurio, com durao mxima de 2,7s. Os valores
reconhecidos limitou as alternativas de features de udio, resultantes das features so a mdia e o desvio padro dos
pois dificulta ou inviabiliza o uso de dicionrios valores extrados de cada uma das janelas do sinal original,
pr-definidos como no caso de MP. que tm a durao de aproximadamente 22ms, sem
Deve ser permitido ao usurio construir ou ampliar a base sobreposio.
de conhecimento com suas prprias amostras de som. 3.2 Construo da Base de Conhecimento
O experimento deve oferecer referncias para a
uma tarefa complexa descobrir quais so as
construo de uma base escalvel, apresentando
features mais indicadas para a classificao de sons do
informaes que auxiliem na busca de uma alternativa
ambiente. O uso de MFCC amplamente adotado como
adequada para a estruturao dos dados.
descritor de udio em sistemas de reconhecimento
2.2 Detalhes de Implementao automtico da fala (ASR, acrnimo de automatic speech
recognition) [8][1], pois trata-se de uma descrio
O aplicativo foi desenvolvido em linguagem de
inspirada na percepo humana, com nfase nas
programao Java e executvel em sistema operacional
frequncias mais baixas do sinal [9]. Na pesquisa em
AndroidTM 1 a partir da verso 2.3.
ESR ainda no h uma abordagem amadurecida para a
Todo o ciclo do processamento executado em um extrao de features, porm foi verificado que MFCC e
dispositivo mvel, desde a captura do sinal visualizao Linear Prediction Coefficients (LPC) demostraram bom
do espectrograma, extrao de features de udio e desempenho durante a classificao de sons do ambiente
classificao. [10][11] . Anteriormente Goldhor [2] pde verificar em
Foram utilizadas as seguintes bibliotecas de cdigo aberto: seus experimentos que a acurcia em ESR utilizando
JAudio implementada em Java, a JAudio possui as MFCC se estabilizou em 98% com vetores de dimenso
classes responsveis pela extrao de features. entre 12 e 16.
Weka biblioteca de minerao de dados com diversos Chu et al. [12] verificaram que o uso de mais features
mtodos estatsticos implementados. Desde a verso 3.0 no necessariamente melhora o desempenho da
lanada em 1999 o Weka disponibilizado inteiramente em classificao. Alm de MFCC e LPC, buscamos, no
Java, executvel em dispositivos desktop com a mquina experimento aqui apresentado, um conjunto reduzido de
virtual Java instalada [7]. No experimento aqui apresentado descritores que complementasse o processo, fornecendo as
foi utilizada a verso desenvolvida por RJ Marsan2 informaes necessrias para aumentar a acurcia da
compatvel com a mquina virtual Dalvik, utilizada nos classificao com um baixo custo computacional. Durante
dispositivos com sistema operacional Android. a seleo de features, a estratgia adotada foi pressupor
que existe algum conjunto ideal de features para cada base
3 EXPERIMENTO de conhecimento. Porm, uma vez que o conjunto de
Ainda na fase de prototipagem do aplicativo, foi realizado features esteja definido, ainda que a base seja fixa, algumas
um experimento cujas etapas so descritas a seguir. classes so mais nitidamente destacadas do que outras. No
experimento descrito procuramos avaliar o desempenho da
3.1 Amostragem classificao com uma base que estar constantemente
sendo atualizada pelo usurio do aplicativo, portanto
Diante do desafio proposto de classificar sons no
procuramos avaliar tambm o comportamento dos
estruturados em dispositivos mveis, optamos pela mxima
classificadores de acordo com o aumento da base de
qualidade disponvel na configurao da captura do sinal
conhecimento. Alm de MFCC e LPC, as demais features
de udio.
utilizadas no experimento foram selecionadas aps testes
Tamanho da amostra: de 0,4 a 2,7 s preliminares aplicados na ltima base, composta por 30
Taxa de amostragem: 48000 Hz classes com 10 instncias cada. Partimos do princpio de
Profundidade de bits: 16 que esta seleo de features seria a mais prxima da
Configurao de canal: mono seleo ideal para uma base completa. Esta, no entanto,
Como mencionado anteriormente, o experimento no no pode ser construda, pois deveria conter para cada
aborda os problemas relacionados classificao de classe de som todas as instncias possveis, cujo nmero
amostras com sons sobrepostos. A amostragem foi infinito, j que os atributos das features so expressados
realizada em ambientes diversos, sendo a maior parte em valores contnuos. Ainda que os valores fossem
capturada em ambiente residencial com relativo controle discretizados, a sua construo e a consulta a esta
informao seriam inviveis, A estrutura final da base de
1 Android marca registrada da Google Inc.
conhecimento utilizada apresentada na Tabela 1.
2 https://github.com/rjmarsan/Weka-for-Android

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 33

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

Tabela 1 - Estrutura da base de conhecimento


aplicativo. Nesse sentido, o aplicativo tambm
disponibiliza uma funo para excluir temporariamente
DESCRIO ATRIBUTO DIMENSO TIPO uma classe de som do processo de reconhecimento. Tal
Nome do som Classe 1 nominal funo no interfere nos testes de classificao.
Spectral Rolloff Point [13] 1 numrico Para facilitar a conduo do experimento, os testes com
Spectral Flux [13] 1 numrico
validao cruzada foram realizados em plataforma desktop,
Standard Deviation of Spectral Flux 1 numrico
Desvio porm utilizando as mesmas classes implementadas no
padro Compactness [13] 1 numrico
Spectral Variability [13] 1 numrico
aplicativo. Alm da avaliao da classificao, foram feitos
MFCC [9] 13 numrico testes em dispositivo mvel para verificar a durao do
Features LPC [9] 8 numrico treinamento dos classificadores e do reconhecimento do
de udio Spectral Rolloff Point 1 numrico som. O dispositivo utilizado possui referncia de modelo
Spectral Flux 1 numrico XperiaTM 3 C1604 e processador de 1 GHz com sistema
Standard Deviation of Spectral Flux 1 numrico
operacional Android 4.1.1. Os tempos de execuo so
Mdia Compactness 1 numrico
Spectral Variability
apresentados na Tabela 2. O tempo referente ao treino do
1 numrico
MFCC 13 numrico
classificador s interfere no aplicativo quando a base de
LPC 8 numrico conhecimento modificada, pois o classificador precisa ser
novamente treinado. J o tempo da classificao, sim, vai
interferir todas as vezes que for efetuado o reconhecimento
3.3 Testes de Classificao do som.
Os testes de classificao foram realizados atravs de
Tabela 2 - Durao em segundos do treinamento e da classificao
validao cruzada com 10 iteraes usando uma base de
PROCESSO AVALIADO
conhecimento com as features referentes a 300 amostras de CLASSIFICADOR
Treino do classificador Classificao da amostra
udio distribudas em 30 classes, alm dos testes com bases
menores. Adiante so apresentados dados dos algoritmos NN (no h treinamento) 3,7

utilizados e suas respectivas matrizes de confuso Naive Bayes [14] 5,6 3,6
resultantes. No foi utilizada nenhuma funo de reforo Bayes network [14] 47,5 4
no treinamento do classificador dependente da avaliao do Ensemble de rvores [14] 75,7 4
usurio, que s interfere na classificao incluindo ou
removendo amostras de som do banco de dados do

Tabela 3 - Matriz de confuso resultante do teste com nearest neighbor.


Instncias classificadas corretamente: 278. Percentual de acerto: 92,7%.
Mexendo embalagem plstica
Mq. lav. roupa centrifugando
Guarda de trnsito apitando

Pedido de silncio (sshhh)

Veculo pesado passando


Sinal de micro-ondas
Panela de presso

Secador de cabelo
Alerta de garagem

Toque de telefone
Canto de pssaro

Carros passando

Mq. lavar roupa

Pessoas falando
Batendo porta
Aspirador de p

Batendo palma

Ondas do mar
Ar escapando

Voz aguda
Fechadura

Voz grave
Chuveiro
Assovio

Chafariz

Torneira
Chaves

Espirro

Ronco

Tosse

Alerta de garagem 8 1 1
Ar escapando 10
Aspirador de p 10
Assovio 10
Batendo porta 8 1 1
Batendo palma 10
Canto de pssaro 9 1
Carros passando 10
Chafariz 10
Chaves 10
Chuveiro 10
Espirro 10
Fechadura 10
Guarda de trnsito apitando 10
Mq. lavar roupa 10
Mq. lav. roupa centrifugando 10
Mexendo embalagem plstica 10
Ondas do mar 10
Panela de presso 10
Pedido de silncio (sshhh) 1 9
Pessoas falando 10
Ronco 1 9
Secador de cabelo 10
Sinal de micro-ondas 10
Toque de telefone 10
Torneira 2 5 1 2
Tosse 1 9
Veculo pesado 4 1 5
Voz aguda 9 1
Voz grave 10

3 Xperia marca registrada da Sony Mobile Communications AB

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 34

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

Tabela 4 - Matriz de confuso resultante do teste com naive Bayes.


Instncias classificadas corretamente: 266. Percentual de acerto: 88,7%.

Mexendo embalagem plstica


Mq. lav. roupa centrifugando
Guarda de trnsito apitando

Pedido de silncio (sshhh)

Veculo pesado passando


Sinal de micro-ondas
Panela de presso

Secador de cabelo
Alerta de garagem

Toque de telefone
Canto de pssaro

Carros passando

Mq. lavar roupa

Pessoas falando
Batendo porta
Aspirador de p

Batendo palma

Ondas do mar
Ar escapando

Voz aguda
Fechadura

Voz grave
Chuveiro
Chafariz
Assovio

Torneira
Chaves

Espirro

Ronco

Tosse
Alerta de garagem 9 1
Ar escapando 10
Aspirador de p 10
Assovio 7 2 1
Batendo porta 9 1
Batendo palma 9 1
Canto de pssaro 1 6 1 2
Carros passando 10
Chafariz 10
Chaves 10
Chuveiro 9 1
Espirro 6 3 1
Fechadura 10
Guarda de trnsito apitando 1 9
Mq. lavar roupa 10
Mq. lav. roupa centrifugando 10
Mexendo embalagem plstica 8 1 1
Ondas do mar 8 2
Panela de presso 10
Pedido de silncio (sshhh) 9 1
Pessoas falando 1 8 1
Ronco 10
Secador de cabelo 10
Sinal de micro-ondas 10
Toque de telefone 10
Torneira 1 1 1 1 5 1
Tosse 1 8 1
Veculo pesado 1 9
Voz aguda 1 8 1
Voz grave 1 9

Tabela 5 - Matriz de confuso resultante do teste com Bayes network.


Instncias classificadas corretamente: 269. Percentual de acerto: 89,7%.
Mexendo embalagem plstica
Mq. lav. roupa centrifugando
Guarda de trnsito apitando

Pedido de silncio (sshhh)

Veculo pesado passando


Sinal de micro-ondas
Secador de cabelo
Panela de presso
Alerta de garagem

Toque de telefone
Canto de pssaro

Carros passando

Pessoas falando
Mq. lavar roupa
Batendo porta
Aspirador de p

Batendo palma

Ondas do mar
Ar escapando

Voz aguda
Fechadura

Voz grave
Chuveiro

Torneira
Chafariz
Assovio

Chaves

Espirro

Ronco

Tosse

Alerta de garagem 9 1
Ar escapando 10
Aspirador de p 10
Assovio 7 1 1 1
Batendo porta 8 1 1
Batendo palma 9 1
Canto de pssaro 1 7 2
Carros passando 10
Chafariz 10
Chaves 10
Chuveiro 10
Espirro 6 3 1
Fechadura 10
Guarda de trnsito apitando 1 9
Mq. lavar roupa 10
Mq. lav. roupa centrifugando 10
Mexendo embalagem plstica 10
Ondas do mar 8 2
Panela de presso 10
Pedido de silncio (sshhh) 1 9
Pessoas falando 1 7 2
Ronco 10
Secador de cabelo 10
Sinal de micro-ondas 10
Toque de telefone 10
Torneira 1 1 7 1
Tosse 1 8 1
Veculo pesado 1 1 8
Voz aguda 1 8 1
Voz grave 1 9

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 35

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

Tabela 6 - Matriz de confuso resultante do teste com ensemble de rvores de deciso aleatrias.
Instncias classificadas corretamente: 277. Percentual de acerto: 92,3%.

Mexendo embalagem plstica


Mq. lav. roupa centrifugando
Guarda de trnsito apitando

Pedido de silncio (sshhh)

Veculo pesado passando


Sinal de micro-ondas
Secador de cabelo
Panela de presso
Alerta de garagem

Toque de telefone
Canto de pssaro

Carros passando

Pessoas falando
Mq. lavar roupa
Batendo porta
Aspirador de p

Batendo palma

Ondas do mar
Ar escapando

Voz aguda
Fechadura

Voz grave
Chuveiro

Torneira
Chafariz
Assovio

Chaves

Espirro

Ronco

Tosse
Alerta de garagem 8 1 1
Ar escapando 10
Aspirador de p 10
Assovio 10
Batendo porta 9 1
Batendo palma 9 1
Canto de pssaro 7 1 1 1
Carros passando 9 1
Chafariz 10
Chaves 10
Chuveiro 10
Espirro 8 1 1
Fechadura 10
Guarda de trnsito apitando 1 9
Mq. lavar roupa 10
Mq. lav. roupa centrifugando 10
Mexendo embalagem plstica 10
Ondas do mar 10
Panela de presso 10
Pedido de silncio (sshhh) 1 9
Pessoas falando 1 9
Ronco 10
Secador de cabelo 10
Sinal de micro-ondas 10
Toque de telefone 10
Torneira 1 1 1 7
Tosse 1 1 8
Veculo pesado 2 8
Voz aguda 1 8 1
Voz grave 1 9

Nas matrizes das Tabelas 3, 4, 5 e 6, as linhas forma bastante similar, com a diferena de que naive
representam as classes testadas e as colunas representam Bayes no utiliza redes neurais artificiais (RNA). Para
as classes previstas. No teste com NN no executado o teste com Bayes network foram utilizados no
nenhum treinamento. A classe prevista corresponde mximo dois pais para cada n. O teste com o
classe da instncia mais prxima da amostra avaliada, ensemble de rvores de deciso aleatrias efetua dez
utilizando a distncia euclidiana como referncia. Os iteraes com 5 rvores cada. A profundidade das
classificadores bayesianos foram configurados de rvores ilimitada.

Figura 1 - Comportamento da classificao com o aumento do Figura 2 - Comportamento da classificao com o aumento do
nmero de classes. Em todos os pontos do grfico as classes nmero de instncias por classe. Em todos os pontos do grfico a
possuem 10 instncias cada. base possui 30 classes.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 36

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

3.4 Avaliao dos resultados Da Figura 1, possvel perceber que a oscilao da


Com uma base de 300 instncias, o uso de NN acurcia comeou a diminuir quando a base alcanou o
demonstrou ser a opo mais eficiente, porm o tempo da nmero de 24 classes. Pela Figura 2, o desempenho dos
classificao se eleva proporcionalmente ao aumento do classificadores se estabilizou quando a base possua pelo
nmero de registros. Portanto, apesar da alta acurcia menos 8 instncias por classe. Estes dados proporcionam
alcanada, a desvantagem do mtodo no permitir que a uma referncia para a construo da base de conhecimento
parte mais custosa do processamento, que o clculo das e a configurao do aplicativo mvel. No entanto, bases
distncias, seja executada no treinamento, j que s pode maiores ainda podem oferecer importantes informaes
ser realizada aps o conhecimento da nova amostra de sobre o comportamento da classificao.
som. No entanto, como o tempo de classificao foi similar
4 REPRESENTAO DA INCERTEZA NO
aos dos outros mtodos, uma alternativa interessante para
RECONHECIMENTO DO SOM
bases no muito maiores do que a utilizada.
Quanto aos classificadores bayesianos, ambos obtiveram Nos testes com validao cruzada as instncias utilizadas
uma acurcia muito prxima com apenas 1% de diferena, possuem features geradas a partir de um universo conhecido
demonstrando que as classes provavelmente possuem pouca de sons, onde amostras foram coletadas e anotadas pelo
dependncia entre si. De fato, a ideia do experimento foi usurio e o aprendizado dos algoritmos supervisionado. Os
utilizar sons diferentes o suficiente para obter uma base de testes avaliam a consistncia das classes, a seleo de features
conhecimento variada e, ao mesmo tempo, incorporar sons e o classificador utilizado, mas no a capacidade do aplicativo
similares porm independentes como aspirador de p e de contextualizar o indivduo em uma situao real. Na
secador de cabelo, por exemplo. Portanto, ao menos para prtica, durante o processo de reconhecimento, sons no
esta base, empregar RNA no resultou em uma vantagem conhecidos pelo aplicativo, ou seja, sons pertencentes a classes
notvel, especialmente pelo fato de o treinamento ter no registradas na base de conhecimento so igualmente
requerido um tempo superior a 8 vezes o da opo sem classificados, e o resultado apresentado pode ser bastante
RNA, como demonstrado na Tabela 2. incoerente. Nos classificadores bayesianos, por exemplo, onde
A classificao com naive Bayes, apesar de ter obtido a o resultado baseado na probabilidade, a classificao de
menor acurcia com 88,7%, representa uma boa opo para eventos sonoros no previstos no aplicativo pode chegar a
o aplicativo, pois alm de parte do processamento poder apresentar um percentual de 100%. Para contornar este
ser adiantado no treinamento, este teve uma durao bem problema, optamos por fornecer ao usurio o grau de incerteza
inferior aos testes com RNA e rvores de deciso. Esta da classificao. Foi portanto elaborada uma equao com o
diferena proporciona, portanto, margem para objetivo de indicar o nvel de pertencimento de uma nova
processamento com bases significativamente maiores. amostra ao grupo formado pelas instncias da classe,
acrescentando classificao uma informao de apoio. A
As matrizes de confuso proporcionam uma viso mais
ideia mostrar quo prximo o som detectado est da classe
profunda do desempenho dos classificadores. Neste
prevista. O clculo do indicador, apresentado nas Equaes
experimento destacam-se sobretudo as classes com baixo
(1), (2), (3) e (4), no representa um aumento significativo no
percentual de acerto. possvel por exemplo verificar que
custo computacional total do reconhecimento do som, pois
a classe Torneira, que obteve o pior desempenho geral,
somente so utilizadas as instncias pertencentes classe
apresentou acurcia de 20% com NN, 50% com naive
prevista.
Bayes e 70% com Bayes network e rvores de deciso.
Propositalmente, foram includas na base classes com sons Com Pmxn sendo a matriz formada pelas instncias da classe
similares mencionada, como Chafariz e Chuveiro, prevista expressas nas linhas, com os seus respectivos
que receberam a maior parte das amostras mal classificadas atributos expressos nas colunas e considerando as
com o uso de NN. J nos demais classificadores, as instncias como pontos do espao n definem-se:
amostras mal classificadas foram reconhecidas, na sua d(x,y) como a distncia euclidiana entre os pontos x e y
maioria, como sons bastante distintos. Portanto possvel c como o centroide de P
perceber que para estes sons a classificao com NN gerou m como o nmero de pontos em P
erros mais previsveis e similares ao padro da audio n como a dimenso do espao P
humana do que com os demais algoritmos. Tambm a como o ponto correspondente nova amostra de som
possvel verificar que a classe Voz grave absorveu o p* como o ponto mais prximo de a
maior nmero de classificaes erradas, o que pode g(a,P) como o indicador de pertencimento de a ao grupo
formado pelas instncias de P
significar que a classe esteja pouco consistente, ou seja,
com amostras demasiadamente distintas entre si. No
entanto, a segurana dessas afirmaes depende da
realizao de um experimento utilizando uma base com um
nmero maior de instncias por classe.
Quanto escalabilidade da base, o ensemble de rvores
de deciso teve comportamento mais estvel que os
demais mtodos, como demonstrado nos grficos das
Figuras 1 e 2. Porm o tempo requerido para seu
treinamento foi o mais elevado, tornando seu uso pouco
indicado para o aplicativo, mesmo com a alta acurcia Atravs dessa abordagem, valores negativos indicam alto
alcanada de 92,3% nos testes. grau de pertencimento ao grupo. Para os valores positivos

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 37

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


FANZERES ET AL RECONHECIMENTO DE SONS DO AMBIENTE

necessrio ajustar o resultado de acordo com a base, porm Lu, H.; Pan, W.; Lane, N.; Choudhury, T.; Campbell,
com as instncias do experimento observamos que valores A. SoundSense: Scalable sound sensing for
entre 0 e 1 indicaram um grau mdio de pertencimento people-centric applications on mobile phones, in
enquanto valores acima de um, na maioria das vezes, ocorriam Proc. of the 7th International Conference on Mobile
em classificaes erradas. No entanto, observamos tambm Systems, Applications, and Services (MobiSys'09),
que esses valores oscilam de acordo com a classe utilizada, o Cracvia, Polnia, jun. 2009, pp. 165178.
que torna necessrio definir um ajuste automtico para cada Choudhury, T.; Borriello, G.; Consolvo, S.; Haehnel, D.;
classe, proporcionando assim maior estabilidade ao indicador. Harrison, B. ; Hemingway, B. ; Hightower, J. ; Klasnja, P.;
Koscher, K. ; LaMarca, A. et al. The Mobile Sensing
5 CONCLUSO Platform: An Embedded Activity Recognition System, in
Os resultados das matrizes de confuso, com IEEE Pervasive Computing, v.7, n.2, p.32-41. April 2008.
desempenho comparvel ao obtido em sistemas de ESR Hipke, K.; Holt, M.; Price, D.; Brumet, A.; Anderson, K.
baseados em plataforma desktop [3][15][16], apontaram AudioVision: Sound detection for the deaf and
algumas potencialidades do uso de dispositivos mveis hard-of-hearing, Disponvel em: <http://www.cs.washin
para esta funo. Quanto avaliao da durao dos gton.edu/education/courses/cse481h/12wi/projects/access
processos, foi possvel verificar que, apesar da limitao ible-sound/docs/paper.pdf> Acesso em: 8 maro 2014.
dos recursos de hardware, a execuo da classificao teve Hall, M.; Frank, E.; Holmes, G.; Pfahringer, B.;
durao entre 3 e 4s, sendo portanto compatvel com a Reutemann, P.; Witten, I. The Weka data mining
dinmica exigida no uso de tecnologia mvel. software: An update, SIGKDD Explorations
Newsletter, vol. 11, no. 1, pp. 1018, jun. 2009.
O experimento realizado parte de uma pesquisa sobre
Chachada, S.; Kuo, C.-C. Environmental sound recognition:
contextualizao do indivduo surdo atravs de computao
A survey, in Proc. of the Signal and Information Processing
ubqua e tem como objetivo auxiliar o desenvolvimento de
Association Annual Summit and Conference (APSIPA 2013),
sistemas de reconhecimento de som no estruturado do
Kaohsiung, Taiwan, out./nov. 2013, pp. 19.
ambiente, sendo a escalabilidade da base de conhecimento
Kim, H.-G.; Moreau, N.; Sikora, T. MPEG-7 Audio and
um dos temas de maior importncia. A utilizao de uma
Beyond: Audio Content Indexing and Retrieval,
base com 300 amostras, sendo 30 classes de som com 10
Chichester: John Wiley & Sons, 2005.
amostras cada, foi fundamental para estabelecer algumas
referncias de configurao. No entanto, preciso utilizar Chu, S.; Narayanan, S.; Kuo, C.-C. Environmental
bases maiores, especialmente com mais classes, para sound recognition with time-frequency audio features,
confirmar as tendncias observadas no comportamento dos Transactions on Audio, Speech, and Language
classificadores. O aumento do nmero de classes o fator Processing, vol. 17, no. 6, pp. 11421158, ago. 2009.
que pode tornar o reconhecimento invivel, da a Zeng, Z.; Li, X.; Ma, X.; Ji, Q. Adaptive context
importncia de se verificar a sua influncia na classificao. recognition based on audio signal, in Proc. of the
International Conference on Pattern Recognition
A preocupao com a informao sobre a incerteza da
(ICPR), Tampa, EUA, ago. 2008, pp. 14.
classificao em sistemas de ESR foi relatada pelos participantes
Chu, S.; Narayanan, S.; Kuo, C.-C.; Mataric, M.
do estudo realizado por Matthews et al. [17] e acreditamos que
Where am I? Scene recognition for mobile robots
proporcionar essa informao seja fundamental para a adoo
using audio features, in Proc. of the IEEE
dessa tecnologia. O indicador de pertencimento ao grupo
International Conference on Multimedia and Expo
proposto neste estudo mostrou-se capaz de oferecer apoio
(ICME), Toronto, Canad, jul. 2006, pp. 885888.
classificao. Porm, para solucionar o problema de sons alheios
McKay, C. jAudio: Towards a standardized
base de conhecimento, ainda precisamos de um indicador mais
extensible audio music feature extraction system.
estvel, provavelmente avaliando outras caractersticas do grupo
Faculty of Music, McGill University, 2005.
para permitir a representao necessria.
Witten, I ; Frank, E; Hall, M. Data Mining: Practical
AGRADECIMENTO Machine Learning Tools and Techniques. 3a. ed.,
Burlington: Morgan Kaufmann, 2011.
Os autores agradecem ao CNPq e CAPES por Toyoda, Y.; Huang, J.; Ding, S.; Liu, Y.
financiarem a pesquisa. Environmental sound recognition by multilayered
neural networks, in Proc. of the Fourth International
REFERNCIAS BIBLIOGRFICAS Conference on Computer and Information Technology
Mogi, R.; Kasai, H. Noise-robust environmental (CIT'04), Wuhan, China, set. 2004, pp. 123127.
sound classification method based on combination of Wang, J.-C.; Wang, J.-F.; He, K.; Hsu, C.-S.
ICA and MP features, Artificial Intelligence Environmental sound classification using hybrid
Research, vol. 2, no. 1, pp. 107121, dez. 2013. SVM/KNN classifier and MPEG-7 audio low-level
Goldhor, R. Recognition of environmental sounds, descriptor, in Proc. of the International Joint
in Proc. of the IEEE International Conference on Conference on Neural Networks (IJCNN), Vancouver,
Acoustics, Speech, and Signal Processing Canad, jul. 2006, pp. 17311735.
(ICASSP'93), Minneapolis, USA, abr. 1993, vol. 1, Matthews, T.; Fong, J.; Mankoff, J. Visualizing
pp. 149152. Non-Speech Sounds for the Deaf, in Proc. of the 7th
Temko, A.; Nadeu, C. Classification of acoustic events International ACM SIGACCESS Conference on
using SVM-based clustering schemes, Pattern Computers and Accessibility (Assets'05), Baltimore,
Recognition, vol. 39, no. 4, pp. 682694, abr. 2006. EUA, out. 2005, pp. 5259.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 38

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


Sociedade
SociedadededeEngenharia
EngenhariadedeAudio
Audio
Artigo de Congresso
Convention Artigo
Apresentado no 12o Congresso de Engenharia de Audio
a
Apresentado no 10a Convention
1808 Convenc
a 10 de ao Nacional
Maio da AES
de 2006, Sao Brasil
Paulo, SP
13 a 15 de Maio de 2014, Sao Paulo, SP
EsteEste artigo
artigo foi reproduzido
foi reproduzido dofinal
do original original
entregueentregue pelo
pelo autor, semautor,
edicoes,sem edicoes,
correcoes correcoes efeitas
ou consideracoes consideracoes
pelo comite feitas pelo com
tecnico deste evento. Outros artigos podem ser adquiridos atraves da Audio Engineering Society,
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering 60 East 42nd Stre
New 60 York, nd
NewStreet,
YorkNew
10165-2520, www.aes.org.
USA;10165-2520, InformacoesInformacoes
sobre a secao
Society, East 42 York, New York USA, www.aes.org. sobre aBrasileira podem ser obtidas
secao Brasileira
www.aesbrasil.org.
podem Todos os direitos
ser obtidas em www.aesbrasil.org. Todos ossao reservados.
direitos Nao Nao
sao reservados. e permitida
e permitidaaa reproducao
reproducao total
total ou parcial
ou parcial deste deste artigo s
autorizacao
artigo expressa
sem autorizacao dadaAES
expressa AES Brasil.
Brasil.

Ttulo
Extracao de Descritores do Artigo
Sonoros Timbrsticos a
Partir da Transformada Wavelet Packet
Thiago Rossi RoqueAutor
1 1, Autor
e Rafael 2, Mendes
Santos Autor 31
1 Aliacao
Universidade Estadual de Campinas, FEEC, DCA
Campinas, Codigo
Sao Paulo, 13083-970, Brasil
Postal, Cidade, Estado, Pas
ra072515@fee.unicamp.br, rafael@dca.fee.unicamp.br
endereco@eletr^ onico

RESUMO
RESUMO
Um resumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. U
Asresumo,
tecnicas decomreconhecimento
aproximadamente e classificacao
de 60 ade80 sons na ciencia
palavras, chamada
devera Music Information
apresentar o conteudo Retrieval
deste artigo. Um
sofreram
sumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo destecom
notavel progresso nos ultimos anos. Ao unir o conhecimento gerado por essa ciencia artigo. Um resum
os anseios criativos da musica eletroacustica, novas possibilidades vem surgindo atraves de recentes
com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um resumo, co
tecnicas de sntese sonora baseadas em modulacoes de descritores sonoros. Porem os metodos tradicio-
aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo.
nais de extracao de descritores sonoros foram desenvolvidos com o unico objetivo de realizar analise de
sinais. Este artigo tem como objetivo apresentar os resultados parciais das pesquisas em andamento dos
autores sobre uma nova tecnica de extracao de descritores timbrsticos baseada na transformada wavelet
1. deITEM
a fim obter, futuramente, um calculo orientado tanto a analise dito, quantoe aem fontedeTimes
sntese sinais Roman,
musicais. tamanho 9 e just
cado (como este).
Este template, em LATEX deve ser compatvel com
0 qualquer
INTRODUC PC ou AOMacintosh. O objetivo destepatveis tem- as existentes
1.1. Sub-Item 1 de busca textuais,
em ferramentas
plate e sugerir um formato padrao para apresentacao atraves da uniao de conhecimentos demaiusculas
Subitens usam letras e minusculas, com
diversas areas,
de trabalhos tecnicos e cientcos. Para isto, basta
O avanco nas tecnologias de armazenamento e com- incluindo acustica, acima.psicoacustica,
A fonteprocessamento
e Helvetica,de si-tamanho 8, est
salvar estedetemplate
partilhamento conteudo com outro
digital nome,decadas
nas ultimas nais, computacao,
e como arquivo biblioteconomia
negrito, alinhamento e outras.
a esquerda, como no item pr
criou vastos
*.tex, e irrepositorios
digitandodaso mais
novodiversas mdiaseste.
texto sobre di- Uma importante
cipal. ferramenta da MIR consiste nos
gitais, incluindo o audio. Para lidar com esta mas- descritores sonoros. Descritores sao conjuntos de
sivaOsquantidade
artigos submetidos a Convencao
de informacao, da AES
diversas tecnicas fo- nao sao
informacoes que buscam quantificar aspectos geral-
revisados pelo corpo editor, e poderao ser publicados
ram desenvolvidas. No final da decada de 90 estas mente qualitativos 2. CONTE UDO
de um determinado sinal, ou seja,
tecnicas
em suasse consolidaram na ciencia
formas originais, comomultidisciplinar
submetidos. descrever Para garantir
Para certas caractersticas que
de os
umartigos
sinal deda Convencao da AE
forma
conhecida
isto, as como Music
versoes naisInformation
devem serRetrieval
enviadas (MIR) objetiva. A sejam
em arquivos consistentes
importancia do estudo com os objetivos
de descritores para da AES Bra
[1].PDF
Segundo J. Stephen Downie [2], esta ciencia
(*.pdf) ou em postscript (*.ps), segundo estecon- a MIR consiste
as no fato de
instrucoes que sao
abaixoestes que
devem fornecem
ser consideradas pe
siste em fornecer
formato. acesso aos vastos repositorios mun- as informacoes necessarias
autores. para catalogar e diferenciar
diais de conteudos musicais com funcionalidades com- conteudos de audio digital. Grande esforco tem sido
Itens principais (veja acima) sao em letras O conteudo tecnico deve ser preciso e coeren
maiusculas, fonte Helvetica, tamanho 8, estilo Citacao a trabalhos anteriores e/ou de terceiros d
negrito, alinhado a esquerda. O texto, propriamente vem ter seus respectivos creditos.
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 39
ROQUE ET AL. DESCRITORES WAVELET

feito para que tecnicas diversas de processamento de si- tecnica para a extracao do descritor centroide espectral
nais sejam desenvolvidas a fim de extrair e quantificar em [8] alem de uma breve discucao sobre as vantagem
as mais diversas caractersticas psicoacusticas de sinais dessa tecnica em relacao as tradicionais. Este traba-
de audio. Atualmente existe uma vasta gama de descri- lho tem como objetivo a continuidade das pesquisas en-
tores sonoros desenvolvidos para os mais diversos fins; volvendo a transformada wavelet packet e MIR, expan-
uma extensa lista de classificacao desses descritores foi dindo as possibilidades para novos descritores tanto fre-
feita por Peeters durante o projeto CUIDADO [3], que quenciais quanto temporais.
buscou expandir a padronizacao do uso dos descrito-
res feita pelo Moving Picture Experts Group (MPEG) 1 OS DESCRITORES SONOROS
atraves do MPEG-7 [4]. Neste trabalho vamos nos focar nos descritores
Neste trabalho vamos considerar dois grupos sonoros timbrsticos, tanto temporais quanto espec-
especficos de descritores sonoros: descritores trais. De acordo com o padrao MPEG-7, os descrito-
timbrsticos temporais e descritores timbrsticos espec- res timbrsticos temporais, usados para descrever ca-
trais. Timbre consiste no conjunto de caractersticas ractersticas temporais de segmentos sonoros, sao as
sonoras que possibita a distincao entre diferentes medidas de tempo logartmico de ataque (TLA) e o
sons de mesma intensidade e frequencia fundamen- centroide temporal (CT). Ja os descritores timbrsticos
tal. Este complexo fenomeno sonologico envolve espectrais sao descritores espectrais baseados em uma
caractersticas multi-dimensionais, pois depende, ao analise linear do espacamento frequencial. Ainda de
menos, de fatores temporais e espectrais, correlatos acordo com o padrao MPEG-7 estes descritores sao:
ou nao. O estudo do timbre assume uma importante centroide espectral harmonico (CEH), desvio espectral
posicao na MIR, principalmente quando se deseja harmonico (DEH), espalhamento espectral harmonico
classificar sons provenientes de instrumentos sonoros. (EEH), variacao espectral harmonica (VEH) e centroide
Dentre uma infinidade de possveis descritores sonoros espectral (CE) [4]. Neste trabalho abordaremos o TLA,
a serem utilizados para classificacao timbrstica, o o CT, o CEH, o EEH e o CE. Futuros trabalhos deverao
padrao MPEG-7 adotou sete descritores baseando-se abranger o DEH e o VEH, dado que ate o atual mo-
em trabalhos como Krumhansl (1989) [5]. Devido mento a tecnica aqui apresentada nao apresentou resul-
a importancia e relevancia do padrao no contexto tados satisfatorios para com estes descritores. A seguir
da MIR, decidiu-se utilizar os mesmos descritores apresentaremos as definicoes de cada um dos descrito-
adotados pelo MPEG-7. res aqui abordados juntamente com seus metodos usu-
Outro campo de pesquisa influenciado pelo estudo ais de calculos.
do timbre e a sntese sonora. Nascida com a musica ele-
troacustica na primeira metade do seculo XX a sntese 1.1 Descritores Timbrsticos Temporais
sonora busca a criacao de sons por meios eletroe- Os descritores timbrsticos temporais sao extrados
letronicos, analogicos ou digitais, a fim de expandir as diretamente a partir da envoltoria temporal do sinal.
possibilidades criativas dos compositores. Uma recente A forma classica de expressar a envoltoria temporal
tecnica de sntese sonora consiste na manipulacao dos do som de um instrumento musical e pelo acronimo
descritores sonoros [6] que, atraves de tecnicas de pro- ADSR, onde o som e dividido entre trechos de ata-
cessamento de sinais, possibilita ao usuario alteracoes que, decaimento, sustentacao e relaxamento. Pelo fato
timbrsticas por modulacao de descritores especficos de nem todo instrumento gerar sons que possuam es-
a fim de modificar de forma controlada um determi- tas quatro etapas, o padrao MPEG-7 exige somente o
nado som. E neste ambito que focamos este trabalho descritor baseado no tempo de ataque, o TLA, alem
de forma a desenvolver uma nova ferramenta orientada do CT. Estes dois descritores combinados fornecem im-
nao somente a analise de sons (como e o caso da trans- portantes informacoes a respeito do timbre de um ins-
formada de Fourier), mas tambem a sntese, de forma a trumento pela forma como o som se desenvolve ao
darmos novos passos no desenvolvimento da sntese por longo do tempo. Tais aspectos sao fundamentais para
modulacao de descritores sonoros. A diferenca entre as diferenciacao de sons que possuem tempos de ataque
ferramentas usuais ja consagradas e a aqui apresentada curto e com alta concentracao de energia em seus pri-
para extracao dos descritores consiste na transformacao meiros instantes como, por exemplo, sons percussivos,
utilizada, a transformada wavelet. e tambem sons com tempos de ataque mais longos e
A transformada wavelet e uma transformada em com energia distribuda homogeneamente ao longo de
multi-resolucao, ou seja, possibilita uma decomposicao sua execucao, como sons de cordofones friccionados
do sinal tanto no domnio frequencial quanto no [9].
domnio temporal. Novas tecnicas recentemente desen- O tempo de ataque e definido como o tempo ne-
volvidas de estimacao espectral a partir da transformada cessario para um sinal atingir um limiar de seu valor
wavelet packet [7] possibilitaram uma analise similar maximo de amplitude partindo de um limiar de seu
a transformada de Fourier janelada (STFT, do ingles valor mnimo do instante de execucao. O tempo lo-
short-time Fourier transform). Trabalhos previos dos gartmico de ataque definido pelo padrao MPEG-7 e o
autores desse artigo validaram a aplicacao dessa nova logaritmo decimal do tempo de duracao do ataque de

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO SDA
NACIONAL AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 40
ROQUE ET AL. DESCRITORES WAVELET

um som como expresso na Equacao (1), sendo Tinicial O centroide espectral harmonico (CEH) e definido
o instante em que o sinal esta em seu limiar mnimo como a componente harmonica media de toda a duracao
e Tf inal o instante em que o sinal esta em seu li- do sinal. Seu calculo e feito a partir da media tem-
miar maximo. O padrao MPEG-7 nao define quais sao poral da componente harmonica media de cada janela
os limiares mnimo e maximo, possibilitando aborda- da STFT, ponderada por sua amplitude. O calculo da
gens distintas. Neste trabalho sera adotada como limiar componente harmonica media de cada janela, chamado
mnimo uma amplitude de 5% de seu valor maximo de centroide espectral harmonico local (CEHL), esta
e o instante final sera quando o sinal atingir seu valor explcito na Equacao (3), onde fh,j e a frequencia da
maximo de amplitude. harmonica h e Ah,j e sua amplitude, ambas na janela j.
Este calculo e analogo ao primeiro momento estatstico
de uma dada funcao densidade de probabilidade, a par-
T LA = log10 (Tf inal Tinicial ) (1) tir de uma relacao entre densidade espectral harmonica
e densidade de probabilidade.
O centroide temporal (CT) e definido como a media
temporal da energia da envoltoria do sinal. A formula NH
para seu calculo esta dada na Equacao (2), onde a h=1 (fh,j Ah,j )
CEHL(j) = NH (3)
funcao Env representa a envoltoria do sinal. O metodo h=1 (Ah,j )
de extracao da envoltoria do sinal nao e normativo pelo Ja o CEH e calculado pela media dos CEHL ao
padrao MPEG-7, porem este pode ser compreendido longo das janelas, seu calculo esta na Equacao (4),
pelo calculo do valor RMS de janelas temporais des- sendo J o numero total de janelas.
N
locadas ao longo do sinal analisado. O fator Fhop s
con-
verte o ndice da janela para segundos, fornecendo um
1 J1
resultado em segundos para o valor do CT. CEH = CEHL(j) (4)
J j=0

L1 O espalhamento espectral harmonico (EEH) e a me-


Nhop l=0 (lEnv(l)) dida do espalhamento espectral medio em relacao ao
CT = L1 (2)
Fs CEH. Sua definicao se baseia na media do espalha-
l=0 Env(l)
mento espectral harmonico local (EEHL) que e cal-
1.2 Descritores Timbrsticos Espectrais culado para cada janela da STFT, de forma analoga a
relacao entre o CEH e CEHL. O EEHL e calculado
Os descritores timbrsticos espectrais tem como ob-
pelo desvio padrao do CEHL ponderado e normalizado,
jetivo avaliar o conteudo harmonico a partir de uma
conforme descrito da Equacao (5). Similarmente ao
analise do desenvolvimento espectral do sinal ao longo
CEHL, o EEHL e analogo ao segundo momento es-
do tempo. Nota-se que para estes descritores o padrao
tatstico considerando a relacao entre densidade espec-
MPEG-7 explicita que o calculo seja feito a partir de
tral harmonica e densidade de probabilidade. Sob a
um ordenamento linear das frequencias.
otica da psicoacustica o espalhamento espectral esta li-
Para o calculo desses descritores o padrao MPEG-
gado as sensacoes de harmonicidade de um som [10].
7 indica a STFT com janelas de 30ms e desloca-
mentos de 10ms. E necessaria tambem uma esti- N
mativa dos harmonicos do sinal, principalmente da EEHL(j) = 1
H
N H
2 2
h=1 ((fh,j CEHL) Ah,j )
(5)
CEHL
frequencia fundamental, pois a maioria dos descrito- 2
h=1 (Ah,j )

res tratados nessa secao sao calculados a partir so- O calculo do EEH esta explicitado na Equacao (6).
mente de cada componente harmonica, e nao do es-
pectro inteiro extrado da transformada de Fourier. A
1 J1
relacao entre a energia das componentes harmonicas e EEH = EEHL(j) (6)
uma parte de grande importancia da definicao do tim- J j=0

bre de um instrumento musical de nota definida; e o O centroide espectral e similar ao CEHL, porem
conteudo harmonico que nos permite diferenciar o som nao se baseia somente nos picos harmonicos, mas sim
de uma flauta e de um oboe, que em geral possuem em todo o conteudo espectral. Seu calculo busca a
envoltorias temporais similares. Nota-se uma curiosa frequencia media do sinal ponderada pela amplitude
dificuldade em expressar as sensacoes auditivas cau- de cada componente espectral, como representado na
sadas pelo conteudo harmonico, geralmente recorre-se Equacao (7).
a expressoes de sensacoes tateis ou visuais como, por
exemplo, sons chamados de brilhantes ou aveludados. N
An,j n
Os descritores timbrsticos espectrais adotados pelo CE(j) = n=1
N
(7)
An,j
padrao MPEG-7 sao: centroide espectral harmonico, n=1

espalhamento espectral harmonico, variacao espectral Este descritor e tido como um dos mais impor-
harmonica, desvio espectral harmonico e centroide es- tantes na identificacao de instrumentos e possui alta
pectral. correlacao com a sensacao de brilho de um som [11].

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 41
ROQUE ET AL. DESCRITORES WAVELET

2 A TRANSFORMADA WAVELET
As transformadas wavelet compreendem um con-
junto de metodos para decomposicao de sinais em
nveis progressivos de resolucao, ou seja, permitem a
representacao de sinais em graus de refinamento cres-
cente [12]. As transformadas wavelet consistem em
decompor um sinal a partir de uma funcao base (t),
chamada wavelet mae, que possua energia finita e nao
possua componente de frequencia nula. Alem dessas Figura 1: Transformada Wavelet Discreta de Tres
duas condicoes, e necessario que a funcao base (t) Nveis.
possa se deslocar, se contrair e se dilatar, gerando as-
sim novas funcoes chamadas de wavelets filha, como 2.1 A Transformada Wavelet Packet
reprensentado na Equacao (8).
Outro formato da transformada wavelet e a trans-
j
j
j,k (t) = 2 (2 t k)
2 (8) formada wavelet packet (WP). Baseada na TWD, a WP
busca refinar a decomposicao do sinal para todas as fai-
A transformada wavelet contnua (TWC) se baseia xas de frequencia. Portanto durante o processo de filtra-
no calculo do produto interno entre a funcao a ser anali- gem, tanto os coeficientes de aproximacao c quanto os
sada e as wavelets filha para diversos valores de deslo- coeficientes de detalhamento d sao sucessivamente fil-
camento (k) e compressao/dilatacao (j), conforme des- trados e decimados, gerando assim uma arvore binaria
crito na Equacao (9). O conjunto de valores W(k,j) conforme exemplificado na Figura (2), onde cada folha
compreende os coeficientes wavelet da TWC. da arvore se torna um ramo gerando duas novas folhas.

W (k, j) = < f (t), j,k (t) > (9)



= f (t)j,k (t)dt

Para sinais discretos a transformada wavelet assume


caractersticas interessantes. A partir da consideracao
de que todo sinal discreto possui banda limitada o
calculo da transformada wavelet discreta (TWD) pode
ser aproximado e compreendido como um processo
de sucessivas filtragens e decimacoes conforme des-
crito nas Equacoes (10) e (11). Detalhes sobre essa
aproximacao podem ser obtidos em [12].


cj [k] = h0 [m 2k]cj+1 [m] (10)
m


dj [k] = h1 [m 2k]cj+1 [m] (11)
m
Figura 2: Transformada Wavelet Packet de Tres Nveis.
h1 [n] pode ser visto como um filtro passa-altas e o
resultado de sua filtragem sao os coeficientes de deta- Ao inves de decompor o sinal em bandas de fator
lhamento dj . Ja o filtro h0 [n] pode ser visto como um Q-constante, a decomposicao feita pela WP possui lar-
filtro passa-baixas e o resultado de sua filtragem sao os gura constante, resultando em um espacamento linear
coeficientes de aproximacao cj . Nota-se que ambos os de suas 2n bandas. Pelo fato do espacamento frequen-
coeficientes sao calculados a partir dos coeficientes cj cial ser linear e a WP ser uma transformada em multi-
anteriores. Isto resulta em uma decomposicao em ban- resolucao, esta possui caractersticas interessantes para
das frequenciais de largura variada, de forma a man- o calculo dos descritores timbrsticos apresentados na
ter a relacao f
f constante. Essa relacao e chamada de
Secao (1) como alternativa a STFT.
Q-constante e e muito interessante pois o sistema au- Porem a maior vantagem da WP sobre a STFT esta
ditivo possui caractersticas similares, dedicando maior na transformada inversa. O principal fator negativo da
largura de banda para frequencias mais altas. STFT inversa esta no janelamento, a transformada in-
Um esquema em blocos representando a TWD esta versa de cada janela deve ser calculada independen-
apresentado na Figura (1) para uma transformada de 3 temente e cada sinal resultante deve ser concatenado
nveis de profundidade. no domnio temporal. Como geralmente as janelas

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 42
ROQUE ET AL. DESCRITORES WAVELET

possuem uma sobreposicao, a tecnica de overlap-and- variacao na frequencia, de forma analoga a um espec-
add e comumente usada na STFT inversa [13], porem trograma. Um exemplo da estimacao espectral atraves
este processo deve ser feito com certo cuidado pois a da WP pode ser visto na Figura (3) onde foi analisado
concatenacao de sinais no domnio do tempo sao muito o som de um trompete entoando a nota La (A3) com
suscetveis a desvio de fase, gerando rudo. intensidade mezzo-forte. O nvel de cinza representa a
Ja a WP inversa segue a mesma estrutura do seu pro- amplitude do coeficiente da transformada, sendo preto
cesso de decomposicao, porem no sentido contrario. Os os coeficientes mais negativos e branco os coeficientes
coeficientes sao filtrados, por filtros inversos aos usados mais positivos, nota-se a predominancia da cor cinza
na analise, e interpolados, a fim de restituir a taxa de demonstrando o alto ndice de coeficientes nulos.
amostragem original. Retornando o sinal por inteiro ao
domnio temporal em um algoritmo eficiente.

2.2 Analise Espectral atraves da Transfor-


mada Wavelet
Conforme apresentado no trabalho previo dos au-
tores [8], o calculo da WP assume uma estrutura onde
o sinal analisado e decomposto em 2n bandas espec-
trais de mesma largura. Portanto com um numero sufi-
ciente de bandas espectrais e possvel utilizar os coefici-
entes da WP para estimacao espectral caso as seguintes
consideracoes sejam validas:

A WP deve obedecer ao teorema de Parseval, ga-


rantindo uma relacao entre a amplitude do sinal os
coeficientes WP. Figura 3: Estimacao Espectral de um Trompete (A3
Mezzo-forte).
E necessario ter uma relacao definida entre a
potencia espectral e a potencia dos coeficientes de
um no terminal da arvore (folha) da WP. 3 O C ALCULO DOS DESCRITORES
A validacao dessas condicoes necessarias pode ser
TIMBR ISTICOS ATRAV ES DA WAVE-
observada em [7], juntamente com uma comparacao en- LET PACKET
tre esta tecnica e outras tradicionais, como o periodo- Ao ser feita a analogia entre a estimacao espectral
grama e o metodo de Welch. wavelet citada na Secao 2.2 e o espectrograma forne-
Outras questoes devem ser levadas em consideracao cido pela STFT o fundamento do calculo dos descrito-
para a estimacao espectral atraves da WP. A sub- res a partir da transformada wavelet e desvelado. Ire-
amostragem gerada por um processo de decimacao na mos tratar cada folha da WP como uma raia espectral
sada de um filtro passa-altas causa um espelhamento da STFT, e o conjunto dos coeficientes de um mesmo
espectral que, ao longo da transformada WP gera um deslocamento k da funcao wavelet (8) como sendo uma
ordenamento nao frequencial nos ramos da arvore WP janela da STFT.
e consequentemente nas folhas. Uma simples forma
de reordenar as folhas de forma frequencial e a par- 3.1 Descritores Timbrsticos Temporais
tir da serie resultante do codigo de Gray convertido de Wavelet
binario para decimal (0, 1, 3, 2, 6, etc...) [14]. Acres-
Seguindo a proposta de desenvolvermos uma alter-
cendo 1 a cada componente da serie do codigo de Gray
nativa ao calculo dos descritores a partir de uma aborda-
convertido, esta se torna a nova posicao de cada folha
gem voltada a sntese sonora, optou-se por extrair tanto
de mesmo ndice, ordenando assim as folhas da WP de
os descritores temporais quanto espectrais no mesmo
forma frequencial.
domnio da transformada wavelet. Pelo fato de ja pos-
Nota-se tambem a importancia da funcao wavelet suirmos o sinal dividido em janelasno domnio wave-
escolhida, pois diferentes wavelets resultarao em dife- let, o calculo da envoltoria consiste na computacao da
rentes filtros com diferentes respostas em frequencia. media RMS de todos os coeficientes de cada folha para
Neste trabalho, seguindo trabalhos anteriores, adotou- um mesmo deslocamento wavelet k como apresentado
se a wavelet Meyerem sua forma discreta, dado que na Equacao (12).
apos diversos testes esta wavelet demonstrou uma me-
lhor resolucao frequencial.

O resultado obtido pelo ordenamento das folhas da
1 J
WP pode ser interpretado como uma matriz onde o Envw p(k) = W p2k,j (12)
eixo x representa a variacao no tempo e o eixo y a K j=1

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 43
ROQUE ET AL. DESCRITORES WAVELET

A partir da funcao Env(k) o calculo dos descrito- valor do coeficiente para o ndice de escala s e descola-
res apresentados na SFecao 1.1 e direta, com excecao mento k.
de um parametro dependente do nvel de profundidade
adotado na WP. Por causa das sucessivas decimacoes, S
cada passo k corresponde a aproximadamente 2n amos- s=1 (F pks |cs,k |)
CEHLwp (k) = S (15)
tras temporais, sendo n o nvel de profundidade. O s=1 |cs,k |
TLA wavelet pode ser calculado, em segundos, con-
forme descrito na Equacao (13). Ja o calculo do EEHL wavelet assume o formato
exposto na Equacao (16).

(kf inal kinicial )n2


T LAwp = log10 ( ) (13)
S 2 2
Fs EEHLwp (k) = 1 s=1 ((F pksCEHLwp ) cs,k )
S 2 ) (16)
CEHLwp (c
s=1 s,k

Ja a formula do CT wavelet esta explicito na


Equacao (14) similar a (2) porem com o novo fator de O calculo do CE wavelet ja foi discutido e apresen-
conversao de k para segundos. tado em [8]. A adaptacao do CE tradicional para o CE
wavelet segue o mesmo padrao do CEH e sua formula
K1 esta na Equacao (17), onde f (s) e o ndice da folha para
k=0 (kEnvwp (k))
2 escala s.
CTwp = n Fs K1
(14)
k=0 Envwp (k)
S
3.2 Descritores Timbrsticos Espectrais s=1 (f (s)|cs,k |)
CEwp (k) = S (17)
Wavelet s=1 |cs,k |

Com relacao aos descritores espectrais a grande


4 RESULTADOS E COMPARAC OES
vantagem da utilizacao da WP sobre a STFT esta na
ausencia do janelamento ja que a transformada wavelet A validacao deste novo calculo de descrito-
decompoe o sinal em ambas as dimensoes, frequencial res foi feita atraves da plataforma MATLAB pela
e temporal. Pelo fato do sinal se manter ntegro na WP, implementacao das equacoes aqui apresentadas. A
uma transformada inversa, a fim de retornar o sinal ana- ttulo de comparacao o mesmo sinal (o som de um
lisado ao domnio temporal, se torna trivial atraves da trompete executando a nota la em fortssimo) avaliado
equacao de sntese da WP. Isto nao ocorre com a STFT atraves das novas tecnicas aqui apresentadas tambem
que, para recuperar um sinal analisado, necessita de um foi avaliado pelas tecnicas tradicionais pela ferramenta
tratamento especial para concatenar a transformada in- on-line criada pelo Institut fur Telekommunikationssys-
versa de cada janela a fim de nao haver descontinuidade teme da Technische Universitat Berlin [15].
de fase no sinal recuperado. Com relacao aos descritores temporais os resulta-
Para o calculo dos descritores espectrais dos foram muito promissores, dado a similaridade entre
harmonicos (CEH e EEH) e necessario, a priori, os valores obtidos pelas duas tecnicas. O resultado da
identificar os picos harmonicos e suas localizacoes analise pela tecnica baseada na transformada wavelet
nas bandas espectrais da WP. Isto e feito a partir da pode ser visto na Figura (4). Os dois primeiros trace-
envoltoria espectral do sinal que e calculada pelo valor jados verticais representam os pontos inicial e final do
RMS de cada folha da WP. trecho de ataque e o terceiro tracejado demarca o CT
Apos identificar a quais bandas pertencem os pi- calculado sob a curva azul que representa a envoltoria
cos os descritores espectrais harmonicos podem ser temporal do som analisado. Nesta figura o eixo x repre-
calculados pela anulacao de todas as folhas da WP senta o deslocamento k dos coeficientes wavelets.
que nao contenham tais picos. Possibilitando utili- O valor obtido para o TLA wavelet foi de -0,1948 e
zar o mesmo conceito da tecnica tradicional. Tanto para o CT wavelet foi de 2,2349 segundos. Segundo
o CEH wavelet quanto o EEH wavelet sao calculados a ferramenta desenvolvida na Technische Universitat
pela media de seus correspondentes locais pelas mes- Berlin, pelos metodos tradicionais o TLA para este
mas formulas apresentada nas equacoes (4) e (6), porem mesmo sinal e de -0,1938 e o CT esta em 2,0844 se-
com a substituicao da variavel j, referente as janelas da gundos.
STFT, por k referente aos deslocamentos da funcao wa- Para os descritores espectrais tambem foi obtida
velet. Pelo fato ja exposto dos coeficientes wavelet os- grande semelhanca entre as duas tecnicas, principal-
cilarem com valores tanto positivos quanto negativos, o mente com relacao ao CEH e o CE. Tanto o CEHL
calculo do CEHL wavelet e modificado de forma a uti- wavelet quanto o CEH wavelet estao explcitos na Fi-
lizar o valor absoluto dos coeficientes. Dessa forma o gura (5) que podem ser comparada com a Figura (6)
calculo do CEHL wavelet pode ser expresso segundo a que apresenta os mesmos descritores calculados pelo
Equacao (15), sendo F pk o ndice da folha que contem metodo tradicional. Com relacao a valores absolutos,
algum pico harmonico para o valor de escala s e c o o CEH wavelet assumiu o valor de 1874 Hz enquanto

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 44
ROQUE ET AL. DESCRITORES WAVELET

Figura 4: Envoltoria Temporal, Centroide Temporal e Figura 6: Centroide Espectral Harmonico Local e
Instante Inicial e Final do Trecho de Ataque de um Centroide Espectral Harmonico calculados atraves da
Trompete (A3 fortissimo). STFT.

Figura 5: Centroide Espectral Harmonico Local Wave- Figura 7: Espalhamento Espectral Harmonico Local
let e Centroide Espectral Harmonico Wavelet. Wavelet e Espalhamento Espectral Harmonico Wavelet.

este mesmo descritor obteve o valor de 1734 Hz tendo WP, trabalhos mais profundos ainda sao necessarios a
a STFT como fundamento de calculo. fim de possibilitar que outros descritores tambem pos-
Nas Figuras (7) e (8) podemos comparar o EEHL sam ser extrados por esta tecnica. Notou-se tambem a
e o EEH calculados atraves da transformada wavelet possibilidade da criacao de novos descritores baseados
e de Fourier respectivamente. Nota-se que apesar da diretamente na estimacao espectral wavelet, de forma
semelhanca no desenvolvimento do sinal obtido ainda a aproveitar mais eficientemente as vantagens que esta
e necessario um fator de escala de forma a adequar a tecnica apresenta sobre suas alternativas.
magnitude do descritor extrado pela transformada wa- Seguindo a proposta apresentada no incio deste tra-
velet. balho, proximos trabalhos se direcionarao a como os
Com relacao ao CE, apresentaremos aqui os mes- coeficientes wavelet podem ser manipulados de forma
mos resultados obtidos em [8]. As Figuras 9 e 10 apre- a alterar controladamente as caractersticas timbrsticas
sentam respectivamente os resultados obtidos atraves do som, para que uma nova forma de sntese sonora ba-
da WP e da STFT. seada na variacao de descritores possa ser desenvolvida.

5 CONCLUS OES E PR OXIMOS PAS- REFER ENCIAS BIBLIOGR AFICAS


SOS
[1] Michael Fingerhut, Music information retrieval,
Atraves dos resultados apresentados na Secao 4 or how to search for (and maybe find) music and
notou-se boa correlacao entre a tecnica aqui desen- do away with incipits, IAML-IASA Congress,
volvida baseada na WP e a tecnica tradicional funda- Oslo, 2004.
mentada na STFT, validando assim a ideia principal
deste trabalho de buscar novos metodos alternativos de [2] J. Stephen Downie, The music information retri-
calculo de descritores sonoros. Por estar baseado no eval evaluation exchange (2005-2007): A window
recente fundamento da estimacao espectral atraves da into music information retrieval research, Acous-

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 45
ROQUE ET AL. DESCRITORES WAVELET

[7] Dyonisius Donyand Ariananda, Madan Kumar


Lakshmanan, and Homayoun Nikookar, An in-

Figura 8: Espalhamento Espectral Harmonico Local e


Espalhamento Espectral Harmonico calculados atraves Figura 10: Centroide Espectral calculado atraves da
da STFT. STFT.

vestigation of wavelet packet transform for spec-


trum estimation, in The 12th International Sym-
posium on Wireless Personal Multimedia Commu-
nications (WPMC 09), 2009.

[8] Thiago Rossi Roque and Rafael Santos Mendes,


Extracao de centroide espectral atraves da tran-
formada wavelet packet, in Proceedings of the
SPS 2013, 2013.

[9] Lus L. Henrique, Acustica Musical, Fundacao


Calouste Gulbenkian, 2009.
Figura 9: Centroide Espectral Wavelet.
[10] Borko Furht, Handbook of Multimedia for Digital
Entertainment and Arts, Springer, 2010.
tical Science and Technology, vol. 29, no. 4, pp.
247255, 2008. [11] John M. Grey and John W. Gordon, Perceptual
[3] Geoffroy Peeters, A large set of audio featu- effects of spectral modifications on musical tim-
res for sound description (similarity and classifi- bres, The Journal of the Acoustical Society of
cation) in the cuidado project, Tech. Rep., IR- America, Volume 63, Issue 5, 05/1978.
CAM, 2004.
[12] C. Sidney Burrus, Ramesh A. Gopinath, and Hai-
[4] Hyoung-Gook Kim, Nicolas Moreau, and Thomas tao Guo, Introduction to Wavelets and Wavelet
Sikora, MPEG-7 Audio and Beyond: Audio Con- Transform: A Primer, Prentice Hall, 1998.
tent Indexing and Retrieval, John Wiley & Sons,
2005. [13] Bin Yang, A study of inverse short-time fourier
transform, in Acoustics, Speech and Signal Pro-
[5] Carol L. Krumhansl, Why is musical timbre so cessing, 2008. ICASSP 2008. IEEE International
hard to understand?, in Structure and Perception Conference on, March 2008, pp. 35413544.
of Electroacoustic Sound and Music, Proceedings
of the Marcus Wallenberg symposium 1998, Soren [14] Arne Jensen and Anders la Cour-Harbo, Ripples
Nielzen and Olle Olsson, Eds. 1989, pp. 4353, in Mathematics: The Discrete Wavelet Transform,
Excerpta Medica. Springer, 2001.

[6] Matt Hoffman and Perry R. Cook, Feature-based [15] Amjad Samour, Hyoung-Gook Kim, Juan Jose
synthesis: Mapping acoustic and perceptual featu- Burred, and Martin Haller, Mpeg-7 audio analy-
res onto synthesis parameters, in in Proceedings zer low level descriptors extractor, http://
of the International Computer Music Conference, mpeg7lld.nue.tu-berlin.de/, 12 2003.
New Orleans, 2006.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 46
Sociedade de Engenharia de Audio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de Audio
18a Convencao Nacional da AES Brasil
13 a 15 de Maio de 2014, Sao Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edicoes, correcoes ou consideracoes feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informacoes sobre a secao Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproducao total ou parcial deste
artigo sem autorizacao expressa da AES Brasil.

A Bayesian Procedure for Restoration of Audio


Signals Degraded by Low-frequency Pulses
Hugo T. Carvalho,1 Flavio R. Avila2 and Luiz W. P. Biscainho1
1
Universidade Federal do Rio de Janeiro, PEE/COPPE
Rio de Janeiro, RJ, 21941-972, Brasil
2
Universidade do Estado do Rio de Janeiro, DETEL/FEN
Rio de Janeiro, RJ, 20550-900, Brasil

hugo.carvalho@smt.ufrj.br, flavio.avila@uerj.br, wagner@smt.ufrj.br

ABSTRACT
Long pulses are commonly found defects in audio signals, originated e.g. by breakages or big scratches
on the surface of vinyl recordings. Previous approaches to their suppression often depend on previous
estimation of the pulse locations via heuristic methods, which are usually sub-optimal. This paper pro-
poses a Bayesian model-based approach capable of jointly estimating pulse location and parameters, and
thus recovering the original signal. By assigning a parametric model to the pulse describing a dumped
sinusoid with time-varying frequency, the posterior distribution of the parameter given the degraded sig-
nal is calculated via Markov-Chain Monte Carlo (MCMC) techniques. Preliminary tests indicate that
the proposed method succeeds in the treatment of real-world signals.

0 INTRODUCTION noted as long pulses, this problem has been tackled by


A common disturbance affecting old vinyl record- techniques spanning from heuristics-based approaches,
ings are the pulses of long duration with significant low- such as [1], to modern model-based statistical solutions
frequency content superimposed to the original signal such as [2]. Amidst these examples lies the method of
as a result of large breakage or big scratches on the sur- [3], based on a two-pass split window, which explores
face of the disc. Such defects greatly impair the qual- the narrow-band profile of the pulse as compared to the
ity of experience of a modern audience used to high- original signal, yielding a fast yet effective reconstruc-
fidelity material, which justifies an effort to mitigate tion procedure.
them. The algorithm proposed herein is an attempt to lo-
Sometimes referred to as thumps and henceforth de- calize and remove long pulses by modeling both the

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 47
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

clean audio signal and the disturbance in a Bayesian accurate models for the data generation process. In this
model-based framework. Our approach differs from the work, x is a vector of many hundreds of elements and
aforementioned ones in at least two aspects, namely: contains dozens of parameters. In order to perform in-
(1) the disturbance model adjusts to each individual oc- ferences for such complex distributions, Markov-Chain
currence of the pulses; (2) the localization and removal Monte Carlo (MCMC) [4] techniques are one of the
of the pulses are jointly performed. most suitable choices. MCMC consists in designing a
The organization of the paper is as follows: Sec- Markov chain whose samples converge to samples from
tion 1 contains the theoretical foundation to the em- the desired posterior distribution, and afterwards using
ployed statistical algorithms; Section 2 presents the those samples to estimate some characteristics of this
AR model applied to the underlying audio signal; Sec- distribution, such as the mode, mean, confidence inter-
tion 3 is a brief description of previous approaches to val, and so on. Some of the most widespread algorithms
the problem at hand; in Section 4 the proposed model to build a Markov Chain with the desired properties are
is presented; in Section 5 the new restoration algorithm the Gibbs sampling [5] and the Metropolis-Hastings al-
is described; Section 6 contains a summary of the ob- gorithm (MH) [6], [7] described below.
tained results; Section 7 provides a brief discussion Gibbs sampling: The Gibbs sampling (or Gibbs
about the complexity of the proposed method; finally, sampler) is recommended for cases where the joint dis-
in Section 8 conclusions are drawn and future works tribution is much harder to sample from than each of
are pointed out. the conditionals. The technique consists in partition-
ing the joint variable into many components, and then
1 THEORETICAL FOUNDATION iteratively generating samples from the conditional dis-
The goal of a restoration algorithm is to disentan- tribution of each partition, given all the remaining ones.
gle signal from noise by exploiting their dissimilarity If () is the joint distribution from which we wish
in some domain of representation. Here we are trying to sample, is partitioned into k components as =
to separate a relatively wide-band signal with signifi- {1 , . . . , k }, and the i-th iteration of the Gibbs sam-
cant content typically from 16 Hz to 16 kHz, from a pler can be expressed as:
narrow band signal with frequencies below 100 Hz. In
(i) (i1) (i1) (i1)
addition to their frequency content, the pulse and the 1 1 |2 , 3 , . . . , k (2a)
signal differ in their waveform shapes as well.
(i) (i) (i1) (i1)
A natural way to perform this task is by assigning 2 2 |1 , 3 , . . . , k (2b)
statistical models to the signal and the pulse in such a ..
way that reflects their distinct properties. Based on the .
knowledge of the degraded signal, it is possible to figure (i) (i) (i) (i)
k k |1 , 2 , . . . , k1 , (2c)
out the most likely clean audio signal which added to a
pulse generated the available (degraded) signal. In the where the symbol denotes that the variable on the left
statistical jargon, we want to calculate the conditional is a sample from the distribution on the right.
distribution of the original signal x given its degraded
Metropolis-Hastings Algorithm: It is not always
counterpart y, and later on to find out the most likely
easy to obtain samples directly from the conditionals.
among all possible x.
For complicated distributions, the MH algorithm might
In the Bayesian approach the idea is to start with be a clever option. The idea of the algorithm is to design
some model that describes the prior knowledge about an auxiliary distribution, called proposal, that is easier
both the audio signal and the disturbance, and then to to sample from, and then to use a probabilistic crite-
build the so-called posterior distribution reflecting the rion to decide whether the sample from the proposal
updated version of the signal distribution given the re- distribution is accepted. More specifically, a sample
cently acquired knowledge about the degraded signal. is obtained from a proposal distribution, denoted by
In the parametric approach to Bayesian inference, we q( | (i) ), where (i) is the current state of the chain,
need additional parameters, usually referred to as , to and the sample is accepted with a probability given
build the models. by:
Let (x|) be the prior distribution of the clean sig-

nal and let (y|x, ) be the conditional distribution of ( )q( (i) | )
the degraded signal given the clean one and the param- ( (i) ; ) = min 1, , (3)
( (i) )q( | (i) )
eter set. It is desirable to manipulate these distributions
in order to obtain the conditional of x given y. The If the generated sample is accepted, the new state of
Bayess rule below allows for such transformation: the chain is (i+1) = ; otherwise, the chain remains
in its current state, i.e., (i+1) = (i) .
(y|x, )(x|)()
(x, |y) = . (1)
(y) 2 AUDIO SIGNAL MODELING
The calculation of the expression above might be a A typical audio signal, by virtue of being a result
daunting task in real world scenarios if we want to use of a physical process, is neither entirely predictable nor

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 48
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

completely random. If we know the evolution of a sig- Now, Eq. (6) can be rewritten as:
nal during a certain period of time, it is possible to guess
with some accuracy how this signal will behave in the (xb |xa , a, e2 ) = e (xb Xa). (9)
near future. In other words, the signal is not expected
to radically change from one instant to another. By replacing the above expression in (6), we obtain:
A simple and effective way to express this property
is via the so-called autoregressive model, which estab- 1
(xb |xa , a, e2 ) = N P
2
lishes a linear dependence between the current sample
(2e ) 2
(10)
x(n) and the P previous ones, where P is the order of 1 T
exp 2 (xb Xa) (xb Xa) .
the model. The model also allows for the unpredictable 2e
relation between samples by introducing a random error
term e(n), as stated below: Eq. (9) can be recast in an equivalent format that
will be useful later. By defining a (N P ) N matrix
P

x(n) = a(i)x(n i) + e(n), (4)
a(P ) ... a(1) 1 0 ... 0
i=1
.. ..
0 a(P ) ... a(1) 1 . ., (11)
where a = [a(1) a(2) . . . a(P )] defines the model co-
T A =
.. .. .. .. .. .. ..
efficients. We can alternatively interpret the model as a
. . . . . . .
linear system that, excited by the white noise sequence 0 ... 0 a(P ) ... a(1) 1
e(n), produces the random signal x(n). we can write
Although many choices for the distribution of e(n) xa
e=A , (12)
are possible, and some might be preferred to others ac- xb
cording to the context, we chose the Gaussian distri-
and the conditional distribution of xb becomes:
bution because it is a good compromise between ac-
curacy and simplicity. From Eq. (4), the distribu-
1
tion of x(n) conditioned on the P previous samples of (xb |xa , a, e2 ) =(N P )

x(n), is the distribution of e(n) with mean shifted by (2e2 ) 2 (13)
P
i=1 a(i)x(n i):
1 x
exp 2 xTa xTb AT A a .
2e xb
(x(n)|x(n1), x(n2), . . . , x(nP )) =
In order to obtain the exact (i.e. not conditioned on
P
(5) T
e x(n) a(i)x(n i) . xa ), distribution of x = xTa xTb we need the distri-
i=1
bution of (xa |a, e2 ), since

Since the excitation e = [e(1) e(2) . . . e(N )]T is (x|a, e2 ) = (xb |xa , a, e2 )p(xa |a, e2 ). (14)
assumed to be composed of statistically independent
Since we will process a very large block (about
samples, we can obtain the joint distribution of sam-
10000 samples) and we will use an AR model of or-
ples xb = [x(P + 1) x(P + 2) . . . x(N )]T , where N
der 40, it can be argued [8] that the influence of xa in x
is the length of a block of signal, conditioned on the P
is irrelevant, and thus we can use the approximation
initial samples xa = [x(1) x(2) . . . x(P )]T :

(x|a, e2 ) (xb |xa , a, e2 ) =


(x(P + 1), . . . , x(N )|x(1), . . . , x(P )) =
1 1 T T (15)
N
P (6) (N P )
exp x A Ax .
e x(n) a(i)x(n i) . (2e2 ) 2 2e2
n=P +1 i=1
3 PREVIOUS APPROACHES
By denoting the variance of e(n) as e2 , we can One of the first techniques for digital removal of
rewrite Eq. (4) in matrix form: long pulses appeared on [1]. This method is based on
the typically observed similarity between the pulses in
xb = Xa + e, (7)
a single disc, which can be explained under the hypoth-
where esis that they are mainly shaped by the reproduction

apparatus. It assumes that the pulses in a given sig-
x(P ) x(P 1) ... x(1) nal differ from a standard-pulse only by their ampli-
x(P + 1) x(P ) ... x(2) tudes. Each pulse is localized by sliding the standard-

.. .. ..
(8) pulse throughout the signal, calculating the correlation
X = . . . .

x(N 2) x(N 3) ... x(N P 1) between the standard-pulse and the signal, and select-
x(N 1) x(N 2) ... x(N P ) ing the sample index that yields the largest correlation.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 49
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

In order to estimate the original signal, the difference Our goal is to estimate n0 , M , d2 , Vc , e , f , fmax ,
between the degraded signal and a properly scaled ver- fmin and so that the original signal can be recovered
sion of the standard-pulse is performed. This proce- afterward.
dure yields good results when the hypothesis of simi- Define the vector x = [aT e2 ]T , which contains
larity holds. In many practical situations, however, one the parameters of the autoregressive model of the un-
can find superimposed pulses and/or pulses of different derlying signal x. They could be taken as unknowns to
shapes in the same signal, which prevents the use of this be estimated via Gibbs sampler, but this would possibly
technique. turn the computation time unacceptable; therefore, they
In [2], the authors introduced a method that allows will be considered fixed and known (i.e. precomputed)
the treatment of more general pulse formats, at the cost for a given signal block.
of a higher computational complexity. The method de- In order to simplify the notation, we group the un-
scribes the degraded signal as the sum of two AR pro- known variables in two vectors d and c , such that
cesses which model the signal and the pulse, respec- = [dT cT xT ]T contains all the model variables,
tively. Upon the previous knowledge of the pulse lo- where
calization as well as the model parameters, the original d = [n0 M d2 ]T , (18a)
signal can be estimated by a procedure that separates c = [Vc e f fmax fmin ]T . (18b)
the two processes.
Another method for removal of long pulses with Note that this model for the tail can be considered
similar subjective results is presented in [3]. In this deterministic in the sense that the format of the pulse is
work, a nonlinear filtering technique called Two-Pass uniquely determined if its variables are known.
Split Window (TPSW) is used to obtain an estimate of We will call the underlying signal block x, and the
the pulse format, which is then smoothed by a piece- corrupted signal block y. In order to describe their rela-
wise polynomial fitting. Based on the pulse estimate, tionship, we first create three sets of indexes labeled as
the original signal can be readily calculated. 0, 1, and 2, respectively indicating the samples in y that
belong to a region without noise, to the initial discon-
4 PROPOSED MODEL tinuity of the pulse, and to its tail. We can then define
the corresponding sub-vectors x0 , y0 , x1 , y1 , x2 , and
The model for the long pulse proposed in this work
y2 such that
is composed by two parts: (1) an initial discontinuity y 0 = x0 , (19a)
followed by (2) dumped oscillations with decreasing y1 = x1 + v d , (19b)
frequency, which we will call the tail. The initial dis-
y 2 = x2 + v c . (19c)
continuity is modeled as M samples of white noise with
zero mean and fixed variance d2 , starting at sample n0 : We can also build the auxiliary sub-matrices K, U1 ,
and U2 containing the respective columns of the iden-
vd (n) = r(n)[u(n n0 ) u(n n0 M )], (16) tity matrix; then, we can write
where r(n) N (0, d2 ) and d2 , n0 and M are sup- x = Kx0 + U1 x1 + U2 x2 . (20)
posed unknown a priori. The model for the tail is in-
spired in [3] and is mathematically described as Matrix A containing the parameters of the AR model
for x can be accordingly partitioned into A0 = AK,
A1 = AU1 , and A2 = AU2 . Such decomposition
fn
vc (n) = Vc en/fs e sin 2n + (17) will be useful in the derivation of the conditional distri-
fs
butions of the parameters.
[u(n n0 M 1)],
5 DESCRIPTION OF THE ALGORITHM
where fn = (fmax fmin )en/fs f + fmin , and
The restoration algorithm consists essentially in a
Vc defines the maximum amplitude of the pulse; Gibbs sampler which produces estimates of the vari-
ables d , c and the original signal x by using the in-
fs is the sampling rate of the signal; formation contained in the model described above, the
e is the time constant, in seconds, associated with corrupted signal y and the prior distributions of the un-
the decay of the pulse envelope; known parameters. Its structure is described below:
(0) (0)
fmax and fmin are, respectively, the maximum and 1. Initialization: Generate initial values d and c
minimum frequencies, in Hz, of the tail oscilla- for parameters d and c .
tions;
2. For j from 1 to N :
f is the time constant, in seconds, associated with (j+1)
(a) Sample c and x(j+1) from
the decay of the pulse frequency;
(j)
is the initial phase of the pulse. (c , x|d , x , y);

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 50
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

(j+1)
(b) Sample n0 and M (j+1) from the auxiliary quantity = e /d keeps the notation
clearer.
2(j)
(n0 , M, |d , c(j+1) , x , x(j+1) , y); Now, the distribution

2(j+1)
(c) Sample d from (x, y|) N (x1 |xMAP
1 , e2 1 ) (28)
(j+1)
(y0 x0 )(y2 (x2 + vc )),
(d2 |n0 , M (j+1) , x(j+1) , c(j+1) , x , y).
is completely described. Due to the two Diracs delta
The essential steps to derive the conditional distri- functions, the integral in Eq. (22) is performed only
butions above are presented in the next sections. with respect to x1 . After a derivation very similar to
another found in [9], we arrive at the likelihood:
5.1 Conditional distribution and sampling

procedure for tail parameters and M 1
(y|) = exp E min , (29)
original signal N P
(2e ) 2 || 2e2
We use the composition method [9] and Bayes
where
Theorem to write this joint distribution as
AT0
(c , x|d , x , y) = (c |d , x , y)(x|, y) Emin = 2 y1T y1 + zT [A0 A2 ]z (xMAP
1 )T ,
AT2
[(y|)(c )][(x|, y)]. (21) (30)
with
First, we write the likelihood in terms of more easily y0
z= . (31)
obtainable distributions: y2 vc

(y|) = (x, y|)dx = (x|)(y|x, )dx. (22) In principle, no choice of the prior distribution
x x p(c ) can make this complicated function of c easier
to sample from. As discussed in Section 1, we can em-
Since the samples in y0 are uncorrupted and the
ploy a Metropolis-Hastings step inside the Gibbs sam-
samples in y2 are determined by the pulses tail pa-
pler. Bearing in mind the simplicity of the proposal
rameters, their distribution can be modeled by the ad-
distribution, a multidimensional Gaussian centered on
equate multi-dimensional Diracs delta functions (see
the previous estimated value of c , with a covariance
Eq. (19)). Furthermore, the distribution of the initial
matrix that suitably express the degree of dependence
discontinuity is modeled as Gaussian. Therefore, we
among its components, seems to be a reasonable choice.
have
(y|x, ) = N (y1 |x1 , d2 IM ) However, this approach would prevent the independent
(23) control over the acceptance rates of the parameters in
(y0 x0 )(y2 (x2 + vc )),
c , an essential information for characterization of the
algorithm behavior. Furthermore, during operation a
where IM is the M M identity matrix.
single variable with convergence problems can slow
As described the Section 2, the statistics of x do
down the overall convergence of the algorithm. If a di-
not depend on the other parameters in ; then, we can
agonal covariance matrix is chosen, each component of
substitute (x|) = (x|x ). Finally, from Eq. (15),
c is independently sampled via Metropolis-Hastings
using a Gaussian proposal centered on the previous
(x|x ) N (x|0, e2 (AT A)1 ). (24)
value of the parameter; the corresponding variance is
By using the symmetry of the Gaussian distribution chosen as to keep the acceptance rate of the algorithm
and the decomposition of x in Eq. (20), the dependence around 50%, as suggested by some authors [10] in or-
of (x, y|) on x1 can be highlighted as der to guarantee that the sample space of the sampled
variable is explored in a reasonable computation time.
The expensive computation of Eq. (29) must be
(y|x, )(x|) N (x1 |y1 , d2 IM ) (25) done twice for each component of c , since each
N (Kx0 +U1 x1 +U2 x2 |0, e2 (AT A)1 ). Metropolis-Hastings step (see Eq. (3)) measures the
preferability of the proposed value with respect to the
This can be easily shown to be a Gaussian distribu-
previous one. However, we can make a simplification
tion with mean xMAP = 1 and covariance matrix
1 by noticing that the quantity is likely to be very small,
e , where
2 1
since d is usually several orders of magnitude greater
= IM + AT1 A1 , (26) than e . In the argument of the exponential in the like-
lihood expression, this quantity multiplies y1 , whose
components magnitude do not typically exceed 3d

x0 beyond the underlying signal, due to their Gaussian dis-
= y1 AT1 [A0 A2 ] ; (27) tribution (see Eq. (23)). We can thus ignore all the terms
x2

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO SDA
NACIONAL AOAES
PAULO,
BRASIL13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 51
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

inside the exponential involving in Eq. (29), which The term (y|, x) is given by Eq. (23). As a function
becomes proportional to exp( 12 zT Rz), where of n0 and M , the distribution above cannot assume a
simple form by a clever choice of priors. Then, (n0 )
1 AT0 was chosen to be uniform over an interval centered in
R= 2 S[A0 A2 ], (32)
e AT2 (0)
an initial guess n0 , while (M ) (by inspection of the
distributions shape) was chosen as a Poisson with pa-
with rameter equal to the initial value M (0) . In order to
S = IN P A1 (AT1 A1 )1 AT1 . (33) sample from (n0 , M, |d , c , x , x, y), we employed
By making this simplification, we are assuming that y1 once more a Metropolis-Hastings step inside the Gibbs
(j+1)
contains no useful information to compute the likeli- sampler: the proposals for n0 and M (j+1) are dis-
hood with respect to the components of c . Note that crete uniform distributions over an interval centered in
(j)
R does not depend on c , and thus can be computed n0 and M (j) , respectively. As mentioned before, the
only once per iteration of the Gibbs sampler. interval lengths are arbitrary, but should be chosen as
With this simplification, the distribution of Vc is to keep the acceptance rate of the Metropolis-Hastings
easily described, and thus can be directly sampled from. step around 50%.
Examining the simplified likelihood as a function of Vc
only, we identify it as Gaussian with mean 5.3 Conditional distribution and sampling
procedure for d2
A0
[y0 y2 ] SA2 p The final step is to compute the conditional distri-
A2
Vc = , (34) bution of d2 . Using Bayes Theorem, we can write
pT (AT2 SA2 )p
(d2 |n0 , M, x, c , x , y) (y|x, )(d2 ). (38)
and variance
1 Since (y|x, ) is a Gaussian distribution where d2 ap-
V2 c = , (35) pears as a scale parameter (see Eq. (23)), choosing an
pT (AT2 SA2 )p
Inverse Gamma with hyperparameters d and d as a
where we have defined a vector p such that Vc p = vc . prior for d2 [11] yields a conditional distribution which
Since there is a great amount of data (the part of is also an Inverse Gamma (thus easy to sample from),
the signal corrupted by the pulses tail can have length with parameters given by
of about 9000 samples), the likelihood will dominate
over the priori. For variables that may assume any real M
= d + (39)
value, we can choose broad Gaussian priors, while for 2
the remaining ones an Inverse Gamma with hyperpa- and
rameters1 and , (|, ), is a convenient choice. M 1
1
At this point, the statistical description and the sam- = d + vd (n0 + i)2 . (40)
2 i=0
pling procedure of c are complete.
The next step is to sample from the distribution
The hyperparameters d and d determine the shape of
(x|, y) (recall Equation (21)). It can be easily ob-
the prior and reflect some previous knowledge about the
tained by the use of Bayes Theorem:
parameter being estimated. Taking the limit as d and
(x|, y) (y|, x)(x, ) = d goes to zero, (d2 ) becomes the non-informative
Jeffreys prior [12], which is our choice here. This
(y|, x)()(x|) (y|, x)(x|), (36)
means that we do not assume any prior knowledge
where the last proportionality sign follows from the fact about the scale parameter d2 .
that the distribution in question is conditioned on , and
thus () is just a normalization factor that can be ig-
6 RESULTS
nored for our purposes. The last product is given by In the previous sections, we obtained all the prob-
Eq. (28). ability distributions required to run the Gibbs sampler.
In order to evaluate the algorithm, we perform simu-
5.2 Conditional distribution and sampling lations in two different scenarios: (A) Real audio sig-
procedure for n0 and M nals artificially degraded by long pulses generated us-
Using Bayes Theorem and supposing indepen- ing the model above and (B) Real degraded signal ob-
dence between the prior distributions for n0 and M , we tained from a damaged cylinder recording. Signals are
obtain that: in PCM format, sampled at fs = 44.1 kHz with 16-bit
precision.
(n0 , M, |d , c , x , x, y) (y|, x)(n0 )(M ). (37) In all cases, we compute the parameters of an order-
1 Parameters that describe other parameters. They can be chosen 40 AR model for the uncorrupted signal from a block of
using some a priori knowledge about the signal. 600 to 700 samples before the estimated beginning of

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 52
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

the long pulse. Even if this model is usually adequate


for time-segments of around 1000 samples [9] (for sta-
tionarity reasons), we verified that the estimation of
the long pulses tail parameters over 10000-sample seg-
ments is quite insensitive to small changes in the AR pa-
rameters. This point should be further investigated, and
possibly exploited to reduce the algorithm complexity.
The initial values of the tails parameters are critical to
guarantee that the sampler reaches convergence within
Figure 1: Signal A1 (orchestral music) degraded by a
a reasonable time. We found that Vc = 0.5, e = 0.07
long pulse (green), and extracted pulse (blue).
s, f = 0.013 s, fmin = 20 Hz, fmax = 60 Hz and
= 0 (which roughly describes a typical pulse) are
good choices. The convergence of n0 and M is the most
critical, and it is advisable to initialize them with good
estimates obtained e.g. by a simple pre-processing step
such as inverse filtering [9].
We produce the restored signal by running the algo-
rithm from 200 to 500 iterations and talking the mean
of the last 100 samples.
In scenario A, the test signals are: (A1) a 13-s long Figure 2: Evolution of parameter n0 for signal A1.
excerpt of orchestral music with a continuously sus-
tained bass chord, slowly varying string passage and
percussion (chosen to make subtle disturbances easily
audible); (A2) an 11-s long solo of jazz drums (a major
challenge for the restoration method, since each drum
attack can be confounded with the initial discontinuity
of a long pulse). For signal A1, 200 iterations sufficed
to perform the restoration, leaving no audible vestige of
the pulse. Signal A2 is a little bit more complicated, and
required 500 iterations. Figure 1 shows the damaged Figure 3: Signal B (cylinder recording) degraded by a
version of A1 in green and the corresponding estimated long pulse (green), and extracted pulse (blue).
pulse in blue. As an illustration of the convergence of
the variables, in Figure 2 we show the value of n0 at
each iteration of the algorithm during the restoration of
A1, which seems to reach convergence about iteration
50.
In scenario B, the algorithm also performed very
effectively. Figure 3 shows the comparison between
the original degraded signal (green) and the estimated
pulse (blue), and Figure 4 shows the evolution of vari-
able n0 . This time, convergence is clearly noisier, and Figure 4: Evolution of parameter n0 for signal B.
tends to stabilize about iteration 130. In general terms,
the method appears to be quite robust to convergence
problemsanother point to be further investigated.
are sure that in a near future the increasing power of
7 COMPLEXITY ISSUES computers and the possibility of doing calculations in
the GPU [13] will make this generalization possible.
The heavy computational load inherent to this
restoration method is the cost of being capable to On the other hand, if the localization parameters n0
concomitantly localize and suppress the disturbances, and M , and the AR model parameters can be treated as
given only an initial estimate of their beginnings known, the complexity is drastically reduced, since the
which can be done by simply looking for unusual bursts matrices in the parameter likelihood (Eq. (29)) remain
of high-frequency in a time-frequency analysis. constant and thus must be computed only once.
The estimation of an AR model for the uncorrupted The procedure employed here estimates all the vari-
signal is another external step required in the imple- ables in c , d and vector x, as well as (separately)
mentation. Of course, such parameters could be in- the AR model parameters. A Matlab2 implementa-
cluded in the Gibbs sampler in order to avoid unreliable tion running in a personal computer with Intel Corei7
estimates. Unfortunately, this action would strongly in-
crease the already high complexity of the algorithm. We 2 The MathWorks, Inc., http://www.mathworks.com/

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 53
CARVALHO, AVILA AND BISCAINHO BAYESIAN AUDIO RESTORATION - LOW-FREQUENCY PULSES

3610QM3 at 2.3-GHz clock and 8 GB of RAM takes REFERENCES


about 0.65 s per iteration.
[1] S. V. Vaseghi, Algorithms for restoration of
archived gramophone recordings, Ph.D. thesis,
8 CONCLUSION Univ. of Cambridge, Cambridge, UK, 1988.
In this paper we presented a new method based on [2] S. J. Godsill and C. H. Tan, Removal of low
Bayesian statistics to perform the restoration of audio frequency transient noise from old recordings us-
signals corrupted by long pulses. Each pulse is modeled ing model-based signal separation techniques, in
by a random initial discontinuity followed by a dumped Proc. of the Workshop on Applications of Signal
sinusoid. Our goal was to estimate the corresponding Processing to Audio and Acoustics, New Paltz,
statistical parameters as well as the underlying signal USA, Oct. 1997, IEEE.
from the observed data and some previous statistical
knowledge about the signal and the noise. [3] P. A. A. Esquef, L. W. P. Biscainho, and
The main advantages of the proposed method over V. Valimaki, An efficient algorithm for the
its competitors are: the ability to perform joint detec- restoration of audio signals corrupted with low-
tion and removal of the pulse in one single procedure, frequency pulses, Journal of the Audio Engineer-
and to use a model whose parameters can adapt to each ing Society, vol. 51, no. 6, pp. 502517, Jun. 2003.
pulse. In previous work, any inaccuracy in the initial
[4] C. Robert and G. Casella, Monte Carlo Statistical
estimate of the pulse could result in a poor performance
Methods, Springer, New York, USA, 2005.
of the algorithm; in our method, even a bad initializa-
tion can be corrected by the algorithm as long as it runs [5] S. Geman and Geman. D., Stochastic relaxation,
for enough time. Being able to adjust to each pulse is Gibbs distribution and the Bayesian restoration of
important also because real world signals tend to show images, IEEE Trans. on Pattern Analysis and
pulses of different length and shapes, which cannot be Machine Intelligence, vol. 6, no. 6, pp. 721741,
well described by a single model. Nov. 1984.
As it is common for Bayesian methods, the main
drawback of the proposed restoration tool is its inten- [6] N. Metropolis, A. Rosenbluth, W. Rosenbluth,
sive computational load. On the other hand, it can per- M. N. Teller, and A. H. Teller, Equations of state
form very accurate estimates of the variables of interest, calculations by fast computing machine, The
potentially yielding a very high-quality restored signal, Journal of Chemical Physics, vol. 21, no. 6, pp.
even under stringent conditions when important infor- 10871091, Jun. 1953.
mation is lacking. This sort of modeling allows that
[7] W. K. Hastings, Monte Carlo sampling meth-
both localization and restoration run at once, and even
ods using Markov chains and their applications,
that more than one defect can be dealt with at the same
Biometrika, vol. 57, no. 1, pp. 97109, Apr. 1970.
time. In this preliminary work we have not explored all
the potential of the Bayesian approach yet: our main [8] M. B. Priestley, Spectral Analysis and Time Se-
target was to investigate the robustness and efficacy of ries, Academic Press, London, UK, 1981.
the algorithm in the removal of long pulses. And the re-
sults demonstrate that the proposed method effectively [9] S. J. Godsill and P. J. W. Rayner, Digital Audio
restores the corrupted signal in real cases, in the sense Restoration - A Statistical Model Based Approach,
that the resulting signal is perceptually good. Springer, London, UK, 1988.
The flexibility provided by the Bayesian framework [10] G. H. Givens and J. A. Hoeting, Computational
opens a broad spectrum of future works. Firstly, we Statistics, Wiley, Hoboken, USA, 2012.
must focus on reducing the algorithm complexity. Since
there is much more data than parameters to estimate, [11] S. J. Godsill, The shifted inverse-gamma
we could adopt some sort of Gaussian approximation model for noise-floor estimation in archived au-
for c , or even estimate in a deterministic fashion (pos- dio recordings, Signal Processing, vol. 90, no. 4,
sibly much faster than a simulation-based approach as pp. 991999, Apr. 2010.
the Gibbs sampler). Finally, an important extension of
the method in the context of historical recordings is the [12] H. Jeffreys, An invariant form for the prior prob-
inclusion of background noise reduction. ability in estimation problem, Proc. of the Royal
Society of London. Series A, vol. 186, no. 1007,
pp. 453461, Sep. 1946.
ACKNOWLEDGMENTS
The authors would like to thank CNPq, CAPES and [13] N. Wilt, The CUDA Handbook: A Comprehensive
FAPERJ for funding this work. Guide to GPU Programming, Addison-Wesley,
Upper Saddle River, USA, 2013.
3 Intel Corporation, http://www.intel.com/

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 54
Sociedade
SociedadededeEngenharia
EngenhariadedeAudio
Audio
Artigo de Congresso
Convention Artigo
Apresentado no 12o Congresso de Engenharia de Audio
a
Apresentado no 10a Convention
1808 Convenc
a 10 de ao Nacional
Maio da AES
de 2006, Sao Brasil
Paulo, SP
13 a 15 de Maio de 2014, Sao Paulo, SP
EsteEste artigo
artigo foi reproduzido
foi reproduzido dofinal
do original original
entregueentregue pelo
pelo autor, semautor,
edicoes,sem edicoes,
correcoes correcoes efeitas
ou consideracoes consideracoes
pelo comite feitas pelo com
tecnico deste evento. Outros artigos podem ser adquiridos atraves da Audio Engineering Society,
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering 60 East 42nd Stre
New 60 York, Newnd York 10165-2520, USA; www.aes.org. Informacoes sobre a secao Brasileira podem ser obtidas
Society, East 42 Street, New York, New York 10165-2520, USA, www.aes.org. Informacoes sobre a secao Brasileira
www.aesbrasil.org.
podem Todos os direitos
ser obtidas em www.aesbrasil.org. Todos ossao reservados.
direitos Nao Nao
sao reservados. e permitida
e permitidaaa reproducao
reproducao total
total ou parcial
ou parcial deste deste artigo s
autorizacao
artigo expressa
sem autorizacao dadaAES
expressa AES Brasil.
Brasil.

Ttulo
Programacao dinamica do Data
em Pure Artigo
aplicada a
Wave Field Synthesis
Autor 1, Autor 2, Autor 3
Marcio Jose da Silva,1,2 Flavio Luiz Schiavoni3 e Regis Rossi A. Faria2,4
1 Aliacao
Universidade de Sao Paulo, Escola de Comunicacoes e Artes, Departamento de Musica
Sao Paulo, SP, 05508-020,
Codigo Brasil Estado, Pas
Postal, Cidade,
2
Lab. de Sistemas Integraveis da USP, Nucleo de Engenharia de oAudio
endereco@eletr^ nicoe Codificacao Sonora
Sao Paulo, SP, 05508-010, Brasil
3
RESUMOUniversidade de Sao Paulo, Instituto de Matematica e Estatstica, Departamento de Ciencia da
Um resumo, com aproximadamente deComputac 60 a 80aopalavras, devera apresentar o conteudo deste artigo. U
Sao Paulo, SP, Brasil
resumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um
4
sumo, comUniversidade de Sao Paulo,
aproximadamente deFaculdade
60 a 80 de Filosofia, devera
palavras, Ciencias apresentar
e Letras de Ribeirao Preto, deste artigo. Um resum
o conteudo
Departamento de M usica
com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um resumo, co
aproximadamente de 60 a 80 Ribeir ao Preto,
palavras, SP, 14.040-900,
devera apresentar Brasil
o conteudo deste artigo.
marcio.jose.silva@usp.br, fls@ime.usp.br, regis@usp.br

1. ITEM dito, e em fonte Times Roman, tamanho 9 e just


RESUMO cado (como este).
Este template,
Analisando-se em LATimplementacoes
as possveis EX deve ser compatvel com
para processamento em tempo real no ambiente Pure Data,
qualquer
este PC ou uma
artigo apresenta Macintosh. O objetivo
solucao para a geracaodeste tem- de patches
automatica 1.1. Sub-Item
aplicados a1sonorizacao de um
plate e sugerir um formato padrao para apresentacao Subitens
sistema de espacializacao baseado em WFS - Wave Field Synthesis (ou Sntese usam letras
de Campomaiusculas e minusculas, com
de Onda).
de trabalhos tecnicos e cientcos. Para isto, basta
A solucao emprega patches dinamicos e uma arquitetura modular, acima. A fonte
permitindo e Helvetica,
flexibilidade tamanho 8, est
e manute-
salvar este
nabilidade do template
codigo, comcomvantagens
outro nome, e como arquivo
particularmente para lidarnegrito,
com umalinhamento
numero elevado de fontescomo
a esquerda, e no item pr
*.tex, e ir
alto-falantes. digitando o novo texto sobre este. cipal.
Os artigos submetidos a Convencao da AES nao sao
0 revisados
INTRODUC pelo AO
corpo editor, e poderao ser publicados de Onda). Esta2. tecnica
CONTE UDOa criacao de ambien-
objetiva
em suas formas originais, como submetidos. tesPara acusticos que permitem aoque
Para garantir os artigos
ouvinte da Convencao da AE
a identificacao
Este as
isto, artigo apresenta
versoes naissolucoes
devem para o desenvolvi-
ser enviadas da posicao desejam
em arquivos consistentes
um objeto com
sonoro numa os objetivos
grande regiao do da AES Bras
mento de um codigo de programacao de estrutura
PDF (*.pdf) ou em postscript (*.ps), segundo este mo- espaco. as instrucoes abaixo devem ser consideradas pe
dular dedicado
formato. a aplicacao da tecnica de sonorizacao autores.
de WFS - Wave Field Synthesis (ou Sntese de Campo O desenvolvimento do programa foi proposto como
Itens principais (veja acima) sao em letras O conteudo tecnico deve ser preciso e coeren
maiusculas, fonte Helvetica, tamanho 8, estilo Citacao a trabalhos anteriores e/ou de terceiros d
negrito, alinhado a esquerda. O texto, propriamente vem ter seus respectivos creditos.
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 55
SILVA, SCHIAVONI E FARIA PROGRAMACAO DINAMICA NO PD PARA WFS

projeto de pesquisa do NEAC1 (Nucleo de Engenha- porem pode-se trabalhar com configuracoes de centenas
ria de Audio e Codificacao Sonora), buscando-se a de canais [5]. Para uma simulacao de espacializacao
construcao de uma implementacao computacional mo- e necessario configurar a quantidade canais de entrada
dular e flexvel para WFS, acoplado a um sistema de- (ou objetos sonoros) e a quantidade de canais de sada.
senvolvido neste mesmo nucleo, o AUDIENCE2 , uma
biblioteca de objetos e abstracoes para a plataforma 0.2 Pure Data
Pure Data (Pd)3 . Esta plataforma sera apresentada na O Pure Data [6] (conhecido por Pd) e um sis-
Subsecao 0.2. tema que funciona como um ambiente grafico de
Dada a complexidade do desenvolvimento do sis- programacao musical. Pode ser simultaneamente pro-
tema de sonorizacao para WFS, este artigo apresenta gramado e operado em tempo-real, sendo amplamente
algumas solucoes encontradas para a configuracao do utilizado por musicos, artistas e sound designers.
sistema e, tambem, uma solucao adotada baseada em Alem de preencher os requisitos que neces-
programacao dinamica no ambiente Pure Data. sitavamos para a implementacao do nosso projeto, o Pd
A programacao dinamica e uma tecnica computaci- ainda possui outras vantagens como ser uma ferramenta
onal na qual o programa pode alterar seu proprio codigo opensource, ser multiplataforma e funcionar em varios
em tempo de execucao, permitindo assim que o mesmo sistemas operacionais.
se adeque dinamicamente a um problema especfico [1]. A programacao em Pure Data tambem e bastante
Neste artigo apresentaremos os conceitos basicos de simples por utilizar o conceito de fluxos e blocos (como
WFS, a visao geral do sistema e a implementacao do pipes e filters) permitindo a utilizacao de expressoes
mesmo, trazendo as escolhas computacionais feitas du- matematicas que alterem um fluxo de audio. Um pro-
rante o processo de desenvolvimento. grama de Pd e chamado de patch.
Outra vantagem deste ambiente e a capacidade que
0.1 O que e Wave Field Synthesis o mesmo possui de aceitar extensoes. O Pure Data
Wave Field Synthesis foi introduzida em 1988 por pode ser extendido por meio da criacao de novos ob-
A. J. Berkhout (Universidade TU Deft, Holanda). jetos. Estes novos objetos podem ser feitos na formas
Esta tecnica e uma aplicacao do princpio introduzido de externals em linguagem C ou na forma de abstrac-
no seculo XVII pelo fsico holandes Christiaan Huy- tions quando feitos em patches, com outros objetos do
gens [2]. Seu princpio fundamental e a modelagem proprio ambiente.
fsica, atraves da propagacao e superposicao de varias Alem disto, a escolha deste ambiente simplifica a
pequenas frentes de onda, da sntese de ondas sonoras integracao do modulo de WFS ao sistema AUDIENCE,
com os mesmos atributos fsicos que seriam gerados tambem implementado em tal plataforma.
por objetos reais.
1 VIS AO GERAL DO SISTEMA
A area de escuta, regiao que delimita onde os ouvin-
tes devem estar para que tenham a percepcao esperada No desenvolvimento deste sistema de auralizacao,
dos sons gerados durante a espacializacao sonora, tende deve-se definir as possveis configuracoes de paineis de
a ser muito pequena (sweet spot) nas mais diversas alto-falantes. Entretanto, durante o uso do sistema, as
tecnicas. Ja a WFS tem a capacidade de projetar objetos posicoes e a quantidade de caixas de som normalmente
sonoros numa grande area de audicao, atendendo um e fixa. Ja o numero de canais de entrada, usualmente,
numero maior de ouvintes simultaneamente, alem de tanto pode ser fixo como pode ser alterado se, por exem-
produzir imagens sonoras mais definidas e estaveis [3]. plo, forem usados arquivos de audio com numero di-
Num sistema pratico WFS, com a utilizacao de alto- ferente de canais. Para uma dada configuracao fez-se
falantes densamente distribudos na area de audicao, necessario que o programa pudesse permitir o uso de
espacados em torno de 10 a 20 cm, ocorre a um numero variavel de canais de entrada e sada do sis-
discretizacao da projecao do som [4]. Nesta tecnica, tema. Conforme apresentado na figura 1, o sistema pos-
cada alto-falante emite um sinal de audio em ins- sui uma configuracao bastante complexa devido a quan-
tantes controlados de tempo, para que a soma das tidade de informacoes correspondentes as suas entradas
contribuicoes destes sinais possa sintetizar a frente de e sadas.
onda circular, correspondente a onda real [5]. Para cada sinal Sf de entrada e atribuda a posicao
A implementacao de um prototipo para projecoes (xf , yf ). Para cada canal de sada Cn temos a
sonoras com WFS requer uma formulacao computacio- configuracao da posicao da respectiva caixa no eixo X.
nalmente complexa devido a configuracao do sistema, Vale notar que a posicao da caixa no eixo Y e fixa.
onde sao exigidos muitos canais de audio. A necessi- 2 IMPLEMENTAC AO
dade inicial de configuracao era de 16 canais de sada,
A implementacao do primeiro prototipo em Pd,
1 NEAC. Acesso em: www.lsi.usp.br/neac
2 AUDIENCE: Sistema e Software para Imersao Sonora e
apresentada na figura 2, mostrou-se eficaz para os ob-
Auralizacao. Acesso em: http://www.lsi.usp.br/neac/
jetivos do projeto, porem tal implementacao com 12
audience modulos WFS desenvolvidos para um unico objeto so-
3 Acesso em: http://puredata.info/ noro (uma entrada de audio) demandou bastante tempo

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 56
SILVA, SCHIAVONI E FARIA PROGRAMACAO DINAMICA NO PD PARA WFS

que ser feita uma nova copia destes 12 modulos e te-


riam que ser renomeados, de forma manual, varios ob-
jetos, a maioria deles nao mostrados na figura 2. O
mesmo ocorreria caso fosse necessario alterar algum
ndice, nome, equacao e afins. O mesmo raciocnio va-
leria se houver alteracao do numero de canais de sada,
pois uma mudanca na posicao ou quantidade de cai-
xas de som implicaria em uma refatoracao completa da
implementacao.

2.2 Buscando solucoes


A implementacao e testes de tal sistema nos levou
a busca de uma escolha ferramental que permitisse a
flexibilidade que o sistema exige. Entre as exigencias
de tal ferramenta estavam: permitir varios canais de
entrada, permitir varios canais de sada, permitir alte-
rar a posicao de cada objeto durante a execucao do al-
goritmo, permitir flexibilidade na codificacao de cada
Figura 1: Diagrama geral WFS. funcao. Tais exigencias nos levaram a buscar outras for-
mas de implementar o sistema.
Como a experimentacao do prototipo para a
e se mostrou pouco flexvel. Nesta figura tem-se uma
validacao do sistema seria feita a partir de diferentes
visao geral do processamento, onde e possvel verificar
configuracoes com variacoes de parametros de entrada
que a posicao de um objeto sonoro ira alterar o sinal de
e sada, posicao das fontes (ou objetos) sonoras e das
todos os canais de sada.
caixas, adotamos algumas possibilidade de automatizar
Usar programacao dinamica para flexibilizar a as configuracoes dos patches.
configuracao e aliviar a replicacao de codigo e bastante
A primeira possibilidade de automatizacao da
atraente para o caso especfico de WFS em que os siste-
configuracao foi feita por meio de uma ferramenta ex-
mas podem chegar a centenas de alto-falantes.
terna. O formato de arquivo do Pd e bastante simples e
padronizado e pode ser visto como um arquivo texto. A
figura 3 mostra um trecho de codigo que pode ser visto
quando um arquivo .pd e aberto num editor de texto.

#N canvas 25 87 1270 684 10;


#X floatatom 640 58 5 0 0 0 - - -;
#X msg 541 52 0;
#X obj 409 317 +;
#X msg 406 459 \; pd-player\$1 vis 0;
#X obj 290 108 inlet;
#X obj 326 326 outlet;
#X obj 299 264 float;
#X text 340 233 reset;
#X connect 0 0 10 0;
#X connect 1 0 7 1;
#X connect 3 0 4 1;

Figura 2: Parte do primeiro prototipo, com 4 dos 12


modulos para WFS. Figura 3: Exemplo de arquivo do Pd.

Para gerar este tipo de arquivo foi desenvolvida


2.1 Prototipo inicial uma ferramenta na linguagem Java que, a partir dos
A baixa flexibilidade desta implementacao pode parametros, gerava os patches ja configurados. Apesar
ser notada pela quantidade de objetos e conexoes ne- de tal solucao otimizar a criacao do patch de WFS, ela
cessarios a implementacao do sistema que inicialmente demandava a incorporacao de uma ferramenta externa
trabalha com apenas um objeto sonoro. Seguir tal li- no processo de trabalho, o que nem sempre e desejavel.
nha de implementacao implicaria replicar todos os ob- Outra possibilidade de automatizacao estudada foi
jetos e conexoes para tratar mais objetos sonoros. No estender o Pd por meio de um external criado em lin-
caso mostrado, para cada novo canal de entrada teria guagem C. O novo external poderia receber parametros

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 57
SILVA, SCHIAVONI E FARIA PROGRAMACAO DINAMICA NO PD PARA WFS

em sua criacao, como a quantidade de fontes sono- permitir flexibilidade para as conexoes de audio e con-
ras e de canais, e se adequar dinamicamente a esta trole foi faze-las internamente no Pure Data, utilizando
configuracao de maneira transparente ao usuario. Tal objetos send e receive, conforme ilustrado na figura 4.
solucao, apesar de trazer benefcios como o proces- Com isto, foi possvel que tais conexoes funcionassem
samento em C de algumas funcionalidades, mostra-se de maneira transparente para o usuario que, por sua vez,
pouco portavel, pois faria que tal external fosse com- nao precisaria criar cada conexao individualmente.
pilado para cada sistema operacional onde o Pd fosse Desta maneira, o modulo de entrada L1 capta os si-
executado. Novamente, isto incluiria ao processo no- nais de audio e posicao das caixas e envia estes valo-
vas ferramentas, como o compilador C, o que nao e de- res por meio de objetos send, por exemplo [send au-
sejavel. O prototipo inicial nos mostrou que os obje- dio1] (ou [s audio1]). Qualquer outro objeto no patch
tos necessarios para a implementacao ja existiam e que que precisar receber tal informacao pode acessa-la por
construir um external nao seria imprescindvel. meio de um objeto receive, por exemplo [receive au-
Como o Pure Data permite sua extensao tambem dio1] (ou [r audio1]). Com esta solucao nao ha mais
por meio de abstracoes, tal solucao foi considerada a necessidade de conectar estes objetos explicitamente.
mais adequada que as anteriores pelas seguintes razoes: Tal abordagem de implementacao exigiu a definicao
de nomes para envio e recebimento de mensagens e a
nao ha necessidade de adicionar novas ferramentas
formalizacao na comunicacao entre os modulos. Alem
ao processo de desenvolvimento;
disso, isto permite que os modulos sejam trocados e que
o resultado obtido e totalmente compatvel com o exista mais de uma implementacao para cada um deles.
ambiente Pd e independente de onde ele foi com-
pilado;
a modificacao da abstracao pode ser feita durante a
sua execucao simplificando os experimentos e tes-
tes da ferramenta.

A seguir e apresentada esta solucao.

2.3 Solucao adotada


A partir das solucoes encontradas, apresentadas na
secao anterior, a solucao adotada baseia-se em num
conjunto de abstracoes para o Pd.
A implementacao permitiu que o sistema fosse vi-
sualizado de maneira que cada funcionalidade fosse im-
plementada em blocos de funcoes interconectaveis pe-
las seguintes abstracoes:

Modulos de entradas (L1) e sadas (L4): recebem as


informacoes de posicao dos objetos sonoros, seus
respectivos sinais de audio e as posicoes das cai-
xas de som usadas pelo sistema. As sadas sao os Figura 4: Conexoes em feitas no Pure Data com o uso
sinais de audio ja processados pelo sistema. de send e receive.
Modulos de calculo para WFS (L2): recebem as
configuracoes de entrada e calculam fatores de
A segunda parte da solucao esta na criacao destes
amplitude e atrasos que serao aplicados aos sinais
modulos como abstracoes que utilizam programacao
de audio.
dinamica para a configuracao do sistema. Atraves da
Modulos de processamento de audio (L3): aplicam, passagem de parametros e possvel informar a quanti-
nos sinais de audio, os atrasos e as relacoes de dade de canais de entrada e sada, ou conforme ilustrado
amplitude correspondentes a tecnica de WFS. na figura 5, a distancia entre as caixas de som em sua
criacao. A tecnica de programacao dinamica e bastante
A divisao das funcoes do programa em modulos se similar a tecnica computacional chamada reflexao [8],
aproxima da proposta de arquitetura sugerida pelo sis- por tratar do conhecimento que o codigo possui sobre si
tema AUDIENCE [7]. Os modulos descritos podem ser mesmo. Com isto, a abstracao em si nao traz apenas sua
associados as camadas especficas deste sistema. implementacao, porem recria o subpatch toda vez em
Uma vez feita a divisao de responsabilidades do sis- que e instanciado, baseando esta criacao nos parametros
tema, o proximo passo foi definir como seriam feitas as informados. Em consequencia disto, o numero de ca-
conexoes entre os modulos. A solucao encontrada para nais pode ser alterado de forma simples e rapida.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 58
SILVA, SCHIAVONI E FARIA PROGRAMACAO DINAMICA NO PD PARA WFS

Figura 5: Exemplo de reflexao computacional. Quando Figura 7: Exemplo de codigo de abstracao funcional
foi criada a abstracao PosicaoCaixas recebeu os gerativa do sistema (criacao dinamica de objetos em
parametros 16, correspondente ao numero de canais de patch).
sada, e 0.0912, correspondente a distancia entre as cai-
xas de som.
4 CONCLUS AO
Este artigo apresentou a solucao encontrada para a
3 RESULTADOS
sonorizacao de um sistema de espacializacao com WFS.
Ate o momento, o prototipo desenvolvido realiza a Apresentamos as possibilidades de implementacao
WFS fazendo a reproducao da frente de onda atraves deste sistema e a solucao adotada.
dos calculos da amplitude e do atraso do sinal de audio Esta solucao traz facilidade de integracao do
que chega a cada uma das caixas de som. modulo WFS com os diversos recursos do Pd, prin-
A figura 6 apresenta o patch principal desenvolvido cipalmente com outros patches e entradas e sadas de
em Pd para o sistema de WFS. programas no universo do audio e da musica. O que
facilita o uso desta tecnica de sonorizacao em trabalhos
de composicao, gravacoes, apresentacoes, colaboracoes
musicais interativas e aplicacoes que preconizem efei-
tos de espacializacao sonora, alargando as possibilida-
des de auralizacao com instrumentacoes musicais.
A solucao encontrada se mostrou bastante flexvel
e versatil pois cumpriu o objetivo de ser satisfatoria no
intuito de permitir a escolha da geometria final do sis-
tema de alto-falantes.
Outra vantagem desta solucao e a diminuicao do
Figura 6: Patch principal desenvolvido em Pd para o esforco necessario para adequacao e configuracao do
sistema de WFS. ambiente devido ao uso da tecnica de reflexao. Tal
solucao vai alem do escopo deste trabalho e pode ser
O desenvolvimento do prototipo proposto em Pure utilizada para implementar outros tipos de processa-
Data permite que o sinal de audio enviado possa ser mentos sonoros no ambiente Pure Data.
de um arquivo de audio do computador, da entrada de A facilidade de uso determinada pela arquitetura
som externa (via placa de som) ou um som sintetizado modular e intercambiavel possibilita conectar o algo-
no proprio patch e que instrumentos eletronicos, como ritmo de WFS a algoritmos de simulacao acustica, po-
os teclados controladores e os mais modernos compu- dendo vir a se tornar uma alternativa aos aplicativos que
tadores, tambem possam controlar os sons no espaco de executam esta funcao.
audicao em tempo real ou de forma programada. Por fim, a solucao aqui proposta e aberta, permi-
A implementacao do sistema como abstracoes que tindo que outros pesquisadores utilizem-na em seus es-
utilizam programacao dinamica para se instanciarem tudos. Apos alguns acertos, este codigo sera disponbi-
garante uma simplicidade grande de manutencao do sis- lizado posteriormente junto a distribuicao do OpenAU-
tema, conforme mostra a figura 7. Tal solucao tambem DIENCE no site do NEAC em www.lsi.usp.br/
se mostrou eficaz devido a portabilidade e a facilidade audience.
de integracao com outros sistemas ou outros patches.
Como o sistema possui uma divisao clara de funcionali- 4.1 Trabalhos futuros
dades podera ser modificado em partes, permitindo no- O patch desenvolvido nao esta totalmente finali-
vas configuracoes e implementacoes em cada camada. zado, e seu aperfeicoamento resultara em novo trabalho

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 59
SILVA, SCHIAVONI E FARIA PROGRAMACAO DINAMICA NO PD PARA WFS

academico. Pretendemos explorar outros algoritmos de ao pesquisador Thilo Koch, ao Nucleo de Pesquisa em
espacializacao e trabalhar tanto a documentacao do sis- Sonologia (NUSOM) da ECA-USP e ao Nucleo de
tema quanto seus testes e validacoes. Engenharia de Audio e Codificacao Sonora (NEAC) da
Para a avaliacao e validacao dos resultados do pro- POLI-USP.
jeto, os modulos do sistema WFS serao testados em la- Agradecemos tambem ao apoio dado pela FAPESP,
boratorio com matrizes de alto-falantes. Em uma se- atraves do processo 2012/17263-1.
gunda etapa procederemos a avaliacao subjetiva por
meio de voluntarios e questionarios sobre a percepcao REFER ENCIAS BIBLIOGR AFICAS
da localizacao de fontes sonoras em cenas sonoras de [1] Winfried Ritsch, Bang: Pure Data, chapter Does
teste auralizadas em espacos auditivos controlados. Pure Data Dream of Electric Violins?, Wolke Ver-
lagsges. Mbh, Graz, Austria, 2006.

[2] Diemer de Vries, Wave field synthesis - aes mo-


nograph, Audio Engineering Society Inc, 2009.

[3] M. A. J. Baalman, On Wave Field Synthesis and


The Electro-Acoustic Music: State of The Art 2007,
International Computer Music Conference 2007,
2007.
[4] Edo M. Hulsebos, Auralization using Wave Field
Synthesis, Ph.D. thesis, Delft University of Tech-
Figura 8: Qualquer dispositivo que envie as coordena- nology. Delft, Holanda, 2004.
das x e y para as entradas da abstracao RecebeEnviaPO-
sicaoObjetosSonoros altera a posicao da fonte sonora [5] M. A. J. Baalman, On Wave Field Synthesis and
no Pd. Electro-acoustic Music: With a Particular Focus
on the Reproduction of Arbitrarily Shaped Sound
Como o sistema e modular, a posicao de cada objeto Sources, Ph.D. thesis, Technischen Universitat Ber-
sonoro podera ser informada por dispositivos externos lin, 2008.
(como sensores) ou mesmo por outros programas, po-
dendo substituir ou trabalhar conjuntamente com qual- [6] Miller Puckette et al., Pure data: another integra-
quer interface de controle projetada para o prototipo de- ted computer music environment, Proceedings of
senvolvido, conforme ilustrado na figura 8. Isto per- the Second Intercollege Computer Music Concerts,
mite que, como exemplo de aplicacao, sejam colocados pp. 3741, 1996.
sensores adaptados a instrumentos musicais que variam
suas coordenadas conforme sua localizacao num dado [7] Regis Rossi A. Faria, Audience for pd, a scene-
referencial. oriented library for spatial audio, Proceedings of
Pure Data Convention, 2011.
5 AGRADECIMENTOS [8] Iohannes Zmolnig, Reflection in Pure Data, Pro-
Agradecemos ao Grupo de Pesquisa em ceedings of the Linux Audio Conference, 2009.
Computacao Musical do IME-USP, em especial

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AODENACIONAL
ENGENHARIA DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 60
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
o
Apresentado no 12 Congresso de Engenharia de udio
a
18 Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________
Proposta de Compensador PID para Servo Subwoofer com
Acelermetro MEMS
1 2
C. M. Delgado e Elmar U. K. Melcher
1
Instituto Federal de Educao, Cincia e Tecnologia de Pernambuco
Recife, Pernambuco, 50740-540, Brasil
2
COPELE, Universidade Federal de Campina Grande
Campina Grande, Paraiba, 58109-970, Brasil
claudiodelgado@recife.ifpe.edu.br, elmar@dsc.ufcg.edu.br

RESUMO

Com o avano da tecnologia MEMS (Micro-Electro-Mechanical Systems) que permite produzir acelermetros
de qualidade a preos baixos, razovel esperar que se renove o interesse por servo subwoofer com
realimentao de acelerao, com o objetivo de reduzir a distoro harmnica. Neste artigo, apresentada
proposta de compensador PID para sevo subwoofer com acelermetro de 2 ordem (MEMS) de modo a obter a
reduo desejada da distoro harmnica total, ajustar o fator de qualidade e melhorar a margem de fase do
sistema. O mtodo foi avaliado atravs de simulao SPICE.

A prtica tem sido aumentar a quantidade de


0. INTRODUO
realimentao at o limite da estabilidade do sistema,
A melhoria do desempenho do alto-falante, atravs a fim de obter a maior reduo possvel na distoro.
da incluso do transdutor no lao de realimentao Neste artigo, mostra-se que possvel determinar a
(motional feedback) tem sido motivo de interesse quantidade de realimentao necessria para a
permanente, Chierchie [1]. Nesse sentido, afirma que reduo da distoro harmnica total desejada, a
uma ampla variedade de mtodos e sensores se tem partir do modelo linear do alto-falante, permitindo
empregado, ao longo do tempo para reduzir a um estudo prvio da estabilidade. O objetivo
distoro, estender a largura de banda de operao, determinar o compensador PID para atender, se
equalizar a curva de resposta em frequncia, etc. possvel, as especificaes de reduo da distoro,
Aps Klaassen e Koning (1968) [2] mostrarem que fator de qualidade e estabilidade.
possvel a implementao de motional feedback em
1. EFEITO DA REALIMENTAO NA
alto-falantes para a melhoria da distoro, o interesse
DISTORO HARMNICA
pelo assunto persiste atravs das dcadas seguintes,
podendo-se citar De Greef (1981) [3], Hall (1989) O surgimento dos termos harmnicos,
[4], Klippel (1998) [5], Chen (2000) [6], Greiner componentes do sinal de sada de frequncia mltipla
(2008) [7], Chierchie (2010) [1], entre outros. da frequncia do sinal de entrada, pode ser observado

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 61
DELGADO, MELCHER PID PARA SERVO SUBWOOFER

modelando-se a caracterstica de transferncia do Conclui-se que, mantida a amplitude da


dispositivo no linear por uma srie de potncias. fundamental de sada, as distores harmnicas
Truncando a srie na terceira potncia (se fracionais dos 2 e 3 harmnicos so reduzidas pela
significativos o 2 e 3 harmnicos) obtem-se: quantidade de realimentao, calculada tomando-se o
coeficiente linear da caracterstica de transferncia
( = ) ( )+ ( )+ () (1)
do dispositivo. Esse resultado sugere que possvel
prever a reduo da distoro harmnica, via
Se = cos, implica, usando-se as frmulas realimentao, dispondo-se apenas do modelo linear
dos arcos duplo e triplo e desprezando o termo DC, do dispositivo.
que:
No caso dependente da frequncia, considere-se o
n-simo harmnico similar ao efeito do rudo ,
+ 2 + 3 (2)
2 4 aplicado na entrada do modelo linear do dispositivo
)(, conforme figura 2. A amplitude do rudo
depende dos parmetros do dispositivo e da
A distoro harmnica fracional relativa ao n-
amplitude da fundamental na entrada de )(.
simo harmnico definida como a relao
Assim, a sada expressa pela equao 9.
entre a amplitude do harmnico e a amplitude da
fundamental ( ), ento:
1 1 (3) = )( + )( (9)
= =
2 2
1 1 (4)
= =
4 4

A partir do desenvolvimento de Pederson [8]


conclui-se que, aplicada a realimentao negativa,
conforme figura 1, as distores harmnicas tornam- Figura 2 Equivalente linear da distoro
se:
1 1 (5) Aplicando-se a realimentao, conforme figura 3,
= e aumentando a entrada de modo que torne-se
2 (1 + )

igual a , ento o amplitude do rudo aplicado na
entrada se mantem constante. Por superposio,
1 1 (6) obtem-se a sada , dada pela equao 10.

4 (1 + )

)( (10)
= )( +
1 + )(

Figura 1 Sistema realimentado

Aumentando-se o sinal de entrada de modo a obter


a mesma amplitude da fundamental de sada, isto , Figura 3 Equivalente linear da distoro com
realimentao
fazendo-se = , ento, a combinao das
equaes 3 e 4 com 5 e 6, resulta em:
Comparando-se as equaes 9 e 10, observa-se
(7) que o harmnico foi reduzido pela quantidade de
=
1 + realimentao, calculada na frequncia do
(8) harmnico. Segue que:

1 +

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 62

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


DELGADO, MELCHER PID PARA SERVO SUBWOOFER

(11) 1 (15)
= =
|1 + |)(
1 (16)
= ()
/
A equao 11, embora semelhante s equaes 7 e +

8, foi derivada usando o princpio da superposio, (17)
=
tornando-se necessrio investigar sua validade para ( + )
taxas de distoro da ordem 30%, que segundo (18)
Schmitt [9], podem ocorrer em subwoofers. =

Simulao SPICE feita usando o modelo no linear
do alto-falante DALI 31541 6 , levantado por
Pedersen [10], mostrou que, para a taxa de distoro 3. DETERMINAO DO COMPENSADOR
harmnica de 30% a equao 11 produz um erro
mximo de 25% em relao ao 2 e 3 harmnicos. O sistema proposto est representado na figura 5
Em termos da distoro harmnica total, THD, o
resultado apresentado nesta seo pode ser expresso
atravs da equao 12, considerados preponderantes
os 2 e 3 harmnicos.


(12)
+
|1 + (2)| |1 + (3)|

2. MODELO DO ALTO-FALANTE USADO Figura 5 Sistema proposto


Para o clculo do compensador foi usado o modelo
linear clssico do alto-falante, montado em baffle
infinito, conforme figura 4. A representao usa O amplificador suposto puro ganho, o alto falante
fontes dependentes para expressar o relacionamento representado pelo circuito da figura 4, e o
entre as partes eltrica e mecnica do alto-falante, acelermetro suposto um sensor de 2 ordem,
sendo adequada para simulao SPICE. representativo de sensor MEMS. Acelermetros
MEMS so, do ponto de vista mecnico, um sistema
massa-mola-amortecedor, atuando como um filtro
passa-baixas de 2 ordem, aproximadamente. O
acelermetro pode ser posicionado solidrio com a
forma da bobina de voz visto que o sistema opera na
faixa do pisto (comprimento da onda sonora maior
ou igual circunferncia do cone) em que o cone
comporta-se como um pisto rgido.
Figura 4 Modelo linear do alto-falante Para a determinao de KP e KI, foram
consideradas a sensibilidade nominal do
As funes de transferncia da acelerao e da acelermetro (ganho DC), representada por Se, e a
velocidade, em baixas frequncias, ou seja, aproximao de 2 ordem do alto-falante, conforme
desprezando o efeito de L , so dadas equaes 13 a 18.
respectivamente pelas equaes 13 e 14
3.1 Determinao de KP
() (13)
= ( = ) Sejam HD2 e HD3 as distores do 2 e 3
() + +
harmnicos, a frequncia de teste, e FR o fator de
reduo desejado para a THD. Decorre da equao

(14) 12 que o termo proporcional do compensador PID
)(
= ( = )
pode ser obtido atravs equao 19, em que so

() + +

considerados significativos os 2 e 3 harmnicos.



+ |

(19)
em que =
| ()| ()|

onde = 2
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 63

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


DELGADO, MELCHER PID PARA SERVO SUBWOOFER

A quantidade de realimentao |1 + ()| ( )1 + 1 (24)


pode ser obtida usando um programa de clculo =

numrico como o MATLAB, ou atravs da
simulao SPICE do circuito da figura 4 (anlise
AC), neste caso, a acelerao do cone obtida 3.3 Determinao de KD
dividindo-se a fora , indicada na figura 4, pela Levando em conta o efeito da indutncia da bobina
massa mvel . de voz, , o alto-falante descrito como um sistema
3.2 Determinao de KI de 3 ordem, com dois zeros na origem. O lugar
geomtrico das razes possui dois ramos que
Aplicando realimentao unitria de acelerao e terminam nos zeros da origem e um ramo, sobre o
velocidade ao alto-falante, usando as equaes 13 e eixo real, que tende para zero no infinito Se o
14, respectivamente, verifica-se que a realimentao acelermetro puro ganho, a realimentao no afeta
da acelerao eleva o fator de qualidade e reduz a os graus dos polinmios do numerador e do
frequncia de ressonncia pelo fator 1 + , denominador da funo de transferncia. Nestas
enquanto que a realimentao de velocidade reduz o condies, o sistema incondicionalmente estvel.
fator de qualidade pelo fator 1 + , mantendo
constante a frequncia de ressonncia. Assim, pode- A situao muda considerando o efeito da
se usar realimentao de velocidade para compensar dinmica do acelermetro de 2 ordem. Tomou-se
o aumento do fator de qualidade causado pela como referncia o modelo ADXL78, da Analog
realimentao de acelerao. A velocidade pode ser Devices Inc., cuja resposta em frequncia
obtida integrando-se a sada do acelermetro, corresponde a um filtro de Bessel passa-baixas de 2
conforme figura 6. ordem, com frequncia de corte em 400 Hz,
conforme datasheet do fabricante. Usando tal sensor
com o alto falante DALI 31541 6 e o
compensador PI ajustado para uma reduo de
distoro de 10 vezes, a observao do diagrama do
Lugar Geomtrico das Razes, obtido com o auxlio
do MATLAB, revela um par de razes conjugadas no
semiplano direito, prximo ao eixo imaginrio, como
mostrado na figura 7, indicando situao de
instabilidade

Figura 6 Realimentao de acelerao e velocidade

A funo de transferncia da acelerao do sistema


mostrado na figura 6 dada pela equao 20.
(20)
( = )
+ +

em que
(21)
=
1 +
(22)
= Figura 7 Instabilidade devida dinmica do acelermetro
1 +
1 + (23) Adicionando-se um zero real ao sistema, de
= magnitude maior que a dos polos instveis, pode-se
1 +
deslocar o lugar das razes para a esquerda. Pondo-se
o zero em 6000 rad/s, obtem-se o diagrama da figura
8, indicando estabilizao.
A partir da equao 23, determina-se o valor de KI
necessrio para obter o fator de qualidade desejado
, conforme equao 24

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 64

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


DELGADO, MELCHER PID PARA SERVO SUBWOOFER

harmnica e fator de qualidade, este mantido o


mesmo do alto-falante no realimentado. A margem
de fase obtida foi de aproximadamente 40.
A presena do sensor de 2 ordem usado, com
baixa frequncia de corte (400 Hz) provocou um
grande pico em 2 kHz, visto na figura 9, forando a
introduo de filtro passa-baixa na entrada do
sistema para aplainar a resposta em frequncia.

Figura 8 Incluso de zero real

A incluso de um zero de magnitude z resulta em


um compensador PID, cuja funo de transferncia
dada pela equao 26, conforme visto abaixo:
( + )[1 + (1]) (25)
= )(

(26)
)( + + Figura 9 Resposta em frequncia da acelerao

5. CONCLUSO
Da equao 26, retira-se o valor de O mtodo apresentado possibilita determinar a
(27) funo de transferncia de compensador PID para
= sistema de realimentao de acelerao destinado a

servo subwoofer com sensor de 2 ordem,
especificando-se a priori a reduo da distoro
Para o estudo da estabilidade com auxlio do harmnica total e o fator de qualidade do sistema. Os
SPICE, conveniente usar o mtodo da resposta em parmetros KP, KI e KD do compensador,
frequncia, visto que o diagrama de Bode do ganho responsveis respectivamente pela reduo da
de malha facilmente obtido. A adio do zero distoro, ajuste do fator de qualidade e melhoria da
corresponde introduo de um avano de fase no margem de fase, so derivados a partir dos
sistema. Prope-se, como ponto de partida razovel, parmetros lineares do alto falante e do acelermetro.
fazer a magnitude do zero igual frequncia angular Foi necessrio ajuste fino manual para a
no ponto de 0 dB de modo a proporcionar um avano determinao de KD bem como uso de filtro passa-
de fase de 45 nesse ponto, embora com um baixa para aplainar a resposta em frequncia.
incremento de magnitude de 3 dB (20log 2). A A extenso para closed-box imediata visto que,
seguir, procede-se ao ajuste fino manual, ou seja, conforme Small [11], a topologia do circuito da
fazer figura 4 permanece a mesma, mudando apenas o
valor dos parmetros do lado mecnico.
(28)
=
O fator de reduo possvel limitado pela
em que representa a frequncia de 0dB no linearidade do acelermetro e pela estabilidade do
diagrama de Bode de malha aberta com o sistema. As equaes 19, 24 e 28 permitem projetar o
compensador PI, em seguida ajustar manualmente o compensador para a reduo de distoro pretendida.
valor de para a melhor margem de fase 5. REFERNCIAS BIBLIOGRFICAS
4. ANLISE DE RESULTADOS [1] CHIERCHIE F., PAOLINI E. E.
Compensador obtido atravs da aplicao das Realimentacin de Aceleracin de un Altavoz
equaes 19, 24 e 28 foi testado via simulao para Graves Utilizando un Procesador Digital
SPICE com modelo no linear do alto-falante DALI de Seales, AADECA 2010 - XXII Congreso
Argentino de Control Automtico, 2010.
31541 6 citado na seo 1, para reduo de 10
[2] KLAASSEN, J. A., KONING, S. H., Motional
vezes na THD. Os resultados foram compatveis com
Feedback with Loudspeakers, PHILIPS
o esperado em termos de reduo da distoro
TECHNICAL REVIEW, 1968.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 65

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


DELGADO, MELCHER PID PARA SERVO SUBWOOFER

[3] De GREEF, D., VANDEWEGE, J.,


Acceleration Feedback Loudspeaker,
WIRELESS WORLD, 1981.
[4] HALL, D. S. Design Considerations for an
Accelerometer-Based Dynamic Loudspeaker
Motional Feedback System, 87 Conveno da
Audio Engineering Society, 1989.
[5] KLIPPEL, W. Direct Feedback Linearization
of Nonlinear Loudspeaker Systems, Jornal da
Audio Engineering Society, vol. 46, 1998.
[6] CHEN, C-Y.; CHIU, G T-C; CHENG, C-C;
PENG H. Passive Voice Coil Feedback
Control of Closed-Box Subwoofer Systems.
Proceedings of the Institution of Mechanical
Engineers, Vol 214, Part C, 2000.
[7] GREINER, R. A. Loudspeaker Distortion at
Low Frequencies, Boston Audio Society,
volume 8, number 1, 2008.
[8] PEDERSON D. MAYARAM K. Analog
Integrated Circuits for Communication:
Principle, Simulation and Design, Kluwer
Academic Publishers, 1991.
[9] SCHMITT, R. Audiblity of Nonlinear
Loudspeaker Distortions, Apresentado na 98
Conveno da AES, 1995.
[10] PEDERSEN, B. R. Error Correction of
Loudspeakers: a Study of Loudspeaker
Design Supported by Digital Signal
Processing, publicado pelo Departamento de
Software, Midialogia e Eletrnica, Universidade
de Aalborg, Dinamarca, 2008.
[11] SMALL, R. H. Closed-Box Loudspeaker
Systems Part I: Analysis, Jornal da Audio
Engineering Society, Vol 20, 1972.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 66

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de udio
18a Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________
Uma camada de ps-processamento para sistemas de
transcrio de acordes
Uraquitan Sidney Cunha1, Geber Lisboa Ramalho1 e Giordano Cabral2
1
Universidade Federal de Pernambuco, Recife, Pernambuco, 50670-901, Brasil
2 Universidade Federal Rural de Pernambuco, Recife, Pernambuco, 52171-900, Brasil
{usgcc, glr}@cin.ufpe.br, giordanorec@gmail.com

RESUMO
Extrair a sequncia harmnica de acordes a partir de um arquivo de udio contendo uma cano qualquer uma
tarefa que vem recebendo muitos esforos da comunidade cientfica, com resultados muito bons, embora ainda
restritos a gneros musicais isolados. Neste trabalho ser apresentado um sistema de ps-processamento sobre as
sadas de sistemas de transcrio de acordes em estado da arte. A proposta leva em considerao o
conhecimento acerca do contexto musical local dos acordes e utiliza uma rede neural treinada para realizar
previso de acordes que, com o uso de uma abordagem experimental, capaz de melhorar a taxa de acerto do
reconhecimento de acordes em 1,2% em relao ao melhor resultado alcanado por um sistema em estado da
arte.

uma tarefa considerada complexa, at mesmo para


1. INTRODUO
msicos experientes. Ela um dos temas da
Com cada vez mais dados armazenados em competio cientfica MIREX que busca comparar as
formato digital e disponveis por redes de solues propostas [3].
comunicao, tem crescido o interesse de
Existem diversas solues para o problema da
pesquisadores em desenvolver algoritmos na rea de
transcrio de acordes e seus resultados so
recuperao de informaes de msicas (MIR
razoveis, os melhores atingindo em torno de 80%
Music Information Retrieval). De sistemas de
[4] de taxas de acerto. Porm, nem todos os
controle de direitos autorais [1] aos de transcrio de
conhecimentos musicais tm sido plenamente
partituras [2], h diversos usos para sistemas que
utilizados para enriquecer a descrio do contexto
recuperam informaes simblicas a partir de
local de um acorde. Em particular, nossas pesquisas
arquivos de sinais de udio.
anteriores mostram que padres de sequncias
Neste cenrio, uma das tarefas que vm recebendo comuns de acordes podem ser reconhecidos, e esta
bastante ateno a transcrio automtica dos informao pode ser til para um processo de
acordes musicais de uma cano qualquer a partir de transcrio de acordes [5].
um arquivo de udio. So os chamados sistemas de
transcrio ou de reconhecimento de acordes. Esta

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 67
CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

Diante deste cenrio, este trabalho prope uma acordes de cada um deles. Neste trabalho, ser
abordagem diferente e complementar aos algoritmos demonstrado que um algoritmo que garanta com bom
atuais. Trata-se de um sistema de ps-processamento desempenho a correta identificao destes padres de
realizado em tais algoritmos para incorporar sequncias de acordes, bastante til para o
conhecimento acerca de sequncias tpicas de enriquecimento de um processo de automatizado de
acordes, de forma a melhorar a taxa de acerto. transcrio de acordes de uma cano.
A prxima seo detalha o estado da arte da 4. CAMADA DE PS-PROCESSAMENTO
pesquisa nesta rea. A seo 3 explica o significado
Percebe-se que os algoritmos atuais de transcrio
de padres de sequncias de acordes. A seo 4
de acordes j apresentam resultados razoveis e que
explica a proposta desenvolvida e os resultados
existe, na grande maioria deles, uma predominncia
alcanados e, enfim, conclumos indicando os
no processo bsico de extrao das informaes
trabalhos futuros na seo 5.
musicais do udio bruto, de tcnicas repetidas
2. ESTADO DA ARTE envolvendo Chromagram-HMM-Viterbi.
A grande maioria dos sistemas de transcrio de Por estes motivos, neste trabalho foi feita a opo
acordes atuais tm se baseado no PCP (Pitch Class pelo desenvolvimento de uma camada de ps-
Profile) [6], um vetor de caractersticas de dimenso processamento que atua com o objetivo de enriquecer
12 (doze notas musicais) que pode ser extrado de ou melhorar as performances dos algoritmos de
cada instante de execuo de um arquivo de udio, e transcrio atuais, que j tm bons desempenhos.
que conter a intensidade de cada uma das doze notas Esta camada atuar por meio de uma chamada a um
musicais, independentemente da oitava em que as algoritmo de transcrio de acordes, recebendo como
mesmas estejam sendo executadas. Este processo, entradas as suas sadas, que so os acordes
que se baseia no uso da transformada de Fourier, tem transcritos, e executando ps-processamentos que
sido aperfeioado ao longo dos anos por meio de indicaro correes a serem realizadas na transcrio
outras transformadas [7] [8], da aplicao de filtros do algoritmo original (Figura 1).
no sinal de udio [9] [10] [11] e at de incrementos
na forma de clculo do vetor final [9] [12] [13].
O vetor PCP original com todas as suas evolues
passou a ser referenciado de forma mais genrica
como vetor chroma, e o processo de extrao do
mesmo a cada instante de uma cano passou a ser
chamado de chromagram. Ao chromagram, a grande
maioria dos melhores trabalhos tem aliado algum
processo de aprendizagem de mquina, sobretudo por
meio da utilizao de cadeias de Markov escondidas
(HMM) com o algoritmo Viterbi [7], [13], [14], [10],
[8], [15], [9].
Este modelo Chromagram-HMM-Viterbi
atualmente quase um padro de desenvolvimento
para os sistemas de transcrio de acordes em estado
da arte. O que normalmente os diferencia o uso de
tcnicas e algoritmos auxiliares que enriquecem e
Figura 1 - Modelo da Camada de Ps-Processamento
melhoram o desempenho geral das suas transcries.
Entre estes algoritmos auxiliares, destacamos os de
4.1 Metodologia
deteco de tonalidade [16], [14], [17], [15], e os de
deteco de beats [18], [17]. Na primeira etapa deste trabalho, foi feita uma
extensa pesquisa bibliogrfica com o intuito de
3. PADRES DE SEQUNCIAS DE identificar o estado da arte dos trabalhos na rea. A
ACORDES partir da anlise realizada, iniciamos um trabalho de
Embora no existam regras que permitam que os pesquisa terica que buscou a criao do nosso
acordes de uma cano possam ser previstos antes de modelo de ps-processamento, estruturado a partir da
sua execuo, alguns pequenos padres de definio de regras gerais relacionadas com um
sequncias de dois, trs e at cinco acordes so processo de transcrio de acordes, onde destacamos
extremamente recorrentes na msica ocidental [19]. inicialmente a identificao de sequncias comuns de
Alm disso, analisando a experincia de diversos acordes. No desenvolvimento deste modelo, alguns
msicos, sabe-se que o conhecimento destes padres procedimentos experimentais foram realizados com o
costuma dar uma considervel contribuio para o intuito de refin-lo. Com o modelo pronto, partimos
sucesso dos processos individuais de transcrio de para a realizao de uma pesquisa aplicada, quando

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 68

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

testes foram feitos com dados reais que como motivao para o desenvolvimento da camada de
veremos, demonstraram a viabilidade do modelo. ps-processamento do modelo que est sendo
proposto (Figura 1) com o uso de outro tipo de
4.2 Definindo o Arquivo Formatado
algoritmo de aprendizagem que, como ser
Para o desenvolvimento desta camada, o primeiro demonstrado, ser capaz de assimilar a lgica destas
problema a ser tratado foi o de definir um protocolo sequncias de acordes de uma forma mais eficiente.
que pudesse tornar vivel o processo de acoplamento
da mesma com um algoritmo de transcrio 4.4 Um algoritmo de transcrio de acordes
qualquer. Ao invs de propor uma ideia nova, foi Para a realizao de qualquer teste no modelo que
utilizado o padro de arquivo definido pelos est sendo proposto (Figura 1), imprescindvel a
organizadores do MIREX [20], competio cientfica existncia de um algoritmo de transcrio de acordes
que acontece anualmente durante o congresso da capaz de gerar como sada um arquivo no formato
ISMIR - The International Society for Music definido [21] contendo o resultado de sua transcrio
Information Retrieval, onde pesquisadores do mundo (passos 2 e 3 no nosso modelo Figura 1). Para
inteiro podem validar seus algoritmos em diversas tanto, inicialmente foi desenvolvido um sistema
reas de MIR e compar-los com trabalhos prprio de transcrio de acordes.
correlatos, atuando sobre corpus de dados comuns.
Neste sistema, foram utilizados princpios
No caso da tarefa de transcrio de acordes, que no
disseminados pela ampla maioria dos algoritmos de
MIREX chamada de Audio Chord Detection, foi
transcrio de acordes atuais, partindo da extrao do
definido um padro de arquivo de sada de
chromagram precedido da aplicao de filtros que
transcries para os algoritmos submetidos ao
enfatizaram as frequncias mais graves do sinal de
MIREX [21]. A ideia, portanto, foi a de utilizar este
udio, entre 50 Hz e 400 Hz. O chromagram foi
formato j universal e disseminado entre os trabalhos
extrado a partir do calculo de vetores PCP [6] a cada
em estado da arte submetidos ao MIREX como meio
dcimo de segundo de um arquivo de udio de uma
padro de entrada para a camada de ps-
cano.
processamento. No modelo da Figura 1, este padro
de arquivo est identificado como Arquivo Para o algoritmo de aprendizagem que foi
Formatado. responsvel pelo processo de transcrio de acordes,
como uma forma de verificar a performance de uma
4.3 Identificando sequncias de acordes
abordagem diferente do padro HMM-Viterbi, foi
comumente utilizadas
utilizada uma rede neural do tipo MLP [22], com o
Em geral, para simular a capacidade de uso do algoritmo clssico de aprendizagem
identificao das sequncias de acordes comuns, os backpropagatin [23].
trabalhos em estado da arte costumam utilizar
algoritmos de aprendizagem. Na grande maioria dos Para completar o sistema e refinar o desempenho
casos, os algoritmos so baseados em HMM e dos resultados do mesmo, garantindo uma melhor
Viterbi, e eles realmente tm apresentado bons segmentao dos acordes (momento em que cada
resultados. acorde iniciado e finalizado) foi utilizado um
algoritmo de deteco de beats (batidas de uma
Porm, observando de uma forma mais cano que definem o seu ritmo) [24]. Algoritmos
aprofundada o modo como um HMM funciona, deste tipo so constantemente utilizados por sistemas
percebe-se que as probabilidades de transies de um de transcrio em estado arte [16] [17].
estado para outro (um acorde para o seguinte) so
calculadas levando-se em considerao apenas a Para a realizao de testes foi utilizado um dos
transio de um nico estado para o seu seguinte, corpus pblicos de canes do MIREX criado por
sem considerar o que parece bem importante para o Christopher Harte e composto por todas as canes
problema aqui em questo, que a probabilidade de dos 12 lbuns dos Beatles [21]. A importncia do uso
transio de uma determinada sequncia de estados deste corpus est, sobretudo, na riqueza e preciso da
encadeados, que se traduziria numa probabilidade anotao dos acordes que compem cada uma das
condicional de ocorrncia de uma sequncia padro canes, 180 no total. Na prtica, para cada uma das
de N acordes. Em trabalhos anteriores [5], inclusive, canes foi disponibilizado um arquivo WAV, com
demonstra-se que em um processo de previso de 16 kHz, 16 bits e mono, e um arquivo com a
acordes, a considerao de uma janela de acordes j identificao dos acordes executados em cada cano
executados fundamental para o sucesso da por intervalo de sua durao no udio.
previso. De posse desta massa de arquivos de udio de
Com esta percepo, pode-se supor que a lgica de canes e de seus acordes transcritos, foram
sequncias de acordes comumente utilizadas em calculados os chromagrams e criados arquivos para
canes pode no estar sendo assimilada com toda a cada uma das msicas contendo, de forma textual, os
sua riqueza de informaes por um modelo baseado PCPs calculados e os acordes correspondentes
em um HMM. Esta aparente limitao deu a (Figura 2).

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 69

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

Com os arquivos dos chromagrams e acordes canes de jazz, a rede atingiu um percentual de 87%
gerados para todas as 180 canes dos Beatles, 70% de acertos de previso. Este resultado demonstrou a
dos registros foram definidos como conjunto de real possibilidade de identificao, atravs de
treinamento e o restante como conjunto de testes para aprendizagem de mquina, de sequncias comuns de
a rede neural. Durante o treinamento, suas entradas acordes em canes. O sistema resultante funcionou
foram representadas por cada vetor PCP, e suas recebendo uma janela de trs acordes j executados
sadas desejadas por cada tipo de acorde. Aps vrias de uma cano, e prevendo qual deveria ser o
simulaes, com vrias configuraes de redes, o prximo acorde.
melhor desempenho foi alcanado por uma
Neste sistema original, para alcanar os resultados
configurao com um MLP com uma camada
foram feitas vrias simulaes com janelas de
intermediria composta por 80 neurnios. O
sequncias de acordes de tamanhos diferentes, e com
percentual de sucesso final no processo de
o fornecimento como entrada da rede de, no apenas
transcrio para esta rede foi de 59,78%, sendo este
os acordes e seus tipos, mas tambm de informaes
valor obtido a partir da aplicao da mtrica utilizada
como a durao e posies dos mesmos dentro de
nas edies do MIREX de 2011 e 2012 na tarefa de
cada compasso da cano. Como os acordes foram
transcrio de acordes. Esta mtrica se baseia no
anotados diretamente das partituras das msicas,
clculo da distncia de hamming [25].
estas informaes puderam ser obtidas com
facilidade.
De fato, o percentual de acerto de 87% foi obtido
com uma janela de trs acordes como entrada, sendo
cada um deles composto pelos seguintes atributos:
tnica, tipo do acorde, posio no compasso e
durao. No contexto atual da camada de ps-
processamento em proposta, com acordes obtidos a
partir de fontes de udio reais, as informaes de
posio no compasso e durao no esto
disponibilizadas de forma to direta como numa
partitura. Na verdade, para obt-las, seria necessrio
o uso de um bom algoritmo de deteco do tempo
das canes [26].
Com um ambiente operacional diferente, tentar
utilizar a ideia deste modelo de previso significou
na prtica a realizao de um novo processo de
treinamento. Desta vez, pela ausncia das
informaes de posio no compasso e durao de
cada acorde, o treinamento foi feito com a mesma
rede neural MLP-backpropagation utilizando agora
apenas as informaes da tnica e do tipo de cada
acorde. Esta a principal diferena entre a
abordagem atual e a utilizada em nosso trabalho
anterior [5].
Para executar as simulaes foi utilizado o pacote
de redes neurais do Matlab, com o qual foram feitos
vrios treinamentos com duas variaes do algoritmo
de aprendizagem backpropagation disponibilizadas
no mesmo: o Resilient Backpropagation [27] e o
Figura 2 - Chromagram do Corpus de Canes Scaled Conjugate Gradient Backpropagation [28].
Alm disso, nas simulaes foram utilizadas
4.5 A camada de ps-processamento diferentes configuraes para a estrutura da rede e
tamanhos da janela de sequncias de acordes
A proposta de desenvolvimento da camada de ps-
alternados em trs e quatro acordes. O corpus de
processamento capaz de identificar sequncias
canes utilizado para a montagem dos conjuntos de
comuns de acordes baseou-se no sucesso de um
treinamento e testes foi o mesmo utilizado no
trabalho anterior por ns desenvolvido, que utilizou
processo de aprendizagem do algoritmo de
uma rede neural do tipo MLP com o algoritmo
transcrio descrito na seo 4.4.
backpropagation para tentar realizar previses de
acordes a partir da aprendizagem de padres de Para codificar os acordes para a rede neural, foi
sequncias de acordes [5]. Com um corpus de 58 utilizada uma codificao binria esparsa [29], para

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 70

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

cada tnica e tipo de acorde utilizado. importante Para o treinamento real da rede neural em proposta,
ressaltar que o trabalho utilizado como base para a foram feitas simulaes com suas entradas definidas
proposta que est sendo descrita, fez uso de um com janelas de tamanho de trs e quatro acordes. Isto
conjunto de apenas seis tipos de acordes (maior, significa que a entrada da rede teria que ser
menor, menor tnico, dominante, diminuto e meio representada pela juno das respectivas codificaes
diminuto) para realizar a sua aprendizagem e dos acordes que compusessem a janela.
previso. Na proposta atual, para haver uma Consequentemente, uma rede treinada com uma
adequao com as possibilidades de tipos de acordes janela de trs acordes, precisaria de 84 neurnios de
que podem ser transcritos para os arquivos de sada entrada e, na camada de sada, 28 neurnios capazes
dos algoritmos de transcrio, segundo o modelo de representar o acorde a ser previsto.
estabelecido para o MIREX [21], o nmero de
Para cada tamanho de janela de acordes, foram
acordes a serem previstos teve que ser aumentado
realizadas simulaes de treinamentos a partir da
para dezesseis (Tabela 2). Seguindo a codificao
montagem de arquivos contendo todas as
binria esparsa, cada acorde a ser tratado pela rede
combinaes de janelas de acordes obtidas a partir do
neural passou a ser representado por vetores de
corpus de canes. A fim de garantir a realizao da
dimenso 28, sendo 12 para a tnica e 16 para o tipo
aprendizagem supervisionada da rede MLP-
do acorde, como est indicado nas Tabelas 1 e 2.
backpropagatipon, a cada janela presente em cada
Tnica Codificao da arquivo, foi associado o acorde retirado do conjunto
Tnica de treinamento que deveria ser aprendido pela rede.
C ou B# 000000000001
C#/Db 000000000010
Na Figura 4 est indicado como foi estruturado o
D 000000000100 arquivo de treinamento da rede para uma janela de
D#/Eb 000000001000 trs acordes.
E/Fb 000000010000
E#/F 000000100000
F#/Gb 000001000000
G 000010000000
G#/Ab 000100000000
A 001000000000
A#/Bb 010000000000
B/Cb 100000000000
Tabela 1 - Tnicas e suas Codificaes

Tipo do Acorde Codificao do Tipo


do Acorde
maj 0000000000000001
min 0000000000000010
dim 0000000000000100
aug 0000000000001000
maj7 0000000000010000
min7 0000000000100000
7 0000000001000000
dim7 0000000010000000 Figura 4 - Codificao da Entrada da RN para janelas de 3
hdim7 0000000100000000 acordes
minmaj7 0000001000000000
maj6 0000010000000000 Deste arquivo foram separados aleatoriamente 70%
min6 0000100000000000
pares de entradas e sadas como conjunto de
9 0001000000000000
maj9 0010000000000000 treinamento, e os demais 30% permaneceram como
min9 0100000000000000 conjunto de testes. A Tabela 3 indica os melhores
sus4 1000000000000000 resultados obtidos com cada algoritmo testado.
Tabela 2 - Tipos de Acordes e suas Codificaes Todos os resultados foram obtidos com processos de
treinamento de 3000 pocas e a melhor configurao
Segundo esta codificao, o acorde Amin7, deve do MLP utilizou uma estrutura de 250 neurnios na
se representado como indicado na Figura 3. camada intermediria, o algoritmo de aprendizagem
Resilient Backpropagation e trs acordes como
tamanho ideal para a janela de entrada da rede
neural.
A fim de validar a rede recm-treinada, foram
utilizadas as transcries de acordes realizadas pelo
algoritmo desenvolvido e descrito na seo 4.4, e que
j se encontravam devidamente armazenadas no
Figura 3. Codificao do Acorde Amin7 formato de arquivo esperado.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 71

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

Esta preciso seria calculada atravs da comparao


Nmero Tamanho da MSE com MSE com
direta das codificaes de todos os acordes e seus
Neurnios Janela do Resilient Scaled tipos com cada previso da rede. Aquele que tivesse
Camada Melhor Backprop. Conjugate uma diferena de at 10% em cada neurnio de sada
Interme- Resultado Gradient da rede com relao codificao completa de um
diria Backprop.
acorde, seria um candidato a representar a correo.
20 3 Acordes 0,0550 0,0549
40 3 Acordes 0,0528 0,0521 Caso mais de um acorde fosse enquadrado nesta
60 4 Acordes 0,0519 0,0546 situao, seria escolhido o de maior percentual de
80 3 Acordes 0,0512 0,0536 certeza. A Figura 6 explana em detalhes este
120 4 Acordes 0,0500 0,0534 processo de clculo da preciso das sadas da rede.
160 3 Acordes 0,0486 0,0520
200 3 Acordes 0,0473 0,0524
250 3 Acordes 0,0451 0,0503
Tabela 3 - Melhores Resultados dos Processos de Previso
de Acordes

De posse deste arquivo, a camada de ps-


processamento desenvolvida montou as sequncias
de cada janela de trs acordes provenientes do
mesmo, fazendo as suas devidas codificaes e as
fornecendo como entrada para a rede neural treinada
para a tarefa de previso. A partir deste ponto, com o
fornecimento como entrada para a rede neural da
janela de trs acordes devidamente codificados, cada
acorde previsto pela mesma representaria um
possvel candidato correo da transcrio
originalmente realizada. A grande questo seria
definir em que condies a transcrio realizada pelo
algoritmo original de transcrio seria menos
confivel do que a previso da rede neural (Figura 5).
A fim de encontrar estas condies, foi adotada
uma abordagem emprica a partir da qual foram Figura 6 - Processo de deciso pela correo do algoritmo
de Previso
realizadas vrias simulaes. A ideia adotada foi a de
optar pela correo proposta pela rede neural em
detrimento transcrio feita pelo sistema original, O percentual de preciso de 90%, entretanto, se
apenas quando houvesse um grau de certeza alto do mostrou muito exigente fazendo com que a camada
sucesso da previso realizada pela rede. Para definir de ps-processamento no conseguisse melhorar o
o quanto alta esta certeza precisaria ser, foram feitas desempenho da transcrio como um todo. Desta
vrias simulaes a fim de que se pudesse definir forma, dentro da proposta emprica de buscar
com que preciso a rede teria que trabalhar para que experimentalmente a preciso mais indicada, foram
o resultado final do ps-processamento trouxesse realizadas simulaes com alteraes decrescentes
reais benefcios para a transcrio de acordes final. neste percentual na busca pelo seu valor ideal.
Na prtica, com percentuais a partir de 79% de
preciso, alguns resultados promissores j haviam
sido alcanados, mas o patamar de 76% gerou o
resultado mais representativo. Foi observado que
com esta preciso o algoritmo de previso aplicado
sobre as sadas do transcritor de acordes com sua
configurao de melhor performance (59.78%),
produziu uma taxa de sucesso na transcrio final
com um ganho relativo de 15.31%, chegando ao
valor exato de 68,93% de sucesso. Este percentual
foi calculado com a mtrica utilizada no MIREX nos
Figura 5 - Modelo em Teste anos de 2011 e 2012 [25] e indicou que, em relao
ao nosso trabalho anterior, embora tenhamos
Como parte do processo experimental, utilizado um modelo final de previso de acordes que
inicialmente foram considerados candidatos considerou menos atributos para o treinamento da
correo da transcrio original apenas aqueles rede, e uma maior quantidade de classes de acordes a
acordes previstos pela rede neural com um percentual prever, a rede neural continuou se mostrando bem
de preciso em relao ao acorde original de 90%.
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 72

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

sucedida para a realizao desta tarefa. A Tabela 4 de preciso de 76% para as previses da rede neural,
resume os resultados detalhados alcanados pelos foi possvel alcanar uma melhora na performance
nossos experimentos. final da transcrio de acordes do modelo como um
Percentual de Acrscimo em Aumento do
todo em 1,2% no nosso corpus de testes (Figura 7).
Preciso da termos absolutos percentual de 5. CONCLUSO E TRABALHOS FUTUROS
Rede Neural no percentual de sucessos final da
sucesso final da transcrio de Tomando como base um trabalho anterior nosso
transcrio de acordes em relao
acordes ao percentual
[5], que demonstrou a viabilidade da identificao de
original sequncias comuns de acordes de canes atravs de
90% a 80% 0% 0% uma rede neural treinada sobre atributos de acordes
79% 1.71% 2,86% extrados de partituras de msicas para a tarefa de
78% 3.34% 5,59% previso de acordes, conseguimos demonstrar que
77% 6.51% 10,89%
76% 9,15% 15,31%
uma rede similar atuando sobre atributos reduzidos
75% 8,07% 13,50% de acordes extrados de arquivos de udios de
74% 7,85% 13,13% canes, tambm capaz de realizar previses de
Tabela 4 - Resultados de experimentos em busca da melhor acordes com sucesso.
preciso para a rede neural de previso de acordes
Usando esta rede capaz de prever acordes de uma
Alm destes testes realizados, a fim de corroborar cano, propusemos um modelo de ps-
o potencial da camada de ps-processamento em processamento sobre sistemas de transcrio de
proposta, foram realizadas outras simulaes com um acordes capaz de corrigir eventuais erros de
algoritmo de transcrio em estado da arte: o transcries a partir de previses realizadas pela rede
Harmony Progression (HP) [9], que obteve o melhor neural. Aps um processo experimental que
resultado no MIREX de 2011 e 2012 na tarefa de identificou um limiar ideal para que a previso da
transcrio de acordes. rede fosse considerada mais relevante do que a
transcrio realizada, foram alcanados resultados
Baseado em aprendizagem com o uso de HMM e
promissores que indicaram avanos no desempenho
Viterbi, o processo deste algoritmo se inicia com
de um dos principais algoritmos em estado da arte
uma separao do sinal de udio por aplicao de
para a tarefa de transcrio de acordes [9]. Estes
filtros. Um filtro inicial com passagem de banda de
avanos elevaram a performance deste algoritmo em
frequncia entre 220 Hz e 1661 Hz enfatiza as
1,2%.
frequncias mdias, e um segundo filtro aplicado
com passagem de banda entre 55 Hz e 207 Hz, com o Como forma de evoluir o nosso modelo de ps-
objetivo de enfatizar as frequncias graves. processamento, ainda esto previstos como trabalhos
futuros o desenvolvimento das seguintes
Estes sinais filtrados e separados so utilizados
funcionalidades:
para a gerao de vetores chroma que serviro para
alimentar dois HMMs em conjunto com anotaes 1. Identificao de tonalidade e tempo da cano;
dos acordes do arquivo de udio. Aliando algumas
2. Desenvolvimento de um analisador de campo
informaes de contexto, o algoritmo, quando posto
harmnico que tentar eliminar a possibilidade de
em execuo com o corpus de testes do MIREX,
transcrio de acordes fora da tonalidade;
atingiu performances de sucesso em torno de 83% na
edio do MIREX de 2012. 3. Desenvolvimento de algoritmo para identificao
de estruturas cclicas como refres e estrofes, que
podem facilitar um processo de transcrio de
acordes.
REFERNCIAS BIBLIOGRFICAS

[1] M. Gimbel, Some Thoughts on the Implications


of Trusted Systems for Intellectual Property
Law, vol. 50, Stamford: Stanford Law Review,
1998, pp. 1671-1687.
[2] K. Martin, "Automatic transcription of simple
polyphonic music: robust front end processing.,"
M.I.T. Media Laboratory perceptual Computing
Section Tecnical Report, 2005.
Figura 7 - Modelo Final: HP + Ps-processamento
[3] MIREX, "MIREX," 2013. [Online]. Available:
Acoplando o algoritmo HP ao nosso modelo de http://www.music-
ps-processamento, e utilizando o mesmo percentual ir.org/mirex/wiki/MIREX_HOME.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 73

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


CUNHA ET AL. PS-PROC. TRANSCRIO ACORDES

[4] T. Cho and J. P. Bello, "A Feature Smoothing Utrecht, Netherlands, 2010.
Method For Chord Recognition Using
Recurrence Plots," in 12th International Society [16] G. Peeters, "Chroma-based estimation of musical
for Music Information Retrieval , Miami, USA, key from audio-signal analysis," in 7th
2011. International Conference on Music Information
[5] U. Cunha and G. Ramalho, "Previso de Acordes Retrieval, Victoria, Canada, 2006.
em Msicas Tonais," in V Brazilian Symposium [17] V. Zenz and A. Rauber, "Automatic chord
on Computer Music - SBC&M'98, Belo detection incorporating beat and key detection,"
Horizonte: SBC ed., 1998. in IEEE International Conference on Signal
[6] T. Fujishima, "Realtime Chord Recognition of Processing and Communications (ICSPC 2007),
Musical Sound: a System Using Commom Lisp 2007.
Music," in ICMC - International Computer [18] G. Peeters, "Template-based estimation of time-
Music Conference, Stanford, USA, 1999. varying tempo," EURASIP Journal on Applied
[7] J. P. Bello and J. Pickens, "A Robust Mid-level Signal Processing, p. 158, 2007.
Representation for Harmonic Content in Music [19] A. Chediak, Harmonia & Improvisaao, vol. 1 e
Signals," in 6th International Conference on 2, So Paulo, So Paulo: Irmos Vitale, 1986, p.
Music Information Retrieval, London, UK, 2005. 290.
[20] ISMIR, "MIREX," 2013. [Online]. Available:
[8] T. Cho, R. J. Weiss and J. P. Bello, "Exploring http://www.music-
Common Variations In State Of The Art Chord ir.org/mirex/wiki/MIREX_HOME.
Recognition Systems," in MIREX - Music
[21] C. Harte, M. Sandler, S. Abdallah and E. Gomez,
Information Retrieval Evaluation eXchange,
"Symbolic Representation Of Musical Chords: A
Utrecht, Netherlands, 2010.
Proposed Syntax For Text Annotations," in 6th
[9] Y. Ni, M. Mcvicar, R. Santos-Rodriguez and T. International Conference on Music Information
D. Bie, "Harmony Progression Analyzer," in Retrieval, London, UK, 2005.
MIREX - Music Information Retrieval
[22] F. Rosenblatt, Principles of Neurodynamics:
Evaluation eXchange, Miami, Florida, 2011.
Perceptrons and the Theory of Brain
[10] Y. Uchiyama, K. Miyamoto, N. Ono and S. Mechanisms, Washington DC, USA: Spartan
Sagayama, "Automatic Chord Detection Using Books, 1961.
Harmonic Sound Emphasized Chroma From
[23] D. E. Rumelhart, G. E. Hinton and R. J.
Musical Acoustic Signal," in 9th International
Williams, "Learning representations by back-
Conference on Music Information Retrieval,
propagating errors," Nature, vol. 323, p. 533
Philadelphia, USA, 2008.
536.
[11] D. P. W. Ellis and A. Weller, "Labrosa Chord
[24] M. E. P. Davies and M. D. Plumbley, "Context-
Recognition System," in MIREX - Music
dependent beat tracking of musical audio," vol.
Information Retrieval Evaluation eXchange,
15, pp. 1009-1020, 2007.
Utrecht, Netherlands, 2010.
[25] S. Abdallah, K. Noland, M. Sandler, M. Casey
[12] M. Mauch and S. Dixon, "Approximate Note
and C. Rhodes, "Theory and Evaluation of a
Transcription For The Improved Identication
Bayesian Music Structure Extractor," in 6th
Of Difcult Chords," in 10th International
International Conference on Music Information
Conference on Music Information Retrieval -
Retrieval, 2005.
ISMIR, Utrecht, Netherlands, 2010.
[26] A. Elowsson and A. Friberg, "Tempo Estimation
[13] K. Lee and M. Slaney, "Automatic Chord
By Modelling Perceptual Speed," in MIREX,
Recognition from Audio Using an HMM with
Curtitba, BR, 2013.
Supervised Learning," in 7th International
Conference on Music Information Retrieval, [27] Riedmiller, in IEEE International Conference on
Victoria, Canada, 2006. Neural Networks (ICNN), San Francisco, 1993.
[14] C. A. Harte, M. B. Sandler and M. Gasser, [28] Moller, "Neural Networks," in Neural Networks,
"Detecting harmonic change in musical audio," vol. 6, 1993, p. 525533.
in Audio and Music Computing for Multimedia, [29] U. S. G. C. d. Cunha, Um Ambiente Hbrido
Santa Barbara, CA, 2006. Inteligente para Previso de Acordes Musicais
[15] Y. Ueda, Y. Uchiyama, N. Ono and S. em Tempo Real, Dissertao de Mestrado,
Sagayama, "Joint Recognition Of Key And Recife, 1999.
Chord From Music Audio Signals Using Key-
Modulation HMM," in MIREX - Music
Information Retrieval Evaluation eXchange,

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 74

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014



,"($# #$#$+&$+' .( #$61#(,
.0(&,#$,+&.$//,
,
-.$/$+0 #,+, ,+&.$//,#$+&$+' .( #$61#(,
 ,+2$+@?, "(,+ )#  . /()
 
#$ (,#$ ?, 1),

()')$$'%'$*/$$$'#!#!#)'*%!$*)$'("28($''28($*$#('28()(%!$$")6
)4#$   '(! #0$ ( '(%$#(!/ %!$ $#)9$ *)'$( ')$( %$" (' &*'$( )'+4(  *$
##'#$).
 ()#)'),$' ,$' 
   ,,,($'#$'"28(($'(20$
'(!'%$"('$)(" ,,,('(!$'$$($(')$((0$'('+$(0$4%'")'%'$*20$)$)!
$*%'!()')$("*)$'/20$-%'((  '(!


Um Mtodo para Obter Experimentalmente a Impedncia
de Radiao Acstica Vista por um Alto-falante
1 2 3
Christian Gonalves Herrera , Pedro Francisco Donoso-Garcia , Eduardo Bauzer Medeiros
1
Coordenao de Eletromecnica, Centro Federal de Educao Tecnolgica de Minas Gerais
Divinpolis, Minas Gerais, 35503-822, Brasil
2
Departamento de Engenharia Eletrnica, Universidade Federal de Minas Gerais
Belo Horizonte, Minas Gerais, 31270-901, Brasil
3
Departamento de Engenharia Mecnica, Universidade Federal de Minas Gerais
Belo Horizonte, Minas Gerais, 31270-910, Brasil
'$..$. #(2"$%$0*&!. -$#., "-#$$1%*&!. ! 13$. #$*$"1%*&!.

RESUMO
(( )'!$ : %'(#) *" ")$$!$ %'  )'"#86$ ,%'"#)!  ;#  )'#(*86$
!)'$?()  *" !)$!#) #()!$ #*" ''$'  ":)$$ (( # "86$ ( "%4#(
!:)'"4#$!)$!#)#*"#($$"$)'#(*)$'("#)-$%$()'$'"#)#*"#($
$"$!)$!#) #*"4"'+3*$ ((" "%4#'86$?()%$('!*!%'
*" )'"# #()!86$   %')' ((  ;#  )'#(*86$ . %'(#)$$ (()"  "86$
(#+$!+$%'())+($#$($#)$(#()'*"#)86$+')*!$#!(6$"$()'$($(
'(*!)$(%!86$")$$!$#*"!)$!#)#()!$#%$')*"*)$">+!''#$#)'$
$)3*!$$ +<*!$( '(*!)$( "$()'"&*$ ":)$$:!")$1( '&*;#(#'$'( -
+$%'#%!"#);#("$#(*'*"!)$!#)$"%!)"#)("#)-$)":"1
*!"''*"+3*$($!*)$#4"')()(

  ., vibroacstico entre o alto-falante, o irradiador e o


ambiente acstico.
Nem toda a potncia entregue a um alto-falante na
forma eltrica convertida em potncia acstica. A Quanto menor for a eficincia da transduo, maior
eficincia do processo de transduo eletroacstica o nvel de potncia com que o amplificador de
realizada por um alto-falante depende das suas potncia obrigado a operar a fim de atingir a
perdas caractersticas e tambm do acoplamento intensidade sonora desejada. Tal fato contribui para o
aumento da dissipao de potncia do prprio

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 75
   >   8   <:

amplificador, pois essa aumenta com o quadrado da complexidade do irradiador, seja pelo ambiente
corrente eltrica conduzida pelos transistores de acstico.
sada (efeito Joule).
Por outro lado, se as caractersticas eltricas e
Modelos do comportamento dinmico de alto- mecnicas de um alto-falante so bem conhecidas,
falantes vm sendo propostos h muito tempo [1]. possvel determinar experimentalmente a impedncia
Uma abordagem muito encontrada na literatura de radiao vista pelo transdutor numa determinada
considera as caractersticas eltricas e mecnicas do instalao. O objetivo deste trabalho apresentar
alto-falante como elementos concentrados de um uma metodologia a fim de cumprir tal tarefa e, em
circuito eltrico equivalente e assim as ferramentas consequncia, obter uma estimativa da eficincia da
de anlise de circuitos eltricos podem ser aplicadas. transduo eletroacstica.
Contudo, tais modelos so vlidos apenas para baixas
Primeiramente discutido o princpio de
frequncias.
funcionamento dos transdutores eletrodinmicos e o
Uma das aplicaes para um modelo dinmico do modelo dinmico a ser adotado. Em seguida
alto-falante a predio das suas perdas de potncia apresentado o mtodo experimental para caracterizar
e, consequentemente, a eficincia da transduo. o alto-falante e determinar a impedncia de radiao.
Finalmente so mostrados resultados obtidos num
Contudo, um modelo para representar a carga
alto-falante instalado na porta de um automvel
acstica acionada pelo alto-falante pode tornar-se
como exemplo da metodologia proposta.
muito complexo. Tal carga denominada impedncia
de radiao acstica Zr. Um exemplo o modelo
    
analtico da impedncia de radiao vista por um
pisto circular instalado num painel rgido de O alto-falante um transdutor que converte energia
dimenses infinitas [2] (obs.: letras em negrito eltrica em energia mecnica. Na Figura 1 so
representam nmeros complexos): mostradas as principais partes de um alto-falante
real. Nele, a bobina acoplada a uma das
Zr  0cSR1 2ka  jX1 2ka  
extremidades de uma membrana rgida em forma de
tronco de cone que presa estrutura do alto-falante
onde S = a2 a rea da superfcie do pisto, 0c a na sua outra extremidade atravs de uma suspenso
impedncia caracterstica do ar e k o nmero de elstica. Essa suspenso tem a funo de minimizar o
onda. As funes R1 e X1 so dadas por: movimento do cone fora do eixo axial, para que se
comporte de maneira similar a um pisto rgido, e
2J1 x
R1 x  1 tambm de amortecer os seus modos de vibrao. A
x aranha, outra membrana elstica, mantm a bobina
suspensa no centro do entreferro e prov a fora
x2 x4 x6 
 restauradora.
   
2  4 2  42  6 2  42  62  8 A funo do cone e do domo deslocar o ar
adjacente de acordo com o movimento da bobina,
produzindo som. Assim, esse volume de ar deslocado
visto pelo alto-falante como uma carga acstica, ou
2H1 x impedncia de radiao Zr = Rr + jXr.
X1 x 
x
 
4 x x3 x5

 2  2 2  

3 3 5 3 5 7


onde J1 a funo de Bessel e H1 funo de Struve,


ambas de primeira ordem. importante notar que
essa a impedncia de radiao vista do campo
distante.
As impedncias de radiao de outros arranjos
acsticos simples como esse tambm podem ser
deduzidas analiticamente. Porm em situaes
prticas de sonorizao tais expresses tornam-se Figura 1 Principais componentes de um alto-falante
inviveis de serem deduzidas, seja por causa da eletrodinmico [3].

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 76
5 4 <:     :   
 
   >   8   <:

A Figura 2 apresenta dois circuitos equivalentes considerado como um nmero real e constante (M =
utilizados por Kinsler [2] para estudar o M):
comportamento dinmico de um alto-falante. De
acordo com o circuito da Figura 2a, a impedncia RM  M2 Rm
total ZE vista nos terminais eltricos do alto-falante LM  M2 s 
:
CM  m M2
V  
Z E   Z EB  ZMOT
I RR  M2 Rr

onde ZEB a impedncia eltrica, ou a impedncia CR   X r  M2
com o cone bloqueado:
Assim, a resistncia R representa, por sua vez, a
Z EB  R0  jX 0   associao em paralelo das resistncias RM e RR, de
forma que:
onde R0 e X0 so a resistncia e a reatncia do
enrolamento, respectivamente. M2 1
R 
ZMOT a impedncia mvel vista do lado eltrico Rm  Rr 1 RM  1 RR 
do transdutor, que representa a impedncia de L  LM
radiao acstica Zr em srie com a impedncia
mecnica Zmo: C  CM  C R
Esta forma de abordar o alto-falante indica que,
2M
Z MOT  caso seja possvel medir separadamente ZEB e Zmo, a
Z mo  Z r impedncia de radiao pode ser determinada.
Z mo  Rm  jm  s  
 
 .,  *  
onde Rm a resistncia mecnica, m a massa do   .,    0 
conjunto mvel e s a rigidez da aranha. O termo A impedncia eltrica ZEB pode ser obtida a partir
M o coeficiente de transduo eletromecnica. do alto-falante desmagnetizado, o que pode ser
conseguido junto ao fabricante. Um ensaio com o
cone bloqueado uma alternativa, desde que se
consiga manter a bobina na sua posio de repouso.
Uma vez que ZEB conhecida, a impedncia
mecnica Zmo pode ser determinada a partir de um
ensaio numa cmara de vcuo. Como a carga
acstica minimizada pelo vcuo, a impedncia de
radiao pode ser desconsiderada. Assim, o circuito
a)
RLC da Figura 2b representa o equivalente das
caractersticas mecnicas do alto-falante, ou seja, CM,
LM e RM.
A resistncia RR referente instalao do alto-
falante num irradiador e de ambos dentro de um
determinado ambiente acstico pode ser agora
calculada a partir da medio de ZE in loco e da
Equao 9.
A eficincia da transduo eletroacstica definida
como a razo entre a potncia de sada e a potncia
b) de entrada no alto-falante [2]. A potncia de sada
aquela dissipada em RR e a potncia de entrada essa
Figura 2 Dois circuitos equivalentes do alto-falante. somada s potncias dissipadas em R0 e em RM:

No circuito da Figura 2b o circuito RLC representa 


Pout

PR  
o equivalente paralelo da impedncia ZMOT. Os Pin PE  PM  PR
parmetros R, L e C so relacionados a Zmo e a Zr a
partir das seguintes definies (Equaes 7 e 8), onde Definindo VM como a tenso aplicada
o coeficiente de transduo eletromecnica impedncia mvel:

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 77
5 4 <:     :   
 
   >   8   <:

VM2
PM 
RM
 
V2
PR  M
RR
Substituindo estas expresses na Equao 10:

VM2 RR

R0 I 2  VM2 RM  VM2 RR

1 RR

 2 2

R0  I V  1 RM  1 RR
M


Figura 3 Simulao da eficincia de transduo com o
alto-falante no painel rgido infinito.

Pela definio de VM: Aps a medio de ZEB e Zmo o alto-falante


VM  V  Z EB  I instalado num veculo para que seja determinada a
impedncia de radiao acstica vista por ele e
VM V tambm a eficincia da transduo.
  Z EB  
I I Para tanto, foi desenvolvido especialmente para
este trabalho um sistema de medio baseado nos
Substituindo a Equao 4 na Equao 13: conceitos de instrumentao virtual que utiliza placas
de aquisio e gerao de sinais e uma plataforma de
I2 1
 2 software onde so implementadas as rotinas
VM2 Z MOT  
computacionais para condicionamento e anlise dos
sinais medidos.
A expresso para a eficincia da transduo :
 %&!!43#
1 RR
   A Figura 4 mostra o diagrama em blocos do
 2
R0  1 Z MOT 
 1 RM  1 RR sistema de medio desenvolvido para a realizao
dos ensaios no alto-falante.
A Figura 3 mostra o resultado de uma simulao da
eficincia de um alto-falante instalado num painel As principais grandezas medidas so a tenso v(t) e
rgido infinito, cuja impedncia de radiao dada a corrente eltrica i(t). A amostragem desses sinais
pela Equao 1. Os parmetros do alto-falante realizada a uma taxa de 200000 amostras por
simulado so mostrados na Tabela 1. segundo e cada amostra representada por uma
palavra binria com 16 dgitos.

Tabela 1 Parmetros do alto-falante simulado


O prprio amplificador de potncia utilizado para
acionar o alto-falante fornece os sinais analgicos de
'$ 
" tenso e corrente que so conectados s placas de
'(();#$#'$!"#)$ @ aquisio de dados que contm os conversores
#*)4#$#'$!"#)$
A analgico-digital (A/D).
"(($$# *#)$">+!" 
'-(
"
A anlise dos sinais digitalizados feita por
'(();#"4#" (" componentes de software desenvolvidos em
$#))'#(*86$  " linguagem de programao grfica. Esses
componentes calculam a amplitude eficaz e a fase
entre os sinais no domnio do tempo para determinar
        a impedncia complexa.

A fim de ilustrar o uso da metodologia proposta foi A fim de maximizar a razo sinal-rudo foi
realizado um trabalho de caracterizao de um alto- utilizado um sinal senoidal como estmulo ao
falante automotivo com dimetro de seis polegadas e transdutor. Esse sinal sintetizado por outro
potncia nominal igual a 20 W. componente de software e ao todo so medidos 91
valores de impedncia a partir de sinais cujas
frequncias variam logaritmicamente entre 4 e 4000
Hz. A amplitude do sinal de excitao foi fixada em
1 V eficaz.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 78
5 4 <:     :   
 
   >   8   <:

Um microfone tambm utilizado durante o ensaio O sinal de presso sonora convertido pelo
a fim de monitorar o sinal acstico gerado pelo alto- microfone p(t) digitalizado a uma taxa de 50000
falante. Assim pode ser percebido algum amostras por segundo, com 24 bits por amostra. A
comportamento anormal como, por exemplo, a taxa de amostragem menor que a taxa utilizada para
ressonncia com partes vibrantes do veculo ou converter os sinais de tenso e corrente eltricos
tambm uma instalao deficiente do alto-falante no porque so placas de aquisio de dados diferentes.
painel de porta. Este motivo tambm contribuiu na
escolha do sinal de excitao senoidal, em
detrimento de sinais da banda larga como rudo
branco ou varredura senoidal.

Figura 4 Diagrama em blocos do sistema de medio.

 43#%!$2"%#!$ '% alto-falante corresponde impedncia eltrica em


srie com a impedncia mecnica do alto-falante.
A Figura 5 mostra o mdulo da impedncia eltrica
ZEB, medida com o alto-falante desmagnetizado. Na figura mostrada possvel perceber a influncia
possvel identificar um fenmeno no linear da impedncia eltrica, que desloca a curva do
relacionado s perdas no material magntico vizinho mdulo de ZE no sentido vertical. Alm disso,
ao enrolamento chamado de correntes parasitas (ou tambm aparece claramente o pico de ressonncia em
Eddy currents [4]). Essas perdas aumentam com a 88 Hz inerente ao oscilador mecnico formado pela
frequncia, o que pode ser visto na Figura 5 como o massa do cone e a mola (aranha e suspenso).
aumento em R0.

Figura 6 Impedncia total ZE medida com o alto-falante no


Figura 5 Impedncia ZEB medida com o alto-falante vcuo.
desmagnetizado.
Um fenmeno de origem vibracional pode ser
A Figura 6 mostra o mdulo da impedncia ZE notado na curva da Figura 6 nas frequncias de 1000,
medida com o alto-falante dentro de uma cmara de 2200 e 3500 Hz, aproximadamente. Nessas
vcuo. Assim, a impedncia de radiao acstica frequncias so excitados modos de vibrao do
minimizada e a impedncia vista nos terminais do cone, que nessa faixa de frequncias j no age mais
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 79
5 4 <:     :   
 
   >   8   <:

como uma membrana rgida [5]. O resultado um caractersticas de rigidez da aranha pelo
moderado aumento no mdulo da impedncia, como envelhecimento decorrente de sucessivos ensaios [6].
mostrado. Alm disso, possvel tambm notar o aparecimento
de uma segunda frequncia de ressonncia vizinha
A Figura 7a apresenta o mdulo da impedncia
primeira.
mvel ZMOT, que foi calculada a partir da impedncia
no vcuo subtrada da impedncia eltrica ZEB. A
Figura 7b apresenta a parte real RM e a parte
imaginria XM de ZMOT.
possvel perceber que para algumas frequncias
maiores que 400 Hz a resistncia RM assume valores
negativos. Esse fato pode ser explicado por
deficincias nas medies como, por exemplo,
magnetizao residual do alto-falante no ensaio para
determinao de ZEB. Dessa forma, esses resultados
no podem ser considerados no clculo da eficincia,
pois conduziriam a valores negativos.

Figura 8 Impedncia total ZE medida com o alto-falante


instalado no automvel.

Embora a influncia da impedncia de radiao


possa ser bem notada na Figura 8, a curva mostrada
no fornece muitas informaes teis sobre a
natureza de Zr, nem tampouco uma correlao com
as caractersticas vibroacsticas da instalao do
alto-falante na porta do veculo.
Ainda assim, possvel calcular RR e determinar a
eficincia da transduo, como mostrado na Figura 9
e na Figura 10.
a)
  1 
Neste trabalho foi apresentado um mtodo simples
para medir as impedncias eltrica, mecnica e de
radiao acstica de um alto-falante instalado num
irradiador.
A partir dos valores das partes reais dessas
impedncias possvel calcular a eficincia da
transduo eletroacstica. Esse resultado pode ser
utilizado para a elaborao de adequaes e
melhorias que levem otimizao do alto-falante, do
irradiador, ou mesmo da configurao acstica de um
sistema de reproduo sonora.
b)
Contudo, alguns pontos referentes realizao dos
Figura 7 Impedncia mvel ZMOT medida com o alto-
ensaios podem conduzir a resultados que no
falante na cmara de vcuo. condizem com a situao real. Um desses pontos o
ensaio com o alto-falante desmagnetizado, onde deve
Na Figura 8 aparece o mdulo da impedncia ZE ser assegurado que o transdutor no apresente
medida com o alto-falante instalado na porta de um magnetizao residual.
veculo. A principal diferena para a Figura 6 o
deslocamento da frequncia de ressonncia para 60
Hz, aproximadamente. Esse fenmeno est em parte
relacionado massa de ar que se soma massa do
conjunto mvel do alto-falante dentro do veculo.
Porm, mais razovel considerar que tal diminuio
na frequncia de ressonncia deva-se a mudanas nas

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 80
5 4 <:     :   
 
   >   8   <:

Symptoms, Journal of the Audio Engineering


Society, 54:907939, 2006.
[6] W. Klippel, Dynamic Measurement of
Loudspeaker Suspension Parts, Journal of the
Audio Engineering Society, 55:443459, 2007.

Figura 9 Resistncia RR medida com o alto-falante


instalado no automvel.

Figura 10 Eficincia de transduo do alto-falante


instalado no automvel.

O ensaio na cmara de vcuo tambm deve ser


conduzido de forma a minimizar a massa de ar dentro
da cmara, para que a impedncia de radiao possa
ser mesmo desprezada.
Uma ltima considerao refere-se s mudanas
nas caractersticas mecnicas dos elementos do alto-
falante de acordo com o seu tempo de uso. No caso
apresentado neste artigo a frequncia de ressonncia
variou de 85 Hz para 60 Hz, aproximadamente, o que
em grande parte pode ser atribudo ao
envelhecimento da aranha.

  0  

( 
[1] L. Beranek, Acoustics, McGraw-Hill, 1954.
[2] L. Kinsler, et al., Fundamentals of Acoustics,
John Wiley & Sons, Inc., 2000.
[3] J.D Reiss, et al., Verification of chaotic behavior
in an experimental loudspeaker, The Journal of
the Acoustical Society of America, vol.
124(4):20312041, 2008.
[4] J. Vanderkooy, A Model of Loudspeaker Driver
Impedance Incorporating Eddy Currents in the
Pole Structure, Journal of the Audio Engineering
Society, 37:119128, 1989.
[5] W. Klippel, Tutorial: Loudspeaker
Nonlinearities Causes, Parameters,

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 81
5 4 <:     :   
 
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso o
Apresentado no 12 Congresso de Engenharia de udio
a
18 Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________
Ferramentas on-line para a criao musical colaborativa
1 1
Daniel Baker Mio e Paulo Roberto Affonso Marins
1
Universidade de Braslia - UnB
Braslia, DF, 70910-900, Brasil
2
Universidade de Braslia - UnB
Braslia, DF, 70910-900, Brasil
danbakermusic@gmail.com, pramarins@gmail.com

RESUMO
A internet, com seus mecanismos de comunicao e interao, tem o potencial de facilitar a colaborao entre
pares na construo do conhecimento. No entanto, ainda notvel o pouco uso que os msicos fazem de tais
recursos na criao musical. O propsito desse artigo examinar algumas ferramentas existentes on-line e suas
possveis aplicaes. Para isso, a partir de pesquisas na internet, fez-se a anlise desses recursos no sentido de
favorecer a criao musical colaborativa. Os resultados indicam a existncia de atividades colaborativas ainda
pouco exploradas que poderiam auxiliar o trabalho musical criativo em grupo pelas possibilidades interativas e
de troca de contedo apresentadas.

0. INTRODUO envolvendo preparao das ideias, priorizao,


organizao, descoberta de lacunas, possibilidades de
De acordo com Webb [1], a possibilidade de exposio e busca de clareza, por exemplo.
aprendizado fornecida pela colaborao em pequenos
grupos reconhecida, tanto por pesquisadores e O receptor, por sua vez, tambm deve se engajar
educadores, como pelos responsveis por polticas em processos semelhantes ao comparar seu
educacionais de vrios pases do mundo. conhecimento com o novo, perceber brechas no
prprio conhecimento, reconhecer e corrigir falhas e
Diversos processos cognitivos internos associados conceitos errados, e gerar entendimentos diferentes a
aprendizagem so desencadeados pela partir de novas ideias apresentadas, tendo, enfim,
comunicao ocorrida durante a colaborao. Na uma escuta ativa.
troca de informaes, isso acontece tanto do lado de
quem fala como de quem ouve. Nesse processo, os A forma como as pessoas lidam com o
participantes constroem ativamente seu aprendizado conhecimento mudou com o surgimento das
ao criarem novas relaes entre os conhecimentos j Tecnologias da Informao e Comunicao (TIC).
possudos, ao conectar novas informaes com as Graas queda dos preos dos computadores
aprendidas anteriormente, adaptando suas ideias pessoais, aumento da disponibilidade de banda larga,
frente a um dado novo. surgimento de vrios equipamentos mveis de
Do ponto de vista do emissor, o processo de conexo Internet, entre outros fatores, temos
formular e expor uma ideia de forma coerente e atualmente vrias possibilidades para a distribuio
precisa, exige a criao de conceptualizaes mais da informao possvel o acesso a imagens,
sofisticadas das usualmente construdas vdeos, udios e textos atravs de computadores

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 82
MIO E MARINS CRIAO MUSICAL COLABORATIVA

pessoais, tablets, telefones celulares, netbooks e sintetizado na palavra C(L)A(S)P1. Tais atividades
videogames, por exemplo. so consideradas, no entanto, como perifricas
experincia musical em si.
Segundo Miranda [2], o termo Tecnologias da
Informao e Comunicao (TIC) refere-se A criao musical colaborativa online incorpora
conjugao da tecnologia computacional ou portanto duas questes importantes, a criao
informtica com a tecnologia das telecomunicaes e musical em si e o uso das TIC.
tem na Internet e mais particularmente na World
Portanto, faz-se necessrio a anlise de ferramentas
Wide Web (WWW) a sua mais forte expresso.
colaborativas voltadas para criao musical
A Internet possui vrias caractersticas que a disponveis online.
tornam nica em termos de comunicao e
O presente artigo realizar tal investigao
distribuio de contedo. Com a Internet podemos
dividindo as ferramentas em duas grandes categorias:
promover algumas das questes mais importantes
para a atualidade: a localizao de informaes e a 1) As voltadas especificamente para a criao
comunicao (p.125) [3]. musical.
A possibilidade interativa e de comunicao 2) As com outra finalidade, mas com a
propiciada pelas TIC e pela Internet abriu caminho possibilidade de serem utilizadas com o mesmo
para o desenvolvimento de iniciativas que exploram objetivo.
tanto a velocidade de conexo atual quanto a
As ferramentas da primeira categoria foram
capacidade de processamento dos novos
classificadas de acordo com trs tipos:
computadores pessoais.
a) Ferramentas que permitem a escrita musical
Apesar de ainda haver questes complicadoras,
tradicional on-line.
como a latncia na transmisso de dados, j
possvel trabalhar usando programas que funcionam b) Ferramentas que trabalham com a troca e
de forma completamente on-line, diretamente em um gerenciamento de arquivos de udio.
navegador da Internet, inclusive em dispositivos
mveis smartphones e tablets. c) Ferramentas que possibilitam a gravao de
udio e/ou MIDI on-line.
No tocante tecnologia musical, importante
ressaltar que tais ferramentas poderiam facilitar a As ferramentas da segunda categoria foram
criao musical colaborativa via internet visto que, divididas de acordo com sua funo:
em alguns casos, tm esse objetivo explcito. a) udio e videoconferncia.
Outrossim, o trabalho colaborativo pode ser
desenvolvido tambm atravs das TIC disponveis b) Compartilhamento de arquivos.
que no foram criadas com esse intuito. c) Repositrio de vdeos.
Apesar disso, os cursos de graduao em msica a Dentro da primeira categoria, foram selecionados
distncia ofertados por Instituies Pblicas de os stios Noteflight, Kompoz, Soundation e
Ensino Superior (IPES) no Brasil, como o da AudioSauna. Como exemplos da segunda categoria,
Universidade de Braslia por exemplo, [4] no se optou-se pelos seguintes aplicativos: Skype,
valem dessas ferramentas em seus programas de Hangouts, Soundcloud, Wetransfer e Youtube.
formao de professores de msica.
Para a referida anlise, foi feita a pesquisa nas
Em relao educao musical, Keith Swanwick informaes disponveis em cada stio incluindo
[5] destaca dois pontos fundamentais: a necessidade material em udio e vdeo, exemplos de usurios,
do professor promover experincias especificamente tutoriais, blogs, entre outros alm do uso prtico da
musicais de algum tipo e os vrios papis musicais a ferramenta.
serem necessariamente assumidos pelos alunos para
garantir sua boa formao. 1. ANLISE DAS FERRAMENTAS
DESENVOLVIDAS PARA A CRIAO
Segundo o autor, a educao musical uma MUSICAL
educao esttica, logo importante a elaborao de
atividades capazes de criar envolvimento direto com A seguir, feita uma descrio de algumas
a msica e isso conseguido atravs de trs pilares ferramentas desenvolvidas com o objetivo definido
principais de estudo: composio, audio e de facilitar a atividade de criao musical
performance. Esse modelo completado pela colaborativa on-line.
literatura sobre msica (e da msica), e a aquisio
de habilidades aurais, instrumentais e de notao 1
O sistema C(L)A(S)P Composition, Literature studies,
Audition, Skill acquisition, Performance foi traduzido para o
portugus como (T)EC(L)A Tcnica, Execuo, Composio
musical, Literatura e Apreciao.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 83
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
MIO E MARINS CRIAO MUSICAL COLABORATIVA

1.1 Escrita musical on-line permitido enviar verses diferentes da mesma


Dentro desse primeiro tipo se encontra o Noteflight pista e adicionar um arquivo preview2 com uma
(Figura 1). A sua plataforma coloca disposio do amostra de como cada colaborao soa junto com as
usurio um software para a criao, edio, outras j existentes.
armazenagem, escuta, impresso e compartilhamento As msicas podem ser licenciadas de forma
de partituras na Internet, possibilitando a colaborao tradicional ou dentro de uma das oito opes
entre usurios na composio de uma mesma msica. Creative Commons3.
O uso gratuito, com limitaes. Caso escolha H tambm planos pagos que permitem um maior
pagar um taxa mensal, o usurio passa a ter a sua nmero de projetos privados e pblicos, upload de
disposio recursos avanados como nmero maior arquivos de udio sem compresso, criao e
de timbres, organizao de arquivos em pastas, moderao de grupo de usurios, entre outros
mixagem do canais de udio, e entrada de dados via recursos avanados.
MIDI, entre outros.
O stio pode ser acessado atravs dos navegadores
mais utilizados, inclusive em plataformas mveis
como o iOS e o Android.
Na parte de suporte, h tutoriais em vdeo
mostrando as funes bsicas do programa.
possvel importar e exportar arquivos no formato
MIDI e MusicXML. Alm disso, pode-se exportar o
arquivo final no formato WAV. Os timbres dos
Figura 2 Tela do stio Kompoz
instrumentos so sintetizados no prprio software.
Depois de criada, a partitura pode ser 1.3 Gravao de udio e/ou MIDI on-line
compartilhada e possvel controlar o nvel de
acesso, indo da simples visualizao at a O Soundation (Figura 3) um stio voltado para a
modificao do material. Um histrico fica gravao de udio e/ou MIDI on-line, que coloca
armazenado com as modificaes efetuadas na disposio do usurio todas as funcionalidades de um
partitura por outros usurios. software profissional de gravao, atravs de um
programa no navegador da Internet. Seus recursos
incluem instrumentos virtuais, automao, gravao,
efeitos em tempo real, entre outros.
Na configurao inicial, o programa conta com 700
loops e samples grtis. Se o usurio quiser, pode
adquirir mais na loja on-line do stio ou usar as
prprias gravaes para ger-los.
possvel importar arquivos MIDI, de udio, e no
formato proprietrio com extenso .sng. A
Figura 1 Tela do stio Noteflight exportao permitida em .wav e em .sng.

1.2 Troca e gerenciamento de arquivos de O programa permite a gravao de dados MIDI


udio atravs de um teclado virtual ou um teclado MIDI
externo conectado ao computador ou de udio.
No Kompoz (Figura 2), possvel um usurio fazer
possvel ajustar a latncia mas perceptvel um certo
o upload de uma pista de udio por exemplo, uma
atraso entre a execuo e o emisso sonora dos
linha de baixo qual outros usurios podem
timbres virtuais.
acrescentar pistas com material adicional bateria,
piano, entre outros. Ao terminar uma pea musical pode-se publicar a
faixa mixada, tanto na comunidade virtual do stio
Para enviar e receber material, pode-se usar um
quanto no Facebook, possibilitando o comentrio de
software grtis proprietrio, o Konnect, ou dois
outros usurios.
servios comuns de gerenciamento de arquivos na
nuvem: Dropbox e Google Drive. O Soundation conta com um recurso voltado
especificamente para a colaborao via Internet.
O criador do arquivo inicial o dono da
colaborao e responsvel pela escolha de quais
2
pistas so incorporadas ou no ao projeto. O preview um arquivo de udio com uma mixagem prvia
do material produzido pela colaborao.
3
As licenas Creative Commons oferecem maneiras simples e
padronizadas de conceder autorizao de uso de obras intelectuais
de acordo com as condies definidas pelo prprio autor.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 84
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
MIO E MARINS CRIAO MUSICAL COLABORATIVA

Atravs de um aplicativo funcionando dentro da


plataforma de comunicao Hangouts do Google4,
possvel usar os recursos do Soundation em tempo
real, junto com a videoconferncia, com edies
feitas e acompanhadas simultaneamente por todos os
participantes. Contudo, a armazenagem de arquivos
com udio gravado exige uma assinatura paga.

Figura 4 Tela do stio AudioSauna

2. ANLISE DE FERRAMENTAS COM


OUTRAS FINALIDADES
As ferramentas a seguir no foram desenvolvidas
com o funo de facilitar a criao musical
colaborativa on-line, mas oferecem recursos capazes
Figura 3 Tela do stio Soundation de favorecer essas atividades.

O AudioSauna (Figura 4) do mesmo tipo do 2.1 udio e videoconferncia


Soundation transforma o navegador da internet De todos os recursos avaliados aqui, o Skype o
num estdio virtual para a produo musical sendo, nico que exige instalao no equipamento do
no entanto, mais limitado. usurio. Portanto, no um software que funciona
on-line mas possibilita a comunicao on-line atravs
H trs tipos de instrumentos que podem ser
da Internet.
alocados em at dez pistas: um sintetizador virtual
analgico, um sintetizador de frequncia modulada e Esse programa permite a comunicao por meio de
um sampler. Todos possuem diversos presets e udio, vdeo e mensagens escritas, e o
permitem edies de parmetros como envelope, compartilhamento de contedo entre seus usurios.
formato de onda, low-frequency oscillator (LFOs)5 e Tal comunicao possvel, inclusive, em
filtros, entre outros. dispositivos mveis.
O programa disponibiliza uma mesa de mixagem Alm de contedo, o Skype permite o
com dois auxiliares de efeito limitados a reverb e compartilhamento de tela e, para usurios pagantes,
delay e controles de volume e panormico. isso pode ser feito com at 10 pessoas ao mesmo
tempo. Com esse recurso, possvel dar orientaes
A entrada de dados pode ser feita de duas formas:
sobre algum programa aberto e exibir apresentaes,
com o mouse, inserindo cada nota individualmente
entre outros.
em uma grade onde a altura e a durao so
determinadas respectivamente pela posio vertical e O Hangouts funciona de forma similar ao Skype,
horizontal das linhas criadas, ou atravs do teclado mas no exige instalao de software especfico no
virtual. equipamento do usurio. Ele pode ser acessado
diretamente na conta de correio eletrnico Gmail,
No possvel importar ou gravar udio, mas o
atravs da rede social Google+, de uma extenso no
arquivo de udio pode ser exportado no formato
navegador Chrome, ou de aplicativos em dispositivos
.wav.
mveis.
Entretanto, o programa possui restries
considerveis. H um limite de 10 pistas por projeto, 2.2 Compartilhamento de arquivos
no existe a possibilidade de desfazer um erro no O stio Soundcloud funciona como uma plataforma
h a funo undo , e no h como expandir o onde possvel guardar, gravar, divulgar e
banco de timbres apesar de ser possvel editar os compartilhar arquivos sonoros.
existentes e salvar as edies.
Aps criar a conta, o usurio pode publicar suas
Mesmo assim, oferece a opo de instalao do gravaes de forma privada, ou pblica em stios,
aplicativo dentro do navegador Google Chrome, blogs e redes sociais.
permitindo o seu uso off-line.
Alm do acesso via navegadores de Internet,
possvel acessar o servio via aplicativos de celular
nos sistemas Android e iOS.
4
https://plus.google.com/hangouts
5 Tanto o acesso pelo navegador da Internet quanto
Oscilador de Baixa Frequncia num sintetizador um
oscilador secundrio, com frequncia geralmente abaixo de 20 Hz,
pelo smartphone permitem a gravao direta de
utilizado para modular o sinal do oscilador principal. arquivos de udio, podendo servir como uma espcie
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 85
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
MIO E MARINS CRIAO MUSICAL COLABORATIVA

de banco sonoro nas nuvens construdo de forma streaming, gravar um videoconferncia com vrios
fcil e disponvel em qualquer lugar com conexo participantes e montar uma apresentao de slides
Internet. com fundo musical, tudo diretamente no stio.
O usurio pode criar e participar de grupos com o 3. APLICAES PRTICAS
mesmo interesse h grupos destinados a estilos
musicais especficos, palestras, audiolivros, efeitos As ferramentas apresentadas oferecem vrias
sonoros, entre outros. possibilidades de uso para a criao colaborativa de
msica. A seguir h trs exemplos prticos de
Um outro stio, o WeTransfer, oferece o servio de atividades onde a colaborao pode ser facilitada
envio de arquivos de modo fcil e descomplicado. A pelo uso das ferramentas citadas acima.
vantagem em relao a outros mtodos o fato do
usurio poder enviar arquivos com at dois gigabytes 3.1 1 Exemplo
tamanho no permitido por programas de correio
A partir de uma pesquisa no YouTube sobre a
eletrnico o que viabiliza o compartilhamento de
frmula de compasso 5/4, um usurio d incio a uma
projetos de msica com udio digital, geralmente
composio escrevendo a parte da bateria no
formado por arquivos de tamanho grande.
Noteflight.
No preciso nenhum tipo de cadastro para usar o
servio e o usurio pode enviar arquivos quantas Os participantes discutem pelo Skype o rumo da
vezes desejar dado o limite de dois gigabytes por composio e compartilham com os colegas os links
dos vdeos encontrados com exemplos de msicas
envio. Os arquivos ficam disponveis para download
que utilizam essa frmula.
por sete dias.
Um outro participante cria uma sequncia
Caso opte pelo servio pago, o usurio aumenta o
harmnica e um linha de baixo sobre a parte de
limite para dez gigabytes por envio e tem vantagens
bateria inicial, a qual ento completada com uma
como personalizao da pgina, transferncias
melodia composta pelo terceiro participante.
protegidas por senha, maior nmero de dias na
armazenagem dos arquivos, entre outras. Aps a finalizao da partitura, o resultado
exportado no formato .wav e colocado no
2.3 Repositrios de Vdeo Soundcloud onde pode ser compartilhado com outras
Apesar de no ser o nico, o Youtube o servio pessoas para apreciao e comentrios.
pioneiro de compartilhamento de vdeo na Internet,
tendo sido criado em 2005 e contando, atualmente, 3.2 2 Exemplo
com uma base de um bilho de usurios6. Um usurio cria uma msica no AudioSauna,
explorando a capacidade de edio de timbres do
O potencial desse servio para a educao
stio e exporta o arquivo e os loops das pistas criadas
notvel a ponto do prprio stio ter criado um canal
para coloc-los no Kompoz.
especialmente dedicado a isso YouTube Educao
(<https://www.youtube.com/education>). Na verso Outros usurios, a partir do arquivo original,
brasileira, por exemplo, possvel encontrar aulas editam a msica composta no AudioSauna, criando
sobre matrias do ensino fundamental e mdio. variaes no material original tanto no timbre
Mas, para alm da mera reproduo de uma aula como nas notas e colocando esse novo material
tambm no Kompoz.
expositiva em vdeo, o stio possui vrias
funcionalidades com uso potencial em atividades O projeto ento aberto participao de outros
educativas. usurios do stio gravando mais pistas em cima do
material original.
possvel usar os vdeos disponveis para a
pesquisa de informaes, exemplos e referncias a A mixagem final ento disponibilizada no
respeito de um determinado assunto, assistir uma YouTube.
demonstrao de como executar determinada tcnica
em um instrumento musical, entrar em contato com 3.3 3 Exemplo
msicas de outras culturas do mundo, entre vrias Trs usurios constroem simultaneamente a seo
outras possibilidades. A de uma obra musical, usando o Soundation numa
O stio disponibiliza ferramentas on-line para sesso de videoconferncia no Hangouts do Google.
captura e edio de vdeos a partir de um computador Os arquivos so exportados e disponibilizados a
pessoal ou de um aplicativo em dispositivos mveis. todos via WeTransfer para cada um dos participantes
possvel transmitir um evento ao vivo, em criar uma seo contrastante.
Uma nova seo feita no Hangouts com o
6
Fonte: http://expandedramblings.com/index.php/youtube- objetivo de juntar o novo material e dar o
statistics

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 86
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
MIO E MARINS CRIAO MUSICAL COLABORATIVA

acabamento final colocado, ento, no Soundcloud mente. Aqui a colaborao no tem um papel
para ser compartilhado nas redes sociais. fundamental.

4. DISCUSSO 2. Metfora da participao a aprendizagem


ocorre a partir do processo de crescer e
Em todos esses exemplos as TIC serviram para socializar em comunidade. O conhecimento
criar as condies necessrias interao entre os um aspecto das prticas culturais e a nfase
participantes ou, no caso, a interatividade. dada interao. uma aprendizagem
De acordo com Silva [7], o termo interatividade dialgica.
foi posto em destaque com o fim de especificar um 3. Metfora da criao de conhecimento
tipo singular de interao (p.100). Mais incorpora vrias teorias como a da construo
precisamente, o tipo de interao que acontece no de conhecimento, de aprendizagem expansiva
campo da informtica. A partir dessa interao, surge e da criao organizacional de conhecimento.
a possibilidade da construo colaborativa de Apesar das diferenas entre essas teorias,
conhecimento. todas tm o objetivo de explicar os processos
colaborativos envolvidos na criao ou
Conforme aponta Silva [6], para Vygotsky existe
uma lei geral do desenvolvimento cultural, uma srie desenvolvimento de algo novo. uma
aprendizagem trialgica focada em
de mudanas que constituem o que ele chama de
atividades organizadas ao redor da busca
interiorizao. Isso ocorre porque as funes
sistemtica de desenvolvimento de objetos7
cognitivas surgem em dois momentos: primeiro
compartilhados.
interpsicologicamente, na interao social e,
segundo, intrapsicologicamente, num situao Os exemplos citados no item 3 a se encaixam
individual. dentro da terceira metfora a da criao de
conhecimento j que o objetivo das experincias
No meio social, a partir das interaes permitidas
pela linguagem, a mediao exerce um papel a troca de objetos epistmicos voltados criao de
um conhecimento novo gerado a partir da
importante na interveno do homem com sua
interatividade entre os participantes.
realidade e com a do outro. E, nessa interveno,
surge a oportunidade de aprendizado. Ainda de acordo com [8], h quatro aspectos
centrais para a abordagem da criao de
Silva [6] destaca que o conceito de Zona de
conhecimento, e todos aparecem nos exemplos.
desenvolvimento proximal (ZDP) de Vygotsky traz
consigo trs implicaes pedaggicas para o ensino: Primeiro, a aprendizagem colaborativa centrada
a janela de aprendizagem, a ao do professor como no objeto, onde eles podem ser artefatos concretos,
responsvel por transformaes metacognitivas, e a permitindo serem manipulados, compartilhados,
importncia da mediao por pares. estendidos e transformados. Nos exemplos, so os
arquivos trocados entre os participantes udio,
A ltima dessas implicaes tem grande relao
midi, entre outros. Aqui ocorre a chamada
com a mediao propiciada pelo trabalho
mediao epistmica, a criao de artefatos
colaborativo de criao musical. Esta mediao
epistmicos atravs da escrita, visualizao ou
precedida por uma regulao exterior, expressa por
prottipos. Os prottipos so as msicas criadas e
meio de habilidades e conhecimentos interiorizados e
trabalhadas at sua forma final.
trazido pelo aluno mais apto, o qual guia as
atividades junto ao aluno com menos aptido [6] Segundo, as comunidades de conhecimento. Tais
(p.27). comunidades so viabilizadas pelas ferramentas de
comunicao, no caso, o Skype. Nos exemplos, os
No caso dos exemplos citados, os alunos so os
participantes possuem o que considerado pea
participantes que interagem e aprendem uns com os
fundamental, um objeto compartilhado de atividade
outros. Um participante com mais conhecimento
a msica sendo criada. Alm disso, h vrias ZDP
sobre um determinado assunto cria as condies para
dada a caracterstica heterognea dos grupos. As
que o outro interiorize procedimentos e tcnicas com
comunidades servem tambm de apoio
as quais no trabalharia sozinho, e passe ento a
utiliz-los. socioemocional ao permitir a troca de ideias e o
suporte entre os participantes.
Segundo Hakkarainen et al. [8], h trs abordagens
Terceiro, a mediao tecnolgica da
predominantes nas teorias de aprendizagem:
aprendizagem colaborativa. As TIC tm um papel
1. Metfora de aquisio de conhecimento crucial na criao colaborativa de conhecimento,
onde o conhecimento, sendo propriedade ou permitindo aos estudantes o trabalho coletivo em
caracterstica de uma mente individual,
transmitido do professor ao aluno. uma 7
Tais objetos podem ser epistmicos, sem forma material ou
aprendizagem monolgica, ocorrida dentro da tangvel.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 87
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
MIO E MARINS CRIAO MUSICAL COLABORATIVA

objetos que se estendem no tempo e no espao. Alm disso, com a expanso do acesso e da
Alm disso, possibilitam capturar muitos aspectos velocidade de conexo, questes como a transmisso
do processo de pesquisa para reflexo posterior e de udio digital lidando com o transporte massivo
auxiliam na externalizao, gravao, e organizao de informao via Internet tendem a ser cada vez
visual de todos os aspectos e estgios da criao. menos impeditivas do trabalho em tempo real.
Em todos os exemplos, h o uso das TIC com esses
Uma iniciativa que aponta o futuro desse tipo de
propsitos.
tecnologia o software Bitwig Studio8, lanado em
E, em quarto e ltimo, as prticas de 2014. Segundo o desenvolvedor, futuramente esse
conhecimento deliberadamente criadas, das quais a programa ser capaz de permitir o trabalho criativo
aprendizagem colaborativa depende. As prticas de sobre o mesmo documento, por vrios usurios
conhecimento so prticas pessoais e sociais simultaneamente, via Internet. Mas, como o software
relacionadas a atividades epistmicas que incluem se encontra ainda em fase de desenvolvimento, sua
criao, compartilhamento, e elaborao de capacidade colaborativa ainda carece de anlise.
artefatos epistmicos, como textos escritos ou
De qualquer forma, o profissional da rea de
composies musicais, caso dos exemplos citados.
msica, ou docente em msica, interessado em
Alm disso, nos exemplos possvel ocorrer duas desenvolver algum tipo de atividade colaborativa j
questes levantadas por [1], como vindos da conta com ferramentas capazes de facilitar de vrias
atividade colaborativa. Primeiro, a troca de maneiras a interatividade e a comunicao entre os
informaes e o confronto entre as ideias de cada participantes, favorecendo a colaborao e a
participante frente ao novo conhecimento trazido construo de conhecimento.
pelo outro, onde novas relaes cognitivas so
construdas. Segundo, o raciocnio conceitual REFERNCIAS BIBLIOGRFICAS
exigido na articulao e compartilhamento de
[1] WEBB, Noreen M. Information Processing
objetos epistmicos, os quais precisam ser Approaches to Collaborative Learning. In:
formulados e produzidos de forma clara,
HMELO-SILVER, C. E.;CHINN, C.A., et al.
requisitando um trabalho de argumentao coerente
(Eds.). The International Handbook of
por parte de cada envolvido.
Collaborative Learning. New York: Routledge,
2013. p.19-40.
5. CONSIDERAES FINAIS
[2] MIRANDA, Guilhermina Lobato. Limites e
Este artigo teve o intuito de examinar a aplicao possibilidades das TIC na educao. In: Ssifo
de ferramentas on-line nos processos de criao - revista de cincias da educao. Lisboa, 2007.
musical colaborativa. p. 41-50.
[3] TAJRA, Sanmya Feitosa. Informtica na
Para tal, foi realizada uma anlise dos recursos e
educao: novas ferramentas pedaggicas
potencialidades destas ferramentas, e seu possvel
para o professor. So Paulo: RICA, 2012.
uso em atividades priorizando a colaborao entre os
[4] BRASIL. Ministrio da Educao. Projeto
participantes.
Poltico Pedaggico do curso de licenciatura
Aps a apresentao de trs exemplos de uso das em Msica a distncia da UnB. Braslia:
ferramentas em criaes musicais colaborativas, foi Universidade de Braslia, 2009.
realizada uma avaliao de como elas podem [5] SWANWICK, Keith. A Basis for Music
beneficiar a aprendizagem atravs da colaborao, Education. Londres: Taylor & Francis, 2003.
utilizando os conceitos da lei geral do [6] SILVA, Leandro Alves da. Tecnologias da
desenvolvimento cultural e de Zona de Informao e Comunicao. So Paulo:
Desenvolvimento Proximal, de Vygotsky, e a Almedina, 2011.
metfora da criao de conhecimento, com seus [7] SILVA, Marco. Sala de aula interativa. Rio de
quatro aspectos centrais, de acordo com Hakkarainen Janeiro: Quartet, 2002.
et al. [8]. [8] HAKKARAINEN, Kai et al. Sociocultural
Perspectives on Collaborative Learning: Toward
O resultado sugere que o uso dessas ferramentas na Collaborative Knowledge Creation. In:
mediao da atividade colaborativa fornece os
HMELO-SILVER, C. E.;CHINN, C.A., et al.
elementos necessrios para favorecer a criao de
The International Handbook of Collaborative
conhecimento e, ao serem usadas em prticas onde
Learning. New York: Routledge, 2013. p.57-
h o desenvolvimento de objetos compartilhados,
73.
auxiliar a aprendizagem trialgica.
Com o avano da Internet e das TIC, provvel
que ocorra o aumento de ferramentas explorando o
potencial da colaborao em vrias atividades,
inclusive a criao musical. 8
https://www.bitwig.com/en/bitwig-studio

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 88
12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014
ARTIGOS curtos
short PAPERS

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 89
Sociedade
SociedadededeEngenharia
EngenhariadedeAudio
Audio
Artigo de Congresso
Convention Artigo
Apresentado no 12o Congresso de Engenharia de Audio
a
Apresentado no 10a Convention
1808 Convenc
a 10 de ao Nacional
Maio da AES
de 2006, Sao Brasil
Paulo, SP
13 a 15 de Maio de 2014, Sao Paulo, SP
EsteEste artigo
artigo foi reproduzido
foi reproduzido dofinal
do original original
entregueentregue pelo
pelo autor, semautor,
edicoes,sem edicoes,
correcoes correcoes efeitas
ou consideracoes consideracoes
pelo comite feitas pelo com
tecnico
tecnico. A AESdeste evento.
Brasil Outros artigos
nao se responsabiliza pelopodem serOutros
conteudo. adquiridos atraves
artigos podem ser da Audioatraves
adquiridos Engineering
da AudioSociety,
Engineering60 East 42nd Stre
New York, Newnd York 10165-2520, USA; www.aes.org. Informacoes sobre a secao Brasileira podem ser obtidas
Society, 60 East 42 Street, New York, New York 10165-2520, USA, www.aes.org. Informacoes sobre a secao Brasileira
www.aesbrasil.org.
podem Todos os direitos
ser obtidas em www.aesbrasil.org. Todos ossao reservados.
direitos Nao Nao
sao reservados. e permitida
e permitidaaa reproducao
reproducao total
total ou parcial
ou parcial deste deste artigo s
autorizacao
artigo expressa
sem autorizacao expressadadaAES
AES Brasil.
Brasil.

Ttulonodo
Determinacao da diferenca limiarArtigo
do observavel:
comparacao dos resultados de ensaios subjetivos
com fala em
Autor usica
1, Autor 2, Autor 3
Aliacao
Priscila da Silva Wunderlich,1 Jessica J. Lins de Souza,1
1
Bernardo H. Pereira Murta,
CodigoStephan Paul1 eEstado,
Postal, Cidade, Eric Brand
Pasao
1

1
Universidade Federal de Santa Maria, Curso de Engenharia
endereco@eletr^ Acustica, DECC
onico
Santa Maria, Rio Grande do Sul, 97105900, Brasil

RESUMO priscila.wunder@eac.ufsm.br, jessica.lins@eac.ufsm.br, bernardo.murta@eac.ufsm.br,


stephan.paul@eac.ufsm.br,
Um resumo, com aproximadamente de 60 a eric.brandao@eac.ufsm.br
80 palavras, devera apresentar o conteudo deste artigo. U
resumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um
sumo, com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um resum
RESUMO
com aproximadamente de 60 a 80 palavras, devera apresentar o conteudo deste artigo. Um resumo, co
Resultados confiaveis no
aproximadamente deprocesso
60 a 80de auralizacao
palavras, sao garantidos
devera apresentaruma o vez que umdeste
conteudo erro deartigo.
posicionamento
do receptor ou da fonte nao provoque diferencas audveis. Para quantificar a diferenca no limiar do
observavel (DLO) em termos de erro de posicionamento do receptor, realizou-se dois ensaios subjetivos
utilizando, respectivamente, um sinal musical e um de fala. Os sinais foram convoludos com respostas
1. ITEM dito, e em fonte Times Roman, tamanho 9 e just
impulsivas de diferentes posicoes de fonte-receptor simuladas em um ambiente de dimensoes reduzidas.
AsEste
DLOs determinadas nos
AT ensaios,
cado (como este).
de referencia, sao todas maiores que 3 cm e a
template, em L EX deve aser
partir da posicaocom
compatvel
diferenca
qualquer calculada
PC ouentre a DLO doOensaio
Macintosh. comdeste
objetivo musicatem-
e do ensaio
1.1. com fala, foi sempre
Sub-Item 1 menor que 1
, menor
cmplate que a propria
e sugerir DLO obtida
um formato nospara
padrao ensaios.
apresentacao Subitens usam letras maiusculas e minusculas, com
de trabalhos tecnicos e cientcos. Para isto, basta acima. A fonte e Helvetica, tamanho 8, est
salvar este template com outro nome, e como arquivo negrito, alinhamento a esquerda, como no item pr
0 INTRODUC AO postas impulsivas da posicao correspondente. A qua-
*.tex, e ir digitando o novo texto sobre este. lidade e a fidedignidade
cipal. da auralizacao depende, en-
A tecnica de auralizacao permite que uma fonte so-
Ostorne-se
artigos submetidos a Convencao da AES tre outros fatores, da precisao do posicionamento en-
nora audvel em um determinado ambiente sem nao sao
tre fonte e receptor
2. CONTE na medicao
UDOou simulacao da res-
querevisados pelo corpo
ele necessariamente editor,
exista e poderao
de fato. Qualquerser publicados
fonte
posta impulsiva,
Para garantir que oso artigos
a qual caracteriza comportamento
da Convencao da A
sonora
em pode
suas ser auralizada,
formas desde que
originais, comosejamsubmetidos.
obtidas as Para
acustico do ambiente. A fim de investigar a influencia
respostas impulsivas (RIs) do local em que se
isto, as versoes nais devem ser enviadas em arquivos deseja sejam consistentes com os objetivos da AES Bra
de erros no posicionamento do receptor nos resulta-
reproduz-las. Estmulos auralizados
PDF (*.pdf) ou em postscript (*.ps), segundo em uma deter- as instrucoes abaixo devem ser consideradas pe
doseste
de auralizacao, foi preparado um ensaio subje-
minada posicao
formato. de receptor podem ser obtidos atraves autores. da diferenca no limiar do ob-
tivo para a determinacao
da convolucao de uma gravacao anecoica com as res-
Itens principais (veja acima) sao em letras O conteudo tecnico deve ser preciso e coeren
maiusculas, fonte Helvetica, tamanho 8, estilo Citacao a trabalhos anteriores e/ou de terceiros d
negrito, alinhado a esquerda. O texto, propriamente vem ter seus respectivos creditos.
12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 90
WUNDERLICH ET AL. DIFERENCA NO LIMIAR DO OBSERVAVEL: FALA/MUSICA

servavel (DLO) de sinais nao-estacionarios, utilizando


o princpio de comparacao pareada. Determinar a DLO
significa determinar a menor alteracao na magnitude
de uma caracterstica do estmulo sonoro que causa
uma modificacao na sensacao auditiva correspondente.
Neste trabalho, a DLO foi quantificada em termos do
deslocamento do receptor a partir de uma posicao de
referencia dentro do ambiente, assim, pode-se encon-
trar a mnima distancia em que o receptor precisa ser
Figura 1: Possibilidades de respostas dos jurados.
deslocado para que uma diferenca audvel entre os sons
seja perceptvel para o ouvinte.
Optou-se por realizar duas vezes o ensaio prepa-
rado, com dois estmulos diferentes: o primeiro utili- masculina, ambos com energia limitada entre 50 Hz e
zando um trecho de uma musica popular e o segundo 16 kHz e duracao de 12 segundos.
uma poesia declamada (fala). Os sinais foram aurali- Os sinais foram convoludos com 61 respostas im-
zados, considerando como ambiente uma estrutura ex- pulsivas simuladas (com condicao de contorno de pa-
perimental em forma de clausura de tamanho reduzido redes rgidas), coletadas em posicoes determinadas a
chamado de Caixa de Auralizacao (CAixa), cujas di- partir de ligeiras variacoes da posicao do receptor nas
mensoes sao 800 499, 5 299, 5 mm3 , representando direcoes x, y e z em relacao a uma posicao de referencia
um comodo ou sala. O ambiente de dimensoes redu- no centro da CAixa. Em cada direcao a partir da re-
zidas possibilita a simulacao ou medicao das funcoes ferencia, o receptor foi deslocado com incrementos de
de transferencia entre fonte e receptor com variacoes 1 cm e com deslocamento maximo de 10 cm no sen-
regulares e pequenas nas posicoes de fonte e receptor, tido positivo e 10 cm no sentido negativo, como mos-
operacao que seria impossvel de ser realizada experi- tra a Figura 2 para as direcoes x e y. Assim, do total
mentalmente com a devida exatidao em ambientes nor- de 61 RIs, 20 foram coletadas em cada direcao (x, y
mais [1]. e z) e uma no centro do ambiente (referencia). Cada
A CAixa teve seu projeto desenvolvido no ITA posicao em que uma RI foi obtida, corresponde a uma
(Institute of Technical Acoustics, RWTH Aachen Uni- convolucao diferente realizada e a um sinal a ser com-
versity, Alemanha) e a partir de entao foi desenvol- parado no ensaio subjetivo. A mesma configuracao das
vida por diversas instituicoes de pesquisa [2]. En- 61 RIs foi utilizada tanto na convolucao dos sinais do
saios semelhantes tambem foram realizados por uma ensaio com musica quanto na do ensaio com fala. A
das instituicoes envolvidas no projeto, utilizando si- fonte sonora, omnidirecional, foi mantida fixa no canto
nais estacionarios auralizados em diferentes posicoes superior direito, a uma distancia de 5 cm das paredes.
da CAixa [3].
Na primeira secao deste trabalho, descreve-se a es-
trutura e a realizacao do ensaio subjetivo. Nas secoes
seguintes, os resultados do ensaio com sinal de musica
e de fala sao apresentados, comparados e discutidos.

1 REALIZAC AO DO ENSAIO
Por meio de uma interface grafica implementada no
software MATLAB [4], sinais previamente escolhi-
dos foram apresentados em pares aos participantes, os
quais deveriam responder se os sinais de cada par eram
iguais ou diferentes entre si. As possibilidades de res-
postas dos participantes (jurados) podem ser visualiza- Figura 2: Pontos de coleta das respostas impulsivas na
das na Figura 1. Neste ensaio, deseja-se obter o numero CAixa.
de respostas em que o jurado identifica como diferente
os sons que realmente sao diferentes. O julgamento A obtencao das RIs, as convolucoes e outras
coube inteiramente aos participantes, sem influencia ou operacoes foram realizadas com o software MATLAB
interferencia do pesquisador. Participaram como jura- utilizando o ITA-Toolbox, um software de codigo
dos nos ensaios um grupo de pessoas com idade vari- aberto, desenvolvido pelo proprio ITA, para fins de
ando de 18 a 56 anos. medicoes e tarefas comuns de pos processamento de da-
dos no campo de acustica [5].
1.1 Sinais utilizados Os sinais foram reproduzidos por fones de ouvido
Como sinal de entrada, em um dos ensaios foi utili- tipo circum-auricular, da marca Sennheiser, modelo
zado um trecho de uma musica popular instrumental e HT0017 HD640 e por uma placa de som Realtek. O
no outro uma poesia em portugues, declamada por voz sinal foi apresentado de forma diotica aos jurados.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 91
WUNDERLICH ET AL. DIFERENCA NO LIMIAR DO OBSERVAVEL: FALA/MUSICA

1.2 Estrutura do ensaio: baterias vio padrao amostral da porcentagem das respostas em
A fim de facilitar a execucao e a avaliacao dos pa- que os participantes afirmaram que os sons de fato dife-
res de sons, o ensaio foi estruturado em 3 baterias, uma rentes eram diferentes, o qual foi utilizado para calcular
para cada direcao de deslocamento: x, y e z, conforme o numero mnimo de participantes por bateria em cada
a Figura 3. Cada bateria continha os sinais obtidos ensaio, que foi determinado em 22 participantes. Em
tanto no sentido de deslocamento positivo quanto no ambos ensaios, o numero mnimo de participantes foi
sentido de deslocamento negativo da dimensao. Os 20 ultrapassado, contando com 30 pessoas por bateria no
sinais, referentes a cada posicao, foram apresentados ensaio com sinal musical e 25 pessoas no ensaio com
em ordem aleatoria em par com o sinal da posicao de sinal de fala.
referencia. Alem disso, foram acrescentados tres pares Embora todos os sons referentes a posicoes distintas
compostos por sinais identicos para verificar a confia- na CAixa sejam de fato diferentes entre si, as respos-
bilidade das respostas dos participantes, totalizando 23 tas dos participantes para a comparacao destes sinais
pares a serem avaliados por bateria. Apos ouvir cada nao possuem um certo ou errado, pois queremos justa-
par o jurado deveria responder a pergunta: os sinais mente avaliar qual e a distancia mnima da posicao de
sao iguais ou diferentes?. referencia em que os sons diferentes passam a ser de
fato identificados como diferentes auditivamente, e esta
e uma avaliacao e individual e subjetiva. Contudo, tres
pares identicos foram utilizados no ensaio para eliminar
participantes desatentos ou incoerentes em seus julga-
mentos, estes, sendo sons iguais possuem uma resposta
certa e o participante deveria ser capaz de indentificar
este fato. Como criterio de selecao, foi estabelecido que
Figura 3: Estrutrura do ensaio subjetivo. caso um jurado julgasse 2 ou 3 pares identicos como
sendo diferentes (erro tipo II), todas as suas respostas
1.3 Interface grafica seriam desconsideradas.
Sinais nao-estacionarios como musica e fala, em ge-
ral, variam bastante no tempo e sao sinais mais difceis 2 RESULTADOS
de serem comparados em ensaios subjetivos. Isto se da
devido ao risco do participante se equivocar em seu jul-
2.1 Diferenca no limiar do observavel por
gamento por avaliar trechos diferentes do sinal apresen- dimensao
tado. Para resolver este problema, foi desenvolvida uma Optou-se por se classificar a diferenca no limiar do
interface grafica para reproduzir os sinais a serem ava- observavel em dois grupos: receptores se aproximando
liados de forma recursiva, possibilitando, dessa forma, da fonte e receptores se afastando da fonte, a partir da
que o participante avalie o mesmo trecho dos dois sinais posicao de referencia. Em um primeiro momento estes
a ele apresentados. dois grupos foram tratados separadamente conforme a
Na interface, as instrucoes para o ensaio sao autoex- direcao de deslocamento do receptor, como mostra a
plicativas, como mostrado na Figura 4. O participante Tabela 1. A partir das respostas dos participantes nas
era livre para ouvir e alternar entre os sons de cada par baterias, para cada posicao em que o receptor foi des-
quantas vezes julgasse necessario para fazer a escolha locado foi calculada a porcentagem do numero de ve-
da opcao sons sao iguais ou sons sao diferentes. zes em que os participantes responderam que os sons
diferentes eram diferentes. Com estas porcentagens e
possvel tracar a curva psicometrica por interpolacao
dos pontos. A DLO em cada curva foi determinada na
distancia entre a posicao de referencia e a posicao do re-
ceptor em que 75% dos participantes responderam que
os sons diferentes eram diferentes.

Tabela 1: DLO por dimensao [cm].


dimensao aproximando receptor afastando receptor
musica fala musica fala
x 3, 900 3, 550 3, 643 3, 440
y 3, 450 3, 438 3, 350 3, 792
z 3, 625 4, 292 3, 542 4, 920
Figura 4: Interface do participante.
As maiores DLOs foram obtidas nos ensaios com
1.4 Criterio de qualificacao do sujeito fala e na direcao z, que e a menor dimensao da CAixa.
Atraves de um ensaio piloto previamente realizado Assim sendo, as posicoes de receptor analisadas esta-
com uma amostra de 6 participantes, obteve-se o des- vam localizados mais proximas a parede do ambiente.

12o CONGRESSO / 18aDE


12 CONGRESSO CONVENC AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AOAES
PAULO,
BRASIL 13 A PAULO,
SO 15 DE13MAIO DEMAIO
A 15 DE 2014DE 2014 92
WUNDERLICH ET AL. DIFERENCA NO LIMIAR DO OBSERVAVEL: FALA/MUSICA

Aproximando o receptor da fonte, a maior DLO ob-


tida foi de 4, 292 cm e a maior DLO afastando o recep-
tor foi de 4, 920 cm, ambas na dimensao z.

2.2 Ensaios validos


As respostas dos participantes foram qualifica-
das pelo criterio descrito na secao 1.4, resultando no
numero de ensaios validos, por direcao, apresentado na
Tabela 2.

Tabela 2: Ensaios validos por dimensao.


Figura 5: Curva psicometrica obtida aproximando o
n ensaios validos x y z total
receptor da fonte. Curva tracejada: musica; curva
Musica 26 30 29 85
Fala 23 24 23 70
contnua: fala. O marcador + indica a DLO de cada
curva.
O tempo de execucao de cada bateria durante o en-
saio com musica foi de aproximadamente 9 minutos;
no ensaio com fala, reduziu-se este tempo para aproxi-
madamente 5 minutos, este fato sera melhor discutido
posteriormente.

2.3 Impressoes do ensaio


Ao final do ensaio, os participantes foram questio-
nados quanto as impressoes que tiveram acerca do en-
saio. O ensaio foi considerado simples de realizar e
entender e em alguns casos a diferenca entre os sons
foi relatada como muito evidente, outrora bastante su- Figura 6: Curva psicometrica obtida afastando o recep-
til. As principais diferencas relatadas nas palavras dos tor da fonte. Curva tracejada: musica; curva contnua:
participantes foram, no caso da fala: graves/agudos, fala. O marcador + indica a DLO de cada curva.
reverberacao, sons metalicos, distorcao. No caso da
musica, as principais diferencas relatadas foram: com- Tabela 3: Comparacao das DLOs de musica e fala.
ponentes tonais, distancia e reverberacao. DLO musica DLO fala DLOmusica, fala
aproximando 3, 546 cm 3, 875 cm 0, 329 cm
2.4 Comparacao entre os ensaios receptor da
fonte
Em uma segunda analise, a partir dos resultados dos
afastando 3, 464 cm 3, 950 cm 0, 486 cm
dois grupos, citados na secao 2.1, duas DLOs globais receptor da
foram determinadas para cada ensaio, uma no sentido fonte
de aproximacao do receptor da fonte e uma no sentido
de afastamento, conforme a Tabela 3. A curva psi-
cometrica global foi determinada a partir do calculo da 2.5 Analise estatstica
porcentagem do numero de vezes em que os participan- Para analisar as respostas dos jurados utilizou-se um
tes responderam que os sons diferentes eram diferen- teste t de Student, com nvel de significancia de 5%:
tes, para cada posicao, porem agora considerando to-
Hipotese nula H0 : Sons sao diferentes
das as direcoes juntas. Na DLO global no sentido de
aproximacao do receptor foram combinadas as respos- Hipotese alternativa H1 : Sons sao iguais
tas no sentido positivo de x e y com a do sentido nega-
Os resultados do teste estatstico do ensaio com sinal
tivo de z, pois a fonte sonora encontrava-se na posicao
de musica e do ensaio com sinal de fala sao apresenta-
z conforme a Figura 5. A DLO global no sentido de
dos nas Tabelas 4 e 5, respectivamente. O erro tipo I
afastamento do receptor foram combinadas as respostas
() significa rejeitar a hipotese nula quando ela e ver-
no sentido negativo de x e y com a do sentido positivo
dadeira e o erro tipo II () significa aceitar a hipotese
de z, conforme a Figura 6.
nula quando ela e falsa.
A comparacao da diferenca entre as DLOs do en- O erro apresentado na Tabela 6 foi calculado pela
saio com musica e do ensaio com fala e feita na Tabela equacao 1: s
3 , sendo que a diferenca entre as DLOs dos ensaios, e0 = (t, ) (1)
tanto aproximando quanto afastando o receptor da fonte n
foi menor que 1 cm. A maior DLO global foi obtida no onde, t e o valor encontrado na tabela de Student,
ensaio com fala: 3, 875 cm (aproximando) e 3, 950 cm e o grau de liberdade, e o nvel de significancia, n e o
(afastando). numero de amostras e s e o desvio padrao amostral.

12o CONGRESSO / 18aDECONVENC


12 CONGRESSO AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AO PAULO,
AES BRASIL 13
SOAPAULO,
15 DE13MAIO DE
A 15 DE 2014
MAIO DE 2014 93
WUNDERLICH ET AL. DIFERENCA NO LIMIAR DO OBSERVAVEL: FALA/MUSICA

sinal de musica. Possivelmente isto se deve ao fato de


Tabela 4: Teste t de Student: ensaio com sinal de
o sinal musical possuir um numero maior de elementos
musica.
Decisao de variacao, exigindo atencao nos diversos instrumen-
Realidade Aceitar H0 Rejeitar H0 tos executados simultaneamente, aumentando assim o
H0 e verdadeira Decisao correta Erro tipo I () tempo de decisao.
aproximando receptor 76, 5 % 23, 5 % Os limiares diferenciais determinados nos ensaios,
H0 e verdadeira Decisao correta Erro tipo I () a partir da posicao de referencia, sao todos maiores que
afastando receptor 76, 7 % 23, 3 % 3 cm, isto e, o receptor precisa ser deslocado mais de
H0 e falsa Erro tipo II () Decisao correta 3 cm para que uma diferenca na auralizacao seja per-
12, 5 % 87, 5 % cebida em qualquer dimensao analisada. Alem disso, a
diferenca calculada entre a diferenca no limiar do ob-
servavel do ensaio com musica e do ensaio com fala,
Tabela 5: Teste t de Student: ensaio com sinal de fala.
Decisao
tanto aproximando como afastando o receptor da fonte,
Realidade Aceitar H0 Rejeitar H0 foi menor que 1 cm. Assim, pode-se considerar os re-
H0 e verdadeira Decisao correta Erro tipo I () sultados da diferenca entre as DLOs pouco significa-
aproximando receptor 74, 27 % 25, 73 % tivos audivelmente, pois esta diferenca e menor que o
H0 e verdadeira Decisao correta Erro tipo I () proprio limiar diferencial obtido nos ensaios.
afastando receptor 75, 07 % 24, 93 % Para ampliar as averiguacoes deste artigo, em tra-
H0 e falsa Erro tipo II () Decisao correta balhos futuros, os resultados aqui apresentados serao
12, 89 % 87, 11 % comparados com os resultados de um novo ensaio a ser
aplicado utilizando, desta vez, rudo branco. Ainda,
pretende-se expandir os conhecimentos obtidos, utili-
Tabela 6: Erro calculado para a DLO. zando RIs reais para investigar a DLO em funcoes res-
musica fala
posta em frequencia de uma sala de dimensoes reais,
aproximando 0.071 cm 0.0694 cm
receptor da
proporcional ao tamanho da CAixa, reportando os re-
fonte sultados em um outro artigo.
afastando 0.065 cm 0.0714 cm
receptor da REFER ENCIAS BIBLIOGR AFICAS
fonte [1] Jessica J. L. Souza, Bernardo H. P. Murta, Stephan
Paul, and Eric Brandao, Caracterizacao experi-
mental e numerica de modelo de transmissao vi-
Assim, temos que para a fonte auralizada com sinal broacustica, 11 Congresso AES Brasil, 2013.
de fala:
[2] William D. Fonseca, Bruno S. Masiero, Sylvio R.
75% da populacao notara diferenca entre os Bistafa, Pascal Dietrich, Giuliano S. Quiqueto,
estmulos quando o deslocamento for de 3, 875 Luiz F. O. Chamon, Michael Vorlander, and Sa-
0, 0694 cm, no sentido de aproximacao do recep- mir N. Y. Gerges, Medicao de uma plata-
tor da fonte. forma acustica conceitual desenvolvida por diferen-
tes instituicoes de pesquisa, XXIII Encontro da
75% da populacao notara diferenca entre os
Sociedade Brasileira de Acustica, 2010.
estmulos quando o deslocamento for de 3, 950
0, 0714 cm, no sentido de afastamento do receptor [3] Bruno Masiero, Raquel Bitencourt, Pascal Dietrich,
da fonte. Luiz Chamon, Michael Vorlander, and Sylvio Bis-
tafa, Limiar diferencial de percepcao: um estudo
Para a fonte auralizada com sinal de musica:
sobre respostas impulsivas com deslocamento do
75% da populacao notara diferenca entre os receptor., XXIV Encontro da Sociedade Brasileira
estmulos quando o deslocamento for de 3, 546 de Acustica, 2012.
0, 071 cm, no sentido de aproximacao do receptor [4] Bernardo H. P. Murta, Jessica J. L. Souza,
da fonte. and Stephan Paul, Interface para ensaios
75% da populacao notara diferenca entre os com comparacao pareada para determinacao da
estmulos quando o deslocamento for de 3, 464 diferenca no limiar do observavel de sinais nao-
0, 065 cm, no sentido de afastamento do receptor estacionarios, 11 Congresso AES Brasil, pp. 80
da fonte. 84, 2013.
[5] Pascal Dietrich, Martin Guski, Martin Pollow, Mar-
3 CONCLUS OES kus Muller-Trapet, Bruno Masiero, Roman Schar-
No ensaio com sinal de fala, os jurados manifesta- rer, and Michael Vorlander, Ita-toolbox - an open
ram maior agilidade em identificar a diferenca ou igual- source matlab toolbox for acousticians, Fortsch-
dade entre os sons apresentados do que no ensaio com ritte der Akustik, 2012.
12o CONGRESSO / 18aDECONVENC
12 CONGRESSO AO
ENGENHARIA DENACIONAL DA AES BRASIL,
UDIO | 18 CONVENO NACIONALSDA
AO PAULO,
AES BRASIL 13 APAULO,
SO 15 DE13MAIO DE
A 15 DE 2014
MAIO DE 2014 94
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 12o Congresso de Engenharia de udio
18a Conveno Nacional da AES Brasil
13 a 15 de Maio de 2014, So Paulo, SP

Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.

_________________________________
Aquisio e tratamento de dados 3D para modelao
acstica de salas
Jorge Pereira1, Nuno Silva2, Paulo Dias1,2, Guilherme Campos1,2, Jos Vieira1,2
1 DETI Departamento de Eletrnica, Telecomunicaes e Informtica
2 IEETA Instituto de Engenharia Eletrnica e Telemtica de Aveiro

Universidade de Aveiro, Aveiro, Portugal


jmap@ua.pt, nunomiguel06@gmail.com, {paulo.dias, guilherme.campos, jnvieira}@ua.pt

RESUMO
Este artigo descreve ferramentas de apoio modelao acstica de ambientes 3D, tendo em vista aplicaes
de auralizao em ambientes de Realidade Virtual. Atravs de um sensor Microsoft Kinect para recolha de dados
e da aplicao Kinect Fusion para processamento realizada a aquisio da geometria tridimensional de
ambientes reais. A informao processada para servir dois tipos de tcnicas de modelao: geomtrica e fsica.
A primeira baseia-se em malhas poligonais representando as superfcies delimitadoras. Para a segunda, so
construdas grelhas tridimensionais de pontos cobrindo todo o volume de propagao sonora. Em ambos os
casos, cada elemento (polgono ou ponto) configurado em funo das propriedades acsticas correspondentes.
A construo da cauda de reverberao no modelo de auralizao beneficia de uma estimativa do tempo de
reverberao calculada pela frmula de Millington-Sette com os parmetros reais da sala (volume, absoro das
superfcies). Com base nestas ferramentas, foi desenvolvido um modelo acstico de uma sala real. Esse modelo
foi testado recorrendo a software de auralizao previamente desenvolvido.

computacional. A segunda, ao procurar solues


0 INTRODUO
numricas da equao de onda, que tm
Os sistemas de realidade virtual tm vindo a automaticamente em conta no s a
ganhar importncia nas mais diversas reas reflexo/absoro, mas todos os fenmenos de
(entretenimento, aviao, educao, etc). Para propagao ondulatria (nomeadamente difrao),
integrar a vertente sonora (auralizao), impe-se tende a sacrificar a eficincia computacional para
modelar o comportamento acstico dos ambientes. favorecer o rigor.
O grande desafio em modelao acstica de Seja qual for o mtodo escolhido (modelao fsica
salas conciliar os requisitos de eficincia ou geomtrica) certo que a simulao acstica de
computacional e rigor de simulao. Existem um ambiente exige informao que descreva a
essencialmente duas categorias: modelao geometria desse ambiente e as propriedades acsticas
geomtrica e modelao fsica. Pode dizer-se que a das superfcies que o delimitam. O objetivo deste
primeira, centrada no fenmeno de reflexo/absoro trabalho ento desenvolver ferramentas de
das ondas sonoras nas superfcies que delimitam a modelao 3D eficientes que permitam o
sala, favorece o requisito de eficincia levantamento da geometria de espaos reais e

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 95
PEREIRA ET AL. DADOS 3D PARA MODELAO
ACSTICA

subsequente processamento dessa informao para modificaes; no caso, empregou-se a frmula de


configurar ferramentas de auralizao. Milligton-Sette [3].
O diagrama da Figura 1 apresenta os vrios blocos
1 AQUISIO DE DADOS 3D
de processamento necessrios. O modelo geomtrico
visado aqui baseia-se no mtodo das imagens A aquisio da nuvem de pontos do ambiente a
virtuais; a espacializao 3D conseguida modelar feita com recurso a um sensor Microsoft
combinando-o com filtros HRTF (head-related Kinect e aplicao Kinect Fusion [4]. Dado que a
transfer function) [1]. Quanto ao modelo fsico, trata- Kinect Fusion limita a aquisio de nuvens de pontos
se de uma malha de guias de onda digitais (DWM a um cubo com 3 metros de aresta, em salas de
digital waveguide mesh), que discretiza a soluo da interesse prtico so normalmente necessrias vrias
equao de onda em 3D [2]. aquisies. Com o auxlio da aplicao MeshLab [5],
utilizado o algoritmo Iterative Closest Point (ICP)
Auralizao Valor RT60 para efetuar o alinhamento das nuvens de pontos
individuais num registo nico.

Modelo 2 MODELO GEOMTRICO


Modelo Fsico
Geomtrico 2.1 Gerao da malha poligonal
Para gerar a malha poligonal que constitui a
Malha Material Material Grelha de fronteira da sala a partir da nuvem de pontos assim
poligonal associado a associado aos ns 3D obtida, usou-se o algoritmo de reconstruo de
Poisson [6], disponvel no MeshLab. Resulta uma
simplificada cada polgono ns fronteira malha triangular completamente fechada, que pode
Frequncia ser simplificada por decimao.
Coeficientes Malha Para efeitos de teste, foi modelada uma pequena
acsticos dos Poligonal sala de reunies no instituto IEETA. A Figura 2
mostra a nuvem de pontos completa, aps registo de
materiais
vrias aquisies parciais, e a correspondente malha
Nuvem de poligonal obtida por reconstruo de Poisson,
pontos formada por 15786 tringulos.
Figura 1 Modelao acstica e auralizao a partir de
dados 3D do ambiente.

Ambos os modelos partem de uma nuvem de


pontos representativa do ambiente real.
Para a modelao geomtrica, gerada uma
malha poligonal fechada representando as superfcies
delimitadoras do ambiente. necessrio associar um
coeficiente de reflexo acstica a cada polgono
dessa malha; isso feito especificando o material
constituinte, o que permite extrair essa informao de
uma base de dados de propriedades acsticas. Como
evidencia o diagrama, a malha poligonal pode ser
simplificada no sentido de reduzir o custo
computacional do algoritmo, pois este
exponencialmente proporcional ao nmero de
polgonos da malha.
Os modelos DWM baseiam-se na construo de
uma malha regular de ns abrangendo todo o volume
de propagao. Cada n da malha configurado em
funo da sua posio no domnio (n-ar ou n-
fronteira) e, no caso dos ns-fronteira, em funo do
material e das respetivas propriedades aplica-se
aqui igualmente a j referida base de dados de
materiais.
Conjugando as informaes proporcionadas
pelos dois modelos, fcil calcular a absoro total
das superfcies e o volume total da sala, o que
permite estimar o tempo de reverberao (RT60) de
acordo com a frmula de Sabine ou suas Figura 2 - Nuvem de pontos de uma sala (acima) e
correspondente reconstruo de Poisson (abaixo).

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 96

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


PEREIRA ET AL. DADOS 3D PARA MODELAO
ACSTICA

Com o objetivo de simplificar o modelo, aplicou- na Figura 5. Como facilmente se depreende, sujeito
se decimao malha anterior. No sentido de evitar a erros, pois podem resultar polgonos sem material
uma simplificao excessiva, que acarretasse perda associado (como se observa na figura, sobretudo na
de caractersticas geomtricas importantes da sala, fronteira entre regies de material diferente). Por
foi estabelecido neste processo, de modo emprico, o isso, til para acelerar a configurao mas no
limite inferior de 150 polgonos. O resultado dispensa uma etapa de ajuste manual.
apresentado na Figura 3.

Figura 5 - Processo de seleco de materiais recorrendo


textura.
Figura 3 - Malha de 150 polgonos obtida por decimao.
3 MODELO FSICO
2.2 Configurao da malha poligonal Considerou-se um modelo DWM com topologia
Foi desenvolvida, usando a biblioteca grfica VTK retangular. Para gerar a malha 3D pretendida,
[6], uma ferramenta para associar a cada polgono do procedeu-se a voxelizao [7] no interior da
modelo as caractersticas acsticas (no caso, superfcie poligonal obtida para o modelo
coeficientes de absoro por banda de oitava) do geomtrico. Este processo particiona a sala em
respetivo material. possvel faz-lo de forma unidades elementares de volume (voxis) de forma
expedita selecionando conjuntos de polgonos; a cbica. O centro de cada voxel corresponde a um n
Figura 4 ilustra o processo: o utilizador configura da malha. O espaamento entre ns (aresta do voxel,
uma determinada rea (neste caso o cho da sala) d) depende da velocidade de propagao do som, c, e
selecionando sucessivas sub-reas retangulares e da frequncia de amostragem udio utilizada, fa, de
escolhendo o material apropriado (no caso, madeira) acordo com a equao seguinte:
para todos os polgonos no seu interior.
(1)

Para identificao dos ns-fronteira e associao


ao respetivo material, utilizado um algoritmo de
enchimento do tipo flood-fill 3D a partir de um n-
semente garantidamente inativo. Esclarea-se que
so considerados inativos (e ignorados na
Figura 4 - Seleco e configurao de uma regio do modelao) os ns exteriores superfcie poligonal
modelo. cujo voxel no intersecta nenhum polgono dessa
2.3 Configurao com base em textura superfcie. Para cada n inativo sob anlise, o
Explorou-se a possibilidade de utilizar a textura algoritmo avalia os seus vizinhos. A anlise
da cena (capturada pela cmara RGB da Kinect) para replicada recursivamente em todos os que sejam
auxiliar a segmentao automtica da malha em igualmente inativos. Caso contrrio, os ns so
funo dos materiais constituintes. Uma vez que a identificados como ns-fronteira e automaticamente
aplicao Kinect Fusion no permite (at data deste associados ao material do polgono mais prximo.
trabalho) incorporar a informao de textura ao Terminado este processo recursivo, os ns sobrantes
registar as vrias nuvens de pontos adquiridas, foram correspondero a ns interiores, sendo por isso
testadas nuvens de pontos individuais com textura identificados como ns de ar.
associada. Cada polgono da malha poligonal obtida Na figura 6 observa-se um corte do resultado da
por reconstruo de Poisson configurado com o voxelizao. A cinzento esto identificados os vxeis
valor de textura do ponto da nuvem mais prximo. exteriores (inactivos), a vermelho os vxeis fronteira,
Quando o utilizador atribui um material a um que intersectam a malha poligonal que delimita a sala
polgono, inicia-se, a partir desse, um processo de (linha preta), e a branco os vxeis interiores (volume
comparao de textura entre polgonos vizinhos; a de propagao do som).
atribuio de material expande-se automaticamente
enquanto a diferena entre valores RGB for inferior a
um determinado limiar. Este processo est ilustrado

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 97

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


PEREIRA ET AL. DADOS 3D PARA MODELAO
ACSTICA

Tabela 1 Parmetros e resultados de clculo de RT60.


Frequncia de amostragem 44100 Hz
N vxeis interiores 422974
Volume de um voxel 0.000154 m3
Volume total da sala 80.762 m3
rea em madeira 28.253 m2
rea em placa de gesso 94.939 m2

Banda de frequncia RT60


125 Hz 0.35
250 Hz 0.98
500 Hz 1.66
Figura 6 - Vista 2D do resultado da voxelizao. 1000 Hz 2.19
2000 Hz 1.51
A Figura 7 ilustra os resultados obtidos na sala 4000 Hz 1.18
analisada. So apenas visveis os vxeis que
intersetam pelo menos um polgono da malha 5 TESTE DE AURALIZAO
poligonal fornecida.
Construiu-se um modelo geomtrico da mesma
sala com o auxlio da aplicao Kinect Fusion (sem
textura associada). Aplicaram-se texturas
manualmente para distinguir as vrias zonas da sala
(cho, parede, teto e grelha de ventilao) e poder
aplicar o mtodo de configurao descrito em 2.3.
Utilizou-se ento uma biblioteca de auralizao por
modelao geomtrica [1] para realizar um teste de
auralizao por auscultadores, com head-tracking
(deteo da orientao da cabea) em tempo real e
visualizao simultnea dos efeitos do deslocamento
Figura 7 - Resultado da voxelizao na sala de reunies virtual do utilizador no interior da sala, atravs de
usada para teste. Head Mounted Display (ver Figura 8).
4 TEMPO DE REVERBERAO
Quando se pretende auralizao em tempo real,
e mesmo que a opo seja por modelos geomtricos,
apenas a parte inicial da resposta impulsional da sala
pode ser obtida; modelar a reverberao tardia
incomportvel. A soluo normalmente adotada
completar a resposta com o auxlio de uma unidade
de reverberao artificial, admitindo que o campo
sonoro sabiniano. desejvel definir parmetros de
reverberao to realistas quanto possvel. Ora, as Figura 8 Teste de auralizao.
metodologias de aquisio e tratamento de dados 3D Uma demonstrao deste teste est disponvel em:
aqui descritas disponibilizam todos os dados http://sweet.ua.pt/paulo.dias/acousticave/Room%20d
necessrios para aplicar frmulas de clculo do emo.ogv
tempo de reverberao, RT60, o que permite ter em A Figura 9 mostra uma vista no modelo virtual
conta, de forma automtica, as reais caractersticas dessa demonstrao , onde a esfera azul representa a
acsticas da sala. O volume total, V (m3), pode ser localizao da fonte sonora.
obtido por soma de todos os vxeis correspondentes
a ns de ar. A parte da superfcie constituda por um
dado material i, Si (m2), ser a soma das reas de
todos os polgonos configurados com esse material.
Sendo ai(f) o respetivo coeficiente de absoro em
funo da frequncia, a frmula de Millington-Sette
:

(2)

O modelo da sala de teste foi configurado com


cho em madeira e restantes superfcies em placa de Figura 9 - Imagem do interior da sala virtualizada.
gesso. A Tabela 1 resume os resultados obtidos
considerando seis bandas de oitava.

12 CONGRESSO DE ENGENHARIA DE UDIO | 18 CONVENO NACIONAL DA AES BRASIL SO PAULO, 13 A 15 DE MAIO DE 2014 98

12 CONGRESSO / 18 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 13 A 15 DE MAIO DE 2014


PEREIRA ET AL. DADOS 3D PARA MODELAO
ACSTICA

6 CONCLUSES E TRABALHO FUTURO [4] Microsoft, Kinect Fusion, 2011, Disponvel em


http://msdn.microsoft.com/en-
Constata-se que possvel utilizar o sensor
us/library/dn188670.aspx Acesso em 13 de dez
Microsoft Kinect para gerar malhas poligonais
2013.
representativas da superfcie interior de uma sala
[5] P. Cignoni, M. Corsini, and G. Ranzuglia,
real. Foram criados mtodos para, a partir dessas
"MeshLab: An Open-Source 3D Mesh
representaes poligonais, configurar modelos
Processing System" ERCIM News, 2008
acsticos geomtricos ou fsicos para aplicaes de
[6] M. Kazhdan, M. Bolitho, and H. Hoppe,
auralizao. O processamento que conduz a esses
"Poisson surface reconstruction," presented at
modelos permite ainda obter automaticamente uma
the Proceedings of the fourth Eurographics
estimativa do tempo de reverberao (RT60), muito
symposium on Geometry processing, Cagliari,
til para controlar a gerao da cauda da resposta
Sardinia, Italy, 2006.
impulsional da sala.
[7] D. Haumont and N. Warzee, "Complete
Os mtodos utilizados para aquisio da
polygonal scene voxelization," ACM Journal of
geometria da sala podem ser melhorados,
Graphics Tools, vol. 7, pp. 2741, 2002.
nomeadamente no que toca configurao de
materiais com base em textura. Futuros avanos
devero, aps concluda a aquisio da textura
completa da sala, ter em considerao diferenas de
luminosidade entre nuvens de pontos registadas em
posies diferentes da sala. Outro aspeto passvel de
ser melhorado o processo de simplificao da
malha poligonal; dever ser estudada a possibilidade
de reduzir conjuntos contguos de polgonos
complanares (ou aproximadamente complanares,
dentro de tolerncias a estabelecer) a um s polgono,
pois isso oferece importantes vantagens
computacionais em modelao geomtrica.

7 AGRADECIMENTOS
Este trabalho foi apoiado pelo programa
COMPETE e pela Fundao para a Cincia e
Tecnologia, no mbito do projecto FCOMP-01-0124-
FEDER-022682 (FCT referncia PEst-
C/EEI/UI0127/2011 e Incentivo/EEI/UI0127/2013).
O software de auralizao usado na
demonstrao foi desenvolvido no mbito do projeto
PTDC/EEA-ELC/112137/2009 (AcousticAVE
Modelos de Aplicaes de Auralizao em
Ambientes de Realidade Virtual), financiado pela
FCT Fundao para a Cincia e Tecnologia.

REFERNCIAS BIBLIOGRFICAS
[1] A. Oliveira, G. Campos, P. Dias, D. Murphy, J.
Vieira, C. Mendona, J. Santos Real-
Time Dynamic Image-
Source Implementation for Auralisation. 16th
International Conference on Digital Audio
Effects (DAFx-13), Maynooth, Ireland,
September 2013.
[2] G. Campos, Th