Escolar Documentos
Profissional Documentos
Cultura Documentos
Elena Saggio
do Comit de Programa Tcnico: Regis Rossi Alves Faria (LSI-EPUSP) Simone Carvalho
Comit de Programa Tcnico: Anbal Ferreira (Univ. do Porto, Portugal) AES Board of Governors
Copyright 2006
Audio Engineering Society Brazil Section
Os artigos publicados nestes anais foram reproduzidos dos originais finais entregues pelos autores, sem edies,
correes ou consideraes feitas pelo comit tcnico. A AES Brasil no se responsabiliza pelo contedo.
Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA,
www.aes.org. Informaes sobre a seo Brasileira podem ser obtidas em www.aesbrasil.org.
Todos os direitos so reservados. No permitida a reproduo total ou parcial dos artigos sem autorizao expressa da AES Brasil.
Impresso no Brasil.
Printed in Brazil.
Sociedade de Engenharia de udio
AES Audio Engineering Society Brazil Section
Endereo de correspondncia: Rua Carlos Machado 164, sala 305
Plo Rio de Cine e Vdeo Barra da Tijuca
Rio de Janeiro, Brasil Cep. 22775-042
e-mail: aesbrasil@aes.org
www.aesbrasil.org
telefone: +55(21) 2421-0112
fax: +55(21)2421-0112
Administrao
Presidente/Chairman: Joel Brito
Vice-Presidente/Vice-Chairman: Franklin G. Leite
Secretrio/Secretary: Carlos Ronconi
Tesoureiro/Treasurer: Guilherme Figueira
Comio/Committemen: Luiz Wagner Biscainho
Luiz Campos Reis
Joo Amrico Bezerra
Jos Pereira Jr.
Homero Sette Silva
Revisores / Reviewers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
com grande prazer que escrevo esta introduo aos Anais do 4 Congresso
da AES Brasil. Este ano experimentamos um crescimento substancial no s em
quantidade mas tambm na infra-estrutura, divulgao e participao no Congresso.
Para isso contribuiu de forma excepcional o apoio da Sociedade Brasileira de
Computao que nos cedeu acesso ao sistema de submisses de artigos, facilitando
enormemente nosso trabalho.
O que eu posso escrever sobre esses Anais? Eles cobrem um amplo espectro
de reas extremamente especializadas. Seus autores so pesquisadores acadmicos,
fabricantes e profissionais do mais alto quilate. Os autores so nossos Bandeirantes
do Sculo 21. Assim como seus antecessores de sculos atrs, os trabalhos que
os autores nos trazem abrem novas trilhas que nos levam fontes de sabedoria e
conhecimento (o equivalente s minas de diamantes do passado).
Joel Brito
Presidente AES Brasil
Coordenador Geral da Conveno
Vinte artigos distribudos por 5 sesses foram publicados este ano, cobrindo
novidades e contribuies inditas principalmente nas reas de processamento de
udio, udio espacial, sonorizao, acstica ambiental e computao musical. Para
enriquecer ainda mais o evento, organizamos trs workshops especiais: um sobre
sade auditiva (audiologia e questes relacionadas preservao da audio), um
voltado para a prtica de medies acsticas, e um cobrindo o processo de implantao
do rdio e da TV digital no Brasil, contando com especialistas, pesquisadores,
representantes de agncias governamentais, associaes comerciais e convidados
internacionais.
It is with pleasure that I write this introduction to the Proceedings of the 4th
AES Brazil Conference. This year we experienced a substantial increase not only in
quantity but also in infrastructure, spreading and participation in the conference. The
institutional support from the Brazilian Computer Society contributed exceptionally to
this, making available the access to its paper submission system, greatly easing the
organization work.
The conference takes a special part in our meeting while representing the
fundamental key of the society, which of course aims to foster the study and development
of audio. It was thinking in how we could support these advances that we undertook
the effort to organize this conference three years ago.
The actual heroes of a conference are the technical program chairman and the
committee. They invite, beg, order, blackmail, charge favors, at last make everything
to get that authors present their works, this way making the whole a lot larger than the
sum of the parts. To these dedicated collaborators, my very sincere thanks.
What can I write about the proceedings? They cover a wide spectrum of
extreme specialized areas. Their authors are academic researchers, manufacturers
and professional of highest esteem. The authors are our pioneers of XXI century. As
well as their antecessors centuries ago, their works take us to new trails to the source
of knowledge and wisdom (equivalent to the diamond mines in the past).
The works go from theoretical to the applications already found in the market
(or nearly). They represent the state-of-the-art in their respective specializations.
I am sure that all the knowledge here shared will be of great utility to all and that next
year we will have yet more works to present. To the 2006 conferencees my votes that
they enjoy these days of intense synergy.
Joel Brito
AES Brazil President,
Convention General Coordinator
Welcome to the 4th AES Brazil Conference 2006 for three days of a rich and
diversified program over several novelties and forecoming advances in the audio
engineering and related disciplines. This years theme is the audio in the communication
era in line with the changes and challenges brought by the digitalization of our most
important communication media: the radio and the television.
Twenty papers distributed over 5 sessions were published this year, covering
novel contributions mainly in the areas of audio processing, spatial audio, sound
systems, environmental acoustics and computer music. To further enrich the event,
we organized three special workshops: one about auditory health (audiology and
issues related to auditory loss prevention), one turned to the practice of acoustic
measurements, and one addressing the process of implantation of digital radio and
TV in Brazil, counting with experts, researchers, representatives from government
agencies and commercial associations, and international guests.
Jointly with the AES Brazil National Convention, the conferencees will also
have access to an intense program of national and international lectures approaching
several topics in audio technologies and systems, as well as access to the exhibition,
demos and special activities all over the convention center.
Anbal Ferreira
Eduardo R. Miranda
Fbio Kon
Fernando Iazzetta
Fernando Pacheco
Francisco J. Fraga
Joo Antnio Zuffo
Joo Benedito dos Santos Junior
Jnatas Manzolli
Leandro F. Thomaz
Luiz Wagner Pereira Biscainho
Marcelo Gomes Queiroz
Marcelo Knrich Zuffo
Mrio Minami
Maurcio Loureiro
Miguel Arjona Ramirez
Monique Nicodem
Paulo Esquef
Pedro Donoso Garcia
Phillip Burt
Regis Rossi Alves Faria
Rubem Dutra R. Fagundes
Sergio Rodriguez Soria
Sidnei Noceti Filho
Sylvio R. Bistafa
Sesso 1
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira podem
ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste artigo
sem autorizao expressa da AES Brasil.
___________________________________
Anlise comparativa dos resultados dos parmetros objetivos de
avaliao da qualidade acstica de um auditrio multifuncional,
obtidos por meio de medies, simulaes, e clculos matemticos.
Lineu Passeri Jr. (i), Sandra R. Moscati (ii), Paulo Pinhal (iii), Helosa Helena Afonseca Silva (iv), e
Sylvio R. Bistafa (v)
Faculdade de Arquitetura e Urbanismo da USP, Departamento de Tecnologia da Arquitetura, Cidade
Universitria, 05424-970, So Paulo, SP.
(i) lineupasseri@uol.com.br
(ii) smoscati@uol.com.br
(iii) paulo@pinhalarquitetura.com.br
(iv) heloisahasarq@ig.com.br
(v) sbistafa@usp.br
RESUMO
Sero apresentados os resultados de medies de diversos parmetros objetivos de avaliao da qualidade acstica
de salas obtidos in-loco de um auditrio multifuncional na Grande So Paulo. Em seguida, sero apresentados os
resultados dos mesmos parmetros obtidos por intermdio de um programa de simulao acstica por traado de
raios. Por fim, os resultados do tempo de reverberao obtidos nos dois experimentos sero comparados com
aqueles que se obtm a partir da aplicao direta da frmula de Sabine. As semelhanas e as diferenas entre os
resultados dos mesmos parmetros, obtidos de maneiras diferentes, sero analisadas e discutidas. De posse desses
resultados, tambm sero analisadas algumas solues de projeto do ambiente.
Pode-se definir como qualidade sonora de uma sala o Tempo de Reverberao (RT60)
conjunto de atributos acsticos subjetivos que atendam s mais antigo e, ainda, o parmetro objetivo mais importante
expectativas acsticas dos ouvintes. Para cada finalidade de na avaliao acstica de uma sala. Pode ser definido como o
sala, h atributos acsticos subjetivos correspondentes que tempo necessrio para que o nvel de um som diminua de 60
devem ser atendidos. Em auditrios multifuncionais, espera- dB, a partir do instante de sua interrupo, num determinado
se que esses atributos sejam atendidos da forma mais ampla ambiente, expresso em segundos.
possvel, dentro das limitaes que salas desse tipo, via de
regra, impem. Early Decay Time (EDT10)
o tempo necessrio para que o som decaia de 10dB,
Diversos fatores influenciam o resultado daquilo que multiplicado por seis, cujo resultado extrapolado para uma
ouvimos no interior de uma sala. Controlar esses fatores , curva representando o seu decaimento de 60dB, expresso em
portanto, fundamental na determinao do resultado sonoro segundos.
que se espera em seu interior. DANTONIO et al [1]
descreve esses fatores como sendo: (i) as dimenses da sala, Initial Time Delay Gap (ITDG)
(ii) a geometria da sala, (iii) a localizao do ouvinte e sua Tambm chamado de Retardo Inicial, o tempo decorrido
habilidade de escuta, (iv) a localizao da(s) fonte(s) entre o som direto e a primeira reflexo num determinado
sonora(s), (v) os materiais de revestimento das superfcies ponto da sala. Este ndice tem sido correlacionado com a
internas da sala, e sua disposio no ambiente, (vi) e a impresso subjetiva de intimidade.
qualidade dos equipamentos de reproduo do som se
houverem. Definition (D50)
Ou Definio, baseia-se na caracterstica da audio
As caractersticas acsticas de uma determinada sala, tambm humana, na qual reflexes sonoras que cheguem ao ouvinte
referidas como atributos subjetivos de qualidade acstica e em at 50ms aps a chegada do som direto, so consideradas
musical foram descritas pela primeira vez por BERANEK benficas, melhorando sua audibilidade. Seu clculo feito a
[2] como sendo as seguintes: (i) presena, (ii) calor, (iii) partir da razo entre (1) a somatria das energias contidas no
intimidade, (iv) claridade, (v) difuso, e (vi) brilho ou som direto e no som proveniente das reflexes at 50ms, e (2)
textura. BARRON [3] relacionou as caractersticas a energia total da resposta impulsiva medida num
arquitetnicas de salas de diversos tipos, tamanhos e determinado ponto da sala. comumente correlacionada com
finalidades com suas caractersticas acsticas. a inteligibilidade da fala.
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 2
Este ndice foi proposto pela primeira vez por BERANEK OBJETIVOS DO TRABALHO
[2], e utilizava as informaes do tempo de reverberao por
banda de freqncias, para avaliar o timbre (ou balano tonal) Os objetivos do presente trabalho so (1) comparar os
de um ambiente, especialmente o seu calor. Em 1994 resultados de determinados parmetros de avaliao da
props-se a substituio de RT60 por EDT10 e, atualmente, o qualidade acstica de uma sala multifuncional, obtidos in-
ndice obtido por intermdio da relao entre (1) a soma dos loco, por intermdio de medies, e obtidos por intermdio
EDTs em 125Hz e 250Hz dividida pela (2) soma dos EDTs da utilizao de um programa de simulao acstica por
em 500Hz e 1000Hz. traado de raios, (2) comparar alguns resultados anteriores
com aqueles obtidos a partir da aplicao direta da frmula
de Sabine, (3) analisar e discutir as semelhanas e diferenas
Treble Ratio based on EDT entre os resultados obtidos, e (4) analisar a influncia das
Proposto pela primeira vez por CHIANG [5] para avaliar o solues de projeto do ambiente nos resultados obtidos.
timbre (ou balano tonal) de um ambiente, especialmente o
seu brilho, este ndice obtido por intermdio da relao
entre (1) a soma dos EDTs em 2000Hz e 4000Hz dividida BREVE DESCRIO DA SALA OBJETO DE
pela (2) soma dos EDTs em 500Hz e 1000Hz. ANLISE
A sala escolhida para ser objeto deste trabalho foi o Teatro
Inter-Aural Cross Correlation Coeficient (IACC80) Municipal Clara Nunes, localizado na cidade de Diadema, na
O ndice IACC est diretamente relacionado sensao de Grande So Paulo.
espacialidade da sala, uma vez que mede a diferena relativa
entre mesmos sons percebidos pelos ouvidos direito e esquerdo Trata-se de uma sala de mltiplo uso, com capacidade para
do ser humano, num ponto determinado. Este ndice chamado 434 espectadores, construda em 1983 e reformada ao longo
de Early Inter-Aural Cross Correlation Coeficient (IACCE ou do ano de 2004 (Fig. 1).
IACC80) se o intervalo de tempo utilizado na apropriao dessa
diferena estiver compreendido entre 0s e 80ms.
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 3
S e g u n d o s (s )
Medies in-loco 1,4 T-30-Aurora
Os parmetros objeto deste trabalho foram medidos em 9 1,2
1 T-30 Catt
(nove) pontos na platia, sendo trs na 3 fila de poltronas (um 0,8
direita, um no centro e um esquerda), trs na 8 fila (um 0,6 Sabine
0,4
direita, um no centro e um esquerda), e trs na 13 fila (um 0,2
direita, um no centro e um esquerda). 0
125 250 500 1000 2000 4000
As medies foram feitas com a sala sem ocupao. Em todas Frequncia em bandas de oitava (Hz)
as situaes, a sala foi excitada a partir do estouro de bales
de borracha, colocados no palco, a 1,50m de altura do piso
(Fig. 3). EDT - FILA 03 LADO DIREITO - AURORA X CATT
1,4
1,2
1
E D T (s )
50 D-50 Aurora
Simulao acstica da sala 40
Os parmetros objeto deste trabalho foram ento calculados 30 D-50 Catt
20
nos mesmos 9 (nove) pontos na platia, sendo trs na 3 fila de 10
poltronas, trs na 8 fila, e trs na 13, considerando a sala sem 0
ocupao. 125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz)
Neste experimento, aps a modelagem em AutoCAD, a
exata localizao da fonte e dos nove receptores, passou-se
simulao acstica da sala, por intermdio do programa de
traado de raios Catt Acoustic, verso 7.2 (9). C-80 - FILA 03 LADO DIREITO - AURORA X CATT
12
Clculo do tempo de reverberao utilizando a
frmula de Sabine 10
Por fim, calculamos o Tempo de reverberao (T60) da sala a 8
C -8 0 (d B )
Aurora C-80
partir da frmula de Sabine (10). 6
4 Catt C-80
RESUMO DOS RESULTADOS OBTIDOS 2
0
Dos nove pontos de medio e simulao, apresentaremos os
125 250 500 1000 2000 4000
resultados comparativos de trs deles (3 fila, direita; 8 fila,
ao centro; e 13 fila, esquerda), resultados estes que foram Frequncia em bandas de oitava (Hz)
impressos nos grficos mostrados a seguir, para melhor
visualizao de suas semelhanas e diferenas:
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 4
T- 30 + T-60 - CENTRO, FILA 08 - AURORA X CATT X SABINE T-30 + T-60 - FILA 13, LADO ESQUERDO - AURORA X CATT X
SABINE
1,4 1,4
1,2 1,2
S e g u n d o s (s )
S e g u n d o s (s )
1 T-30 - Aurora 1
0,8 T-30 - Catt 0,8 T-30 Aurora
0,6 0,6 T-30 Catt
0,4 Sabine
0,4
0,2 Sabine
0,2
0
0
125 250 500 1000 2000 4000
125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz)
Frequncia em bandas de oitava (Hz)
EDT - CENTRO, FILA 08 - AURORA X CATT EDT- FILA 13 ESQUERDA - AURORA X CATT
1,4 1,2
1,2
1
1
EDT - Aurora 0,8
E D T (s )
E D T (s )
D-50 - CENTRO, FILA 08 - AURORA X CATT D-50 -FILA 13 LADO ESQUERDO - AURORA X CATT
100 100
90 90
80 80
70 70 Aurora D-50
D -5 0 (% )
D -5 0 (% )
60 D-50 Aurora 60
50 50
40 Catt D-50
40 D-50 Catt 30
30 20
20 10
10 0
0
125 250 500 1000 2000 4000
125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz) Frequncia em bandas de oitava (Hz)
C-80 - CENTRO, FILA 08 - AURORA X CATT C-80, FILA 13 LADO ESQUERDO - AURORA X CATT
14 14
12 12
10 10
C -8 0 (d B )
8 8
6 C- 80 Catt 6 Catt C-80
4 4
2 2
0 0
-2 125 250 500 1000 2000 4000 125 250 500 1000 2000 4000
Frequncia em bandas de oitava (Hz) Frequncia em bandas de oitava (Hz)
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 5
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 6
Este artigo foi reproduzido do original nal entregue pelo autor, sem edico es, correco es ou consideraco es feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaco es sobre a seca o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduca o total ou parcial
deste artigo sem autorizaca o expressa da AES Brasil.
Usando
Sistema Eciente para Auralizacao
Agrupamento e Modelagem de HRTFs por
Wavelets
Julio C. B. Torres1, Mariane R. Petraglia1, Roberto A.
Tenenbaum2
1
Escola Politecnica - Universidade Federal do Rio de Janeiro
Rio de Janeiro, RJ, Brasil
juliotorres@ufrj.br
mariane@pads.ufrj.br
2
IPRJ - Universidade do Estado do Rio de Janeiro
Nova Friburgo, RJ, Brasil
tenenbaum@iprj.uerj.br
RESUMO
Os sistemas de realidade virtual acustica requerem uma complexidade computacional muito elevada
para reproduzir as caractersticas tridimensionais do som. Uma forma de reduzir a complexidade de
tais sistemas e modelar de forma eciente a propagaca o do som. Utilizando um modelo baseado
na decomposica o das funco es de transferencia relacionadas ao receptor (HRTFs) por uma transfor-
mada wavelet, este artigo apresenta um sistema de auralizaca o eciente, que explora a similaridade
dos coecientes do modelo correspondentes a` s baixas freque ncias das HRTFs provenientes de direco es
proximas.
INTRODUC
AO campo sonoro.
Nos u ltimos anos, tem-se observado um cresci- A m de permitir que o ouvinte interaja com o sis-
mento consideravel dos sistemas de a udio imersivo, tema de a udio, modicando sua posica o, orientaca o
seja em sistemas com diversos alto-falantes ou atraves e ate caractersticas do campo sonoro, foram cria-
de fones de ouvido. Tal crescimento deve-se principal- dos os sistemas de realidade virtual acustica (SRVAs).
mente ao desenvolvimento de novas tecnologias e da Estes sistemas exigem um elevado grau de comple-
necessidade do ser humano sentir-se imerso no pro- xidade para que o som produzido seja equivalente
grama a udio-visual. Um exemplo disso e a recente ao gravado com cabecas articiais e, mesmo com o
inclusao de faixas de a udio em DVDs, gravadas com desenvolvimento tecnologico atual, nao e possvel a
cabecas articiais, que possibilitam ao ouvinte perce- utilizaca o desses sistemas em tempo real. A utilizaca o
ber as caractersticas tridimensionais do som no mo- em tempo real so se torna possvel caso sejam aceitas
mento da gravaca o. Porem, esse tipo de gravaca o nao simplicaco es no sistema. Contudo tais simplicaco es
permite ao ouvinte modicar sua posica o dentro do implicam, geralmente, na reduca o da qualidade e da -
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
delidade do a udio produzido, quando comparado com que originalmente possuia 100 coecientes no tempo
um sistema nao simplicado. pode ser implementada por uma transformada wavelet
Uma forma de reduzir a complexidade dos sistemas acrescida de um conjunto de 30 coecientes.
de realidade virtual acustica e modelar de forma mais Apesar desse ganho computacional consideravel,
eciente a propagaca o do som. A modelagem do re- obtido com a modelagem por wavelets, a grande re-
ceptor se da atraves das funco es de transferencia rela- dundancia de informaca o do conjunto de HRTFs pode
cionadas a` cabeca (Head-Related Transfer Functions ser utilizada para reduzir ainda mais o custo compu-
HRTFs) [1, 2], que correspondem a pares respostas tacional. Nesse sentido, vericou-se que, na faixa de
impulsivas (HRIRs) medidas para diversas direco es ao baixas freque ncias, as HRTFs de direco es proximas
redor do receptor. possuem um comportamento similar. Essa similari-
Quando se deseja fazer com que um indivduo per- dade existe pois sons de baixa freque ncia possuem
ceba que uma fonte sonora encontra-se em um de- grandes comprimentos de onda, maiores ate que um
terminado ponto ou direca o do espaco ao seu redor, torso humano, o que diculta ao ser humano denir
deve-se entao convoluir o sinal anecoico produzido a direcionalidade da fonte, principalmente devido ao
pela fonte com as HRIRs relativas a essa direca o. efeito de difraca o. Essa diculdade em reconhecer
Removendo-se a inuencia do sistema de reproduca o, a direca o dos sons de baixa freque ncia se traduz em
como por exemplo realizando uma equalizaca o de fo- uma caracterstica praticamente plana do modulo das
nes de ouvido, o som percebido devera ser identico HRTFs ate aproximadamente 1kHz.
ao ouvido em um ambiente real livre de reverberaca o Com base nesse modelo de HRTFs com wavelets,
(sala anecoica). este artigo apresenta uma analise de como o proces-
Um sistema de realidade virtual acustica pode pos- samento do som proveniente de direco es proximas
suir diversas fontes; mesmo com apenas uma fonte, as pode ser reduzido. Esse ganho de desempenho e ob-
ondas sonoras por ela emitidas podem sofrer multiplas tido considerando-se a similaridade dos coecientes
reexoes nas superfcies da sala. Assim, para cada da wavelet responsaveis pelas freque ncias baixas das
direca o possvel de chegada de uma frente de onda no HRTFs.
receptor, o sinal da fonte devera ser convoludo com
a HRIR da respectiva direca o. Observa-se, portanto, CARACTERISTICAS DAS HRTF S
que quanto mais reverberante for um ambiente, maior As HRTFs sao funco es cujas respostas em
sera o numero de direco es necessarias para gerar o si- freque ncia variam conforme a direca o da fonte so-
nal de a udio tridimensional. nora. A Fig. 1 apresenta os modulos das respostas
Entretanto, o ser humano possui uma capacidade li- em freque ncia de um conjunto de HRTFs pertencen-
mitada em reconhecer a direca o exata de uma fonte tes ao plano horizontal situado na altura das entra-
sonora [3]. A capacidade media do ser humano va- das dos canais auditivos. Este plano e equivalente a
ria entre 5 e 20 [1] e, portanto, um conjunto dis- uma elevaca o de 0 em um sistema de coordenadas
creto de direco es pode ser utilizado para medir as esfericas.
HRTFs sem perda da capacidade de reconhecimento
de direca o. Geralmente utilizam-se aproximadamente
700 direco es ao redor da cabeca, com a fonte situada
entre 1 e 1,2 metros, resultando em um conjunto de
1400 HRTFs [4, 2].
O custo computacional de um sistema com pro-
cessamento simultaneo de diversas direco es pode ser
reduzido de duas formas: diminuindo o numero de
direco es e/ou reduzindo o comprimento das HRIRs.
Reduzir o numero de direco es pode levar a` degradaca o
da espacialidade do a udio, uma vez que nem to-
das as direco es nas quais o som poderia atingir o re-
ceptor seriam utilizadas na simulaca o. A reduca o do
comprimento das HRIRs tambem podera interferir na
percepca o da direca o. Porem, se as caractersticas es-
pectrais de cada direca o forem mantidas, sera possvel
reduzir seu comprimento sem interferir na qualidade Figura 1: Modulo da resposta em freque ncia das
da auralizaca o. HRTFs com elevaca o de 0 .
Essa reduca o foi realizada com sucesso atraves
da modelagem das HRTFs por transformadas wa- Da Fig. 1 pode-se observar que na a rea de bai-
velets e ltros esparsos [5, 6, 7], onde obteve-se xas freque ncias (de 20 Hz a 1kHz) nao ha pratica-
uma reduca o de aproximadamente 70% em relaca o mente variaca o no modulo das HRTFs em funca o do
a sua implementaca o tradicional. Assim, uma HRIR a ngulo de azimute. Este padrao se mantem para as
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 20
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
subbanda 0
0.05
demais elevaco es onde se tem medica o das HRTFs. 0
subbanda 1
0.2
xiliam na identicaca o da localizaca o da fonte so- 0.1
0
nora. Como em baixas freque ncias nao ha pratica- 0.1
1 2 3 4 5 6 7 8 9 10 11 12
mente diferencas, nessa faixa as HRTFs nao forne- 0.1
subbanda 2
0
cem informaca o necessaria para o reconhecimento da 0.1
0.2
0.3
direca o. Neste caso, prevalecem as diferencas in- 2 4 6 8 10 12 14 16 18
subbanda 3
0.1
0
0.1
discriminaca o da direca o [8, 9]. 0.2
5 10 15 20 25 30
subbanda 4
0.1
Esquerdo
0 Direito
FORMADA WAVELET 0.1
5 10 15 20 25 30 35 40 45 50
Coeficientes
Nessa abordagem a HRIR e vista como um sistema
de resposta impulsional nita (FIR) e a modelagem e
realizada com base na decomposica o polifasica da sua Figura 3: Coecientes dos ltros esparsos de cada
funca o de transferencia [10, 11, 12], como mostrado subbanda e de cada ouvido para a direca o (0 , 90 ).
na Fig. 2.
ecientes obtidos com a modelagem atraves de wave-
x(n) lets para reduzir o custo computacional e tornar um
H 0(z) G0 (z L 0 ) sistema de realidade virtual acustica mais eciente.
Primeiro sera utilizado um procedimento para redu-
zir o numero total de coecientes esparsos, conside-
H 1(z) G1 (z L 1 ) rando um criterio de perda de energia das HRTFs.
Em seguida, o custo de implementaca o das HRTFs de
direco es proximas sera reduzido, considerando a simi-
laridade dos coecientes.
y(n)
HM-1 (z) GM-1 (z L M-1 ) do Numero
Reducao de Coecientes
A reduca o do numero de coecientes e obtida
Transformada Wavelet Filtros Esparsos
atraves de uma analise da energia acumulada dos co-
ecientes em cada subbanda. Contudo, a energia de
Figura 2: Sistema que utiliza a transformada wavelet cada HRTF varia conforme a direca o. Os valores
para modelagem de uma HRTF. maximo e mnimo de energia ocorrem para os a ngulos
de azimute de 90 e 270 , respectivamente. Dessa
Na Fig. 2 o banco de ltros de analise Hm (z) imple- forma, um criterio de energia nao deve ser denido em
menta uma transformada wavelet discreta e os ltros termos absolutos, mas sim em percentuais de energia
esparsos Gm (zLm ) sao ltros cujos coecientes pro- em cada subbanda, para cada direca o.
porcionam uma resposta impulsiva igual a` HRIR da
A energia da HRIR E(, ) e dada por
direca o que esta sendo modelada [13]. Os ltros base
utilizados na implementaca o da transformada wavelet
N1
foram selecionados por apresentarem a melhor relaca o E(, ) = p2, (n), (1)
custo/benefcio entre a seletividade e o comprimento n=0
[7]. Apos diversos testes com diferentes ltros, in- onde N e o comprimento da HRIR p, (n).
clusive biortogonais, os ltros prototipos Daubechies A energia por subbanda E m (, ) e dada por
de comprimento 8 (daub8) [14] foram empregados em
quatro estagios em uma estrutura de decomposica o em K
m 1
ecientes dos ltros esparsos Gm (zLm ) que modelam onde Km e o numero de coecientes esparsos da sub-
as HRTFs de cada ouvido para a direca o denida pela banda m.
elevaca o = 0 e o azimute = 90 (fonte situada a A contribuica o cumulativa de cada coeciente es-
90 a` direita do ouvinte). parso, em cada subbanda, pode ser observada na
Fig. 4, para o ouvido direito e direca o = 0 e
REDUC
AO DO CUSTO COMPUTACIO-
= 90 . A soma das energias acumuladas em cada
NAL subbanda fornece a energia total da HRIR.
Nesta seca o sao apresentadas duas tecnicas basea- Conforme pode ser observado na Fig. 4, a ener-
das nas caractersticas espectrais das HRTFs e dos co- gia cumulativa na terceira banda, por exemplo, atinge
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 21
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
do Numero
Reducao
de Direcoes
subbanda 0
1
Os coecientes de cada subbanda sao responsaveis
0
1 2 3 4 5 6 7 8 9 10 11 12
por uma regiao do espectro da HRTF e a inuencia
subbanda 1
20
lizado (daub8) possui uma relaca o satisfatoria entre
0
2 4 6 8 10 12 14 16 18
seletividade e custo de implementaca o (comprimen-
subbanda 3
10
5
alteraco es signicativas nas demais bandas. O erro
0
medio quadratico para as demais bandas e da ordem
5 10 15 20 25 30 35 40 45 50
Coeficientes de -40 dB. Por outro lado, variaco es nos coecientes
da u ltima banda provocam alteraco es em todo o es-
Figura 4: Energia cumulativa dos coecientes espar- pectro, devido a` baixa seletividade do ltro de analise
sos para a direca o = 0 e = 90 , para o ouvido nessa banda.
direito. Se considerarmos uma regiao do espaco ao redor
do receptor (denida por um intervalo de valores de
elevaca o e azimute) [16], dentro dessa regiao havera
valor consideravel somente apos o terceiro coeci- diversas HRTFs que por sua vez serao substitudas
ente e tem praticamente toda energia acumulada ate pelas funco es reduzidas, conforme a modelagem pro-
o setimo coeciente. Assim, se desprezarmos os posta. Analisando os coecientes obtidos em uma de-
coecientes anteriores ao terceiro e posteriores ao terminada banda para todas as direco es pertencentes
setimo nesta banda restarao apenas cinco coecientes. a essa regiao do espaco, observa-se que os coecien-
Esta mesma analise e aplicada a todas as subbandas, tes relativos a` s baixas e medias freque ncias possuem
porem denindo-se limites de tal forma que a energia pouca variaca o. Para bandas mais altas, a variaca o dos
total perdida com os coecientes nao-signicativos coecientes e mais acentuada. Isto e esperado por dois
seja no maximo 10% da energia da HRIR original. motivos: a baixa seletividade dos ltros das bandas
Aplicando o criterio descrito em [7] para todas as mais altas e a grande variaca o existente entre os es-
direco es, obtem-se os intervalos (janelas) descritos na pectros das HRTFs em alta freque ncia.
Tab. 1. Esses intervalos garantem que havera uma Considerando a direca o = 0 e = 90 como
perda maxima de 10% de energia em cada HRTF. En- principal e utilizando um a ngulo de abertura de 40
tretanto, para diversas direco es a perda nao e maxima. tanto na elevaca o quanto no azimute, tem-se uma
Como mostrado em [7], a perda de 10% da energia to- regiao cujas extremidades sao 20 < < 20 e
tal da HRTF atraves da reduca o dos coecientes espar- 70 < < 110 . A Fig. 5 apresenta na primeira co-
sos produz menos erros em frequencia do que a perda luna os coecientes de todas as HRTFs percententes
direta de coecientes das HRIRs. Uma analise do erro a esta regiao, por subbanda. Nessa gura pode-se ob-
devido a` reduca o dos coecientes e apresentada em servar a variaca o dos valores dos coecientes devida a`
[15] variaca o de direca o. Na segunda coluna sao apresenta-
das, por subbanda, as curvas correspondentes a` media
Prototipo subbanda total e a` media mais o desvio padrao dos coecientes.
Daub8 0 1 2 3 4 K Analisando as variaco es dos valores dos coecien-
Intervalos 1-6 3-7 4-7 3-9 3-8 tes, verica-se que os maiores desvios ocorrem nas
No. coefs. 6 5 4 7 6 28 duas u ltimas bandas. Se nao ha praticamente variaca o
nos coecientes das bandas mais baixas, e uma pe-
Tabela 1: Intervalos e numero de coecientes signi- quena variaca o nao e capaz de introduzir distorco es
cantes dos ltros esparsos para cada subbanda. consideraveis na resposta em freque ncia, devido a` se-
letividade dos ltros da wavelet, entao e possvel utili-
Dessa forma, o numero de coecientes pode ser re- zar um conjunto comum de coecientes para a mesma
duzido para aproximadamente 30% do total se consi- banda de todas as HRTFs da regiao.
derarmos em cada subbanda apenas os coecientes de Substituindo-se os coecientes originais da primeira
maior signicancia. A energia perdida com o descarte subbanda de uma dada HRTF da regiao pela media dos
de coecientes e de no maximo 10% da energia total coecientes da primera subbanda de todas as HRTFs
da HRTF e nao altera signicativamente o conteudo da mesma regiao, verica-se que essa modicaca o re-
espectral das mesmas. No exemplo da Fig. 4, a ener- almente nao introduz variaca o que afete a percepca o
gia perdida e de apenas 4%, pois esses intervalos fo- da direca o do som processado. Isto pode ser obser-
ram obtidos com uma media para todas as direco es. vado na Fig. 6, onde o modulo e a fase da resposta em
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 22
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
Coeficientes Mdia e Mdia mais Desvio Padro
0.1 0.1 5
subbanda 0
0
0 0
5
Modulo (dB)
0.1 0.1
1 2 3 4 5 1 2 3 4 5 10
0.5 0.5
subbanda 1
15
0 0 20
25
0.5 0.5
1 2 3 4 5 6 1 2 3 4 5 6
1 1 30
2 3 4
subbanda 2
10 10 10
0 0 (a)
1 1 3
1 2 3 4 5 6 1 2 3 4 5 6
0.5 0.5
subbanda 3
0 0 1
Fase (rad)
0.5 0.5 0
2 4 6 8 2 4 6 8
0.2 0.2 1
subbanda 4
0 0 2 Original
Media banda 0
3
0.2 0.2 2 3 4
1 2 3 4 5 6 7 1 2 3 4 5 6 7 10 10 Frequencia (Hz) 10
5
para as HRTFs de uma regiao e (b) media e media mais
Modulo (dB)
10
desvio padrao dos coecientes. 15
20
25
1
apresenta o resultado obtido para a direca o (0 , 90 ),
Fase (rad)
0
para ambos ouvidos. Este comportamento e similar 1
ao das demais direco es dessa regiao. 2 Original
Media banda 0
Utilizando a media dos coecientes das duas primei- 3
2 3 4
10 10 Frequencia (Hz) 10
ras bandas obtem-se o resultado apresentado na Fig. 7.
A Fig. 8 apresenta o resultado obtido utilizando-se os
Figura 6: Comparaca o de modulo e fase entre as res-
coecientes medios das tres primeiras bandas.
postas em freque ncia para a direca o (0 , 90 ), subs-
A partir dos gracos apresentados nas Figs. 6 a 8 tituindo os coecientes da primeira banda pelos co-
pode-se vericar que a substituica o dos ltros espar- ecientes medios: (a) ouvido esquerdo e (b) ouvido
sos responsaveis pelas baixas e medias freque ncias direito.
nao afetam signicativamente as resposta em
freque ncia das HRTFs pertencentes a essa regiao do 5
espaco. 0
10
nal pode ser obtido se, ao inves de processamos to- 15
das subbandas de todas as direco es da regiao, realizar- 20
1
direca o com 28 coecientes esparsos, conforme a
Fase (rad)
0
Tab. 1. Sem a utilizaca o do metodo proposto, se- 1
riam necessarias 25 28 = 700 operaco es de soma 2 Original
Mdia bandas 0 e 1
e multiplicaca o. Utilizando-se a media das bandas 0 3
2 3 4
10 10 10
e 1 em substituica o dos coecientes originais, serao
necessarias apenas 11 + 25 17 = 436 operaco es,
Figura 7: Comparaca o entre as respostas em
proporcionando uma reduca o de 37,7% na carga com-
freque ncia para a direca o (0 , 90 ), substituindo os co-
putacional.
ecientes das duas primeiras bandas pelos respectivos
Fica evidente que quanto maior for a regiao (maio- coecientes medios.
res a ngulos de abertura) maior sera o ganho computa-
cional. A analise apresentada neste artigo refere-se a
regioes com a ngulo de abertura de aproximadamente o ganho computacional e a qualidade de auralizaca o,
40 ao redor de uma direca o principal. E importante que sera inuenciada pelos desvios nas respostas
ressaltar que ha uma relaca o de compromisso entre em freque ncia das HRTFs em funca o do numero de
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 23
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
TORRES ET AL. SIST. EFIC. AURAL. AGRUP. E MODEL. HRTF WAVELETS
0
97, no. 6, pp. 39073908, 1995, MIT website:
5
http://sound.media.mit.edu/KEMAR.html.
Mdulo (dB)
10
30
para modelagem das HRTFs, Seminario de En-
2
10
3
10
4
10
genharia de Audio, 2002.
3 [6] J. C. B. Torres and M. R. Petraglia, Perfor-
2
mance analysis of an adaptive lter employing
1
wavelets and sparse sublters, in EUSIPCO
Fase (rad)
1
2000, Sep 2000, vol. II, pp. 9971001.
2 Original
3
Mdia bandas 0,1 e 2 [7] J. C. B. Torres, M. R. Petraglia, and R. A. Tenen-
2
10
3
10
4
10 baum, An ecient wavelet-based HRTF model
for auralization, Acustica/Acta Acustica, vol.
Figura 8: Comparaca o entre as respostas em 90, no. 1, Jan 2004.
freque ncia para a direca o (0 , 90 ), substituindo os co-
ecientes das tres primeiras bandas pelos respectivos [8] F. L. Wightman and D. J. Kistler, The dominant
coecientes medios. role of low-frequency interaural time dierences
in sound localization, J. Acoust. Soc. Am., vol.
91, no. 3, pp. 16481661, Mar. 1992.
direco es englobadas em um regiao do espaco. Assim,
diversos testes subjetivos serao ainda necessarios a m [9] F. L. Wightman and D. J. Kistler, Monaural
de avaliar, sob o aspecto psico-acustico, quais sao os sound localization revisited, J. Acoust. Soc.
a ngulos de abertura e as direco es principais que forne- Am., vol. 101, no. 2, pp. 10501063, Feb. 1997.
cem a melhor relaca o qualidade/ganho computacional.
[10] P. P. Vaidyanathan, Multirate Systems and Fil-
CONCLUS OES ter Banks, Prentice-Hall, Englewood Clis, New
Jersey, 1993.
Neste artigo foi apresentado um sistema para
auralizaca o com complexidade computacional re- [11] G. Strang and T. Nguyen, Wavelets and Filter
duzida, baseado em um modelo eciente para as Banks, Wellesley-Cambrigde-Press, Cambrigde,
HRTFs e no agrupamento destas funco es para direco es 1997.
proximas. Este agrupamento e possvel devido a` simi-
laridade dos coecientes do modelo correspondentes [12] M. Vetterli and J. Kovacevic, Wavelets and Sub-
a` s freque ncias baixas das HRTFs. Atraves da analise band Coding, Prentice-Hall, Englewood Clis,
do erro gerado pela simplicaca o proposta, podem ser New Jersey, 1995.
denidos os a ngulos de abertura (azimute e elevaca o)
[13] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
e o numero de direco es agrupadas, sem que a quali-
nenbaum, HRTF modeling using wavelet de-
dade do sistema de a udio 3D seja prejudicada, con-
composition, XIV Congresso Brasileiro de Au-
siderando sua aplicaca o em um sistema de realidade
tomatica, pp. 22082213, Sep 2002.
virtual acustica (acustica de salas).
[14] I. Daubechies, The wavelet transform, time-
REFER ENCIAS
BIBLIOGR AFICAS frequency localization and signal analysis,
[1] J. Blauert, Spatial Hearing, The MIT Press, IEEE Trans. Inform. Theory, vol. 36, pp. 961
Cambridge, 1997. 1005, Sept. 1990.
[2] V. R. Algazi, R. O. Duda, D. M. Thompson, [15] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
and C. Avendano, The cipic hrtf database, nenbaum, Low-order modelling of head-related
in WASPAA 01 (2001 IEEE ASSP Workshop transfer functions using wavelet transform, IS-
on Applications of Signal Processing to Audio CAS 2004, 2004.
and Acoustics), Oct. 2001, CIPIC website:
http://interface.cipic.ucdavis.edu/. [16] J. C. B. Torres, M. R. Petraglia, and R. A. Te-
nenbaum, Low-order modeling and grouping of
[3] F. L. Wightman and D. J. Kistler, Resolution of hrtfs for auralization using wavelet transforms,
front-back ambiguity in spatial hearing by liste- ICASSP 2004, 2004.
ner and source movement, J. Acoust. Soc. Am.,
vol. 105, no. 5, pp. 28412853, May 1999.
[4] W. G. Gardner and K. D. Martin, HRTF mea-
surements of a kemar, J. Acoust. Soc. Am., vol.
4
4o CONGRESSO
CONGRESSO / /10
10
a
CONVENC NACIONAL
CONVENO
AO NACIONAL
DA DA
AESAES
BRASIL, SO
BRASIL,
SAO PAULO,
PAULO, 08 DE
08 A 10 A 10MAIO
DE MAIO DE 2006
DE 2006 24
___________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira podem
ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste artigo
sem autorizao expressa da AES Brasil.
___________________________________
AVALIAO OBJETIVA DE PARMETROS SONOROS EM
SALAS: DIAGNSTICO DE QUALIDADE ACSTICA EM
IGREJA LUTERANA - SP
Bianca Carla Dantas de Arajo (1), Maria Luiza Belderrain (2), Thas Helena Luz Palazzo (3), Sylvio
Reynaldo Bistafa (4)
FAU-USP, Ps-graduao em Tecnologia da Arquitetura
01240-001, So Paulo, SP, Brasil
(1) dantasbianca@gmail.com
(2) mlacustica@hotmail.com
(3) thaispalazzo@yahoo.com.br
(4) sbistafa@usp.br
RESUMO
A qualidade acstica das salas tem por objetivo otimizar a gerao e recepo de informaes, visando o uso a que
so destinadas. Os requisitos para se alcanar uma boa qualidade sonora esto diretamente relacionados a
geometria do local e suas dimenses, caractersticas das superfcies internas e materiais de acabamento, entre
outras. O presente trabalho pretende avaliar a qualidade acstica de uma igreja, a partir dos parmetros objetivos e
subjetivos de anlise, obtidos a partir do software de medies AURORA e da simulao computacional no
software CATT-ACOUSTICS. Os resultados indicam baixa inteligibilidade da fala, mostrando que o espao
construdo no corresponde ao propsito para o qual foi idealizado.
e at com a implantao do recinto dentro do edifcio e deste de parmetros sonoros subjetivos e objetivos, com vistas a
em relao outra rea exterior. adequao do espao ao uso concebido; alm de permitir uma
Cada sala exige critrios e condies particulares comparao dos mtodos propostos para anlise.
tanto para a comunicao como para o conforto acstico
(SANCHO, 1982). Os critrios gerais de definio de
acstica de salas estabelecem a qualidade sonora das mesmas, PROCEDIMENTOS METODOLGICOS
como o tempo de reverberao, por exemplo, porm so Caractersticas gerais da edificao
especificados em relao ao seu uso. Podem ser critrios
A sala selecionada uma Igreja Luterana Igreja da
objetivos e subjetivos, estando sempre relacionados entre eles
Paz, localizada na Rua Verbo Divino, 392, Granja Julieta,
e o uso a que se referem, conforme mencionado.
So Paulo/SP. O uso predominante para a palavra falada
O tempo de reverberao era o nico parmetro (cultos) e, eventualmente, msica (apresentaes de corais e
acstico que relacionava o fenmeno fsico com as orquestra de cmara); possui uma rea em planta de 250 m2 e
impresses produzidas nas pessoas. Hoje, parmetros um p-direito mdio de 9,0 m perfazendo um volume
diferentes podem relacionar o comportamento fsico da sala aproximado de 2.250 m3. A forma hexagonal da planta da
com diferentes tipos de sensaes auditivas. Essas sensaes edificao possui como programa de necessidades um altar,
podem ser descritas como, por exemplo: intensidade, platia e balco. Os acessos so: entrada principal pela parede
impresso espacial, clareza, brilho, presena, dentre outros da frente; acesso alternativo pela parede lateral esquerda;
(GERGES, 2000). acesso ao balco por escada estruturada em parte da parede
A garantia de nveis de rudo compatvel com as lateral esquerda.
atividades humanas tem sido a principal componente do As superfcies so constitudas por piso altar em
conforto acstico em ambientes. No entanto, a acstica mrmore; piso platia em granito; escada em mrmore; piso
arquitetnica vem se desenvolvendo no sentido de propiciar balco em madeira (taco); paredes em alvenaria rebocada e
algo mais aos usurios de ambientes diversos a qualidade pintada; janelas em vitrais; portas e bancos em madeira; teto
sonora. abobadado em laje macia pintada. (Figuras 1 e 2).
Entende-se por qualidade sonora, um conjunto de
atributos acsticos subjetivos que venham de
encontro s expectativas da experincia acstica do
ouvinte. Conscientemente ou no, a expectativa do
usurio de uma sala de conferncias, que esta
propicie condies acsticas para uma adequada
inteligibilidade da fala. Isto ir requerer baixos nveis
de rudo com certeza, porm algo mais necessrio
para a adequada comunicao oral neste ambiente.
(BISTAFA, 2005, p. 3)
Para cada finalidade da sala, h atributos acsticos
Figura 1 Planta Baixa da Igreja analisada
subjetivos que devem ser atendidos. Diferentemente da sala
onde o uso a palavra falada, ou seja, uma sala de
conferncia, onde a reverberao deve ser reduzida, numa
sala destinada msica, certa reverberao necessria, no
sentido de garantir a experincia acstica que o ouvinte
espera ao escutar msica (BISTAFA, 2005).
Os atributos no se encontram ainda totalmente
definidos para a maioria das salas de audio crtica, sendo
muitos dos existentes, alvo de considervel debate e
controvrsia, e por este motivo objeto de pesquisa e
desenvolvimento. Os atributos de uma sala de conferncias
so diferentes daqueles de uma sala destinada msica; Figura 2 Corte esquemtico da igreja analisada
envolvem muitas vezes vrias dimenses subjetivas. Na sala
destinada msica, um atributo subjetivo relevante sentir- Medies dos parmetros acsticos
se envolvido pela msica uma outra dimenso subjetiva O princpio das medies identificar os parmetros
(BISTAFA, 2005). objetivos de qualidade acstica da sala real, a partir da
Para tanto, necessrio dispor-se de um ndice que Resposta Impulsiva (RI). As medies foram viabilizadas
quantifique objetivamente esta impresso subjetiva. Neste com o uso do software Aurora, desenvolvido pelo prof.
sentido, existem alguns ndices mensurveis que se Angelo Farina (Itlia). A obteno da Resposta Impulsiva
correlacionam com algumas das dimenses subjetivas, que (RI) foi realizada a partir de trs sinais: Balo estourando;
so os parmetros objetivos, ainda, tambm, sujeitos a Multi MLS Signal; Sine Sweep (estes dois ltimos emitidos
discusses e pesquisas. pelo prprio programa de medio). A fonte sonora foi
De forma a contribuir com o contexto apresentado, posicionada no centro do altar e a captao dos sinais foi feita
o presente trabalho busca avaliar, por mtodos de medies e em trs locais da Igreja: na frente da audincia (P1), no fundo
simulaes, a qualidade acstica de uma sala com audio da audincia (P2) e no balco (P3), conforme Figura 3.
crtica, no caso uma igreja, a partir da interpretao e registro
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 2
Os sinais foram emitidos e captados com trplica, ou Aps essa etapa foi preciso fornecer ao software
seja, em cada ponto trs vezes, e a partir da retirada a mdia informaes a respeito dos materiais de acabamento das
aritmtica dos valores dos parmetros objetivos da resposta superfcies (descritos anteriormente), atravs de coeficientes
impulsiva encontrada. Foi um total de 27 medies (9 para de absoro sonora e coeficientes de difuso sonora, nas
cada ponto). frequncias de 125 Hz a 4 kHz, disponveis na literatura. A
variao desses coeficientes tem o intuito de calibrar o
modelo, de modo a se obter resultados mais prximos da
realidade.
O arquivo master.geo sintetiza todos esses dados,
enquanto os arquivos source e receiver referem-se ao
posicionamento da fonte sonora (centro do altar) e dos
receptores (pontos P1, P2 e P3).
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 3
x Ts (s) ou tempo central representa o centro de gravidade De uma forma geral, as ordens de grandezas dos
da rea da resposta impulsiva integrada [equivalente a valores encontrados foram coerentes nos dois mtodos
um tringulo, no grfico: nvel de presso sonora (dB) x utilizados, no entanto, pode-se perceber que h um
tempo (ms)]. O tempo central indicado para a fala distanciamento bastante evidente dos valores ideais quando
corresponde a 70 ms. se considera a escala de variao, principalmente dos
parmetros D50 e Ts. Observa-se que estes parmetros,
Valores obtidos com os softwares Aurora e Catt- obtidos no software Catt-Acoustics, apesar de fora dos
Acoustics. valores recomendados, so melhores do que os obtidos com o
software de medio Aurora, porm ainda muito longe dos
As mdias obtidas em cada ponto, para cada
valores ideais para o uso da fala.
parmetro, relativas aos resultados do Aurora e do Catt-
Acoustics, comparados aos valores ideais ao local, lembrando A fim de permitir a comparao direta entre os dois
que seu uso principal para a fala, esto registradas nas mtodos, os grficos de cada parmetro so apresentados com
tabelas 1 e 2. Os resultados obtidos so bem distintos para os valores mdios dos seguintes parmetros analisados: T30,
cada ponto, devido sua localizao, principalmente em EDT, C80, D50 e Ts; com os resultados do Aurora e do Catt
relao fonte sonora. Acoustics para os pontos P1, P2 e P3 (Figuras 4 a 8).
3,07 3,09
3 2,97
2,92
Tabela 2 Valores obtidos no CATT-ACOUSTICS x critrios de 2,8
qualidade
Param V. P1 Comp P2 Comp P3 Comp 2,6
. Ideal P1 P2 P3
T30 1,0 s 2,78 >> 3,08 >> 3,08 >> AURORA
(s) CATT
EDT 1,0 s 3,07 >> 2,97 >> 2,92 >>
(s) Figura 5 Grfico dos valores de EDT
C80 -3 a 0 - 0,8 ok - 1,4 ok - 2,1 ok
(dB) dB
D50 70% 34,6 < 30,5 < 26,0 <
(%)
Ts (s) 70 ms 175,1 >> 193,2 >> 197,2 >>
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 4
-4 -4,20 prximas entre si, com uma tendncia linear, como pode-se
-5 -5,20
-6
observar nos grficos apresentados, com exceo do
-7 -7,00 parmetro T30. No caso do parmetro EDT, as curvas so
-8 quase coincidentes formando uma reta. Esses resultados
P1 P2 P3 diferem daqueles obtidos na medio, a qual no apresentou
AURORA similaridade entre as curvas para os diversos pontos.
CATT
20
17,70
15 (pregao), por ser muito reverberante, mesmo com pblico.
10 Apesar de ter sido realizado o estudo da sala vazia, os
8,20 7,80
5
valores identificados do tempo de reverberao esto muito
0
superiores ao ideal para fala, constatando-se que mesmo a
P1 P2 P3
audincia de pessoas no capaz de absorver o som a ponto
AURORA
de baixar um mnimo de aproximadamente 1,66 s,
CATT
considerando o valor menor de T30 (2,66 s) encontrado
Figura 7 Grfico dos valores de D50 independente do mtodo.
Outro resultado constatado fora a falta de correlao
Ts entre os resultados obtidos com os mtodos de medio e
simulao. Acredita-se que a diferena confirmada nos
300 resultados do Aurora e do Catt Acoustics deve-se s
250 246,5 251,1 260,6 seguintes questes:
Impreciso na definio dos coeficientes de difuso
(ms)
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 5
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006 6
Avaliac
ao de Dois Novos M
etodos para Gerac
ao de Som 3D
Fabio P. Freeland1 , Luiz W. P. Biscainho1 , Paulo S. R. Diniz1
1
LPS PEE/COPPE & DEL/Poli, UFRJ
Caixa Postal 68504, Rio de Janeiro, RJ, 21941-972, Brasil
[freeland,wagner,diniz]@lps.ufrj.br
RESUMO
Este trabalho trata da gerac
ao de som tridimensional reproduzido atraves de fones de ouvido. Nesse contexto, os
autores desenvolveram recentemente duas novas tecnicas para interpolac ao de HRFTs (Head-Related Transfer
Functions) medidas para um conjunto finito de pontos ao redor de um ouvinte. Essas func oes modelam o
caminho do som da fonte sonora virtual a `s orelhas e, interpoladas, geram a ilus
ao do som em movimento.
Neste artigo, realizam-se avaliac
oes subjetivas daquelas tecnicas, comparando-as ao metodo bilinear triangular.
INTRODUC
AO guinte, s
ao mostradas as conguracoes dos testes subjetivos
A geracao de som tridimensional com fones de ouvido tem e os resultados obtidos. Por m, apresentam-se as conclusoes
sido bastante investigada nos u ltimos anos [1, 2, 3, 4, 5]. do trabalho.
Uma das tecnicas empregadas para se criar esse efeito e a
que utiliza as chamadas Func oes de Transferencia Relativas `a
METODOS DE INTERPOLAC
AO
Cabeca (HRTFsHead-Related Transfer Functions). Essas Nesse trabalho, s ao comparados tres metodos de inter-
func
oes modelam o caminho entre a posic ao da fonte virtual polac
ao: o m etodo bilinear (chamado aqui de cl assico), o
e as orelhas e, como s ao medidas para um conjunto nito de m etodo com IPTFs e o metodo incremental sobre os coe-
posic
oes ao redor do ouvinte, devem ser interpoladas para se cientes da KLT (KLT incremental). Esses tres metodos
poder posicionar a fonte em qualquer outra posic ao. Essa consideram que s ao conhecidas as HRIRs de determinadas
interpolac
ao normalmente e feita sobre as respostas ao im- posic
oes sobre uma casca esferica ao redor do ouvinte, e
pulso correspondentes a cada HRTF, chamadas de Respostas obtem a funcao interpolada como uma combinac ao linear de
ao Impulso Relativas ` a Cabeca (HRIRsHead-Related Im- tr
es HRIRs relativas aos pontos que formam uma regi ao tri-
pulse Responses) [6]. angular que contem a posic ao desejada.
Recentemente, os autores do presente artigo desenvolve- A diferenca basica entre esses metodos est a no tipo de
ram duas tecnicas de interpolac ao: uma baseada em uma func
ao ao qual s ao aplicados os ponderadores calculados.
func
ao auxiliar chamada de Func ao de Transferencia Interpo- Para uma dada posic ao, o valor dos ponderadores nos tres
sicional (IPTFInterpositional Transfer Function) que re- casos sao os mesmos, calculados atraves das dist ancias angu-
duz a complexidade computacional do procedimento de inter- lares entre as posicoes que formam a regiao triangular onde
polac
ao [7]; e outra que interpola incrementalmente os coe- se encontra a posicao desejada, como no metodo cl assico [10].
cientes da transformada Karhunen-Lo`eve (KLTKarhunen- No caso do metodo KLT incremental, esses ponderadores
Lo`eve Transform) relativos ` as HRIRs [8]. Naqueles traba- s
ao utilizados somente para se interpolar a HRIR da posic ao
lhos, foram realizadas comparac oes atraves de medidas obje- desejada na primeira vez que se entra em uma determinada
tivas que indicaram que o desempenho dos metodos propostos regiao triangular. A partir dessa primeira interpolac ao, se
equivalem ao de um metodo cl assico de interpolac
ao chamado nao houver mudanca de regi ao, a interpolac
ao incremental
de bilinear [3, 9, 10]. apenas corrige o valor da func ao de acordo com a diferenca
No presente artigo, realiza-se a avaliac ao subjetiva des- entre as posic
oes anterior e atual [8].
ses dois metodos e compara-se o resultado ao atingido com
o m etodo bilinear. Na pr oxima secao, faz-se uma breve ex-
M
etodo Cl
assico
Na Fig. 1, pode-se ver um setor de uma esfera, sobre a qual fo-
planacao sobre os metodos propostos em [7, 8]. Na sec ao se-
ram medidas as HRIRs dos pontos A, B, C e D. Nesse caso, os
FREELAND ET AL. AVALIAO DE DOIS NOVOS MTODOS PARA GERAO DE SOM 3D
grid
hA (k) wA
A
B A canal
. . sinal hB (k) wB esquerdo
monaural z
ou direito
P X
grid
hC (k) wC
D
.
AC
h(k)
Figura 1: Detalhe das regi
oes triangulares sobre a esfera
1 (, ) 1 (k)
de referencia.
canal
sinal z 2 (, ) 2 (k) esquerdo
ponderadores utilizados pelos metodos de interpolac
ao men- monaural ou direito
cionados para um determinado ponto P podem ser obtidos
a partir das coordenadas de elevacao e de azimute de
M (, ) M (k)
acordo com
Figura 3: Diagrama da representac
ao pela KLT.
wC = , wB = , (1)
grid grid
realiza a interpolac
ao atraves da Eq. (7) utilizando a HRIR
wA + wB + wC = 1, (2) medida relativa ao ponto mais pr oximo do ponto P e duas
sendo as dist
ancias angulares denidas como HRIRs aproximadas pela cascata desta HRIR medida e duas
IPTFs (uma para cada aproximac ao).
= P A , = P X , (3) A IPTF pode ser denida como
HRTFf
grid = B A e grid = C A . (4) IPTFi,f = , (8)
HRTFi
Como pode ser visto na Figura 1, deve-se calcular a dist
ancia
onde HRTFi e HRTFf s ao as HRTFs associadas com os pon-
em func ao das coordenadas dos pontos envolvidos na in-
tos inicial e nal, respectivamente.
terpolac
ao. Assim, como
Seguindo a nomeac ao de vertices explicada anteriormente,
A as HRTFs relativas ao ponto P, como na Eq. (7), podem ser
= , (5) descritas por
grid AC
pode-se obter HRTFP = HRTFA (wA + wB IPTFA,B + wC IPTFA,C ), (9)
onde os pesos wA , wB e wC s ao calculados atraves das
= A AC , (6) Eqs. (1) e (2). Nesse caso, o ponto mais proximo ao ponto P
e
grid o ponto A. Note que, para se obter reduc ao da complexidade
onde A = P A e AC = C A . computacional, deve-se utilizar o modelo de ordem reduzida
Deve-se notar que e a dist
ancia do ponto P ate o lado para as IPTFs obtidas pela Equac ao (8).
do tri
angulo que liga as duas elevacoes a partir do ponto A. M
etodo KLT Incremental
Na pratica, assume-se, sem perda de generalidade, que os Os coecientes da interpolaca o classica podem ser utiliza-
pontos A e B tem a mesma elevac ao. dos tambem sobre os coecientes de uma transformada cujas
De uma forma ou de outra, os metodos de interpolac ao func
oes da base representem as HRIRs [4, 12]. Em [8], foi pro-
partem das HRIRs referentes a cada um dos pontos (A, B posta uma forma incremental de se realizar a interpolacao no
e C) e, com os ponderadores, geram a HRIR do ponto P. domnio da transformada KLT.
Tendo-se as HRIRs medidas ou aproximadas1 , o resultado Com as funcoes-base j (k) da KLT do conjunto de HRIRs
nal da interpolac
ao
e descrito por medidas, torna-se possvel calcular a HRIR associada a cada
ponto (, ) sobre a esfera de referencia fazendo-se
hP (k) = wA hA (k) + wB hB (k) + wC hC (k), (7)
N
X
onde h() (k) e a HRIR do ponto () e h P (k)
e a HRIR do , k) = h(k) +
h(, j (, )j (k), (10)
ponto P. j=1
Deve-se notar que a interpolac ao e realizada sobre as
func
oes de fase mnima [11]. Para se obter a aproximac ao onde j (, ) s
ao as func
oes de coecientes a serem interpo-
nal o atraso da HRIR desejada deve ser includo na es- ladas, h(k) e a HRIR m edia do conjunto medido e N e o
trutura de interpolacao. Para isso, calcula-se o excesso de numero de funcoes-base utilizadas na representac ao. A KLT
fase de cada HRIR com relac ao `
a sua versao de fase mnima, consegue com um n umero reduzido de func oes-base concen-
que se aproxima muito de um atraso puro [9], e calcula-se trar quase toda a energia do conjunto representado. Com
atraves da ponderac
ao dos atrasos estimados das tres HRIRs isso, pode-se utilizar um numero M < N de func oes-base na
dos pontos A, B e C. representac
ao. A Fig. 3 mostra o diagrama em blocos que
A Fig. 2 mostra o diagrama em blocos do procedimento aproxima uma das HRIRs (canal direito ou esquerdo) de um
de interpolac
ao descrito para um dos canais (esquerdo ou sistema binaural atraves da KLT. A grande vantagem dos
direito) do sistema binaural. m etodos de interpolac
ao no domnio da transformada est a
no fato de que ao acrescentar-se mais uma fonte sonora vir-
M
etodo IPTF tual, o n
umero de multiplicac oes e acrescido apenas de M , ja
O metodo IPTF [1, 7] se aproveita da reduc
ao de ordem con- que sao os coecientes que contem a informac ao de direc
ao.
seguida para o modelo de IPTFs para diminuir a complexi- Partindo de um valor inicial, que pode ser interpolado
dade computacional da interpolac ao cl
assica. Esse metodo fazendo-se
1 j (, ) = wA j (A , A ) + wB j (B , B ) + wC j (C , C ),
O metodo classico utiliza as HRIRs medidas. N
ao
e ne-
cess
ario estim
a-las. (11)
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 32
FREELAND ET AL. AVALIAO DE DOIS NOVOS MTODOS PARA GERAO DE SOM 3D
4
x 10 pr
e-gravado, gerado segundo cada tipo de interpolac ao, a m
2 de que eles julguem o efeito percebido. A caracterstica a ser
Triangular
IPTF
julgada deve ser bem esclarecida aos avaliadores, e a forma de
1,5 Incremental resposta deve ser a mais simples possvel para que a resposta
seja quase imediata.
Para que a inu encia de qualquer diferenca seja facilmente
mpa
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 33
FREELAND ET AL. AVALIAO DE DOIS NOVOS MTODOS PARA GERAO DE SOM 3D
5 0,5
4 0,4
Taxa de acerto
Nota Mdia
3 0,3
2 0,2
1 0,1
0
0 Clssico IPTF KLT
Clssico IPTF KLT
Figura 5: Medias das notas de diferenca entre o metodo Figura 7: Taxas de acerto para o teste de sentido do
cl
assico e todos os outros. movimento.
N
NO NE Tabela 1: Tabela de confusao. Percepc
ao do movimento
para o metodo cl
assico. Valores percentuais.
Sentido Gerado
N NE L SE S SO O NO
O L N 51,5 0 0 0 57,6 0 0 6,0
NE 0 48,5 39,4 42,4 0 0 0 0
Percebido L 0 33,3 42,4 42,4 0 0 0 0
SE 0 18,2 18,2 15,2 0 0 0 0
SO SE S 45,5 0 0 0 33,3 0 0 0
S SO 3,0 0 0 0 3,0 27,3 30,3 15,2
Figura 6: Sentidos testados na avaliac
ao de percepc
ao O 0 0 0 0 0 36,4 36,4 15,2
de movimento. NO 0 0 0 0 6,1 36,3 33,3 63,6
para baixo e ` a esquerda (SO). Cada sinal tinha durac ao de L 3,0 33,3 57,6 27,3 6,0 0 0 0
5 segundos, sendo que no primeiro e no u ltimo segundo a
fonte virtual permanecia parada nas posic oes inicial e nal,
SE 6,1 18,2 12,1 45,4 6,1 0 0 0
respectivamente. Aos avaliadores perguntou-se para qual das S 30,3 0 3,0 0 36,4 0 0 0
8 posicoes a fonte havia se deslocado. SO 0 0 0 0 0 30,3 15,1 24,3
Na Fig. 7, podem-se ver os resultados das taxas de acerto O 0 0 0 0 0 39,4 45,5 21,2
para cada um dos metodos de interpolac ao. Nota-se que os NO 0 0 0 0 0 27,3 39,4 51,5
metodos de interpolac ao IPTF e KLT incremental conseguem
ser pouco melhores que o cl assico, podendo, portanto, subs-
titu-lo com alguma vantagem.
Esse teste indica que o metodo KLT incremental e pre- mostrado na Fig. 7, nota-se que h a uma pequena melhora
fervel na substituic
ao do cl assico, j
a que, alem de ser es- nas taxas de acerto (diagonal nas tabelas) para os metodos
truturalmente mais eciente para o caso de m ultiplas fontes, KLT incremental e IPTF, em relac ao ao metodo cl
assico. Isso
apresentou uma taxa de acertos mais elevada. ca mais evidente para o metodo KLT incremental. Pode-se
Nas Tabelas 13, pode-se observar o percentual das respos- perceber, tambem, que as maiores confus oes s
ao entre os sen-
tas dadas pelos avaliadores para cada sentido gerado. Como tidos N e S, entre os sentidos NO, SO e O e entre os sentidos
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 34
FREELAND ET AL. AVALIAO DE DOIS NOVOS MTODOS PARA GERAO DE SOM 3D
F
FRENTE A Tabela 4: Tabela de confus ao. Percepcao da posic
ao
para o metodo cl
assico. Valores Percentuais.
E
Posic
ao Gerada ,
D
G A B C D E F G H
A 54,6 27,2 6,1 30,3 0 0 0 0
B
Percebida ,
B 18,2 15,2 21,2 18,2 0 0 0 0
H C 3,0 36,4 60,6 12,1 0 0 0 0
C D 24,2 21,2 12,1 39,4 0 0 0 0
E 0 0 0 0 51,5 36,4 27,2 33,3
Figura 8: Posicoes testadas na avaliac
ao de percepc
ao F 0 0 0 0 36,3 42,4 48,5 6,1
da posic
ao est
atica. G 0 0 0 0 6,1 9,1 9,1 12,1
H 0 0 0 0 6,1 12,1 15,2 48,5
0,5
0,3 Posic
ao Gerada ,
0,2
A B C D E F G H
A 57,6 12,2 6,1 57,6 0 0 0 0
0,1
Percebida , B 0 24,2 21,2 9,1 0 0 0 0
C 0 24,2 60,6 9,1 0 0 0 0
0
Clssico IPTF KLT D 42,4 39,4 12,1 24,2 0 0 0 0
E 0 0 0 0 48,5 57,6 27,2 27,3
Figura 9: Taxas de acerto para o teste de posic
ao F 0 0 0 0 45,5 27,3 12,1 3,0
est
atica. G 0 0 0 0 6,0 9,1 15,2 9,1
H 0 0 0 0 0 6,0 45,5 60,6
O terceiro e u ltimo teste de avaliacao aplicado foi para ava- B 24,1 27,3 15,2 3,0 0 0 0 0
liar a ecacia de cada metodo com relac ao `a percepcao da C 15,2 24,2 39,4 9,1 0 0 0 0
posic
ao estatica. Para esse teste, como no anterior, geraram- D 15,2 27,3 30,2 48,5 0 0 0 0
se 24 sinais, 8 para cada metodo de interpolac ao. Para cada
E 0 0 0 0 51,5 30,3 30,3 18,2
m etodo, posicionou-se a fonte virtual nas localizacoes referen-
tes a cada um dos cubos mostrados na Fig. 8. Foi pedido ` as F 0 0 0 0 30,3 42,5 12,1 9,1
pessoas que respondessem em qual dos cubos a fonte sonora G 0 0 0 0 6,1 24,2 21,2 15,1
estava posicionada, considerando que a posic ao do ouvinte H 0 0 0 0 12,1 3,0 36,4 57,6
na gura era representada pelo cruzamento dos eixos, que ele
estaria olhando na direc ao da seta e que o plano sombreado
passava na altura das orelhas.
Na Fig. 9, veem-se as taxas de acerto para cada um dos de acertos igual a 77,7%. O segundo melhor e o m etodo
m etodos de interpolac
ao. Nota-se novamente que os metodos KLT incremental (67,5%), praticamente junto com o metodo
IPTF e KLT incremental conseguem praticamente a mesma cl
assico (66,7%).
taxa de acertos que o cl assico, com ligeira vantagem para o Dessa forma, conclui-se que os metodos testados podem
KLT incremental. ser considerados bons substitutos para o metodo classico,
Nas Tabelas 46 pode-se ver o percentual das respostas com uma certa vantagem para o KLT incremental, que na
dadas pelos avaliadores para cada uma das posic oes geradas. comparacao direta e o mais ecaz. Ao se desconsiderar a
Pode-se notar que para nenhum m etodo houve confus ao late- confusao frente/tr
as, o metodo IPTF tamb
em se mostra um
ral (nenhum sinal pareceu estar vindo do lado oposto ` aquele bom substituto.
em que foi gerado). O que realmente acontece e a confus ao
frente/tras e cima/baixo. Esse tipo de confus ao
e considerada
CONCLUSOES
normal, j a que a fonte foi posicionada em pontos do mesmo Neste trabalho, mostrou-se o conjunto de resultados de uma
cone de confus ao. Apesar disso, o metodo incremental com a avaliac
ao subjetiva realizada para dois metodos de inter-
KLT obteve um n umero maior de acertos para a maioria das polac
ao de HRTFs recentemente desenvolvidos pelos autores
posic
oes. do presente artigo. Esses resultados mostram a equivalencia
Geralmente, retira-se do c alculo de erros o efeito da con- entre os metodos de interpolac
ao propostos recentemente e o
fusao frente/tras, comum a todos os metodos, para se conse- cl
assico.
guir uma comparac ao mais clara entre os metodos quanto ` a Os resultados obtidos com os metodos KLT incremental
identicacao da posic
ao [2]. Nesse caso, somando-se os valo- e IPTF podem ser considerados um pouco melhores que o
res percentuais de mesma elevac ao e azimutes de mesmo sinal cl
assico.
(mesmo lado), o metodo IPTF obtem um n umero maior de Portanto, chega-se `a conclus
ao de que os metodos IPTF e
acertos para a maioria das posic oes, cando com uma media KLT incremental s ao fortes candidatos a substituir o metodo
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 35
FREELAND ET AL. AVALIAO DE DOIS NOVOS METODOS PARA GERAO DE SOM 3D
cl
assico. O m etodo KLT incremental e especialmente cotado [15] MATLAB, Statistics toolbox. Math Works Inc.
quando se trata do caso com m ultiplas fontes, onde sua baixa [16] D. R. Begault, Perceptual efects of synthetic reverbe-
complexidade o torna bem mais vantajoso [8].
ration on three-dimensional audio systems, J. Audio
E importante notar que as taxas de acerto aparentemente
Eng. Soc., vol. 40, pp. 895904, November 1992.
baixas (em torno de 40%) devem-se ao fato de n ao ter sido re-
alizado nenhum treinamento dos ouvintes antes dos testes (os [17] C.-J. Tan and W.-S. Gan, Direct concha exitation for
avaliadores foram apresentados aos tipos de som no momento the introduction of individualized hearing cues, J. Au-
da avaliacao). Al em disso, o teste exigia muito da capaci- dio Eng. Society, vol. 48, pp. 642653, July/August
dade de abstrac ao de cada um, j
a que o ambiente virtual n ao 2000.
REFERENCIAS
BIBLIOGRAFICAS
[1] F. P. Freeland, Gerac
ao eciente de som tridimensio-
nal, tese de doutorado, Universidade Federal do Rio
de Janeiro, Programa de Engenharia EletricaCOPPE,
Dezembro 2005.
[2] D. R. Begault, 3D Sound for Virtual Reality and Mul-
timedia. Cambridge, MA, USA: Academic Press, 1994.
[3] L. Savioja, Modeling Techniques for Virtual Acoustics.
Ph.D. thesis, Helsinki University of Technology, Depar-
tament of Computer Science and Engineering, Teleco-
munications Software and Multimedia Laboratory Es-
poo, Finland, December 1999.
[4] J.-M. Jot, S. Wardle, and V. Larcher, Approaches to
binaural synthesis, in AES 105th Convention, (Califor-
nia, USA), AES, September 1998. (preprint 4861).
[5] V. R. Algazi, R. O. Duda, and D. M. Thompson,
Motion-tracked binaural sound, J. Audio Eng. Soc.,
vol. 52, pp. 11421156, November 2004.
[6] B. Gardner and K. Martin, HRTF measurements of a
KEMAR dummy-head microphone, Technical Report
280, MIT Media Lab., Cambridge, MA, USA, May 1994.
[7] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Diniz,
Interpositional transfer function for 3D-sound genera-
tion, J. of the Audio Eng. Soc., vol. 52, pp. 915930,
September 2004.
[8] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Di-
niz, Interpolation of head-related transfer functions
(HRTFs): A multi-source approach, in Proceedings of
the XII European Signal Processing Conference, (Vi-
enna, Austria), pp. 17611764, EURASIP, September
2004.
[9] J.-M. Jot, V. Larcher, and O. Warusfel, Digital signal
processing issues in the context of binaural and tran-
saural stereophony, in 98th AES Convention, (Paris,
France), AES, February 1995. (preprint 3980).
[10] F. P. Freeland, L. W. P. Biscainho, and P. S. R. Di-
niz, Interpolac
ao bilinear generalizada de HRTFs para
gerac
ao de som tridimensional, in Anais da VIII Con-
venca
o Nacional da AES Brasil, (S ao Paulo, SP, Brasil),
AES, Junho 2004.
[11] A. Kulkarni, S. K. Isabelle, and H. S. Colburn, On the
minimum-phase approximation of head-related transfer
functions, in IEEE Workshop on Applications of the
Signal Processing to Audio and Acoustics, (New Paltz,
New York), IEEE, October 1995.
[12] J. Chen, B. D. V. Veen, and K. E. Hecox, A spatial
feature extraction and regularization model for virtual
auditory display, in IEEE International Conference
on Acoustics, Speech, and Signal Processing, vol. 1,
pp. 129132, April 1993.
[13] S. Moshier. Internet, November 2003.
http://www.moshier.net/pink.html.
[14] E. W. Weisstein, Anova. From MathWorldA Wol-
fram Web Resource. http://mathworld.wolfram.com/
ANOVA.html.
4o CONGRESSO
CONGRESSO / 10a CONVENO
CONVENC NACIONAL DA AES BRASIL, SAO
AO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 / 10 NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 36
Sesso 2
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira podem
ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste artigo
sem autorizao expressa da AES Brasil.
___________________________________
Comparison of Speech Enhancement / Recognition Methods
Based on Ephraim and Malah Noise Suppression Rule and
Noise Masking Threshold
Francisco J. Fraga1, Andr Godoi Chiovato2 e Lidiane K. S. Abranches2
1
Laboratrio de Sistemas Integrveis da Escola Politcnica da USP (LSI-EPUSP)
2
Instituto Nacional de Telecomunicaes - Inatel
So Paulo, SP, CEP 05508-900, Brasil
franciscojfraga@gmail.com, agodoi@radial.br, lidiane@inatel.br
ABSTRACT
The proposed speech enhancement system uses a noise-masking threshold in a frame-by-frame basis in order to
perform some important modifications in the original Ephraim and Malah (EM) algorithm. These increased the
amount of noise reduction and simultaneously provide a more efficient elimination of the musical noise
phenomenon. Perceptual evaluation results have shown that the new algorithm outperforms the standard EM
algorithm for all types of nearly stationary noise considered in the experiment, in a wide signaltonoise ratio
range of noisy signals from SpEAR database.
introducing the concept of noisemasking threshold, which is The signal critical band analysis
a wellknown property of the human auditory system [2]. The first step calculates the present energy in each critical
The basic gain function proposed by Ephraim and Malah was band, assuming discrete non-overlapping critical bands.
modified by adapting its parameters based on the calculation
of the noise-masking threshold. This allows us to find a good bhi
tradeoff between the amount of noise reduction and the
speech distortion in a perceptual sense.
Bi
Z
P(Z )
bli
(4)
MASKING PROPERTIES IN SHORT-TIME where bli and bhi are the lower and upper boundaries of the ith
SPECTRAL ATTENUATION ALGORITHMS critical band and P(Z) is the power spectrum.
If we assume that y(n), the discretetime noisy input signal, is
composed by a clean speech signal s(n) and an uncorrelated Spreading function
additive noise signal d(n), then we can represent it as: A spreading function Si is then convolved with the critical
band spectrum Bi, generating the critical-band spread
y(n) s(n) d (n) (1) spectrum:
In the class of shorttime spectral attenuation algorithms, Ci Si * Bi (5)
also known as subtractive-type algorithms, the processing is
where Si is given by [4], in dB :
done on a frame-by-frame basis in the frequency domain:
Si 15,81 7,5 (i 0,4) 17,5 1 (i 0,474) 2 (6)
S (Z ) G(Z ) Y (Z ) with 0 d G(Z ) d 1 (2)
The phase of the noisy speech is used in order to re The noisemasking threshold calculation
synthesize the enhanced speech signal. The best result The noisemasking threshold is obtained by subtraction of a
achievable by any kind of subtractive-type algorithms is relative threshold offset Oi depending on the noise-like or
given by the combination of the clean speech spectral tone-like nature of the masker and the maskee signals.
magnitude with the noisy spectral phase. Following Virag
[2], this situation is called the theoretical limit. Berouti et al. Ti 10 log10 (Ci ) (Oi / 10) (7)
[3] proposed a flexible form of subtractive-type algorithm. In
their algorithm, the gain function used to estimate the In Sinha and Tewfiks method [5], Oi is given by a simple
magnitude of the short-time Fast Fourier Transform (FFT) of estimation, based on the fact that often the speech signal has
the clean speech signal is given by: a tonelike nature in lower critical bands and a noiselike
nature in higher bands, as shown in Fig. 1
J 1/ J J .
D (Z) D (Z)
1
1D . , if DE
Y (Z) Y (Z)
G(Z) 1/ J
(3)
J
D(Z)
E Y (Z) , otherwise
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
where T(q,)min and T(q,)max are the minimum and where G(q1, Z) stands for the gain function (9) estimated in
maximum values of T(q,), respectively. the previous frame. A detailed explanation about the effect of
The function FE operates in a similar way. N.Virag [2] has each parameter of (10) and (11) in the gain function
expressed by (9) can be found in [6].
chosen Dmin = 1, Emin = 0, Dmax = 6, Emax = 0,02 for an
acceptable tradeoff between residual noise and speech The a priori SNR Rprio(q,Z) is evaluated by the nonlinear
recursive relation of (11) and is the dominant parameter in
distortion. The parameter J was fixed to 2.
(9), as we can see in Fig. 2. Strong attenuations are obtained
But we have found out that with this scheme it was not
possible to eliminate completely the musical noise only if Rprio is low and low attenuations are obtained only if
phenomenon. In our work, the information given by the noise Rprio is high. When Rprio is low and the a posteriori SNR Rpost
masking threshold was used to adapt the Ephraim and Malah is high, there is a very strong attenuation (lefthand part of
noise suppression rule, as explained in next section. Fig. 2). This behavior is a consequence of the disagreement
between a priori and a posteriori SNRs and it is actually
useful in the elimination of the musical noise.
PROPOSED SPEECH ENHANCEMENT SYSTEM
The standard Ephraim and Malah Suppression Rule (EMSR)
is a special type of shorttime spectral attenuation algorithm
where the spectral gain G(q,Z) applied to each shorttime
spectral component |Y(q,Z)| of the current speech frame is
given by:
S 1 R prio
G . M [T ] (9a)
2 1 R post 1 R
prio
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
where P and Q were experimentally set to 0.96 and 0.75, No processing 2,499 2,647
respectively, and the calculation of (q,Z) follows (8). The EMSR (P = 0.96) 3,254 3,257
time-frequency dependant perceptual overattenuation factor
Proposed algorithm 3,410 3,298
D(q,Z) operates in a way similar to parameter D in (3) and
depends on the noise masking threshold T(q,Z) (now with Theoretical limit 3,957 4,064
Dmin = 0.75, Dmax = 2.5), which is calculated for each frame q
as explained in the previous section.
Other important difference between our algorithm and In addition, we carried out an experiment using the
the standard EMSR is the presence of a third term in (13), proposed speech enhancement algorithm as a preprocessing
which was empirically proved to be efficient in increasing the step of a standard HMM connectedword speech recognition
smoothness of Rprio over successive frames, thus allowing system. The AURORA 2 experimental framework (based in
better reduction of the musical noise. It occurs because the a carefully prepared noisy database using the original clean
main cause of the musical noise is the inaccurate estimation TIDIGITS) was used exactly as described in [9], with the
of Rprio, which normally lead to great variations of this same frontend and backend, allowing direct comparison of
parameter over successive frames. performance with other systems.
TABLE IV
RESULTS AVERAGE WORD ACCURACY RECOGNITION RATE (%) TEST A
In order to compare the performance of our algorithm AND B (PARTIAL SNRS AND NOISE TYPES)
to the performance of the standard EMSR algorithm, we MULTICONDITION TRAINING FROM AURORA 2 DATABASE
performed an objective evaluation of the enhanced speech TEST A TEST B
quality using the PESQMOS [7] score. The noisy signals SNR
and the reference clean signals were obtained from the CAR TRAIN-STATION
(dB)
SpEAR [8] (tables I, II and III) and Aurora 2 [9] (tables IV, V ORIG OUR EMSR ORIG OUR EMSR
an VI) databases. In the first database (SpEAR), the noisy 15 97.61 98.09 98.15 95.53 97.69 97.50
signals were obtained by acoustically adding the clean signal
and the noise in a controlled environment. With several types 5 87.80 92.81 93.05 83.52 87.29 87.63
of noise combined with clean speech at different SNRs, the 0 53.44 80.50 81.39 56.12 69.82 69.81
results were presented in the form of averages (of both SNRs
and PESQ scores) from a total of 33 WAVE files.
TABLE V
AVERAGE WORD ACCURACY RECOGNITION RATE (%) TEST A AND
TABLE I B (PARTIAL SNRS AND NOISE TYPES) CLEAN TRAINING FROM
AVERAGE PESQMOS MEASURES AT SNR FROM 0 TO 5 dB AURORA 2 DATABASE
NOISE TYPE o WHITE PINK F16 FACTORY TEST A TEST B
SNR
(Average SNR ) (3,22dB) (2,78dB) (2,65dB) (3,49dB) CAR TRAIN-STATION
(dB)
No processing 1,980 1,917 2,094 2,414 ORIG OUR EMSR ORIG OUR EMSR
EMSR (P = 0.96) 2,487 2,386 2,484 2,756 15 90.04 95.35 96.69 83.65 92.38 93.77
Proposed algorithm 2,601 2,512 2,591 2,854 5 34.09 73.37 77.66 27.92 62.79 67.42
Theoretical limit 3,879 3,728 3,801 3,877 0 14.46 45.27 49.93 11.57 34.59 38.94
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONCLUSION
The perceptual results (PESQ-MOS) showed that our speech
enhancement system outperforms the standard EMSR
algorithm, for all noise types and SNRs considered in both
databases. The improvement can be mainly explained by the
effect of the introduction of a perceptualdependent
overattenuation factor in the derivation of Rprio and Rpost.
Regarding the speech recognition results, we can observe just
the opposite: the EMSR showed a slight better performance,
probably because it causes less distortion to the speech
signal.
REFERENCES
[1] Y. Ephraim and D. Malah, Speech enhancement using a
minimum meansquare error short-time spectral
amplitude estimator, IEEE Trans. Acoust., Speech,
Signal Processing, vol. ASSP32, no. 6, pp. 1109-1121,
1984
[2] N. Virag, Single Channel Speech Enhancement Based
on Masking Properties of the Human Auditory System,
IEEE Trans. Speech Audio Processing, vol. 7, no. 2, pp.
126137, March 1999.
[3] M. Berouti, R. Schwartz, and J. Makhoul, Enhancement
of speech corrupted by acoustic noise, in Proc. IEEE
ICASSP, Washington, DC, pp. 208211, Apr. 1979.
[4] M. R. Schroeder, B.S. Atal and J.L. Hall, Optimizing
Digital Speech Coders by Exploiting Masking Properties
of the Human Ear, in Journal of Acoustical Soc. of
America, pp. 1647-1652, 1979.
[5] D. Sinha and A.H. Tewfik, Low bit rate transparent
audio compression using adapted wavelets, Trans.
Signal Processing, vol.41, pp. 3463-3479, December
1993.
[6] O. Capp, Elimination of the Musical Noise
Phenomenon with the Ephraim and Malah Noise
Suppressor, IEEE Trans. Speech Audio Processing, vol.
2, no. 2, pp. 345349, April 1994.
[7] Antony W.Rix et. al., Perceptual Evaluation of Speech
Quality (PESQ). The New ITU Standard for EndtoEnd
Speech Quality Assessment, Journal of Audio Eng. Soc.,
vol. 50, no. 10, pp. 755778, October 2002.
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
A Visual Sound Description for Speech Corporas Manual
Phonemic Segmentation
She Kun1, Chen Shu-zhen1
1
School of Electronic Information, Wuhan University, Wuhan 430079, China
intel_ghost@sohu.com, szchen@whu.edu.cn
ABSTRACT
A visual sound description, called sound dendrogram is introduced to simplify speech corporas manual
annotation. Sound dendrogram is a lattice structure, constructed by an iterative procedure of mergence from a
group of seed regions. It can present the corresponding speech excerpts rich structure information ranging
from coarse to fine. Tests show that all phonemic boundaries are contained in this lattice structure and easy to
identify. If integrated into the existed speech analysis programs, sound dendrogram can provide essential
information for speech corporas manual annotation.
dendrogram, we believe, speech corporas annotation work signal representation S[ n] in some degree and then
could be much easier.
carrying a difference operation to it. Smoothing and
CONSTRUCTION OF SOUND DENDROGRAM differencing can be done in a single step, by convolving
each dimension of S[ n] with the samples of the minus of
Sound dendrogram is built by a local clustering
procedure. First, the audio signal is divided by some means a Gaussians derivative, that is,
into a sequence of small sections, called seed regions, t2
d 1 2
whose borders are all potential phonemic boundary (These d [n] g (t ) t nT , g (t ) e 2V (1)
regions and their borders locate at the bottom level of the dt 2V
dendrogram). Then, distance of every two adjacent regions
is computed and every couple of regions with local where T denotes the signal representations sample period,
minimum distance is merged to form a new region. In this and V is the parameter of the Gaussian function g (t ) .
way, a new set of regions are born and they locate at the Then a new function for rate of change is given by
second level in the dendrogram. After, a new turn of
mergence of closest regions follows and the dendrogram cV [n] S [ n]
d [ n] (2)
keeps growing upwards. This process repeats until only a
single region remains. The mergence step is illustrated by where the operator takes the magnitude of a vector. In
Figure 1.
order to have a fine level of sensitivity in cV [n] ,
Since whether to merge relies only on relative distance,
no threshold is needed. If the segmentation of seed V should be set to a small value.
regions is appropriate, several consecutive seed regions Finally, the local maximum points in cV [n] are
together will match a phoneme nicely, and they should
detected and used to form the seed regions. Since the
merge into a single region at some higher level in the
nonlinear modules in the 3rd stage of Seneffs model
lattice structure, as acoustic characters usually keep well
sharpen acoustic transition in speech [7], all real phonemic
stable through the duration of a phoneme in speech. On the
boundaries can be surely found. Some spurious borders
other hand, there is great difference between two regions
may be found too, but it does not matter much as these
separated by a phonemic boundary, so these two regions
borders will vanish quickly in the process of mergence
will resist merging and this boundary can spread to a very
when constructing sound dendrogram.
high level. Figure 2 shows a dendrogram produced in this
way and several other sound descriptions such as Distance Metric
waveform, spectrogram, etc. All of the phonemic At each level of sound dendrogram, a region is
boundaries (known by manual annotation) are contained in described by the mean of the signal representation vectors
the dendrogram and easy to identify, while the other of all samples belonging to this region, that is,
descriptions fail to give any information. n1
1
Signal Representation Srx S[i]
n1 n0 1 i n0
(3)
The segmentation of seed regions and the distance
metric are both based on a certain signal representation of where the samples indexed by n0 n1 belong to
acoustic sound. This paper adopts the third stage output of
an auditory model proposed by Seneff, which is a multi- region rx . Then, the distance between region r1 and region
dimensional representation and can be identified with the
average rate of neural discharge [7]. Rather than the r2 is defined as
strategy of framing before processing applied by short-
time analysis, such as Mel-frequency cepstrum coefficients, d (r1 ,r2 ) Sr1 -Sr2 u (1-cosD )
signal representation based on this auditory model is
reached by sampling after processing [8]. So, the Sr1 x Sr2 (4)
dynamic information in speech has been preserved in this cosD
signal representation through much smoother transition Sr1 Sr2
and thereby, it is capable of locating indistinctive
phonemic boundaries. where Sr1 -S r2 is the Euler distance between vectors
Segmentation of Seed Regions
To ensure that every phonemic boundary is among the
S r1 and S r , and
2
cos D is their normalized dot product.
borders of seed regions, the acoustic landmarks in speech The Euclidean metric over-emphasize the gain difference
are taken as seed regions border, since at these points the between two regions, and therefore two regions belonging
signal is undergoing significantly more change than in the to the same phoneme may keep from merging as a result of
neighboring environment, which always implies a the sound intensitys fluctuation. As shown in Figure 3, if
phonemes onset or offset. As mentioned above, the audio two adjacent regions belong to the same phoneme, the
signal is represented by a multi-dimensional according cosD approaches 1, and much less than 1 if
parameter S (t ) , so in this paper the magnitude of its first not. Glass [9] weights the Euler distance with 1/cosD
order derivative S (t ) is taken to indicate the rate of the
to magnify the distance between two regions separated by a
phonemic border. However, the Euler distance between
signals change. these two regions is significant, too, so the effect of
Since most analysis of speech is performed in a discrete
weighting is not obvious (See Figure 3). So, 1 cos D is
manner, the derivative operation has to be approximated by
adopted instead to suppress region distances within a
some discrete operator, such as smoothing the discrete
phoneme so that regions belong to the same phoneme
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 44
SHE ET AL. A VISUAL SOUND DESCRIPTION FOR SPEECH CORPORAS MANUAL PHONEMIC SEGMENTATION
merge much easily. were tabulated. Next, the time difference between the
boundaries found and the actual boundaries as provided by
the transcriptions was compared. Finally, the height
distributions of the valid/invalid boundaries in these
dendrograms were examined. The evaluation was carried
out using several sentences spoken by three subjects (two
male, one female); these speeches were sampled at 16 kHz
in a noisy computer room, and contained 165 units,
phoneme or syllable 1 .
The best-path alignment procedure gave almost none
Fig. 1 A turn of region mergence
deletion error and 13% insertion error, respectively. The
(a) The set of regions locating at the ith level and the distances tradeoff between deletion and insertion error is met by all
between two adjacent regions (all local minimum distances are phonemic segmentation algorithms. Since sound
marked with downward arrows); (b) The set of regions at the i+1th dendrogram is used to provide clue for manual annotation,
level
it is crucial to get the deletion error as little as possible.
Relative higher insertion error rate may be due to coarse
annotation. In fact, the insertion error was well suppressed
by adopting the distance metric illustrated in equation (4).
To prove that, the distance metric adopted by Glass [9] was
used instead, and the insertion error became 20%. The
sound dendrogram of the speech excerpt in Figure 2 was
constructed again with the latter distance metric, and is
showed in Figure 4. The regions belonging to phoneme /z/
failed to merge together as a result of the reason mentioned
above.
The Analysis of the time difference between the
boundaries found and the boundaries provided by the
transcriptions showed that more than 74% of the
boundaries were within 10ms of each other, while 80% of
them were within 20ms. This degree of accuracy is
comparable with those acquired by normal manual
annotation [5, 6]. Finally, the statistics of boundary heights,
valid and invalid, are shown in Figure 5. The valid
boundaries are typically higher, so they can be
distinguished easily from those invalid.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 45
SHE ET AL. A VISUAL SOUND DESCRIPTION FOR SPEECH CORPORAS MANUAL PHONEMIC SEGMENTATION
Defining a metric to measure how much convenience can be found in the literature, like Husson [11], which
sound dendrogram can bring to manual annotation is hard, providing an automatic path-finding algorithm. Although
if not impossible. Therefore several more typical examples there is still large developing space for these methods [12],
are given, instead (Figure 6-8). With sound dendrogram the automatic found path can provide a useful reference. So,
available, the manual phonemic segmentation work a reliable path-finding method is worthy of further research.
becomes observing (for example, the spectrogram) and
choosing (the phonemic border from the dendrogram), REFERENCES
much easier than deciding where to put phonemic borders [1] Tang M. Large Vocabulary Continuous Speech
without any reference. Recognition Using Linguistic Features and
Constraints. Ph. D. thesis, the Massachusetts Institute
of Technology, 2005.
[2] Campbell J, Reynolds D. Corpora for the Evaluation
of Speaker Recognition Systems. Proceedings of the
International Conference on Acoustics, Speech, and
Signal Processing. Phoenix, pp. 829-832, May 1999.
[3] Furui S. 50 Years of Progress in Speech and Speaker
Recognition.
http://www.furui.cs.titech.ac.jp/publication/2005/SPC
OM05.pdf.
[4] Padr M, Padr L. Comparing Methods for Language
Identification.
Fig. 6 The sound dendrogram of speech excerpt 0_1 http://www.lsi.upc.edu/~nlp/papers/2004/sepln04-
(a) The spectrogram; (b) The sound dendrogram (The shadow
lattices are the path best matched with the phonetic transcription and
pp.pdf.
found automatically by the time alignment tool, the same in Figure 7 [5] Laureys T, Demuynck K, Duchateau J, Wambacq P.
and Figure 8) An Improved Algorithm for the Automatic
Segmentation of Speech Corpora. Proceedings of the
3rd International Conference on Language Resources
and Evaluation. Las Palmas, pp. 1564-1567, May
2002.
[6] Sharma M, Mammone R. Blind Speech
Segmentation: Automatic Segmentation of Speech
without Linguistic Knowledge. Proceedings of the 4th
International Conference on Spoken Language
Processing. Philadelphia, pp. 1237-1240, October
1996.
[7] Seneff S. A Joint Synchrony/Mean-Rate Model of
Auditory Speech Processing. Journal of Phonetics,
Special Issue, Vol. 16, No. 1, pp. 55-76, 1988.
[8] Cosi P. Evidence Against Frame-Based Analysis
Techniques. www.pd.istc.cnr.it/Papers/PieroCosi/cp-
Fig. 7 The sound dendrogram of speech excerpt 5_2 NATO98.pdf
[9] Glass J R. Finding Acoustic Regularities in Speech:
Application to Phonetic Recognition. Ph. D. thesis,
the Massachusetts Institute of Technology, 1988.
[10] Rabiner L, Juang B H. Fundamentals of Speech
Recognition. Prentice Hall, 1993.
[11] Husson J L, Laprie Y. A New Search Algorithm in
Segmentation Lattices of Speech Signals. Proceedings
of the 4th International Conference on Spoken
Language Processing, Philadelphia, pp. 2099 -2102,
October 1996.
[12] Husson J L. Evaluation of A Segmentation System
Based on Multi-Level Lattices. Proceedings of the 6th
European Conference on Speech Communication and
Technology. Budapest, pp. 471-474, September 1999.
CONCLUSION
The sound dendrogram proposed by this paper can
reliably capture all phonemic boundaries in a speech.
When it is integrated into the existed sound analysis tools,
we believe, the efficiency of annotating speech corpora can
be improved significantly. Moreover, some automatic
method based on dendrogram for phonemic segmentation
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 46
Sociedade de Engenharia de Audio
Artigo de Congresso
Apresentado no 4 o Congresso da AES Brasil
Nacional da AES Brasil
10a Convencao
Paulo, SP
08 a 10 de Maio de 2006, S ao
Este artigo foi reproduzido do original nal entregue pelo autor, sem edic o es, correc o es ou considerac o es feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informac o es sobre a sec a o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduc a o total ou parcial
deste artigo sem autorizac a o expressa da AES Brasil.
Equalizador graco digital de alta seletividade
em VST
Leonardo de O. Nunes1, Alan F. Tygel1, Rafael A. de Jesus1,
e Luiz W. P. Biscainho 1
LPS PEE/COPPE & DEL/Poli, UFRJ
1
RESUMO
Este trabalho apresenta a implementac a o de um equalizador graco digital de 1024 canais lineares
agrupados em 10 oitavas, com alta seletividade. A estrutura escolhida foi um Fast Filter Bank (FFB),
banco de ltros altamente seletivos que preserva a baixa complexidade da FFT, em que se baseia. Os
ganhos atribudos a cada oitava sao interpolados suavemente atraves dos ganhos de cada subcanal. A
implementac a o e realizada na linguagem C++, sendo gerado um plug-in no padrao VST.
INTRODUC
AO portabilidade do sistema, utilizou-se o padrao de plug-
in VST1 , amplamente aceito por fabricantes e usuarios
A extraordinaria evoluc a o dos processadores dig-
de aplicativos de a udio prossional.
itais no u ltimo quarto do seculo XX abriu as por-
tas para uma verdadeira revoluca o que aproximou as Apos esta Introduca o, o artigo e organizado da
aplicac o es de ciencia avanc ada do usuario comum. seguinte forma. Uma breve revisao da estrutura
Especicamente na a rea de a udio, o processamento chamada FFB (Fast Filter Bank) e seguida do detal-
digital pode ser encontrado desde nos equipamentos hamento de sua implementaca o proposta no trabalho.
domesticos de som ate numa quantidade de aplicativos Na sec a o seguinte especica-se o equalizador graco
para manipulaca o e reproduca o de a udio disponveis que serve de aplicac a o ao FFB, fazendo-se a corre-
em computadores pessoais. E possvel montar um sis- spondencia entre os ganhos denidos pelo usuario e
tema domestico relativamente sosticado de processa- os ganhos reais do banco de ltros. Apos uma breve
mento de a udio a baixo custo. discussao do plug-in em VST, apresentam-se as con-
clusoes.
Este trabalho tem como objetivo mostrar o uso de
uma ferramenta avancada de ltragem numa aplicac a o
tpica de a udio que possa ser facilmente utilizada por FAST FILTER BANK (FFB)
um prossional sem a necessidade de conhecimento
Denic ao
especializado em processamento de sinais. Sera ap-
resentado, entao, o procedimento de projeto de um Esta sec a o descreve o Fast Filter Bank (FFB), que e
equalizador graco digital de 10 oitavas baseado em a estrutura adotada como base do equalizador descrito
um Fast Filter Bank de 1024 canais lineares. Este neste trabalho.
banco de ltros combina alta seletividade com baixa 1 A marca VST (Virtual Studio Technology) e
propriedade da
complexidade. A m de permitir a facil utilizac a o e Steinberg Co.
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
Legenda:
)
(j z 10
H i,
Canal 0
0
(i,j) (2,0)
H
i,j (z Canal 4 10
)
(1,0)
Canal 2
Ganho em dB
20
(2,1)
30
Sinal de Canal 6
(0,0)
Entrada 40
Canal 1
(2,2) 50
Canal 5
(1,1) 60
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
Freqncia normalizada
Canal 3
(2,3)
ltro da FFT.
Figura 1: Construc a o dos canais de um FFB de oito
canais a partir das versoes modicadas dos ltros-
kernel dos tres nveis da estrutura. 10
10
60
N1
1
70
2kn
X[k] = x[n] e j N , 80
N n=0 90
100
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
Freqncia normalizada
ordem reversa. Com isso, o ltro-kernel e deslocado Para reduzir a complexidade computacional, o FFB
na freque ncia e estreitado por interpolaca o dos seus utiliza ltros de meia-banda simetricos de ordem
coecientes, de acordo com sua posic a o na a rvore. mpar. Apenas metade dos coecientes desses ltros
As replicas indesejadas na resposta de um dado l- sao nao-nulos, o que permite reduzir o numero de
tro, decorrentes da interpolaca o, sao estruturalmente multiplicaco es necessarias a um quarto da ordem do
eliminadas nos nveis subsequentes da a rvore. ltro. Alem disso, o uso de ltros complementares,
Os ltros dos canais resultantes apresentam fase lin- relacionados pela expressao
ear e o mesmo atraso de grupo. Dessa forma, ape-
Hi j (z) + Hi j (z) = 1,
sar das ordens elevadas dos ltros envolvidos, o u nico
efeito signicativo sobre a fase do sinal e um atraso evita operaco es redundantes. A sada y(n) do ltro
global. complementar H i j (z) para uma entrada x(n) pode ser
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 48
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
0
WNjM hi [M]
20 2Li 1 zeros
40
20
..
.
Ganho em dB
40
WNj2 hi [2]
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
20
2 Li1
1 zeros
40
1 0,8 0,6 0,4 0,2 0 0,2 0,4 0,6 0,8 1
WNj hi [1]
1
0
20
WN j hi [1]
40
2 Li1
1 zeros
Freqncia normalizada
WNj(2) hi [2]
Figura 4: Construc a o do canal 0 de um FFB de oito ..
canais a partir das versoes modicadas dos ltros- .
kernel dos tres nveis da estrutura. Os gracos rep-
WNj(1M) hi [M 1]
resentam, de cima para baixo, a resposta de modulo 2Li 1 zeros
na freque ncia dos ltros (0,0), (1,0) e (2,0) e o ltro
WNj(M) hi [M]
resultante para o Canal 0 da Figura 1.
Tabela 1: Valores dos coecientes dos ltros H i j (z),
considerando um ltro-kernel H i (z) de ordem 2M + 1.
obtida atraves de:
Para tal foi necessario uma estrutura de dados que lev-
y(n) = x(n) y(n),
asse em conta o posicionamento dos zeros, de modo
onde a acessar a memoria diretamente (sem precisar per-
y(n) = hi j (n) x(n) correr toda a estrutura), alem de poder deslocar a
memoria alterando apenas um elemento.
e propria a sada do ltro H i j (z). Foi criada uma lista encadeada circular modicada,
O projeto dos ltros pode ser feito atraves do esquematizada na Figura 5, de modo a atender essas
metodo FRM (Frequency Response Masking) [5], que especicac o es. Cada elemento da lista contem um
permite a obtenc a o de ltros com banda de atenuac a o ponteiro para o seu antecessor, e mais quatro pon-
estreita, por interpolaca o de coecientes. teiros para os elementos situados a 2 Li amostras e
Em [6] pode ser encontrada uma discussao detal- a 2Li1 amostras, tanto a` sua esquerda quanto a` sua
hada do projeto dos ltros e da complexidade do FFB. direita. Essas distancias correspondem aos elementos
Os ltros obtidos em cada estagio da estrutura refer- nao-nulos (lembrando que para os coecientes h i [1] e
ente a` Figura 3, bem como o ltro resultante para o hi [1] a distancia e a metade). Um ponteiro sempre e
canal 0, podem ser vistos na Figura 4. mantido no elemento da memoria correspondente ao
coeciente em z0 e outro no elemento correspondente
Implementac ao a` amostra mais recente. Dessa maneira, a lista pode
Sera descrita a seguir a estrategia de implementaca o ser deslocada com apenas uma troca de ponteiros, e
do FFB adotada neste trabalho. os elementos nao-nulos podem ser acessados direta-
O FFB foi implementada em C++ [7], tendo mente.
sido criadas duas classes, a FfbFilter e a A classe FfbFilter utiliza essa lista encadeada
FfbFilterTree. A primeira descreve um u nico l- para implementar a memoria do ltro. Os coecientes
tro dentro da estrutura em a rvore, enquanto que a nao-nulos e nao-unitarios sao armazenados num vetor
outra descreve a propria a rvore. Sera feita agora uma estatico, membro da classe.
descric a o detalhada de cada classe. A ltragem e feita levando-se em conta o fato de
Os ltros utilizados pelo FFB possuem uma estru- os coecientes do ltro serem conjugados-simetricos;
tura muito particular que permite um numero reduzido para isso foi criada uma funca o que utiliza essa pro-
de operaco es. Apos as transformaco es necessarias de- priedade, requerendo o armazenamento de apenas
scritas em (2), os coecientes dos ltros se apresentam metade dos coecientes, alem de reduzir o numero de
como na Tabela 1. Como pode ser visto, o numero operaco es aritmeticas.
de elementos nao-nulos e nao-unitarios para os ltros Os dois principais metodos da FfbFilter sao o
Hi j (z) continua o mesmo do ltro-kernel H i (z). set param, no qual sao passados a posic a o do ltro
Os ltros foram implementados na forma direta nao- dzentro da a rvore (i e j) e os seus coecientes; e o
causal, multiplicando-se a sada da memoria pelo seu filter, que recebe um valor complexo correspon-
respectivo coeciente e somando os resultados, ape- dente a` entrada e retorna a amostra ltrada por ele e
nas para os coecientes nao-nulos e nao-unitarios. pelo seu complementar.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 49
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
Figura 5: Diagrama da organizaca o da memoria de um sub-ltro do nvel i, mostrando sua correspondencia com
os coecientes do ltro (abaixo). As casas marcadas com asterisco indicam os coecientes nao-nulos. As setas
indicam os ponteiros.
A classe FfbFilterTree possui um vetor contendo ltros atuam de 20 Hz a 20 kHz, limites aproximados
N 1 objetos do tipo FfbFilter, onde os ltros da audic a o humana.
estao ordenados externamente por i e internamente Um equalizador graco analogico emprega um po-
por j, ou seja, o primeiro elemento desse vetor cor- tenciometro para controlar o ganho de cada ltro ativo.
responde ao par (i, j) e (0, 0), o segundo e (1, 0), o Sua versao digital segue o mesmo princpio, sendo
terceiro e (1, 1), e assim por diante. o ganho denido por constantes multiplicadoras apli-
O construtor da FfbFilterTree le os coecientes cadas a` sada de cada ltro digital. O usuario atua
de cada ltro apartir de um arquivo-texto denominado sobre uma interface graca amigavel que frequente-
coefs.fir. Cada linha desse arquivo contem o valor mente simula o painel do equalizador analogico.
de metade dos coecientes nao-nulos e nao-unitarios
Uma conguraca o tpica de equalizador graco di-
de cada ltro, sucientes para o calculo. vide o espectro de a udio em oitavas, partindo do limite
O metodo que realiza a ltragem nessa classe e de- superior. Assim, considerando que se vai operar so-
nominado filter; recebe um valor em ponto utu- bre sinais digitais com qualidade de CD, cuja taxa de
ante como entrada e retorna um vetor complexo con- amostragem e de 44,1 kHz, o espectro u til se estende
tendo as sadas de todos os canais. A sada de cada l- ate 22,05 kHz. A u ltima (decima) oitava vai de 11,025
tro e armazenada no proprio vetor de sada (in place), a 22,05 kHz, a penultima de 5,5125 a 11,025 kHz e as-
da mesma maneira que na FFT [8]. sim sucessivamente, ate a faixa restante, de 0 a aprox-
Em [9] e mostrada uma simplicac a o adicional da imadamente 43,07 Hz.
estrutura do banco de ltros para o caso de sinais
Tendo-se decidido implementar o equalizador com
de entrada reais, utilizando sua simetria no domnio
base no FFB, cujo espacamento entre ltros e linear,
da freque ncia. Com isso, apenas metade dos l-
o numero de ltros que permite alcancar a resoluc a o
tros e utilizada, reduzindo o numero necessario de
de 43,07 Hz e 1024. Nesse contexto, o ltro 0 ca em
operaco es. A ordenaca o dos canais na sada do ltro,
torno de DC e o ltro 512, em torno de 22,05 kHz.
originalmente em bit-reversal, e perdida. Mais adiante
Em se tratando de sinais reais, cada par de ltros (i,
sera proposto um algoritmo para realizar a leitura dos
1024-i), 1 i 1023, recebera ganhos iguais e re-
canais, apos essa simplicac a o.
spondera pela i-esima faixa do espectro, entre 21,53i
O EQUALIZADOR e 21,53(i+2) Hz. Por sua vez, os ltros 0 e 512 podem
ter seus ganhos zerados sem prejuzo do desempenho,
Geral
Ideia ja que isso apenas limitara a faixa u til ao intervalo de
Em processamento de sinais, um equalizador se des- 21,53 Hz a 22,03 kHz.
tina a corrigir distorc o es lineares (de modulo e fase) A especicac a o de cada ltro do FFB determina,
sofridas por um sinal. Equalizadores para sinais de naturalmente, a complexidade global do sistema, que,
a udio normalmente objetivam corrigir modicac o es em u ltima analise, viabilizara ou nao a sua operaca o
introduzidas no sinal pelo sistema e pelo ambiente de em tempo-real. Os ltros utilizados neste trabalho tem
reproduca o do som. Os tipos mais comuns de equal- 40 dB de atenuac a o na faixa de rejeic a o, resultando
izadores de amplitude (modulo) sao: o parametrico, em ltros-kernel com 15, 11, 7, 3, 3, 3, 3, 3, 3 e 3
em geral com um numero reduzido de ltros com coecientes, em ordem crescente de i, equivalendo a
freque ncia central, ganho e largura de faixa ajustaveis; 16 multiplicac o es complexas por canal. Vale observar
e o graco, em geral com diversos ltros passa-faixa que os ltros podem ser alterados pela simples troca
com ganhos independentes por faixa. Tipicamente, os de um arquivo-texto, sem a necessidade de alterac a o
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 50
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 51
NUNES ET AL. EQUALIZADOR GRFICO DIGITAL DE ALTA SELETIVIDADE EM VST
NUNES ET AL.
EQUALIZADOR GR AFICO DIGITAL DE ALTA SELETIVIDADE EM VST
canais numa progressao geometrica de razao 2, pois ao [2] J. W. Cooley and J. W. Tukey, An algorithm
se retirar um ltro do nvel i da a rvore, 2 9i canais de for the machine computation of complex fourier
sada desaparecerao. Por exemplo, ao se eliminar a re- series, Mathematics of Computation, vol. 19,
sposta do ltro H1,2 (z), os 28 u ltimos canais desapare- pp. 297301, 1965.
cem da estrutura em a rvore. Para localizar os canais
[3] Y. C. Lim and B. Farhang-Boroujeny, A com-
na sada e necessario percorrer o vetor de sada em
ment on the computational complexity of slid-
incrementos crescentes de acordo com a progressao
ing FFT, IEEE Transaction on Circuits and Sys-
geometrica, lembrando que as sadas para os canais
tems - II: Analog and Digital Signal Processing,
k > 512 sao equivalentes a` s sadas para 1024 k. O
vol. 39, no. 12, pp. 875876, 1992.
algoritmo no Quadro 1 descreve esse procedimento.
Esse algoritmo e utilizado apenas uma vez dentro [4] Y. C. Lim and B. Farhang-Boroujeny, Fast lter
do plug-in; a posic a o de cada canal e , entao, salva num bank (FFB), IEEE Transactions on Circuits and
vetor, de modo a diminuir o numero de operaco es den- Systems-II: Analog and Digital Signal Process-
tro do bloco de processamento do sinal. ing, vol. 39, pp. 316318, May 1992.
Devido a` complexidade global do plug-in, sua [5] Y. C. Lim, Frequency-response masking ap-
implementaca o corrente ainda nao permite a execuca o proach for the synthesis of sharp linear phase
em tempo real, o que requerera otimizac a o adicional digital lters, IEEE Transactions on Circuits
do codigo. and Systems, vol. 33, pp. 357 364, April 1986.
CONCLUS OES [6] Y. C. Lim and B. Farhang-Boroujeny, Analy-
Este trabalho apresentou uma implementaca o em sis and optimum design of the FFB, IEEE In-
C++ do algoritmo FFB aplicado a` realizac a o de ternational Symposium on Circuits and Systems,
um equalizador graco digital no padrao VST. A vol. 2, pp. 509 512, June 1994.
motivaca o inicial foi empregar o FFB numa aplicac a o [7] B. Stroustrup, The C++ Programming Lan-
tpica de a udio que pudesse usufruir de sua alta sele- guage. Addison-Wesley, 2000.
tividade e baixa complexidade. O sistema nal imple-
mentado foi testado com sinais de a udio reais de alta [8] P. S. R. Diniz, E. A. B. da Silva, and S. L. Netto,
qualidade, tendo sido bem avaliado em testes infor- Digital Signal Processing: System Analysis and
mais. Outras aplicac o es para o FFB poderao utilizar a Design. United Kingdom: Cambridge, 2002.
implementaca o geral aqui apresentada. [9] J. W. Lee and Y. C. Lim, Ecient implemen-
Como continuaca o deste trabalho, pretende-se au- tation of real lter banks using frequency re-
mentar a velocidade de execuca o do processamento sponse masking techniques, Asia-Pacic Con-
pela substituic a o da estrutura em a rvore, mais exvel, ference on Circuits and Systems, vol. 1, pp. 69
pela formulaca o matricial descrita em [12]. 72, 2002.
AGRADECIMENTOS [10] W. H. Press, B. P. Flannery, S. A. Teukolsky, and
W. T. Vetterling, Numerical Recipes in C: The
Os autores gostariam de agradecer a Filipe C. da C.
Art of Scientic Computing. Cambridge, 1992.
B. Diniz, Iuri Kothe e Sergio L. Netto pelas valiosas
discussoes ligadas ao trabalho; e a` s agencias de fo- [11] Steinberg, Steinberg VST plugin. webpage,
mento CNPq e FAPERJ pelo apoio na forma de bol- 2005. http://www.steinberg.de
sas de iniciac a o cientca e de auxlio ao projeto de /Steinberg/Developers8b99.html.
pesquisa.
[12] Y. C. Lim and J. W. Lee, Matrix formulation:
REFER ENCIAS
BIBLIOGR AFICAS fast lter bank, IEEE International Conference
on Audio, Speech and Signal Processing, vol. 5,
[1] S. Haykin and B. V. Veen, Signals and Systems. pp. V 1336, May 2004.
John Wiley & Sons, 1996.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES BRASIL, SO
S AO PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 52
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Aplicao em udio da Aproximao
Mnimo Erro Mdio Quadrtico
importante salientar que FTs digitais tambm podem ser caractersticas ideais. A Fig. 1 mostra uma comparao
obtidas a partir das correspondentes funes analgicas. entre as respostas passa-baixa normalizadas ME com as
aproximaes clssicas utilizadas em crossovers. Todas as
COMENTRIOS SOBRE AS FUNES funes comparadas apresentam ordem n 4 e atenuao
CLSSICAS de $ p 3 dB no limite da banda de passagem normalizada
As funes clssicas usadas no projeto de crossovers Zp 1 rad/s . Uma funo LR de ordem quatro apresenta
para caixas acsticas sempre apresentam caractersticas naturalmente uma atenuao de $p 6 dB em
otimizadas em algum aspecto. A seguir, so comentadas as
caractersticas principais destas funes, considerando-se a Zp 1 rad/s . Assim, com o intuito de melhor comparar
mesma ordem n e a mesma atenuao $ p no limite da todas as funes, a aproximao LR foi escalada pelo fator
banda passante. ZN # 0,80224, de modo a apresentar tambm $ p 3 dB
aproximao BT.
Funes Linkwitz-Riley (LR) -1,5
CB
A aproximao LR [2] uma tentativa de se obter
-2,0
aproximao do tipo passa-tudo em sistemas de duas vias,
quando se soma uma funo passa-baixa e uma passa-alta.
Nesse caso, teoricamente no so introduzidas distores -2,5
na magnitude dos sinais. Na prtica, utiliza-se apenas
aproximaes LR de segunda e quarta ordem. A -3,0
-1 0
10 10
aproximao de segunda ordem obtida a partir da cascata Freqncia (rad/s)
de dois filtros de primeira ordem. A aproximao de quarta (a)
ordem obtida a partir da cascata de dois filtros BT de
segunda ordem. importante observar que a vantagem dos -5
filtros LR no existe no caso de sistemas de trs ou mais GS
-10
vias.
-15
LR
Funes Bessel (BS) -20
Magnitude (dB)
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 54
NOCETI FILHO ET AL. APLIC. EM UDIO APROX. ME
respostas passa-baixa normalizadas ME e LG, com a Definindo H como a mxima distoro na banda passante
caracterstica ideal (brick wall filter). Como pode se normalizada Z p 1 rad/s (em alguns casos H o ripple) da
observar na Fig. 1 (b), as funes LG e ME apresentam
caractersticas de atenuao semelhantes a partir de funo caracterstica K (Z) , tem-se que:
Z p 1 rad/s . A vantagem principal da funo ME que
K (1) .
esta apresenta um menor erro na banda de passagem em
relao resposta do brick wall filter do que a funo LG Ento $ (1) $ p 10log(1 H 2 ) dB
(e tambm em relao a todas as outras funes de
aproximao). Ento qual a razo da pouca popularidade 12
e H 10$p 10
1 . (4)
da funo ME? Em primeiro lugar, para sua determinao
so necessrias ferramentas computacionais que no eram
facilmente disponveis no passado. Em segundo lugar, A funo caracterstica de um filtro ME dada por (5), onde
porque a referncia [3] faz apenas uma meno a este tipo M n (Z) um polinmio de grau n em Z .
de aproximao e a referncia [4] apresenta as funes
caractersticas bsicas at a ordem nove e no apresenta
K (Z) H M n (Z) . (5)
uma forma sistemtica de clculo da constante de ganho.
Assim, se o projetista procura uma funo alternativa
2
funo CB (que apresenta o corte mais abrupto dentre Conseqentemente, H (Z) 1 H 2 M n2 (Z) . (6)
todas as funes polinomiais, porm com um ripple igual
atenuao em Z p 1 rad/s ) e funo BT (que apresenta Usando (2), obtm-se:
magnitude da resposta em freqncia plana e melhores
caractersticas de fase), a melhor opo sem dvida a H ( s ) H ( s ) 1 H 2 M n2 (Z) . (7)
funo ME, ao invs da funo LG. Z2 s 2
k 1
-1,5
Brick wall
-2,0 A funo ganho T ( s ) :
-2,5
1 b0
-3,0 T (s ) n n 1
, (9)
H (0) s bn 1s " b1s b0
-3,5
-4,0
-1 0
onde por (6), H (0) (1 H 2 M n2 (0))1/ 2 . (10)
10 10
Freqncia (rad/s)
Fig. 2. Comparao da magnitude da resposta em freqncia das Note na Tabela 1 que M n2 (0) 0 para n mpar e, neste
funes ME, LG e brick wall filter.
caso, H (0) 1 . Porm, para n par M n2 (0) z 0 . A
DETERMINAO DAS FUNES ME informao sobre a constante H (0) foi inserida em (9)
porque ela perdida no clculo das razes de H ( s ) H ( s ) .
A funo atenuao H () de um filtro encontrada a
A magnitude da resposta em freqncia da funo ME
partir de sua funo caracterstica K () usando (1).
obtida de forma que M n () seja o mais prximo de zero
2 2
na banda de passagem normalizada, usando o critrio do
H () 1 K () (1) mnimo erro mdio quadrtico. Em adio, estabelecida a
condio M n (1) 1 de tal forma que K (1) M n (1) .
Usando continuao analtica (da teoria de variveis O polinmio M n () tem a forma apresentada em (11),
complexas), substituindo Z2 por s 2 , obtida (2), a no caso de funes pares e a forma apresentada em (12), no
chamada equao de Feldtkeller. Aps encontrar as razes caso de funes mpares. Essa diferena necessria para
de H ( s ) H ( s ) , para que se obtenha uma rede estvel, que a funo ao quadrado tenha apenas coeficientes em
escolhe-se aquelas localizadas no semiplano lateral Z2 . Assim, aps a substituio de Z2 por s 2 , os
esquerdo (so os plos do filtro). coeficientes resultantes so reais.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 55
NOCETI FILHO ET AL. APLIC. EM UDIO APROX. ME
M n () a0 a22 ... an n para n par (11) para n t 6 . Assim, se for necessrio operar com maior
exatido, pode-se optar em trabalhar com o produto
e M n () a1 a33 ... an n para n mpar (12) M n () u M n ().
A Fig. 3 (b) apresenta a magnitude da resposta em
Os coeficientes so escolhidos de forma que a seguinte
freqncia das funes ME passa-baixa normalizadas de
integral (erro mdio quadrtico) seja minimizada:
ordem dois a cinco, com mxima atenuao na banda de
1 1 passagem Ap de 1 dB e 3 dB, respectivamente. Quanto
E (M
0 n () 0) 2 d = M n2 ()d .
0
(13)
menor o valor de Ap , mais a resposta da funo ME se
Por simplicidade, mas sem perda de generalidade, vista aproxima da resposta do brick wall filter na banda de
a seguir a determinao dos polinmios M 4 () e M 42 () . passagem. No entanto, o preo que se paga que as
Para n 4 tem-se: funes com menores Ap so menos seletivas na banda de
rejeio.
M 4 () a0 a22 a44 .
Magnitude (dB)
1 1
M (1 a
2
E n ()d 2 a4 a22 a44 )2 d.
0 0
-1,5
e -0,5
1
wE
[(2a 2a4 2) 2a22 -1,0
Magnitude (dB)
2
wa4 0
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 56
NOCETI FILHO ET AL. APLIC. EM UDIO APROX. ME
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 57
NOCETI FILHO ET AL. APLIC. EM UDIO APROX. ME
As razes de H ( s ) H ( s ) so 0
Magnitude (dB)
-5
Escolhendo as razes localizadas no semiplano lateral
esquerdo, forma-se o polinmio H ( s ) :
H (s ) s 2 b1s b0 , -10
onde b1 2a 1,664242474
-15
e b0 a 2 b2 1,58485150628 . 103
Freqncia (Hz)
Usando (10) calcula-se H (0) como: Fig. 4 Magnitude da resposta em freqncia do filtro ME passa-faixa.
1
1/ 2
CONCLUSES
H (0) 1 0,2589254 16 1,0080589458 .
Neste trabalho, foi discutida a funo de aproximao
Mnimo Erro Mdio Quadrtico que apresenta o menor
A funo de transferncia do filtro ME erro da magnitude da resposta em freqncia na banda de
passagem em relao resposta ideal do brick wall filter,
1 b0 dentre todos os outros tipos de funes de aproximao
T (s ) (17) clssicas conhecidas. Essa funo apresenta caractersticas
H (0) H ( s )
intermedirias de seletividade e de fase entre as
aproximaes Butterworth e Chebyshev e, portanto, uma
1,5721814 interessante opo de uso em lugar da aproximao
ou T ( s ) .
s 2 1,664242474s 1,58485150628 Legendre. Foi mostrada a forma de obter essas funes e
determinada uma simples equao para o clculo do ganho.
A equao (18) permite transformar uma FT passa-baixa
normalizada em uma passa-faixa com simetria geomtrica REFERNCIAS BIBLIOGRFICAS
[1]. Assim, a freqncia central do filtro Z0 (Zs Zi )1/ 2 . a
[1] S. Noceti Filho, Filtros Seletores de Sinais, 2 ed.
Em (18), B representa a banda passante dada por Florianpolis: Edufsc, 2003.
B Zs Zi 2S ( f s f i ) . a
[2] V. Dickason, Caixas Acsticas e Alto-falantes, 5 ed.
Rio de Janeiro: H. Sheldon, 1997.
s 2 Z02 [3] H. J. Blinchikoff and A. I. Zverev, Filtering in the
s . (18)
Bs Time and Frequency Domain, New York: Jonh Wiley
and Sons, 1976.
Substituindo (18) em (17), obtm-se [4] D. S. Humpherys, The Analysis, Design, and Synthesis
of Electrical Filters, N.J.: Prentice-Hall, Englewood
b0 / H (0) Cliffs, 1970.
T (s) 2
,
s Z
2
s 2 Z02
2
b1 b0
0
Bs Bs
O
4 CONGRESSO DA AES BRASIL, SO PAULO, SP, 08 A 10 DE MAIO DE 2006
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 58
___________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo Brasileira podem
ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total ou parcial deste artigo
sem autorizao expressa da AES Brasil.
___________________________________
O Mtodo FCC de Correo para Amplificadores Chaveados
Operando no Esquema Sigma Delta Resultados
Fundamentais
Marcelo H. M. Barros
Grupo de Materiais e Dispositivos, Departamento de Fsica e Engenharia Fsica, Universidade Federal de
So Carlos, 13565-905, So Carlos, So Paulo.
HotSound. Ind. Com. de Equipamentos Eletrnicos Ltda, 13.270-294, Valinhos, So Paulo.
marcelo@hotsound.com.br
RESUMO
Este artigo ir expor as bases e os resultados fundamentais do mtodo FCC de correo para amplificadores
chaveados. Centrado no tratamento matemtico, via tcnica variacional, este procedimento introduziu melhoras
muito significativas no sistema amplificador chaveado, chegando a ter desempenho completamente similar a um
amplificador linear de alto padro, em termos da distoro, da resposta em frequncias, do mdulo da impedncia de
sada e do rudo residual de fundo, mas preservando a alta eficincia energtica tpica de um amplificador chaveado.
2. DESCRIES FUNCIONAIS DE ALPHA, BETA E Onde se percebe claramente a diferena fundamental entre o
GAMMA-i, AS EQUAES DE VNCULO E O esquema PWM e o SDM (sigma-delta modulation): a
MTODO VARIACIONAL densidade de amostras no mais uma constante do sistema.
Um amplificador chaveado (classe-AD) tpico descrito por O sinal portador (carrier, ou bias em [4]) pode ser removido
Attwood [2,3], Vanderkooy [4] e citado por Duncan [1] e por um filtro passa-baixas (bloco LP Filter, na fig. 1) a fim
consiste na seguinte estrutura bsica: de recuperar o sinal original. Procedimentos deste tipo j
foram extensivamente tratados na literatura.
Attwood [2,3], Vanderkooy [4] e vrios outros pesquisadores
dedicaram grande parte de seu trabalho procura de um
mtodo de correo que elevasse o padro de qualidade
sonoro dos amplificadores chaveados ao mesmo nvel dos
amplificadores lineares. Uma leitura destes trabalhos e
outros, pode esclarecer o quo custoso esse objetivo,
especialmente em situaes de grande potncia, como o
caso do udio profissional.
Fig.1 Amplificador chaveado bsico (aps 1983), como
O mtodo NDFL, proposto por Cherry para amplificadores
proposto por Attwood
lineares [5], forneceu a inspirao bsica para a procura de
uma tcnica recorrente de realimentao negativa aplicada a
Esse modelo pode ser considerado padro. Em [4],
amplificadores chaveados e essa a proposta do mtodo
Vanderkooy cita a classe BD como uma variante da classe
FCC, consistindo em um conformador de ondas de estrutura
AD original. A alta eficincia energtica destas plataformas
recorrente, otimizado matematicamente para realimentar um
largamente discutida na literatura e no ser considerada
conversor SDM operando em classe AD ou BD. Sua estrutura
aqui. O sinal aplicado (da banda de udio, 20-20kHz)
guarda certa semelhana com a proposta por Cherry [5] para
convertido no bloco PWM Comparator, onde emerge como
amplificadores lineares.
um sinal binrio, de apenas 2 estados e de frequncia
O sistema inicia com um bloco alimentador ALPHA (), que
constante; no caso de Attwood e Vanderkooy seguindo o
distribui o sinal para n+1 conformadores diferenciadores,
esquema PWM (pulse width modulation) [2,3,4]:
2.500 V
iniciando com BETA () e se estendem atravs dos
GAMMA-i (i), (i = 1,2,...,n). O ndice i pode assumir
A: v3_1
B: v8_1
-0.500 V
estgio de potncia decrescem quando i aumenta, ocorrendo
-1.500 V
uma melhora muito significativa de todos os parmetros do
-2.500 V
0.000us 10.00us 20.00us 30.00us 40.00us 50.00us 60.00us 70.00us 80.00us 90.00us 100.0us
amplificador chaveado.
ALPHA, BETA e os GAMMA-i so funcionalmente
Fig. 2 Amostragem PWM, com Fb=100kHz, Fs=20kHz e
descritos pelas seguintes funes transferncia (no so
M=0,8, segundo [4]
funes realimentao), no domnio da varivel complexa s
(transf. de Laplace), como est definido em [9]:
Na figura 2, o sinal aplicado Fs senoidal puro com
F=20kHz e o relgio (clock), chamado bias em [4], tem
frequncia de 100kHz e do tipo rampa (triangular). M o 1 1
(s) = (1)
ndice de modulao [4]. O sinal PWM aparece na figura 3: A Bs 1
C: u3a_6
2.500 V
Ds 1
(s) = C (2)
Es 1
1.500 V
G s 1
0.500 V
-2.500 V
foram identificados como dados de sistema, chamados A, A0
-5.000 V
0.000us 10.00us 20.00us 30.00us 40.00us 50.00us 60.00us 70.00us 80.00us 90.00us 100.0us
e 'Z L e so oriundos da plataforma adotada, seguindo a
prescrio:
Fig. 4 Converso 1-bit sigma-delta para Fs = 20kHz e M =
0,8 segundo [6,7]
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
Para deformaes pequenas, temos que Nas medies foi empregado o analisador Audio Precision
System One + DSP com software APWin 2.24, interfaceado
2 2 pelo filtro auxiliar Audio Precision AUX-0025, conforme
wu 1 wu prescrito em [11]. As cargas so puramente resistivas. Todas
1 # 1 , por conseguinte, a extenso L
wx 2 wx as medies foram executadas em conformidade com as
referncias encontradas em [1], [10] e [11].
2
1 L wu A anlise para malha aberta, com Fb=192kHz forneceu
da corda aproximadamente L = L- L # dx , e a THD+N=0,6%, em regime permanente senoidal de 1kHz,
2 0 wx
carga fixa resistiva de 8 ohms e potncia mdia na carga,
energia potencial (trabalho realizado contra T ) dada por conforme definida em [1,10], de aprox. 625 Wavg.
2 Em [4] est definida uma tcnica de realimentao para
T L wu
Epot # T'L # dx , esta anlise nos permite escrever amplificadores chaveados. Ela foi implementada no mesmo
2 0 wx
prottipo classe BD, a fim de se fazer uma comparao direta
o Lagrangeano do sistema como sendo com o mtodo FCC. A medio forneceu THD+N = 0,9%,
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
nas mesmas condies. E como citado por Vanderkooy [4], a que chamaremos amplificador linear de referncia) e ter-se-
realimentao produzida por um integrador introduz uma exata idia da posio em que o mtodo FCC colocou a
distoro, apesar de alguma melhora em outras figuras de plataforma chaveada classe BD.
mrito.
Na prxima etapa, foi introduzido o conformador FCC, 3.1 Resposta em Frequncias
mantendo-se a mesma plataforma utilizada para as medidas Inicialmente a magnitude da resposta em frequncias, para o
anteriores. Foram executadas medidas sucessivas nas mesmas mtodo FCC:
condies e a cada uma incrementava-se o ndice i de uma TT
+10
+8
+2
-2
-4
+0 -6
-5 -8
d
-10 B -10
V
-15 -12
-20 -14
-25 -16
-30 -18
-35 -20
-40 -22
-24
-45
d -26
B -50
V -28
-55
-30
-60 20 50 100 200 500 1k 2k 5k 10k 20k 50k 100k 200k
-65 Hz
-70
-75
-95
-100
1k 2k 3k 4k 5k
Hz
6k 7k 8k 9k 10k
atuao do filtro AUX-0025
Fig. 5 Anlise espectral da tenso (normalizada) na carga,
para i = 1. THD+N=0,057% Percebe-se que, na banda de udio, a resposta perfeitamente
plana, pois o que se v quase que totalmente a marca do
Com i = 1 j foi possvel obter um valor bem superior aos filtro AUX-0025 [11]. Pode-se fazer a mesma medida para o
registrados anteriormente. Aumentando i ainda mais, vem: mtodo proposto em [4] e nas mesmas condies.
+10
T T
+0 +8
-5 +6
-10 +4
-15 +2
-20 -0
-25 -2
-30 -4
-35 -6
-40 -8
d
-45 B -10
d V
-50 -12
B
V -14
-55
-16
-60
-18
-65
-20
-70
-22
-75
-24
-80
-26
-85
-28
-90
-30
-95 20 50 100 200 500 1k 2k 5k 10k 20k 50k 100k 200k
-100 Hz
1k 2k 3k 4k 5k 6k 7k 8k 9k 10k
-10
-15
-20
-25
mtodo FCC encontra-se:
-30
T
TTT
T
-35 +40
-40
+30
-45
d
B -50 +20
r
-55
+10
-60
-65 +0
-70 -10
-75
d -20
-80 e
g
-85 -30
-90
-40
-95
-100 -50
1k 2k 3k 4k 5k 6k 7k 8k 9k 10k
Hz
-60
-80
THD+N=0,009% -90
20 50 100 200 500 1k 2k
Hz
5k 10k 20k 50k 100k 200k
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
+30
+10
+0 1
-10
0.5
-20
-30
d
B -40 0.2
r
-50
0.1
-60
-70 0.05
-80 %
-90
0.02
-100
-110 0.01
-120
10k 20k 30k 40k 50k 60k 70k 80k 90k 100k 0.005
Hz
+30
+10
-10
-30
d
-70
-80
-90
-100
resultado fornecido no incio dessa seo.
10
-110
-120
10k 20k 30k 40k 50k 60k 70k 80k 90k 100k
Hz 5
% 1
0.1
0.02
O mesmo procedimento para o prottipo assistido pelo Fig. 15 THD+N versus amplitude de entrada com sinal de
mtodo proposto em [4] obteve D 28 @ 8 ohms, com um teste de 1kHz para o amplificador de referncia. A amplitude
respectivo |Z| = 0,286 ohms. O valor original (obtido com a de sada 32dB maior. Abaixo carga de 8 ohms, ao centro
plataforma sem nenhuma realimentao) foi D 10 @ 8 carga de 4 ohms e acima carga de 2 ohms.
ohms, com |Z| = 0,8 ohms. Mais uma vez, os resultados para
o amplificador chaveado + FCC concordam muito bem com Este excelente amplificador de tecnologia linear fornece uma
os obtidos para o amplificador linear de referncia.
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
0.1
0.05
uma reduo no consumo de energia eltrica.
Atualmente, universidades e empresas do mundo todo
%
0.02
0.01
buscam desenvolver seus prprios mtodos em amplificao
chaveada e sempre com os mesmos objetivos: alta eficincia
0.005
0.001
Fig. 16 THD+N versus frequncia @ -6dB do mximo sinal de maneira otimizada para grande qualidade sonora, mas
admissvel, para carga de 2 ohms. Amplificador chaveado + mantendo a alta eficincia energtica. No futuro, com o
FCC aperfeioamento destes mtodos de alta eficincia, os
amplificadores lineares podero estar no mais completo
1
T
0.5
0.2
desuso.
0.1 Torna-se, portanto imperativo, que o meio acadmico do
%
0.05
Brasil, bem como s suas indstrias do setor de udio
0.02
profissional, dominem mtodos prprios e competitivos de
amplificao chaveada. Lembrando que os vrios mtodos
0.01
0.005
0.002
recentemente desenvolvidos no mundo todo so proprietrios
0.001
20 50 100 200 500
Hz
1k 2k 5k 10k e mantidos sob proteo.
Fig. 17 THD+N versus frequncia @ -6dB do mximo sinal
7. REFERNCIAS BIBLIOGRFICAS
admissvel, para carga de 2 ohms. Amplificador linear de
referncia
[1] Duncan, Ben; High Performance Audio Power
Amplifiers, Butterworth-Heinemann, 1996;
Onde se verifica, por comparao, a excepcional linearidade
[2] Attwood, Brian E.; Very High Fidelity Quartz
proporcionada pelo mtodo FCC em relao s diferentes
Controlled PWM (class D) Stereo Amplifiers for
frequncias do espectro de udio. O amplificador linear de
Consumer and Professional Use, An Audio
referncia apresenta nveis excepcionalmente baixos de
Engineering Society PrePrint, 1978;
THD+N nas frequncias mais baixas, contudo, nas mais altas
[3] Attwood, Brian E.; Design Parameters Important for
o comportamento no to bom. Em um sistema de alta
the Optimization of Very-Fidelity PWM Audio
qualidade este amplificador provavelmente seria indicado
Amplifiers, An Audio Engineering Society PrePrint,
para as frequncias mais baixas (sistema de graves), j o
1982;
amplificador chaveado FCC poderia ser utilizado em
[4] Vanderkooy, J.; New Concepts in Pulse-Width
qualquer faixa de frequncias.
Modulation, An Audio Engineering Society PrePrint,
Em toda a seo 3.4 a banda passante considerada pelo
1994;
analisador foi de 22-22kHz.
[5] Cherry, Edward M; Nested Differentiating Feedback
Loops in Simple Audio Power Amplifiers, J. Audio
4. FOTO DO PROTTIPO
Eng. Soc., Vol. 30, No. 5, 1982 May;
O prottipo utilizado nas anlises media cerca de 27x15cm e
[6] Klugbauer-Heilmeier, Josef; A Sigma Delta
pesava cerca de 500g, com potncia na faixa de 2kWavg.
Modulated Switching Power Amp, An Audio
Engineering Society Preprint, preprint 3227,1992;
[7] R. Esslinger, G. Gruhler and R.W. Stewart; Digital
Audio Power Amplifiers Using Sigma Delta
Modulation Linearity Problems in the Class-D Power
Stage, Audio Engineering Society Convention Paper,
2001;
[8] Arfken, G.B. & Weber, H.J., Mathematical Methods
for Physicists, Academic Press, 1995;
[9] Butkov, E., Mathematical Physics, Addison-Wesley
Publishing Company, Inc., 1968;
[10] Metzler, B. Audio Measurement Handbook, Audio
Precision, Inc., 1993;
[11] Hofer, B., Measuring Switch-Mode Power
Amplifiers, Write paper, Audio Precision, Inc., 2003.
Fig. 18 Prottipo classe BD + FCC
O A
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Parmetros Acsticos em Salas de Msica: anlise de resultados e
novas interpretaes
RESUMO
Este artigo apresenta anlises e concluses sobre resultados de medies de parmetros acsticos estabelecidos
como critrios para avaliao da qualidade acstica de salas de msica. As medies foram realizadas em seis
importantes salas de concerto de So Paulo, durante o ano de 2005, dentro do projeto Acmus desenvolvido na
Universidade de So Paulo. Primeiramente exibimos um quadro geral dos resultados para cada parmetro. Em
seguida, buscamos nas caractersticas arquitetnicas das salas as causas ou explicaes para os resultados
observados. Verificamos as limitaes de alguns parmetros, e sugerimos novas interpretaes que podem
enriquecer a compreenso sobre a avaliao da qualidade acstica das salas de msica.
Realizamos as medies nas salas do Teatro Municipal mesma sala. Entretanto, existem grandes diferenas na
de So Paulo, Teatro Srgio Cardoso, Anfiteatro percepo auditiva conforme mudamos de lugar num
Camargo Guarnieri (USP), Teatro Municipal de mesmo teatro, como pode ser verificado atravs das
Diadema, Teatro So Pedro e Teatro do Memorial da amostras musicais gravadas para a anlise do parmetro
Amrica Latina. RDR. Isso mostra como o parmetro RT60
absolutamente insuficiente para caracterizar a acstica de
uma sala.
RESULTADOS Verificamos que mesmo impresses como vivacidade
Tempo de reverberao (RT60): e reverberao, usualmente atribudas ao RT60,
mudavam bastante de acordo com os diversos locais de
Os resultados de reverberao foram, em geral,
escuta dentro de uma mesma sala, ainda que o parmetro
condizentes com a frmula de Sabine, ou seja: maiores
RT60 no apresentasse variaes na mesma proporo.
valores de reverberao para salas com maior razo
Certamente, outros parmetros exercem, juntamente com
entre volume e capacidade de absoro. As salas
o RT60, uma forte influncia sobre a impresso de
menores (Camargo Guarnieri, So Pedro e Diadema)
reverberao, conforme veremos mais adiante.
apresentaram menores tempos de reverberao em
Conforme as indicaes de Beranek [4] os resultados
comparao com as maiores (Municipal, Memorial e
de RT60 para o Teatro Municipal o colocam
Srgio Cardoso). Porm, algumas sutilezas do
essencialmente como um teatro bom para pera, os
comportamento do tempo de reverberao em funo da
teatros So Pedro e Camargo Guarnieri propcios para
freqncia podem ser melhor entendidas quando
msica de cmara ou reduzidas formaes orquestrais.
observamos as particularidades do tratamento acstico de
cada teatro.
Equilbrio entre graves e agudos (BR e TR):
O Memorial, que tem praticamente todas as paredes
cobertas por carpetes, e o Municipal, que tambm O parmetro BR usualmente relacionado ao calor
bastante acarpetado, so as salas que mais dispem de acstico, ou presena de graves. O parmetro TR
material absorvedor. O Camargo Guarnieri e normalmente relacionado ao brilho acstico. Os valores
principalmente o So Pedro tm relativamente pouca de BR e TR apresentam relativamente pouca variao
quantidade de material de absoro. Isso explica porque entre as diversas posies de captao numa mesma sala.
esses teatros apresentam tempos de reverberao mais As grandes dimenses da cmara reverberante no
estveis nas altas freqncias quando em comparao palco do Srgio Cardoso, e suas laterais de alvenaria,
com teatros maiores, porm mais absorvedores. fazem com que as ondas de baixas freqncias tenham
O Srgio Cardoso, que tambm um teatro usado para longos tempos de reverberao, gerando valores de BR
arte dramtica, possui um palco com 13.676 metros demasiadamente altos.
cbicos, que por si s um volume maior do que o de O Teatro de Diadema apresenta aberturas incomuns
alguns teatros. Isso resulta numa cmara reverberante nas laterais do palco, ocasionando um aumento
cujos efeitos podem ser comprometedores, quando no considervel na largura desse setor. Essa regio torna-se
bem controlados. A presena de alguns painis em torno propcia para o confinamento de ondas de baixas
do espao da orquestra no se mostrou suficiente para freqncias, ocasionando valores de BR relativamente
diminuir os efeitos do excesso de reverberao causado altos.
pela cmara reverberante e o resultado pode ser Alm de ser o teatro mais estreito, o Camargo
observado no grfico 1. Guarnieri o nico que apresenta em toda a extenso
lateral grande quantidade de superfcie de madeira
funcionando como membranas dissipadoras de energia
das ondas de baixa freqncia, o que resultou nos
menores valores de BR.
As paredes descobertas e lisas dos teatros So Pedro e
Camargo Guarnieri resultaram nos maiores ndices de
TR e o excesso de material absorvedor no Memorial
causou os menores valores desse parmetro.
Seguindo as orientaes bibliogrficas, analisamos as
amostras musicais gravadas nos teatros de maior BR
esperando perceber maior presena de graves nesses
teatros. Isso no aconteceu. A presena dos graves
percebida nas amostras no acompanhava a indicao
dos valores de BR, isto , teatros que apresentaram
grande diferena nos valores de BR no apresentaram a
mesma diferena na percepo auditiva da presena dos
graves, o que pode ser verificado fazendo-se uma
comparao entre as amostras gravadas e o grfico geral
Fig. 1: RT60 nas platias centrais dos teatros
de BR e TR.
Basta uma observao mais atenta na definio do
Com exceo do Teatro Municipal, que apresenta parmetro BR para concluirmos que de fato no faz
maior variedade de locais para escuta, os tempos de muito sentido esperarmos que ele seja bem
reverberao se mostraram, em geral, uniformes para correlacionado com a presena de graves. O parmetro
cada teatro, ou seja, no detectamos grandes variaes de BR engloba variveis de RT60, que informam a rapidez
RT60, para cada faixa de freqncia, dentro de uma do decaimento da energia acstica. A presena de graves
deve estar mais relacionada intensidade com que as
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 67
FIGUEIREDO E IAZZETTA PARMETROS ACSTICOS
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 68
FIGUEIREDO E IAZZETTA PARMETROS ACSTICOS
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 69
FIGUEIREDO E IAZZETTA PARMETROS ACSTICOS
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 70
FIGUEIREDO E IAZZETTA PARMETROS ACSTICOS
REFERNCIAS
[1] Iazzetta, F., Kon, F. and Silva, F. S. C. AcMus:
Design and Simulation of Music Listening
Enviroments, Anais do XXI Congresso da
Sociedade Brasileira de Computao, Fortaleza,
Brazil, 2001.
[2] ISO 3382 Acoustics Measurement of the
Fig. 5: Valores de RDR
reverberation time of rooms with reference to other
acoustical parameters, 1997.
[3] Figueiredo, F. L. Parmetros Acsticos Subjetivos:
Observamos um interessante padro no qual as Critrios para Avaliao da Qualidade Acstica de
posies de palco apresentam altos valores de RDR, as Salas de Msica. 2005. 258p. Dissertao de
posies do fundo da platia apresentam RDR baixo e as Mestrado. Escola de Comunicaes e Artes,
posies centrais, valores intermedirios. Isso mostra que Universidade de So Paulo, So Paulo, 2005.
o RDR um bom parmetro para indicar a distncia [4] Beranek, L. Concert halls and opera houses: music,
entre fonte sonora e local de captao, grandezas acoustics, and architecture, Springer-Verlag, New
referentes impresso de intimismo. York, 2004
Atravs da anlise auditiva das amostras gravadas,
percebemos que a sensao de intimismo e mesmo a de
reverberao muda bastante conforme a posio de AGRADECIMENTOS
captao, embora o parmetro RT60 se mantenha Esta pesquisa financiada pela FAPESP (processo n.
constante. Isso indica que ao lado do parmetro RT60, o 02/02678-0) e apoiada pela Roland Brasil.
parmetro RDR tambm determinante para a impresso
subjetiva de reverberao.
Quanto s suas aplicaes, o parmetro RDR pode ser
til como ferramenta auxiliar em simulaes acsticas ou
como monitorao do ponto de mixagem nos estdios de
gravao.
4
4O CONGRESSO
CONGRESSO / /10
10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 71
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Experimentaes de espacializao orquestral sobre a
arquitetura AUDIENCE
Leandro Ferrari Thomaz1, Regis Rossi A. Faria1, Marcelo K. Zuffo1 e Joo Antnio Zuffo1
1
LSI Escola Politcnica da USP
So Paulo, SP, 05508-900, Brasil
{lfthomaz, regis, mkzuffo, jazuffo}@lsi.usp.br
RESUMO
Descrevemos neste artigo a implementao de uma aplicao de espacializao orquestral desenvolvida sobre o
sistema AUDIENCE. O objetivo principal do AUDIENCE prover solues flexveis e escalveis para imerso
sonora multicanal. Abordamos um dos problemas tpicos em orquestrao: a configurao espacial do corpo
orquestral, erudito ou popular, com impacto direto sobre a apreciao da pea musical ou multimdia. A
aplicao proposta tem a finalidade de ampliar as possibilidades em orquestrao explorando aspectos espaciais
relevantes, e dando suporte para montagens usuais ou incomuns. Concebemos para tal uma cena musical virtual
com trs instrumentos, apresentamos o sistema construdo e resultados.
e para alto-falantes espalhados em forma esfrica em torno compositor e o regente na espacializao interativa
da audincia. Umas destas montagens pode ser vista na orquestral.
figura 1 [1]. O problema musical abordado neste experimento refere-
No Brasil, experimentos com a espacializao foram se espacializao de uma pequena orquestra, composta de
feitos principalmente por Fl Menezes, em peas como trs instrumentos contemporneos: contrabaixo eltrico,
Parcours de lEntit de 1994, para duas flautas, percusso guitarra eltrica e bateria tocando dentro de uma sala
e sons eletroacsticos, e Harmonia das Esferas, de 2000, cbica, conforme mostrado na figura 2. A posio do
para sons eletroacsticos octofnicos [2]. Na primeira ouvinte e dos instrumentos nesta cena pode ser alterada
pea, os flautistas se deslocam pelo espao cnico durante livremente, permitindo uma apreciao imediata e o
toda a apresentao. impacto sonoro da disposio desejada.
Esta formao til tambm quando o ouvinte tambm
um instrumentista que deseja simular uma sesso (ensaio)
tocando junto com os instrumentos virtuais, e assim avaliar
a melhor disposio relativa entre todos, segundo seus
propsitos. A formao atual pode ser expandida
explorando a escalabilidade do sistema, chegando mesmo a
poder considerar problemas musicais de grande porte,
efetivamente auxiliando o trabalho do compositor e/ou
regente.
ARQUITETURA AUDIENCE
O projeto AUDIENCE Audio Immersion Experience
Figura 1 Ensaio da pea Gruppen, de Stockhausen, para 3
by Computer Emulation est sendo conduzido na
orquestras. CAVERNA Digital da Universidade de So Paulo [5], um
ambiente de realidade virtual imersiva completa. O
Com essa evoluo, o compositor tem grandes objetivo principal o de investigar e prover solues
possibilidades para aumentar o interesse por sua flexveis e escalveis para imerso sonora multicanal,
composio, mas torna-se muito difcil para ele conseguir integradas ou no a ambientes de realidade virtual,
prever os resultados de suas idias espaciais sem que a conforme descrito em [3] e [4].
pea seja realmente executada, muitas vezes sem a
possibilidade de avaliar previamente por meio de um
ensaio real.
Idealmente, ele poderia ter uma orquestra com a
formao escolhida para a pea a sua disposio, fazendo
tantas experincias com a posio de cada instrumento
quanto necessrias. claro que esta situao
praticamente impossvel atualmente, devido ao custo de
mobilizar uma orquestra para este fim experimental,
deixando para o compositor apenas a alternativa da
imagem mental da formao orquestral e seu resultado
musical final.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 73
THOMAZ ET AL EXPERIMENTAES DE ESPACIALIZAO ORQUESTRAL
Em seguida, a camada do simulador acstico calcula a obtidas adicionando canais aos j existentes. O limite o
propagao acstica da fonte sonora at o ouvinte, processamento computacional do sistema e a banda
posicionando-a no espao, e criando a ambincia da sala. utilizada para transmisso destes canais.
No codificador de udio espacial, o sinal anecico Uma das grandes vantagens do Ambisonics utilizar um
convolucionado com as repostas impulsivas geradas na nmero fixo de canais (de acordo com a ordem do
camada anterior, codificando os sinais de udio espacial no sistema), independente do nmero de alto-falantes
formato da tcnica de auralizao escolhida. utilizados na reproduo. Desta forma, pode-se montar um
A ltima camada responsvel pela mixagem das fontes arranjo de oito alto-falantes em cubo para uma reproduo
sonoras j codificadas, decodificando o sinal de udio e tri-dimensional utilizando-se apenas quatros canais. Isto
reproduzindo o campo sonoro atravs de uma matriz de no ocorre nos sistemas de espacializao (ou surround)
alto-falantes. usuais, como o Dolby Digital 5.1 1 , que necessita de um
canal para cada alto-falante.
TECNOLOGIA E INFRA-ESTRUTURA UTILIZADA Embora o nmero e a disposio de alto-falantes possam
Ambiente Virtual ser variados, melhores resultados so obtidos com um
nmero maior e dispostos de forma regular em torno do
No presente experimento o ambiente virtual sonoro ouvinte [7].
produzido por oito alto-falantes dispostos em uma forma
octogonal em torno do ouvinte, como mostra a figura 4.
Plataforma de programao
Tcnica de espacializao
Estamos utilizando o PureData (PD) como plataforma
A tcnica de espacializao utilizada o Ambisonics, para a construo dos blocos de software do sistema e suas
definida por Gerzon em diversos artigos como [6] e [7]. conexes. O PD, desenvolvido por Miller Pucket [9], um
Ela permite a gravao, manipulao e reproduo de ambiente de programao grfico para aplicaes musicais
espaos sonoros tri-dimensionais, naturais ou artificiais. e de udio, amplamente utilizado nas comunidades afins.
O Ambisonics uma soluo tecnolgica de duas partes, A escolha desta plataforma foi feita por ser uma
pois a codificao e reproduo funcionam separadamente, ferramenta aberta, flexvel e com um tempo de reposta com
de forma que no necessrio preocupar-se com o sistema baixa latncia para o processamento de udio, alm de
de reproduo no momento da gravao ou da sntese permitir a lgica de ligao entre o subsistema de udio e o
(artificial) do espao sonoro. O formato de transmisso de visualizao.
conhecido por B-Format, e consiste em um feixe
O PD utilizado no projeto AUDIENCE como a
multicanal de no mnimo quatro canais individuais
ferramenta que liga os diferentes mdulos, operando em
(Ambisonics de 1a ordem).
cada uma das camadas apresentadas, e renderiza o udio
Parmetros psico-acsticos podem ser levados em para reproduo final. As funes de cada camada so
considerao na decodificao, incrementando as implementadas em blocos no PD. O software tambm
indicaes necessrias ao sistema auditivo no oferece recursos para que esses mdulos possam se
reconhecimento da posio da fonte sonora. Um filtro comunicar com o navegador de realidade virtual e o
utilizado de forma a tratar separadamente o sinal de udio, sistema operacional, tornando possvel a passagem de
acima e abaixo de aproximadamente 700 Hz, uma vez que parmetros da navegao para o sistema que trata o udio.
nosso sistema auditivo discerne a localizao dos sons
graves principalmente pela diferena de fase, enquanto que IMPLEMENTAO
dos agudos pela diferena de intensidade ou amplitude [8].
A seguir apresentamos os quatro blocos implementados,
De acordo com Gerzon [6], quanto maior a ordem do
correspondentes a cada camada do AUDIENCE, bem
sistema, maior o grau de realidade na reproduo do
espao sonoro e do espao de audio estvel (sweet spot).
A ordem do sistema determina o nmero de canais a ser 1
utilizado. A tcnica escalvel e ordens superiores so Dolby Digital 5.1 marca registrada de Dolby
Laboratories, Inc
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 74
THOMAZ ET AL EXPERIMENTAES DE ESPACIALIZAO ORQUESTRAL
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 75
THOMAZ ET AL EXPERIMENTAES DE ESPACIALIZAO ORQUESTRAL
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 76
THOMAZ ET AL EXPERIMENTAES DE ESPACIALIZAO ORQUESTRAL
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 77
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Impactos na Qualidade Acstica das Salas de Aula e
Atelier de uma Faculdade de Arquitetura e Urbanismo por
seus Alunos e Professores
Jos Geraldo Querido1, Cesar Augusto Alonso Capasso2
1
Universidade de Taubat - Taubat, So Paulo, 12020 270, Brasil
2
Universidade Santa Ceclia - Santos, So Paulo, 11702 160, Brasil
jgquerido@bighost.com.br - cesarcapasso@unisanta.br
RESUMO
A acstica ambiental e a arquitetnica so dos principais parmetros dos projetos dos espaos escolares urbanos.
A pesquisa apresentada trata do desempenho do espao interno de uma faculdade relatado pelos seus usurios:
professores e estudantes de arquitetura e urbanismo. Eles descrevem impactos acsticos, suas reaes usuais a
eles e como interviriam para a sua mitigao. Este artigo prope discutir ensino da acstica ambiental e
arquitetnica numa abordagem didtica, educativa e gestora, sensibilizando o arquiteto a partir de suas
experincias pessoais.
Discute-se a implantao de atividades laboratoriais em O questionrio do aluno se dirige a sala de aula que ele
complemento s aulas em sala, e a necessidade de que o utiliza durante as atividades do ano letivo e o do professor
aluno experimente a expresso prtica e terica dos aborda a sua experincia nas salas de aula em que atua. As
conhecimentos que suas competncias e habilidades questes so elaboradas de forma que leigos possam
requerem.[7] respond-las, bastando a vivncia do espao a ser
A Portaria MEC N 1.770/94 preconiza uma formao pesquisado. So utilizadas perguntas optativas e
de profissional generalista ao arquiteto. Afirma que deve dissertativas.
ser apto a compreender e traduzir as necessidades de O questionrio foi encaminhado a todos os 43
indivduos, grupos sociais e comunidades, com relao professores da faculdade por arquivo de texto na forma de
concepo, organizao e construo do espao interior e anexo em mensagem eletrnica via Internet. As respostas
exterior, abrangendo o urbanismo, a edificao, o foram enviadas caixa de mensagens e impressas sem que
paisagismo, bem como a conservao e a valorizao do se identificasse o respondente, a amostragem composta
patrimnio construdo, a proteo do equilbrio do pelas respostas enviadas pelos professores atingiu a
ambiente natural e a utilizao racional dos recursos 30,23%.
disponveis.[8] O questionrio foi aplicado aos alunos no interior da sala
Pressupem-se, portanto que as decises projetuais de aula, pelo pesquisador, que inicialmente esclarece que o
especificamente relacionadas acstica arquitetnica so procedimento autorizado pelo NAI e que os respondentes
estudadas num nvel no qual em determinados projetos o no seriam identificados.
arquiteto consultar acsticos. Porm, a utilizao de Cada turma do primeiro ao quinto ano do curso teve
especialistas no se justifica na maior parte dos casos, aos aplicado o questionrio em horrio de aula normal, sendo
projetos, atualmente, se exige a garantia da satisfao do pesquisada uma turma por dia no perodo de cinco dias
usurio e da eficincia energtica, coisa para a qual o consecutivos. A amostragem composta pela totalidade de
arquiteto deve estar preparado, j que um dos maiores alunos que compareceram a aula no dia e horrio da sua
responsveis pela qualidade ambiental final do espao aplicao e atingiu 60,07% do total de 273 alunos do curso.
arquitetnico e urbano.[9] Neste artigo apresenta-se tabulao geral, porm, pode-
O trabalho apresentado prope a realizao de exerccios se realizar tabulao por cada uma das cinco salas.
utilizando-se instrumentos subjetivos, cujas bases so Como h perguntas que possibilitam ao respondente
impresses dos alunos e professores em relao ao seu fornecer mais de uma resposta a tabulao considerou a
desempenho pessoal durante o decorrer das aulas, atividade porcentagem da recorrncia da pergunta no total de
na qual a acstica fundamental. respondentes, portanto a somatria dos valores porcentuais
A escolha da sala de aula como principal objeto de pode exceder aos 100% em alguns casos.
estudo visa demonstrar a importncia da qualidade
acstica, associada ao projeto de um edifcio para o qual
no cabe a presena de especialistas. O conforto acstico Questionrio aos professores
fundamental para o bom desenvolvimento das atividades Por favor, responda a partir de agora, especificamente
didticas e preservao da qualidade da sade de seus quanto ao Conforto Acstico das salas de aula (quinto
usurios, principalmente a dos professores, profissionais andar) desta Faculdade:
da voz, por vezes, inconscientes do fato.[10] 1- Voc sente dificuldade em ouvir e/ou entender as
Outro fator importante na escolha do ambiente escolar frases formuladas pelos alunos em sala de aula?
a atual necessidade da avaliao institucional continuada, Em curta distncia: entre a primeira fila e o meio da sala.
preconizada pelo MEC e que inclui a avaliao das ( )sim ( )no
instalaes, na qual se aborda questes do conforto
Em mdia distncia: Entre o meio e o fundo da sala.
ambiental das salas de aula.[11]
( )sim ( )no
O exerccio no est relacionado a qualquer disciplina,
trata-se de atividade livre desenvolvida por ocasio de uma 1.1- Em caso de resposta positiva, voc procura superar
pesquisa de mestrado, porm, poder ser incorporado s o problema? ( )sim ( )no
atividades do laboratrio de conforto ambiental e repetido 1.2- Em caso de resposta positiva, consegue resolver a
com freqncia torna-se instrumento didtico, de educao questo? ( )sim ( )no ( ) parcialmente
ambiental e contribui para a gesto acstica do espao pela 1.3- Em caso de resposta positiva, voc consegue
comunidade acadmica e pela mantenedora. identificar a origem do problema?
METODOLOGIA ( )sim ( )no ( ) no tem certeza
1.4- Qual ?
A pesquisa buscou um universo onde houvesse indcios
2- Voc percebe alguma dificuldade por parte dos alunos
de problemas relativos ao conforto ambiental e identificou
em ouvir suas palavras e/ ou compreend-las?
num trabalho do Ncleo de Avaliao Institucional (NAI)
de uma Universidade, dados que relatam a insatisfao do Em curta distncia: entre a primeira fila e o meio da sala.
corpo discente de uma das suas faculdades em relao s ( )sim ( )no
instalaes das salas de aula. Criaram-se dois instrumentos Em mdia distncia: Entre o meio e o fundo da sala.
que abordam aspectos subjetivos na forma de ( )sim ( )no
questionrios: o primeiro direcionado ao corpo discente e 2.1- Em caso de resposta positiva, como voc procura
outro ao docente. Desenvolveram-se levantamentos superar o problema?
espaciais de diversas tipologias alm de testes e clculos.
Todos os instrumentos so voltados caracterizao do 2.2- Em caso de resposta positiva, consegue resolver a
conforto acstico dos usurios durante o desenvolvimento questo? ( )sim ( )no ( ) parcialmente
das atividades didticas.
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 79
QUERIDO EECAPASSO
QUERIDO CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS
QUALIDADE ACSTICA
SALAS DE AULA E
DAS
ATELIER DE UMA SALAS DE AULA
FACULDADE E ATELIER DE
DE ARQUITETURA
UMA FACULDADE DE ARQUITETURA
2.3- Em caso de resposta positiva, voc consegue 2- Voc sente dificuldade em ouvir e/ou entender as
identificar a origem do problema? frases formuladas pelos outros alunos durante as aulas?
( )sim ( )no ( ) no tem certeza Em curta distncia: num raio de no mximo quatro
2.4- Qual ? carteiras.
3- H rudos externos sala de aula que so percebidos ( )sim ( )no
por voc durante as atividades didticas? ( )sim ( )no Em mdia distncia: num raio acima de quatro carteiras.
3.1- Quais so? ( )sim ( )no
3.2- Por favor, classifique o grau de incmodo pelos 2.1- Em caso de resposta positiva, como voc procura
rudos externos: superar o problema?
( )no incomoda ( )incomoda pouco 2.2- Em caso de resposta positiva, consegue resolver a
( )incomoda medianamente ( )incomoda muito questo? ( )sim ( )no ( ) parcialmente
3.3- Com qual freqncia ele (rudo externo) ocorre? 2.3- Em caso de resposta positiva, voc consegue
( )nunca ( )eventualmente ( )freqentemente ( )sempre identificar a origem do problema?
3.4- Em caso de provocar incmodo voc procura ( )sim ( )no ( ) no tem certeza
superar o problema? ( )sim ( )no 2.4- Qual ?
3.5- Em caso de resposta positiva, descreva como? 3- Voc percebe alguma dificuldade por parte dos
3.6- Em caso de resposta positiva, consegue resolver a professores em ouvir suas palavras e/ ou compreend-las?
questo? ( )sim ( )no ( ) parcialmente Em curta distncia: at quatro metros.
4- H rudos internos na sala de aula que so percebidos ( )sim ( )no
por voc durante as atividades didticas? ( )sim ( )no Em mdia distncia: acima de quatro metros.
4.1- Quais so? ( )sim ( )no
4.2- Por favor, classifique o grau de incmodo pelos 3.1- Em caso de resposta positiva, como voc procura
rudos internos: superar o problema?
( )no incomoda ( )incomoda pouco 3.2- Em caso de resposta positiva, consegue resolver a
( )incomoda medianamente ( )incomoda muito questo? ( )sim ( )no ( ) parcialmente
4.3- Com qual freqncia ele (rudo interno) ocorre? 3.3- Em caso de resposta positiva, voc consegue
( )nunca ( )eventualmente ( )freqentemente ( )sempre identificar a origem do problema?
4.4- Em caso de provocar incmodo voc procura ( )sim ( )no ( ) no tem certeza
superar o problema? ( )sim ( )no 3.4- Qual ?
4.5- Em caso de resposta positiva, descreva como? 4. H rudos externos sala de aula que so percebidos
4.6- Em caso de resposta positiva, voc consegue por voc durante as atividades didticas? ( )sim ( )no
resolver a questo? ( )sim ( )no ( ) parcialmente 4.1- Quais so?
5- Voc classificaria o desempenho da acstica das salas 42- Por favor, classifique o grau de incmodo pelos
de aula como: rudos externos:
( ) pssimo ( ) sofrvel ( ) regular ( ) bom ( )excelente ( )no incomoda ( )incomoda pouco
6- Voc identifica problemas relacionados diretamente a ( )incomoda medianamente ( )incomoda muito
acstica arquitetnica no atelier, que de alguma forma 4.3- Com qual freqncia ele (rudo externo) ocorre?
comprometem o desempenho das suas atividades e/ou lhe ( )nunca ( )eventualmente ( )freqentemente ( )sempre
incomodam? ( )sim ( )no 4.4- Em caso de provocar incmodo voc procura
6.1- Quais so? superar o problema? ( )sim ( )no
4.5- Em caso de resposta positiva, descreva como?
Questionrio aos alunos 4.6- Em caso de resposta positiva, consegue resolver a
Por favor, responda a partir de agora, especificamente questo? ( )sim ( )no ( ) parcialmente
quanto ao Conforto Acstico desta sala de aula: 5- H rudos internos na sala de aula que so percebidos
1- Voc tem dificuldade em ouvir e/ou compreender as por voc durante as atividades didticas? ( )sim ( )no
palavras dos professores? 5.1- Quais so?
Em curta distncia: at quatro metros. 5.2- Por favor, classifique o grau de incmodo pelos
( )sim ( )no rudos internos:
Em mdia distncia: acima de quatro metros. ( )no incomoda ( )incomoda pouco
( )sim ( )no ( )incomoda medianamente ( )incomoda muito
1.1- Em caso de resposta positiva, voc procura superar 5.3- Com qual freqncia ele (rudo interno) ocorre?
o problema? ( )sim ( )no ( )nunca ( )eventualmente ( )freqentemente ( )sempre
1.2- Em caso de resposta positiva, consegue resolver a 5.4- Em caso de provocar incmodo voc procura
questo? ( )sim ( )no ( ) parcialmente superar o problema? ( )sim ( )no
1.3- Em caso de resposta positiva, voc consegue 5.5- Em caso de resposta positiva, descreva como?
identificar a origem do problema? 5.6- Em caso de resposta positiva, voc consegue
( )sim ( )no ( ) no tem certeza resolver a questo? ( )sim ( )no ( ) parcialmente
1.4- Qual ?
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 80
QUERIDO
QUERIDO EECAPASSO
CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS SALAS DE
QUALIDADE AULA E
ACSTICA
DAS
ATELIER DE UMA SALAS DE AULA
FACULDADE E ATELIER DE
DE ARQUITETURA
UMA FACULDADE DE ARQUITETURA
6. Voc classificaria o desempenho da acstica das salas sobrepor-se aos rudos de fundo, indicam que a intensidade
de aula como: e a freqncia do impacto acstico so grandes. (Tab.3 e 4)
( ) pssimo ( ) sofrvel ( ) regular
( ) bom ( )excelente Sudorese 15,38%
7- Voc identifica problemas relacionados diretamente a Mal estar 7,69%
acstica arquitetnica no atelier, que de alguma forma Desidratao 7,69%
comprometem o desempenho das suas atividades e/ou lhe
incomodam? ( )sim ( )no Cansao 30,77%
7.1- Quais so? Desgaste 7,69%
Problemas na garganta 30,77%
Comprometimento das cordas vocais 15,38%
ANLISES E CONCLUSES Disperso 10,00%
A primeira concluso que se apresenta a ocorrncia de Incmodo 30,00%
impactos acsticos que interferem no desempenho de Desconforto provocado pela temperatura 20,00%
alunos e professores, eles so levantados nos instrumentos
objetivos e subjetivos. Portanto, conclui-se que a avaliao
Tabela 3 - Sintomas fsicos relacionados pelos professores
do NAI referendada pela atual pesquisa, e que o conforto ao mau desempenho do conforto ambiental do espao
acstico representa, junto aos usurios do espao da
faculdade, uma preocupao, influenciando diretamente
sobre as atividades didticas desenvolvidas. (Tab. 1 e 2) Quanto s questes relativas audibilidade os dados
obtidos nos instrumentos objetivos apresentam pontos
antagnicos em relao aos levantados pelos questionrios.
Em curta distncia: at quatro metros. Por exemplo: em todas as salas os testes de articulao
SIM 61,54% indicaram resultados muito bons, porm, contestados pelas
NO 38,46% respostas de professores e alunos que atestam problemas de
Em mdia distncia: acima de quatro audibilidade.
metros. Ao aprofundarmos a anlise com outros instrumentos
objetivos verificamos que o tempo de reverberao
SIM 92,31% calculado para cada uma das salas apresenta nveis muito
NO 7,69% superiores ao tempo timo de reverberao determinado
pela norma, isso, aliado a ocorrncia de rudos de fundo
Tabela 1 - Ocorrncia de dificuldade na audio ou pode piorar muito a articulao da sala, solicitando
entendimento das frases formuladas pelos alunos - pelo melhoria da relao sinal/ rudo o que pode explicar as
professor dificuldades relatadas nos questionrios.
Neste mesmo sentido h outros resultados dos
Em curta distncia: at quatro metros. questionrios dos professores que corroboram com a
SIM 28,66% hiptese de que o tempo de reverberao superior ao tempo
NO 70,73% timo de reverberao aliado aos rudos de fundo causam
problemas na relao sinal/rudo nas salas. Reaes tais
Em mdia distncia: acima de quatro metros. como falar vagarosamente, pedir silncio e falar mais
SIM 53,66% alto, obtidas dos professores quando inquiridos sobre
NO 45,12% dificuldades na audibilidade de suas palavras pelos alunos
podem relacionar-se a este tipo de impacto. (Tab. 4)
Tabela 2 - Ocorrncia de dificuldade na audio ou Neste caso os instrumentos subjetivos foram
entendimento das frases formuladas pelos professores - pelo significativamente importantes para a valorizao da
aluno dvida em relao aos resultados do teste de articulao, j
que, em todas as salas, quando questionados sobre a
Conclui-se tambm que os instrumentos de pesquisa inteligibilidade da comunicao, os alunos e professores
objetivos e subjetivos so complementares e importantes atestam dificuldades, o que intensifica a necessidade de
para as concluses que levem ao entendimento global da abordagens que levem a diagnosticar os causadores dos
avaliao de um espao, isso reforado neste caso em se impactos quanto audibilidade e articulao da sala.
tratando de uma avaliao ps-ocupao e onde os
instrumentos subjetivos representam a vivncia dos seus Pedindo silncio 7,69%
usurios, alunos e professores.
Falando mais alto 84,62%
Algumas das questes levantadas com os instrumentos
objetivos tm o seu impacto destacado pelas citaes Deslocando-me pela sala 7,69%
recorrentes entre os respondentes. Pode-se citar como Falando vagarosamente 7,69%
exemplo disso os rudos provenientes do corredor interno Resolve a questo 30,77%
de acesso s salas, que se destaca em relao ao rudo do
No resolve a questo 0,00%
buffet localizado em edifcio vizinho. A quantidade de
citaes que o corredor recebe de professores e de alunos Resolve parcialmente a questo 61,54%
significativa e supera em freqncia a de rudos externos.
A ocorrncia de problemas na garganta e nas pregas Tabela 4 - Reaes individuais dos professores contra a m
audio ou compreenso das suas palavras pelos alunos e
vocais de professores e a reao de elevar a voz para eficcia das reaes
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 81
QUERIDO
QUERIDO EECAPASSO
CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS SALAS DE
QUALIDADE AULA E
ACSTICA
DAS
ATELIER DE UMA SALAS DE AULA
FACULDADE E ATELIER DE
DE ARQUITETURA
UMA FACULDADE DE ARQUITETURA
Quando se trata de aspectos relacionados voz de prever que a participao ativa nos processos de
professores, no se pode desconsiderar que o curso em implementao de melhorias garanta a conservao e
questo noturno, e quase a totalidade de professores, tem preservao de materiais e equipamentos a serem
outras atividades profissionais diurnas nos seus dias de instalados, assim como, um potencial reconhecimento das
aula, no sendo possvel, portanto, relacionar ao ambiente melhorias. As hipteses iniciais levantadas junto aos
as possveis patologias. Para isso os resultados obtidos nos instrumentos subjetivos que podem ser diretrizes iniciais
instrumentos objetivos e subjetivos no se mostram para a correo ou mitigao dos impactos acsticos so:
conclusivos. - Necessidade de diminuio da influncia de rudos
Outro aspecto importante verificado que os dados internos e externos na sala de aula, que atualmente
levantados pelos questionrios junto ao corpo discente so mascararam a comunicao verbal e contribuem para a
respaldados pelos levantados junto ao corpo docente. Na disperso e desconforto dos usurios do espao, alm de
pesquisa confirma-se que a identificao dos impactos impactos na sade do corpo docente;
coincidente e refora a similaridade entre os levantamentos - Tratamento das salas quanto aos problemas de
com instrumentos objetivos e aqueles obtidos segundo a inteligibilidade durante as atividades didticas, que
percepo e vivncia dos espaos pelo corpo discente e atualmente comprometem o entendimento da fala e
docente. contribuem para a disperso e desconforto dos usurios do
A grande questo que fica em aberto refere-se a espao, alm de impactos na sade do corpo docente.
identificao dos graus de incmodo, sua freqncia e a Conclui-se que aes diretas no sentido da gesto dos
real interferncia dos impactos no conforto acstico, nas espaos da universidade e da faculdade so identificadas
atividades didticas e at na sade dos professores. Para nos instrumentos subjetivos e podem gerar aes no
isso ser necessria a incluso de medies acsticas, sentido da educao ambiental:
porm, pode-se determinar a tipologia de ensaios a partir - Os alunos poderiam ser orientados no sentido de no se
das informaes obtidas. reunirem nos corredores durante os perodos de aula,
Verificaram-se pontos de divergncia nos dados ocupando para conversas e reunies ocasionais o espao do
levantados junto ao corpo discente no que se refere aos hall da escadaria ou o espao do atelier, onde as atividades
graus de incmodo e a sua freqncia. Nota-se uma corriqueiras no seriam comprometidas pela influncia
tendncia de crescimento da intensidade das classificaes destas aes.
do impacto coincidente com o tempo de curso do aluno. - A diminuio da velocidade dos ventiladores em 20%
No que se refere utilizao de dados recolhidos nos muitas vezes diminui em 90% o rudo gerado por eles e
instrumentos subjetivos que podem gerar diretrizes e tambm poderia ser alvo de discusso entre os usurios.
influenciar nas aes de gesto ambiental do espao pode- - A criao de polticas ambientais que provoquem a
se concluir que alm da simples identificao dos impactos discusso da conduta acstica tica, junto ao corpo discente
acsticos h a reao de boa parte dos usurios quanto a e docente da faculdade. Pode iniciar-se pela discusso
sua mitigao, seja por parte de professores (Tab. 5 e 6) ou sobre o uso dos aparelhos celulares durante as aulas, assim
alunos. (Tab. 7 e 8) como abordar as conversas paralelas. Estas aes poderiam
ser ampliadas para todo o Campus, por exemplo,
Reagem 81,82% abordando o rudo por uso de carros com som ligado acima
No reagem 18,18% dos limites necessrios para a audio pelos seus
passageiros nas ruas do entorno do Campus.
- Programas que sensibilizem os professores para
Tabela 5 - Ocorrncia de reao individual ao incmodo por
rudos de fundo internos sala de aula professores notarem-se como profissionais da voz e da necessidade
de aes no sentido do uso correto do aparelho fonador e
para os procedimentos bsicos da higiene vocal so
Reagem 69,23% importantssimos.
No reagem 30,77% - Gerenciar as atividades do Campus de forma integrada
e considerando a interferncia entre os edifcios do ginsio
Tabela 6 - Ocorrncia de reao individual ao incmodo por de esportes, da piscina e da sala de musculao so
rudos de fundo externo sala de aula - professores medidas que mitigariam os impactos externos sem
qualquer custo inicial. Pode iniciar-se imediatamente pela
Reagem 58,43% adequao de calendrios e horrios de aulas e
competies realizadas na piscina e ginsio.
No reagem 41,57%
Conclui-se tambm que aes diretas no sentido da
interferncia fsica dos espaos da universidade e da
Tabela 7 - Ocorrncia de reao individual ao incmodo por
rudos de fundo internos sala de aula alunos
faculdade so identificadas nos instrumentos subjetivos:
- Intervenes relacionadas ao corredor interno no
sentido de diminuir a interferncia dos rudos gerados neste
Reagem 51,83% espao em relao ao interior das salas de aula.
No reagem 48,17% - Adequaes dos pisos das salas de aula e dos seus
mobilirios so identificadas nos instrumentos subjetivos,
Tabela 8 - Ocorrncia de reao individual ao incmodo por pois barulhos provenientes de rudos das carteiras so
rudos de fundo externo sala de aula alunos mencionados por alunos e professores.
- O nvel de rudo dos ventiladores pode ser analisado,
Isso indica um potencial de utilizao de mecanismos da, tomadas atitudes no sentido de programao de
que dependam da participao ativa dos usurios. Pode-se manutenes temporrias com o objetivo de evitar a
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 82
QUERIDO EECAPASSO
QUERIDO CAPASSO IMPACTOS NA QUALIDADEIMPACTOS
ACSTICANADAS
QUALIDADE ACSTICA
SALAS DE AULA E
DAS
ATELIER DE UMA SALAS DE AULA
FACULDADE E ATELIER DE
DE ARQUITETURA
UMA FACULDADE DE ARQUITETURA
emisso de rudos por vibraes oriundas de problemas O prximo passo no sentido do desenvolvimento de
mecnicos. Diretriz que indiquem futuras aquisies de instrumentos de sensibilizao da comunidade acadmica,
aparelhos de baixo nvel de rudo, em mdio prazo, boa para a importncia da utilizao de elementos do conforto
alternativa para minorar o impacto dos ventiladores. acstico no exerccio do projeto de arquitetura, a
- A melhoria da capacidade de absoro dos avaliao da real contribuio da experincia descrita neste
revestimentos da sala medida que auxiliaria no sentido da artigo junto aos estudantes e professores. A sua
diminuio do potencial de impactos de inteligibilidade e implantao como instrumento didtico regular, de
em menor escala dos rudos internos. Depende do discusso ambiental e de gesto acstica do espao
aprofundamento da prospeco acstica e de uma avaliao tambm deve ser .
mais profunda, j que os instrumentos subjetivos no
esgotam a questo. O clculo do tempo de reverberao REFERNCIAS BIBLIOGRFICAS
das salas, medida inicial desenvolvida junto aos
instrumentos objetivos, tambm indica a necessidade da
[1] ARTIGAS, J. B. V. A Funo Social do
ampliao do potencial de absoro dos revestimentos.
Arquiteto. So Paulo: Nobel, 1989.
Quando a pesquisa aborda as questes de qualidade
acstica do atelier, conclui-se que os impactos [2] BRASIL. Ministrio da Educao e Cultura.
identificados pelos alunos esto de acordo com as Portaria 1.770/94. Trata das diretrizes curriculares
hipteses levantadas pelos levantamentos in loco. Os para cursos de arquitetura e urbanismo. Braslia: DF,
instrumentos subjetivos demonstram-se eficientes, porm, 1994.
quando se analisa a importncia dada ao impacto, verifica-
se que as turmas mais antigas de alunos tendem a valorizar [3] CARVALHO, B. A. Acstica aplicada Arquitetura.
mais as interferncias em relao quelas que esto Rio de Janeiro: Livraria Freitas Bastos, 1967.
iniciando o curso.
Vale ressaltar que a surpresa em relao aos [4] DE MARCO, C. S. Elementos de Acstica
instrumentos objetivos foi a citao, por parte dos alunos, Arquitetnica. So Paulo: Nobel, 1982.
da interferncia de rudos externos no atelier, o que havia
sido desconsiderado. Essa identificao leva a necessidade [5] SILVA, P. Acstica Arquitetnica &
Condicionamento de Ar. Belo Horizonte: Termo
de aprofundamento da verificao da interferncia de
Acstica Ltda., 1997.
rudos externos incluindo-se o atelier em futuras medies.
Nas respostas dos professores e nas demais [6] PEREIRA, F. O. R.; BITTENCOURT, L.
consideraes dos alunos, quanto aos impactos no atelier, Configurao de Laboratrios de Conforto
os pontos levantados pelos instrumentos objetivos so Ambiental e Preservao de Energia. In: IX
ratificados: necessidade de elementos que contribuam na Congresso Nacional da Associao Brasileira de
absoro da energia sonora, isolamento entre cobertura Escolas de Arquitetura - XVI Encontro Nacional Sobre
metlica e ambiente interno e sua compartimentao Ensino de Arquitetura e Urbanismo UEL. Londrina,
acstica, possibilitando eventos simultneos. PR. Novembro, 1.999.
Sobre o exerccio realizado conclui-se que as
contribuies dos instrumentos subjetivos utilizados, no [7] MEIRA, M. E. Laboratrios, LABINF / LABCON /
sentido propositivo so vlidas. LABTEC: Configuraes Preconizadas. In: IX
Conclui-se que como primeiro passo no sentido da Congresso Nacional da Associao Brasileira de Escolas
delimitao dos problemas acsticos do espao pela de Arquitetura - XVI Encontro Nacional Sobre Ensino de
Arquitetura e Urbanismo UEL. Londrina, PR.
instituio, os dados obtidos junto aos usurios, abordando
Novembro, 1.999.
o seu desempenho nas atividades didticas confivel e os
questionrios junto ao corpo docente e discente so [8] BRASIL. Ministrio da Educao e Cultura. Portaria
complementares. 1.770/94. Trata das diretrizes curriculares para cursos de
As perguntas de carter classificatrio da sala de aula arquitetura e urbanismo. Braslia: DF, 1994.
(item 6 do questionrio aos alunos e item 5 do questionrio
aos professores) no se mostraram significativas para as [9] PEREIRA, F. O. R.; BITTENCOURT, L.
concluses quanto ao impacto acstico vivido pelos Configurao de Laboratrios de Conforto
respondentes. Considera-se que elas poderiam ser retiradas Ambiental e Preservao de Energia. In: IX
do questionrio sem trazer prejuzos para a pesquisa. Congresso Nacional da Associao Brasileira de
Notadamente os aspectos dos rudos de fundo foram Escolas de Arquitetura - XVI Encontro Nacional Sobre
mais bem delimitados do que os demais, relacionados ao Ensino de Arquitetura e Urbanismo UEL. Londrina,
condicionamento sonoro no recinto, isso se considerando a PR. Novembro, 1.999.
contribuio propositiva, porm, sob a tica da anlise do
impacto acstico no desempenho pessoal, a identificao [10] BEHLAU, M., DRAGONE M. L. S. e NAGANO L.
de problemas de audibilidade e compreenso das palavras A Voz que Ensina. Rio de Janeiro: Revinter, 2004.
entre os usurios do espao da sala de aula significativa.
[11] BRASIL. Ministrio da Educao e Cultura. Lei
Conclui-se que a delimitao do real impacto do espao
de Diretrizes e Bases da Educao Nacional (LDB),
em relao audibilidade s ser possvel com medies
Lei 9394/96. Braslia: DF, 1996.
acsticas, assim como, o nvel das aes em relao
interferncia dos rudos de fundo sero eficazes na medida
em que se estabelecerem comparaes dos dados
quantitativos in loco previstos pelas normas tcnicas.
4
4O CONGRESSO
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 83
Sesso 4
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Population-Based Generative Synthesis: A Real-Time
Texture Synthesizer based on Real-World Sound Streams
Csar Costa1,2, Jonatas Manzolli1, Fernando Von Zuben2
1Interdisciplinary Nucleus for Sound Studies (NICS)
2Laboratory of Bioinformatics and Bio-inspired Computing (LBiC/FEEC)
University of Campinas (Unicamp)
PO Box 6101, 13083-970, Campinas, SP, Brazil
{cesar;jonatas}@nics.unicamp.br, vonzuben@dca.fee.unicamp.br
ABSTRACT
The Population-Based Generative Synthesis (PBGS) is a real-time texture synthesizer - based on granular
synthesis - with a novel grain generation methodology. Real-world sound streams are used as a systemic control
source, bringing more versatility to the task of representing the final sonic objective. Therefore, PBGS is a
perceptual-friendly alternative to parametric methods of synthesis. Bio-inspired algorithms are conceived to
self-organize a population of sound grains in response to sonority and dynamical compositional stimuli. Based
on a variety of experiments, the outcome of the PBGS device resembles complex textures with a colorful timbre
palette, and inherits sonic attributes from the provided control references.
INTRODUCTION
Xenakis Screens [15] and subsequent Granular
Synthesis [14] surged on the 70s as a new sound
generative paradigm bringing more complexity and
colorfulness to digitally generated audio. It is based on
Gabors discoveries on the limitations of humans fast
frequency variation perception (acoustic quanta theory) [9].
An analogy to the acoustic quanta theory is shown in
Figure 1. Human visual space resolution has equivalent
limitations. On the left, a low-resolution quarter of circle is
shown and quantization could be easily perceived. On the Figure 1. Effect of resolution on perception.
right, a high-resolution image is presented. Although Xenakis wrote that complex sounds could be reproduced
quantized, it invokes a continuum perception. The way by playing a book of screens with a regular rate (just like a
sound is perceived is equivalently limited, being in movie with frames, see Figure 2). He defines a screen as a
frequency or in time. low-duration sound with well defined spectrum
distribution. In his work, a stochastic generative
COSTA ET AL. POPULATION-BASED GENERATIVE SYNTHESIS
methodology oriented by deterministic events is applied to Our proposal is to use real-world sound streams as a way
the screen generation process. of representing a desired sonority and defining the
objective sonic scenario. We apply bio-inspired techniques
to adapt the synthesizer behavior in order to make it
capable of producing sonic material associated with a
specified sonic scenario.
Going deeper on the application of real-world sound
streams, they are also used as dynamical control of the
synthesizer. The goal is not only to promote the
achievement of complex behavioral sound, but also to
control the synthesis with desired complexity.
BIO-INSPIRED MODEL
To provide the functioning reported above, it is
Figure 2. Book of Screens: sound seen as a movie. necessary to find a methodology to automatically extract
Xenakis method allows the user to compose sound sonic features from a screen sequence and store them in a
material with rich spectral and dynamical complexity. computer based structure. This extraction procedure is a
However, due to its parametrical nature, it is quite limited hard task due to its high-dimensionality and to the fuzzy
concerning intuitiveness of user interaction. Other notion of what should be a relevant sonic feature for
traditional granular synthesizers suffer from the same human perception. It is also necessary to develop a screen
limitation. The so-called Ecologically-based GS [11] has sequence generation technique guided by these sonic
arised as an alternative paradigm correlating synthesis features. These demands are not fulfilled by exact
methology with dynamic and perception of natural sounds, mathematical procedures.
but the sound organization is still assigned to the user. Bio-inspired computation is a set of techniques based on
Hence, to synthesize a desired sonority it is necessary to natural processes such as evolution, self-organization and
know how to properly organize the sonic material. social behavior. The purpose is to bring, by means of
Nonetheless, the use of natural sounds makes Ecologically- computer simulation, attributes like self-adaptation. Our
based GS the approach more akin to the one to be aim is to exploit transforming environments and self-
presented here. regulation to develop new operational conditions [8]. Some
As will be explained in the section devoted to the bio- common applications that have some relation to our needs
inspired model, bio-inspired computation allows the are self-organization (in the self-organizing process of the
integration between sonic features and compositional Representative Structure) and pattern recognition (when
strategies, controlling various aspects in the evolution of a automatically obtaining the relevant features).
population of sound material. We developed a sonic A population-based approach has been adopted. The idea is
control model based on a population-based search where to obtain the most representative population of screens
we envisaged that a composer, helped by a bio-inspired which could identify different details of the representative
algorithm, will be able to find a stimulating diversity of set. This way, the sonic features can be stored in the form
sounds. Given inherent self-organization on sound of reference prototypes. The Representative Structure
populations, we hope to generate variety and complexity in would be composed of a population of screens. In this task,
the sound domain such as biological systems produce [8]. self-organization has an important role on the process of
The paper is organized as follows. The next section identifying, organizing and separating screens with
presents an overview of the Population-Based Generative different features. These are well-known attributes of Self-
Synthesis (PBGS), followed by the presentation of relevant Organizing Maps (SOM) [12]. However, we have tried
aspects surrounding bio-inspired models. Next, a some alternative population-based self-organizing
description of the implementation is outlined, followed by algorithms, based on Artificial Immune Systems (AIS) [6]
the experiments and the analysis of the obtained results. and evolutionary computation (EC) [10]. Under the
Some concluding remarks are then presented in the last existence of reference prototypes, the self-organizing
section. process in denoted in the literature as Learning Vector
Quantization (LVQ) [13]. Figure 3 depicts the outcome of
OVERVIEW OF THE PBGS METHOD a two-dimensional LVQ process. The gray circles are the
input samples that will be represented by the black circles.
On PBGS we take advantage of Xenakis model synthesis Of course, the two-dimensional scenario should be
capabilities, explored in the context of a new interface interpreted solely as a pictorial view of what would happen
paradigm. We defined sonic scenario (SS) as the group of
sounds featured with a certain set of sonic qualities. The
composer expects the output material to be included in a
desired sonic scenario. Instead of controlling numerical
attributes in a parametric interface, we adopt bio-inspired
models as strategies to create distinct sonic control layers.
The essence of our approach has already been explored in
other contexts by the same research group [3,4,5]. We have
replaced Xenakis original stochastic frame generation
process by a bio-inspired algorithm, with unusual and
strongly desired attributes like diversity maintenance and Figure 3. Learning Vector Quantization bi-dimensional graphical
advanced search capabilities in feature spaces. sample. Gray: input samples. Black: representative population.
in practice, with the gray and black circles residing in similarity to those on the sonority reference input screen
spaces of a much higher dimension. sequence. In [4], GA is applied in a sound synthesis
The black circles correspond to the population of method and the paper supplies important considerations
prototypes that will pass through a self-organizing process about its use in sonic applications.
responsible for the final spatial configuration presented in Contrary to traditional applications of GA, PBGS is
Figure 3. Notice that the black circles are organized to interested in the whole population and not solely in the best
capture the most relevant aspects of the input samples. individual of the population. Notice that, given the fitness
They are called representative prototypes because they can function, the population at a given generation operates as
be interpreted as concise representations of the input an LVQ device.
samples, generally expressing a consensual explanation of
the local variability in the neighboring input samples. THE ARCHITECTURE
The task of PBGS is to produce sound material guided
Self-Organized Map (SOM) by a reference dynamic and that could be included in a
Results in Figure 3 can be obtained by means of a self- given sonic scenario. The architecture is presented in
organizing map (SOM). A Kohonens SOM associates Figure 4. On PBGS, we propose that the composer
high-dimensional data with a population of output nodes expresses his desired sonic scenario into a set of sound
arranged in a low-dimensional grid. Output nodes are samples arranged in a sequential sound stream, named
extensively interconnected with many local connections. Sonority Reference (SR).
Based on neurons organization principles, topologically
close nodes are sensitive to physically similar stimulus.
Thus, the output nodes are ordered in a natural manner
without external interference in a process called
unsupervised learning. After a repeated presentation of the
input dataset, output node positions will specify clusters or
vector centers that sample the input space such that the
density function of the vector centers tends to approximate
the probability density function of the input vectors [12]. A
deeper explanation can be found in [5] where SOM has
been applied in a timbre design methodology.
Figure 4. The PBGS Architecture
Artificial Immune Systems (AIS)
As screens, we have used low-duration sample frames
Artificial Immune Algorithms are adaptive procedures extracted from a source stream and windowed by a
inspired by the biological immune system and devoted to Gaussian-like envelope. A sound stream converted into a
the solution of challenging computational problems [6]. screen sequence is said to be on a Granular Domain (GD).
Biological Immune Systems are capable of recognizing a The first action of the system is to convert the sonority
wide range of antigens with a reduced number of reference into a screen sequence in the granular domain. At
antibodies, applying two mechanisms: clonal selection and this point, bio-inspired algorithms are applied to the
affinity maturation. Once these principles are applied in the sequence with the purpose of extracting prototypes with
realm of computer systems, it is possible to create a limited noticeable features and storing them in a computational
population of digital antibodies to represent a wide rage of structure denoted Representative Structure (RS). To
digital antigens (or input data). AIS has already been used accomplish this task, self-organizing maps or artificial
in sonic applications as reported in [3]. Antibody networks immune systems could be considered in isolation or
for self-organization are similar to self-organizing maps, integrated in a hybrid framework. In the experiments to be
except for the absence of a local neighborhood to guide the presented, self-organizing maps have been considered in
interaction of the antibodies. Besides, the size of the isolation.
population is self-regulated [7]. PBGS provides a second control level associated with
the synthesis process. The Dynamical Control (DC) input
Evolutionary Computation (EC) receives a sound stream that works as a guideline for the
The Genetic Algorithm (GA) is an Evolutionary output generation. Just as the sonority reference, the
Computation paradigm that consists of a set of dynamical control is converted into a screen sequence in
computational techniques based on Darwins Evolutionary the granular domain.
Theory and the survival of the fittest principle. Given a
population of individuals whose physical features are Further, the synthesizer applies the dynamical control
coded in a digital DNA, simple genetic operators like sequence to generate prototypes in the Representative
mutation, crossover and selection are repeatedly applied to Structure in order to obtain a screen sequence that once
produce the next generations. The fitness of each converted to a sound stream must be included in the sonic
individual in the population is provided by an objective scenario expressed in the sonority reference, and having its
function. The genetic operators promote a parallel dynamic related to the dynamical control. At this stage, an
exploration of the search space with a concentration of the evolutionary algorithm is implemented, so that the output
individuals in the most promising regions, i.e. regions stream is composed of individuals with better fitness
whose samples are given high fitness values. It happens extracted from a population of prototypes at a given
because individual with high fitness values are favored in generation of the evolutionary algorithm. The dynamical
the reproduction phase, having a higher probability of control screen sequence acts as a setpoint. It is expected
spreading his genetic material to the future generations. On that the output screen carries sonic features provided by the
PBGS, the fitness of an individual is proportional to its
4O CONGRESSO / 10
A
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 87
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
COSTA ET AL. POPULATION-BASED GENERATIVE SYNTHESIS
population at the Representative Structure and follows the The second module receives as input the RS and the
dynamics specified by the dynamical control. dynamical control stream. It chops the input stream in a
An interesting feature of PBGS architecture is that both grain sequence which is submitted to the SOM algorithm.
main procedures, sonority reference LVQ and output A sequence of best match grains (SOMs best matching
generation, could flow independently. So, it is possible to units) is obtained as a result and the output stream is then
vary system sonority during output generation. Thus, the reconstructed by an overlap technique.
synthesizer allows real-time operation in both of its inputs. This implementation is sample rate independent.
It is possible to vary output sonority maintaining the However, the frequency rate must be equal on both
learning process during presentation. In the other input, sonority reference and dynamical control streams.
working with the dynamic guidance gives the opportunity
to the composer to operate the synthesizer as a musical C++ version
instrument. Focusing on the real-time performance, a second
implementation was developed on C++ to work on Linux
Screen Comparison OS with PortAudio Sound API2 [2]. The main difference
All mechanisms presented for the self-organizing from the MATLAB version is that the training and the
procedure of the Representative Structure needs a specific synthesis modules could work in parallel as different
metric to compare its individuals. Our approach is to threads, allowing real-time sonority variation. Also, it has
calculate similarity on spectral domain applying the to be optimized to avoid unnecessary latency to output. At
traditional FFT algorithm. Thus, for optimal performance this time, an evolutionary algorithm was adopted to
grain sizes are chosen to be power of two. perform LVQ.
The real-time implementation uses PCM 16bit coded
Screen Context audio originated by a live microphone input or a RAW file
We could not see an individual screen isolated in time for both sonority reference and dynamical control. The
since time evolution is one of the most remarkable features output could be directed to soundcard output, to a RAW
of sound for our perception. Thus, we define a Screen file or both.
Context as the temporal circumstances that trigged the
appearance of a certain spectral event. Again, determining EXPERIMENTS AND RESULTS
what relevant features must be considered is a fuzzy task. Four experiments have been considered and are listed in
In our method, the individuals used in the population Table 1. Table 2 presents experiments parametric space,
were composed of the screens itself and their respective considering: grain size (GS), population size (PS) and the
context. The context is implementation-specific and its sonic population variety (SPV).
completeness may vary according to the computational
resources available. Exp. Objective
IMPLEMENTATION 1 Verify sonority and dynamic transference to output
The PBGS was implemented on two different 2 Verify if real-time performance can be achieved
architectures. At first, a non real-time prototype on the 3 Verify the influence of system parameters on behavior
MATLAB environment was conceived, intended to work
as a base for PBGS architecture development. Afterwards, 4 Verify spectral and dynamical tracking behavior
a C++ version under LINUX OS was programmed to yield
Table 1. Experiments and Objectives
real-time performance.
Parametric Space
MATLAB version Exp.
In the first attempt, the MATLAB environment has been GS (ms) PS SPV
chosen due to its easiness of reusing already available bio- 1 22 128 High
inspired algorithms (developed by the research group) and
2 11-92 128/256/512 Low
signal processing tools. It has been focused on the
development of the architecture and in the set up of 3 11-92 32/64/128/256/512 Low
algorithm details, having no real-time performance
4 11-92 128 Fixed
requisites. The resultant software has two modulates: one
for the RS training and another for the synthesis process Table 2. Parametric Space: GS (grain size); PS (population size,
itself. On this implementation, the sound streams were in power of two); SPV (sonic population variety, i.e., number of
coded in 16-BIT PCM and encapsulated on WAVE audio sounds in the population from different sources).
format.
On the first module, a SOM algorithm from Helsinki Experiment 1
University of Technology CIS SOM Toolbox1 [1] was Using MATLAB simulation, we verified if there were
used. It receives as input the sonority reference stream and traces of the sonority reference at the output stream and
functional parameters of the learning algorithm: grain size also if the dynamical control was operating correctly. We
(in samples), population size (number of SOMs neurons) used three different sonic scenarios: a male voice, a guitar
and training epochs (number of times that a grains is solo and a synthetic harmonically well-defined sound.
presented to the SOM). As output, it returns a population They were cross-presented to both inputs and the output
of grains that works as the RS. was further analyzed.
1 2
http://www.cis.hut.fi/projects/somtoolbox http://www.portaudio.com/
4
4O CONGRESSO / 10
CONGRESSO / 10 A CONVENO
CONVENO NACIONAL
NACIONAL DABRASIL,
DA AES AES BRASIL, SO 08
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 88
COSTA ET AL. POPULATION-BASED GENERATIVE SYNTHESIS
The results indicate that the obtained output presents systems parameters. Regarding the influence of grain size
relevant features derived from the sonority reference and on perception, the experiments have shown that smaller
the dynamics inherent to the control stimuli guided the grains implies in a poorer frequency definition (perceived
generation of the sound material. This effect can be in both listening and visual media). Figure 6 shows the
verified even visually using a sonogram (see Figure 5). result of the execution with a small grain 11ms (left) and
Please refer to the online reference3 for the sound files and with a large grain 185ms (right).
all the results. On Figure 5, the synthetic sound was used as Concerning to population size, output sound
a sonority reference and the voice was used as a dynamical complexness decreased dramatically when using few
guideline. On the left, the voice signal is in gray and the individuals. With the increase of population size it had low
output is in black. On the right, the output sonogram shows effect over sound complexity and caused a noticeable
that the high-energy peaks, generally associated with voice depreciation on system performance.
sounds, are present, but mixed with harmonically well-
defined lines, characteristic of the sonority reference.
4
4O CONGRESSO / 10
CONGRESSO / 10 A CONVENO
CONVENO NACIONAL
NACIONAL DABRASIL,
DA AES AES BRASIL, SO 08
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 89
COSTA ET AL. POPULATION-BASED GENERATIVE SYNTHESIS
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Sntese por Modelagem Fsica de Instrumentos de Sopro
Lus Carlos de Oliveira1, Ricardo Goldemberg2, Jnatas Manzolli2
1
FEEC-NICS-Bolsita do CNPq, 2IA-NICS; UNICAMP
CEP: 13083-970, Campinas, SP, Brasil
{luis,rgoldem,jonatas}@nics.unicamp.br
RESUMO
Este artigo est centrado na reviso bibliogrfica de mtodos de sntese de som de instrumentos musicais de
sopro, especificamente o naipe das madeiras; clarinetas, os saxofones entre outros. A sntese por modelagem
fsica uma tcnica que vem ampliando seu grau de importncia, pois oferece maior interao entre o msico e
o modelo computacional que representa o instrumento simulado. Este artigo dividido em trs seces: Sntese
Musical por Modelagem Fsica, Modelagem Fsica de Instrumentos de Sopro e Mtodos Experimentais
necessrios para determinao e anlise de parmetros envolvidos no processo de gerao sonora destes
instrumentos.
musicais de sopro. So apresentadas algumas equaes e dissipao trmica. Desta forma, um instrumento de sopro
estratgias adotadas na modelagem. necessita de uma fonte externa de suprimento de energia,
A segunda seo dedicada aos artigos que tm por pois o prprio processo de produo sonora consome a
preocupao a determinao e anlise dos parmetros energia intrnsica do sistema. Quanto mais energia
oriundos dos modelos fsicos. Este tratamento obtido suprida, mais dissipada mas ainda assim a amplitude de
especificamente atravs de experimentos. Nela so oscilao cresce. Vale a recproca quando a energia suprida
apresentados modelos empricos para a amplitude e diminui.
frequncia de notas em trs regies distintas da clarineta. O trabalho de Bouasse [4] marca a transio entre os
Estes resultados so componentes de nossa pesquisa. trabalhos desenvolvidos por Helmholtz e a era moderna.
A ltima seo trata genericamente dos algortmos que Mais recentemente, Benade [5, 6, 7, 8, 9] tambm
abordam os modelos voltados para a sntese de desenvolveu uma srie de trabalhos tericos e
instrumentos musicais. O foco est direcionado para os experimentais sobre instrumentos de sopro de madeira bem
resultados na performance artstica. como um conjunto de modelos de tais instrumentos. Alm
Finalmente, este artigo se encerra com um levantamento dele, Fletcher e Rossing [10] detalharam modelos de vrios
dos problemas apontados pelos diversos autores e so outros instrumentos em um minucioso trabalho.
apresentadas algumas propostas para a continuidade deste
trabalho. MODELAGEM FSICA
Segundo Smith [11], existem basicamente dois tipos de
modelos fsicos utilizados para a sntese de som de
PANORAMA HISTRICO instrumentos musicais: os modelos globais (lumped
No tutorial dedicado ao estudo da modelagem fsica de model) e os modelos distribudos (distributed model).
instrumentos de sopro, Keefe [1] faz um pequeno apanhado O modelo global consiste em equaes que no
histrico. Ele cita Helmholtz [2] onde, na primeira edio descrevem microscopicamente os fenmenos envolvidos
de On the Sensations of Tone de 1862, estabeleceu os em um sistema. Ele uma aproximao fsica global do
princpios para classificar os instrumentos de sopro em sistema como por exemplo, o conjunto formado pela
duas classes: instrumentos com palheta (reed pipe) e boquilha, lbios e palheta. Por outro lado, os modelos
instrumentos sem palheta (flue pipe). Para os distribudos tm por preocupao a descrio do fenmeno
instrumentos com palheta ele fez uma diviso em trs sub- a nvel microscpico e divide o sistema em blocos
classes: 1) palheta fixa, como o rgo de tubo com palheta funcionais. Estas duas categorias de modelos podem tanto
e a gaita; 2) palheta construda de bambu (arundo donax), representar um sistema dinmico, onde as propriedades
incluindo os de palheta simples como a clarineta e o variam com o tempo, quanto um sistema esttico, onde no
saxofone e os de palheta dupla como o obo e o fagote; 3) h variao de propriedades com o tempo.
vibrao labial, incluindo os instrumentos onde os lbios
atuam com ao valvular como o caso do trompete, Etapas de Modelagem
trombone, trompa, etc. A segunda classe, a de instrumentos Keefe [1] enumera sete etapas na elaborao de um
sem palheta, inclui as flautas e os rgos de tubo sem modelo no domnio do tempo. A primeira etapa (I)
palheta. corresponde formulao propriamente dita do sistema
Quinze anos mais tarde, na edio de 1877, Helmholtz dinmico que, para ele, a mais crucial de todas. Vrias
formulou teorias quantitativas sobre o mecanismo pelo simplificaes devem ser consideradas no modelo com
qual oscilaes so mantidas em tubos com palhetas. Este vistas a tornar o tratamento computacional factvel.
trabalho estabeleceu a base para toda pesquisa posterior O modelo dinmico proposto por Keefe, vlido tanto
sobre este assunto. Sua teoria, ao contrrio de formular um para clarinetas e saxofones (a diferena est na geometria)
modelo detalhado da dinmica envolvida, incorporou como para metais (a diferena est nos valores dos
restries que precisavam ser satisfeitas para se criar parmetros), consiste de um sistema de trs equaes
oscilaes em estado de regime permanente. diferenciais ordinrias de primeira ordem acoplados por
Pouco tempo depois, em 1894, Rayleigh [3] apontou um hiato de tempo (time delay).
sobre a importncia do estudo de sistemas dinmicos no As trs variveis consideradas fundamentais so:
lineares para o desenvolvimento de teorias de instrumentos deslocamento da palheta (x), velocidade da palheta (ur) e
musicais. Ele elaborou a primeira descrio quantitativa de vazo volumtrica atravs da abertura da palheta (u), todas
oscilaes auto-sustentadas que serviram de pano de fundo representadas na Eq. (1). As demais variveis so obtidas
para o estudo de processos mecnicos no-lineares e em funo destas e o modelo dinmico com as
modelos de acstica musical a partir da dcada de 1960. correspondentes equaes est representado na Eq. (1). A
Utilizando uma nova terminologia, analisou sistemas que nomenclatura das demais variveis e parmetros
possuem estreita ligao com o oscilador de Van der Pol. encontram-se na Tab. (1), com valores no S.I..
Ele mostrou que existe resistncia negativa no processo de Ainda segundo Keefe [1], desconsiderando-se as
gerao de oscilaes auto-sustentadas, indicou a propriedades do acoplamento temporal associadas com a
existncia das bifurcaes de Hopf, bem como resposta linear da coluna de ar (assumida por hiptese), o
desenvolveu a teoria das instabilidades transversas em jatos espao de fase correspondente a este sistema dinmico
de ar. tri-dimensional, pois h trs variveis fundamentais. A
Tanto Helmholtz quanto Rayleigh entenderam que a presena do hiato de tempo (time delay) proporciona ao
caracterstica essencial para a sustentao de uma nota em espao de fase uma dimenso muito maior, porm, as notas
um instrumento de sopro a existncia de dissipao musicais esto restritas a um subespao (do espao de fase)
parte da energia transmitida sob a forma de radiao de dimenso menor.
acstica, mas a maior parte perdida na forma de atrito e
4O CONGRESSO / 10
A
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 92
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
OLIVEIRA ET AL. SNTESE SONORA POR MODELAGEM
Para os instrumentos de palheta (arundo donax) assume- A teoria subjacente para a soluo das equaes (2), (3)
se que esta fecha com o aumento da presso de ar. Esta e (4) est apresentada em McIntyre et alii [12].
caracterstica destes instrumentos representada A segunda etapa (II), bastante importante, diz respeito
escolhendo =1 na Equao (1). Nos instrumentos de escolha dos parmetros envolvidos no modelo. Alm das
vibrao labial (metais) assume-se que o processo variveis que o descrevem, existe um conjunto de
inverso e impe-se a abertura com o aumento da presso parmetros no sistema dinmico. Por exemplo, a massa,
escolhendo-se =1. dureza e umidade da palheta, geometria da coluna de ar, da
1 palheta, etc. De acordo com Keefe [1], o parmetro central
x t u r t a presso de ar que entra no tubo. Esta presso representa
Sr
a fonte externa de energia que contrabalana a perda por
G dissipao trmica e viscosa.
1
g r Sr Z c u r t Z2r >x t H @
ur Do ponto de vista experimental, para compreender o
u r t Sr
G >P p t @ Z u t processo de produo sonora faz-se necessrio determinar
u 0 h c a faixa de valores plausveis, do ponto de vista fsico, dos
r
parmetros. A resposta a este questionamento vir das duas
1 P0 ph t Z c >u t u r t @ etapas seguintes.
u t
I e x C u D x ESgn u
Anlise Paramtrica
Um conjunto de valores plausveis dos parmetros
Eq. 1: Equaes que configuram o modelo utilizado para escolhido. Em seguida, estabelece-se uma condio inicial
simular clarineta. Ver Keefe [1]. fisicamente vivel para as trs variveis. Na seqncia, o
sistema de equaes diferenciais integrado
numericamente no tempo. A terceira etapa (III)
Parmetro Denominao do Parmetro corresponde simulao no domnio do tempo (dinmica).
c Velocidade do som Em qualquer instante o sistema dinmico est em um
Densidade do ar ponto do espao de fase e a evoluo do sistema no tempo
S rea da coluna de ar da entrada corresponde s trajetrias no espao de fase (TEF). Aps
Zc c/S, Impedncia caracterstica na entrada um perodo inicial de transientes, as TEF tendem a se
Sr rea dinmica da palheta aproximar de um conjunto limite que dependente das
r Frequncia de ressonncia da palheta (rad/s) condies iniciais e dos valores dos parmetros escolhidos.
fr r, freq. de ressonncia da palheta em Hz Dada a terminologia de sistemas dinmicos no-lineares,
r Massa dinmica por unidade de rea da um conjunto limite que pode ser observado
palheta experimentalmente chamado de atrator. Um atrator
gr r/Qr Onde Qr tem valor 3 para madeiras e peridico o atrator cuja trajetria no espao de fase
varivel para metais descreve uma curva fechada. Benade e Kouzoupis [5]
H Abertura de equilbrio da ponta da palheta estabeleceram que um regime de oscilao uma
l Comprimento da abertura da ponta da oscilao multicomponente, estvel e no-linear, na qual
palheta vrios picos de ressonncia descrevem um controlador de
fluxo para manter uma oscilao cujos componentes
w Largura da abertura da ponta da palheta
espectrais so membros de uma srie harmnica exata.
Ie pl/(wH), Inertncia da ponta da palheta
Este o conceito de um atrator peridico quando aplicado
C Constante de controle de fluxo (44,4 para
a instrumentos de sopro, afirma Keefe [13].
madeiras)
Uma vez estabelecida a simulao dinmica, a etapa (IV)
1,5 (palheta simples), 2(palheta dupla e corresponde ao estudo da sensibilidade paramtrica. Isto ,
metais) deve-se estudar o quanto o sistema dinmico sensvel a
2 (palhetas simples, dupla e metais) variaes nos valores dos parmetros. Provavelmente,
P0 Presso do ar alguns valores de parmetros devero ser obtidos atravs
R(t) Funo de reflexo da coluna de ar na sua de dados experimentais e este o foco da seco seguinte.
entrada Com os valores dos parmetros estabelecidos, pode-se
ph(t) Presso da boquilha convoluda com a seguir s trs ltimas etapas, onde novas questes podem
funo de reflexo da coluna de ar ser levantadas: (V)simulao em tempo real (que depende
Para madeiras (1) para metais (-1) da tecnologia de hardwares e softwares disponveis);
Tab.1: Parmetros e smbolos da Eq. 1. (VI)percepo e cognio musical onde discutido o
quo prximo de um instrumento real o sistema
A vazo volumtrica de ar que efetivamente passa pelo dinmico est; ,e finalmente, (VII)aplicao no
tubo a diferena entre a vazo que chega at a abertura da desenvolvimento de sonoridades de instrumentos musicais
palheta e a vazo que varrida pela palheta, isto : e performance. Este ltimo ser o assunto da penltima
u d t u t u r t (2) seo deste artigo.
A presso na boquilha, p(t), calculada a partir de: No seu artigo, Keefe [1] utilizou um oscilador
pt ph t Z c u d t (3) harmnico simples como modelo para a palheta. Para
resolver este conjunto de Equaes Diferenciais Ordinrias
Onde a varivel ph(t) guarda os valores passados da foi utilizado um mtodo numrico implcito de segunda
presso atravs da convoluo da funo de reflexo da ordem. Isto resultou numa nica equao no linear que foi
coluna de ar, r(t), com a presso da boquilha e vazo resolvida pela regra de Newton. O artigo apresenta os
efetiva atravs da coluna, isto : resultados da simulao para uma clarineta e analisa o
ph t r t
>pt Z c u d t @ (4)
4O CONGRESSO / 10
A
CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 93
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
OLIVEIRA ET AL. SNTESE SONORA POR MODELAGEM
4O CONGRESSO / 10
A CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 94
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006
OLIVEIRA ET AL. SNTESE SONORA POR MODELAGEM
Y a0 a1x1 a2 x 2 a3 x 3 a4 x 4 a5 x 5 a6 x 6
A ttulo de exemplo, .para a regio chalumeau (grave),
estudamos o efeito destas variveis sobre a nota E3 da
clarineta (D3 do piano) utilizando um projeto de
experimentos. As tabelas 2 e 3 indicam os valores dos
coeficientes obtidos (ai, i=0,...,6) para as variveis
(dependentes) intensidade (Yi) e frequncia (Yf) dos
modelos da fundamental e das componentes espectrais (at
a 12). Fig. 2: Circuito eltrico para analogia com o sistema fsico.
4
4O CONGRESSO / 10
CONGRESSO / 10 A CONVENO
CONVENO NACIONAL
NACIONAL DABRASIL,
DA AES AES BRASIL, SO 08
SO PAULO, PAULO,
A 10 DE08 A 10DE
MAIO DE2006
MAIO DE 2006 95
OLIVEIRA ET AL. SNTESE SONORA POR MODELAGEM
Smith [11] apresenta uma anlise de vrios algoritmos [5] BENADE, A.H. e KOUZOUPIS, S.N. (1988). The
de sntese a partir do ponto de vista estrutural. Para o caso clarinet spectrum: Theory and experiment. J. Acoust.
de algoritmos que utilizam as estruturas contidas na sntese Soc. Am. 83, 292-304.
aditiva ou granular faz-se necessrio especificar vrios [6] BENADE, A.H. e LARSON, C.O. (1985).
parmetros e o resultado depender da coerncia com que Requirements and Techniques for measuring the
estes parmetros foram escolhidos. Esta coerncia no musical spectrum of the clarinet. J. Acoust. Soc. Am.
intrnseca estrutura e precisa ser garantida durante a 78, 1475-1498.
especificao dos parmetros. [7] BENADE, A.H. (1976). Fundamentals of Musical
Uma segunda categoria de algoritmos diz respeito Acoustics. Oxford University Press, New York.
estrutura de multi-blocos feed-forward, na qual alguns [8] BENADE, A.H. e GANS, D.J. (1968). Sound
blocos geram um sinal que ser alimentado a outros blocos Production in wind instruments. Ann. N.Y. Acad. Sci.
para posterior processamento. Esta estrutura inclui tcnicas 155, 247-263.
lineares e no-lineares tais como a sntese subtrativa, [9] BENADE, A.H. (1966). Relation of air-column
sntese FM, sntese AM e algumas remotas snteses por resonances to sound spectra produced by wind
modelagem fsica. A principal caracterstica desta classe de instruments. J. Acoust. Soc. Am. 40, 247-249.
algoritmos o surgimento de uma complexidade sonora [10] FLETCHER, N.H. E ROSSING, T.H. (1991). The
intrnseca estrutura. Isto , escolhendo a sntese atravs Physics of Musical Instruments. 2nd ed, New York:
desta tcnica damos estrutura a tarefa de produzir Springer-Verlag
nuances que caracterizam a complexidade do som [11] SMITH, J.O. (1996). Physical Modeling Synthesis
sintetizado. Update. Computer Music Journal 20(2): 44-56.
A ltima classe de algoritmos caracterizada por uma [12] McINTYRE, M.E., SCHUMACHER, R.T. e
estrutura de multi-blocos interativos. A sntese por WOODHOUSE, J. (1983) On the Oscillations of
modelagem fsica um caso especial desta classe de Musical Instruments. J. Acoust. Soc. Am. 74, 1325-
algoritmos que possui ainda uma interpretao fsica 1345.
precisa. Esta interpretao til para a identificao dos [13] KEEFE, D.H. (1983). Theory of the Single Woodwind
parmetros de controle do modelo. Tone Hole e Experiments on the Single Woodwind
Finalmente, a sntese por amostragem (sampling Tone Hole. Journal of the Acoustical Society of
synthesis) oferece, para o caso de uma nica nota tocada, America 72(3): 676-699.
uma grande possibilidade de interao entre msico e [14] BORIN, G., De POLI, G., SARTI, A. (1992).
instrumento. A tcnica baseada em modelos fsicos, no Algorithms and Structures for Synthesis Using
entanto, oferece uma maior expressividade musical alm Physical Models. Computer Music Journal. 16(4): 30-
de exigir menor capacidade de memria, ainda que 42.
implique na necessidade de uma mquina com maior poder [15] DUCASSE, E. (2003). A Physical Model of Single-
de clculo. Reed Wind Instrument, Including Actions of the
Player. Computer Music Journal. 27(1): 59-70.
CONCLUSES E PROPOSTAS [16] DUCASSE, E. (2002). An Alternative to the
Este trabalho teve como espinha dorsal os artigos do Traveling-Wave Approach for Use in Two-Port
Keefe [1, 13], Smith [11] e Ducasse [15]. Entretanto, estes Descriptions of Acoustic Bores. Journal of the
trabalhos no forneceram detalhes dos procedimentos Acoustical Society of America 112(6): 3031-3041.
adotados. Portanto, existe um conjunto de conhecimentos [17] OLIVEIRA, L.C, GOLDEMBERG, R., MANZOLLI,
essenciais que deveremos adquirir para, realmente, J. (2005). Estudo Experimental da Sonoridade
testarmos os modelos apresentados nestes artigos. Chalumeau da Clarineta atravs de Projeto Fatorial
Tal postura, pode dar condies de entender os processos (I), Anais da IX Conveno Nacional da AES, SP.
computacionais, a modelagem matemtica e, [18] OLIVEIRA, L.C, GOLDEMBERG, R., MANZOLLI,
principalmente, verificar a natureza e a qualidade sonora de J. (2005). Estudo Experimental da Sonoridade
simulaes. Para ns, o objetivo final desenvolver um Chalumeau da Clarineta atravs de Projeto Fatorial
modelo que possa estabelecer uma ponte entre o mundo (II), Anais do XV Congresso da ANPPOM, RJ
real dos instrumentos musicais e as simulaes que
estudamos.
Propomos, inicialmente, reproduzir os resultados
apresentados naqueles artigos atravs de simulaes. Isto
permitir produzir uma anlise quantitativa terica com
apoio em resultados experimentais, gerando resultados
mais precisos que os disponveis no momento.
REFERNCIAS BIBLIOGRFICAS
[1] KEEFE, D.H. (1992). Physical Modeling of Wind
Instruments. Computer Music Journal 16(4): 57-73.
[2] HELMHOLTZ, H.L.F. (1954). On the Sensations of
Tone. Traduo em ingls da verso alem de 1877
por A.J. Ellis. New York: Dover Publitions.
[3] RAYLEIGH, Lord (1894). The Theory of Sound.
Macmillan, New York: reeditado pela Dover, 1945.
[4] BOUASSE, H. (1929-30). Instruments Vent. Paris:
Librairie Delagrave.
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Sintetizador Evolutivo de Segmentos Sonoros
Jos Fornari 1, Jnatas Manzolli 2, Adolfo Maia Jr. 3
Ncleo Interdisciplinar de Comunicao Sonora NICS - UNICAMP
Rua da Reitoria, 165 - Cidade Universitria "Zeferino Vaz"
CEP: 13 091 - 970 - Caixa Postal: 6166.
Campinas, So Paulo, Brasil
[fornari, jonatas, adolfo]@nics.unicamp.br
RESUMO
Apresentamos nesse trabalho a implementao em software do mtodo da sntese evolutiva de segmentos
sonoros, (SESS), conforme descrita em [1]. A sntese evolutiva inspirada nos processos biolgicos de
reproduo e seleo de indivduos em uma populao em funo do meio. Na SESS segmentos sonoros
(waveforms) so tratados como indivduos pertencentes a uma populao onde o som sintetizado o caminho
evolutivo dos melhores indivduos de cada gerao da populao de sons. A implementao foi feita utilizando a
linguagem de programao PD (Pure Data).
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 98
FORNARI ET AL. IMPLEMENTAO DO SESS EM PD
contendo o esse nome, sem a extenso .pd. Estes so Quando expandidos, esses subpatches mostram os
chamados de abstractions. algoritmos das figuras 5 e 6. Estes tambm contm outros
Em PD subpatches podem conter um nmero subpatches.
ilimitado de subpatches dentro de outros subpatches, A
implementao do SESS utiliza extensivamente essa
caracterstica. Abaixo tem-se a implementao do SESS
em PD atravs de quatro subpatches principais.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 99
FORNARI ET AL. IMPLEMENTAO DO SESS EM PD
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 100
FORNARI ET AL. IMPLEMENTAO DO SESS EM PD
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 101
Sesso 5
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Dead regions and speech perception in subjects with
auditory dyssynchrony
Vinay S.N 1 and Vanaja C.S 1
1
Department of Audiology, All India Institute of Speech and Hearing
Manasagangothri, Mysore 570006, India
shrivinyasa@gmail.com
ABSTRACT
Auditory Dyssynchrony (AD) is a hearing disorder in which sound enters the inner ear normally but the
transmission of signals from the inner ear to the auditory cortex is impaired (Starr et al. 1996). Studies have
shown that speech recognition scores (SRS) are affected in AD subjects (Sininger et al. 1995; Starr et al. 1996).
However earlier studies have not identified the presence of dead regions in subjects with AD. The aim of the
present study was to identify the presence of dead regions in subjects with AD using TEN (HL) test and to
compare the SRS in AD subjects with and without dead regions. The SRS was correlated with the edge
frequencies. Audiometric thresholds at different frequencies were compared for AD subjects with and without
dead regions. Results of TEN (HL) test on subjects with AD indicated 21 out of 29 ears had a dead region.
Results indicated poor SRS in AD subjects with dead region compared to those without dead regions. SRS also
reduced as the edge frequency increased. AD subjects with dead region had higher audiometric thresholds than
those without dead regions.
Diagnosis of AD is based upon the results of auditory
INTRODUCTION brainstem response (ABR) and otoacoustic emissions
Auditory dysynchrony (AD) is a hearing disorder in (OAE). The hallmark of AD is a negligible or very
which sound enters the inner ear normally but the abnormal ABR reading together with a normal OAE
transmission of signals from the inner ear to the auditory reading (Sininger & Starr, 2001). The audiometric pattern
cortex is impaired. The term was coined by Starr, Picton, reveals a rising pattern. Often, speech perception is worse
Sininger, Hood & Berlin (1996). It has been showed that than would be predicted by the degree of hearing loss
patients with AD demonstrate primarily a timing deficit (Sininger, Hood, Starr, Berlin, & Picton, 1995; Starr,
that is consistent with a lack of neural synchrony (Zeng, Picton, Sininger, Hood & Berlin, 1996). Subjects with AD
Oba, Garde, Sininger & Starr, 1999). Although AD is not show normal frequency resolution and varying degrees of
yet fully understood, researchers believe the condition temporal disruption (Sininger, Hood, Starr, Berlin, &
probably has more than one etiology (Sininger & Starr, Picton, 1995). The severity of this temporal abnormality is
2001). In some cases, it may involve damage to the inner strongly correlated to speech perception ability (Rance,
hair cells (IHCs). Other causes may include faulty Beer & Cone-Wesson, 1999; Wunderlich & Dowell, 2002).
connections between the inner hair cells and the nerve Another factor that can affect speech identification scores
leading from the inner ear to the auditory cortex, or is the presence of dead regions in the cochlea and/or
damage to the nerve itself. A combination of these neurons. It has been reported that speech recognition scores
problems may also occur. is poor in subjects with dead regions (Vickers, Moore &
VINAY S. N. AND VANAJA C. S. SPEECH PERCEPTION IN AUDITORY DYSSYNCHRONY
Baer et al. 2001; Nagaraj & Moore, 2002). However, there Instrumentation
is a dearth in the studies to investigate the presence of dead The following instruments were used for the present
regions in subjects with AD. study:
Studies carried out to investigate the potential benefits of i) A two channel clinical audiometer consisting of
hearing aids, cochlear implants, and other technologies for supra-aural headphones with earcushions. The audiometer
individuals with AD have revealed inconclusive results was calibrated to conform to ANSI standards.
(Sininger & Starr, 2001). Some investigators have reported ii) A middle ear analyzer to assess the functioning
that hearing aid is useful in 50% of the subjects, whereas in of the middle ear.
others, there is deterioration in performance when a iii) A computer connected to the audiometer to
hearing aid is prescribed (Rance, Beer & Cone-Wesson, present the TEN stimuli.
1999; Starr, Picton, Sininger, Hood, and Berlin (1996). It is
possible that subjects who did not benefit from hearing aid Materials
had dead regions whereas others did not have dead regions. i) TEN (HL) compact disc (Moore, Glasberg and
Thus the following were the aims of the present study: Stone, 2004).
ii) Monosyllables word list (Mayadevi, 1974).
i) Identifying the presence of dead regions in
subjects with AD. Procedure
ii) Comparison of audiometric thresholds in i) Pure tone audiometry: Air conduction thresholds
auditory neuropathy subjects with and without dead were determined at the octave/mid-octave frequencies,
regions. 250, 500, 750, 1000, 1500, 2000, 3000, 4000, 6000 and
iii) To compare speech recognition scores in subjects 8000 Hz. Bone conduction thresholds were determined at
with AD with and without dead regions. 250, 500, 1000, 2000 and 4000 Hz. The thresholds were
iv) To investigate the correlation between speech measured using the modified Hughson-Westlake procedure
recognition scores and edge frequency of the dead region proposed by Carhart and Jerger (1959).
in subjects with AD.
Studies carried out to investigate the potential benefits of ii) Speech audiometry: Speech recognition scores
hearing aids, cochlear implants, and other technologies for were determined using the monosyllabic word list
individuals with AD have revealed inconclusive results (Mayadevi, 1974). 20 monosyllables were chosen based
(Sininger & Starr, 2001). Some investigators have reported upon the frequency of occurrence in Kannada language.
that hearing aid is useful in 50% of the subjects, whereas in Stimuli were presented at 40 dB SL of the pure tone
others, there is deterioration in performance when a average thresholds. The subjects were asked to repeat the
hearing aid is prescribed (Rance, Beer & Cone-Wesson, monosyllables that the tester presented. The percentage of
1999; Starr, Picton, Sininger, Hood, and Berlin (1996). It is correct scores was determined.
possible that subjects who did not benefit from hearing aid
had dead regions whereas others did not have dead regions. iii) Threshold Equalizing Noise (TEN HL) test: The
Thus the following were the aims of the present study: TEN (HL) test was used to check for the presence of dead
regions in subjects with AD. The absolute thresholds and
i) Identifying the presence of dead regions in masked thresholds in the presence of TEN were measured
subjects with AD. using the two-channel clinical audiometer with the
ii) Comparison of audiometric thresholds in modified Hughson-Westlake procedure proposed by
auditory neuropathy subjects with and without dead Carhart and Jerger (1959). The presentation of the TEN
regions. level was 10 dB SL of the highest audiometric thresholds.
iii) To compare speech recognition scores in subjects For audiometric thresholds above 80 dB HL, TEN test was
with AD with and without dead regions. carried out for frequencies in which the thresholds are
iv) To investigate the correlation between speech below 90 dB HL as thresholds above 90 dB HL are a
recognition scores and edge frequency of the dead region definite indication of a dead region (Moore, 2001). The
in subjects with AD. TEN and signal levels was controlled by the use of
attenuators on the audiometer. The potentiometers
METHOD controlling the tape inputs was set to give a reading of 0 dB
on the VU meters of the audiometer, while playing the
Subjects
calibration signal. This ensured that the signal and the
Study consisted of two groups of subjects- Auditory noise level per ERB were equal to the level indicated on
neuropathy subjects with dead regions (21 ears; age the audiometer.
ranging from 14 to 45 years; mean age: 23.71 years) and
auditory neuropathy subjects without dead regions (8 ears; RESULTS AND DISCUSSION
age ranging from 18 to 37 years; mean age: 25.16 years). Table 1 indicates pure tone audiometric thresholds (dB
The diagnosis of auditory neuropathy was based on the HL), TEN (HL) and speech recognition scores (SRS)
following test results: values for auditory neuropathy subjects with possible
dead regions.
i) Normal outer hair cell functioning evident by the
presence of TEOAEs amplitude and/or presence of
cochlear microphonics (CM)
ii) Abnormal or absent auditory brainstem responses
(ABRs)
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 104
VINAY S. N. AND VANAJA C. S. SPEECH PERCEPTION IN AUDITORY DYSSYNCHRONY
Subjects TEN SRS ABR OAE ERB these subjects than that are found in subjects having
(%) ( 4.85
b ) cochlear hearing loss (Moore & Glasberg, 1986; Moore,
S1 RE + 25 Absent Present
1998; Florentine & Buus, 1984). The temporal processing
S1 LE - 30 Absent Present disorder in subjects with auditory neuropathy is associated
S2 RE + 0 Absent Present 10.37 with impairment in detection of short duration acoustic
signals (Sininger & Starr, 2001). The second group of
S2 LE + 0 Absent Present 4.85 subjects showed high TEN (HL) thresholds at only certain
S3 RE - 65 Absent Present frequencies, in which, high TEN (HL) thresholds were
S3 LE - 65 Absent Present present more at the lower frequencies than at the higher
frequencies. It is interesting to note that high thresholds in
S4 RE - 70 Absent Present TEN (HL) in this group of subjects may indicate loss of
S4 LE + 25 Absent Present 0 sound transmission due to neural dysynchrony than due to
complete loss of IHCs and/or auditory neurones. These
S5 RE + 0 Absent Present 2.74 subjects may also have complete damage of the IHCs
S5 LE + 0 Absent Present 4.85 resulting in loss of transduction.
S6 RE + 0 Absent Present 2.74
TEN (HL) results in subjects with Auditory
S6 LE - 0 Absent Present neuropathy
S7 RE + 55 Absent Present 16.31 22
18
S8 LE + 55 Absent Present 16.31
16
Number of subjects
14
S9 LE + 0 Absent Present 0 12
10
S10 RE + 50 Absent Present 16.31 8
2
S12 RE - 0 Absent Present 0
1 2
S12 LE - 0 Absent Present
AN with DR AN without DR
S13 RE - 0 Absent Present
Figura 1 Auditory neuropathy subjects with and without dead
S13 LE + 0 Absent Present 2.74 regions
S14 RE + 60 Absent Present 2.74
S14 LE + 65 Absent Present 0 TEN (HL) test was administered on subjects with
auditory neuropathy (29 ears). 21 ears showed abnormal
S15 LE + 80 Absent Present 2.74 TEN (HL) results in which the masked thresholds were 10
S16 RE + 0 Absent Present 16.31 dB or above than the absolute thresholds. 8 ears obtained
masked thresholds within 10 dB of the absolute thresholds.
S16 LE + 0 Absent Present 16.31
Subjects with auditory neuropathy have a dysynchrony in
Subject; RE-Right ear; LE-Left ear; + indicates TEN test result positive the auditory neurones.
indicates negative
Table 1 TEN (HL) test, ABR and OAE results, speech recognition Comparison of audiometric thresholds in auditory
scores (SRS) and ERB number in Auditory neuropathy subjects
neuropathy subjects with and without dead
regions
TEN (HL) results revealed two types of patterns were
observed in subjects with auditory neuropathy. One type 80
showed abnormally high TEN (HL) thresholds at all
70
frequencies in which TEN (HL) was measured. Results
60
Threshold (dB HL)
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 105
VINAY S. N. AND VANAJA C. S. SPEECH PERCEPTION IN AUDITORY DYSSYNCHRONY
Audiometric thresholds were compared across auditory Comparison of speech recognition scores and
neuropathy subjects with and without dead regions. extent of dead regions in subjects with auditory
Independent sample t test was carried out for statistical neuropathy
significance by comparison of the audiometric thresholds The presence of dead regions in subjects with auditory
in auditory neuropathy subjects with and without dead neuropathy was estimated using the TEN (HL) test and the
regions. Statistical analyses revealed significant difference extent of dead regions was expressed in terms of the ERB
in audiometric thresholds for auditory neuropathy subjects number. Each frequency represents a corresponding ERB
with and without dead regions at 1500, 2000, 3000 & 4000 number and the difference in the two ERB numbers
Hz. There was no significant difference at 500 (t = 0.754), indicated the extent of dead regions in these subjects. The
750 (t = 0.443), 1000 (t = 1.317), 1500 (t = 2.093), 2000 (t ERB number can be calculated using the formula
= 2.10), and 4000 Hz (t = 2.363). However, there was a
significant difference observed only at 3000 Hz ( t = 3.221, E = 21.4 log10(4.37F + 1) (1)
p<0.01) Results show that high audiometric thresholds at
the low frequencies is associated with the presence of E = ERB number; F is in kHz (Moore, 2003). The results
asynchrony, that is in tune with the low frequency are demonstrated in the form of a scatter plot (fig. 4).
loss/rising audiogram configuration. The audiometric
hearing loss is more due to the dyssynchrony of the 100
auditory neurones rather than due to the damage to the
IHCs. For auditory neuropathy subjects with and without 80
9
8 Pearsons correlation was carried out to know the
7 correlation in the speech recognition scores to the extent of
6 dead regions in auditory neuropathy subjects which
5 revealed a positive result in the TEN test. Results revealed
4 a low correlation (=0.285) indicating that the speech
3 recognition scores did not depend on the extent of dead
2 regions in subjects with auditory neuropathy. This may be
1 due to the fact that speech recognition scores are adversely
0 affected in subjects with auditory neuropathy due to loss of
1 2 synchrony. The role of the presence of dead regions in
Subjects these subjects may be a compounding factor for poor
speech recognition in these subjects. Studies on speech
recognition abilities and presence of dead regions reveal
Figura 3 Mean speech recognition scores for auditory neuropathy
subjects with (1) and without (2) dead regions statistically significant difference in the scores in high
frequency sensorineural hearing impaired subjects with and
Speech recognition scores for 20 monosyllables were without dead regions (Moore, 2001; Vickers et al. 2001;
compared in auditory neuropathy subjects with (21 ears) Baer et al. 2002). Subjects with dead region do not have
and without (8 ears) dead regions. The scores were any surviving inner hair cells in that regions and hence the
calculated in terms of percentage. However, for statistically transduction of sound stimulus is not possible in those
test analyses, the raw scores were considered. Independent frequencies (Moore et al. 2000). Hence, speech recognition
samples t test results revealed no statistically significant abilities are poor in these subjects. Also, results comparing
difference in speech recognition scores in auditory audiometric thresholds in auditory neuropathy subjects
neuropathy subjects with and without dead regions. Speech with and without dead regions give a divided opinion. The
perception problems in subjects with auditory neuropathy difference in the audiometric thresholds may be just be a
can be related to severe temporal processing disorders result of loss of synchrony in those frequencies. Speech
(Starr et al. 1996). Also, the speech recognition scores in perception is also affected in the frequency regions where
the subjects do not correlate with the pure tone audiometric there is asynchrony resulting in the loss of transduction.
thresholds (Yellin et al. 1989). Also, poor speech CONCLUSION
recognition abilities are reported in subjects with dead
regions (Moore, 2001; Vickers et al. 2001; Baer et al. From the present study, it may be concluded that, dead
2002). However, high thresholds in TEN (HL) in these regions are seen in subjects with AD. Speech perception
subjects may not indicate the presence of dead regions, but abilities will be poorer in AD subjects with dead regions
may be due to the loss of synchrony in these subjects. than without dead regions. The speech perception scores
also depend upon the edge frequency of the dead region.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 106
VINAY S. N. AND VANAJA C. S. SPEECH PERCEPTION IN AUDITORY DYSSYNCHRONY
Speech recognition scores deteriorate, as the edge [17] Zeng, F.G., Oba, S., Garde, S., Sininger, Y., & Starr,
frequency is higher in terms of frequency. A. (1999). Temporal and speech processing deficits in
auditory neuropathy. Neuro Report, 10, 3429-3435..
REFERENCES
[1] Bacon, S.P., & Gleitman, R.M. (1992). Modulation
detection in subjects with relatively flat hearing
losses. Journal of Speech and Hearing Research, 35,
642-653.
[2] Carhart, R., and Jerger, J. F. (1959). "Preferred
method for clinical determination of pure-tone
thresholds," Journal of Speech and Hearing Disorders,
24, 330-345.
[3] Formby, C., & Muir, K. (1988). Modulation and gap
detection for broadband and filtered noise signals.
Journal of the Acoustical Society of America, 84,
545-550.
[4] Mayadevi, N. (1974). The development and
standardization of a common speech discrimination
test for Indians. An unpublished Masters dissertation
submitted to University of Mysore.
[5] Moore, B.C.J. (2001). Dead regions in the cochlea:
Diagnosis, perceptual consequences and implications
for the fitting of hearing aids. Trends in
Amplification, 5, 1-34.
[6] Moore, B.C.J., Glasberg, B.R., and Stone, M.A.
(2004). New version of the TEN test with calibrations
in dB HL, Ear and Hearing, 25(5), 478-487.
[7] Moore, B. C. J., Huss, M., Vickers, D. A., Glasberg,
B. R., and Alcntara, J. I. (2000). "A test for the
diagnosis of dead regions in the cochlea," British
Journal of Audiology, 34, 205-224.
[8] Moore, B.C.J., Shailer, M.J., & Schooneveldt, G.P.
(1992). Temporal modulation transfer functions for
band-limited noise in subjects with cochlear hearing
loss. British Journal of Audiology, 26, 229-237.
[9] Rance G., Beer D., Cone-Wesson, B. (1999). Clinical
findings for a group of infants and
[10] young children with auditory neuropathy. Ear &
Hearing; 20: 238-252.
[11] Sininger, Y., & Starr, A. (2001). Auditory neuropathy:
A new perspective on hearing disorders. Singular
Publishers.
[12] Sininger, Y., Hood, L.J., Starr, A., Berlin, C.I., &
Picton, T.W. (1995). Auditory loss due to auditory
neuropathy. Audiology Today, 7, 10-13.
[13] Starr, A., McPherson, D., Patterson, J., Luxford, W.,
Shannon, R., Sininger, Y., Tonokawa, L., & Waring,
M. (1991). Absence of both auditory evoked
potentials and auditory percepts dependent on time
cues. Brian, 114, 1157-1180.
[14] Starr, A., Picton, T.W., Sininger, Y., Hood, L.J., &
Berlin, C.I. (1996). Auditory neuropathy. Brain, 119,
741-753.
[15] Vickers, D. A., Moore, B. C. J., and Baer, T. (2001).
Effects of low pass filtering on the intelligibility of
speech in quiet for people with and without dead
regions at high frequencies, Journal of the Acoustical
Society of America, 110, 1164-1175.
[16] Vinay, & Moore, B.C.J. (2002). Effects of high pass
filtering on speech intelligibility in subjects with
normal hearing and subjects with and without dead
regions at low frequencies. Unpublished Master of
Philosophy thesis submitted at University of
Cambridge, United Kingdom.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 107
Sociedade de Engenharia de Audio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Convencao Nacional da AES Brasil
08 a 10 de Maio de 2006, Sao Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edic oes, correc
oes ou considerac
oes feitas
pelo comite tecnico. A AES Brasil n ao se responsabiliza pelo conte
udo. Outros artigos podem ser adquiridos
atraves da Audio Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org.
Informacoes sobre a sec
ao Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados.
Nao e permitida a reproducao total ou parcial deste artigo sem autorizac
ao expressa da AES Brasil.
RESUMO
A identicacao de notas musicais em um sinal polifonico pela simples analise de seu espectro
de frequencias e dicultada por possveis superposicoes dos harmonicos de diferentes notas.
Neste trabalho, que aborda especicamente sons de viol ao, buscamos superar esse problema
utilizando redes neurais na analise do espectro frequencial. Para aproveitar as caractersticas
particulares dos sinais de m usica, substitumos como instrumento de representacao espectral
para sinais discretos a DFT pela Constant-Q Transform, que distribui geometricamente as
linhas espectrais.
INTRODUC
AO sao descritas com maior densidade de linhas que
oitavas mais baixas.
Realizar a transcricao de uma peca musical para Para otimizar a an alise, pode-se utilizar a CQT
a partitura exige extenso conhecimento de teoria (Constant-Q Transform) [2], uma transformada
musical e percepcao auditiva aprimorada. Um sis- espectral com seletividade constante e freq uencias
tema de transcricao autom atico, que identique centrais espacadas em progressao geometrica, as-
as notas de um sinal de m usica, pode se tornar sim como nas escalas de igual temperamento.
uma ferramente u til na popularizacao do uso de Neste estudo utilizamos a CQT para represen-
partituras e no ensino de teoria musical. tar o espectro freq uencial de sinais de violao. Es-
Comumente, sinais discretos sao representados sas representacoes sao utilizadas no treinamento e
no domnio da freq uencia atraves da DFT (Dis- teste de um conjunto de redes neurais projetadas
crete Fourier Transform), com resultados dis- para identicar as notas presentes em gravacoes
postos sobre uma escala linear de freq uencias. do instrumento. A m de se aferir o grau de
Porem, nas escalas musicais de igual tempera- diculdade do reconhecimento de acordo com o
mento, utilizadas na m usica ocidental desde o numero de notas simult aneas, adotou-se a se-
seculo XVIII [1], as freq uencias fundamentais das guinte estrategia: criar 6 redes, cada uma delas
notas sao dispostas em progressao geometrica com especializada na identicacao de um n umero dife-
1
razao 2 12 . Em uma representacao atraves da rente de notas simult aneas.
DFT, o n umero de linhas espectrais por oitava Essas redes podem ser projetadas para identi-
varia em funcao da freq uencia: oitavas mais altas car notas de outros instrumentos musicais, desde
SZCZUPAK ET AL. IDENTIFICAO DE NOTAS MUSICAIS DE VIOLO UTILIZANDO REDES NEURAIS
SZCZUPAK ET AL. IDENTIFICAC DE NOTAS MUSICAIS DE VIOLAO
AO UTILIZANDO REDES NEURAIS
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
PAULO, 10 MAIO DE 2006
DE MAIO DE 2006109
SZCZUPAK ET AL. IDENTIFICAO DE NOTAS MUSICAIS DE VIOLO UTILIZANDO REDES NEURAIS
SZCZUPAK ET AL. IDENTIFICAC DE NOTAS MUSICAIS DE VIOLAO
AO UTILIZANDO REDES NEURAIS
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
PAULO, 10 MAIO DE 2006
DE MAIO DE 2006110
SZCZUPAK ET AL. IDENTIFICAO DE NOTAS MUSICAIS DE VIOLO UTILIZANDO REDES NEURAIS
SZCZUPAK ET AL. IDENTIFICAC DE NOTAS MUSICAIS DE VIOLAO
AO UTILIZANDO REDES NEURAIS
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
PAULO, 10 MAIO DE 2006
DE MAIO DE 2006111
SZCZUPAK ET AL. IDENTIFICAO DE NOTAS MUSICAIS DE VIOLO UTILIZANDO REDES NEURAIS
SZCZUPAK ET AL. IDENTIFICAC DE NOTAS MUSICAIS DE VIOLAO
AO UTILIZANDO REDES NEURAIS
4
4o CONGRESSO
CONGRESSO // 10
10aCONVENO
CONVENC NACIONAL
AO NACIONALDA
DAAES BRASIL,
AES SO
BRASIL, PAULO,
SAO 08 A0810ADE
PAULO, 10 MAIO DE 2006
DE MAIO DE 2006112
Sociedade de Engenharia de Audio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
Nacional da AES Brasil
10a Convencao
Paulo, SP
08 a 10 de Maio de 2006, Sao
Este artigo foi reproduzido do original nal entregue pelo autor, sem edico es, correco es ou consideraco es feitas pelo comite
tecnico. A AES Brasil nao se responsabiliza pelo conteudo. Outros artigos podem ser adquiridos atraves da Audio Engineering
Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaco es sobre a seca o Brasileira
podem ser obtidas em www.aesbrasil.org. Todos os direitos sao reservados. Nao e permitida a reproduca o total ou parcial
deste artigo sem autorizaca o expressa da AES Brasil.
Paulo
Institute of Mathematics and Statistics, University of Sao
Laboratory of Integrated Systems,
2
Paulo
Polytechnic School, University of Sao
adriano@mitre.com.br, regis@lsi.usp.br, mqz@ime.usp.br
A BSTRACT
An algorithm is presented for the estimation of the fundamental frequency (F0 ) of monophonic sounds.
The method relies upon accurate partial estimates, obtained on a frame basis by means of enhanced
Fourier analysis. The use of state-of-the-art sinusoidal estimators allows the proposed algorithm to work
with frames of minimum length (i.e., about two fundamental periods). The accuracy of the proposed
method does not degrade for high pitched sounds, making it suitable for musical sounds.
mental frequency estimation methods may be clas- an accuracy2 of at least F0min 2 1 Hz is needed,
24
sied according to the domain on which they oper- where F0min denotes the lowest expected fundamental
ate. The ones which operate directly on the signal frequency in the input signal. In order to accurately
waveform are termed time-domain methods. Meth- follow expressive subtleties such as vibrati and glis-
ods which transform the waveform to a spectral repre- sandi a higher accuracy is needed.
sentation are called frequency-domain methods. This Frequency accuracy of conventional STFT is half
transformation is usually carried out by means of con- the inverse of frame length, represented by {2}1 Hz.
stant Q or short-time Fourier transforms (STFT). STFTs frequency resolution3 , although constrained
Although the proposed method employs the Fourier by the frame length, depends also on the window
transform, it does not operate on the complete spec- shape. More precisely, it is determined by the 6 dB
trum signal, but rather on a small set of partials. It re- bandwidth of the window power spectrum main lobe
quires frequency analysis, followed by extraction and and is given by Lw 1 Hz, where Lw depends on
estimation of partials. The list of partials in each frame the window. For classic windows, such as Hann and
is the input to the proposed algorithm. Blackman, Lw lies between 1.2 and 3.1 [3, 4].
The main steps of the proposed method are shown For instance, in order to discriminate between
in Figure 1. pitches of a 6-stringed guitar whose lowest pitch is
an E corresponding to 82.4 Hz, one needs a frame of
1
audio frame duration at least 2 82.4
24
21 207 ms.
Musical signals seldom exhibit quasi-periodic behav-
Short-Time Fourier Transform
iour for so long. Large frames tend to lower temporal
precision because of contamination from two or more
Detection of Partials
succesive notes occurring in a single analysis frame.
In addition, a temporal accuracy of 20 ms asks for an
Estimation of Partials
overlap factor of 90% and therefore raises the compu-
tational workload by a factor of ten.
F0 Determination
In monophonic quasi-harmonic signals any two par-
tials are at least F0min Hz apart and thus a frame length
F0 Refinement
of Lw F0min 1 s is enough for them to be resolved (i.e.,
F0 estimate separated). This new bound is much tighter than the
previous one. For the guitar example, a Hamming-
windowed frame of 1.81 82.41 22 ms is enough.
Figure 1: Flowchart of the proposed method.
Fortunately, several techniques exist for improving
the estimates of resolved partials. These generally fall
Detection of Partials into two categories, phase-based and interpolation-
The spectral analysis module produces, for each based.
audio frame, its corresponding complex spectrum.
Interpolation-based Techniques
Notwithstanding, we note that only prominent partials
are relevant for fundamental frequency estimation. One of the techniques for improving the estimates
Under reasonable assumptions, each partial in the of sinusoidal components is spectral oversampling. It
input signal produces a local maximum in the magni- is usually attained by means of zero-padding, which
tude spectrum; the converse is not true due to smearing consists in adding a sequence of zeros to the win-
eects and noise intrinsic to discrete analysis. There- dowed frame before computing the STFT. The disad-
fore several heuristics were proposed to discriminate vantage of spectral oversampling is that the increase
local maxima induced by partials from those induced in the computational workload is proportional to the
by noise. A popular strategy in analysis/resynthesis improvement in accuracy.
systems is partial tracking [1, 2], which does not op- Another technique is quadratic (or parabolic) inter-
erate on isolated frames and thus suggests an oine polation, whose estimates are computed using each lo-
partial ltering strategy. cal maximum of the spectrum and its adjacent bins.
In the present study, the discrimination between It benets from the fact that the main lobe of the
genuine and spurious peaks is postponed to the sub- logarithmic power spectrum of several windows are
sequent module. In this approach every peak is esti- 2 In the present work, the term accuracy is used in the sense of
mated as if it were a partial. Then, the ones whose exactness. An estimator is thus said to have accuracy if every
frequency estimate depart more than half bin from its estimate is within of its true value, i.e., | fi fi | < for all i.
3 Throughout the text, frequency resolution will refer to how
original value are discarded as noise.
close two sinusoids may get while still being separable in the spec-
Estimation of Partials trum. A resolution of means that two sinusoids with same am-
plitude and frequencies f1 and f2 may separated if and only if
In order to correctly estimate a 12-tone-equal- | f1 f2 | and min { f1 , f2 } . The second inequality is due
tempered pitch from a given fundamental frequency, odd-simmetry of the spectrum of real signals.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 114
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
very close to a quadratic function. Purposefully de- Finally, non relevant partials are ltered prior to fun-
signed windows are sometimes employed, which are damental frequency determination. A partial is con-
obtained by taking the inverse transform of a perfect sidered relevant if its frequency is within human hear-
quadratic function. The parabolic interpolation tech- ing range (2020, 000 Hz) and its magnitude is strictly
nique is often combined with spectral oversampling. positive.
For the special case of the Hann window, Grandke
designed an interpolation technique which considers Fundamental Frequency Determination
each peak and its greatest neighbour [5]. The proposed method assumes that the strongest
A number of interpolation techniques exist for the partial belongs to the main harmonic series, thus its
rectangular-windowed STFT4 , however spectral leak- frequency is expected to be multiple of F0 . Letting f
age problems prevent the use of rectangular window denote the frequency corresponding to the strongest
for musical signal analysis. partial, the set of candidates for F0 is composed by
submultiples of f . Formally,
Phase-based Techniques
More sophisticated partial estimation techniques def f f
use the phase spectrum in addition to magnitude infor- C = cn = :1n (3)
n F0min
mation. The Derivative Method [6] uses the spectra
of the original signal and its derivative (aproximated The next step consists in collecting the harmonic
by a low-pass lter) and the Spectral Reassignment series corresponding to each F0 candidate. This is
Method [7, 8] associates energy content to the cells of carried out by the following algorithm: rstly, par-
a time-frequency representation in order to improve tials are sorted in decreasing order of magnitude; then,
accuracy of the estimates. Thanks to a trigonometric each partial is sequentially assigned to the nearest (in
interpretation of the Derivative Method, an improved a quarter tone vicinity) empty slot of the candidates
estimator was derived in [9]. The new estimator is as harmonic series.
precise for close-to-Nyquist frequencies as the Deriv- As a result of the previous algorithm, the i-th har-
ative is for low frequencies. monic of the n-th candidate is given by
These techniques give better estimates at the ex-
pense of additional STFT computations. Comparative H[n][i] = arg maxn pmag (4)
pi
studies of these techniques with respect to mean error,
variance and bias can be found in [10] and [11]. where p denotes a partial with frequency pfreq and
Amplitude Estimation magnitude pmag . In words, H[n][i] is the partial with
Except by quadratic interpolation and spectral over- greatest magnitude among the set of potential i-th har-
sampling, the aforementioned techniques only esti- monic of the n-th candidate, given by
mate the frequency of partials. Nevertheless, one can
pfreq
obtain precise amplitude estimates of partials by ap- n
i = p : li < < hi (5)
plying analytical knowledge about the window used. icn
Denoting by fk the frequency estimate of the partial where li and hi ensure smaller than quarter-tone devi-
at the k-th bin, whose center frequency is fk , and by ation and, in the case of higher order harmonics, pre-
W the frequency response of the window, the precise vent single partials from being assigned to multiple
amplitude estimate for the partial is given by the for- adjacent harmonics slots. Formally,
mula
ak
a k = (1)
i 1
W fk fk li = max
24
21 ,
(6)
i
Prior to fundamental frequency determination, de-
scribed in the Fundamental Frequency Determina-
24 i + 1
tion section, the magnitude of the partials must be hi = min
2, (7)
i
normalized to absolute decibels. This is accomplished
by the following formula. In short, if the i-th harmonic of the n-th candidate
belongs to the spectrum, it will be assigned to H[n][i].
a kdBnorm = + 20 log10 ak (2) Otherwise, it is agreed that H[n][i]mag = 0.
It is further necessary to quantify the prominence of
The term is set to map the maximum possible am- each candidate according to its harmonic series. This
plitude to 70 dB. It is determined by the window size takes into account psychoacoustic factors, particularly
(in samples), the windowing function and the record- the critical band [12, 2.4 and 3.4]. The functions
ing bit-depth. and dened below are based on the harmonic sum
4 Rectangular-windowed STFT is often misleadingly referred to model [13, 6.3.3]. The psychoacoustic motivation
as unwindowed, instead of unsmoothed, STFT. for these formulas can be found in the same reference.
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 115
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
Formally stating, the prominence of the n-th candi- where H[i] denotes the i-th partial of the harmonic se-
date is given by ries of c , which is, H[i] = H[][i].
def
and (i) denotes the fraction of the critical band ADVANTAGES AND DRAWBACKS
which corresponds to the i-th harmonic, given by It is well known that spectral and temporal reso-
lutions are reciprocals and thus detecting F0 as low
1, if i 4
(i) = (10) as f Hz requires a window whose length is at least
(i) (i 1) , otherwise
K f 1 s, where K is independent of f . In the case
n 1 of Fourier spectrum based methods, K is mainly de-
+
(n) = log21/3 n (11) termined by the window [3].
n
On the one hand, all short-time F0 estimators suf-
The fundamental frequency estimation is performed fer from this limitation. On the other hand, while
in three steps, given the prominence of the candidates waveform-based PDAs have their precision deter-
as dened above. The rst step selects those candi- mined (i.e., xed) by the signals sample rate, the pre-
dates with relative prominence of at least [0, 1] cision of F0 estimates produced by spectrum-based
with respect to the maximal prominence: PDAs might be increased by employing longer win-
dows. Notwithstanding, the use of interpolation may
C = cn C : (n) max {(m)} (12) be helpful for methods on either domain.
m|cm C
The precision of the proposed method has the same
For each of these candidates the weighted average har- order of magnitude as that of the sinusoid estimator
monic magnitude is computed as: employed, occasionally surpassing it due to the rene-
I(n)
ment procedure. It must be noted, however, that if spu-
H[n][i]mag (i) rious peaks in the magnitude spectrum are incorrectly
(n) =
i=1
(13) classied as partials and collected to the harmonic se-
I(n)
(i) ries of the winner F0 candidate, the renement stage
i=1 may degrade, instead of enhance, the initial F0 esti-
mate.
Then the one with the highest value of is selected as
F0 , whose index is The method is timbre-independent, being robust to
the following phenomena:
= arg max { (n)} (14)
n:cn C weak or absent fundamental
Fundamental Frequency Renement incomplete series (e.g., only odd harmonics)
The exact value of the estimated F0 was based on
sinusoidal-like sounds
the frequency estimate of a single partial: the strongest
one. However, the F0 estimate may be improved by moderate levels of inharmonicity (as found in
considering frequency estimates of all partials in the acoustic instruments)
harmonic series of the winner candidate. Since partial
estimates are expected to be non-biased, individual er- It must be noted that although inharmonicity is not
rors should cancel each other out by averaging. explicitly modelled, the tolerance of the harmonic se-
The realiability of a partial estimate is aected by its ries collector allows for moderately inharmonic low
signal-to-noise ratio (SNR) and the stability of its ab- order partials.
solute frequency. Therefore strong and small indexed Experiments conducted with severely bandlimited
harmonics should be privileged, since they have the (e.g. telephone-like bandpass ltered) versions of mu-
higher SNR and smallest absolute frequency modula- sical recordings have shown that the method is robust
tions. against bandlimiting. In some sense this is expected,
Taking these facts into account, we propose the fol- since the method is partially derived from a bandwise
lowing formula for further rening the initial funda- multiple-F0 estimator [14].
mental frequency:
IMPLEMENTATION ISSUES
I(n)
H[i]freq /i H [i]mag (i) Proling revealed that the most processing-intense
step of the proposed method is the calculation of the
F0 =
i=1
(15)
I(n) STFT, which can be carried out by the Fast Fourier
H [i]mag (i) Transform algorithm.
i=1
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 116
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
estimated F0 (Hz)
STFT, is proportional to |C|, the number of candidates.
It can be seen from Equation 3 that |C| is indirectly de-
440
pendant on the window length, as F0min should never
be lower than Lw 1 . Notwithstanding, the num-
ber of candidates can be safely assumed to be smaller 5 6 7
time (s)
8 9 10
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 117
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
MITRE ET AL. FUNDAMENTAL FREQUENCY DETERMINATION FROM PARTIAL ESTIMATES
4o CONGRESSO
4 CONGRESSO / /10 a
10 CONVENC NACIONAL
AO
CONVENO DA DA
NACIONAL AES BRASIL,
AES SO
SAO
BRASIL, PAULO, 08 A 10
PAULO, 08 DE
A 10MAIO DE 2006
DE MAIO DE 2006 118
_________________________________
Sociedade de Engenharia de udio
Artigo de Congresso
Apresentado no 4o Congresso da AES Brasil
10a Conveno Nacional da AES Brasil
08 a 10 de Maio de 2006, So Paulo, SP
Este artigo foi reproduzido do original final entregue pelo autor, sem edies, correes ou consideraes feitas pelo comit
tcnico. A AES Brasil no se responsabiliza pelo contedo. Outros artigos podem ser adquiridos atravs da Audio
Engineering Society, 60 East 42nd Street, New York, New York 10165-2520, USA, www.aes.org. Informaes sobre a seo
Brasileira podem ser obtidas em www.aesbrasil.org. Todos os direitos so reservados. No permitida a reproduo total
ou parcial deste artigo sem autorizao expressa da AES Brasil.
_________________________________
Automatic Genre Classification of Musical Signals
Jayme Garcia Arnal Barbedo1, Amauri Lopes1
1
Department of Communications FEEC Unicamp
Campinas, So Paulo, C.P. 6101, Brazil
jgab@decom.fee.unicamp.br , amauri@decom.fee.unicamp.br
ABSTRACT
This paper presents a strategy to perform automatic genre classification of musical signals. The technique
divides the signals into 21.3 ms frames, from which 7 features are extracted. The frames are grouped into 1 s
analysis segments. Some statistical results of the features along each analysis segment are used to calculate a
vector of parameters. An extensive comparison is carried out between such segment vectors and some reference
vectors. The procedure points out the genre that best fits the characteristics of each segment. The final
classification of the signal is given by the genre that appears more times along all signal segments.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 120
BARBEDO AND LOPES AUTOM. GENRE CLAS. MUSICAL SIGN.
MUSIC
- if the vocal elements are strong and dominate the song, where |X(k)| is the magnitude of spectral line k resulting
the signal is classified as vocal; from a Discrete Fourier Transform with 1,024 samples
- if the percussive elements dominate the perception, the applied to the frame i and K is half the number of spectral
song is classified as percussive. lines.
The vocal class is further divided into two genres: rap,
whose songs have really marked vocals, sometimes looking 4.3. Loudness
like actual speech, and reggae, the typical music of Jamaica. The first step to calculate this feature is modeling the
Some recent reggae songs are quite related to rap, situation frequency response of human outer and middle ears. Such
that can cause some difficulties to differentiate such genres. response is given by [12]
Finally, the percussive class is divided into two genres:
W k 0.6 3.64 f k 10 f k , (3)
0.6 f k 3.3
2
0.8 3 3.6
6.5 e
- Jazz, which are songs dominated by piano and
saxophone. Electric guitars and drums can also be present, where f(k) is the frequency in kHz given by
especially in modern tendencies of jazz like Fusion; vocals,
f k k d , (4)
when present, are very characteristic and peculiar.
- Latin, which is composed by Latin rhythms like salsa, and d is the difference in kHz between two consecutive
mambo, samba and rumba; the songs of this genre have a spectral lines (in this work, 46.875). The frequency
very dancing and percussive rhythms, with strong presence response is used as a weighting function that emphasizes or
of instruments of percussion and, sometimes, guitars. attenuates spectral components according to the hearing
behavior. The loudness of a frame is calculated according to
K W k
X k
2
4. FEATURE EXTRACTION ld i i
10 20
. (5)
k 1
Before the feature extraction, the signal is divided into
frames using a Hamming window of 21.3 ms, with 50 %
superposition. The signals used in this work are sampled at 4.4. Spectral Centroid
48 kHz, resulting in frames of 1,024 samples. The extraction This feature represents the mass center of the spectral
of the features is performed individually for each frame. energy distribution of the signals, and is given by
The description of each feature is presented in the following. K
k X k
2
i
4.1. Zero-Crossing Rate
eci k 1
K
. (6)
A zero crossing occurs whenever the amplitudes of two
X k
2
where xi(n) represents the samples of ith frame and 4.5. Bandwidth
sgn[xi(n)] is 1 or +1 as xi(n) is negative or positive This feature determines the frequency bandwidth of the
respectively. signal, and is given by
K
4.2. Spectral Roll-Off ce k Xi k
2 2
i
This feature determines the frequency Ri for which the bwi k 1
. (7)
sum of the spectral line magnitudes is equal to 95% of the K
X k
2
X k i
0.95 X k ,
i
(2) Equation 7 gives the bandwidth in terms of spectral
lines. To get the value in Hz, lb must be multiplied by d.
k 1 k 1
TH
AES 110 CONVENTION, AMSTERDAM, NETHERLANDS, 2001 MAY 12-15 3
4 CONGRESSO / 10 CONVENO NACIONAL DA AES BRASIL, SO PAULO, 08 A 10 DE MAIO DE 2006 121
BARBEDO AND LOPES AUTOM. GENRE CLAS. MUSICAL SIGN.
4.6. Spectral Flux remaining peak, whose inverse provides the corresponding
This feature is defined as the quadratic difference fundamental frequency. The estimated frequencies are then
between the logarithms of the magnitude spectra of converted to the MIDI scale, according to the procedure
consecutive analysis frames and is given by described in [1] and given by
K
f
^log > X k @ log > X k @` m 12 log 2 69 , (10)
2
fei . (8)
k 1
10 i 10 i 1
440
The purpose of this feature is to determine how fast the where f is the frequency in Hz and m is the MIDI number.
signal spectrum changes along the frames.
xhigh
Highpass Half-wave rect.
at 1 kHz Lowpass filt. DFT J
input x2
output
+
Autocorrelation
IDFT
Enhancer
xlow
Lowpass Highpass
at 1 kHz DFT J
at 70 Hz
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 122
BARBEDO AND LOPES AUTOM. GENRE CLAS. MUSICAL SIGN.
set of potential reference vectors was determined for each and 92. If such segment has less than 0.5 s, its frames are
genre, considering factors as the mean of the training incorporated to the previous segment, which will then have
vectors and the range expected for the values of each between 92 and 138 frames.
parameter, discarding vectors that are distant from the
cluster. After that, for a given pair of genres, all possible Reference Vectors Winner
A A A B B B Genre B
six-vector combinations extracted from both sets of
A A A C C C Genre A
potential vectors were considered, taking into account that A A A D D D Genre A
Summary for
Segment 1
each set must contribute with three vectors. For each A A A E E E Genre E
Genre A 2 wins
combination, an Euclidean distance was calculated B B B C C C Genre B Genre B 4 wins
Segment 1
between each potential vector and all training vectors from B B B D D D Genre B Genre C 1 win
Genre D 0 win
(A)
both genres. After that, each training vector was labeled B B B E E E Genre B Genre E 3 wins
C C C D D D Genre C Winner Genre B
with the genre corresponding to the closest potential
C C C E E E Genre E
vector. The combination of potential vectors that resulted D D D E E E Genre E (D)
in the highest classification accuracy was taken as the (B) (C)
actual set of reference vectors for that pair of genres.
10 s Signal
d) The procedure described in item c was repeated for all Genre B Genre B Genre E Genre E Genre B Genre B Genre B Genre A Genre B Genre B
possible pairs of genres (78 pairs for 13 genres). As a (E)
result, each genre has 12 sets of 3 reference vectors, Genre A 1 wins
resulting from the comparison with the other 12 genres. Genre B 7 wins Final Signal
Genre C 0 win Classification:
The number of reference vectors was fixed at 3 because Summary for
10 s Signal Genre D 0 win
this is the best compromise between accuracy and Genre E 2 wins
Winner Genre B
Genre B
robustness. If less than 3 vectors were used, the set would (F) (G)
not be general enough to represent the respective genre; on
the other hand, if more than 3 vectors were adopted, the Figure 3 - Classification Procedure.
reference set would adapt too much to the set of training
signals, losing robustness. The classification is carried out directly in the lowest
This pair-of-genres based comparison provides much levels of the structure shown in Figure 1. This means that a
better differentiation between the genres than using a signal is firstly classified according to the basic genres, and
single comparison considering all genres at a time. This is the upper classes are classified accordingly (bottom-up
so because particular differences between the genres are approach). This strategy was adopted because it was
much more stressed and explored in this way. observed that as lower is the hierarchical layer in which the
signal is directly classified the more precise is the
5.2. Test Procedure classification of the signal into upper classes. In tests with
a top-down approach, where the signals were classified
Figure 3 illustrates the final classification procedure of a
layer by layer, starting with the topmost, the accuracy
signal. The figure was constructed considering a
achieved was between 3 % and 5 % lower than that one
hypothetical division into 5 genres (A, B, C, D and E) and
a signal of 10 s, in order to simplify the illustrations. achieved using the bottom-up approach.
Nevertheless, all observations and conclusions are valid for Next section presents the results achieved by the
the 13 genres and 32 s signals actually considered in this proposal.
work. As can be seen in Figure 3, the procedure begins
with the extraction of the parameter vector from the first
segment of the signal (Figure 3A). Such vector is 6. TESTS AND RESULTS
compared with the reference vectors corresponding to each The database used in this work is composed by 2,103
pair of genres, and the smallest Euclidean distance
music excerpts, which represent more than 20 hours of
indicates the closest reference vector in each case (gray
audio data (13.5 GB). The signals were sampled at 48 kHz
squares in Figure 3B). The labels of such vectors are taken
and quantized with 16 bits. The audio material was
as the winner genres for each pair of genres (C). In the
extracted from Compact Discs, from Internet radio
following, the number of wins of each genre is
streaming and also from coded files (mp3, wma, ogg, aac).
summarized, and the genre with most victories is taken as
the winner genre for that segment (D); if there is a draw, The music database was divided into a training set of 1,039
the segment is labeled as inconclusive. The procedure is files, which was used to determine the reference vectors
repeated for all segments of the signal (E). The genre with described in Section 5, and into a test set, which was used
more wins along all segments of the signal is taken as the to validate the technique.
winner (F); if there is a draw, the summaries of all Figure 5 shows the confusion matrix associated to the
segments are summed and the genre with more wins is tests. First column shows the target genres, and first row
taken as winner. If a new draw occurs, all procedures shows the genres actually estimated by the technique.
illustrated in Figure 4 are repeated considering only the Taking the first line as example, it can be seen that, from
reference vectors of the drawn genres; all other genres are the 98 actual classical songs, 88 were correctly classified, 6
temporarily ignored. The probability of a new draw is very were classified as opera, and 4 were classified as jazz.
close to zero, but if it occurs, one of the drawn genres is The main diagonal in Figure 4 shows the correct
taken at random as winner. Finally, the winner genre is estimates, and all values outside the main diagonal are
adopted as the definitive classification of the signal (G). errors. Also, as darker is the shading of an area, the lower
Normally, the last segment of a signal will have less than is the hierarchical layer. As can be seen, most of errors are
one second. In such cases, if the segment has more than 0.5 concentrated inside a same class. Considering each layer
s, it is considered and the parameters are calculated using separately, the accuracy was: 85.1 % for the 1st layer,
the number of frames available, which will be between 46 77.4% for the 2nd layer, 61 % for the 3rd layer and 58 % for
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 123
BARBEDO AND LOPES AUTOM. GENRE CLAS. MUSICAL SIGN.
the 4th layer. Considering only the bottom genres, the ones observed in subjective tests with human listeners.
accuracy achieved was 63.7 %. Although the good results achieved by the proposed
techniques, further improvement is still possible. The first
CL OP RO RS HM CO CD PO TE RA RE JA LA and more obvious direction for new research is the
CL 88 6 0 0 0 0 0 0 0 0 0 4 0 development of new features able to extract more useful
OP 11 50 0 0 0 0 0 0 0 0 0 5 0
RO 0 0 58 5 14 0 2 4 4 0 1 0 3 information from the signals. Such new features could be
RS 1 0 6 50 0 5 1 7 0 1 2 2 3 based on psychoacoustic properties of human hearing,
HM 0 0 13 3 56 0 1 3 1 0 0 0 0 improving the correlation with the actual human
CO 1 0 3 8 0 30 10 0 0 0 0 2 7 perceptions. Another direction for future research is
CD 1 0 7 8 1 3 20 4 0 0 1 5 12
expanding the number of genres and the number of
PO 0 0 7 4 1 0 0 59 11 3 7 3 4
TE 0 0 3 0 3 0 0 14 53 6 7 0 3 hierarchical levels, since it is expected that as deeper is the
RA 0 0 0 0 0 0 0 3 4 58 15 0 2 hierarchical structure, the more accurate is the
RE 0 0 0 5 0 1 0 5 1 5 55 1 9 classification of upper classes. Another interesting line of
JA 1 5 2 6 0 7 2 5 0 0 3 50 7 research is the extraction of features directly from the
LA 0 1 3 7 0 4 3 10 1 3 7 5 57
compressed domain of songs submitted to perceptual
Figure 4 - Confusion matrix
coders like MP3, WMA and Ogg-Vorbis.
As expected, the accuracy is higher for upper classes.
The accuracy achieved for the first layer is above 85%, Acknowledgements
which is an outstanding result. The accuracy of 63.7 % for Special thanks are extended to FAPESP for supporting
the basic genres is also excellent, especially considering this work under grant 04/08281-0.
that the signals were classified into 13 genres, which is
more than any other previous work.
References
A direct comparison with previous techniques is very
difficult, because the databases used in each case are [1] G. Tzanetakis and P. Cook, Musical Genre
different. However, some conclusions can be drawn. Most Classification of Audio Signals. IEEE Trans. on
of previous works have achieved an accuracy of about 60 Speech and Audio Processing, 10(5): 293-302, 2002.
%, but using simple taxonomies. Taking specifically the [2] G. Agostini, M. Longari and E. Pollastri, Musical
results obtained in [1], the accuracy achieved was 61 % for Instrument Timbres Classification with Spectral
a division into 10 genres. This indicates that the technique Features. EURASIP Journal on Applied Signal
here proposed is, in terms of accuracy, at least at the same Processing, 2003(1): 5-14, 2003.
level of the best previous proposals. [3] D. Pye, Content-based methods for the management
of digital music. In Proc. of ICASSP, Istanbul, pp.
Another aspect that must be considered is the
2437-2440, 2000.
performance of the technique when compared to a
subjective classification. As discussed in Section 2, [4] J. Saunders, Real-Time Discrimination of Broadcast
classifying musical signals in genres is a naturally fuzzy Speech/Music, In Proc. of ICASSP, Atlanta, pp. 993-
and tricky task, even when subjectively performed. The 996, 1996.
performance of humans in classifying musical signals into [5] L. Lu, H. -J. Zhang and H. Jiang, Content Analysis for
genres was investigated in [11]. In such research, it was Audio Classification and Segmentation. IEEE Trans.
asked for college students to classify musical signals into on Speech and Audio Proc., 10(7): 504-516, 2002.
one of 10 different genres. The subjects where previously [6] E. Scheirer and M. Slaney, Construction and
trained with representative samples of each genre. The Evaluation of a Robust Multifeature Speech/Music
students were able to correct judge 70 % of the signals. Discriminator. In Proc. of ICASSP, Munich, pages
Despite a direct comparison is not possible due to 1331-1334, 1997.
differences in the taxonomy and databases, it can be [7] M. J. Carey, E. S. Parris and H. Lloyd-Thomas, A
concluded that the technique here proposed has achieved a Comparison of Features for Speech/Music
performance very close to that obtained in the subjective Discrimination. In Proc. of ICASSP, Phoenix, pages
tests, even with 3 more genres to consider. 149-152, 1999.
Under the point-of-view of computational effort, the [8] E. Wold, T. Blum, D. Keislar, J. Wheaton, Content-
strategy has also achieved good results. The program, Based Classification, Search, and Retrieval of Audio.
running in a personal computer with an AMD Athlon IEEE MultiMedia, 3(3): 27-36, 1996.
2000+ processor, 512 MB of RAM and Windows XP OS, [9] T. Zhang, C.-C. J. Kuo, Audio Content Analysis for
has taken a little more than 20 s to process an audio file of Online Audiovisual Data Segmentation and
32 s. This performance indicates that the procedure can be Classification. IEEE Trans. on Speech and Audio
suitably used in real-time applications. Processing, 3(4): 441-457, 2001.
[10] F. Pachet, D. Casaly, A Taxonomy of Musical Genres.
In Proc. of Content-Based Multimedia Information
7. CONCLUSIONS AND FUTURE WORK Access (RIAO), Paris, 2000.
[11] J.-J. Aucouturier and F. Pachet, Representing Musical
This paper presented a new strategy to classify music Genre: A State of the Art. Journal of New Music
signals into genres. The technique uses 7 features, sets of Research, 32(1): 83-93, 2003.
reference vectors and a pair-of-genres based analysis to [12] T. V. Thiede, Perceptual Audio Quality Assessment
infer the classification of the signals. Using a Non-Linear Filter Bank. PhD Thesis,
The hierarchical approach has resulted in excellent Technical University of Berlin, 1999.
performance in terms of accuracy, even when lower layers [13] T. Tolonen and M. Karjalainen, A Computationally
are considered. The results are comparable to the best Efficient Multipitch Analysis Model. IEEE Trans. on
techniques previously developed, and are very close to that Speech and Audio Processing, 8(6): 708-716, 2000.
4
4 CONGRESSO
O
CONGRESSO / /10
10
A
CONVENO
CONVENO NACIONAL
NACIONAL DADA
AESAES BRASIL,
BRASIL, SOSO PAULO,
PAULO, 08 A 08
10 A
DE10MAIO
DE MAIO DE 2006
DE 2006 124
Sinal de udio de Piano
1
Amplitude
1
Funo de Deteco Bello(2003)
1
Magnitude
0
100 300
Tempo(ms)
4 CONGRESSO / 10
4 CONGRESSO / 10
4 CONGRESSO / 10
4 CONGRESSO / 10
4 CONGRESSO / 10
Abranches, L. K. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Arajo, B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Barbedo, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Barros, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Belderrain, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Biscainho, L. W. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31, 47, 108
Bistafa, S. R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13, 25
Calba, L. P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Capasso, C. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Carvalho, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Chiovato, A. G. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Costa, C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Diniz, P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Faria, R. R. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72, 113
Figueiredo, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Fornari, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Fraga, F. J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Freeland, F. P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Goldemberg, R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Iazzetta, F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Jesus, R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Lopes, A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Maia Jr. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Manzolli, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85, 91, 97
Micheli, L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Mitre, A. B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Moret, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Moscati, S. R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Nagaraj, V. S. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Noceti Filho, S. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Nunes, L. ........................................... 47
Oliveira, L. C. ...................................... 91
Palazzo, T. ...................................... 25
Passeri, L. ........................................... 13
Petraglia, M. ..................................... 19
Pinhal, P. ........................................... 13
Queiroz, M. G. ...................................... 113
Querido, J.G. ...................................... 78
Schwedersky, C. ...................................... 53
She, K. ........................................... 43
Shu-zhen, C. ...................................... 43
Silva, H. ........................................... 13
Silva, J. P. ........................................... 125
Szczupak, A. ...................................... 108
Tenenbaum, R. A ...................................... 19
Thomaz, L. ...................................... 72
Torres, J. ........................................... 19
Tygel, A. F. ........................................... 47
Vanaja, C. S. ........................................... 103
Von Zuben, F. J. ...................................... 85
Zuffo, J. A. ........................................... 72
Zuffo, M. K. ........................................... 72
Patrocinadores:
Digidesign Ciclotron
Staner Libor
FZ Audio Selenium
Expositores:
Ass. Brasileira dos Profissionais de udio JPF Ind. e Com. de Comp. Eletrnicos Ltda
Acoustic Caixas Profissionais Ltda MM-Rio Acessrios Musicais Ltda
Clnica Audiolgica Audicare LTDA Oversound Ind. e Com. Eletro Acstico Ltda
H. Sheldon Servios de Marketing Ltda Pride Music Com. Imp. Distr. Ltda
Spectral Balance Pro Audio Lighting Ferreira & Bento do Brasil Ltda
Ciclotron Ind. Eletrnica Ltda Quanta Brasil Imp. e Exp. Ltda
CIS Group Corporation Editora Msica e Tecnologia
Decomac Brasil Ltda Roland Brasil Imp. Exp. Com. Rep. e Servios Ltda
Digidesign Royal Instrumentos Musicais Ltda
Feeling Estruturas Metlicas Ind. e Com. Ltda Sabra Som Comercial Ltda
Empresa Folha da Manh S/A Eletrnica Selenium S/A
FZ Indstria e Comrcio Ltda Sennheiser
HMP Marketing Editorial Ltda SLM Sound Ligth M. Com. Ltda
Hotsound Ind. e Com. Equipos. Eletrnicos Ltda Ookpik Amplicadores e Instrumentos Musicais
IATEC - Inst. de Artes e Tcnicas em Comunicao Staner Eletrnica Ltda
Instituto de udio & Vdeo Studio R Eletrnica Ltda
VD Ribeiro Epp Taw Equipamentos de Sonorizao Ltda
Leson Lab. de Engenharia Snica Ltda Clever Luz e Som Comercial Ltda
Libor Comrcio e Importao Ltda Yamaha Musical do Brasil Ltda
LJM Indstria e Comrcio Ltda