Você está na página 1de 60

Anais do

III Congresso Brasileiro de Engenharia de


udio da AES-Brasil
apresentado na
IX Conveno Nacional da AES-Brasil

Centro de Convenes Rebouas


So Paulo, SP
11 a 13 de abril de 2005
Apresentao
Sejam todos bem vindos IX Conveno Nacional da Sociedade de Engenharia
de udio AES Brasil. A AES uma sociedade mundial, sem fins lucrativos, cujo
objetivo estimular o estudo e o desenvolvimento da engenharia de udio. A AES est
dividida em regies, e essas regies esto subdivididas em sees. A Seo Brasil da
AES foi criada em 1996 e pertencem a essa seo todos os membros da AES residentes
no Brasil. Com mais de 50 anos desde sua fundao, a AES a nica sociedade
profissional dedicada exclusivamente tecnologia de udio.
A AES serve aos seus membros, indstria e ao pblico em geral, estimulando e
facilitando os avanos no campo dinmico da engenharia de udio. Ela apia e
dissemina novos desenvolvimentos atravs de reunies tcnicas, de exposies de
equipamentos profissionais e do seu conceituado peridico Journal of the Audio
Engineering Society.
As Convenes da AES Brasil consistem de exposies e palestras convidadas e,
desde o ano de 2003, incluem um Congresso Cientfico. Este ano, estamos realizando o
III Congresso Brasileiro de Engenharia de udio. Esse Congresso visa a dar
Conveno tambm um carter cientfico/acadmico, apresentando trabalhos tcnicos
relacionados aos avanos da rea de engenharia de udio. A organizao tcnica do
Congresso contou com a participao ativa de trs importantes universidades brasileiras
(UFRJ, UFSC e USP). Os trabalhos foram selecionados por um corpo de revisores
formado basicamente por professores/pesquisadores atuantes na rea de engenharia de
udio e suas reas correlatas.
Esperamos que esta Conveno seja mais um marco na histria da Sociedade de
Engenharia de udio AES Brasil. Todos ns, Comisso Organizadora, Comisso
Tcnica, revisores e autores dos artigos tcnicos submetidos ao Congresso, fizemos o
mximo para alcanar essa meta.

Joo Amrico (Coordenador Geral)

Luiz Wagner Pereira Biscainho (Coordenador Tcnico)


Autores
Berger, P. A.
Codificao Perceptiva de Sinais de Voz de Banda Larga.

Dalcastagn, Andr L.
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.

Faria, Regis R. A.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.

Fornari, Jos
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.

Freitas, Luiz C. de
Amplificador Classe D de 1000W RMS com Realimentao.

Freitas, Luiz C. G. de
Amplificador Classe D de 1000W RMS com Realimentao.

Garcia, Pedro F. D.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.

Goldemberg, Ricardo.
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.

Guimares, Gustavo P.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.

Herrera, Christian G.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.

Lastch, Vagner L.
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por concatenao
Temporal.

Lima, L. M.
Codificao Perceptiva de Sinais de Voz de Banda Larga.

Livero, Iracele
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.

Luz, Flvio B. da
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.
Maia Jr., Adolfo
Granular Synthesis of Sound through Fuzzyfied Markov Chains.

Manzolli, Jnatas
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.
Granular Synthesis of Sound through Fuzzyfied Markov Chains.

Miranda, Eduardo R.
Granular Synthesis of Sound through Fuzzyfied Markov Chains.

Moreira Jr., Normandes J.


Amplificador Classe D de 1000W RMS com Realimentao.

Nascimento, F. A. O.
Codificao Perceptiva de Sinais de Voz de Banda Larga.

Netto, Sergio L.
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por concatenao
Temporal.

Noceti Filho, Sidnei


Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.

Oliveira, Luiz C. de
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.

Silva, Fbio V. R. da.


Amplificador Classe D de 1000W RMS com Realimentao.

Thomaz, Leandro F.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.

Vieira Jr., Joo B.


Amplificador Classe D de 1000W RMS com Realimentao.

Zuffo, Joo A.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.

Zuffo, Marcelo K.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.
Trabalhos
Amplificador Classe D de 1000W RMS com Realimentao.
Fbio Vincenzi Romualdo da Silva; Luiz Carlos Gomes de Freitas; Normandes
Jos Moreira Jnior; Joo Batista Vieira Jnior e Luiz Carlos de Freitas.

Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese


Evolutiva.
Jos Fornari; Iracele Livero e Jnatas Manzolli.

Codificao Perceptiva de Sinais de Voz de Banda Larga.


P. A. Berger; F. A. O. Nascimento e L. M. Lima.

Estudo Experimental da Sonoridade "Chalumeau" da Clarineta Atravs de


Projeto Fatorial.
Luis Carlos de Oliveira; Ricardo Goldemberg e Jnatas Manzolli.

Granular Synthesis of Sound through Fuzzyfied Markov Chains.


Eduardo Reck Miranda; Jonatas Manzolli e Adolfo Maia Jr.

Obteno de Marcas de Pitch em Sinais de Voz para Sntese por concatenao


Temporal.
Vagner L. Lastch e Sergio Lima Netto.

Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.


Christian Gonalves Herrera; Pedro F. Donoso-Garcia e Gustavo Paulinelli
Guimares

Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando


HRTF.
Leandro Ferrari Thomaz, Marcelo K. Zuffo, Joo Antonio Zuffo, Regis Rossi A.
Faria.

Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.


Flvio Bressan da Luz; Sidnei Noceti Filho e Andr Lus Dalcastagn
_________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

_________________________________
ESTUDO EXPERIMENTAL DA SONORIDADE CHALUMEAU DA
CLARINETA ATRAVS DE PROJETO FATORIAL

Lus Carlos de Oliveira, Ricardo Goldemberg, Jnatas Manzolli


Instituto de Artes (IA) e Ncleo Interdisciplinar de Comunicao Sonora (NICS)
Universidade Estadual de Campinas (UNICAMP)
CEP: 13083-970, Campinas, SP, Brasil
luis@nics.unicamp.br, rgoldem@iar.unicamp.br, jonatas@nics.unicamp.br
RESUMO
A sonoridade chalumeau da clarineta investigada empiricamente atravs de um mtodo de otimizao de
experimentos conhecido como Projeto Fatorial de Experimentos. Como resultado deste procedimento
determinamos as variveis que efetivamente interferem na sonoridade e descobrimos se existe interao
entre elas. Obtemos tambm modelos lineares que descrevem a influncia das variveis na sonoridade na
regio estudada.

(Ncleo Interdisciplinar de Comunicao Sonora). Em


1. INTRODUO seguida, vamos analisar o efeito das variveis na
O processo sistemtico de investigao cientfica a sonoridade chalumeau (regio grave) da clarineta.
respeito dos instrumentos de sopro teve seu incio no final Para otimizar a anlise ser utilizado um projeto de
do sculo XIX. Desde ento o timbre desses instrumentos experimentos que procura obter o mximo de informao
uma preocupao constante. Dentre os autores com um mnimo de esforo operacional.
representativos, destacam-se H. L. F. HELMHOLTZ [1], J. Ao utilizarmos este projeto de experimentos obtemos
RAYLEIGH, H. BOUASSE, J. BACKUS [2, 3, 4, 5, 6] e tambm um modelo linear que descreve o efeito das
mais recentemente, H. BENADE [7, 8, 9, 10, 11]. variveis na sonoridade na regio proposta.
Ainda que de maneira limitada, as contribuies desses e
outros investigadores permitem afirmar que, em nossos 2. APARATO EXPERIMENTAL
dias, existe um corpo de conhecimento terico e Neste trabalho experimental tivemos a preocupao de
experimental que possibilita descrever e simular no utilizar um msico para a coleta de dados por
razoavelmente o comportamento dos instrumentos considerarmos que sua experincia musical poderia
musicais de sopro. interferir nos resultados. Montamos, ento, no estdio do
Entretanto, devido complexidade do problema em NICS um aparato que consiste basicamente de cinco
estudo, vrias simplificaes so impostas. Deste modo, os unidades: 1) compressor cujo modelo utilizado em clnica
resultados obtidos divergem consideravelmente das dentria; 2) tanque pulmo que simula o reservatrio de
condies reais, tanto do ponto de vista terico quanto do ar no corpo humano; 3) unidade de contato com a palheta,
experimental. que daqui por diante denominaremos por mordedura;
Com relao aos trabalhos empricos, notamos um 4) unidade formada pela clarineta e 5) unidade de captao
elevado grau de preocupao com o sistema oscilador de dados. Com exceo da unidade 5, as demais podem ser
composto pelo conjunto formado pela boquilha e palheta. visualizadas nas figuras 1 a 3. Instrumentos de medida
Nossa proposta consiste primeiro, em eliminar a varivel como um rotmetro (medidor da vazo volumtrica de ar
subjetiva do msico, segundo, trabalhar simultaneamente que passa pela clarineta) e dois manmetros (para medir a
com um conjunto maior de variveis havendo a presso na entrada do tanque e no interior do tanque)
possibilidade de estabelecer se h interao entre elas. complementam o sistema.
Para tal objetivo tomaremos como ponto de partida uma O compressor tem um motor de 0,75 kW, monofsico
montagem experimental instalada no estdio do NICS aberto, com 2 pistes, um nico estgio de compresso e

1
OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA

um reservatrio de 0,03 m3. O tanque pulmo de material ponderada e 90 dB A ponderada e limite de banda de 22
acrlico, com parede de 0,011 m de espessura, 0,300 m de a 22000 Hz.
comprimento por 0,170 m de largura e 0,178 m de altura. A clarineta um instrumento cilndrico com uma nica
O seu tampo possui ainda a caracterstica de ser deslizante. palheta em sua boquilha. o membro de uma famlia de 17
instrumentos similares os quais, essencialmente,
diferenciam basicamente em tamanho [12]. O representante
lder desta famlia a usual clarineta afinada em Si bemol1
e ser utilizada neste projeto. Veja figura 2.
A mordedura consiste de um parafuso que se desloca na
direo ortogonal clarineta e na sua base est fixada uma
pequena borracha que efetivamente faz o contato com a
palheta. A borracha ter sua rea varivel para efeito de
estudo. Veja figura 3.

3. PROCEDIMENTO EXPERIMENTAL
A seguir, ser descrito o procedimento utilizado para a
realizao dos experimentos.
Primeiro enche-se o compressor. As chaves da clarineta
so fechadas com pequenas borrachas que podem alterar a
Figura 1: Viso geral do aparato experimental
nota desejada. No tanque pulmo o contato com a palheta
mantido fechado, impossibilitando a passagem de ar
atravs da palheta.
Abre-se lentamente a vlvula de sada do compressor de
modo que os manmetros indiquem o aumento gradativo
da presso. Quando os manmetros indicarem a presso de
fundo de escala (9808 Pa) abre-se muito lentamente o
contato com a palheta de modo que uma pequena
quantidade de ar injetada no interior da clarineta. As
presses indicadas pelos manmetros comeam a diminuir
como conseqncia.
Deste momento em diante a clarineta est em estado de
emisso sonora. Uma vez emitido o som a gravao
acionada no momento que se percebe que sua intensidade
mxima e constante. A gravao efetuada por volta de
Figura 2: Detalhe do conjunto tanque pulmo, clarineta e trs minutos. Desta gravao apenas 15 segundos so
mordedura. selecionados para a anlise.
As presses na entrada da boquilha (interna) e externa
so anotadas. A vazo volumtrica de ar correspondente
tambm anotada.
Depois de uma bateria de testes, estabelecemos que as
variveis que poderiam estabelecer certa influncia na
sonoridade da clarineta foram: i) volume do tanque
pulmo; ii) dureza da palheta; iii) posio de contato da
mordedura na palheta; iv) ngulo de abertura da boquilha;
v) Tipo de mordedura (rea de contato com a palheta) vi)
quantidade de material absorvente sonoro (estopa) no
tanque pulmo.
Uma vez que o volume do tanque foi variado colocando-
se uma placa de isopor em seu interior para separar uma
regio de circulao de ar e outra isenta de circulao,
Figura 3: Detalhe da unidade de contato com a palheta: pensamos em colocar um material dentro da caixa para
mordedura. verificar se teria alguma influncia. Da a justificativa da
sexta varivel.
O tanque est conectado ao compressor, em uma das Nesta concepo experimental, a vazo volumtrica de
faces, por um tubo flexvel de 0,120 m de dimetro atravs ar e a presso na entrada da boquilha no so variveis
de um sistema de engate rpido, veja figura 2. independentes. Observamos tambm que a produo
A unidade de captao de dados consiste em um sonora existe apenas para uma faixa de valores de presso.
microfone colocado prximo clarineta e conectado a um Uma viso esquemtica do aparato experimental est
computador onde est instalado o software SOUND apresentada na figura 4.
FORGE 4.5. Para o estudo destas variveis utilizamos um mtodo
O microfone unidirecional dinmico (cardiide) e tem estatstico conhecido por Projeto Fatorial de
resposta de freqncia de 50 a 15000 Hz. A taxa de Experimentos. Ele possibilita determinar quais destas
amostragem utilizada foi de 44 kHz e a configurao variveis efetivamente tm influncia no estudo e ainda se
utilizada foi de 16 bits. A placa de som tem entradas existe interao entre elas. Esta metodologia utiliza
analgicas de 18 bits (-10 dBV, conexes RCA
desbalanceadas), relao sinal/rudo (A/D/A): 88 dB no 1
A clarineta afinada em Si bemol significa que suas notas soam
um tom abaixo daquelas descritas pelo piano.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 22


OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA

pequenas perturbaes das variveis independentes e foram sorteados para determinar a ordem de execuo. A
reduzido nmero de experimentos alm de fornecer um tabela 2 resume o que foi mencionado anteriormente.
modelo linear nas variveis envolvidas.
FATORES -1 0 +1
1)Volume Vazio
do Tanque
60 65 70
Pulmo(%)
2)Dureza da 2 2,5 3
Palheta (No)
3)Posio da Interna Centro Externa
Mordedura na
Palheta
4)Boquilha A B C
5)rea de
Figura 4: Viso esquemtica do aparato experimental: 1) Entrada Contato com
3x10-5 1x10-4 1,4x10-4
de ar; 2) Compressor; 3) Vlvula; 4) Rotmetro; 5) Volume Vazio; 6) palheta (m2)
Manmetros; 7) Placa de isopor; 8) Material para absoro sonora 6)Quantidade de 0 0,015 0,030
(estopa); 9) Mordedura; 10) Palheta; 11) Clarineta
Estopa (kg)
Tabela 1: Nveis dos fatores envolvidos na experincia.
A figura 5 esclarecedora sobre a varivel
correspondente posio da mordedura na palheta. A ttulo de exemplo, a tabela 2 indica que o primeiro
ensaio realizado foi o ensaio no 5. Sendo seguido pelo
ensaio no 7, no 6 e assim sucessivamente. No ensaio no 5 o
fator 1 apresenta nvel 1, e consultando a tabela 1
sabemos que o volume vazio do tanque pulmo
corresponde a 60% do volume total. Para o fator 2 o nvel
tambm 1 e a tabela 1 indica que a palheta utilizada foi
de no 2. Analogamente, a posio da mordedura na palheta
a mais externa; a boquilha utilizada foi a C; a rea de
Figura 5: Posio da mordedura na palheta contato da mordedura com a palheta foi de 0,3 cm2 e no
foi utilizada estopa para absoro sonora.
Na anlise espectral feita atravs do SOUND FORGE
3.1 Projeto Fatorial de Experimentos 4.5 foram testados vrios janelamentos e o de
Preliminarmente, fator sinnimo de varivel. Neste Blackmann-Harris mostrou ser o mais apropriado. Em
projeto os fatores variam entre dois nveis (1 e +1), alm todas as anlises os dados foram normalizados em 3,0 dB.
de um ponto central (0). Grosseiramente, um projeto A tabela 3 apresenta os valores de presso e vazo
fatorial uma expanso por Taylor, no nosso caso linear, a utilizadas para os diversos ensaios.
partir do ponto central nos diversos fatores (variveis).
Como respostas, (Y), analisaremos as intensidades da nota ENSAIO FATORES Ordem
fundamental emitida (D3) e seus harmnicos. No 1 2 3 4 5 6 YG
A elaborao de um Projeto Fatorial de Experimentos 1 -1 -1 -1 +1 +1 +1 7
est minuciosamente detalhada em BOX [13]. Aqui 2 +1 -1 -1 -1 -1 +1 8
mencionamos apenas que foi utilizado um Projeto
Fatorial Fracionado com Resoluo III. Ser fracionado 3 -1 +1 -1 -1 +1 -1 11
significa que realizaremos parte (1/8) de um Projeto 4 +1 +1 -1 +1 -1 -1 4
Fatorial Completo, que no nosso caso para 6 fatores
5 -1 -1 +1 +1 -1 -1 1
variando em dois nveis seriam 26=64 experimentos. Ento,
realizaremos (1/8)*64=26-3=8 experimentos. A resoluo 6 +1 -1 +1 -1 +1 -1 3
indica que ao realizarmos parte do projeto completo nossa 7 -1 +1 +1 -1 -1 +1 2
perda de informao est em fundir o efeito de um fator
principal (I) com interaes entre dois fatores (II), I+II=III. 8 +1 +1 +1 +1 +1 +1 10
Na tabela 1 esto descritos os nveis dos fatores 9 0 0 0 0 0 0 5
utilizados neste experimento. A boquilha A tem a menor 10 0 0 0 0 0 0 9
abertura enquanto a C, a maior.
Neste projeto em particular, o padro de fuso 11 0 0 0 0 0 0 6
(confounding patterns) 4=12, 5=13 e 6=23. Isto significa Tabela 2: Nveis dos fatores envolvidos na experincia.
que o efeito do fator 4 ser confundido com a interao 12
(entre os fatores 1 e 2), o efeito do fator 5 ser confundido Na tabela 4 esto indicados, em dB, os valores das
com a interao 13 (entre os fatores 1 e 3), etc. intensidades da nota fundamental (D3) e de seus
Na regio grave da clarineta, tambm denominada harmnicos, indicados pela letra H e o respectivo ndice do
chalumeau, escolhemos a nota com a clarineta totalmente segundo ao dcimo segundo harmnico.
fechada, correspondendo nota D3. Esta nota refere-se do Na anlise espectral feita atravs do SOUND FORGE
piano, portanto para a clarineta corresponde nota E3. 4.5 foram testados vrios janelamentos e o de
No ponto central sero realizados mais trs experimentos Blackmann-Harris mostrou ser o mais adequado pois
que tero a finalidade de determinar o erro experimental. apresentou maior nitidez de visualizao dos picos dos
Teremos, ento, apenas 11 experimentos. Os experimentos

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 3


OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA

componentes harmnicos na anlise espectral. Em todas as


anlises os dados foram normalizados em 3,0 dB. Comparao da S rie de Fourie r com
as Fre q ncias M dias
Regio Grave
ENSAIO 2000

No Pext Pint Vazo


1600
(Pa) (Pa) (10-4m3/s)
1200
1 7453 6865 1,97
800
2 6276 5492 2,36
400
3 5492 4119 1,97
0
4 7257 6668 1,97
D3 D4 A4 D5 F# 5 A5 C6 D6 E6 F# 6 G# 6 A6
5 7257 6767 2,28
S rie Harmnica
6 6080 5296 3,30
S rie d e F o urie r Ex p e ri me nt a l
7 7649 7355 1,89
8 7649 7453 3,15 Figura 6: Comparao das Freqncias Experimentais com a
Srie de Fourier.
9 6276 5296 2,20
10 6472 5688 2,20 Uma anlise preliminar mostra que a rea de contato da
11 6472 5688 2,36
mordedura com a palheta (varivel 5) o fator mais
importante na determinao da intensidade da fundamental
Tabela 3: Valores da presso externa, interna e vazo de
todos ensaios. como da maioria dos harmnicos (exceo para o 6o, 7o e
9o). Esta varivel atuou sobre grande quantidade de
Na tabela 4 esto indicados, em dB, os valores das harmnico e as magnitudes so as mais elevadas. O
intensidades da nota fundamental (D3) e de seus aumento da rea de contato de 0,3 cm2 para 1,4 cm2
harmnicos, indicados pela letra H e o respectivo ndice diminui a intensidade da fundamental em 6,3 dB. Notamos
para o segundo, terceiro, etc. harmnico. que nesta regio o 2o e o 4o harmnicos tm intensidade
relativamente mais baixa que os demais harmnicos e o
4. ANLISE DOS RESULTADOS aumento da rea de contato provoca um decrscimo da
O projeto fatorial permite determinar o efeito de cada intensidade de 12,8 dB e 6,5 dB dos respectivos
varivel (fator) sobre as intensidades e ainda verificar se harmnicos. Os demais harmnicos pares apresentam
existe interao entre elas. intensidades mdias equivalentes aos harmnicos mpares.
As observaes descritas a seguir esto agrupadas na O nosso resultado est de acordo com o apresentado por
tabela 5. Cada pargrafo corresponde a uma varivel (ou HALL [14]. Este aumento de rea de contato provoca uma
fator). Assim, medida que se l um pargrafo pode-se queda de 4,0 dB no 3o harmnico, de 2,8 dB no 8o e 6,0 dB
acompanhar na tabela a respectiva varivel para uma no 11o. O aumento da rea de contato com a palheta
melhor compreenso. provoca uma diminuio da rea de vibrao da palheta
proporcionando assim a queda de suas intensidades. No
entanto para o 5o, 10o e 12o harmnicos o efeito do
Simulao da nota D3 aumento da rea de contato inverso, provocando um
ENSAIO D3 H2 H3 H4 H5 H6 H7 H8 H9 H10 H11 H12 aumento de suas intensidades em 5,5 dB, 5,0 dB e 8,3 dB
respectivamente. Para o 6o, 7o e 9o harmnicos o aumento
1 -29 -71 -28 -55 -32 -35 -35 -30 -34 -30 -42 -29
da rea de contato praticamente no altera suas respectivas
2 -21 -52 -22 -45 -29 -31 -31 -30 -30 -32 -36 -34 intensidades.
3 -22 -65 -23 -47 -29 -31 -33 -28 -37 -33 -54 -30 A dureza da palheta atua significativamente em oito dos
doze harmnicos. O volume da caixa e a posio da
4 -22 -57 -22 -42 -40 -31 -37 -29 -41 -35 -38 -33
mordedura na palheta atuam igualmente em sete dos doze
5 -20 -54 -23 -45 -39 -40 -35 -24 -40 -39 -45 -43 harmnicos. Logo em seguida, a abertura da boquilha atua
6 -29 -61 -29 -52 -32 -37 -32 -37 -32 -32 -39 -31 em seis.
O sexto fator, quantidade de estopa dentro do volume da
7 -18 -50 -23 -45 -39 -32 -36 -30 -36 -41 -40 -41 caixa, praticamente no tem efeito sobre a intensidade da
8 -26 -67 -26 -49 -32 -34 -34 -29 -36 -32 -48 -28 fundamental e seus harmnicos.
Quando aumentamos a dureza da palheta (varivel 2) de
9 -21 -60 -23 -48 -31 -35 -34 -29 -39 -37 -40 -36
soft (No 2) para medium (No 3) o efeito observado o
10 -21 -58 -22 -44 -34 -33 -37 -27 -50 -37 -37 -37 aumento da intensidade da fundamental, 3o, 4o, 6o, 8o e 12o
11 -22 -59 -23 -49 -32 -33 -33 -27 -38 -35 -47 -35 harmnicos, respectivamente, em 2,8 dB, 2,0 dB, 3,5 dB,
Tabela 4: Intensidade, em dB, da fundamental e de seus 3,8 dB, 1,3 dB e 1,3 dB. Efeito contrrio notado para o 5o
harmnicos para a regio chalumeau. e 10o harmnicos, isto , o aumento da dureza da palheta
provoca uma queda da intensidade destes harmnicos
A segunda linha existente na tabela indica o valor mdio igualmente em 2,0 dB. Para o 2o, 7o, 9o e 11o harmnicos a
das freqncias obtidas experimentalmente. A figura 6 dureza da palheta praticamente no apresentou qualquer
mostra a concordncia dos valores obtidos efeito.
experimentalmente com a srie de Fourier.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 4


OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA

Srie de Fourier (D3) (D4) (A4) (D5) (F#5) (A5) (C6) (D6) (E6) (F#6) (G#6) (A6)
Freqncia 146 295 440 588 735 885 1031 1178 1325 1473 1620 1770
Experimental (Hz) 2 4 4 4 2 4 5 5 4 6 5 7
1 -2,3 0,8 -0,5 1,0 1,5 1,3 1,3 -3,3 2,0 3,0 5,0 4,3
INTERAO e desvio
2 2,8 -0,3 2,0 3,5 -2,0 3,8 -1,8 1,3 -3,5 -2,0 -4,5 1,3
3 0,3 3,3 -1,5 -0,5 -3,0 -3,8 -0,3 -0,8 -0,5 -3,5 -0,5 -4,3
FATORES,

padro

4 -1,8 -5,3 -0,5 -0,5 -3,5 -2,3 -2,3 3,3 -4,0 0,5 -1,0 0,8
5 -6,3 -12,8 -4,0 -6,5 5,5 -0,8 1,3 -2,8 2,0 5,0 -6,0 8,3
6 -0,3 -0,8 -0,5 -2,0 2,0 1,8 0,3 -0,3 3,5 1,0 2,5 1,3
16+25+34 2,3 0,3 2,0 2,0 3,5 -0,3 1,8 3,8 0 0,5 -6,0 -0,3
! 0,6 1,0 0,6 2,6 1,5 1,2 2,1 1,2 6,7 1,2 5,1 1,0
Tabela 5: Efeito das variveis e interao entre elas para a regio grave.

O volume da caixa (varivel 1) tem relativa Taylor. Ao passar do nvel 1 para +1 caminhamos duas
importncia na sonoridade da clarineta, como veremos unidades, assim basta dividir por 2 os valores da tabela 5.
adiante. Ao aumentarmos o volume da caixa de 60% para O termo independente da equao corresponde ao valor
70% de seu volume total o efeito verificado a queda da mdio dos oito experimentos do projeto,
intensidade da fundamental e do 8o harmnico em 2,3 dB desconsiderando o ponto central. Os fatores f1, f2, etc so
e 3,3 dB respectivamente. O aumento da intensidade aqui denotados pelas variveis independentes x1, x2, etc
notado para o 5o, 6o, 10o e 12o harmnicos, respectivamente.
respectivamente, em 1,5 dB, 1,3 dB, 3,0 dB e 4,3 dB. A
variao deste fator mostrou-se indiferente para o 2o, 3o, Modelo para D3:
4o, 7o, 9o e 11o harmnicos. Y D3 $ "23,4 " 1,65x1 # 1,40x 2 # 0,15x3 "
O efeito da variao da posio da mordedura na
palheta (varivel 3), que corresponde posio do lbio 0,90x 4 " 3,15x5 " 0,15x6
inferior na palheta mais para dentro ou mais para fora, (1)
no foi observado para a intensidade da fundamental nem
para as intensidades do 4o, 7o, 8o, 9o e 11o harmnicos. Modelo para D4:
No entanto, quando passamos a mordedura de uma
posio mais interna para uma mais externa na palheta
observou-se um aumento da intensidade do 2o harmnico Y D 4 $ "59,6 # 0,40x1 " 0,15x 2 # 1,65x3 "
em 3,3 dB e um decrscimo da intensidade do 3o, 5o, 6o, 2,65x 4 " 6,40x5 " 0,40x6
10o e 12o harmnicos, respectivamente, em 1,5 dB, 3,0
(2)
dB, 3,8 dB, 3,5 dB e 4,3 dB.
Outra varivel de relativo destaque abertura da
Modelo para A4:
boquilha (varivel 4). Quando passamos de uma
boquilha mais fechada (A) para uma mais aberta (C)
observamos a diminuio da intensidade da fundamental Y A 4 $ "24,5 " 0,25x1 # 1,00x 2 " 0,75x3 "
e do 2o, 5o, 6o e 7o harmnicos em 1,8 dB, 5,3 dB, 3,5
0,25x 4 " 2,00x5 " 0,25x6
dB, 2,3 dB e 2,3 dB, respectivamente. Efeito contrrio
foi constatado para o 8o harmnico aumentando-o em 3,3 (3)
dB. Nenhum efeito desta varivel foi observado para o
3o, 4o e do 9o ao 12o harmnicos. Modelo para D5:
Aps a anlise das variveis resta mencionar o efeito
da interao entre elas. Esta interao, na realidade, a Y D5 $ "47,5 # 0,50x1 # 1,75x 2 " 0,25x3 "
soma do efeito das interaes 16+25+34, isto ,
corresponde soma do efeito das interaes entre as 0,25x 4 " 3,25x5 " 1,00x6
variveis 1 e 6, 2 e 5 e finalmente 3 e 4. Sendo a soma de (4)
trs interaes, em qualquer experimento desta regio,
dividindo os valores por 3, estes sero sempre menores 5. CONCLUSO
que o desvio padro. Este resultado adequado, pois no Neste estudo inicial avaliamos a influncia de algumas
se espera uma interao muito grande entre as variveis. variveis sobre a sonoridade chalumeau da clarineta.
O projeto fatorial assim elaborado permite obter um Observamos que a rea de contato com a palheta mostrou
modelo linear nas variveis envolvidas na regio de ser a varivel de maior influncia. No entanto, neste
estudo. Aqui sero apresentados apenas os modelos para experimento a variao da rea de contato (mais de
a fundamental (com o sobrescrito D3), ver equao (1), 450%) muito grande com relao s demais variveis.
para o segundo harmnico (com o sobrescrito D4), ver Como conseqncia, a magnitude de seu efeito bastante
equao (2), terceiro (A4), equao (3) e quarto superior. Por isso no devemos descartar a influncia das
harmnicos (D5), equao (4). Porm o procedimento outras variveis. Vale mencionar que o material para
segue-se analogamente para os demais harmnicos. absoro sonora no teve muita relevncia na sonoridade.
O modelo linear obtido a partir dos efeitos das Notamos que as variveis agem de modo homogneo
variveis sobre a respectiva nota, pois estes so ao longo dos harmnicos. Observamos tambm a grande
proporcionais aos coeficientes lineares da srie de

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 5


OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA

aproximao dos valores obtidos experimentalmente para [10] BENADE, A.H. e GANS, D.J. (1968). Sound
as freqncias com a srie de Fourier. Production in wind instruments. Ann. N.Y. Acad.
Nesta regio o 2o e o 4o harmnicos tm intensidade Sci. 155, 247-263.
bastante baixas, porm, para os harmnicos superiores, [11] BENADE, A.H. (1966). Relation of air-column
tanto os pares como os mpares possuem intensidades da resonances to sound spectra produced by wind
mesma ordem de grandeza, aproximadamente. instruments. J. Acoust. Soc. Am. 40, 247-249.
Assim, na regio grave, o 2o e o 4o harmnicos tm [12] NEDERVEEN, C.J. (1998). Acoustical Aspects of
intensidades bastante reduzidas quando aumentamos a Woodwind Instruments. Northern Illinois University
rea de contato com a palheta. Press, DeKalb, Illinois.
O aumento do volume vazio, de 60% para 70% do [13] BOX, G.E.P.; HUNTER, W.G.; HUNTER, J.S.
volume total provoca uma diminuio da intensidade da (1978). Statistics for Experimenters An
fundamental e de seu 8o harmnico, ver tabela 5. Porm Introduction to Design, Data Analysis and Model
ele provoca o aumento da intensidade do 5o e 10o e do 6o Building. John Wiley & Sons, NY.
e 12o harmnicos. Os valores envolvidos apresentam [14] HALL, D.E. (1990). Musical Acoustics. Pacific
magnitudes relativamente altas para a pequena variao Grove,CA: Brooks/Cole Publishing
de apenas 10% do volume total. Montery:Brooks/Coole.
Quando passamos a mordedura de uma posio mais [15] FLETCHER, N.H.; ROSSING, T.D. (1998). The
interna para uma mais externa notamos a tendncia em Physics of Musical Instrument. Springer-Verlag, 2nd
enriquecer o 2o harmnico e empobrecer o 4o. No entanto ed., NY.
consultando a tabela 5 notamos que os harmnicos
superiores tambm so empobrecidos quando a posio
da mordedura mais externa.
O aumento da abertura da boquilha provoca um
enfraquecimento de praticamente quase todos os
harmnicos, porm notamos que esta queda de
intensidade mais notabilizada na fundamental, 2o e do
5o ao 8o harmnicos.
Certamente uma nova seqncia de experimentos deve
ser elaborada. Porm nesta nova etapa devemos diminuir
a variao da rea de contato e aumentarmos a variao
do volume do tanque pulmo, alm de eliminar o uso de
material para absoro sonora. Este novo conjunto de
experimentos poder ser efetuado em uma outra regio
que poder ser encontrada atravs do steepest ascent na
direo de otimizao de algum dos harmnicos.

6. REFERNCIAS BIBLIOGRFICAS

[1] HELMHOLTZ, H.L.F. (1877). On the Sensations of


Tone as a Physiological Basis for the Theory of
Music. 4th ed., trad. ELLIS, A.J. (Dover, New York,
1954)
[2] BACKUS, J. (1985). The effect of the players vocal
tract on the woodwind instrument tone. J. Acoust.
Soc. Am. 78, 17-20.
[3] BACKUS, J. (1978). Multiphonic tones in the
woodwind instruments. J. Acoust. Soc. Am. 63,
591-599.
[4] BACKUS, J. (1974). Input impedance curves for the
reed woodwind instruments. J. Acoust. Soc. Am. 56,
1266-1279.
[5] BACKUS, J. (1963). Small-vibration theory of the
clarinet. J. Acoust. Soc. Am. 35, 305-313; erratum
(1977) 61, 1381-1383.
[6] BACKUS, J. (1961) Vibrations od the reed and air
column in the clarinet. J. Acoust. Soc. Am. 33, 806-
809.
[7] BENADE, A.H. e KOUZOUPIS, S.N. (1988). The
clarinet spectrum: Theory and experiment. J.
Acoust. Soc. Am. 83, 292-304.
[8] BENADE, A.H. e LARSON, C.O. (1985).
Requirements and Techniques for measuring the
musical spectrum of the clarinet. J. Acoust. Soc.
Am. 78, 1475-1498.
[9] BENADE, A.H. (1976). Fundamentals of Musical
Acoustics. Oxford University Press, New York.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 6


___________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Anlise da Sonoridade Pianstica Atravs do Critrio de Adequao
da Sntese Evolutiva

Jos Fornari1, Iracele Livero2, Jnatas Manzolli1,2


1. Ncleo Interdisciplinar de Comunicao Sonora (NICS)
2. Instituto de Artes (IA)
Universidade de Campinas, (UNICAMP)
Cidade Universitria "Zeferino Vaz" Campinas, SP, Brasil
[fornari, jonatas]@nics.unicamp.br; iracelelivero@uol.com.br

RESUMO
Apresentamos nesse trabalho um mtodo de anlise de sonoridade pianstica com base no critrio de adequao
da sntese evolutiva [6]. O estudo foi feito atravs da gravao de 12 pianistas interpretando, no mesmo piano, 4
obras que representam respectivamente 4 critrios escolhidos de sonoridade, a saber: intensidade, legato,
staccato e pulsao rtmica. O critrio de adequao baseado na distncia euclidiana das curvas psicoacsticas
dos segmentos sonoros gravados. Espera-se desse modo investigar uma possvel utilizao prtica desse trabalho
para a avaliao automtica e impessoal da qualidade da sonoridade na interpretao pianstica.

INTRODUO Entretanto, o aparecimento desta nova ferramenta passou a


Em meados do sculo XVIII, o aparecimento de um exigir um maior preparo tcnico na execuo, tanto pela
sistema de marteleiras acionado por um teclado que percutia possibilidade de variar a intensidade do som, como pelo
cordas metlicas possibilitou a criao do instrumento domnio do repertrio. Desde ento, estudos foram
chamado Pianoforte (posteriormente chamado apenas de desenvolvidos com a finalidade de melhorar o
Piano) e fez dele o sucessor histrico do Cravo, desenvolvimento tcnico do msico pianista. Entende-se por
diferenciando-se do seu predecessor por ser capaz de oferecer tcnica pianstica o conjunto dos movimentos gesticulares
recursos de expressividade e ampla variao na intensidade empregados na execuo do instrumento e suas
sonora (razo do nome Pianoforte, que em Italiano significa caractersticas, cujo objetivo fundamental a preciso e o
Fraco e Forte). domnio da sonoridade gerada pelo instrumento. A tcnica
Estes novos recursos proporcionaram aos artistas uma nova pianstica dever ser ento encarada como um meio
gama de possibilidades musicais, estendendo o horizonte empregado para se obter uma interpretao de boa qualidade.
composicional e trazendo um grande impacto para a Um dos assuntos controversos, questionados entre pianistas
linguagem musical, como pode-se observar atravs das obras e fsicos aquele que diz respeito possibilidade da tcnica
de diversos compositores, como: Mozart, Beethoven, Chopin pianstica poder ou no variar o timbre de uma mesma nota
entre outros. ou acorde (grupo de notas), independente da variao de sua

7
MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA

intensidade. Muitos cientistas, ao analisarem o mecanismo do torna inconsistente querer apresentar sempre interpretaes
instrumento acreditavam que a nica variao possvel idnticas ao pblico ouvinte.
corresponderia necessariamente a uma variao da Neste trabalho para anlise de sonoridade pianstica
intensidade desse som [1]. baseado no critrio de adequao da sntese evolutiva, foram
No entanto, minuciosos experimentos comprovaram que considerados os seguintes parmetros para a anlise de uma
duas notas emitidas com a mesma intensidade e com toques interpretao: pulsao rtmica, legato, staccato, e variao
diferenciados por exemplo, percussivos ou no-percussivos da intensidade. Apesar de no serem os nicos, podem ser
possuem uma diferena na composio dos harmnicos que critrios bsicos.
constituem o timbre daquele som [2]. Duas escolhas diferentes se colocam para ns na questo do
A sonoridade consiste, portanto, na qualidade do timbre dos tempo: a deciso da pulsao como base de um movimento e
sons produzidos pelo pianista, que a partir do seu a deciso da maneira de conduzi-lo. Por tempo entende-se
conhecimento, domnio tcnico e ouvido musical ser capaz o conjunto de regras que regulam o movimento ordenado dos
de obter os melhores resultados. Timbre formalmente sons e exige a presena de um valor mensurvel, uma mtrica
definido pela ASA (American Standart Association) como constante. O ritmo o elemento fundamental do tempo e
aquele atributo do sentido auditivo em termos do qual o desempenha um papel em muitos outros aspectos da msica,
ouvinte pode julgar que dois sons apresentados como sendo um importante elemento na melodia, afeta a progresso
similares, com a mesma intensidade e altura, no so da harmonia e desempenha papis em questes como textura
similares.. Sabe-se que qualquer variao de intensidade ou musical, timbre e ornamentaes. A pulsao musical pode
de freqncia corresponda a uma variao do timbre. Uma ser identificada quando os sons so apoiados em intervalos
determinada nota tocada mezzoforte ter um timbre diferente regulares de tempo. Ciclos repetidos de pulsos regulares
quando tocada forte, independente do aumento da sua estabelecem uma mtrica.
intensidade [3]. Outra maneira de qualificar uma interpretao alm dos
Constitui tarefa complexa conseguir amplo domnio sobre critrios j mencionados a maneira como o pianista
os movimentos gesticulares necessrios boa execuo do descreve o seu discurso musical, especificamente falando de
piano, ainda mais tendo que possuir os conhecimentos fraseados e suas articulaes. Frasear quer dizer
adequados compreenso de uma obra musical, e assim pronunciar. O pianista projeta um texto para o pblico
desenvolv-los e vivenci-los de acordo com a interpretao comparvel a um ator em cena, ou leitura de uma poesia.
musical desejada. A interpretao musical no dispensa A articulao diz respeito ao modo propriamente dito, a
estudos intelectuais refinados, como as caractersticas dos qualidade do toque e suas transformaes ao longo do tempo.
diferentes estilos de cada compositor, maneiras de se fazer Nesse contexto, o toque legato se define como uma execuo
um fraseado, ornamentaes e estilo da poca da composio. de sons sem interrupo perceptvel e sem nfase especial.
Para isto, as verses finais devem ser enviadas em arquivos Verifica-se melhor na voz humana ou em instrumentos que
postscript (*.ps) ou em PDF (*.pdf), segundo este formato. permitem manter um som sem o seu respectivo decrscimo.
Itens principais (veja acima) so em letras maisculas, evidente que no piano, onde cada som se apresenta
fonte Helvetica, tamanho 8, estilo negrito, alinhado invariavelmente com intensidade decrescente, uma perfeita
esquerda. O texto, propriamente dito, em fonte Times conexo entre as notas no acusticamente possvel. Porm,
Roman, tamanho 9 e justificado (como este). execut-las com toques percussivos, mesmo prolongando
cada som at o incio do prximo, diminuir a sensao de
A Arte da Interpretao legato. Pode-se dizer que a qualidade do timbrstica do som
O grande momento de mudana para a interpretao gerado pelo pianista influencia na sensao do legato.
moderna ao piano se deu nos anos vinte. Em reao aos Em oposio a este, o toque staccato se define
excessos um tanto arbitrrios da gerao anterior, os pianistas exclusivamente pela durao do som, independente de que
proclamaram a necessidade da fidelidade ao texto musical, intensidade ou tipo de toque esse som seja emitido. Porm,
demonstrando uma grande personalizao da interpretao no se justifica associar o staccato a um som de m qualidade
pianstica [4]. tmbrica proveniente de um toque percussivo.
A carreira de pianista hoje est muito mais rpida e perfeitamente possvel execut-lo com qualidade tmbrica
internacionalizada e o repertrio cada vez mais amplo. Isso usando os mecanismos tcnicos necessrios para isso.
faz com que se aumentem as exigncias tcnicas para o A amplitude do som se refere dinmica. Encontra-se em
pianista que, em tempos passados, podia ter um repertrio compositores como Beethoven, oposies combinadas de
mais restrito e especializado. Como se pode ento qualificar registro e de dinmica, por exemplo nota aguda em
um pianista? Existem certamente as regras estticas tais pianssimo (ppp) com uma nota grave marcada fortssimo (fff)
como: ritmo, estilo e forma, a poca em que o compositor [18]. Sabendo como os agudos da poca eram transparentes,
viveu, caractersticas do instrumento, entre outros, que o deve-se evidentemente reforar esse efeito para dar um
pianista deve conhecer e sentir, a fim de que possa alcanar melhor entendimento no piano atual.
uma melhor interpretao. Torna-se essencial, portanto, legtima a possibilidade de graduar do mais docemente
dominar todas as caractersticas tcnicas de uma composio, possvel ao mais forte possvel, ou seja do ppp ao fff. Esta
ao lado de um perfeito domnio tcnico, o que constitui a variao de intensidade pode s vezes vir ligada ao tempo,
base necessria para uma boa interpretao. quando se verificar um acelerando ligado ao crescendo, ou
Interpretar, portanto, quer dizer submeter-se a uma ritardando ao decrescendo. Cabe ao intrprete tomar a
experincia de auto-anlise. Estudar o repertrio, encontrar deciso mais coerente. Isto leva a essencial noo de cor.
seus limites, identific-los e tentar outros meios de contorn- Um outro ponto importante na interpretao o emprego
los. O mundo da interpretao no ento determinstico e se correto do pedal do instrumento e seus efeitos sobre o legato,

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 82


MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA

o staccato entre outros [18]. O pedal, a princpio, a A evoluo da populao feita por dois processos: a
amplificao da ressonncia pela sustentao do som, reproduo e a seleo. Em cada gerao a reproduo gera
portanto deve ser usado com parcimnia. Todas as novos indivduos e a seleo escolhe o melhor indivduo da
graduaes so possveis com um emprego bem controlado populao, ou seja, o mais adaptado aos critrios dados pelo
do pedal, e seu efeito est diretamente relacionado questo conjunto alvo. chamado de gentipo do indivduo o
de estilo. conjunto de caractersticas psicoacsticas que o caracterizam
Como se pode observar, o estudo da sonoridade pianstica percentualmente. Consideramos como gentipo trs curvas
se baseia em conceitos estticos que, como tais, so psicoacsticas: a curva de loudness (percepo da intensidade
fortemente influenciados pelo gosto pessoal do ouvinte. sonora), pitch (percepo da freqncia do harmnico
Nesse sentido, a avaliao da sonoridade de um pianista fica fundamental do som) e espectro (a composio harmnica do
sempre atrelada ao critrio pessoal de cada membro de uma segmento sonoro). Os processos de reproduo e seleo
banca julgadora. Por outro lado, no possvel criar agem sobre o gentipo de cada indivduo.
algoritmos determinsticos que sejam adequados para a No processo de reproduo agem dois operadores
avaliao da sonoridade de uma performance pianstica uma genticos: crossover e mutao. O crossover permuta
vez que este problema pertence a categoria dos problemas caractersticas sonoras dos indivduos em reproduo (os
no-determinstica, ou seja, problemas que no apresentam progenitores). A mutao insere modificaes aleatrias
uma soluo determinada, ou fixa. Nesse sentido a utilizao nessas caractersticas, aumentando assim a diversidade da
de algoritmos evolutivos para a soluo desse problema populao. Chamamos assim de gentipo do indivduo o
parece ser bastante pertinente. Em nosso trabalho utilizamos conjunto de caractersticas perceptuais sonoras que o
o processo de seleo da sntese evolutiva [5] como critrio compem, ou seja, suas grandezas psicoacsticas. O processo
de adequao para a busca da gravao digital com melhor de evoluo atua sobre os gentipos dos indivduos.
sonoridade, baseada num conjunto de gravaes previamente No processo de seleo, cada indivduo pertencente
selecionadas como possuindo diferentes aspectos de uma populao comparado com um conjunto de indivduos
tima sonoridade. chamado alvo, atravs de uma funo de adequao (fitness),
que mede a distncia entre o gentipo do indivduo e todos os
gentipos do conjunto alvo. A medida de distncia utilizada
A SNTESE EVOLUTIVA neste trabalho a distncia euclidiana das curvas
O mtodo ESSynth utiliza conceitos da computao psicoacsticas que compem o gentipo de cada indivduo.
evolutiva para a gerao de segmentos sonoros cujo O resultado sonoro deste mtodo de sntese o segmento
comportamento snico tem caractersticas dinmicas (i.e. sonoro escolhido pelo processo de seleo como melhor
entre outros parmetros, o comportamento psicoacstico da indivduo (indivduo na populao com menor distncia ao
intensidade, altura e espectro se modificam ao longo do conjunto alvo). A cada gerao da populao o processo de
tempo). O ESSynth gera seqncias sonoras que, como nos seleo busca pelo melhor indivduo da populao. Ao longo
processos biolgicos, tem o potencial de evoluir ao longo do das geraes tem-se uma sucesso de melhores indivduos
tempo, segundo conceitos inspirados na teoria da evoluo de que, como segmentos sonoros, tende a convergir para um
Darwin. Mais especificamente, toma-se emprestado o nico segmento sonoro, isso considerando que o conjunto
conceito de seleo biolgica das espcies onde os segmentos alvo permanea inalterado.
sonoros so representados como indivduos de uma
populao sobre a qual agem dois processos evolutivos:
Seleo e Reproduo. A Reproduo feita por algoritmos AS CURVAS PSICOACSTICAS DOS SEGMENTOS
genticos (GAs) e a Seleo feita por uma funo de SONOROS
adequao (funo de fitness) utilizando-se a medida de A medida da sonoridade pianstica foi aqui realizada a
distncia denominada distncia de Hausdorff que avalia o partir da gravao digital de 12 pianistas, cada qual tocando 4
contedo perceptual dos segmentos sonoros gerados. peas musicais que expressam qualidades distintas da
O mtodo completo da ESSynth pode ser visto em [5]. O sonoridade pianstica. Estas so: legato (tocar as notas o mais
trabalho apresentado aqui projeto prope o desenvolvimento ligadas possvel), staccato (tocar as notas o mais destacadas
de um aplicativo que dever ser capaz de processar o mtodo possvel), pulsao (tocar as notas o mais ritmado possvel) e
ESSynth em tempo real e controlar os parmetros da sntese intensidade (explorar as variaes de intensidade sonora entre
dinamicamente. A implementao em software da sntese as notas). Para isso utilizou-se o mtodo de extrao do
evolutiva ser tambm chamada de ESSynth (Evolutionary gentipo sonoro [6], para se obter as 3 curvas psicoacsticas
Sound Synthesizer) e vir a ser, ao que sabemos, um dos que compem o gentipo sonoro de cada gravao digital. O
primeiros sintetizadores em software desenvolvidos com conjunto das gravaes dos 12 pianistas o nosso conjunto
tecnologia evolutiva. Populao, onde cada gravao digital chamada de
Na sntese evolutiva os indivduos so amostras discretas individuo.
(digitais) de segmentos sonoros com uma dada taxa de Foi feita a anlise da sonoridade pianstica de cada
amostragem e resoluo. O conjunto de todos os indivduos indivduo atravs da medida de distncias entre seus
compe a populao, onde ocorre a evoluo. O curso da gentipos, e os gentipos de um conjunto de segmentos
evoluo da populao condicionado atravs de uma sonoros da gravao de 3 pianistas que, dentro da populao
distncia propriamente definida pelas caractersticas consideramos como apresentando a melhor sonoridade, que
perceptuais sonoras dos indivduos de outro conjunto, o corresponde a nosso conjunto Alvo. Os grficos a seguir
conjunto alvo. A evoluo da populao ocorre em estgios, mostram a distncia entre os gentipos de cada indivduo em
cada qual sendo chamado de gerao. relao ao conjunto Alvo. Note que os indivduos que

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 9


3
MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA

apresentam distncia nula so aqueles que pertencem ao


prprio conjunto Alvo (no caso da figura a seguir, os
indivduos 1, 4 e 11).

Figura 4: Anlise da distncia do critrio INTENSIDADE.


Dl=distncia de loudness, Dp=Distncia de pitch, De=distncia de
espectro, Dt=mdia das trs distncias anteriores.

Definies usadas nos experimentos


Figura 1: Anlise da distncia do critrio PULSAO. Dl=distncia de
loudness, Dp=Distncia de pitch, De=distncia de espectro, Dt=mdia Indivduo: segmento sonoro, gravao da performance de
das trs distncias anteriores um piansta em udio digital: 44.1KHz, 16bits, mono.
Melhor indivduo: indivduo mais prximo ao conjunto
Alvo, baseado na medida de distncia da funo de
adequao.
Conjunto de Populao: indivduos 1, 2, 3, 4, 5, 6, 7, 8, 9,
10, 11 e 12
Conjunto Alvo: indivduos considerado com melhor
sonoridade em cada categoria.
Dl: distncia para curva psicoacstica de loudness
Dp:distncia para curva psicoacstica de pitch
De: distncia para curva psicoacstica de espectro
D: mdia aritmtica das distncias das 3 curvas
psicoacsticas

RESULTADOS:
Pulsao Legato Staccato Intensidade
Conj. Conj.Alvo: Conj. Alvo: Conj.
Alvo:1,4,11 1,4,12 1,4,11 Alvo:1,11,12
Figura 2: Anlise da distncia do critrio LEGATO. Dl=distncia de Dl = 5 Dl: = 2 Dl = 9 Dl = 2
loudness, Dp=Distncia de pitch, De=distncia de espectro, Dp =10 Dp = 2 Dp = 2 De = 2
Dt=mdia das trs distncias anteriores. De = 5 De = 7 De = 5 De = 8
D= 5 D= 2 D= 2 D= 8

Figura 5- Resultados obtidos nas anlises, pelo critrio de


adequao. Entre so os indivduos, entre os 12 indivduos da
populao, que apresentaram as menores distncias com seu
respectivo conjunto alvo, de 3 indivduos.

Figura 3: Anlise da distncia do critrio STACCATO. Dl=distncia


de loudness, Dp=Distncia de pitch, De=distncia de espectro,
Dt=mdia das trs distncias anteriores.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 4


10
MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA

sons, tornando-os o mais interconectado possvel. O


PULSAO LEGATO pianista escolhido pelo processo da adequao da
Dt Dl Dp De Dt Dl Dp De
0 0 0 0 0 0 0 0
sntese evolutiva usou sem moderao o pedal de
0.5858 0.7998 0.0568 0.6826 0.4690 0.5920 0.2334 0.4543 sustentao do instrumento, mesmo que misturando as
1.0000 0.8243 1.0000 0.8028 0.6393 0.7487 0.4359 0.5599 harmonias, o que criou uma iluso maior de legato.
0 0 0 0 0 0 0 0
0.4871 0.6865 0.0557 0.5374 0.6742 0.7548 0.5565 0.5282
Quanto ao Staccato: O trecho escolhido para essa
0.5190 0.7075 0.0823 0.5737 0.5752 0.7691 0.3651 0.4353 anlise foi um trecho da pea de Bela Bartok: Jeering
0.6734 0.7102 0.0588 1.0000 0.7692 0.9377 0.9071 0.2542 Song. O indivduo escolhido est de acordo com o
0.6667 0.9130 0.0681 0.7705 0.9153 1.0000 0.4974 1.0000
0.5417 0.7412 0.0578 0.6242 0.6136 0.6238 0.3853 0.6652
critrio staccato principalmente pela qualidade do
0.6141 0.7937 0.0536 0.7660 1.0000 0.8475 1.0000 0.8811 toque pianstico, ou seja, a qualidade da sonoridade
0 0 0 0 0.5918 0.6474 0.3541 0.6134 pianstica e a clareza de cada som.
0.7212 1.0000 0.0699 0.8248 0 0 0
Quanto Intensidade: O trecho escolhido para essa
Figura 6: Distncias entre cada indivduo da populao e o anlise foi a introduo de Estro Africano 1 da
conjunto alvos da pulsao e do legato. compositora brasileira Eunice Katunda [17]. Neste
critrio pode-se haver mais de um indivduo se no
STACCATO INTENSIDADE
levarmos em conta a reverberao dos sons. O processo
Dt Dl Dp De Dt Dl Dp De de adequao da sntese evolutiva considerou o pianista
0 0 0 0 0 0 0 0 que, alm de realizar os crescendos e decrescendos
0.5762 0.6339 0.5758 0.6622 1.0000 0.5766 0.0446 1.0000
0.7484 0.8036 0.7478 0.7575 0.9781 0.8191 0.0548 0.9781
com acuidade, tambm foi o que mais utilizou o pedal
0 0 0 0 0.6516 0.9496 0.2611 0.6516 de sustentao do instrumento. Isto no deprecia um
0.8734 0.6407 0.8733 0.3728 0.7935 0.7476 1.0000 0.7935 outro pianista, que tenha conduzido bem uma variao
0.8095 0.6477 0.8093 0.6239 0.6910 1.0000 0.0532 0.6910
10.000 0.6906 10.000 0.4920 0.6868 0.8483 0.0478 0.6868
da intensidade, com uma boa qualidade sonora, mas
0.9360 10.000 0.9352 0.5778 0.4518 0.6413 0.0510 0.4518 que tenha utilizado o pedal com menor freqncia.
0.6214 0.5352 0.6212 0.6525 0.8257 0.8428 0.0627 0.8257 Consideramos os resultados experimentais obtidos
0.8116 0.7980 0.8112 10.000 0.5738 0.9501 0.0483 0.5738
0 0 0 0 0 0 0 0
encorajadores para o prosseguimento da pesquisa. O
0.7205 0.9744 0.7194 0.8089 0 0 0 0 prximo passo seria a implementao desse algoritmo
Figura 7: Distncias entre cada indivduo da populao e o em um aplicativo de software capaz de avaliar os
conjunto alvo do staccato e intensidade.
critrios de sonoridade (staccato, legato, pulsao e
intensidade), e mostr-los em uma graduao numrica
enquanto o pianista estiver executando a pea, em um
concurso de piano, ou mesmo estudando em casa. Em
uma segunda etapa da pesquisa iremos testar o segundo
processo da sntese evolutiva [7], a utilizao dos
operadores genticos, para a reconstruo da
CONCLUSO E FUTURAS PESQUISAS sonoridade de uma pea gravada, de acordo com os
Observando os resultados da anlise da sonoridade critrios de adequao de sonoridade estudados. Isto
com base no critrio de adequao da sntese evolutiva seria similar correo de afinao de voz que os
de cada parmetro estabelecido, pode-se chegar a estdios de gravao podem fazer para os cantores, s
seguinte concluso: que a correo nesse caso seria feita nos critrios de
Quanto Pulsao: O trecho escolhido para essa sonoridade estudados, de acordo com modelos de
anlise foi uma pea de Bela Bartok: Bear Dance. O sonoridade dados por gravaes de pianistas
indivduo escolhido no condiz com o critrio de renomados pela boa sonoridade. Tambm nada impede
anlise pulsao, visto que h oscilaes do ritmo, no que este mtodo se estenda para o estudo da sonoridade
mantendo uma mesma pulsao do incio ao fim do de outros instrumentos musicais, ou da voz humana.
trecho. Acredito que uma influncia sobre esta escolha So grandes as possibilidades de aplicao deste
tenha sido o fato de que o toque pianstico esteja mtodo para msica e acreditamos que muitas delas
similar (o que pode ser observado no grfico da figura iro surgindo medida que continuarmos o seu
1), bem como tambm o andamento inicial desenvolvimento. As gravaes dos pianistas utilizadas
estabelecido muito prximo. para a anlise da sonoridade estaro disponveis para
Quanto ao Legato: O trecho escolhido para essa serem escutadas no site
anlise foi um trecho do Noturno op. 9 n. 2 de Chopin. http://www.nics.unicamp.br/~fornari/epp
Observou-se que o indivduo escolhido teve grande
semelhana na qualidade do toque pianstico e do
loudness. Assim sendo a qualidade tmbristica do som
do pianista influenciou diretamente no critrio legato,
ou seja, na execuo sem interrupo perceptvel dos

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 115


MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA

REFERNCIAS BIBLIOGRFICAS [17] Livero, Iracele. Pesquisa de Doutorado. A Msica


Brasileira na Obra Pianstica de Eunice Katunda: Uma
[1] Allen. F. J. 1913. Pianoforte touch. Nature viso histrica, Crtica e Analtica. Unicamp, 2004.
91(2278),424-425. [18] Sadie, Stanley. Dicionrio de Msica. Edio concisa.
[2] Askenfelt, A., Galembo, A., Cuddy, L. E. 1998. On the Rio de Janeiro: Zahar, 1994. pp. 708,709.
accoustics and psychology of piano touch and tone.
Journal of Acoustical Society of America. 103(5 Pt. 2),
2873.
[3] Bresin, R., Battel, G. 2000. Articulation strategies in
expressive piano performances. Journal of New Music
Research. 29 (3), 211-224.
[4] Fornari, J. 2003. A Sntese Evolutiva de Segmentos
Sonoros. PhD Dissertation. Faculty of Electrical
Engeering, State University of Campinas (UNICAMP).
Brazil.
[5] Levaillant, Denis. Le Piano. J.C.
Latts/Salabert,1986,p.53
[6] Manzolli, J., Maia Jr. A., Fornari, J. & Damiani, F.
2001. The evolutionary sound synthesis method.
Proceedings of the ninth ACM international conference
on Multimedia, Ottawa, Canada, 585 587, ISBN:1-
58113-394-4.
[7] Moroni, A., Manzolli, J., Von Zuben, F. and Gudwin, R.
2000. Vox Populi: An Interactive Evolutionary System
for Algorithmic Music Composition, San Francisco,
USA: Leonardo Music Journal, - MIT Press, Vol 10, pg
49-54.
[8] Moroni, A, von Zuben, F. and Manzolli, J. 2002.
ArTbitration, San Francisco, USA: Leonardo Music
Journal - MIT Press, 2002, Vol:11-45-55.
[9] Richerme, C. 1996. A tcnica pianstica. Uma
abordagem cientfica. S.Joo Boa Vista. Air Musical.
p.27 and 28.
[10] Repp. B. H. 1993. Some empirical observations on
sound level properties of recorded piano tones. Journal
of the Acoustical Society of America. 93(2),1136-44.
[11] Repp. B. H. 1996. Patterns of note onset asynchronies
in expressive piano performances. Journal of the
Acoustical Society of America. 100(6),3917-3932.
[12] Shaffer, L. H. 1981. Performances of Chopin, Bach and
Bartk: Studies in motor programming. Cognitive
Psycology 13,326-376.
[13] Tro. J. 1998. Micro dynamics deviation as a measure of
musical quality in piano performances?. In Proceedings
of the 5th International Conference on Music Perception
and Cognition (ICPMC5), August, 26-30, edited by S.
W. Yi (Western Music Research Institute, Seoul
National University, Seoul, Korea).
[14] Wasserman, K.C., Eng, K., Verschure, P.F.M.J.,
Manzolli, J. 2003. Live Soundscape Composition Based
on Synthetic Emotions. In: Published by IEEE
Multimedia Computer Society, Vol:10:4, p. 82-90.
[15] Widmer, G. 2001. Using AI and machine learning to
study expressive music performance: Project survey and
first report. AI Communications 14(3), 149-162.
[16] Goebl, W. 2003. The role of timing and intensity in the
Production and Perception of Melody in Expressive
Piano Performance. PhD Dissertation, Institut fur
Musikwissenschaft, Karl-Franzens University,
Germany.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 126


___________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades
Especiais
Flvio Bressan da Luz1, Sidnei Noceti Filho2, Andr Lus Dalcastagn2
1 Brasil Telecom S.A.
SIA/SUL ASP, Lote D, Bloco A, Trreo
71215-000, Braslia, DF, Brasil
flavio@bressan.eng.br
2 LINSE - Laboratrio de Circuitos e Processamento de Sinais
Departamento de Engenharia Eltrica, UFSC
Telefone: (48) 331-9504, Fax: (48) 331-9091
88040-900, Florianpolis, SC, Brasil
sidnei@linse.ufsc.br andre@linse.ufsc.br

RESUMO
Este trabalho apresenta um sistema que, acoplado a um teclado ou mdulo com entrada MIDI, permite que uma pessoa
portadora de algum tipo de deficincia fsica na mo esquerda possa executar uma quantidade razovel de acordes completos.
O sistema formado por um miniteclado com doze teclas (tnicas) e por uma pedaleira composta por quinze chaves,
responsveis pela seleo do tipo de acorde desejado.

INTRODUO MIDI (acrnimo de musical instruments digital interface) [1]


Uma msica composta pela harmonia (acordes de trs ou possibilite a uma pessoa portadora de algum tipo de
mais notas) e pela melodia (solo). Cada acorde formado por deficincia fsica na mo esquerda executar uma quantidade
uma nota principal (tnica) e por um conjunto de duas ou razovel de acordes completos (quinze). O sistema proposto
mais notas que o caracterizam. Por exemplo, no caso do formado por um miniteclado com doze teclas (tnicas) e por
acorde d menor com stima (Cm7), a tnica o d e as uma pedaleira, que possui um conjunto de quinze chaves que
notas que o caracterizam so o mi bemol, o sol e o si bemol. selecionam o tipo de acorde que deve ser executado. Nesse
Em um teclado, o msico normalmente executa o acorde com sistema, necessrio utilizar apenas um dedo, ou alguma
a mo esquerda e a melodia com a mo direita. Portanto, para prtese ligada ao brao esquerdo, para executar uma tnica.
executar um acorde Cm7, o msico precisa utilizar quatro As demais notas de um acorde so selecionadas atravs da
dedos da mo esquerda. Sendo assim, uma pessoa portadora utilizao da pedaleira. No exemplo do acorde Cm7, o
de algum tipo de deficincia fsica na mo esquerda no pode msico acionaria apenas uma tecla com um membro superior
executar tal acorde em um teclado convencional. e uma das quinze chaves da pedaleira, correspondente ao
O objetivo deste trabalho desenvolver um sistema que acorde menor com stima, com um membro inferior. As
acoplado a qualquer tipo de instrumento musical com entrada informaes provenientes do miniteclado e da pedaleira so

13
12
12
BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.

ento processadas e o cdigo resultante enviado atravs do Neste trabalho, somente as instrues MIDI NOTE ON e
protocolo MIDI para um teclado convencional. NOTE OFF so utilizadas. Elas apresentam as seguintes
Com as devidas alteraes na disposio das chaves, estruturas:
possvel suprir as necessidades de outros tipos de deficincia
fsica. Por exemplo, ao invs de um sistema com um NOTE ON: 1001cccc 0nnnnnnn 0vvvvvvv , (2)
miniteclado e uma pedaleira, pode-se pensar em utilizar duas
pedaleiras. Alm disso, o princpio exposto neste trabalho NOTE OFF: 1000cccc 0nnnnnnn 0vvvvvvv , (3)
pode ser aplicado a outros tipos de instrumentos musicais que
onde cccc o cdigo binrio que identifica o canal que deve
possuam entrada MIDI, tais como baterias eletrnicas, ser utilizado para a transmisso dos dados; nnnnnnn o
expanders e samplers.
cdigo binrio da nota a ser executada ou desligada; vvvvvvv
o cdigo binrio do volume dessa nota, relativo
O PROTOCOLO MIDI velocidade com que a tecla acionada. Neste trabalho, cccc
Os primeiros sintetizadores comerciais analgicos surgiram mantido em 0000, o que indica que o canal MIDI utilizado
no final da dcada de 1960. Originalmente, esses sistemas o 1 e vvvvvvv mantido em 1000000 (64 em decimal), que
eram monofnicos, ou seja, eram capazes de tocar apenas indica a velocidade mdia de acionamento de uma tecla.
uma nota por vez. Alm disso, a programao dos De acordo com as Equaes (2) e (3), necessrio o envio
sintetizadores era realizada atravs de cabos que interligavam de trs bytes para ligar ou desligar uma nota. Neste trabalho,
diferentes circuitos eletrnicos, tais como osciladores, filtros os acordes disponveis possuem quatro notas, o que implica
e geradores de envoltria. Com a evoluo da tecnologia, os na transmisso de doze bytes para cada instruo. Entretanto,
sintetizadores analgicos foram recebendo novos recursos, pode-se utilizar o recurso MIDI running status [1], que
como, por exemplo, a capacidade de tocar vrias notas permite diminuir o nmero de bytes que devem ser
simultaneamente e a de memorizar diferentes conexes entre transmitidos caso seja necessrio enviar vrias instrues
os cabos. O passo seguinte na evoluo desses equipamentos iguais mas com dados diferentes. Assim, o nmero de bytes
foi a interligao de diferentes tipos de instrumentos transmitidos para ligar ou desligar uma nota reduzido de
musicais. Sintetizadores de diversos fabricantes passaram a doze para nove.
se comunicar, com o propsito de criar estruturas sonoras
complexas. HARWARE
Com o advento dos processadores digitais, surgiram os A Fig. 1 apresenta o diagrama de blocos simplificado do
instrumentos musicais digitais, tais como sintetizadores e sistema desenvolvido. O sistema composto por um
samplers. Tal fato trouxe consigo a necessidade de miniteclado e por uma pedaleira, cada um ligado em um
comunicao entre instrumentos digitais de diferentes circuito codificador prprio, e por uma CPU, constituda
fabricantes. Para atender a esse requisito, alguns dos mais basicamente por um microcontrolador, por uma memria e
importantes fabricantes mundiais de instrumentos musicais pela sada MIDI OUT [1].
eletrnicos (Sequential Circuits, Oberheim, Roland, Yamaha, Miniteclado Codificador
Korg e Kawai) criaram no incio da dcada de 1980 o Mem.
(tnicas) (miniteclado)
protocolo de comunicao MIDI. Atualmente, esse protocolo Micro-
est presente em praticamente todos os instrumentos e controlador
Pedaleira Codificador MIDI
equipamentos eletrnicos profissionais e semiprofissionais
(acordes) (pedaleira) OUT
dedicados msica, tais como baterias eletrnicas,
seqenciadores, samplers, sintetizadores, mesas de gravao Via de dados paralela CPU
e computadores. Via de dados serial
O protocolo MIDI utiliza uma transmisso serial de dados,
do tipo assncrona, com frame de dez bits (um start bit Fig. 1: Digrama de blocos do sistema proposto.
+ oito bits + um stop bit) e taxa de transmisso de
31250 bits/s. Essa transmisso pode ser feita em at dezesseis A funo do miniteclado permitir ao usurio executar a
canais simultaneamente. Existem instrues MIDI destinadas tnica de um acorde. Para isso, ele possui doze teclas (doze
execuo, sincronizao e programao de instrumentos tnicas correspondentes escala cromtica do piano) ligadas
musicais. Uma mensagem MIDI composta por um status em chaves normalmente abertas. Essas chaves so ligadas no
byte e por um ou mais data bytes. O status byte identifica o circuito codificador do miniteclado, que gera a palavra
tipo de instruo que est sendo enviada e caracterizado por binria de quatro bits ABCD, como mostra a Fig. 2.
possuir o bit mais significativo igual a 1. O data byte Os acordes so executados atravs da pedaleira, que possui
fornece o dado necessrio a essa instruo e caracterizado quinze chaves normalmente abertas (quinze acordes). As
por possuir o bit mais significativo igual a 0. A equao chaves da pedaleira tambm so ligadas em um circuito
abaixo apresenta a tpica estrutura de uma mensagem MIDI: codificador, responsvel por gerar a palavra binria de quatro
bits EFGH que identifica a chave que foi acionada pelo
1xxxcccc 0ddddddd 0ddddddd 0ddddddd ! . (1) msico (Fig. 3). A nica diferena entre esses dois
codificadores que o da pedaleira gera dezesseis cdigos
onde 1xxxcccc o status byte; xxx o cdigo binrio que binrios (0000 corresponde a nenhum acorde selecionado), ao
identifica a instruo; cccc o cdigo binrio que identifica o passo que o do miniteclado gera apenas treze (0000
canal pelo qual essa instruo deve ser transmitida. O termo corresponde a nenhuma tnica selecionada).
0ddddddd representa o data byte, onde ddddddd o dado a A Fig. 4 apresenta o circuito lgico combinacional do
ser transmitido. codificador da pedaleira, que composto por quatro portas

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 142


BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.

lgicas tipo OU de oito entradas e uma sada. A estrutura do (CI 74LS373); por um estgio de eliminao de rudo dos
codificador do miniteclado (Fig. 2) idntica do sinais oriundos das chaves do miniteclado e da pedaleira,
codificador da pedaleira, a no ser pelo fato de possuir apenas composto por oito filtros passa-baixa de primeira ordem
doze entradas. Neste trabalho, esses dois circuitos foram (componentes R1 e C1); pelo estgio de sada (MIDI OUT),
implementados com o circuito integrado (CI) 4078. que segue o padro MIDI [1].
O microcontrolador utilizado neste projeto o INTEL
VCC 8031AH, da famlia Intel MCS 51 [2]. Por simplicidade, esse
S1 microcontrolador ser chamado apenas de 8031 deste ponto
1
em diante. A escolha dentre os microcontroladores que
S2 A atingiam a taxa de transmisso requerida para o projeto recaiu
2 sobre o 8031 devido disponibilidade do CI e do seu
B respectivo sistema de desenvolvimento. O 8031 possui 32
Codificador
S11 do miniteclado C linhas de entrada/sada, memria RAM de 128 bytes,
11 transmissor/receptor serial sncrono/assncrono (UART), dois
D temporizadores/contadores de dezesseis bits, cinco fontes de
S12
12 interrupo com dois nveis de prioridade e um oscilador de
clock interno. Como o 8031 no possui memria interna do
tipo ROM, necessrio utilizar uma memria externa para
Fig. 2: Codificador do miniteclado. armazenar o programa do sistema. Neste trabalho, optou-se
por utilizar uma memria do tipo EPROM. Outros
VCC microcontroladores, eventualmente com menor custo, podem
S1 ser usados, especialmente aqueles que no necessitam utilizar
1
externamente um conjunto memria + latch.
S2 E
2 ACORDES ESCOLHIDOS
F Por limitaes prticas, necessrio limitar o nmero de
Codificador
S14 acordes disponveis no sistema apresentado. Como a porta 1
da pedaleira G
14 do 8031 (P1) possui oito bits e a palavra binria ABCD do
H codificador do miniteclado de quatro bits, fica determinado
S15 que a palavra binria do codificador da pedaleira deve ser de
15
quatro bits (EFGH). Com quatro bits, pode-se implementar
dezesseis cdigos binrios EFGH diferentes. O valor 0000
Fig. 3: Codificador da pedaleira. utilizado para indicar que nenhum acorde foi selecionado
(nenhuma chave da Fig. 3 ou 4). Com isso, o nmero de
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 acordes disponveis no sistema foi limitado em quinze. Esses
VCC quinze acordes foram escolhidos com base na experincia
prtica. O critrio utilizado foi disponibilizar os quinze
acordes considerados como os mais utilizados em msica
popular. A Tabela 1 apresenta os acordes implementados
relativos tnica d.
E
Teclas correspondentes
Acorde Notas
tnica d (Fig. 6)
F 1C C2, E2, G2, C3 1, 5, 8, 13
2 Cm C2, Eb2, G2, C3 1, 4, 8, 13
3 - C5+ C2, E2, Ab2, C3 1, 5, 9, 13
G 4 - Cm5-/7 C2, Eb2,Gb2,Bb2 1, 4, 7, 11
5 - C6 C2, E2, G2, A2 1, 5, 8, 10
6 - Cm6 C2, Eb2, G2, A2 1, 4, 8, 10
H 7 - C7 C2, E2, G2, Bb2 1, 5, 8, 11
8 - Cm7 C2, Eb2, G2, Bb2 1, 4, 8, 11
9 - C7+ C2, E2, G2, B2 1, 5, 8, 12
2, 2 k!
10 - Cm7+ C2, Eb2, G2, B2 1, 4, 8, 12
11 - Co C2, Eb2, Gb2, A2 1, 4, 7, 10
12 - C5+/7 C2, Bb2, E3, Ab3 1, 11, 17, 21
Fig. 4: Circuito lgico combinacional do codificador da
pedaleira. 13 - C6/7 C2, Bb2, E3, A3 1, 11, 17, 22
14 - C7/9 C2, Bb2, Db3, E3 1, 11, 14, 17
A Fig. 5 apresenta o diagrama esquemtico da CPU. Ela 15 - C7/9/11 C2, Bb2, D3, F3 1, 11, 15, 18
formada basicamente por um microcontrolador (CI 8031AH);
por uma memria do tipo EPROM (CI 2716); por um latch Tabela 1: Acordes relativos tnica d.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 153


BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.

74LS373 2716
31 P0.0 39 3 D0 Q0 2 8 9
EA/VPP A0 D0
27 pF P0.1 38 4 D1 Q1 5 7 10
A1 D1
19 XTAL1 P0.2 37 7 Q2 6 6 11
D2 A2 D2
P0.3 36 8 D3 Q3 9 5 13
X1 A3 D3
18 XTAL2 P0.4 35 13 D4 Q4 12 4 14
A4 D4
P0.5 34 14 D5 Q5 15 3 15
A5 D5
27 pF 9 33 17 16 2 16
RST P0.6 D6 Q6 A6 D6
P0.7 32 18 D7 Q7 19 1 17
A7 D7
Pushbutton 12 23 A8
INT0 21
13 P2.0 1 22 A9
INT1 22 OE
14 T0 P2.1 11 LE 19 A10
15 P2.2 23
T1 24
P2.3 18
CE
8031AH P2.4 25 20
26 OE
1 P2.5 21 VPP
P1.0 27
2 P1.1 P2.6
28 VCC
3 P1.2 P2.7 VCC
4 P1.3
5 P1.4 74LS08
6 17 1 220 !
P1.5 RD
7 16 3
P1.6 WR 2
MIDI
8 29
P1.7 PSEN OUT
30
ALE/P
11 220 !
TXD 1 2 3 4
RXD 10

74LS04 74LS04

C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1

A B C D E F G H

R1 $ 47 k! e C1 $ 10 nF
X 1 $ cristal 12 MHz

Fig. 5: Diagrama esquemtico da CPU.


A Fig. 6 apresenta uma parte do lado esquerdo do teclado observar a existncia de dezesseis notas musicais diferentes.
que acionado pelo sistema proposto via cdigo MIDI. A Isso ocorre para qualquer outra tnica, no apenas para a
terceira coluna da Tabela 1 est relacionada com as teclas tnica d. Como o sistema possui doze tnicas, chega-se a
apresentadas nessa figura. Por exemplo, para tocar o primeiro um total de 192 notas, o que significa 192 cdigos MIDI
acorde de d (C), o msico aciona as teclas 1, 5, 8 e 13 do diferentes. Esses cdigos so gravados na memria EPROM
teclado da Fig. 6. A nota C2, cuja freqncia fundamental do sistema a partir do endereo I, definido pelo programador,
de 65,41 Hz, normalmente a nota relativa tecla mais como mostra a Fig. 7. O endereo E representa a posio de
esquerda da grande maioria dos teclados. Note que neste memria na qual est gravado o primeiro cdigo MIDI para
trabalho, nem todas as notas da Fig. 6 foram implementadas. uma determinada tnica. A sua funo explicada na
prxima seo.
Db2 Eb2 Gb2 Ab2 Bb2 Db3 Eb3 Gb3 Ab3

2 4 7 9 11 14 16 19 21 FUNCIONAMENTO
Enquanto o usurio no aciona uma chave do miniteclado
1 3 5 6 8 10 12 13 15 17 18 2 0 22 ou da pedaleira, todos os bits da P1 so iguais a zero e o
C2 D2 E2 F2 G2 A2 B2 C3 D3 E3 F3 G3 A3 microcontrolador permanece em estado de espera. O
acionamento de uma chave do miniteclado faz com que a
Fig. 6: Representao de uma parte de um teclado acionada
parte menos significativa da P1 (ABCD) se torne diferente de
pelo sistema proposto.
zero. O acionamento de uma chave da pedaleira faz com que
Cada nota da Tabela 1 possui o seu respectivo cdigo a parte mais significativa da P1 (EFGH) se torne diferente de
MIDI. A Tabela A1 do Apndice A apresenta os cdigos zero. A verificao dos valores de ABCD e EFGH feita
MIDI (em decimal) das notas da regio acionada do teclado atravs de uma varredura constante da P1. Os cdigos
da Fig. 6. Atravs da segunda coluna da Tabela 1, pode-se binrios ABCD e EFGH expressos na base decimal sero

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 16


4
BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.

representados daqui em diante por T (tnica) e P (pedaleira), pedaleira podem ocorrer. Por exemplo, o usurio pode apertar
respectivamente. A combinao de T e P identifica qual primeiro uma tecla do miniteclado e depois uma chave da
acorde dentre os 180 implementados foi executado pelo pedaleira ou vice-versa. Como o programa faz uma varredura
msico. O programa ento l na memria os cdigos MIDI constante da P1, ele precisa conhecer os estados atual e
das quatro notas do acorde. Para isso, utiliza-se a varivel E anterior de T e de P, para poder decidir o que deve ser
da Fig. 7, que representa o endereo da posio de memria enviado ao instrumento musical via cdigo MIDI. A Tabela 3
na qual est gravado o cdigo da primeira nota (tnica T): apresenta todas as possveis combinaes de acionamentos
das chaves do miniteclado e da pedaleira. Algumas
E $ I # 16(T -1) . (4) concluses podem ser tiradas dessa tabela. Por exemplo, se
Os endereos das outras trs posies de memria nas quais no instante atual nenhuma tecla do miniteclado for acionada
esto gravados os cdigos das demais notas do acorde (T = 0), nenhum som deve ser emitido pelo instrumento
executado so determinados atravs da Tabela 2. Essa tabela musical. J se no instante atual tanto uma tecla do
apresenta as relaes entre E e as demais posies de miniteclado quanto uma tecla da pedaleira forem acionadas
memria para um determinado acorde em funo de P. Como (T > 0 e P > 0), o som do acorde selecionado deve ser
exemplo, considere que o acorde executado foi o F7+. Nesse emitido, no importando o estado anterior de T e de P. Todas
caso, T = 6 (tnica f), E = I + 80 e P = 9. De acordo com a as outras possveis situaes podem ser entendidas atravs da
Tabela 2, os quatro endereos nos quais esto gravados os Tabela 3, que serviu de base para o desenvolvimento do
cdigos MIDI das notas do acorde so: E, E + 2, E + 4 e programa escrito em linguagem ASSEMBLER.
E + 8. Os quatro cdigos (data bytes) so lidos e cada um
recebe o status byte e outro data byte, conforme (2) e (3), P Posies de memria
alm do start bit e do stop bit. Cada uma dessas palavras 1 E , E # 2, E # 4, E # 9
MIDI ento enviada atravs da porta serial assncrona do 2 E , E # 1, E # 4, E # 9
8031 (pino 11) para a sada MIDI OUT. O equipamento no 3 E , E # 2, E # 5, E # 9
qual o sistema est conectado recebe a palavra MIDI, 4 E , E # 1, E # 3, E # 7
interpreta os dados transmitidos e executa a funo 5 E , E # 2, E # 4, E # 6
correspondente.
6 E , E # 1, E # 4, E # 6
7 E , E # 2, E # 4, E # 7
I C2
Eb2
8 E , E # 1, E # 4, E # 7
E2 9 E , E # 2, E # 4, E # 8
Gb2 10 E , E # 1, E # 4, E # 8
G2 11 E , E # 1, E # 3, E # 6
Ab2 12 E , E # 7, E # 12, E # 14
A2 16 notas 13 E , E # 7, E # 12, E # 15
Bb2 dos 14 E , E # 7, E # 10, E # 12
B2 acordes 15 E , E # 7, E # 11, E # 13
C3 de d
Tabela 2: Endereos de memria dos cdigos MIDI das notas
Db3
do acorde P de uma tnica qualquer T em funo do endereo
D3
E que armazena o cdigo MIDI da primeira nota.
E3
F3 Estado
Funo desejada do
Ab3 Atual Anterior Som
microcontrolador
A3 T P T P
E Db2 16 notas Continuar em loop de
dos 0 >0
espera
0 0
acordes Parar de tocar a tnica e
>0 0 Sem
de r entrar em loop de espera
Bb3 bemol Continuar em loop de som
0 0
espera
0 >0
Para de tocar o acorde e
>0 >0
entrar em loop de espera
B2 16 notas Tocar a tnica
dos 0 0 Tnica
escolhida
>0 0
acordes Continuar em loop de
>0 >0 Acorde
Ab4 de si espera
Tocar o acorde
>0 >0 x x Acorde
Fig. 7: Disposio dos cdigos MIDI na memria EPROM. escolhido
Durante a utilizao do sistema pelo msico, diferentes Tabela 3: Possveis combinaes de acionamento das chaves
combinaes de acionamento das chaves do miniteclado e da do miniteclado e da pedaleira.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 175


BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.

A Fig. 8 apresenta o fluxograma do programa do sistema


proposto. Como j dito, P1 a porta 1 do 8031, T o valor
decimal da parte menos significativa da P1 (ABCD) e P o M 5+ 6 7 7+
valor decimal da parte mais significativa da P1 (EFGH).

Incio 1

m m5-/7 m6 m7 m7+
L P1atual Status = Note On

Transmite
S P1 atual = 0
P1 anterior = P1 atual dim 5+/7 6/7 7/9- 7/9/11
N
L T L P1 atual

L P Fig. 10: Leiaute da pedaleira.


S P1 atual
=
P1 anterior CONCLUSES
N N Este trabalho apresentou um sistema que busca auxiliar
T =0
msicos com algum tipo de deficincia fsica na mo
Status = Note Off esquerda a tocarem teclado. O princpio exposto pode ser
S
adaptado para atender outros tipos de deficincia fsica,
atravs da alterao na disposio das chaves do sistema, e
N N
P= 0 T= 0 para ser utilizado com outros tipos de instrumentos musicais
com entrada MIDI. Um prottipo foi construdo e submetido
S S a testes com teclados de diferentes modelos. Os testes
Calcula Desliga Tnica mostraram que o prottipo apresenta o desempenho esperado
Acorde e que o seu leiaute adequado para ser utilizado pelo msico.

Calcula S P anterior
AGRADECIMENTO
Tnica =0 Os autores gostariam de agradecer ao CNPq pelo apoio
N financeiro.

1 Desliga Acorde REFERNCIAS BIBLIOGRFICAS


[1] C. Anderton, MIDI for Musicians. Amsco Publications,
1986.
Fig. 8: Fluxograma do programa. [2] V. Pereira da Silva Jr., Aplicaes Prticas do
Microcontrolador 8051, 10a ed. Editora rica, 2002.
PROTTIPO CONSTRUDO
APNDICE A
A Fig. 9 apresenta uma fotografia do prottipo construdo.
O miniteclado mostrado na parte esquerda da figura e a C2 Db2 D2 Eb2 E2 F2
pedaleira encontra-se direita do miniteclado. 36 37 38 39 40 41

Gb2 G2 Ab2 A2 Bb2 B2


42 43 44 45 46 47

C3 Db3 D3 Eb3 E3 F3
48 49 50 51 52 53

Gb3 G3 Ab3 A3 Bb3 B3


54 55 56 57 58 59

C4 Db4 D4 Eb4 E4 F4
Fig. 9: Prottipo do sistema proposto. 60 61 62 63 64 65
O prottipo montado foi submetido a testes com diferentes Gb4 G4 Ab4 A4 Bb4 B4
modelos de teclados profissionais. Em todos esses 66 67 68 69 70 71
experimentos, o sistema apresentou o desempenho esperado.
Esses testes tambm mostraram que o leiaute da pedaleira Tabela A1: Cdigos MIDI (decimal) das notas da regio
(Fig. 10) adequado para ser utilizado pelo msico. acionada do teclado.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 186


___________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 - 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na
Rede

Christian Gonalves Herrera, Pedro F. Donoso-Garcia, Gustavo Paulinelli Guimares


CEFET-MG UNED Divinpolis, DELT/UFMG, ISOBRASIL
Rua Monte Santo 319, Divinpolis, Minas Gerais, Brasil, CEP 35500-029
herrera_dsp@yahoo.com.br

RESUMO
Um problema que pode comprometer a fidelidade sonora de sistemas de udio so os rudos provenientes da rede
eltrica que atingem os equipamentos e, conseqentemente, os sinais de udio. Estes rudos podem ser
componentes harmnicos da tenso alternada entregue pela rede, geradas a partir do efeito de cargas no lineares
no barramento. Este artigo mostra que os conversores CA-CC das fontes de alimentao dos prprios
amplificadores de udio de potncia podem introduzir este tipo de rudo na rede.

INTRODUO componentes na demanda total de potncia do sistema e a sua


contribuio na distoro das formas de onda de corrente e
Diversos problemas relacionados qualidade da energia tenso. Resultados de medies so apresentados e
em sistemas eltricos de potncia podem comprometer o discutidos, como comprovao da existncia e da importncia
funcionamento de equipamentos conectados mesma rede do problema.
eltrica. Em sistemas de udio, problemas relacionados
distoro das formas de onda da tenso e da corrente da rede FUNDAMENTOS TERICOS
so crticos, uma vez que podem ser introduzidos rudos no
programa sonoro, o que no desejvel. Freqncias Harmnicas
Em sistemas de sonorizao de mdio e grande porte As freqncias harmnicas so mltiplos inteiros da
alguns dos prprios equipamentos de udio so responsveis freqncia fundamental de um sinal peridico. Isto , para
pela gerao de harmnicos que poluem a rede. Os principais uma fundamental de 60 Hz o terceiro harmnico corresponde
so os amplificadores de potncia. a 180 Hz e o quinto a 300 Hz (e assim por diante). A Figura 1
Neste trabalho so abordados os principais conceitos mostra uma forma de onda senoidal com terceiro e quinto
relativos natureza e gerao de componentes harmnicos, harmnicos.
assim como alguns efeitos destes no sistema e as solues A Figura 2 mostra a forma de onda resultante da adio de
mais empregadas. uma componente de terceiro harmnico de 70% e uma
O foco de anlise so os amplificadores de potncia de componente de quinto harmnico de 50% fundamental. Na
udio. Aps a caracterizao de um sistema de sonorizao prtica, formas de onda distorcidas por harmnicos podem
de mdio porte, evidenciada a relevncia destes

19
18
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

Fig. 1. Formas de onda com freqncias mltiplas da


fundamental.
Fig. 3. Relao entre tenso e corrente num circuito formado por
ser muito mais complexas do que neste exemplo, contendo elementos lineares.
outras componentes e relaes de fase diferentes.
Equipamentos convencionais de medio, como Como os Harmnicos so Gerados
multmetros de leitura no true-RMS, podem fornecer Num sistema eltrico de potncia idealmente "limpo",
resultados pouco exatos. Nota-se tambm que existem agora tanto a forma de onda da corrente como a da tenso so
seis pontos onde a onda corta o valor zero em um ciclo ao puramente senoidais. Na prtica, correntes no-senoidais so
invs de somente dois. Assim, equipamentos que utilizam a geradas por cargas que no se relacionam linearmente com a
passagem por zero como referncia tero a confiabilidade tenso aplicada sobre elas. Em um circuito simples, que
diminuda. possui apenas elementos lineares - resistores, indutores e
Correntes com componentes harmnicos j existem no capacitores - a corrente que flui proporcional tenso
sistema eltrico h vrias dcadas. Inicialmente elas eram aplicada (em uma freqncia particular). Ento, se uma
produzidas por retificadores a arco de mercrio, utilizados na tenso senoidal aplicada, uma corrente senoidal flui, como
converso CA-CC para eletrificao de estradas de ferro e em ilustrado na Figura 3. A linha de carga o que relaciona a
mquinas de corrente contnua com velocidade varivel na tenso aplicada com a corrente resultante na carga. Note que
indstria. Atualmente os tipos e o nmero de equipamentos para cargas compostas por elementos reativos (capacitores
causadores de harmnicos tem crescido muito rpido, e e/ou indutores) pode existir um defasamento entre a tenso e
continuar aumentando. Dessa forma os projetistas de a corrente mas o circuito ainda linear.
equipamentos que demandam preciso e linearidade devem A Figura 4 mostra uma situao onde a carga uma ponte
considerar os harmnicos e seus efeitos colaterais de maneira retificadora de onda completa e um capacitor, como num
cuidadosa. tpico conversor CA-CC. Neste caso, a corrente flui somente
Equipamentos de udio de alta fidelidade esto entre os quando a tenso suprida ultrapassa a tenso armazenada no
mais susceptveis ao mau funcionamento quando expostos a capacitor, isto , quando prxima ao valor de pico da tenso
interferncias eletromagnticas na forma de rudo dentro da senoidal, como mostrado pela forma da linha de carga.
faixa do espectro de freqncias utilizada pelos sinais de
udio (tipicamente entre 20 e 20000 Hz). Estas interferncias
podem atingir o programa sonoro processado e tornarem-se
audveis, o que pouco tolervel.

Fig. 4. Forma de onda de corrente distorcida num circuito formado por


Fig. 2. Forma de onda resultante da soma das trs componentes. elementos no lineares.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 2


20
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

e ficaro presentes ao longo da instalao eltrica.


A distoro harmnica da tenso resultante de uma
corrente harmnica proporcional razo entre a impedncia
de fonte e a impedncia da carga.

Problemas Causados Por Correntes Harmnicas


Correntes harmnicas causam problemas tanto para o
sistema de distribuio de energia quanto para as cargas
instaladas no barramento. Os efeitos e as solues so bem
diferentes e precisam ser tratados separadamente. As medidas
apropriadas para controlar os efeitos de harmnicos dentro da
instalao podem no necessariamente reduzir a distoro
Fig. 5. Circuito equivalente de uma carga no linear.
causada na rede eltrica, e vice versa.

Na prtica, a linha de carga (e dessa maneira, a forma de Sobreaquecimento do Condutor Neutro


onda da corrente) vem a ser mais complexa do que a Num sistema trifsico a forma de onda da tenso de cada
mostrada neste exemplo, pois podem existir alguns pontos de fase defasada em 120 com relao ao neutro. Assim,
assimetria e histerese. Sendo assim os pontos de variao e as quando as cargas so equilibradas, a soma das correntes no
inclinaes podem variar com a mudana da corrente suprida neutro zero. Mesmo quando as cargas no so equilibradas,
carga. a corrente que flui pelo neutro pequena, fato este explorado
Qualquer forma de onda peridica pode ser decomposta em pelos projetistas de instalaes, que costumam especificar
senides com uma freqncia fundamental somada a um condutores com capacidade menor de conduo de corrente.
certo leque de harmnicos, cada um com amplitude e fase No entanto, embora as componentes fundamentais de
relacionadas com a forma de onda original. Para uma onda corrente se cancelem no neutro, as correntes de freqncias
simtrica (onde o ciclo negativo e o positivo tm a mesma harmnicas podem no se cancelar. De fato, aquelas
forma e amplitude) as harmnicas pares no existem. Os mltiplas mpares de trs vezes a freqncia fundamental (3,
harmnicos pares so relativamente raros, mas aparecem em 9, 15 harmnicos) se somam no neutro. A Figura 6 ilustra
situaes onde a retificao de meia onda utilizada. este efeito. Neste diagrama, as correntes de fase, mostradas
O circuito equivalente para uma carga no-linear no topo da figura, so introduzidas com um defasamento de
mostrado na Figura 5. Pode ser modelado como uma carga 120. Os terceiro harmnicos de todas as fases so idnticos,
linear em paralelo com um certo nmero de fontes de com amplitude de 70% da fundamental, resultando numa
corrente, sendo cada fonte correspondente a uma freqncia corrente de neutro com amplitude mais de duas vezes maior
harmnica. que o valor da amplitude da corrente fundamental.
As correntes harmnicas geradas pela carga tm que Uma soluo de carter paleativo para este efeito o
circular atravs do circuito pela impedncia da fonte e por sobredimensionamento do condutor do neutro, o que implica
todos os outros caminhos em paralelo. Como resultado, no aumento do custo da instalao.
tenses harmnicas aparecem atravs da impedncia da fonte

Fig. 6. Correntes de 3 harmnico se somam no neutro.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 3


21
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

Efeitos em transformadores
Transformadores so afetados pelas harmnicas no que diz
respeito s correntes de magnetizao, que representam cerca
de 10% das perdas do transformador a carga plena e crescem
juntamente com a freqncia da componente harmnica. O
resultado o sobreaquecimento e a perda da vida til do
transformador. Embora nem todos transformadores operem a
carga plena, este efeito deve ser levado em conta na
especificao destes dispositivos.

Sobrecorrente em capacitores de correo de fator de


potncia
Capacitores so utilizados para correo do fator de
potncia em sistemas com cargas indutivas como motores de
induo e reatores.
Fig. 8. Distoro da forma de onda da tenso causada por uma carga
A Figura 7 mostra um circuito equivalente onde um no linear.
capacitor empregado para a correo do fator de potncia.
A impedncia destes capacitores diminui com o aumento da
freqncia, enquanto que a impedncia da fonte, que impedncia: aquele referente aos cabos de transmisso da
geralmente indutiva, aumenta. O capacitor levado ento a energia desde o barramento at as cargas, e o referente
conduzir correntes harmnicas bem mais elevadas do que o impedncia interna dos geradores ou transformadores da rede
valor nominal para o qual foi dimensionado, resultando em de distribuio. A Figura 8 ilustra esta situao.
possveis danificaes nestes componentes. A soluo separar os circuitos que alimentam as cargas
Um problema mais srio no caso do capacitor juntamente geradoras de harmnicos daquelas que so sensveis a estes
com a indutncia da fonte entrarem em ressonncia numa das harmnicos, assim a tenso distorcida causada pelas cargas
freqncias harmnicas. Isto pode ser evitado adicionando-se no lineares no afetam as cargas sensveis.
uma indutncia em srie com o capacitor tal que a Na instalao de transformadores, devem ser selecionados
combinao seja puramente indutiva na freqncia do aqueles que apresentam impedncia de sada extremamente
harmnico menos significante. Esta soluo tambm limita as baixa ou que tenham capacidade de suportar o aquecimento
correntes harmnicas no capacitor. O tamanho fsico do adicional; em outras palavras, transformadores
indutor pode ser um problema, especialmente quando sobredimensionados.
harmnicos de baixa ordem estiverem presentes.
Solues para o Problema de Correntes
Efeito Skin Harmnicas
Correntes alternadas tendem a fluir na superfcie externa As medidas disponveis para o controle na magnitude das
do condutor. Este o chamado efeito skin e mais correntes harmnicas podem ser classificadas em dois
pronunciado em altas freqncias. O efeito skin normalmente grupos: filtros passivos e filtros ativos.
ignorado porque tem pouca influncia na freqncia da rede
eltrica (60 Hz), mas acima de 350 Hz, isto a partir do 7 Filtros passivos
harmnico em diante, ele se torna mais significante, causando Filtros passivos so usados para prover um caminho de
perdas adicionais e aquecimento dos condutores. Quando baixa impedncia (shunt) para correntes harmnicas. Assim
correntes harmnicas esto presentes, os projetistas devem se estas correntes fluem pelo filtro e no pela fonte de
preocupar com o efeito skin e redimensionar os cabos alimentao. O filtro pode ser projetado para uma nica
apropriadamente. freqncia de harmnico ou para uma ampla faixa de
freqncias, dependendo das necessidades.
Problemas Causados Por Tenses Harmnicas Em alguns casos necessrio projetar um filtro mais
Correntes harmnicas resultam em distoro na forma de complexo para aumentar a impedncia em srie nas
onda da tenso quando a impedncia da fonte de alimentao freqncias harmnicas e ento reduzir a proporo de
no nula. Existem dois elementos que conformam esta corrente que flui de volta para a fonte (Figura 9). Filtros
rejeita banda so comumente propostos, instalados no neutro
ou na fase. Um filtro em srie adicionado mais para
bloquear as correntes harmnicas do que para prover um
caminho controlado para elas. Como pode haver queda de
tenso significativa no filtro em srie, este deve ser
empregado com cautela.

Filtros ativos
Os filtros passivos so solues eficazes somente para
freqncias particulares de harmnicos. Em algumas
instalaes o contedo harmnico da corrente varia ao longo
do tempo. Uma soluo conveniente nestes casos o
emprego de filtros ativos.
Fig. 7. Utilizao de capacitor para correo do fator de potncia.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 224
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

Fig. 9. Filtros srie e shunt de harmnicos passivo.


Fig. 11. Configurao tpica de um sistema de sonorizao de mdio
porte.
Como mostrado na Figura 10, o filtro ativo um elemento
shunt. Um transformador de corrente amostra o contedo
harmnico da corrente circulando pela carga e comanda um grave: os amplificadores de potncia utilizados para o reforo
gerador de corrente que produz uma rplica exata que sonoro demandam alta potncia do barramento, que
introduzida na linha no prximo ciclo. Uma vez que as normalmente alimenta todo o sistema, incluindo
correntes harmnicas so fornecidas pelo filtro ativo, apenas equipamentos sensveis a harmnicos como pr
a corrente fundamental drenada da fonte de alimentao. Na amplificadores de microfones e processadores de pequenos
prtica, correntes harmnicas so reduzidas em at 90% de sinais de udio.
sua magnitude e, consequentemente, a distoro na forma de Na grande maioria dos casos os amplificadores de potncia
onda de tenso tambm. O alto custo desta soluo pode so alimentados por conversores CA-CC que retiram a
tornar proibitivo o seu uso. corrente alternada da rede e entregam corrente contnua para
o circuito amplificador. Estes conversores so vistos pelo
SISTEMAS DE SONORIZAO barramento como cargas extremamente no lineares, pois
constituem-se de transformadores abaixadores de tenso e
As freqncias comumente encontradas na composio de uma ponte retificadora de onda completa filtrada por
correntes distorcidas por cargas no lineares esto dentro do capacitores. A demanda de potncia dos amplificadores
espectro de freqncias audveis. Trata-se de um grande relativamente alta e varia de acordo com o programa musical,
problema para sistemas de gravao e sonorizao, pois estas de onde conclui-se que a magnitude instantnea das correntes
freqncias podem atingir os circuitos que processam e harmnicas dependente do nvel do sinal de udio a ser
amplificam os sinais de udio, principalmente porque estes amplificado.
so sinais de tenso de baixa magnitude e seus circuitos de A contaminao dos equipamentos pelas freqncias
amplificao envolvem elevados ganhos de tenso (20-80 harmnicas da corrente e da tenso percebida auditivamente
dB). como um rudo nos alto-falantes que, misturado ao sinal de
Estdios de gravao so projetados para evitar este tipo de udio, pode tornar a execuo sonora desconfortvel para
problema. Alguns cuidados podem ser tomados como a msicos, locutores e ouvintes.
instalao de transformadores isoladores na entrada de Um exemplo tpico de layout de um sistema de
energia do estdio. Tambm as fontes de alimentao sonorizao de mdio porte (pblico de at 2000 pessoas)
internas dos prprios equipamentos contm filtros para mostrado na Figura 11. Temos conectadas ao barramento
atenuar a entrada de rudo harmnico proveniente da rede trifsico (220 V fase-fase) trs tipos de carga diferentes,
eltrica. Topologias de circuitos eletrnicos de descritas pela Tabela 1.
processamento de sinais com alta rejeio a rudos A energia eltrica transmitida do ponto comum
provenientes da fonte de alimentao so cada vez mais (fornecido pela concessionria local) at o local da
utilizados pelos projetistas dos equipamentos. sonorizao atravs de cabos relativamente longos. A
No caso de sistemas de sonorizao o problema mais impedncia destes cabos influencia decisivamente na
introduo de distoro harmnica na forma de onda da
tenso que ser entregue aos equipamentos do sistema.
As cargas 1 e 2 so compostas por grupos idnticos de
amplificadores de potncia destinados ao acionamento das
caixas acsticas de endereamento de som ao pblico (public
address). So as cargas de maior potncia e as maiores
geradoras de harmnicas para o sistema. A carga 3
composta pelo conjunto de amplificadores de potncia
responsveis pelas caixas acsticas que fornecem o
monitoramento do som para os msicos no palco. Consomem
aproximadamente 2/3 da potncia das cargas 1 e 2 sendo
consideradas tambm grandes geradoras de harmnicos. A
carga 4 constituda pelos equipamentos de baixa potncia
Fig. 10. Filtro ativo de harmnicos. que, por serem equipamentos que tratam com sinais de udio

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005


235
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

de baixa amplitude, normalmente mesas misturadoras, a carga plena.


equalizadores, compressores e processadores de efeito Na Figura 14 mostrada a forma de onda da corrente
digitais, so os mais sensveis aos rudos introduzidos no consumida pelo amplificador ensaiado em repouso, isto ,
barramento pelas outras trs cargas. sem nenhum sinal de udio aplicado sua entrada. Trata-se
importante notar a distribuio desequilibrada das cargas de uma forma de onda complexa, com grande contedo
no barramento, o que leva a problemas de sobrecorrente no harmnico. O quinto harmnico o de maior magnitude
condutor neutro, como discutido anteriormente. (52%), seguido pelo terceiro (42%). Os demais componentes
Conclui-se que os sistemas de sonorizao de mdio e apresentam magnitude inferior a 25%. Esta forma de onda
grande porte esto susceptveis a problemas relacionados a mostra que o equipamento medido possui duas etapas de
correntes harmnicas gerados por cargas no lineares. Resta retificao no secundrio do transformador de entrada,
quantificar o contedo harmnico das correntes envolvidas recebendo tenses defasadas entre si.
nas cargas de maior potncia, a influncia destas correntes na Quando aplicado um sinal (rudo rosa) na entrada do
distoro da forma de onda da tenso do sistema e determinar amplificador a mxima potncia, tem-se o consumo mximo
as conseqncias de uma tenso distorcida em equipamentos de corrente. Sua forma de onda pode ser vista na Figura 15,
sensveis a estes harmnicos. juntamente com o contedo harmnico. Trata-se do pior caso,
onde o terceiro harmnico chega a representar 68% da
MEDIO E ANLISE DE CORRENTES E TENSES magnitude da freqncia fundamental. Percebe-se aqui que o
DE ALIMENTAO DE UM AMPLIFICADOR contedo harmnico da corrente varia com a potncia
consumida pelo equipamento, o que dificulta a eliminao
So apresentados e discutidos os resultados de medies de destas correntes com a utilizao de filtro passivos. A Figura
formas de onda de corrente e tenso em um tpico 12 ilustra a modulao na corrente consumida pelo
amplificador de potncia e a influncia do programa musical amplificador causada pela variao na amplitude do sinal de
na magnitude da potncia consumida por este equipamento. udio (programa musical).
O amplificador ensaiado foi o Nashville NA1600, que Na Figura 16 analisada a forma de onda da tenso quando
consome 660 W quando alimentado por 127 V (dados o amplificador trabalha com carga mxima. Em comparao
especificados pelo fabricante). com a forma de onda da Figura 13, vemos que a DHT subiu
O sistema de medio foi composto por um osciloscpio para 2,78%, um aumento de 0,12%. A queda de tenso foi de
digital porttil do fabricante Tektronix modelo THS 720, aproximadamente 1 V, dado que reflete a regulao da fonte
acompanhado das pontas de prova de tenso e corrente. Os de alimentao. Embora sejam diferenas pequenas,
dados adquiridos pelo osciloscpio foram transferidos para o importante frisar que num sistema de mdio/grande porte o
microcomputador e analisados pelo software Tektronix impacto muito maior e, dependendo das especificaes de
WaveStar, verso 1.3. cada elemento do sistema (linhas de transmisso de energia,
A Figura 13 mostra a forma de onda da tenso fase-neutro blindagem de equipamentos contra interferncias da rede), as
no barramento quando nenhuma carga est conectada correntes harmnicas geradas pelos amplificadores de
alimentao. A taxa de distoro harmnica (relao entre a potncia podem efetivamente prejudicar o funcionamento dos
soma da amplitude de todas componentes da forma de onda e equipamentos conectados ao barramento.
a amplitude apenas da fundamental) de 2,76%, determinada
principalmente pelos trs primeiros harmnicos mpares. Esta
medio serve como uma referncia para a anlise do sistema

Ref B

Ref A

Fig. 12. Sinal de udio (acima) modulando a corrente de alimentao


do amplificador (baixo).

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 24


6
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

Fig. 13. Forma de onda e contedo harmnico da tenso do Fig. 15. Forma de onda e contedo harmnico da corrente a carga
barramento sem carga. mxima.

Fig. 14. Forma de onda e contedo harmnico da corrente de repouso. Fig. 16. Forma de onda e contedo harmnico da tenso a carga
mxima.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005


257
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO

CONCLUSO

Em sistemas de udio, componentes harmnicos na rede


eltrica dos equipamentos podem, alm de comprometer o
seu funcionamento, introduzir rudos audveis no programa
sonoro, prejudicando a qualidade da reproduo sonora.
Analisando um sistema de sonorizao de mdio porte,
conclui-se que os principais geradores de harmnicos so os
amplificadores de potncia, uma vez que incorporam
conversores CA-CC, que so cargas no lineares.
Os ensaios realizados num amplificador de potncia
comprovam a gerao de correntes harmnicas significativas
por estes equipamentos e, conseqentemente, a possibilidade
de introduo de tenses com distoro harmnica no
barramento de energia eltrica.
Como sugesto para o complemento deste estudo, uma
anlise da influncia de tenses de alimentao distorcidas
sobre o sinal de udio nos equipamentos pode ser feita. Esta
anlise buscaria identificar se as harmnicas so transmitidas
para o sinal de udio diretamente atravs da filtragem
inadequada da fonte de alimentao interna dos
equipamentos, ou por irradiao eletromagntica dada a
proximidade dos cabos de energia dos cabos que transmitem
sinais de udio e a alta impedncia dos circuitos de entrada
dos equipamentos.

REFERNCIAS BIBLIOGRFICAS

[1] DUGAN, R. C., Electrical Power Systems Quality.


McGraw Hill, USA, 1996.
[2] CHAPMAN, D., Harmonics - Causes and Effects.
Copper Development Association. London, March 2001.
[3] GREBE, T. E. Solving Harmonics Problems in
Industrial Plants and Harmonic Mitigation Techniques for
Adjustable-Speed Drives. Proceedings of Electrotech,
Montreal, 1992.
[4] IEEE Standard 519-1992, IEEE Recommended Practice
and Requirements for Harmonic Control in Electrical Power
Systems. Piscataway, N. J., 1992.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 8


26
___________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por
Concatenao Temporal

Vagner L. Latsch e Sergio L. Netto


Programa de Engenharia Eltrica, COPPE/UFRJ
Cdigo Postal 68503, Rio de Janeiro, RJ, 21941-972, Brasil
latsch@lps.ufrj.br sergioln@lps.ufrj.br

RESUMO
Neste artigo proposto um mtodo para obteno das marcas de pitch em segmentos de sinais de voz a serem
concatenados pelo algoritmo TD-PSOLA. O sistema proposto utiliza a captao de um sinal auxiliar, atravs de
um microfone de contato, para obter informaes mais intensas a respeito da atividade das cordas vocais. Isto
contribuiu para melhorar o desempenho de uma deteco automtica de marcas. Os resultados se mostraram
promissores, inclusive para casos crticos de deteco, onde se mostrou necessria pouca ou nenhuma correo
manual.

INTRODUO utilizando-se de um sinal auxiliar obtido por um microfone


Os conversores texto-fala, tambm conhecidos como TTS de contato colocado junto garganta do locutor.
(text-to-speech), so sistemas que produzem fala sinttica Mostraremos por fim como este sinal auxiliar facilita a
correspondente leitura de um texto. De modo geral, estes implementao de todo o processo e torna o resultado obtido
sistemas se baseiam na concatenao de unidades sonoras muito preciso e confivel. Ao fim, conclumos o artigo
que so devidamente processadas para se incorporar a apresentando os principais resultados obtidos.
entoao desejada voz sintetizada. Um dos algoritmos mais
comumente utilizados para este processamento, devido ao seu CONVERSO TEXTO-FALA IRRESTRITA
baixo custo computacional, o chamado TD-PSOLA (Time Sistemas TTS tm aplicao em diferentes reas, como por
Domain - Pitch Synchronous Overlap and Add). Tal exemplo, na consulta de emails por telefone, na leitura de
algoritmo requer a deteco das chamadas marcas de pitch menus e orientaes em centros de atendimento automtico e
que indicam o instante de tempo do fechamento da glote em at mesmo no auxlio a deficientes visuais em diferentes
um dado sinal de voz. Este processo como um todo bastante reas.
intenso e consistir no foco do presente artigo. Em alguns casos, como nos servios de auxilio s listas
Neste contexto, aps uma breve introduo ao problema de telefnicas onde se requer a pronncia automtica dos
converso TTS, faremos uma apresentao do algoritmo TD- nmeros telefnicos, o texto a ser convertido est limitado
PSOLA. Mostraremos, ento, a necessidade da obteno das aos algarismos de 0 a 9. Neste caso, para gerar a fala sinttica
marcas de pitch, ilustrando claramente este conceito e a correspondente pronncia do nmero de telefone desejado,
dificuldade de detect-las de forma precisa. Ser vista, em intuitivo sugerir a concatenao de segmentos de voz
seguida, uma metodologia de obteno das marcas contendo a pronncia dos algarismos.
27
LATSCH V.L. E NETTO S. L. OBTENO DE MARCAS DE PITCH EM SINAIS DE VOZ

J os demais exemplos acima citados de aplicaes de PDAs de termo curto, por outro lado, so mais robustos mas
sistemas TTS tratam da converso de texto irrestrito, onde o oferecem uma estimativa do pitch mdio ao longo de um
texto a ser convertido no est limitado a um conjunto de nmero de perodos, isto porque o mtodo conta com a
palavras ou frases. Em tais casos, a concatenao pura e similaridade do sinal de voz entre perodos de pitch
simples de palavras se torna impraticvel se considerarmos a adjacentes. Assim, se vrios perodos de pitch esto contidos
quantidade de palavras existentes e as suas variantes. em um segmento de anlise, o valor do pitch estimado um
Baseado em conceitos fonticos, que tratam de mapear os valor mdio para todo o segmento [5].
diversos sons existentes em uma lngua (fones), e Idealmente as marcas de pitch deveriam ser introduzidas
fonolgicos, que observam a organizao destes sons nos trechos sonoros na posio de um evento especfico no
construindo significado, tem-se a proposta do uso de ciclo de pitch e nos trechos surdos regularmente espaadas
unidades menores de concatenao, limitadas pela slaba, [3]. Um evento no ciclo de pitch muito utilizado o instante
pelos prprios fones, ou unidades intermedirias. de fechamento glotal (GCI, glotal closure instant), ponto
Assim, depois de definido o tipo de unidade a ser usada e onde ocorre a maior excitao do trato vocal. Porm, a
quais sero necessrias para gerar as palavras e frases de uma deteco precisa destes instantes diretamente do sinal de voz,
lngua em um sistema TTS, feita a coleta destas unidades a seja de forma automtica ou mesmo de forma visual,
partir de sinais de fala previamente gravados, compondo um apresenta uma enorme dificuldade significando um grande
banco de unidades [1]. consumo de tempo [3].
Deste modo, um sistema de converso de texto irrestrito, Uma soluo possvel para a deteco precisa do instante
inicialmente far a converso dos caracteres do texto de fechamento glotal o uso de um equipamento chamado
(grafemas) em unidades fonolgicas (fonemas), e em seguida eletroglotgrafo (EGG) que mede a atividade das cordas
ir obter do banco as unidades necessrias para gerar a vocais [6]. Este equipamento, porm, apresenta um custo
seqncia dada e concaten-las gerando o sinal de fala elevado, da ordem de alguns milhares de dlares. Uma
sinttico correspondente. alternativa de baixo custo vista a seguir.
preciso levar em conta que as unidades de concatenao,
sejam elas quais forem, esto sujeitas variao, de acordo MICROFONE DE CONTATO
com a posio ocupada dentro de uma frase ou com a Alguns sistemas de aquisio de voz em ambientes
entoao aplicada. Por exemplo, no caso dos nmeros de extremamente ruidosos tm usado microfones em contato
telefone, considerando cada algarismo uma unidade, a com o pescoo, chamado de throat microphone, por
pronncia do algarismo 2 na seqncia numrica 2555-5555 apresentar reduzida captao de rudo ambiente. Alguns
ser diferente na seqncia 5555-5552. Assim, para obter autores [7] tm proposto a utilizao deste tipo de microfone
uma entoao correta e natural, seria necessrio armazenar para melhorar o desempenho de sistemas de reconhecimento
todas as variantes de uma unidade ou ento usar um mtodo em ambientes ruidosos. Em [8] os autores utilizaram um
capaz de modific-las principalmente em intensidade, acelermetro em contato com a pele, na altura da glote, e
durao e freqncia fundamental, que so os principais observaram que o sinal captado, quando comparado com o
fatores para caracterizar a entoao ou prosdia. sinal de um EGG, representa o som gerado pela vibrao das
Um dos mtodos mais populares, que tem sido usado em cordas vocais.
diversos sistemas TTS atuais, devido sua simplicidade de Neste trabalho prope-se o uso de um microfone de
implementao e ao reduzido custo computacional, contato para a captao da vibrao da glote com o objetivo
algoritmo TD-PSOLA descrito brevemente a seguir. de obter os GCIs de forma barata e precisa. O microfone
utilizado trata-se de um disco piezoeltrico cermico,
ALGORITMO TD-PSOLA ilustrado na Fig. 1, geralmente utilizado como captador em
O algoritmo TD-PSOLA [2] baseado na tcnica de instrumentos musicais acsticos, como violo, violino etc.
overlap and add (OLA), na qual um sinal peridico com
diferente escala temporal e/ou pitch reconstrudo atravs da
aplicao janelas sncronas com o pitch. Estas janelas so
aplicadas ao sinal, centradas em marcas de pitch com largura
tpica de dois perodos, e so alongadas ou encurtadas,
removidas ou repetidas para obter o sinal modificado [3].
A qualidade oferecida pelo TD-PSOLA no contexto de
sntese por cpia perto da perfeio [3]. Porm, quando o
algoritmo utilizado na modificao de segmentos
concatenados, provenientes de outros contextos, se as marcas
no so posicionadas de forma consistente, o resultado so
erros de fase na superposio das janelas, principalmente na
vizinhana de concatenao [3].
Para a determinao destas marcas, podem ser usados Fig. 1: Formato de um disco piezoeltrico.
algoritmos de deteco de pitch chamados de PDAs (Pitch
Detection Algoritms) [4]. Estes algoritmos podem ser O disco de metal, mostrado na Fig. 1, colado a uma base
divididos em duas categorias: PDAs no domnio do tempo e plstica somente pelas bordas, de maneira que o centro fique
PDAs por anlise em termo curto. Os PDAs no domnio do livre. Esta base plstica ento fixada a uma fita de velcro,
tempo oferecem a estimativa do pitch perodo a perodo, mas formando um colar, mostrado na Fig. 2. Este colar colocado
so sensveis as degradaes do sinal na janela de anlise. ao redor do pescoo de maneira que o disco piezoeltrico

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 282


LATSCH V.L. E NETTO S. L. OBTENO DE MARCAS DE PITCH EM SINAIS DE VOZ

fique localizado na regio frontal do pescoo, o mais baixo sonoros, ou seja onde ocorre atividade glotal, o sinal
possvel, conforme mostrado na Fig. 2. O ajuste de presso demonstra caractersticas mais regulares do que o sinal de
do colar (apertado ou frouxo), esta diretamente associado voz. Esta caracterstica se justifica pelo fato de que as
qualidade do sinal, portanto a presso ideal aquela em que o vibraes captadas pelo contato provm principalmente da
colar fique o mais justo possvel, sem causar grande laringe (considerada um tubo com dimenses constantes) que
desconforto. produz harmnicos quase invariantes ao longo do tempo. Por
outro lado, para o sinal de voz, as diferentes configuraes do
trato vocal para a produo de diferentes sons, produzem
diferentes harmnicos (formantes), que se mantm regulares
por curtos perodos de tempo.
Na Fig 3, observa-se que a ocorrncia de picos no sinal do
microfone de contato podem ser bons indicativos para os
GCIs. Porm, em alguns casos, estes picos tm sua
amplitude reduzida no sendo possvel detect-los como
Fig. 2: Disco piezoeltrico fixado ao colar de velcro e colocao
do colar na base do pescoo.
mximos locais. Isto, de modo geral, inviabiliza a obteno
dos GCIs diretamente do sinal do microfone de contato,
Alm do sinal do microfone de contato, o sinal de voz sendo necessrio ento um procedimento de deteco um
precisa ser captado em simultneo, no entanto, a maioria das pouco mais elaborado, como visto a seguir.
placas de som no possui entrada para dois microfones em
simultneo (estreo). Uma soluo utilizar a entrada line-in OBTENO DOS GCIs
da placa de som, que pode ser utilizada em modo estreo, De modo geral, destacamos neste trabalho duas tcnicas
porm necessrio um pr-amplificador para os microfones. para determinao dos GCIs a partir do sinal de voz: as
Deste modo, foram montados dois pr-amplificadores, tcnicas baseadas no resduo da predio linear e as tcnicas
conforme a nota referenciada em [9]. Os sinais obtidos em baseadas no conceito de mxima verossimilhana. Estas
simultneo pelos dois microfones se mostram defasados de famlias de algoritmos so discutidas em seqncia.
acordo com a distncia entre os microfones, deste modo para
manter esta distncia fixa ao longo da gravao, foi usado um Mtodos Baseados no Resduo da Predio Linear
microfone acoplado aos fones de ouvido e prximo a boca. Muitos sistemas de anlise da voz so baseados no modelo
Deste modo, o atraso depender principalmente das linear fonte-filtro, constitudo por um filtro digital linear
caractersticas fsicas do usurio. Em mdia este atraso autoregressivo, que modela o trato vocal e uma fonte de
equivale ao tempo de propagao para o som percorrer uma excitao peridica considerada como um sinal
distncia tpica de 20 cm variando em +/- 5 cm. Deste modo, representativo da atividade glotal.
temos um atraso no sinal do microfone convencional da Vrios algoritmos precursores da deteco automtica de
ordem de (0,6 +/- 0,15) ms. Os sinais obtidos foram eventos no sinal de voz, como por exemplo, os descritos em
amostrados na freqncia de 22050 Hz o que resulta em um [10], [11], [12], [13] e [14], baseiam-se na idia de que em
atraso em torno de 12 amostras. Na Fig. 3 mostrado no segmentos curtos (menores do que um perodo de pitch) que
grfico superior o sinal obtido pelo microfone convencional, no contm uma excitao, o modelo de predio linear
onde foi compensado o atraso de 12 amostras, e no grfico mais adequado e conseqentemente o erro de predio
abaixo o sinal do microfone de contato. menor. Por outro lado, quando um instante de excitao, ou o
instante de fechamento glotal, est includo no segmento de
0.6
Microfone convecional anlise o erro de predio linear maior. Deste modo, o
ponto onde ocorre um grande erro de predio pode ser usado
0.4
para indicar o instante do fechamento glotal [13].
Em [14], a partir da suposio de que o resduo de predio
amplitude

0.2

0 linear exibe picos correspondentes aos GCIs, os autores


observam que devidos a alguns fatores, como por exemplo, a
-0.2
estimao no acurada das formantes e da largura de bandas
-0.4
0 500 1000 1500 na etapa de anlise, mltiplos picos podem ocorrer no sinal
amostras de resduo, tornando difcil a estimao precisa [14] dos
Microfone de contato
0.4 GCIs. Deste modo, o mtodo proposto em [14] procura
reduzir estas ambigidades. Para isto, inicialmente o sinal de
0.2
resduo processado no domnio da freqncia, aplicando-se
amplitude

0
uma janela de Hanning sua FFT, para reduzir as
componentes de baixas e altas freqncias. Em seguida,
-0.2 obtido o contorno da Transformada de Hilbert de modo a
atenuar os efeitos de fase introduzidos na obteno do
-0.4
0 500 1000 1500 resduo.
amostras
Na aplicao do mtodo ao sinal do microfone de contato,
inicialmente foi aplicado um filtro de pr-nfase enfatizando
Fig. 3: sinal de voz e do microfone de contato as altas freqncias, para tornar seu decaimento espectral
Observando os sinais obtidos pelo microfone de contato e similar ao sinal de voz. Em seguida a aplicao do mtodo
pelo microfone convencional, nota-se que durante os trechos de deteco pode ser observada na Fig. 4.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 293


LATSCH V.L. E NETTO S. L. OBTENO DE MARCAS DE PITCH EM SINAIS DE VOZ

Observa-se que os mximos, correspondentes aos pontos processo gaussiano com N dimenses independentes e
de excitao do trato vocal, ocorrem com maior amplitude do varincia uniforme - .
que no sinal de voz, sendo mais fcil detect-los em meio ao Assim, dado x(n) ! s (n + n0 ) # s(n) , a densidade de
rudo. Porm, os picos intermedirios aos supostos GCIs
probabilidade condicional, ou funo de verossimilhana,
tambm ocorrem com maior amplitude.
ser descrita por:
" N #1 22

0.4
Microfone de contato
1 && # ) . s (n + n0 ) # s (n) / &&
p( X | 0 ) ! .exp ' n ! 0 3 (2)
(21- 2 ) N 2 & 2- 2 &
0.2
&( &4
amplitude

0 onde 0 o espao de parmetros 0 ! {- , a1 , a2 , a3 ,..., n0 } .


-0.2 Deste modo, quando o valor dos parmetros maximizarem
a funo de verossimilhana, significa que uma poca
-0.4
0 200 400 600 800 1000 1200 1400 1600 1800 2000
ocorreu. Maximizar a funo de verossimilhana pode ser
amostras substitudo por maximizar o logaritmo da verossimilhana e
x 10
-3
HEWLPR portanto a funo a ser maximizada torna-se:
2.5
N #1

) . s ( n + n ) # s ( n) /
2
2
N 0 (3)
ln . p( X | 0 )/ ! # ln(21- 2 ) # n ! 0
2-
amplitude

1.5 2
2
1 Assim conclui-se que no possvel encontrar uma
0.5
expresso explcita para um valor timo de n0 . Porm,
0
resolvendo algebricamente a potncia interna ao somatrio, e
0 200 400 600 800 1000 1200 1400 1600 1800 2000 observando as possibilidades de mximos na funo de
amostras
ln[ p( X | 0 )] em funo de n0 , tem-se que o termo
N #1
Fig. 4: Obteno dos GCIs por resduo da predio linear.
) . s(n + n ) s(n)/
n!0
0 dominante. Este termo chamado de

Supe-se que o sinal do microfone de contato fornea sinal MLED (maximum-likelihood epoch determination) e
informaes mais intensas no somente sobre o instante de trata-se da correlao cruzada entre o sinal de voz e o sinal
fechamento da glote, mas tambm em outros instantes de modelo. Portanto, em funo de n0 , os mximos no sinal
batimento das cordas vogais, como por exemplo, o instante MLED equivalem aos mximos na funo de
de abertura da glote. Por um lado, o mtodo confirma a verossimilhana. Em seguida, os coeficientes do sinal
suposio de que um microfone de contato forneceria modelo, que produzem um mximo na funo de
informaes mais ntidas sobre o movimento da glote, por verossimilhana, so deduzidos como os coeficientes de
outro lado, a dificuldade em separar o GCIs torna o mtodo predio linear obtidos pelo mtodo da autocorrelao. Neste
ineficiente para esta proposta. sentido, o sinal modelo considerado como os coeficientes
de um filtro casado [5].
Mtodos Baseados na Mxima Verossimilhana Em um perodo do sinal MLED, aparecem no s os
Esta metodologia foi proposta em [5] para estimar os GCIs, mximos locais, onde a correlao cruzada mxima, que
adaptada da teoria de deteco de pocas (ou eventos) por correspondem aos GCIs, mas tambm a outros falsos
mxima verossimilhana em aplicaes para radar. Assim candidatos. A razo em amplitude entre o pulso principal e os
como na seo anterior, este mtodo assume que o sinal de outros pulsos varia substancialmente e depende das
voz dentro de um perodo de pitch induzido por um pulso propriedades do sinal, criando ambigidade na deciso de
em uma poca, geralmente definida como a representao de escolha [5]. Para contornar este problema, os autores
um GCI. propem o uso de um sinal de seleo, similar aplicao
Assumindo que a produo da voz pode ser modelada por de uma janela, para enfatizar o contraste entre o pulso
um sistema linear autoregressivo, o sinal modelo devido a principal e os pulsos secundrios. Os autores demonstram
uma poca pode ser expresso como: que o contorno da transformada de Hilbert (ou mdulo do
sinal analtico) do sinal MLED pode ser utilizado como sinal
"p
&&) ai s(n # i ) 0$n%* de seleo. A mdia pode ainda ser subtrada para tornar o
(1) sinal de seleo mais parecido com um pulso, sendo possvel
s(n) ! ' i !1
n!0 anular o sinal entre pulsos adjacentes.
& G Aplicando o mtodo ao sinal de voz, os autores observaram
&( 0 n$0
experimentalmente que o indicativo para o GCI melhor
onde G uma constante positiva arbitrria e p a ordem do definido a 50% da amplitude do mximo (de zero at o ponto
polinmio. mximo do pulso, esquerda) e este critrio emprico [5].
Em seguida, suposto que a diferena entre o sinal Esta impreciso no posicionamento do GCI relatada pelos
observado, s (n + n0 ) n , [0, N # 1] (onde n0 uma autores foi verificada em vrios sinais, porm o critrio de
seqncia de atrasos de alinhamento) e o sinal modelo um correo sugerido pelos autores nem sempre eficiente.
processo gaussiano e que as N observaes constroem um

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 30


4
LATSCH V.L. E NETTO S. L. OBTENO DE MARCAS DE PITCH EM SINAIS DE VOZ

Aplicando o mtodo ao mesmo sinal do experimento mximos locais so detectados em segmentos de curta
anterior, passado igualmente por um filtro de pr-nfase, o durao.
resultado da deteco mostrado na Fig 5. Para verificao do mtodo, foram observados casos onde
Microfone de contato
a deteco dos GCIs a partir do sinal de voz extremamente
0.4 difcil, principalmente para consoantes vozeadas.
Nas Fig. 6, 7, 8 e 9 so mostrados dois grficos onde so
0.2
mostrados o sinal de voz e os GCIs obtidos diretamente do
sinal de voz e do sinal do microfone de contato,
amplitude

0
respectivamente. Para notao dos segmentos e na transcrio
-0.2
fontica foram utilizados os smbolos da Associao
Internacional de Fontica (IPA) e a nomenclatura utilizada
-0.4 para as consoantes segue a definida em [15].
0 200 400 600 800 1000 1200 1400 1600 1800 2000
amostras

HMLED GCIs obtido no sinal de voz


0.2
0.25
0.1

0.2 0

-0.1
amplitude

0.15
-0.2

amplitude
1500 2000 2500 3000 3500 4000 4500
0.1
GCIs obtidos no mic. de contato
0.2

0.05 0.1

0
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
-0.1
amostras
-0.2
1500 2000 2500 3000 3500 4000 4500

amostras
Fig. 5: Obteno dos GCIs por mxima verossimilhana.
Fig. 6: Segmento do sinal de voz contendo a consoante Oclusiva
Bilabial Vozeada /!/, recortada da palavra abril - /"#!$%&/, e as
Conforme dito anteriormente, o mtodo quando aplicado marcas dos GCIs obtidos do sinal de voz e do microfone de
contato.
ao sinal de voz, apresenta uma impreciso na deteco dos
GCIs, no qual era necessrio um mtodo emprico de
correo. Surpreendentemente, o mtodo quando aplicado ao 0.4
GCIs obtido no sinal de voz

sinal do microfone de contato, apresentou esta impreciso 0.2

somente em alguns poucos casos e da ordem de 0,3 ms. Alm 0

disso, foi constatado que o mdulo da transformada de -0.2

Hilbert do sinal MLED mais preciso do que prprio sinal -0.4


amplitude

2000 2500 3000 3500 4000 4500 5000


MLED ou da multiplicao dos dois sinais conforme GCIs obtidos no mic. de contato
0.4
proposto em [5]. De fato, somente a subtrao da mdia
0.2
global do mdulo da transformada de Hilbert permitiu a 0
diferenciao entre os trechos sonoros e surdos. -0.2

-0.4

SISTEMA PARA OBTENO DOS CGIS 2000 2500 3000

Amos4tras
3500 4000 4500 5000

Para o auxlio na construo de um banco de unidades para


Fig. 7: Segmento do sinal de voz contendo a consoante Fricativa
sntese por concatenao, foi implementado um aplicativo na Alveolar Vozeada /'/, recortada da palavra casa - /#("'"/, e as
linguagem C++, para o sistema operacional Windows, que marcas dos GCIs obtidos do sinal de voz e do microfone de
permite ao usurio gravar os sinais em modo estreo contato.
exibindo-os em janelas paralelas; detectar automaticamente o
atraso entre os sinais; obter as marcas de GCIs GCIs obtido no sinal de voz
automaticamente e editar estas marcas para efeito de sintonia 0.4

fina. 0.2

A deteco do atraso feita baseada no resduo de predio 0

linear. Apesar do sinal de resduo do microfone de contato -0.2

exibir outros picos de excitao alm daqueles contidos no -0.4


amplitude

1000 1500 2000 2500 3000 3500 4000

sinal de voz, observa-se que a correlao entre os resduos 0.4


GCIs obtidos no mic. de contato

capaz de determinar o atraso presente no sinal de voz. Porm, 0.2

diferenas de polaridade nos picos em amplitude nos 0

resduos, influenciam o resultado da correlao. Deste modo, -0.2

foi utilizado o mtodo [14] para reduzir as ambigidades nos -0.4


1000 1500 2000 2500 3000 3500 4000

sinais de resduo e em seguida calcular a correlao entre os amostras

dois num intervalo caracterstico para o atraso. Fig. 8: Segmento do sinal de voz contendo a consoante Fricativa
A obteno automtica dos GCIs foi feita utilizando o Alveopalatal Vozeada /)/, recortada da palavra mesmo - /#*+)*&/
mdulo da transformada de Hilbert do sinal MLED, onde os e as marcas dos GCIs obtidos do sinal de voz e do microfone de
contato.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 315


LATSCH V.L. E NETTO S. L. OBTENO DE MARCAS DE PITCH EM SINAIS DE VOZ

[6] Krishnamurthy, A. K., Childers, D. G., Two-Channel


GCIs obtido no sinal de voz Speech Analysis, IEEE Transactions on Acoustics,
0.2

0.1
Speech, and Signal Processing, Vol. 34, No. 4, pp.730-
0
743, 1986.
-0.1
[7] Graciarena, M., Franco, H., Sonmez, K., et al.,
-0.2
Combining Standard and Throat Microphones for
2500 3000 3500 4000 4500 5000 5500
Robust Speech Recognition, IEEE Signal Processing
amplitude

GCIs obtidos no mic. de contato


0.2
Letters, v. 10, n. 3, 2003.
0.1
[8] Askenfelt, A., Gauffin, J., Sundberg, J., et al., A
0
comparison of contact microphone and
-0.1
electroglottograph for the measure of fundamental
-0.2
2500 3000 3500 4000 4500 5000 5500
frequency, Journal of Speech and Hearing Research, v.
amostras
23, n. 2, pp. 258-273, 1980.
Fig. 9: Segmento do sinal de voz contendo a consoante Fricativa [9] Cittadinni, R., Poulan, F., TS971 based Electret
Alveolar Vozeada /,/, recortada da palavra avante - /"#,"-./%/, e as
Condenser Microphone amplifier, AN1534 Application
marcas dos GCIs obtidos do sinal de voz e do microfone de
contato. Note, STMicroeletronics, 2002.
[10] Wong, D.Y., Markel, J.D., Gray, A.H., Least squares
CONCLUSES glottal inverse filtering from the acoustic speech
waveform, IEEE Transactions on Acoustics, Speech,
Foi estabelecido um mtodo para obteno precisa e and Signal Processing, v. 27, pp. 350-355, 1979.
automtica das marcas de pitch em segmentos de sinais de [11] Smits R. , Yegnanarayana, B., Determination of
voz, a serem utilizadas pelo algoritmo TD-PSOLA na Instants of Significant Excitation in Speech Using
concatenao destes segmentos. As marcas coincidem com os Group Delay Function, IEEE Transactions on Speech
instantes de fechamento glotal, reduzindo a possibilidade de Audio Processing, v. 3, pp. 325-333, 1995.
erros de fase na concatenao. [12] Strube, H. W., Determination of the instants of glottal
O mtodo utiliza a gravao simultnea do sinal de voz e o closure from the speech wave, J. Acoust. Soc. Amer., v.
sinal obtido por um disco piezoeltrico em contato com a 56, n. 5, pp. 1625-1629, 1974.
pele, localizado na base do pescoo, no qual se mostrou [13] ChangXue MA, Kamp Y. K., Willems L. F., Frobenius
conter mais informaes sobre a atividade glotal do que o Norm Approach to Glottal Closure Detection from the
prprio sinal de voz. O disco piezoeltrico usado, assim Speech Signal, IEEE Transactions on Speech and
como o circuito pr-amplificador teve carter experimental, Audio Processing, v.2, pp. 258-265, 1994.
deste modo sugere-se que as caractersticas deste dispositivo [14] Ananthapadmanabha T.V., Yegnanarayana, B., Epoch
sejam melhor exploradas assim como circuitos adequados Extration from linear Prediction Residual for
instrumentao. Observa-se ainda que o sinal obtido pelo Identification of Closed Glottis Interval, IEEE
microfone de contato menos sujeito a rudo ambiente; que Transactions on Acoustics, Speech, and Signal
em trechos sonoros o sinal apresenta caractersticas mais Processing, v. 27, n. 4, pp. 309-319, 1979.
estacionrias do que o sinal de voz; e que as consoantes [15] Thas C. S., Fontica e Fonologia do Portugus, Editora
sonoras so enfatizadas. Contexto, So Paulo, 2003.
Foi descrito assim todo um mtodo (semi-)automtico para
deteco automtica do GCIs. Os resultados se mostraram
bastante promissores, especialmente quando o mtodo
aplicado a casos crticos onde a obteno precisa dos GCIs a
partir apenas do sinal de voz apresenta grande dificuldade
quando realizada pelos mtodos tradicionais.

REFERNCIAS BIBLIOGRFICAS

[1] Black, A.W., Lenzo, K.L., Building Synthetic Voices,


FestVox 2.0, 2003.
[2] Charpentier, F., Moulines, E. Pitch-Synchronous wave
form processing techniques for text-to-speech synthesis
using diphones, Proceedings of Eurospeech 89, v. 2,
pp. 13-19, 1989.
[3] Dutoit, T., An introduction to text-to-speech synthesis,
Kluwer Academic Publishers, London, 1997.
[4] Hess, W., Pitch Determination of speech Signals,
Springer-Verlag, Berlin, 1983.
[5] Cheng, Y. M., OShaughnessy, D., Automatic and
Reliable Estimation of Glottal Closuse Instants and
Period, IEEE Transactions on Acoustics, Speech, and
Signal Processing, v. 37, n. 12, pp. 1805-1815, 1989.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 326


__________________________________
_
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

__________________________________
_
Codificao Perceptiva de Sinais de Voz de Banda Larga
P. A. Berger, F. A. O. Nascimento, L. M. da Silva.
Departamento de Engenharia Eltrica, Universidade de Braslia, Brasil.
pedrobg@uol.com.br

RESUMO
Esse artigo apresenta o estudo e simulao de um esquema de codificao perceptiva para sinais de voz de banda
larga. O esquema uma verso modificada do codificador de udio AC-3, para atender especificamente s
caractersticas de sinais de voz de banda larga. Sinais de voz codificados com taxas de bits de 32, 24 e 16 kbps
foram obtidos e avaliados subjetivamente. Avaliou-se tambm a robustez do esquema em relao perda de
blocos de informao. Verificou-se o esquema tolera razoavelmente uma perda de at 10% dos blocos de
coeficientes MDCTs.

INTRODUO ser substituda de uma forma que minimize a deteriorao do


A maioria dos atuais codificadores de voz realiza a sinal de voz reproduzido. Nos codificadores baseados em
compresso do sinal pelo uso de modelos de produo da voz predio linear, os efeitos dessa perda podem se propagar por
e explorando o fenmeno do mascaramento auditivo. vrios quadros atravs da realimentao feita pelo preditor.
Contudo, esses modelos no so, em geral, apropriados para Os codificadores baseados em transformadas podem, em
outros sinais tais como voz ruidosa, sinal contendo vozes de princpio, apresentar maior robustez a esse tipo de
vrios locutores, msica e rudo de fundo. Por outro lado, degradao. Primeiro, porque a propagao dos efeitos da
codificadores baseados em transformadas e modelos perda de um bloco de informaes ser mais restrita.
perceptivos podem comprimir eficientemente diferentes tipos Segundo, porque talvez os esquemas baseados em
de sinais, uma vez que eles no so to especializados quanto transformadas permitam que a informao perdida seja
os codificadores baseados em modelos de produo da voz substituda de forma mais satisfatria por verses obtidas por
[8]. interpolao.
Com o uso crescente da transmisso de sinais de voz por Um outro aspecto a ser considerado a largura de banda do
redes de pacote, a robustez dos codificadores em relao sinal de voz a ser codificado. Larguras de banda maiores que
perda de pacotes passou a ser uma caracterstica de grande a largura de banda telefnica (300 a 3400 Hz) propiciam
importncia. A informao contida nos pacotes perdidos deve significativas melhorias subjetivas na qualidade da voz

33
BERGER ET AL. CODIFICAO PERC. DE SINAIS DE VOZ DE B. LARGA.

codificada. Uma largura de banda de 50 a 7000 Hz no s Onde,


melhora a inteligibilidade e naturalidade da voz, mas 2 cos,(2n # M #1)(2k #1)- ) , 0 % k % M"1
hk (n) $ w(n) (2)
acrescenta tambm um sentimento de transmisso M *+ 4M '(
transparente e facilita o reconhecimento do locutor. Sinais de
voz com essa largura de banda so denominados sinais de sendo que w(n) uma janela temporal de comprimento 2M
voz de banda larga. Vrias aplicaes relevantes demandam na abordagem de banco de filtros, ela corresponde ao filtro
esse tipo de voz, exemplos: sistemas de teleconferncia RDSI passa-baixos prottipo a partir do qual so gerados os filtros
e comunicaes audiovisuais interativas multipontos. passa-faixas hk(n), 0"k"M-1, que comporo o banco de
Esse artigo apresenta o estudo e simulao de um esquema filtros. A MDCT inversa (IMDCT), nesse caso, definida
de codificao perceptiva para sinais de voz de banda larga. como:
O esquema uma verso adaptada do codificador de udio
AC-3 [1]-[3], que um esquema de codificao baseado em
& .X (k ) h(k, n) # X P (k ) h(k, n # M )/ ,
M "1
modelo perceptivo e transformada MDCT (modified discrete x(n) $ 0 % n % M "1 (3)
cosine transform). Foram feitas modificaes considerveis n$0

no esquema de codificao original do AC-3 para que o


codificador proposto pudesse torna-se eficiente na Onde XP(k) denota o bloco precedente de coeficientes
codificao de sinais de voz de banda larga. Dentre as MDCTs. Para que a reconstruo de x(n) seja perfeita
modificaes mais importantes podemos destacar: preciso que a janela satisfaa as seguintes condies:
A codificao diferencial dos expoentes foi modificada
para adequar-se largura de banda de 50-700Hz (largura de w(2M "1" n) $ w(n) 2
banda para sinais de voz de banda larga); 1, para 0 % n % M"1 (4)
A reutilizao de expoentes codificados foi reduzida em w2 (n) # w2 (n # M ) $ 1 0
relao ao esquema original do AC-3, uma vez que este
procedimento torna o codificador muito sensvel perda de Nas simulaes realizadas, o sinal de voz (ou de udio) tem
pacotes; largura de banda de 50 a 7000 Hz e foi amostrado a taxa de
A integrao dos coeficientes transformados em bandas 16 kHz. O comprimento dos quadros foi fixado em 512
crticas foi alterada para atender s novas especificaes de amostras ou, equivalentemente, 32 ms. Portanto, so gerados
largura de banda; 256 coeficientes espectrais (ou MDCTs) a cada 16 ms. O
Os clculos dos limiares de mascaramento foi tambm espaamento freqncial entre coeficientes de
alterado para adequar-se ao novo esquema de integrao em 8.000 3 256 $ 31,25 Hz.
bandas crticas; Cada um dos coeficientes MDCTs representado na
A estrutura bsica do esquema de codificao notao binria de ponto flutuante como um expoente e uma
apresentada na prxima seo. Duas etapas importantes do mantissa. O conjunto de expoentes codificado em uma
esquema e os testes prticos e avaliaes so, ento, representao grosseira do espectro do sinal que referida
detalhadas nas sees seguintes. As concluses e possveis como envoltria espectral. Com base nessa envoltria
melhorias a serem intentadas no futuro so reportadas na espectral, obtida, pela aplicao de um modelo perceptivo,
ltima seo. uma curva de limiar de mascaramento, que indica qual o
nvel mximo que o rudo de codificao pode ter para que
METODOLOGIA ele no seja percebido pelo ouvinte. Essa curva usada pelo
algoritmo de alocao de bits para determinar quantos bits
Estrutura Bsica de Codificao e Decodificao sero usados para codificar cada uma das mantissas.
A Fig. 1 mostra o diagrama de blocos do esquema de O processo de decodificao basicamente o inverso do
codificao investigado: uma verso simplificada e adaptada processo de codificao. Uma vez que os expoentes tenham
do codificador de udio AC-3 [1]-[3]. A codificao feita sido decodificados, eles so usados para reproduzir o modelo
no domnio da freqncia, usando uma MDCT (modified perceptivo e a alocao de bits usados pelo codificador. Os
discrete cosine transform) de 2M pontos com 50% de bits que representam as mantissas so, ento, decodificados.
superposio [4]-[7]. Isto , a transformada aplicada a Os coeficientes MDCTs reconstrudos so transformados de
blocos de 2M amostras PCMs, com 50% de superposio volta para o domnio do tempo para produzir as amostras
entre blocos veja a Fig. 2. Contudo, somente coeficientes PCMs decodificadas veja ilustrao na Fig. 2(b) e equao
MDCTs so gerados para cada bloco de entrada de (3).
amostras; ou seja, essa transformao equivalente a um O algoritmo de alocao de bits usado nesse trabalho do
banco de M filtros cujas sadas so criticamente amostradas. tipo backward, ou seja, ele no requer a transmisso de
As funes de base MDCTs estendem-se, portanto, por dois qualquer informao lateral entre o codificador e o
blocos no tempo, levando eliminao virtual dos efeitos de decodificador. Ele uma verso simplificada do algoritmo
bloco que degradam o sinal reconstrudo quando a backward/forward hbrido usado pelo codificador AC-3 [1].
transformada usada sem superposio. Dado um bloco de
entrada x(n) ,0"n"2M-1, a MDCT direta pode ser definida
como [5, 7]:

2 M "1
X (k ) $ & x ( n) h
n $0
k ( n) , 0 % k % M " 1 (1)

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 2


34
BERGER ET AL. CODIFICAO PERC. DE SINAIS DE VOZ DE B. LARGA.

Amostras bits para representar os expoentes de um bloco de


PCM Quantizao/
Buffer MDCT codificao coeficientes MDCTs.
das mantissas 4 Agrupamento No-Uniforme (ANU): Os 224
expoentes so divididos em 67 grupos, que podem ter
Alocao de bits 2, 3, 4 ou 5 elementos. Grupos correspondentes a
Codificao
faixas de freqncias baixas contm 2 elementos e
dos expoentes grupos que correspondem a faixas de freqncias altas
Modelo perceptivo podem conter at 5 elementos. Essa diviso no
(envoltria
espectral) uniforme inspirada nas bandas crticas da audio
humana, que tambm tm largura crescente com a
CODIFICADOR
freqncia. Nesse caso, so gastos 5 # (66 3 3) 5 7 $ 159
DECODIFICADOR bits para representar os expoentes de um bloco de
Decodificao coeficientes MDCTs.
Modelo perceptivo Uma forma de reduzir o dispndio de bits com a
dos expoentes
codificao dos expoentes a reutilizao dos expoentes
Alocao de bits codificados de um bloco de coeficientes MDCTs em blocos
Amostras PCM subseqentes. No codificador AC-3, essa reutilizao pode-se
reconstrudas
Decodificao
estender a at cinco blocos subseqentes. Nas simulaes
IMDCT realizadas nesse trabalho, apenas a reutilizao em um bloco
das mantissas
subseqente foi considerada. Isso porque essa reutilizao
Figura 1 Diagrama de blocos do codificador e decodificador.
torna o codificador muito sensvel a perda de informaes:
Quadro k-1 Quadro k Quadro k+1 Quadro k+2 por exemplo, devida perda de pacotes em uma transmisso
M amostras M amostras M amostras M amostras baseada em pacotes.
Com uma reutilizao, o dispndio mdio de bits para
2M amostras MDCT M coef.
representar os expoentes dos coeficientes MDCTs de 132
2M amostras MDCT M coef. bits por bloco (ou por 15 ms), caso seja implementado o
2M amostras MDCT M coef.
agrupamento uniforme. E de 79,5 bits, se for usado o
agrupamento no-uniforme.
(a)

Alocao de Bits
IMDCT 2M amostras
M coef. Uma vez fixada a taxa de bits, (bps), a ser despendida na
+
2M amostras
codificao do sinal, o nmero de bits que pode ser gasto a
M coef. IMDCT
+ cada quadro dado por BQ $ RbTQ , onde TQ $ 15 ms a
M coef. IMDCT 2M amostras
durao de um quadro. No codificador simulado,
... M amostras M amostras ... BQ $ BE # BM , onde BE e BM so, respectivamente, as
Quadro k Quadro k+1 quantidades de bits gastas na codificao dos expoentes e das
(b)
Figura 2 Ilustrao da aplicao da MDCT: (a) MDCT direta e (b)
mantissas dos coeficientes MDCTs. A codificao dos
MDCT inversa (IMDCT). expoentes e o valor de BE foram assuntos da Seo 3. Nesta

Codificao dos Expoentes seo discute-se o processo pelo qual os BM bits restantes
Os coeficientes MDCTs de ndice 224 at 255 so distribudos entre as mantissas dos coeficientes MDCTs
correspondem a freqncias fora da banda do sinal (50-7000 de modo a minimizar a distoro audvel presente no sinal
Hz) e, por isso, seus expoentes e mantissas no so reconstrudo. Essa distribuio dinmica, enquanto que a
transmitidos: o decodificador os faz iguais a zero. Os distribuio dos BE bits entre os expoentes esttica.
expoentes dos 224 coeficientes restantes, de ndice 0 at 223,
so divididos em grupos. De cada grupo, apenas o expoente O objetivo determinar b(k ) , k $ 0, 1,!, M " 1 , sujeito
de maior valor codificado e enviado, os demais expoentes seguinte restrio:
do grupo so feitos iguais a esse de maior valor. A mantissa
que tem seu expoente alterado escalonada para compensar a M "1
mudana feita no expoente. Apenas um expoente enviado
integralmente, codificado em uma palavra de 5 bits. Os
& b(k ) $ BE (5)
k $0
demais expoentes so codificados diferencialmente, com
deltas de 0, 1 ou 2. Os deltas so divididos em conjuntos
onde b(k ) o nmero de bits alocado para representar a k-
de 3 deltas e cada conjunto codificado em uma palavra de 7
bits. Foram experimentados dois tipos de agrupamento dos sima mantissa e que define o nmero de nveis do
expoentes: quantizador a ser usado. O critrio usado o da distoro
4 Agrupamento Uniforme (AU): Os 224 expoentes so perceptiva. Bits so distribudos buscando fazer com que a
divididos em 112 grupos, cada um contendo um par envoltria do espectro de potncia do rudo de quantizao
de expoentes. Portanto, so gastos 5 # (1113 3) 5 7 $ 264 fique sempre abaixo do limiar de mascaramento. Todo
componente de rudo com nvel inferior a esse limiar
encoberto pelo prprio sinal de voz (ou de udio) e no

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 335


BERGER ET AL. CODIFICAO PERC. DE SINAIS DE VOZ DE B. LARGA.

percebido pela audio humana [7]. O limiar de so simtricos e os que possuem mais de 15 nveis so
mascaramento calculado de acordo com um modelo assimtricos.
perceptivo (ou psicacstico). A seguir descrito de forma Vrias mantissas no recebem bits para a sua codificao.
sucinta o modelo psicacstico usado nesse trabalho: ele Isso porque o componente espectral correspondente tem nvel
uma verso simplificada do modelo psicacstico usado pelo abaixo do limiar de mascaramento e, portanto, no audvel
AC-3 [1]-[3]. logo, ele no precisa ser transmitido. Mas mantissas no
O clculo do limiar de mascaramento realizado em trs recebem bits tambm porque os bits disponveis acabaram,
etapas [2]-[3]. Primeiro, os expoentes codificados exp(k ) tendo sido gastos com mantissas mais relevantes. Seja qual
for o caso, a providncia natural a ser tomada pelo
so transformados em uma densidade espectral de potncia
decodificador seria substituir o valor real dessas mantissas
(DEP) logartmica da seguinte forma:
por zero. Contudo, em [3] recomendado que os valores
dessas mantissas sejam substitudos por valores aleatrios
M "1
[3]. Testes subjetivos mostraram que essa estratgia
& b(k ) $ BE (6) realmente melhora qualidade subjetiva do sinal reconstrudo:
k $0 ele soa menos abafado, apresentado maior riqueza espectral
de alta freqncia. Contudo, percebe-se tambm um rudo
Na escala logartmica resultante, 128 unidades corresponde causado por essa estratgia. Assim, a amplitude mxima
a 6 dB. Ento, as amostras dep(k ) so agrupadas em desses nmeros aleatrios deve ser escolhida com cuidado.
bandas cuja largura corresponde, aproximadamente, metade Nas simulaes realizadas, foram utilizados nmeros
da largura das bandas crticas da audio humana. No aleatrios com distribuio uniforme entre 0,35 e + 0,35.
codificador simulado nesse trabalho, o espectro na faixa entre
0 e 7000 Hz (0 " k " 223) dividido em 37 bandas, contendo TESTES PRTICOS
o nmero de amostras indicado na Tabela 1 o Foram realizadas simulaes do codificador descrito para
espaamento entre duas amostras adjacentes de 31,25 Hz. trs taxas de bits: 32, 24 e 16 kbps. A Tabela 2 apresenta a
As amostras contidas em uma nica banda so somadas (em estratgia de codificao dos expoentes e a diviso, entre
escala linear), resultando, ento, uma DEP integrada com expoentes e mantissas, dos bits disponveis por quadro.
apenas 37 amostras. O propsito dessa integrao reduzir o Os sinais codificados com taxa de 32 e 24 kbps tm
esforo computacional requerido para realizar a terceira qualidade subjetiva equivalente. A qualidade desses sinais
etapa. muito boa, mas possvel notar um leve abafamento,
Finalmente, o limiar de mascaramento versus freqncia provavelmente devido falhas na reproduo dos
obtido convoluindo a DEP integrada e um prottipo de componentes de alta freqncia. Nota-se tambm um rudo de
funo de espalhamento isto , um modelo da curva de baixa intensidade sibilado, que devido aos componentes
mascaramento da audio humana. O modelo usado nas cujas mantissas no foram transmitidas e que foram
simulaes o modelo proposto para o AC-3, com substitudas por valores aleatrios. Contudo, o sinal com esse
parmetros estticos [3]. O resultado desse clculo uma rudo prefervel ao sinal em cuja reconstruo faz-se iguais
curva indicando, para cada banda, o nvel de mascaramento a zero as mantissas no transmitidas. Nesse ltimo sinal
estimado. Essa curva comparada com limiar absoluto da bem perceptvel a ausncia dos componentes de alta
audio humana e o maior dentre os dois mantido. freqncia. A figura 3 mostra uma comparao entre um
segmento de sinal de voz original e um segmento de sinal de
Tabela 1 Nmero de amostras nas 37 bandas em que a faixa entre 0 voz decodificado para uma taxa de 32 kbps..
e 7 kHz dividida.
1- 10- 17- 22- 25- 27- 29- 31-
Banda 33 34 35 36 37
9 16 21 24 26 28 30 32
Sinal Original
Tamanho 2 3 4 5 6 7 9 11 14 15 17 18 20 0.5

0
A curva estimada de mascaramento subtrada da
Amplitude

dep(k ) para determinar a razo sinal-rudo (RSR) desejada -0.5

para cada coeficiente MDCT. A cada bit adicional alocado a


um quantizador uniforme, a RSR aumenta por 6 dB -1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

aproximadamente. Assim, para cada coeficiente MDCT, Tempo (s)

Sinal Decodificado
pode-se mapear a RSR desejada no nmero de bits b(k ) que 0.5

deve ser alocado para o quantizador. O critrio dos 6 dB por 0


bit impreciso para um nmero pequeno de bits alocados. O
Amplitude

mapa utilizado nas simulaes o usado pelo AC-3 [3], que -0.5
considera um ganho de RSR menor que 6 dB por bit para
b(k ) % 4 . O valor mximo para b(k ) 16. -1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Tempo (s)

Uma vez que b(k ) , k $ 0, 1,!, M " 1 , esteja


Figura 3 Comparao entre um segmento de sinal de voz original e
determinado, as mantissas so quantizadas usando um segmento de sinal de voz decodificado para uma taxa de 32 kbps.
quantizadores uniformes. Os quantizadores com at 15 nveis

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 4


36
BERGER ET AL. CODIFICAO PERC. DE SINAIS DE VOZ DE B. LARGA.

Os sinais codificados com 16 kbps apresentam uma REFERNCIAS BIBLIOGRFICAS


degradao bem mais perceptvel. Nota-se nesses sinais um
rudo mais intenso e de espectro amplo, enquanto que no [1] C. Todd, G. Davidson, M. Davis, L. Fielder, B. Link e
rudo presente nos sinais codificados com 32 ou 24 kbps S. Vernon, AC-3: Flexible Perceptual Coding for
predomina os componentes de alta freqncia. Medidas Audio Transmission and Storage, 96th Convention of
objetivas tambm detectam essa maior degradao. A Tabela the Audio Engineering Society, preprint 3796, fevereiro
3 mostra exemplos de valores medidos de razo sinal-rudo de 1994.
segmentar (RSRseg) para sinais codificados com as trs taxas [2] G. Davidson, L. Fielder e B. Link, Parametric Bit
de bits. Enquanto que a reduo a taxa de bits de 32 para 24 Allocation in a Perceptual Audio Coder, 97th
kbps levou a uma queda de 1,33 dB na RSRseg, a reduo de Convention of the Audio Engineering Society, preprint
24 para 16 kbps levou a uma queda de 2,48 dB na RSRseg. 3921, novembro de 1994.
[3] Digital Television Standard, United States Advanced
Tabela 2 Estratgia de codificao e a alocao de bits para as taxas Television Systems Committee (ATSC), ATSC
de 32, 24 e 16 kbps.
Standard: Digital Audio Compression (AC-3), Revision
Taxa de bits global 32 kbps 24 kbps 16 kbps
A, Doc. A/52A, agosto de 2001.
Agrupamento dos
AU AU ANU [4] J.P. Princen e A.B. Bradley, Analysis/Synthesis Filter
expoentes
Reutilizao dos Bank Design Based on Time Domain Aliasing
No Sim Sim Cancellation, IEEE Trans. Acoust., Speech, Signal
expoentes
Nmero Processing, vol. ASSP-34, pp. 1153-1161, outubro de
mdio 1986.
de bits [5] H. Malvar, Lapped Transforms for Efficient
gasto Expoentes 264 264 3 2 = 132 159 3 2 = 79,5 Transform/Subband Coding, IEEE Trans. Acoust.,
por Speech, Signal Processing, vol. ASSP-38, pp. 969-978,
quadro junho de 1990.
(16 ms)
[6] R.D. Koilpillai e P.P. Vaidyanathan, Cosine-Modulated
Tabela 3 Desempenho dos codificadores simulados, em termos da
FIR Banks Satisfying Perfect Reconstruction, IEEE
razo sinal-rudo segmentar (RSRseg). Trans. Signal Processing, vol. SP-40, pp. 770-783, abril
Taxa de bits 32 kbps 24 kbps 16 kbps de 1992.
RSRseg 13,12 dB 11,79 dB 9,31 dB [7] T. Painter e A. Spanias, Perceptual Coding of Digital
Audio, Proceedings of the IEEE, vol. 88, no. 4, pp.
Um outro tipo de teste realizado foi a simulao de perda 451-513, abril de 2000.
de blocos de coeficientes MDCTs e a substituio desses [8] H. N-Azghandi e P. Kabal, Perceptual Coding of
blocos por verses obtidas pela interpolao dos coeficientes Narrowband Audio Signals at 8 kbit/s, Proc. IEEE
MDCTs dos blocos anterior e o posterior ao bloco (ou Workshop on Speech Coding for Telecom., pp. 109-110,
blocos) perdido(s). Com o esquema que resultou em taxa de setembro de 1997.
32 kbps, a perda de at 10% dos blocos causa degradao
quase imperceptvel e com perda de 20% dos pacotes a
qualidade ainda razovel, sendo que a inteligibilidade ainda
muito boa. Com os outros dois esquemas, h uma
deteriorao maior, mas com perda de at 10% dos pacotes se
tem ainda uma qualidade razovel e boa inteligibilidade. A
razo para a maior sensibilidade desses dois esquemas o
fato deles reutilizarem os expoentes codificados. Nesse caso,
quando um bloco que contm expoentes perdido, o prximo
bloco tambm fica perdido.

CONCLUSO
Neste artigo, apresentou-se o estudo de um esquema de
codificao perceptiva para sinais de voz de banda larga. O
esquema uma verso simplificada do codificador de udio
AC-3. Foram realizadas simulaes que geraram sinais
codificados com taxas de bits de 32, 24 e 16 kbps. Avaliaes
subjetivas da qualidade dos sinais codificados indicam que o
esquema promissor, mas para operar com taxas de 16 kbps
ou menor precisa ser melhorado. Estratgias que podem vir a
propiciar a melhoria necessria so, por exemplo, o uso da
quantizao vetorial e a codificao paramtrica da envoltria
espectral. Essas possibilidades sero investigadas em
trabalhos futuros. Foi testada tambm a robustez do esquema
simulado em relao perda de blocos de informao.
Verificou-se que perdas de at 10% dos blocos de
coeficientes MDCTs razoavelmente tolerada pelo esquema.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 5


37
__________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Amplificador Classe D de 1000W RMS com Realimentao

Fbio Vincenzi Romualdo da Silva, Luiz Carlos Gomes de Freitas,


Normandes Jos Moreira Jnior, Joo Batista Vierira Jnior,
Luiz Carlos de Freitas

Universidade Federal de Uberlndia


Campus Santa Mnica-Bloco 3N, Av. Joo Naves de vila, 2160
Cdigo Postal, Uberlndia, Minas Gerais, Brasil
freitas@ufu.br

RESUMO
Este artigo apresenta uma nova topologia de amplificador Classe D de potncia, com rendimento superior a 90%,
adequado para operar com sub-woofer e woofer. A proposta no necessita de filtro passa baixa no estgio de
sada, uma vez que possui como princpio de funcionamento, modular o sinal a ser amplificado por meio de duas
fontes de corrente sobre um capacitor de filtro. O referido modo de operao possibilita que o amplificador
opere com fontes de tenso no estabilizadas com THD inferior a 1%.

1 INTRODUO Os amplificadores Classe D convencionais, como mostrado


na Fig. 1, possuem um modulador de largura de pulso
A principal vantagem dos amplificadores Classe D sobre (PWM), um estgio de potncia e um filtro passa baixa na
os amplificadores lineares tradicionais ( Classe A, B e AB ) sada. No estgio PWM, o sinal de referncia comparado
que, se bem projetados, o rendimento pode ser superior a com um sinal dente de serra de alta freqncia. O PWM que
90% [1]. O alto rendimento do Classe D sobre os resultado dessa comparao composto por pulsos digitais
amplificadores lineares torna-o mais atrativo em cuja largura de pulso proporcional ao valor instantneo do
equipamentos alimentados a bateria como o caso dos sinal de entrada.
amplificadores utilizados em carros, walkman, rdios O estgio de potncia apresenta, com maior freqncia,
portteis, megafones, walkie-talkie, etc. Outra desvantagem configurao em ponte completa para que, desta forma, possa
dos amplificadores lineares, para aplicaes de potncia propiciar maior potncia de sada, principalmente em
elevada, o peso e o volume devido o uso de grandes aplicaes de baixa tenso. O filtro passa baixa usado para
dissipadores de calor que so necessrios para evitar danos remover os componentes harmnicos do sinal PWM
nos dispositivos semicondutores que compe o circuito de compondo desta forma o sinal de referncia amplificado na
potncia dos amplificadores lineares. carga.

38
VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO

Fig. 1. Conversor Classe D convencional

Nos amplificadores no realimentados, a amplitude do


sinal PWM gerado depende do nvel de tenso da fonte que Fig. 3. Conversor Classe D proposto
alimenta o circuito de potncia. Qualquer oscilao na tenso
de alimentao repassada para o sinal PWM que provocar
distoro na forma de onda do sinal de udio[2]. 2 ROTEIRO DE PROJETO
No novo arranjo de amplificador Classe D proposto, Fig. 3,
as fontes de alimentao no necessitam ser estabilizadas A mxima variao da tenso por tempo (slew rate) tem de
pelo fato da topologia ser realimentada alm de no possuir ser considerada para o correto projeto do amplificador. O
filtro passa baixa adicional na sada. slew rate mximo determinado considerando-se a mxima
A topologia proposta possui as seguintes vantagens com freqncia de onda senoidal ou triangular a ser amplificada.
relao a topologia apresentada (Fig. 2) em trabalhos Quando maior a freqncia maior a taxa de variao de
anteriores [3]-[6]: tenso necessria para reproduzir uma forma de onda
senoidal ou triangular. A forma de onda quadrada no pode
5 possui duas chaves ao invs de quatro e ser considerada no clculo da mxima taxa de variao de
conseqentemente dois drivers isolados ao invs de quatro. tenso j que teoricamente o slew rate necessrio para
reproduzi-las infinito.
5 no necessrio utilizar snubber nas chaves A anlise matemtica baseada num sinal de entrada
senoidal, se comparado ao sinal triangular, simplifica a
5 rendimento mais elevado matemtica estudada. E neste caso o sinal de entrada
instantneo representado pela Equao (1).

V 6t 7 ! V . sin 68 .t 7 (1)
pk

onde:

5 V pk - tenso mxima de pico da senide de sada


5 8 - freqncia angular 2.1 . f ;
5 t tenso instantnea de corrente

Derivando a Equao (1) resulta no slew-rate desejado,


Equaes (2).

6 7 ! 8.V
dV t
6 7
pk . cos 8 .t
(2)
dt

Fig. 2. Conversor Classe D apresentado em trabalhos anteriores A variao mxima ocorre na passagem por zero para a
mxima freqncia a ser amplificada cos 0 ! 1 . Isso 67

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 392


VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO

6 7
significa que cos 8 .t na Equaes (2) pode ser eliminado A Equao (6) mostra a corrente instantnea no circuito LC
mostrado na Fig. 6.
o que resulta na Equaes (3).

dV t6 7 ! 8.V V
dt
pk
(3) 67
I t ! DC . cos 8 .t 6 7 (6)
Zo

A Equaes (4) relaciona corrente e capacitncia. Esta


equao muito importante para calcular a corrente
necessria para produzir o slew-rate necessrio no capacitor
de filtro de sada.

dV
I ! C. (4)
dt

Combinando (3) e (4), resulta que a corrente pode ser


calculada pela Equao (5).

I pk ! 2.1 . fmax .C .V pk (5)

onde:
f max - a mxima freqncia a ser amplificada

Considerando taxa de crescimento positiva no capacitor Cp


as Fig. 4 e 5 mostram que o indutor L1 carrega o capacitor Cp
Fig.5: Carregando C1 e descarregando Cp
e C1 e descarrega o capacitor C2. O processo de carga e (Taxa de Crescimento Positiva).
descarga ocorre basicamente ao mesmo tempo devido a
freqncia de chaveamento ser elevada. Desta forma o
circuito mostrado na Fig. 6 pode ser usado para encontrar a
equao de corrente que produz o mximo slew-rate. IL(t) L
+
onde: VDC -
5 capacitor CT a soma das capacitncias Cp, C1 e C2; t = 0s
5 em t = 0s a corrente no indutor zero;
CT
5 em t = 0s a tenso no capacitor zero.

VCT
Fig.6: Circuito LC equivalente (Taxa de Crescimento Positiva).

A corrente mxima ocorre quando t=0, pois cos 0 ! 1 . 67


Isso significa que este termo, na Equaes (6), pode ser
eliminado o que resulta na Equaes (7).

V
I pk ! DC (7)
Zo

onde:
L
Zo !
CT

Combinando as Equaes (5) e (7) resulta na Equao (8).


Fig.4: Carregando Cp e descarregando C2
(Taxa de Crescimento Positiva).

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 403


VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO

2 Vo( pk ) 114V
VDC
L! (8)
2 2 2
4.1 . fmax .V pk .CT f max 2kHz

I !I ! I CARGA
L16 pk 7 L 26 pk 7
interessante notar que a impedncia carga nunca
considerada. Isso ocorre porque a carga no est relacionada
com o slew-rate. A impedncia relevante para anlise de VDC 144V
resposta em freqncia e/ou anlise de filtro. interessante
notar que o slew-rate mximo ocorre (na passagem por zero) A tenso nominal RMS na carga (Vo) :
quando a corrente mxima e a tenso zero. Se a tenso
zero a carga incapaz de drenar corrente.
Vo
A capacitncia total CT a soma das Cp , C1 e C2. Valores 6 pk 7 (9)
6
adequados para C1 e C2 so C p % C1 ! C2 % 2.C p .7 Vo !
2

114V
3 EXEMPLO DE PROJETO Vo ! ! 80V
2
O objetivo deste projeto alimentar um alto falante de 18
polegadas de 800W RMS e 8! de impedncia. Como pode Po ! Vo.Io (10)
ser observado na Fig. 7 [2], o sistema de trs vias divide as
freqncias em trs faixas que so: onde:
Po = Potencia nominal RMS de sada
5 10 700Hz para woofer Vo = Tenso nominal RMS de sada
5 700 4kHz para midrange Io = Corrente nominal RMS de sada
5 acima de 4kHz para tweeter
A corrente nominal RMS na carga dada pela equao
Desta forma pretende-se projetar um amplificador que (10).
possua uma freqncia de corte de 2kHz destinado a suprir os 800W
45% de potncia destinada ao woofer. O projeto de um Io ! ! 10 A
amplificador para midrange deve levar em considerao a 80V
freqncia de operao mxima de 4kHz.
O exemplo a seguir destinado, somente, a alimentao do A corrente de pico na carga:
woofer pelo fato da freqncia de corte de 2kHz no atender
Io ! 10. 2 ! 14,14 A
toda a faixa de operao do midrange. 6 pk 7
A Fig. 7 mostra que 45% da potncia de um sistema de Usando a Equao (5) CT :
som de 3 vias destinado a alimentao do woofer, 45%
direcionado ao midrange e 10% ao tweeter. Isto posto, 14,14 A
CT ! ! 10 9 F
apresentado a seguir as especificaes de projeto. 2.1 .2000 Hz.114V

Amplifidador (10%)
do Tweeter
Adotando C1 = C2 = 2.CS a capacitncia Cp, C1 e C2 :
2 2
C1 ! C2 ! .CT ! .10 9 F ! 4 9 F
Amplifidador 5 5
Entrada (45%)
do MIDRANGE

CT 10 9 F
Cp ! ! ! 29 F
Amplifidador
(45%) 5 5
do WOOFER

Fig.7: Sistema de auto-falantes ativo (three-way) composto de 3


amplificadores para cada banda. Finalmente o valor da indutncia dos indutores L1 e L2
obtido pela Equao (8).
2
A Tabela 1 mostra a especificao de projeto de um
amplificador chaveado de potncia de 800W L1 ! L2 !
144V 6 7
Table 1: Especificao de projeto
2 2
6
2
7 6
4.1 . 114V . 2 kHz . 10,1.10 F
#6
7 6 7
Po 800W L1 ! L2 ! 1mH

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 41


4
VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO

4 Estratgia de Controle

O controle realizado por meio de histerese. A freqncia


de chaveamento, portando, opera em uma faixa de freqncia
que depende da dinmica da realimentao do controle. No
conversor implementado, a referida freqncia, se encontra
acima de 50kHz.
Nos amplificadores convencionais a operao em
freqncia fixa propicia vantagens com relao ao projeto do
filtro de sada. Por outro lado, a topologia proposta opera
com duas fontes de corrente na modulao do sinal
amplificado sobre um capacitor de filtro Cp no estgio de
sada. Motivo pela qual pode-se obter baixo THD na
operao do controle via histerese.
A histerese implementada por meio de um comparador
que recebe em sua entrada inversora uma amostra do sinal
modulado sobre o capacitor de filtro Cp,. O sinal a ser
reproduzido aplicado na entrada no inversora do mesmo
comparador e o resultado desta comparao utilizado no Fig. 10. THD em funo da potncia de sada
acionamento da chave S1 e S2 de forma complementar.

REF.
Amplificador

Re alimen tao

Fig. 8. Diagrama do circuito de controle

4 RESULTADOS EXPERIMENTAIS

A Fig. 9 mostra que o rendimento atinge 92% na condio


de 800W de potncia de sada com carga de 8! e THD de
0,84% (Fig. 10). A potncia de 1137W exibida no grfico da
Fig. 9 foi extrada com uma carga resistiva de 5!. O teste de
1137W foi possvel porque tanto os indutores quanto os Fig. 11. Curva do ganho em dB em funo da freqncia.
MOSFETs utilizados estavam dimensionados acima das
especificaes de projeto. Por fim, o diagrama de Bode da
Fig. 11 mostra o ganho do amplificador em funo da
freqncia onde fica claro que as especificaes de projeto, 5 Concluso
com relao a freqncia de corte, esto de acordo com os
resultados experimentais obtidos. Este artigo apresentou um novo amplificador de udio
Classe D com rendimento superior a 90%, THD menor que
1% que no necessita de fonte de tenso de alimentao
regulada para operar. Outra vantagem que cabe salientar a
no existncia de filtro externo que nos amplificadores de
udio convencionais filtra as componentes harmnicas dos
pulsos PWM gerados pelo estgio de sada do amplificador.

REFERNCIAS BIBLIOGRFICAS

[1] Chang, M. T. Tan, Z. Cheng and Y. C. Tong. Analisys


and Design of Power Efficient Class D Amplifier Output
Stages. IEEE Trans. Circuits and Sustems I:
Fundamental Theory and Applications, vol. 47, no. 6,
pp. 897-902, 2000.
[2] K. Nilsen High-Fidelity PWM-Based Amplifier
Concept for Active Loudspeaker Systems with Very
Low Energy Consumption J. Audio Eng. Soc., vol. 45,
Fig. 9. Curva do rendimento em funo da potncia de sada no. 7/8, pp. 554-570, 1997.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 5


42
VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO

[3] F. R. S. Vincenzi, et al., Amplificador de udio


Chaveado SEMEA- Seminrio de Engenharia de
udio, Belo Horizonte - MG. Editora da UFMG, CD-
ROM, vol. nico, 2002.
[4] F. R. S. Vincenzi, et al., A New Audio Switched Power
Amplifier INTELEC - Internation Telecommucations
Energy Conference, , Copenhege. Proceedings of IEEE
INTELEC'1999. Psicataway - NJ - USA: IEEE PRESS.
vol. nico, pp. 01-06, 1999.
[5] F. R. S. Vincenzi, et al., A Switched power Amplifier
for Audio Application COBEP - V Congresso
Brasileiro de Eletrnica de Potncia, Foz do Iguau PR.
Anais do COBEP'1999. Foz do Iguau PR: Imprensa
Universitria da UFPR, vol. 02, pp. 521-526, 1999.
[6] F. R. S. Vincenzi, et al., A new switched Power
Amplifier for High Power Applications. INTELEC
Internation Telecommucations Energy Conference
Copenhage. Proceedings of IEEE'1999. Psicataway -
NJ- USA: IEEE PRESS, vol. nico, 1999.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 43


6
___________________________________
Sociedade de Engenharia de udio
Artigo de Conveno
Apresentado na IX Conveno Nacional
11 - 13 de Abril de 2005, So Paulo, SP

Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.

___________________________________
Simulao de Som 3D em um Ambiente de Realidade Virtual Imersiva
Utilizando HRTF

Leandro Ferrari Thomaz, Marcelo K. Zuffo, Joo Antonio Zuffo, Regis Rossi A. Faria
LSI Escola Politcnica da USP
05508-900, So Paulo, SP, Brasil
{lfthomaz, mkzuffo, jazuffo, regis}@lsi.usp.br

RESUMO
Este artigo descreve a implementao de um sistema de auralizao 3D em um ambiente de realidade virtual
imersiva utilizando-se tcnicas bi-aurais. Para avaliar a eficcia desta soluo em ambientes do tipo CAVE um
programa est sendo desenvolvido para calcular a posio do usurio e da fonte sonora e convoluir o som
proveniente desta fonte com respostas impulsivas do tipo HRTF previamente calculadas, sintetizando-se o som
em fones de ouvido. O software ser integrado ao conjunto de solues para sonorizao tridimensional previstas
no projeto AUDIENCE.

INTRODUO
A motivao deste projeto poder implementar um sistema
de auralizao 3D de baixo custo, utilizando partes de
software e medies de HRTF previamente feitas, por ser
uma tcnica amplamente conhecida e empregada. A
integrao com o software de navegao e sntese
desenvolvido na CAVERNA Digital [1], o Jinx [2], uma
premissa fundamental para investigarmos o potencial de
aplicao desta tcnica em um ambiente de RV imersiva.

CAVERNA DIGITAL
A CAVERNA Digital (CAVE1 - Audio Visual Experience
Automatic Virtual Environment) um sistema de realidade
virtual, que consiste de uma sala, na qual cada parede uma
tela de projeo. O observador que se encontra dentro do
ambiente experimenta um alto grau de imerso. Este sistema
Fig. 1 - CAVERNA Digital
no intrusivo, e no existem equipamentos pesados para
serem carregados pelo usurio.
A CAVERNA composta por um cubo de dimenso 3m x
3m x 3m com projeo nas quatro paredes laterais mais o
1
CAVE marca registrada da University of Illinois.

44
THOMAZ ET AL SIMULAO DE SOM 3D EM REALIDADE VIRTUAL COM HRTF

piso (fig. 1). O sistema pode comportar at 6 usurios no seu eletromagnticos. Os pilares e vigas do prdio prximos
interior, compartilhando a mesma experincia virtual. CAVERNA foram construdos de madeira, tambm para
Os sistemas cbicos apresentam atualmente uma qualidade evitar interferncia no sistema eletromagntico.
de imerso melhor que qualquer outra forma de sistema de Nas CAVEs, em geral, verifica-se que o sistema de udio
realidade virtual como, por exemplo, os capacetes de secundrio, existindo apenas sistemas estreo ou com poucos
realidade virtual HMD (Head Mounted Display), que so recursos multicanais. Desta forma, no existe uma adequada
culos pesados e apresentam srios problemas de reproduo de ambincia, localizao dos objetos e correta
rastreamento, navegabilidade, campo de viso e podem indicao da diretividade dos objetos sonoros.
induzir ao mal estar no usurio. Na CAVERNA Digital os Com relao parte de udio da CAVERNA, est sendo
recursos incorporados ao usurio para a imerso so desenvolvido um projeto para a implementao de um
geralmente mnimos, baseando-se apenas em culos para sistema de udio 3D flexvel e escalvel, o AUDIENCE [3] .
suportar a estereoscopia e dispositivos de rastreamento. Este projeto conta com a incorporao de solues
Uma grande vantagem da CAVERNA Digital sua comerciais e surround at desenvolvimentos especficos para
flexibilidade, em ter a possibilidade de compartilhamento do sonorizao 3D e auralizao, prevendo-se a correta gerao
mundo virtual por vrios usurios simultaneamente, a de campos sonoros espaciais. Embora focado em reproduo
quantidade de pessoas est limitada diretamente s dimenses multicanal, dentro do escopo do AUDIENCE esto previstas
fsicas da CAVERNA utilizada, como tambm possvel o investigaes de diversos sistemas, incluindo aqueles bi-
reclculo do ponto de vista do usurio, baseado em um aurais com reproduo via fones de ouvido, para se conhecer
sistema de rastreamento para um usurio e assim se produzir melhor a adequao a aplicaes especificas, e estudar sua
o efeito perfeito de imerso e navegabilidade. usabilidade.
Dentre as possveis aplicaes da CAVERNA Digital,
destacamos: a visualizao de lenis petrolferos para HRTF
otimizar o projeto de perfuraes, as maquetes digitais na HRTF (Head-Related Transfer Function), ou funo de
indstria automobilstica para solucionar problemas de design transferncia relativa cabea, consiste numa representao
e aerodinmica, a anlise meteorolgica como a visualizao matemtica da transformao que um som sofre desde a fonte
de massas de ar, alm de simulaes cirrgicas na medicina, sonora at o ouvido humano, usualmente expressa segundo
planetrio virtual, projetos arquitetnicos, a navegao em uma medio da resposta impulsiva (ou Impulse Response,
ambientes virtuais, como museus e salas de espetculos, e IR) na altura dos ouvidos humanos. Conforme podemos
aplicaes avanadas de entretenimento. observar na figura 3, a gerao de um som x(t) na posio da
No leiaute arquitetnico da CAVERNA Digital (fig. 2), um fonte sonora ouvido pela cabea como xR(t) no ouvido
dos aspectos levados em conta foi embutir totalmente os direito e xL(t) no ouvido esquerdo, ou seja, existe uma
projetores e outros dispositivos, escondendo do usurio final diferena entre esses sons. As respostas impulsivas medidas
as particularidades tcnicas do sistema. so relativas a cada ouvido, hR(t) e hL(t) (fig. 3).

Fig. 2 - Leiaute da CAVERNA Digital Fig. 3 Medio da HRTF

Do ponto de vista estrutural deve-se levar em conta O experimento para a gerao das HRTFs consiste em,
tambm aspectos como compatibilidade eletromagntica, para uma dada posio relativa a cabea, gerar um impulso
iluminao, isolamento e tratamento acstico, controle de sonoro (com um estouro, por exemplo) e, atravs de
temperatura e umidade, e finalmente a possibilidade de microfones posicionados nas entradas dos dois ouvidos,
montagem de perifricos adicionais no interior da gravar este impulso.
CAVERNA Digital, como fones de ouvido. A estrutura do Com estas respostas impulsivas, hR e hL, gravadas podemos
cubo toda feita em madeira e plstico, envolvendo o uso de simular como um som seria ouvido pela cabea, caso fosse
metal apenas em alguns parafusos estruturais e projetores, gerado naquela dada posio da fonte e recebida naquela
buscando assim minimizar a distoro dos campos posio da cabea. Isto possvel atravs da aplicao do
magnticos gerados pelos rastreadores de posio teorema da convoluo [4], onde o som simulado seria obtido

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 452


THOMAZ ET AL SIMULAO DE SOM 3D EM REALIDADE VIRTUAL COM HRTF

atravs da resposta impulsiva convoluida com um som Se o ngulo 6 for negativo porque a fonte sonora est
qualquer. esquerda do usurio. Assim, selecionamos a resposta
impulsiva com ngulo de rotao mais prxima do obtido
AURALIZAO NA CAVERNA ATRAVS DE HRTF pelo clculo.
As respostas impulsivas que so utilizadas neste primeiro
O clculo do ngulo de elevao C da elevao feito
trabalho foram obtidas pelo Media Labs do MIT [5]. O
atravs da seguinte equao:
trabalho realizado por eles gerou um grupo de arquivos que
contm respostas impulsivas para vrios ngulos de elevao
(de 10 em 10 graus) e rotao (de 5 em 5 graus). Todas as 9 :
z "c
respostas so para o ouvido direito, sendo que para obter do C $ arctg ;; <
< (6)
ouvido esquerdo basta utilizar a resposta impulsiva ; ( x"a )2 #( y "b)2 <
= >
suplementar (por exemplo, se para o direito utilizada a
rotao de 15 graus, para o esquerdo se utiliza a de 165
A intensidade da fonte sonora (I) calculada a partir da
graus).
distncia (d) desta em relao cabea, utilizando a equao
Para o clculo da posio do usurio em relao fonte
de onda que diz que a intensidade proporcional ao inverso
sonora utilizamos os dados obtidos do rastreador, que fornece
da distncia ao quadrado [6].
a posio xyz, o grau de rotao da cabea do usurio em
relao a um eixo fixo de coordenadas e a posio da fonte
sonora (fig. 4). 1
ID 2
(7)
d

A auralizao feita a partir da aplicao da operao


matemtica da convoluo. A partir da resposta impulsiva
mais prxima da posio da fonte sonora, o som emitido por
essa fonte convoluido com esta resposta impulsiva tanto
para o ouvido direito quanto para o esquerdo e o resultado
reproduzido nos fones de ouvido.

x R $ x E hR (6 ) (8)

x L $ x E hL (180B " 6 ) (9)

Neste primeiro experimento, o modelo utilizado leva em


considerao algumas simplificaes. No so levados em
conta objetos que esto entre a fonte sonora e o usurio, o que
causaria uma atenuao, reflexo e/ou difrao da onda
sonora. Tambm no foi considerada a reverberao do
mundo virtual.

IMPLEMENTAO
Fig. 4 Clculo do ngulo 67entre a cabea e a fonte A implementao do sistema envolve a integrao do
hardware disponvel na CAVERNA, o software utilizado
O eixo de coordenadas deslocado para a cabea do
para navegao (Jinx) e um mdulo especfico de udio que
usurio, a fonte sonora transferida para o 1 quadrante do
se encaixa no Jinx. O diagrama de blocos a seguir mostra as
plano e o ngulo entre a cabea e a fonte calculado atravs
partes do sistema (fig. 5).
da seguinte equao (sendo ab as coordenadas da cabea e xy
as coordenadas da fonte sonora deslocada):
JINX Posio do usurio
9 x"a : Posio da fonte sonora
8 $ arctg ; < (1) Mdulo Arquivo de som
= y "b > Renderizao
udio HRTF

A partir de 8?# do ngulo de rotao da cabea @ (obtido Rastreador


Eletromagntico
atravs do rastreador) e do quadrante em que se encontrava a
fonte originalmente, obtemos o ngulo final 6A7
Fones de
1 quadrante: 6 $ 8 "@ (2) Ouvido
Posio da cabea
2 quadrante: 6 $ 180B " 8 " @ (3)
3 quadrante: 6 $ 180B # 8 " @ (4)
Fig. 5 Diagrama de Blocos do Sistema
4 quadrante: 6 $ 360B " 8 " @ (5)

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 463


THOMAZ ET AL SIMULAO DE SOM 3D EM REALIDADE VIRTUAL COM HRTF

convoluindo com a resposta impulsiva. Desta forma,


Hardware possvel fazer a mudana na resposta impulsiva. A
O hardware utilizado para a implementao do projeto est convoluo feita por um software de cdigo aberto
descrito a seguir: chamado BruteFIR [8]. Utilizando extenses dos
4 CAVERNA Digital processadores AMD e Intel, este software consegue fazer os
A infra-estrutura j disponvel da CAVERNA Digital foi clculos da convoluo em um tempo extremamente baixo.
utilizada, incluindo um aglomerado computacional (cluster), muito importante que haja um mecanismo que trave a
responsvel pela gerao de imagens e processamento dos execuo da segunda seo enquanto a resposta impulsiva
dados de udio. Futuramente, um novo n ser adicionado ao estiver sendo atualizada.
cluster e ser responsvel exclusivamente pelo Abaixo, mostramos o algoritmo bsico, em pseudocdigo,
processamento do udio, tornando possveis simulaes mais de cada seo do mdulo de auralizao via HRTF proposto.
complexas.
4 Rastreador // 1 Seo
...
A CAVERNA j possui um sistema de rastreamento eletro- enquanto(simulao_rodando) {
magntico de marca Ascension Technology, modelo Flock of obter_dados_rastreador(pos_xyz, rotacao);
Birds [7]. Este dispositivo permite rastrear o usurio em todo obter_dados_usuario(pos_xyz);
obter_dados_fonte_sonora(pos_xyz, wave);
o espao da CAVERNA, fornecendo a posio xyz, bem calcular_pos_relativa(pos_rel);
como o grau de rotao. A resoluo do aparelho de 0,5mm selecionar_IR(pos_rel);
para a posio e 0,1 para a rotao. se(IR diferente da anterior) {
lock();
4 Fone de ouvido substituir_IR();
Para a auralizao do som, foi utilizado um fone de ouvido unlock();
com fio disponvel na CAVERNA. O ideal seria a utilizao }
de um fone de ouvido sem fio, que no interfira com o campo }
...
magntico gerado pelo rastreador. Com este tipo de fone
poderia ser proporcionado ao usurio um maior grau de // 2 Seo
liberdade, aumentando a imerso. O rastreador foi acoplado ...
enquanto(simulao_rodando) {
ao topo do fone de ouvido e calibrado. selecionar_bloco_wave(bloco, wave);
4 Placa de som convoluir(IR, bloco);
A placa de som utilizada responsvel por transformar o tocar(bloco);
}
som digital, gerado pelo software, em som analgico e enviar ...
ao fone de ouvido. importante ressaltar que a placa de som
tem que ter baixa latncia de forma a no interferir com os RESULTADOS
clculos de sntese sonora (que j so extremamente As respostas impulsivas obtidas pelo MIT foram testadas
complexos). em um programa de processamento de udio (AudioMulch
[10]) com um mdulo que faz as convolues necessrias
Software (Voxengo Pristine Space [11]). A partir destes testes,
O software utilizado para a renderizao e navegao da puderam ser observadas como se comportam estas respostas
CAVERNA Digital o Jinx. Ele um navegador de impulsivas para diversos pares de posies.
ambientes virtuais distribudo, ou seja, ele foi feito para ser Em seguida, iniciou-se o desenvolvimento do software
usado em aglomerados de computadores, ou clusters. O Jinx responsvel pela convoluo das HRTFs e integrao com o
baseado no padro X3D, dando flexibilidade ao sistema e Jinx. Este mdulo j foi integrado com o sistema de
permitindo que o usurio concentre-se apenas no rastreamento da CAVERNA, bem como ao sistema de
desenvolvimento do contedo. navegao. No momento, o programa encontra-se em testes
Est sendo desenvolvido um mdulo de software que para que sejam feitos os ajustes finos como, por exemplo, a
funciona acoplado ao Jinx (conforme figura 5). O modulo escolha do tamanho do bloco de som a ser convoluido para
responsvel por obter a posio do usurio e de sua cabea, que o som exibido no tenha interrupes.
selecionar a resposta impulsiva que mais se aproxima desta
posio com relao fonte sonora e fazer a convoluo do CONCLUSES
som com a resposta impulsiva. Embora o sistema de auralizao no esteja concludo, mas
O mdulo tem basicamente duas sees, que so algumas concluses j podem ser obtidas a partir de testes
executadas em paralelo, indefinidamente, at que a simulao feitos com partes do software.
seja finalizada. Estas sees so descritas a seguir. A utilizao das HRTFs, embora seja simples e sem
A primeira seo responsvel por obter os dados do requisitar excessivo custo computacional, no apresenta uma
usurio, calcular a posio relativa entre o usurio e a fonte boa correo da localizao ou diretividade verificada.
sonora, selecionar uma resposta impulsiva e, caso seja Verifica-se que apenas os sons vindos da esquerda, centro e
diferente da utilizada anteriormente, fornecer segunda seo direita podem ser discernidos, enquanto que os sons
do software a nova resposta impulsiva. provenientes de trs, cima e baixo no tm o realismo
A segunda seo responsvel por fazer a convoluo necessrio.
entre o som emitido pela fonte sonora e a resposta impulsiva Pensamos que este problema pode ser devido a uma falta
fornecida pela primeira seo, e por sintetizar o sinal atravs de preciso no banco de dados de respostas impulsivas no
da placa de som. A convoluo feita sob demanda, caso de sons projetados atrs ou acima/abaixo da cabea. Ou
utilizando pequenos blocos de amostra do sinal original e ainda, pelo fato do fone de ouvido ser colocado diretamente

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 474


THOMAZ ET AL SIMULAO DE SOM 3D EM REALIDADE VIRTUAL COM HRTF

na cabea, fazendo com que sejam perdidas informaes de [10] AudioMulch Interactive Music Studio. Disponvel em:
diretividade dadas, tanto pela orelha humana, como pelo http://www.audiomulch.com/. Consultado em
formato da cabea. Vale lembrar que as medies de HRTF
15/03/2005.
so diferentes para cada pessoa, e que a medio feita pelo
MIT em uma cabea artificial apenas uma aproximao. Ou [11] Voxengo Pristine Space. Disponvel em:
seja, o ideal seria, antes da simulao, obter as HRTFs do http://www.voxengo.com/pspace/. Consultado em
usurio e executar o sistema com estas. 15/03/2005.
Para desenvolvimentos futuros, pensamos em obter as
nossas prprias respostas impulsivas, mais precisas que as j [12] Ambisonic. Disponvel em: http://www.ambisonic.net/.
datadas medidas do MIT. Outra melhoria a interpolao de Consultado em 15/03/2005.
HRTFs para posies intermedirias, minimizando o erro na [13] M.A. Gerzon, Periphony: With-Height Sound
transio entre duas respostas impulsivas. Tambm devemos
Reproduction, J. Audio Eng. Soc., vol. 21, pp. 2-10
incluir ao software de auralizao a possibilidade de
adicionar ao som produzido campos sonoros pr-definidos, (1973 Jan./Feb.)
como cavernas, catedrais etc. [14] Michael Gerzon, Surround Sound Psychoacoustics,
O problema da baixa sensao de realismo pode ser Wireless World, vol. 80, pp. 483-486 (1974 Dec.)
resolvido utilizando algum sistema de sntese de som 3D
mais robusto como, por exemplo, o Ambisonic [12]. Este [15] CRUZ-NEIRA, C.; D.J. SANDIN; T.A. DEFANTI.
sistema conta com uma codificao do som numa grade 3D Surround-screen projection-based virtual reality: The
mais elegante e, usualmente, utiliza diversas caixas de som design and Implementation of the CAVE. In:
posicionados em volta da CAVERNA, que podem assim SIGGRAPH 1993. ACM SIGGRAPH, Anaheim, Jul.
gerar um campo de som perifnico. Esta soluo est sendo 1993
explorada dentro do escopo do projeto AUDIENCE, em
curso na CAVERNA Digital.

REFERNCIAS BIBLIOGRFICAS
[1] CAVERNA DIGITAL. Disponvel em:
http://www.lsi.usp.br/~rv/p/cave_p.html. Consultado em
15/03/2005.
[2] Soares, L. P. and Zuffo, M. K. JINX: an X3D browser
for VR immersive simulation based on clusters of
commodity computers. In Proceedings of the ninth
international conference on 3D Web technology,
Monterey, California, USA, 79 86, 2004.
[3] AUDIENCE Audio Immersion Experience by
Computer Emulation. Disponvel em
http://www.lsi.usp.br/interativos/nem/audience/.
Consultado em 15/03/2005.
[4] Oppenheim A., Schafer R., Discrete-Time Signal
Processing, 2nd ed., Prentice Hall, 1998.
[5] Gardner B., Martin K., HRTF Measurements of a
KEMAR Dummy-Head Microphone, 1994. Disponvel
em: http://sound.media.mit.edu/KEMAR.html.
Consultado em 15/03/2005.
[6] Everest F., Master Handbook of Acoustics, 4th ed.,
McGraw-Hill, 2001.
[7] Flock of Birds. Disponvel em: http://www.ascension-
tech.com. Consultado em 15/03/2005.
[8] Torger A., BruteFIR, 2002. Disponvel em:
http://www.ludd.luth.se/~torger/brutefir.html.
Consultado em 15/03/2005.
[9] Roederer J., Introduo fsica e psicofsica da msica,
1 ed. 1 reimpr., So Paulo: EDUSP, 2002.

IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11 13 DE ABRIL DE 2005 48


5

Sociedade de Engenharia de Audio
Artigo de Convenc
ao
Apresentado na IX Convenc ao Nacional
11 - 13 de Abril de 2005, S
ao Paulo, SP
Este artigo foi reproduzido do original entregue pelo autor, sem edicoes, correco
es e consideraco
es feitas pelo comit
e t
ecnico
deste evento. Outros artigos podem ser adquiridos atrav es da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informa c
es sobre a seca
o brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. N
ao e permitida a reproduca
o total ou parcial deste artigo sem autorizaca
o expressa da AES Brasil.

Granular Synthesis of Sounds through Fuzzyfied Markov Chains


EDUARDO RECK MIRANDA1 , JONATAS MANZOLLI2, e ADOLFO MAIA JR.3 ,
1
Computer Music Research, Faculty of Technology, University of Plymouth, Plymouth, Devon
PL4 8AA, United Kingdom.
2
Instituto de Artes, Universidade Estadual de Campinas and Nucleo Interdisciplinar de
Comunicacao Sonora (NICS), (UNICAMP) - 13.081-970 - Campinas (SP), Brazil.
3
IMECC, Universidade Estadual de Campinas and Nucleo Interdisciplinar de Comunicacao
Sonora (NICS), (UNICAMP) - 13.081-970 - Campinas (SP), Brazil.
eduardo.miranda@plymouth.ac.uk; jonatas@nics.unicamp.br; maia@ime.unicamp.br

ABSTRACT
In this paper we introduce a new model for granular synthesis using Markov Chains and Fuzzy Sets.
Whereas Markov Chains are used to control the evolution of the sound in time, Fuzzy Sets are employed
to define the internal structure of the sound grains. It is shown also how the fuzzy structure of grains
changes the markov Process. We provide the mathematical foundations of the model and briefly discuss
how we have implemented it in a MATLAB program named Fuzzkov 1.0.

INTRODUCTION sands of elementary sound particles [3].


Granular synthesis [6] is commonly known as a tech- In this work we take Curtis Roads definition of sound
nique that works by generating a rapid succession of tiny grain as a point of departure to develop a formal but flex-
sounds, metaphorically referred to as sound grains or ible granular synthesis model. The model uses stochastic
yet as microsounds [7, 8]. Granular synthesis is widely processes, namely Markov Chains with Transition Prob-
used by musicians to compose electronic or computer ability Matrix modulated by Membership Functions of
music because it can produce a wide range of different the grains with values in the interval [0, 1], which gives
sounds, but it also has been used in speech synthesis the grains their fuzzy characteristics. Thus, we propose
[4, 5]. Clearly a discussion about musical aesthetics arise a new method for controlling the grains by intertwining
from these developments and although it is a very inter- Stochastic Processes and Fuzzy Set Theory, where the
esting topic by itself we will not deal with these matters content of the grains (or internal variables) can change
in this paper. A good account of the aesthetics of mi- their transition probabilities between states. For the
crosound can be found in reference [9]. sake of clarity, we have chosen a very simple State Space
Granular synthesis is largely based upon Dennis Ga- to introduce the model, where each grain is a state of a
bor idea of representing a sound using hundreds or thou- Grain Vector G. Therefore, the membership functions in

49
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS

this case modulate the transition probabilities between particular Fourier partials, that is, it is a sum of basic
states (i.e., grains), changing their ordering position in sinusoidal frequencies.
the time domain. This paper introduced just one of sev- With the above defined matrices Gi , it is possible
eral possible modes of interaction between internal and to define an unambiguously time evolution of grains
external control variables. through out Markov Chains. This is usually accom-
plished through a Fuzzy Transition Table, constructed
FUZZY GRAIN AND ITS MATRIX REPRESENTA- as follows: firstly, suppose that we have a transition ma-
TION trix for ordinary grains, that is, with no membership
Let us denote the space of all possible oscillators, vector yet defined. This can be written as follows:
that is the frequency amplitude space of the ordered
g1 g2 gN
2 3
pair (, a), where the variables and a varies in some ...
1
suitable real intervals. is referred to as a Parameters
6g
6 2 p11 p12 ... 1N 7
p 7
Space. We define, formally, a grain as a finite collection
6g
6 p21 p22 ... p2N 77 (4)
4. . . ... ... ... ... 5
of points {(i (t), ai (t)), i = 1, 2, . . . , N } in , which is
taken here as a state of a Markov Chain. A grain can gN p1N p2N ... pNN
be described by its Fourier Partials inside a real interval which can be viewed as a function
I. Its spectral content can be written, without loss of
generality, as p: `gi gj [0,` 1]
g ,g $ p g i , g j = pij
N
Now, we define a Fuzzy Extended Probability Tran-
X
G(t) = an sin[2n t + n ], (1)
n=1 sition Matrix (or simply Fuzzy Transition Matrix) Q :
where an , n , n reads for amplitude, frequency and a G G [0, 1] as
possible phase, respectively.
In granular synthesis a sound can be viewed as a quick Qij = Q Gi , Gj = ij pij (5)
stream of grains which, from a geometrical point of view,
describes a trajectory in the space. where the symbol means a matrix operation (e.g., a
A grain gi with r Fourier Partials can be read as a scalar product, a matrix product or any other well de-
2 r matrix: fined operation). The function ij is generated as a finite
number of applications of the following basic operations
2 i
1 ai1 of fuzzy sets: for i, j = 1, 2, . . . , N , we define
3
62i i7
a2 7 1.
gi = 6 . .. 7 (2)
6 n o
4 .. .5 ij = max ik , jk , (6)
1kr
ri air
where i and j are the membership vectors of the
Now, a fuzzy grain can be represented as a 3 column grains Gi and Gj respectively.
matrix
2. n o
ij = min ik , jk ,
2 i
1 ai1 i1 (7)
3
1kr
62i ai2 i2 7
Gi = 6 . .. .. 7 (3) where i and j are the membership vector of the
6 7
4 .. . . 5 grains Gi and Gj respectively.
ri air ir
3.
where we have introduced a third column with the mem- ic = 1 i . (8)
bership frequency and amplitude values of each partial
of the grain Gi . Note that g i is a particular case of Gi These result in a product like = ij
ij ij
. . . ij
1 2 l ,
for i1 = i2 = . . . = ir = 1. where the third operation above can be performed on
any product of i vectors. These are basic operations
MARKOV PROCESSES FOR FUZZY GRAINS on Fuzzy Sets. See Diamond and Kloeden [1] for a in-
Fuzzy sets, first proposed by Lofti Zadeh [11] are able troduction to Fuzzy Sets and their metrics. Note that
for handling uncertainty, imprecisions or vagueness. Be- since the membership function modulates the proba-
low we show how the membership functions of fuzzy bility
PN values pij , the condition for the probability sum
ij
grains can modify the Markov Transition Matrix and so j=1 Q = 1 can be violated. In order to solve this
we get a fuzzy control for the Markov Chain. For a good problem we P renormalize the matrix Qij as follows. De-
account of Fuzzy Sets the reader is refereed to [1, 2]. Let noting qi = N k=1 Qik we define the elements of matrix
us consider a grain described by its Fourier-like equation P as
(1). Each subset of points in represents a grain with Pij = Qij /q i i, j = 1, 2, . . . , N (9)

IX CONVENC NACIONAL AES BRASIL, SAO


AO PAULO, SP, BRASIL, 11 - 13 DE ABRIL DE 2005 2

50
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS

Now the probability property N


P
j=1 Pij = 1 is clearly harmonic content. A metric control is closely related to
satisfied. The above definition shows that the internal the notions of approximation and/or the maximal time
fuzzy content of the grains have a weight (through the (or number of steps) available to run a process. Below we
function ij ) for their transition to a next state of the indicate three stop criteria we devised to halt a Markov
Markov Chain. Chain in our model of granular synthesis.
The Fuzzy Transition Matrix (or Table) now reads Halting Criteria

G1 G2 . . . GN 1. Convergent Type: If the distance between the last


2 3
6 G1 P 11 P 12 . . . P 1N 7 generated grain and a fixed grain (target) is smaller
than a prefixed arbitrary number &, the process
6 2 7
6G P 21 P 22 . . . P 2N 7 (10)
halts.
6 7
4. . . ... ... ... ... 5
GN P N1 P N2 . . . P NN 2. Cauchy Type: If the distance between two states is
In this simple model a transition from one state to smaller than & the process halts.
another corresponds to a jump from a particular grain
3. Maximal Number of Steps Type (MNS): Fix the
to another in the grain vector G. In adition the fuzzy
maximum number of steps for the process to halt.
content of a grain, that is, its membership vector, can
have a significant weight on the probability transition. Any of the above criteria can be used to halt the pro-
Since the process is finite, a criterium to halt the process cess. Of course Maximal Number of Steps Type is the
is needed here. This will be discussed in the next section. simplest one, since no metric is required. In our program
The above model is suitable for several kinds of matrix Fuzzkov 1.0 we have implemented fully the MNS and
operations on internal as well external variables control- partially, the Cauchy type, at the Hausdorff Metric level,
ling the grains behaviour in time. There is plenty of but not at the Fuzzy Metric level. We have implemented
room for the definition of a great number of different the Hausdorff Metric as an inequality, so that FuzzKov
methods to generate and control the grains. We present 1.0 runs in loops until it is satisfied. We obtained good
one of such methods below. results for both controls of the grains streams working
together.
CONTROL OF GRAIN STREAMS In adition we can also specify a number of different for-
There exist many different ways (algorithms) to con- mal settings to update the internal content of the grains
trol the evolution of the grains in time. We show here at each step of the Markov Chain. This provides the
one by using the so called Hausdorf Metric which is suit- means to control the evolution of the macrosound in the
able to measure distance between sets (grains are finite Space. Below we indicate two updating methods.
and discrete subsets of ). Its definition is as follows [1]. Grains Updating
Suppose that the space = R2N has a metric d(x, y).
Let x be a point in and A a nonempty subset of . 1. No Updating: no change in the internal content
We define the distance of the point x to the set A as: In this case, each grain Gi corresponds to a state
of the grain vector G and no operation is applied
to the internal structure of the grains. Nevertheless
(x, A) = inf {d(x, y), y A} . (11) this procedure takes into account the fuzzy nature
of grains as the role of the membership vectors is to
The Hausdorff separation of a set B from a set A is produce new arrangements in time (that is, permu-
defined by tations) for the prefixed grains.

(B, A) = sup {d(y, A), y B} (12) 2. Core Merged Grains


In this case we update l-th step grain as a sub-
In general, is not symmetric, that is (A, B) '= set merging l previous grains of the Markov Chain;
(B, A). In order to get a symmetric one we define the e.g., G0 , G1 , . . . , Gl1 . For the sake of clarity, we
so called Hausdorff distance by ignored all the other subindexes. Define the l-Mean
Frequency as
dH (A, B) = max {(A, B), (B, A)} (13)
r
With this distance function (, dH ) is a Metric Space. X k0 + k1 + . . . + kl1
(l) = (14)
Time evolution can be better controlled using a fuzzy l
k=1
metric that takes into account the degree of member-
ship of the Fourier partials inside each grain. In other and take the r closest frequencies from the set Ul =
l1 k (l)
and update Gl
S
words, partials with low membership coefficients con- k=0 G to the mean frequency
tribute little for the Hausdorff distance measure between (with the same letter) as
the grains. Membership vectors define the fuzzy charac-
ter of the grains, or in a musical jargon, their weighted Gl = [(k1 , ak1 ) , (k2 , ak2 ) , . . . , (kr , akr )] .

IX CONVENC NACIONAL AES BRASIL, SAO


AO PAULO, SP, BRASIL, 11 - 13 DE ABRIL DE 2005 3

51
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS

This procedure leads to a concentration of frequencies which avoids glitches and, in the macro scale, we in-
within a narrow bandwidth, but with a large bandwidth cluded crescendo and decrescendo effects. In fact this
for the amplitudes. The halting criterion here can be can be done more generally by using an modulation func-
taken as the Cauchy type. Given an arbitrary (but small) tion with an arbitary number of peaks and regions with
number &, the process stops if dH (Gi , Gi+1 ) &, where increasing as well decreasing rates.
the distance between two points used for defining the We have normalized all the sound signals, so they are
above Hausdorf Distance is given by, for example: more suitable to analysis and comparison. After record
the digital signal as a wav.file the program has three out-
d ((i , ai ) , (j , aj )) = max |i j | . (15) pus: sound stream, spectrogram and plot of the probabil-
1kr
ity vector evolution from MATLAB. In adition,in order
If we fix a particular grain in the space, such as G, to analyse in a easy way our results, we used the WAVE-
we can consider the Convergent LAB program to get a 3D-analysis in a time frequency
` halt criterion , that is space.
the proceess stops if dH Gi , G &.
We can also take the mean frequency only of the last
m grains and so it reads as CONCLUSION
We have presented a model for granular synthesis as
r
X klm + klm+1 + . . . + kl1 a Markov Chain in which each grain is a possible state
(l) = (16) of a Grain Vector G. A major feature of our model
m
k=1 is that the spectral components of the grains are cou-
(l)
pled with the state transition probability through grains
and take
S the r kclosest frequencies to from the set membership vectors. This allows the user more flexibil-
Ul = l1k=lm G . Clearly, for m = l we get the previous ity in a higher level as well more variability to control
model. the sequence of grains of the Markov Chain. We have
A short description of the Diagram of Fuzzkov 1.0 implemented a computer algorithm named Fuzzkov 1.0,
(Fig 1) is as follows. The grains are generated by ran- written in MATLAB, in which the membership functions
domly (uniform and gaussian) 3-dimensional matrices A modulate the Transition Probability Matrix. Neverthe-
with dimensions 2 r N which include r normalized less the internal contents of the grains are not changed
frequencies and amplitudes for N grains (Fourier Par- by them in this first version of Fuzzkov. In this way,
tials). We have taken the uniform as well the Gaus- the present model can be understood as a Coarse Grain
sian distribution of probability to gerated them. From Fuzzy Synthesis. A more complex program should allow
this we get a Matrix B(2, 1, N ) with the sum of Fourier the use of Fuzzy Functions to emphasize some partic-
Partials for the N grains. A Markov transition Matrix ular components of the spectral content of the grains
p(N, N ) is generated and modified by a Membership Ma- and then to drive the sound flow by updating them at
trix M emb(N, N ). A number of diferent operations are each step through mergin and selecting the most rep-
available to do this modification. So we get a fuzzyfied resentative frequencies and amplitudes to construct the
Markov Matrix Q(N, N ) which operates on an aaray of next grain of the stream. As Halt Criteria we used the
probabilities vectors u(n+1, N ). Next, a particular filter Maximal Number of Steps, as well the Cauchy type with
choose the index of the maximal value of each probability the Hausdorff Metric between grains. A model in which
vector I(1, n+1). Finally, the program reorder the Grain the states of the Markov Chain are related to grainss
matrix B(2, 1, N ) along the index vector I(1, n + 1) and subsets (Fine Grain), as well an effective use of Fuzzy
produce the sound as well other outputs for analysis. Metrics, will be presented elsewhere.
A distintive point of our approach is its flexibility of
EXAMPLES AND ANALYSIS OF THE RESULTS macro manipulation by fuzzy matrices parameters. At
We have implemented a prototype of our model us- present time we can consider this control as a toy model.
ing Matlab in which Membership Matrices modulate a Nevertheless it has a great potential to include new as-
Transition Probability Matrix of a Markov Chain, but pects of the fuzzy approach. Also all effects are included
the internal content of the grains are not changed dur- in the algorithm and so no external device is needed.
ing the Process. Thus, our model can be thought of Our experiments with Fuzzkov 1.0 has shown that its
as a Coarse Grain Fuzzy Synthesis. We have used the audio output is comparable with the most recent granu-
MNS and Cauchy criteria, by using the Hausdorff Met- lar synthesizers and in adition, depending on the inputs
ric on the Grain Space, in order to halt the process. parameters it can provide surprisingly new sounds
Weakly convergent process have lead to rich varities of
timbre along sound streams. This is because the sys- ACKNOWLEDGMENTS
tem has time enough to explore the possibilities dur- This work was supported by CAPES (Coordenado-
ing the Markov Process. We have in adition included ria de Aperfeicoamento de Pessoal de Nvel Superior),
some special effects commonly used in granular syntehsis Brazil, under Project 0205-04-4 and FAEP (Fundaca o
such as modulation through time windows for the grains, de Apoio a` Pesquisa e ao Ensino), UNICAMP. AMJ is

IX CONVENC NACIONAL AES BRASIL, SAO


AO PAULO, SP, BRASIL, 11 - 13 DE ABRIL DE 2005 4

52
52
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS

Fig. 1: Diagram of FuzzKov 1.0

grateful to the School of Communications, Electronics [10] B. Truax, Real Time Granular Synthesis with a DSP
and Engineering of University of Plymouth for the hos- Computer, Computer Music Journal, Vol. 2, No. 2,
pitality during his sabbatical. pp. 14-26, (1988).
[11] L.A. Zadeh, Fuzzy Sets, Informat. Control, 8, 338-
REFERENCES 353, (1965).
[1] P. Diamond and P. Kloeden, Metrics of Fuzzy Sets:
Theory and Applications, World Scientific, (1994).
[2] A. Kandel, Fuzzy Techniques in Pattern Recogni-
tion, John Wiley Sons, (1982).
[3] D. Gabor, Acoustical Quanta and the Theory of
Hearing, Nature159 (4044), 591-594,(1947).
[4] E. R. Miranda, Generating Source Streams for Ex-
tralinguistic Utterances, Journal of the Audio Engi-
neering Society, 50(3):165-172, (2002).
[5] E. R. Miranda, Computer Sound Design: Synthesis
techniques and Programming, Oxford: Focal Press
(2002).
[6] C. Roads, Introduction to Granular Synthesis,
Comp. Mus. Jour. 12(2), 11-13 (1988.)
[7] C. Roads, Computer Music Tutorial, MIT Press,
Cambridge, MA (1996).
[8] C. Roads, Microsound, MIT Press, Cambridge,MA,
(2001).
[9] P. Thomson, Atoms and errors: towards a his-
tory and aesthetics of microsound, Organized Sound
9(2), 207-218, (2004).

IX CONVENC NACIONAL AES BRASIL, SAO


AO PAULO, SP, BRASIL, 11 - 13 DE ABRIL DE 2005 5

53
Reviso
Andr Lus Dalcastagn
Antonio Carlos Moreiro de Queiroz
Fbio Pacheco Freeland
Fernando Antnio Pinto Barqui
Fernando Santana Pacheco
Filipe Castello da Costa Beltro Diniz
Joarez Bastos Monteiro
Leandro Ferrari Thomaz
Leonardo Gomes Baltar
Miguel Arjona Ramrez
Monique Virrio Nicodem
PauloAntonio Andrade Esquef
Regis Rossi Alves Faria
Ronaldo de Freitas Zampolo
Rosalfonso Bortoni
Sergio Lima Netto
Sidnei Noceti Filho
Tadeu Nagashima Ferreira
Crditos
Coordenao Geral:

Joo Amrico (Presidente-AES Brasil)

Coordenao Tcnica:

Luiz Wagner Pereira Biscainho (UFRJ)

Comisso Tcnica:

Marcelo Knrich Zuffo - USP


Regis Rossi Alves Faria - USP
Rosalfonso Bortoni - Clever Tecnologia
Rui Seara - UFSC
Sergio Lima Netto - UFRJ
Sidnei Noceti Filho - UFSC

Você também pode gostar