Escolar Documentos
Profissional Documentos
Cultura Documentos
Dalcastagn, Andr L.
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.
Faria, Regis R. A.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.
Fornari, Jos
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.
Freitas, Luiz C. de
Amplificador Classe D de 1000W RMS com Realimentao.
Freitas, Luiz C. G. de
Amplificador Classe D de 1000W RMS com Realimentao.
Garcia, Pedro F. D.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.
Goldemberg, Ricardo.
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.
Guimares, Gustavo P.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.
Herrera, Christian G.
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na Rede.
Lastch, Vagner L.
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por concatenao
Temporal.
Lima, L. M.
Codificao Perceptiva de Sinais de Voz de Banda Larga.
Livero, Iracele
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.
Luz, Flvio B. da
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades Especiais.
Maia Jr., Adolfo
Granular Synthesis of Sound through Fuzzyfied Markov Chains.
Manzolli, Jnatas
Anlise da Sonoridade Pianstica atravs do Critrio de Adequao da Sntese
Evolutiva.
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.
Granular Synthesis of Sound through Fuzzyfied Markov Chains.
Miranda, Eduardo R.
Granular Synthesis of Sound through Fuzzyfied Markov Chains.
Nascimento, F. A. O.
Codificao Perceptiva de Sinais de Voz de Banda Larga.
Netto, Sergio L.
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por concatenao
Temporal.
Oliveira, Luiz C. de
Estudo Experimental da Sonoridade "Chalumeau" da Clarineta atravs de
Projeto Fatorial.
Thomaz, Leandro F.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.
Zuffo, Joo A.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.
Zuffo, Marcelo K.
Simulao de som 3D em um ambiente de realidade virtual imersiva utilizando
HRTF.
Trabalhos
Amplificador Classe D de 1000W RMS com Realimentao.
Fbio Vincenzi Romualdo da Silva; Luiz Carlos Gomes de Freitas; Normandes
Jos Moreira Jnior; Joo Batista Vieira Jnior e Luiz Carlos de Freitas.
_________________________________
ESTUDO EXPERIMENTAL DA SONORIDADE CHALUMEAU DA
CLARINETA ATRAVS DE PROJETO FATORIAL
1
OLIVEIRA ET AL. ESTUDO EXPERIMENTAL DA SONORIDADE DA CLARINETA
um reservatrio de 0,03 m3. O tanque pulmo de material ponderada e 90 dB A ponderada e limite de banda de 22
acrlico, com parede de 0,011 m de espessura, 0,300 m de a 22000 Hz.
comprimento por 0,170 m de largura e 0,178 m de altura. A clarineta um instrumento cilndrico com uma nica
O seu tampo possui ainda a caracterstica de ser deslizante. palheta em sua boquilha. o membro de uma famlia de 17
instrumentos similares os quais, essencialmente,
diferenciam basicamente em tamanho [12]. O representante
lder desta famlia a usual clarineta afinada em Si bemol1
e ser utilizada neste projeto. Veja figura 2.
A mordedura consiste de um parafuso que se desloca na
direo ortogonal clarineta e na sua base est fixada uma
pequena borracha que efetivamente faz o contato com a
palheta. A borracha ter sua rea varivel para efeito de
estudo. Veja figura 3.
3. PROCEDIMENTO EXPERIMENTAL
A seguir, ser descrito o procedimento utilizado para a
realizao dos experimentos.
Primeiro enche-se o compressor. As chaves da clarineta
so fechadas com pequenas borrachas que podem alterar a
Figura 1: Viso geral do aparato experimental
nota desejada. No tanque pulmo o contato com a palheta
mantido fechado, impossibilitando a passagem de ar
atravs da palheta.
Abre-se lentamente a vlvula de sada do compressor de
modo que os manmetros indiquem o aumento gradativo
da presso. Quando os manmetros indicarem a presso de
fundo de escala (9808 Pa) abre-se muito lentamente o
contato com a palheta de modo que uma pequena
quantidade de ar injetada no interior da clarineta. As
presses indicadas pelos manmetros comeam a diminuir
como conseqncia.
Deste momento em diante a clarineta est em estado de
emisso sonora. Uma vez emitido o som a gravao
acionada no momento que se percebe que sua intensidade
mxima e constante. A gravao efetuada por volta de
Figura 2: Detalhe do conjunto tanque pulmo, clarineta e trs minutos. Desta gravao apenas 15 segundos so
mordedura. selecionados para a anlise.
As presses na entrada da boquilha (interna) e externa
so anotadas. A vazo volumtrica de ar correspondente
tambm anotada.
Depois de uma bateria de testes, estabelecemos que as
variveis que poderiam estabelecer certa influncia na
sonoridade da clarineta foram: i) volume do tanque
pulmo; ii) dureza da palheta; iii) posio de contato da
mordedura na palheta; iv) ngulo de abertura da boquilha;
v) Tipo de mordedura (rea de contato com a palheta) vi)
quantidade de material absorvente sonoro (estopa) no
tanque pulmo.
Uma vez que o volume do tanque foi variado colocando-
se uma placa de isopor em seu interior para separar uma
regio de circulao de ar e outra isenta de circulao,
Figura 3: Detalhe da unidade de contato com a palheta: pensamos em colocar um material dentro da caixa para
mordedura. verificar se teria alguma influncia. Da a justificativa da
sexta varivel.
O tanque est conectado ao compressor, em uma das Nesta concepo experimental, a vazo volumtrica de
faces, por um tubo flexvel de 0,120 m de dimetro atravs ar e a presso na entrada da boquilha no so variveis
de um sistema de engate rpido, veja figura 2. independentes. Observamos tambm que a produo
A unidade de captao de dados consiste em um sonora existe apenas para uma faixa de valores de presso.
microfone colocado prximo clarineta e conectado a um Uma viso esquemtica do aparato experimental est
computador onde est instalado o software SOUND apresentada na figura 4.
FORGE 4.5. Para o estudo destas variveis utilizamos um mtodo
O microfone unidirecional dinmico (cardiide) e tem estatstico conhecido por Projeto Fatorial de
resposta de freqncia de 50 a 15000 Hz. A taxa de Experimentos. Ele possibilita determinar quais destas
amostragem utilizada foi de 44 kHz e a configurao variveis efetivamente tm influncia no estudo e ainda se
utilizada foi de 16 bits. A placa de som tem entradas existe interao entre elas. Esta metodologia utiliza
analgicas de 18 bits (-10 dBV, conexes RCA
desbalanceadas), relao sinal/rudo (A/D/A): 88 dB no 1
A clarineta afinada em Si bemol significa que suas notas soam
um tom abaixo daquelas descritas pelo piano.
pequenas perturbaes das variveis independentes e foram sorteados para determinar a ordem de execuo. A
reduzido nmero de experimentos alm de fornecer um tabela 2 resume o que foi mencionado anteriormente.
modelo linear nas variveis envolvidas.
FATORES -1 0 +1
1)Volume Vazio
do Tanque
60 65 70
Pulmo(%)
2)Dureza da 2 2,5 3
Palheta (No)
3)Posio da Interna Centro Externa
Mordedura na
Palheta
4)Boquilha A B C
5)rea de
Figura 4: Viso esquemtica do aparato experimental: 1) Entrada Contato com
3x10-5 1x10-4 1,4x10-4
de ar; 2) Compressor; 3) Vlvula; 4) Rotmetro; 5) Volume Vazio; 6) palheta (m2)
Manmetros; 7) Placa de isopor; 8) Material para absoro sonora 6)Quantidade de 0 0,015 0,030
(estopa); 9) Mordedura; 10) Palheta; 11) Clarineta
Estopa (kg)
Tabela 1: Nveis dos fatores envolvidos na experincia.
A figura 5 esclarecedora sobre a varivel
correspondente posio da mordedura na palheta. A ttulo de exemplo, a tabela 2 indica que o primeiro
ensaio realizado foi o ensaio no 5. Sendo seguido pelo
ensaio no 7, no 6 e assim sucessivamente. No ensaio no 5 o
fator 1 apresenta nvel 1, e consultando a tabela 1
sabemos que o volume vazio do tanque pulmo
corresponde a 60% do volume total. Para o fator 2 o nvel
tambm 1 e a tabela 1 indica que a palheta utilizada foi
de no 2. Analogamente, a posio da mordedura na palheta
a mais externa; a boquilha utilizada foi a C; a rea de
Figura 5: Posio da mordedura na palheta contato da mordedura com a palheta foi de 0,3 cm2 e no
foi utilizada estopa para absoro sonora.
Na anlise espectral feita atravs do SOUND FORGE
3.1 Projeto Fatorial de Experimentos 4.5 foram testados vrios janelamentos e o de
Preliminarmente, fator sinnimo de varivel. Neste Blackmann-Harris mostrou ser o mais apropriado. Em
projeto os fatores variam entre dois nveis (1 e +1), alm todas as anlises os dados foram normalizados em 3,0 dB.
de um ponto central (0). Grosseiramente, um projeto A tabela 3 apresenta os valores de presso e vazo
fatorial uma expanso por Taylor, no nosso caso linear, a utilizadas para os diversos ensaios.
partir do ponto central nos diversos fatores (variveis).
Como respostas, (Y), analisaremos as intensidades da nota ENSAIO FATORES Ordem
fundamental emitida (D3) e seus harmnicos. No 1 2 3 4 5 6 YG
A elaborao de um Projeto Fatorial de Experimentos 1 -1 -1 -1 +1 +1 +1 7
est minuciosamente detalhada em BOX [13]. Aqui 2 +1 -1 -1 -1 -1 +1 8
mencionamos apenas que foi utilizado um Projeto
Fatorial Fracionado com Resoluo III. Ser fracionado 3 -1 +1 -1 -1 +1 -1 11
significa que realizaremos parte (1/8) de um Projeto 4 +1 +1 -1 +1 -1 -1 4
Fatorial Completo, que no nosso caso para 6 fatores
5 -1 -1 +1 +1 -1 -1 1
variando em dois nveis seriam 26=64 experimentos. Ento,
realizaremos (1/8)*64=26-3=8 experimentos. A resoluo 6 +1 -1 +1 -1 +1 -1 3
indica que ao realizarmos parte do projeto completo nossa 7 -1 +1 +1 -1 -1 +1 2
perda de informao est em fundir o efeito de um fator
principal (I) com interaes entre dois fatores (II), I+II=III. 8 +1 +1 +1 +1 +1 +1 10
Na tabela 1 esto descritos os nveis dos fatores 9 0 0 0 0 0 0 5
utilizados neste experimento. A boquilha A tem a menor 10 0 0 0 0 0 0 9
abertura enquanto a C, a maior.
Neste projeto em particular, o padro de fuso 11 0 0 0 0 0 0 6
(confounding patterns) 4=12, 5=13 e 6=23. Isto significa Tabela 2: Nveis dos fatores envolvidos na experincia.
que o efeito do fator 4 ser confundido com a interao 12
(entre os fatores 1 e 2), o efeito do fator 5 ser confundido Na tabela 4 esto indicados, em dB, os valores das
com a interao 13 (entre os fatores 1 e 3), etc. intensidades da nota fundamental (D3) e de seus
Na regio grave da clarineta, tambm denominada harmnicos, indicados pela letra H e o respectivo ndice do
chalumeau, escolhemos a nota com a clarineta totalmente segundo ao dcimo segundo harmnico.
fechada, correspondendo nota D3. Esta nota refere-se do Na anlise espectral feita atravs do SOUND FORGE
piano, portanto para a clarineta corresponde nota E3. 4.5 foram testados vrios janelamentos e o de
No ponto central sero realizados mais trs experimentos Blackmann-Harris mostrou ser o mais adequado pois
que tero a finalidade de determinar o erro experimental. apresentou maior nitidez de visualizao dos picos dos
Teremos, ento, apenas 11 experimentos. Os experimentos
Srie de Fourier (D3) (D4) (A4) (D5) (F#5) (A5) (C6) (D6) (E6) (F#6) (G#6) (A6)
Freqncia 146 295 440 588 735 885 1031 1178 1325 1473 1620 1770
Experimental (Hz) 2 4 4 4 2 4 5 5 4 6 5 7
1 -2,3 0,8 -0,5 1,0 1,5 1,3 1,3 -3,3 2,0 3,0 5,0 4,3
INTERAO e desvio
2 2,8 -0,3 2,0 3,5 -2,0 3,8 -1,8 1,3 -3,5 -2,0 -4,5 1,3
3 0,3 3,3 -1,5 -0,5 -3,0 -3,8 -0,3 -0,8 -0,5 -3,5 -0,5 -4,3
FATORES,
padro
4 -1,8 -5,3 -0,5 -0,5 -3,5 -2,3 -2,3 3,3 -4,0 0,5 -1,0 0,8
5 -6,3 -12,8 -4,0 -6,5 5,5 -0,8 1,3 -2,8 2,0 5,0 -6,0 8,3
6 -0,3 -0,8 -0,5 -2,0 2,0 1,8 0,3 -0,3 3,5 1,0 2,5 1,3
16+25+34 2,3 0,3 2,0 2,0 3,5 -0,3 1,8 3,8 0 0,5 -6,0 -0,3
! 0,6 1,0 0,6 2,6 1,5 1,2 2,1 1,2 6,7 1,2 5,1 1,0
Tabela 5: Efeito das variveis e interao entre elas para a regio grave.
O volume da caixa (varivel 1) tem relativa Taylor. Ao passar do nvel 1 para +1 caminhamos duas
importncia na sonoridade da clarineta, como veremos unidades, assim basta dividir por 2 os valores da tabela 5.
adiante. Ao aumentarmos o volume da caixa de 60% para O termo independente da equao corresponde ao valor
70% de seu volume total o efeito verificado a queda da mdio dos oito experimentos do projeto,
intensidade da fundamental e do 8o harmnico em 2,3 dB desconsiderando o ponto central. Os fatores f1, f2, etc so
e 3,3 dB respectivamente. O aumento da intensidade aqui denotados pelas variveis independentes x1, x2, etc
notado para o 5o, 6o, 10o e 12o harmnicos, respectivamente.
respectivamente, em 1,5 dB, 1,3 dB, 3,0 dB e 4,3 dB. A
variao deste fator mostrou-se indiferente para o 2o, 3o, Modelo para D3:
4o, 7o, 9o e 11o harmnicos. Y D3 $ "23,4 " 1,65x1 # 1,40x 2 # 0,15x3 "
O efeito da variao da posio da mordedura na
palheta (varivel 3), que corresponde posio do lbio 0,90x 4 " 3,15x5 " 0,15x6
inferior na palheta mais para dentro ou mais para fora, (1)
no foi observado para a intensidade da fundamental nem
para as intensidades do 4o, 7o, 8o, 9o e 11o harmnicos. Modelo para D4:
No entanto, quando passamos a mordedura de uma
posio mais interna para uma mais externa na palheta
observou-se um aumento da intensidade do 2o harmnico Y D 4 $ "59,6 # 0,40x1 " 0,15x 2 # 1,65x3 "
em 3,3 dB e um decrscimo da intensidade do 3o, 5o, 6o, 2,65x 4 " 6,40x5 " 0,40x6
10o e 12o harmnicos, respectivamente, em 1,5 dB, 3,0
(2)
dB, 3,8 dB, 3,5 dB e 4,3 dB.
Outra varivel de relativo destaque abertura da
Modelo para A4:
boquilha (varivel 4). Quando passamos de uma
boquilha mais fechada (A) para uma mais aberta (C)
observamos a diminuio da intensidade da fundamental Y A 4 $ "24,5 " 0,25x1 # 1,00x 2 " 0,75x3 "
e do 2o, 5o, 6o e 7o harmnicos em 1,8 dB, 5,3 dB, 3,5
0,25x 4 " 2,00x5 " 0,25x6
dB, 2,3 dB e 2,3 dB, respectivamente. Efeito contrrio
foi constatado para o 8o harmnico aumentando-o em 3,3 (3)
dB. Nenhum efeito desta varivel foi observado para o
3o, 4o e do 9o ao 12o harmnicos. Modelo para D5:
Aps a anlise das variveis resta mencionar o efeito
da interao entre elas. Esta interao, na realidade, a Y D5 $ "47,5 # 0,50x1 # 1,75x 2 " 0,25x3 "
soma do efeito das interaes 16+25+34, isto ,
corresponde soma do efeito das interaes entre as 0,25x 4 " 3,25x5 " 1,00x6
variveis 1 e 6, 2 e 5 e finalmente 3 e 4. Sendo a soma de (4)
trs interaes, em qualquer experimento desta regio,
dividindo os valores por 3, estes sero sempre menores 5. CONCLUSO
que o desvio padro. Este resultado adequado, pois no Neste estudo inicial avaliamos a influncia de algumas
se espera uma interao muito grande entre as variveis. variveis sobre a sonoridade chalumeau da clarineta.
O projeto fatorial assim elaborado permite obter um Observamos que a rea de contato com a palheta mostrou
modelo linear nas variveis envolvidas na regio de ser a varivel de maior influncia. No entanto, neste
estudo. Aqui sero apresentados apenas os modelos para experimento a variao da rea de contato (mais de
a fundamental (com o sobrescrito D3), ver equao (1), 450%) muito grande com relao s demais variveis.
para o segundo harmnico (com o sobrescrito D4), ver Como conseqncia, a magnitude de seu efeito bastante
equao (2), terceiro (A4), equao (3) e quarto superior. Por isso no devemos descartar a influncia das
harmnicos (D5), equao (4). Porm o procedimento outras variveis. Vale mencionar que o material para
segue-se analogamente para os demais harmnicos. absoro sonora no teve muita relevncia na sonoridade.
O modelo linear obtido a partir dos efeitos das Notamos que as variveis agem de modo homogneo
variveis sobre a respectiva nota, pois estes so ao longo dos harmnicos. Observamos tambm a grande
proporcionais aos coeficientes lineares da srie de
aproximao dos valores obtidos experimentalmente para [10] BENADE, A.H. e GANS, D.J. (1968). Sound
as freqncias com a srie de Fourier. Production in wind instruments. Ann. N.Y. Acad.
Nesta regio o 2o e o 4o harmnicos tm intensidade Sci. 155, 247-263.
bastante baixas, porm, para os harmnicos superiores, [11] BENADE, A.H. (1966). Relation of air-column
tanto os pares como os mpares possuem intensidades da resonances to sound spectra produced by wind
mesma ordem de grandeza, aproximadamente. instruments. J. Acoust. Soc. Am. 40, 247-249.
Assim, na regio grave, o 2o e o 4o harmnicos tm [12] NEDERVEEN, C.J. (1998). Acoustical Aspects of
intensidades bastante reduzidas quando aumentamos a Woodwind Instruments. Northern Illinois University
rea de contato com a palheta. Press, DeKalb, Illinois.
O aumento do volume vazio, de 60% para 70% do [13] BOX, G.E.P.; HUNTER, W.G.; HUNTER, J.S.
volume total provoca uma diminuio da intensidade da (1978). Statistics for Experimenters An
fundamental e de seu 8o harmnico, ver tabela 5. Porm Introduction to Design, Data Analysis and Model
ele provoca o aumento da intensidade do 5o e 10o e do 6o Building. John Wiley & Sons, NY.
e 12o harmnicos. Os valores envolvidos apresentam [14] HALL, D.E. (1990). Musical Acoustics. Pacific
magnitudes relativamente altas para a pequena variao Grove,CA: Brooks/Cole Publishing
de apenas 10% do volume total. Montery:Brooks/Coole.
Quando passamos a mordedura de uma posio mais [15] FLETCHER, N.H.; ROSSING, T.D. (1998). The
interna para uma mais externa notamos a tendncia em Physics of Musical Instrument. Springer-Verlag, 2nd
enriquecer o 2o harmnico e empobrecer o 4o. No entanto ed., NY.
consultando a tabela 5 notamos que os harmnicos
superiores tambm so empobrecidos quando a posio
da mordedura mais externa.
O aumento da abertura da boquilha provoca um
enfraquecimento de praticamente quase todos os
harmnicos, porm notamos que esta queda de
intensidade mais notabilizada na fundamental, 2o e do
5o ao 8o harmnicos.
Certamente uma nova seqncia de experimentos deve
ser elaborada. Porm nesta nova etapa devemos diminuir
a variao da rea de contato e aumentarmos a variao
do volume do tanque pulmo, alm de eliminar o uso de
material para absoro sonora. Este novo conjunto de
experimentos poder ser efetuado em uma outra regio
que poder ser encontrada atravs do steepest ascent na
direo de otimizao de algum dos harmnicos.
6. REFERNCIAS BIBLIOGRFICAS
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Anlise da Sonoridade Pianstica Atravs do Critrio de Adequao
da Sntese Evolutiva
RESUMO
Apresentamos nesse trabalho um mtodo de anlise de sonoridade pianstica com base no critrio de adequao
da sntese evolutiva [6]. O estudo foi feito atravs da gravao de 12 pianistas interpretando, no mesmo piano, 4
obras que representam respectivamente 4 critrios escolhidos de sonoridade, a saber: intensidade, legato,
staccato e pulsao rtmica. O critrio de adequao baseado na distncia euclidiana das curvas psicoacsticas
dos segmentos sonoros gravados. Espera-se desse modo investigar uma possvel utilizao prtica desse trabalho
para a avaliao automtica e impessoal da qualidade da sonoridade na interpretao pianstica.
7
MANZOLLI ET AL. ANLISE DA SONORIDADE PIANISTICA PELA SNTESE EVOLUTIVA
intensidade. Muitos cientistas, ao analisarem o mecanismo do torna inconsistente querer apresentar sempre interpretaes
instrumento acreditavam que a nica variao possvel idnticas ao pblico ouvinte.
corresponderia necessariamente a uma variao da Neste trabalho para anlise de sonoridade pianstica
intensidade desse som [1]. baseado no critrio de adequao da sntese evolutiva, foram
No entanto, minuciosos experimentos comprovaram que considerados os seguintes parmetros para a anlise de uma
duas notas emitidas com a mesma intensidade e com toques interpretao: pulsao rtmica, legato, staccato, e variao
diferenciados por exemplo, percussivos ou no-percussivos da intensidade. Apesar de no serem os nicos, podem ser
possuem uma diferena na composio dos harmnicos que critrios bsicos.
constituem o timbre daquele som [2]. Duas escolhas diferentes se colocam para ns na questo do
A sonoridade consiste, portanto, na qualidade do timbre dos tempo: a deciso da pulsao como base de um movimento e
sons produzidos pelo pianista, que a partir do seu a deciso da maneira de conduzi-lo. Por tempo entende-se
conhecimento, domnio tcnico e ouvido musical ser capaz o conjunto de regras que regulam o movimento ordenado dos
de obter os melhores resultados. Timbre formalmente sons e exige a presena de um valor mensurvel, uma mtrica
definido pela ASA (American Standart Association) como constante. O ritmo o elemento fundamental do tempo e
aquele atributo do sentido auditivo em termos do qual o desempenha um papel em muitos outros aspectos da msica,
ouvinte pode julgar que dois sons apresentados como sendo um importante elemento na melodia, afeta a progresso
similares, com a mesma intensidade e altura, no so da harmonia e desempenha papis em questes como textura
similares.. Sabe-se que qualquer variao de intensidade ou musical, timbre e ornamentaes. A pulsao musical pode
de freqncia corresponda a uma variao do timbre. Uma ser identificada quando os sons so apoiados em intervalos
determinada nota tocada mezzoforte ter um timbre diferente regulares de tempo. Ciclos repetidos de pulsos regulares
quando tocada forte, independente do aumento da sua estabelecem uma mtrica.
intensidade [3]. Outra maneira de qualificar uma interpretao alm dos
Constitui tarefa complexa conseguir amplo domnio sobre critrios j mencionados a maneira como o pianista
os movimentos gesticulares necessrios boa execuo do descreve o seu discurso musical, especificamente falando de
piano, ainda mais tendo que possuir os conhecimentos fraseados e suas articulaes. Frasear quer dizer
adequados compreenso de uma obra musical, e assim pronunciar. O pianista projeta um texto para o pblico
desenvolv-los e vivenci-los de acordo com a interpretao comparvel a um ator em cena, ou leitura de uma poesia.
musical desejada. A interpretao musical no dispensa A articulao diz respeito ao modo propriamente dito, a
estudos intelectuais refinados, como as caractersticas dos qualidade do toque e suas transformaes ao longo do tempo.
diferentes estilos de cada compositor, maneiras de se fazer Nesse contexto, o toque legato se define como uma execuo
um fraseado, ornamentaes e estilo da poca da composio. de sons sem interrupo perceptvel e sem nfase especial.
Para isto, as verses finais devem ser enviadas em arquivos Verifica-se melhor na voz humana ou em instrumentos que
postscript (*.ps) ou em PDF (*.pdf), segundo este formato. permitem manter um som sem o seu respectivo decrscimo.
Itens principais (veja acima) so em letras maisculas, evidente que no piano, onde cada som se apresenta
fonte Helvetica, tamanho 8, estilo negrito, alinhado invariavelmente com intensidade decrescente, uma perfeita
esquerda. O texto, propriamente dito, em fonte Times conexo entre as notas no acusticamente possvel. Porm,
Roman, tamanho 9 e justificado (como este). execut-las com toques percussivos, mesmo prolongando
cada som at o incio do prximo, diminuir a sensao de
A Arte da Interpretao legato. Pode-se dizer que a qualidade do timbrstica do som
O grande momento de mudana para a interpretao gerado pelo pianista influencia na sensao do legato.
moderna ao piano se deu nos anos vinte. Em reao aos Em oposio a este, o toque staccato se define
excessos um tanto arbitrrios da gerao anterior, os pianistas exclusivamente pela durao do som, independente de que
proclamaram a necessidade da fidelidade ao texto musical, intensidade ou tipo de toque esse som seja emitido. Porm,
demonstrando uma grande personalizao da interpretao no se justifica associar o staccato a um som de m qualidade
pianstica [4]. tmbrica proveniente de um toque percussivo.
A carreira de pianista hoje est muito mais rpida e perfeitamente possvel execut-lo com qualidade tmbrica
internacionalizada e o repertrio cada vez mais amplo. Isso usando os mecanismos tcnicos necessrios para isso.
faz com que se aumentem as exigncias tcnicas para o A amplitude do som se refere dinmica. Encontra-se em
pianista que, em tempos passados, podia ter um repertrio compositores como Beethoven, oposies combinadas de
mais restrito e especializado. Como se pode ento qualificar registro e de dinmica, por exemplo nota aguda em
um pianista? Existem certamente as regras estticas tais pianssimo (ppp) com uma nota grave marcada fortssimo (fff)
como: ritmo, estilo e forma, a poca em que o compositor [18]. Sabendo como os agudos da poca eram transparentes,
viveu, caractersticas do instrumento, entre outros, que o deve-se evidentemente reforar esse efeito para dar um
pianista deve conhecer e sentir, a fim de que possa alcanar melhor entendimento no piano atual.
uma melhor interpretao. Torna-se essencial, portanto, legtima a possibilidade de graduar do mais docemente
dominar todas as caractersticas tcnicas de uma composio, possvel ao mais forte possvel, ou seja do ppp ao fff. Esta
ao lado de um perfeito domnio tcnico, o que constitui a variao de intensidade pode s vezes vir ligada ao tempo,
base necessria para uma boa interpretao. quando se verificar um acelerando ligado ao crescendo, ou
Interpretar, portanto, quer dizer submeter-se a uma ritardando ao decrescendo. Cabe ao intrprete tomar a
experincia de auto-anlise. Estudar o repertrio, encontrar deciso mais coerente. Isto leva a essencial noo de cor.
seus limites, identific-los e tentar outros meios de contorn- Um outro ponto importante na interpretao o emprego
los. O mundo da interpretao no ento determinstico e se correto do pedal do instrumento e seus efeitos sobre o legato,
o staccato entre outros [18]. O pedal, a princpio, a A evoluo da populao feita por dois processos: a
amplificao da ressonncia pela sustentao do som, reproduo e a seleo. Em cada gerao a reproduo gera
portanto deve ser usado com parcimnia. Todas as novos indivduos e a seleo escolhe o melhor indivduo da
graduaes so possveis com um emprego bem controlado populao, ou seja, o mais adaptado aos critrios dados pelo
do pedal, e seu efeito est diretamente relacionado questo conjunto alvo. chamado de gentipo do indivduo o
de estilo. conjunto de caractersticas psicoacsticas que o caracterizam
Como se pode observar, o estudo da sonoridade pianstica percentualmente. Consideramos como gentipo trs curvas
se baseia em conceitos estticos que, como tais, so psicoacsticas: a curva de loudness (percepo da intensidade
fortemente influenciados pelo gosto pessoal do ouvinte. sonora), pitch (percepo da freqncia do harmnico
Nesse sentido, a avaliao da sonoridade de um pianista fica fundamental do som) e espectro (a composio harmnica do
sempre atrelada ao critrio pessoal de cada membro de uma segmento sonoro). Os processos de reproduo e seleo
banca julgadora. Por outro lado, no possvel criar agem sobre o gentipo de cada indivduo.
algoritmos determinsticos que sejam adequados para a No processo de reproduo agem dois operadores
avaliao da sonoridade de uma performance pianstica uma genticos: crossover e mutao. O crossover permuta
vez que este problema pertence a categoria dos problemas caractersticas sonoras dos indivduos em reproduo (os
no-determinstica, ou seja, problemas que no apresentam progenitores). A mutao insere modificaes aleatrias
uma soluo determinada, ou fixa. Nesse sentido a utilizao nessas caractersticas, aumentando assim a diversidade da
de algoritmos evolutivos para a soluo desse problema populao. Chamamos assim de gentipo do indivduo o
parece ser bastante pertinente. Em nosso trabalho utilizamos conjunto de caractersticas perceptuais sonoras que o
o processo de seleo da sntese evolutiva [5] como critrio compem, ou seja, suas grandezas psicoacsticas. O processo
de adequao para a busca da gravao digital com melhor de evoluo atua sobre os gentipos dos indivduos.
sonoridade, baseada num conjunto de gravaes previamente No processo de seleo, cada indivduo pertencente
selecionadas como possuindo diferentes aspectos de uma populao comparado com um conjunto de indivduos
tima sonoridade. chamado alvo, atravs de uma funo de adequao (fitness),
que mede a distncia entre o gentipo do indivduo e todos os
gentipos do conjunto alvo. A medida de distncia utilizada
A SNTESE EVOLUTIVA neste trabalho a distncia euclidiana das curvas
O mtodo ESSynth utiliza conceitos da computao psicoacsticas que compem o gentipo de cada indivduo.
evolutiva para a gerao de segmentos sonoros cujo O resultado sonoro deste mtodo de sntese o segmento
comportamento snico tem caractersticas dinmicas (i.e. sonoro escolhido pelo processo de seleo como melhor
entre outros parmetros, o comportamento psicoacstico da indivduo (indivduo na populao com menor distncia ao
intensidade, altura e espectro se modificam ao longo do conjunto alvo). A cada gerao da populao o processo de
tempo). O ESSynth gera seqncias sonoras que, como nos seleo busca pelo melhor indivduo da populao. Ao longo
processos biolgicos, tem o potencial de evoluir ao longo do das geraes tem-se uma sucesso de melhores indivduos
tempo, segundo conceitos inspirados na teoria da evoluo de que, como segmentos sonoros, tende a convergir para um
Darwin. Mais especificamente, toma-se emprestado o nico segmento sonoro, isso considerando que o conjunto
conceito de seleo biolgica das espcies onde os segmentos alvo permanea inalterado.
sonoros so representados como indivduos de uma
populao sobre a qual agem dois processos evolutivos:
Seleo e Reproduo. A Reproduo feita por algoritmos AS CURVAS PSICOACSTICAS DOS SEGMENTOS
genticos (GAs) e a Seleo feita por uma funo de SONOROS
adequao (funo de fitness) utilizando-se a medida de A medida da sonoridade pianstica foi aqui realizada a
distncia denominada distncia de Hausdorff que avalia o partir da gravao digital de 12 pianistas, cada qual tocando 4
contedo perceptual dos segmentos sonoros gerados. peas musicais que expressam qualidades distintas da
O mtodo completo da ESSynth pode ser visto em [5]. O sonoridade pianstica. Estas so: legato (tocar as notas o mais
trabalho apresentado aqui projeto prope o desenvolvimento ligadas possvel), staccato (tocar as notas o mais destacadas
de um aplicativo que dever ser capaz de processar o mtodo possvel), pulsao (tocar as notas o mais ritmado possvel) e
ESSynth em tempo real e controlar os parmetros da sntese intensidade (explorar as variaes de intensidade sonora entre
dinamicamente. A implementao em software da sntese as notas). Para isso utilizou-se o mtodo de extrao do
evolutiva ser tambm chamada de ESSynth (Evolutionary gentipo sonoro [6], para se obter as 3 curvas psicoacsticas
Sound Synthesizer) e vir a ser, ao que sabemos, um dos que compem o gentipo sonoro de cada gravao digital. O
primeiros sintetizadores em software desenvolvidos com conjunto das gravaes dos 12 pianistas o nosso conjunto
tecnologia evolutiva. Populao, onde cada gravao digital chamada de
Na sntese evolutiva os indivduos so amostras discretas individuo.
(digitais) de segmentos sonoros com uma dada taxa de Foi feita a anlise da sonoridade pianstica de cada
amostragem e resoluo. O conjunto de todos os indivduos indivduo atravs da medida de distncias entre seus
compe a populao, onde ocorre a evoluo. O curso da gentipos, e os gentipos de um conjunto de segmentos
evoluo da populao condicionado atravs de uma sonoros da gravao de 3 pianistas que, dentro da populao
distncia propriamente definida pelas caractersticas consideramos como apresentando a melhor sonoridade, que
perceptuais sonoras dos indivduos de outro conjunto, o corresponde a nosso conjunto Alvo. Os grficos a seguir
conjunto alvo. A evoluo da populao ocorre em estgios, mostram a distncia entre os gentipos de cada indivduo em
cada qual sendo chamado de gerao. relao ao conjunto Alvo. Note que os indivduos que
RESULTADOS:
Pulsao Legato Staccato Intensidade
Conj. Conj.Alvo: Conj. Alvo: Conj.
Alvo:1,4,11 1,4,12 1,4,11 Alvo:1,11,12
Figura 2: Anlise da distncia do critrio LEGATO. Dl=distncia de Dl = 5 Dl: = 2 Dl = 9 Dl = 2
loudness, Dp=Distncia de pitch, De=distncia de espectro, Dp =10 Dp = 2 Dp = 2 De = 2
Dt=mdia das trs distncias anteriores. De = 5 De = 7 De = 5 De = 8
D= 5 D= 2 D= 2 D= 8
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Sistema MIDI para Auxlio de Msicos Portadores de Necessidades
Especiais
Flvio Bressan da Luz1, Sidnei Noceti Filho2, Andr Lus Dalcastagn2
1 Brasil Telecom S.A.
SIA/SUL ASP, Lote D, Bloco A, Trreo
71215-000, Braslia, DF, Brasil
flavio@bressan.eng.br
2 LINSE - Laboratrio de Circuitos e Processamento de Sinais
Departamento de Engenharia Eltrica, UFSC
Telefone: (48) 331-9504, Fax: (48) 331-9091
88040-900, Florianpolis, SC, Brasil
sidnei@linse.ufsc.br andre@linse.ufsc.br
RESUMO
Este trabalho apresenta um sistema que, acoplado a um teclado ou mdulo com entrada MIDI, permite que uma pessoa
portadora de algum tipo de deficincia fsica na mo esquerda possa executar uma quantidade razovel de acordes completos.
O sistema formado por um miniteclado com doze teclas (tnicas) e por uma pedaleira composta por quinze chaves,
responsveis pela seleo do tipo de acorde desejado.
13
12
12
BRESSAN DA LUZ ET AL. SIST. MIDI PARA AUX. DE MSICOS PORT. DE NEC. ESP.
ento processadas e o cdigo resultante enviado atravs do Neste trabalho, somente as instrues MIDI NOTE ON e
protocolo MIDI para um teclado convencional. NOTE OFF so utilizadas. Elas apresentam as seguintes
Com as devidas alteraes na disposio das chaves, estruturas:
possvel suprir as necessidades de outros tipos de deficincia
fsica. Por exemplo, ao invs de um sistema com um NOTE ON: 1001cccc 0nnnnnnn 0vvvvvvv , (2)
miniteclado e uma pedaleira, pode-se pensar em utilizar duas
pedaleiras. Alm disso, o princpio exposto neste trabalho NOTE OFF: 1000cccc 0nnnnnnn 0vvvvvvv , (3)
pode ser aplicado a outros tipos de instrumentos musicais que
onde cccc o cdigo binrio que identifica o canal que deve
possuam entrada MIDI, tais como baterias eletrnicas, ser utilizado para a transmisso dos dados; nnnnnnn o
expanders e samplers.
cdigo binrio da nota a ser executada ou desligada; vvvvvvv
o cdigo binrio do volume dessa nota, relativo
O PROTOCOLO MIDI velocidade com que a tecla acionada. Neste trabalho, cccc
Os primeiros sintetizadores comerciais analgicos surgiram mantido em 0000, o que indica que o canal MIDI utilizado
no final da dcada de 1960. Originalmente, esses sistemas o 1 e vvvvvvv mantido em 1000000 (64 em decimal), que
eram monofnicos, ou seja, eram capazes de tocar apenas indica a velocidade mdia de acionamento de uma tecla.
uma nota por vez. Alm disso, a programao dos De acordo com as Equaes (2) e (3), necessrio o envio
sintetizadores era realizada atravs de cabos que interligavam de trs bytes para ligar ou desligar uma nota. Neste trabalho,
diferentes circuitos eletrnicos, tais como osciladores, filtros os acordes disponveis possuem quatro notas, o que implica
e geradores de envoltria. Com a evoluo da tecnologia, os na transmisso de doze bytes para cada instruo. Entretanto,
sintetizadores analgicos foram recebendo novos recursos, pode-se utilizar o recurso MIDI running status [1], que
como, por exemplo, a capacidade de tocar vrias notas permite diminuir o nmero de bytes que devem ser
simultaneamente e a de memorizar diferentes conexes entre transmitidos caso seja necessrio enviar vrias instrues
os cabos. O passo seguinte na evoluo desses equipamentos iguais mas com dados diferentes. Assim, o nmero de bytes
foi a interligao de diferentes tipos de instrumentos transmitidos para ligar ou desligar uma nota reduzido de
musicais. Sintetizadores de diversos fabricantes passaram a doze para nove.
se comunicar, com o propsito de criar estruturas sonoras
complexas. HARWARE
Com o advento dos processadores digitais, surgiram os A Fig. 1 apresenta o diagrama de blocos simplificado do
instrumentos musicais digitais, tais como sintetizadores e sistema desenvolvido. O sistema composto por um
samplers. Tal fato trouxe consigo a necessidade de miniteclado e por uma pedaleira, cada um ligado em um
comunicao entre instrumentos digitais de diferentes circuito codificador prprio, e por uma CPU, constituda
fabricantes. Para atender a esse requisito, alguns dos mais basicamente por um microcontrolador, por uma memria e
importantes fabricantes mundiais de instrumentos musicais pela sada MIDI OUT [1].
eletrnicos (Sequential Circuits, Oberheim, Roland, Yamaha, Miniteclado Codificador
Korg e Kawai) criaram no incio da dcada de 1980 o Mem.
(tnicas) (miniteclado)
protocolo de comunicao MIDI. Atualmente, esse protocolo Micro-
est presente em praticamente todos os instrumentos e controlador
Pedaleira Codificador MIDI
equipamentos eletrnicos profissionais e semiprofissionais
(acordes) (pedaleira) OUT
dedicados msica, tais como baterias eletrnicas,
seqenciadores, samplers, sintetizadores, mesas de gravao Via de dados paralela CPU
e computadores. Via de dados serial
O protocolo MIDI utiliza uma transmisso serial de dados,
do tipo assncrona, com frame de dez bits (um start bit Fig. 1: Digrama de blocos do sistema proposto.
+ oito bits + um stop bit) e taxa de transmisso de
31250 bits/s. Essa transmisso pode ser feita em at dezesseis A funo do miniteclado permitir ao usurio executar a
canais simultaneamente. Existem instrues MIDI destinadas tnica de um acorde. Para isso, ele possui doze teclas (doze
execuo, sincronizao e programao de instrumentos tnicas correspondentes escala cromtica do piano) ligadas
musicais. Uma mensagem MIDI composta por um status em chaves normalmente abertas. Essas chaves so ligadas no
byte e por um ou mais data bytes. O status byte identifica o circuito codificador do miniteclado, que gera a palavra
tipo de instruo que est sendo enviada e caracterizado por binria de quatro bits ABCD, como mostra a Fig. 2.
possuir o bit mais significativo igual a 1. O data byte Os acordes so executados atravs da pedaleira, que possui
fornece o dado necessrio a essa instruo e caracterizado quinze chaves normalmente abertas (quinze acordes). As
por possuir o bit mais significativo igual a 0. A equao chaves da pedaleira tambm so ligadas em um circuito
abaixo apresenta a tpica estrutura de uma mensagem MIDI: codificador, responsvel por gerar a palavra binria de quatro
bits EFGH que identifica a chave que foi acionada pelo
1xxxcccc 0ddddddd 0ddddddd 0ddddddd ! . (1) msico (Fig. 3). A nica diferena entre esses dois
codificadores que o da pedaleira gera dezesseis cdigos
onde 1xxxcccc o status byte; xxx o cdigo binrio que binrios (0000 corresponde a nenhum acorde selecionado), ao
identifica a instruo; cccc o cdigo binrio que identifica o passo que o do miniteclado gera apenas treze (0000
canal pelo qual essa instruo deve ser transmitida. O termo corresponde a nenhuma tnica selecionada).
0ddddddd representa o data byte, onde ddddddd o dado a A Fig. 4 apresenta o circuito lgico combinacional do
ser transmitido. codificador da pedaleira, que composto por quatro portas
lgicas tipo OU de oito entradas e uma sada. A estrutura do (CI 74LS373); por um estgio de eliminao de rudo dos
codificador do miniteclado (Fig. 2) idntica do sinais oriundos das chaves do miniteclado e da pedaleira,
codificador da pedaleira, a no ser pelo fato de possuir apenas composto por oito filtros passa-baixa de primeira ordem
doze entradas. Neste trabalho, esses dois circuitos foram (componentes R1 e C1); pelo estgio de sada (MIDI OUT),
implementados com o circuito integrado (CI) 4078. que segue o padro MIDI [1].
O microcontrolador utilizado neste projeto o INTEL
VCC 8031AH, da famlia Intel MCS 51 [2]. Por simplicidade, esse
S1 microcontrolador ser chamado apenas de 8031 deste ponto
1
em diante. A escolha dentre os microcontroladores que
S2 A atingiam a taxa de transmisso requerida para o projeto recaiu
2 sobre o 8031 devido disponibilidade do CI e do seu
B respectivo sistema de desenvolvimento. O 8031 possui 32
Codificador
S11 do miniteclado C linhas de entrada/sada, memria RAM de 128 bytes,
11 transmissor/receptor serial sncrono/assncrono (UART), dois
D temporizadores/contadores de dezesseis bits, cinco fontes de
S12
12 interrupo com dois nveis de prioridade e um oscilador de
clock interno. Como o 8031 no possui memria interna do
tipo ROM, necessrio utilizar uma memria externa para
Fig. 2: Codificador do miniteclado. armazenar o programa do sistema. Neste trabalho, optou-se
por utilizar uma memria do tipo EPROM. Outros
VCC microcontroladores, eventualmente com menor custo, podem
S1 ser usados, especialmente aqueles que no necessitam utilizar
1
externamente um conjunto memria + latch.
S2 E
2 ACORDES ESCOLHIDOS
F Por limitaes prticas, necessrio limitar o nmero de
Codificador
S14 acordes disponveis no sistema apresentado. Como a porta 1
da pedaleira G
14 do 8031 (P1) possui oito bits e a palavra binria ABCD do
H codificador do miniteclado de quatro bits, fica determinado
S15 que a palavra binria do codificador da pedaleira deve ser de
15
quatro bits (EFGH). Com quatro bits, pode-se implementar
dezesseis cdigos binrios EFGH diferentes. O valor 0000
Fig. 3: Codificador da pedaleira. utilizado para indicar que nenhum acorde foi selecionado
(nenhuma chave da Fig. 3 ou 4). Com isso, o nmero de
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 acordes disponveis no sistema foi limitado em quinze. Esses
VCC quinze acordes foram escolhidos com base na experincia
prtica. O critrio utilizado foi disponibilizar os quinze
acordes considerados como os mais utilizados em msica
popular. A Tabela 1 apresenta os acordes implementados
relativos tnica d.
E
Teclas correspondentes
Acorde Notas
tnica d (Fig. 6)
F 1C C2, E2, G2, C3 1, 5, 8, 13
2 Cm C2, Eb2, G2, C3 1, 4, 8, 13
3 - C5+ C2, E2, Ab2, C3 1, 5, 9, 13
G 4 - Cm5-/7 C2, Eb2,Gb2,Bb2 1, 4, 7, 11
5 - C6 C2, E2, G2, A2 1, 5, 8, 10
6 - Cm6 C2, Eb2, G2, A2 1, 4, 8, 10
H 7 - C7 C2, E2, G2, Bb2 1, 5, 8, 11
8 - Cm7 C2, Eb2, G2, Bb2 1, 4, 8, 11
9 - C7+ C2, E2, G2, B2 1, 5, 8, 12
2, 2 k!
10 - Cm7+ C2, Eb2, G2, B2 1, 4, 8, 12
11 - Co C2, Eb2, Gb2, A2 1, 4, 7, 10
12 - C5+/7 C2, Bb2, E3, Ab3 1, 11, 17, 21
Fig. 4: Circuito lgico combinacional do codificador da
pedaleira. 13 - C6/7 C2, Bb2, E3, A3 1, 11, 17, 22
14 - C7/9 C2, Bb2, Db3, E3 1, 11, 14, 17
A Fig. 5 apresenta o diagrama esquemtico da CPU. Ela 15 - C7/9/11 C2, Bb2, D3, F3 1, 11, 15, 18
formada basicamente por um microcontrolador (CI 8031AH);
por uma memria do tipo EPROM (CI 2716); por um latch Tabela 1: Acordes relativos tnica d.
74LS373 2716
31 P0.0 39 3 D0 Q0 2 8 9
EA/VPP A0 D0
27 pF P0.1 38 4 D1 Q1 5 7 10
A1 D1
19 XTAL1 P0.2 37 7 Q2 6 6 11
D2 A2 D2
P0.3 36 8 D3 Q3 9 5 13
X1 A3 D3
18 XTAL2 P0.4 35 13 D4 Q4 12 4 14
A4 D4
P0.5 34 14 D5 Q5 15 3 15
A5 D5
27 pF 9 33 17 16 2 16
RST P0.6 D6 Q6 A6 D6
P0.7 32 18 D7 Q7 19 1 17
A7 D7
Pushbutton 12 23 A8
INT0 21
13 P2.0 1 22 A9
INT1 22 OE
14 T0 P2.1 11 LE 19 A10
15 P2.2 23
T1 24
P2.3 18
CE
8031AH P2.4 25 20
26 OE
1 P2.5 21 VPP
P1.0 27
2 P1.1 P2.6
28 VCC
3 P1.2 P2.7 VCC
4 P1.3
5 P1.4 74LS08
6 17 1 220 !
P1.5 RD
7 16 3
P1.6 WR 2
MIDI
8 29
P1.7 PSEN OUT
30
ALE/P
11 220 !
TXD 1 2 3 4
RXD 10
74LS04 74LS04
C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1 C1 R1
A B C D E F G H
R1 $ 47 k! e C1 $ 10 nF
X 1 $ cristal 12 MHz
2 4 7 9 11 14 16 19 21 FUNCIONAMENTO
Enquanto o usurio no aciona uma chave do miniteclado
1 3 5 6 8 10 12 13 15 17 18 2 0 22 ou da pedaleira, todos os bits da P1 so iguais a zero e o
C2 D2 E2 F2 G2 A2 B2 C3 D3 E3 F3 G3 A3 microcontrolador permanece em estado de espera. O
acionamento de uma chave do miniteclado faz com que a
Fig. 6: Representao de uma parte de um teclado acionada
parte menos significativa da P1 (ABCD) se torne diferente de
pelo sistema proposto.
zero. O acionamento de uma chave da pedaleira faz com que
Cada nota da Tabela 1 possui o seu respectivo cdigo a parte mais significativa da P1 (EFGH) se torne diferente de
MIDI. A Tabela A1 do Apndice A apresenta os cdigos zero. A verificao dos valores de ABCD e EFGH feita
MIDI (em decimal) das notas da regio acionada do teclado atravs de uma varredura constante da P1. Os cdigos
da Fig. 6. Atravs da segunda coluna da Tabela 1, pode-se binrios ABCD e EFGH expressos na base decimal sero
representados daqui em diante por T (tnica) e P (pedaleira), pedaleira podem ocorrer. Por exemplo, o usurio pode apertar
respectivamente. A combinao de T e P identifica qual primeiro uma tecla do miniteclado e depois uma chave da
acorde dentre os 180 implementados foi executado pelo pedaleira ou vice-versa. Como o programa faz uma varredura
msico. O programa ento l na memria os cdigos MIDI constante da P1, ele precisa conhecer os estados atual e
das quatro notas do acorde. Para isso, utiliza-se a varivel E anterior de T e de P, para poder decidir o que deve ser
da Fig. 7, que representa o endereo da posio de memria enviado ao instrumento musical via cdigo MIDI. A Tabela 3
na qual est gravado o cdigo da primeira nota (tnica T): apresenta todas as possveis combinaes de acionamentos
das chaves do miniteclado e da pedaleira. Algumas
E $ I # 16(T -1) . (4) concluses podem ser tiradas dessa tabela. Por exemplo, se
Os endereos das outras trs posies de memria nas quais no instante atual nenhuma tecla do miniteclado for acionada
esto gravados os cdigos das demais notas do acorde (T = 0), nenhum som deve ser emitido pelo instrumento
executado so determinados atravs da Tabela 2. Essa tabela musical. J se no instante atual tanto uma tecla do
apresenta as relaes entre E e as demais posies de miniteclado quanto uma tecla da pedaleira forem acionadas
memria para um determinado acorde em funo de P. Como (T > 0 e P > 0), o som do acorde selecionado deve ser
exemplo, considere que o acorde executado foi o F7+. Nesse emitido, no importando o estado anterior de T e de P. Todas
caso, T = 6 (tnica f), E = I + 80 e P = 9. De acordo com a as outras possveis situaes podem ser entendidas atravs da
Tabela 2, os quatro endereos nos quais esto gravados os Tabela 3, que serviu de base para o desenvolvimento do
cdigos MIDI das notas do acorde so: E, E + 2, E + 4 e programa escrito em linguagem ASSEMBLER.
E + 8. Os quatro cdigos (data bytes) so lidos e cada um
recebe o status byte e outro data byte, conforme (2) e (3), P Posies de memria
alm do start bit e do stop bit. Cada uma dessas palavras 1 E , E # 2, E # 4, E # 9
MIDI ento enviada atravs da porta serial assncrona do 2 E , E # 1, E # 4, E # 9
8031 (pino 11) para a sada MIDI OUT. O equipamento no 3 E , E # 2, E # 5, E # 9
qual o sistema est conectado recebe a palavra MIDI, 4 E , E # 1, E # 3, E # 7
interpreta os dados transmitidos e executa a funo 5 E , E # 2, E # 4, E # 6
correspondente.
6 E , E # 1, E # 4, E # 6
7 E , E # 2, E # 4, E # 7
I C2
Eb2
8 E , E # 1, E # 4, E # 7
E2 9 E , E # 2, E # 4, E # 8
Gb2 10 E , E # 1, E # 4, E # 8
G2 11 E , E # 1, E # 3, E # 6
Ab2 12 E , E # 7, E # 12, E # 14
A2 16 notas 13 E , E # 7, E # 12, E # 15
Bb2 dos 14 E , E # 7, E # 10, E # 12
B2 acordes 15 E , E # 7, E # 11, E # 13
C3 de d
Tabela 2: Endereos de memria dos cdigos MIDI das notas
Db3
do acorde P de uma tnica qualquer T em funo do endereo
D3
E que armazena o cdigo MIDI da primeira nota.
E3
F3 Estado
Funo desejada do
Ab3 Atual Anterior Som
microcontrolador
A3 T P T P
E Db2 16 notas Continuar em loop de
dos 0 >0
espera
0 0
acordes Parar de tocar a tnica e
>0 0 Sem
de r entrar em loop de espera
Bb3 bemol Continuar em loop de som
0 0
espera
0 >0
Para de tocar o acorde e
>0 >0
entrar em loop de espera
B2 16 notas Tocar a tnica
dos 0 0 Tnica
escolhida
>0 0
acordes Continuar em loop de
>0 >0 Acorde
Ab4 de si espera
Tocar o acorde
>0 >0 x x Acorde
Fig. 7: Disposio dos cdigos MIDI na memria EPROM. escolhido
Durante a utilizao do sistema pelo msico, diferentes Tabela 3: Possveis combinaes de acionamento das chaves
combinaes de acionamento das chaves do miniteclado e da do miniteclado e da pedaleira.
Incio 1
m m5-/7 m6 m7 m7+
L P1atual Status = Note On
Transmite
S P1 atual = 0
P1 anterior = P1 atual dim 5+/7 6/7 7/9- 7/9/11
N
L T L P1 atual
Calcula S P anterior
AGRADECIMENTO
Tnica =0 Os autores gostariam de agradecer ao CNPq pelo apoio
N financeiro.
C3 Db3 D3 Eb3 E3 F3
48 49 50 51 52 53
C4 Db4 D4 Eb4 E4 F4
Fig. 9: Prottipo do sistema proposto. 60 61 62 63 64 65
O prottipo montado foi submetido a testes com diferentes Gb4 G4 Ab4 A4 Bb4 B4
modelos de teclados profissionais. Em todos esses 66 67 68 69 70 71
experimentos, o sistema apresentou o desempenho esperado.
Esses testes tambm mostraram que o leiaute da pedaleira Tabela A1: Cdigos MIDI (decimal) das notas da regio
(Fig. 10) adequado para ser utilizado pelo msico. acionada do teclado.
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Qualidade da Energia em Sistemas de Sonorizao - Harmnicos na
Rede
RESUMO
Um problema que pode comprometer a fidelidade sonora de sistemas de udio so os rudos provenientes da rede
eltrica que atingem os equipamentos e, conseqentemente, os sinais de udio. Estes rudos podem ser
componentes harmnicos da tenso alternada entregue pela rede, geradas a partir do efeito de cargas no lineares
no barramento. Este artigo mostra que os conversores CA-CC das fontes de alimentao dos prprios
amplificadores de udio de potncia podem introduzir este tipo de rudo na rede.
19
18
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO
Efeitos em transformadores
Transformadores so afetados pelas harmnicas no que diz
respeito s correntes de magnetizao, que representam cerca
de 10% das perdas do transformador a carga plena e crescem
juntamente com a freqncia da componente harmnica. O
resultado o sobreaquecimento e a perda da vida til do
transformador. Embora nem todos transformadores operem a
carga plena, este efeito deve ser levado em conta na
especificao destes dispositivos.
Filtros ativos
Os filtros passivos so solues eficazes somente para
freqncias particulares de harmnicos. Em algumas
instalaes o contedo harmnico da corrente varia ao longo
do tempo. Uma soluo conveniente nestes casos o
emprego de filtros ativos.
Fig. 7. Utilizao de capacitor para correo do fator de potncia.
IX CONVENO NACIONAL AES BRASIL, SO PAULO, SP, 11-13 DE ABRIL DE 2005 224
HERRERA, DONOSO-GARCIA, PAULINELLI QUALIDADE DA ENERGIA EM SISTEMAS DE SONORIZAO
Ref B
Ref A
Fig. 13. Forma de onda e contedo harmnico da tenso do Fig. 15. Forma de onda e contedo harmnico da corrente a carga
barramento sem carga. mxima.
Fig. 14. Forma de onda e contedo harmnico da corrente de repouso. Fig. 16. Forma de onda e contedo harmnico da tenso a carga
mxima.
CONCLUSO
REFERNCIAS BIBLIOGRFICAS
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Obteno de Marcas de Pitch em Sinais de Voz para Sntese por
Concatenao Temporal
RESUMO
Neste artigo proposto um mtodo para obteno das marcas de pitch em segmentos de sinais de voz a serem
concatenados pelo algoritmo TD-PSOLA. O sistema proposto utiliza a captao de um sinal auxiliar, atravs de
um microfone de contato, para obter informaes mais intensas a respeito da atividade das cordas vocais. Isto
contribuiu para melhorar o desempenho de uma deteco automtica de marcas. Os resultados se mostraram
promissores, inclusive para casos crticos de deteco, onde se mostrou necessria pouca ou nenhuma correo
manual.
J os demais exemplos acima citados de aplicaes de PDAs de termo curto, por outro lado, so mais robustos mas
sistemas TTS tratam da converso de texto irrestrito, onde o oferecem uma estimativa do pitch mdio ao longo de um
texto a ser convertido no est limitado a um conjunto de nmero de perodos, isto porque o mtodo conta com a
palavras ou frases. Em tais casos, a concatenao pura e similaridade do sinal de voz entre perodos de pitch
simples de palavras se torna impraticvel se considerarmos a adjacentes. Assim, se vrios perodos de pitch esto contidos
quantidade de palavras existentes e as suas variantes. em um segmento de anlise, o valor do pitch estimado um
Baseado em conceitos fonticos, que tratam de mapear os valor mdio para todo o segmento [5].
diversos sons existentes em uma lngua (fones), e Idealmente as marcas de pitch deveriam ser introduzidas
fonolgicos, que observam a organizao destes sons nos trechos sonoros na posio de um evento especfico no
construindo significado, tem-se a proposta do uso de ciclo de pitch e nos trechos surdos regularmente espaadas
unidades menores de concatenao, limitadas pela slaba, [3]. Um evento no ciclo de pitch muito utilizado o instante
pelos prprios fones, ou unidades intermedirias. de fechamento glotal (GCI, glotal closure instant), ponto
Assim, depois de definido o tipo de unidade a ser usada e onde ocorre a maior excitao do trato vocal. Porm, a
quais sero necessrias para gerar as palavras e frases de uma deteco precisa destes instantes diretamente do sinal de voz,
lngua em um sistema TTS, feita a coleta destas unidades a seja de forma automtica ou mesmo de forma visual,
partir de sinais de fala previamente gravados, compondo um apresenta uma enorme dificuldade significando um grande
banco de unidades [1]. consumo de tempo [3].
Deste modo, um sistema de converso de texto irrestrito, Uma soluo possvel para a deteco precisa do instante
inicialmente far a converso dos caracteres do texto de fechamento glotal o uso de um equipamento chamado
(grafemas) em unidades fonolgicas (fonemas), e em seguida eletroglotgrafo (EGG) que mede a atividade das cordas
ir obter do banco as unidades necessrias para gerar a vocais [6]. Este equipamento, porm, apresenta um custo
seqncia dada e concaten-las gerando o sinal de fala elevado, da ordem de alguns milhares de dlares. Uma
sinttico correspondente. alternativa de baixo custo vista a seguir.
preciso levar em conta que as unidades de concatenao,
sejam elas quais forem, esto sujeitas variao, de acordo MICROFONE DE CONTATO
com a posio ocupada dentro de uma frase ou com a Alguns sistemas de aquisio de voz em ambientes
entoao aplicada. Por exemplo, no caso dos nmeros de extremamente ruidosos tm usado microfones em contato
telefone, considerando cada algarismo uma unidade, a com o pescoo, chamado de throat microphone, por
pronncia do algarismo 2 na seqncia numrica 2555-5555 apresentar reduzida captao de rudo ambiente. Alguns
ser diferente na seqncia 5555-5552. Assim, para obter autores [7] tm proposto a utilizao deste tipo de microfone
uma entoao correta e natural, seria necessrio armazenar para melhorar o desempenho de sistemas de reconhecimento
todas as variantes de uma unidade ou ento usar um mtodo em ambientes ruidosos. Em [8] os autores utilizaram um
capaz de modific-las principalmente em intensidade, acelermetro em contato com a pele, na altura da glote, e
durao e freqncia fundamental, que so os principais observaram que o sinal captado, quando comparado com o
fatores para caracterizar a entoao ou prosdia. sinal de um EGG, representa o som gerado pela vibrao das
Um dos mtodos mais populares, que tem sido usado em cordas vocais.
diversos sistemas TTS atuais, devido sua simplicidade de Neste trabalho prope-se o uso de um microfone de
implementao e ao reduzido custo computacional, contato para a captao da vibrao da glote com o objetivo
algoritmo TD-PSOLA descrito brevemente a seguir. de obter os GCIs de forma barata e precisa. O microfone
utilizado trata-se de um disco piezoeltrico cermico,
ALGORITMO TD-PSOLA ilustrado na Fig. 1, geralmente utilizado como captador em
O algoritmo TD-PSOLA [2] baseado na tcnica de instrumentos musicais acsticos, como violo, violino etc.
overlap and add (OLA), na qual um sinal peridico com
diferente escala temporal e/ou pitch reconstrudo atravs da
aplicao janelas sncronas com o pitch. Estas janelas so
aplicadas ao sinal, centradas em marcas de pitch com largura
tpica de dois perodos, e so alongadas ou encurtadas,
removidas ou repetidas para obter o sinal modificado [3].
A qualidade oferecida pelo TD-PSOLA no contexto de
sntese por cpia perto da perfeio [3]. Porm, quando o
algoritmo utilizado na modificao de segmentos
concatenados, provenientes de outros contextos, se as marcas
no so posicionadas de forma consistente, o resultado so
erros de fase na superposio das janelas, principalmente na
vizinhana de concatenao [3].
Para a determinao destas marcas, podem ser usados Fig. 1: Formato de um disco piezoeltrico.
algoritmos de deteco de pitch chamados de PDAs (Pitch
Detection Algoritms) [4]. Estes algoritmos podem ser O disco de metal, mostrado na Fig. 1, colado a uma base
divididos em duas categorias: PDAs no domnio do tempo e plstica somente pelas bordas, de maneira que o centro fique
PDAs por anlise em termo curto. Os PDAs no domnio do livre. Esta base plstica ento fixada a uma fita de velcro,
tempo oferecem a estimativa do pitch perodo a perodo, mas formando um colar, mostrado na Fig. 2. Este colar colocado
so sensveis as degradaes do sinal na janela de anlise. ao redor do pescoo de maneira que o disco piezoeltrico
fique localizado na regio frontal do pescoo, o mais baixo sonoros, ou seja onde ocorre atividade glotal, o sinal
possvel, conforme mostrado na Fig. 2. O ajuste de presso demonstra caractersticas mais regulares do que o sinal de
do colar (apertado ou frouxo), esta diretamente associado voz. Esta caracterstica se justifica pelo fato de que as
qualidade do sinal, portanto a presso ideal aquela em que o vibraes captadas pelo contato provm principalmente da
colar fique o mais justo possvel, sem causar grande laringe (considerada um tubo com dimenses constantes) que
desconforto. produz harmnicos quase invariantes ao longo do tempo. Por
outro lado, para o sinal de voz, as diferentes configuraes do
trato vocal para a produo de diferentes sons, produzem
diferentes harmnicos (formantes), que se mantm regulares
por curtos perodos de tempo.
Na Fig 3, observa-se que a ocorrncia de picos no sinal do
microfone de contato podem ser bons indicativos para os
GCIs. Porm, em alguns casos, estes picos tm sua
amplitude reduzida no sendo possvel detect-los como
Fig. 2: Disco piezoeltrico fixado ao colar de velcro e colocao
do colar na base do pescoo.
mximos locais. Isto, de modo geral, inviabiliza a obteno
dos GCIs diretamente do sinal do microfone de contato,
Alm do sinal do microfone de contato, o sinal de voz sendo necessrio ento um procedimento de deteco um
precisa ser captado em simultneo, no entanto, a maioria das pouco mais elaborado, como visto a seguir.
placas de som no possui entrada para dois microfones em
simultneo (estreo). Uma soluo utilizar a entrada line-in OBTENO DOS GCIs
da placa de som, que pode ser utilizada em modo estreo, De modo geral, destacamos neste trabalho duas tcnicas
porm necessrio um pr-amplificador para os microfones. para determinao dos GCIs a partir do sinal de voz: as
Deste modo, foram montados dois pr-amplificadores, tcnicas baseadas no resduo da predio linear e as tcnicas
conforme a nota referenciada em [9]. Os sinais obtidos em baseadas no conceito de mxima verossimilhana. Estas
simultneo pelos dois microfones se mostram defasados de famlias de algoritmos so discutidas em seqncia.
acordo com a distncia entre os microfones, deste modo para
manter esta distncia fixa ao longo da gravao, foi usado um Mtodos Baseados no Resduo da Predio Linear
microfone acoplado aos fones de ouvido e prximo a boca. Muitos sistemas de anlise da voz so baseados no modelo
Deste modo, o atraso depender principalmente das linear fonte-filtro, constitudo por um filtro digital linear
caractersticas fsicas do usurio. Em mdia este atraso autoregressivo, que modela o trato vocal e uma fonte de
equivale ao tempo de propagao para o som percorrer uma excitao peridica considerada como um sinal
distncia tpica de 20 cm variando em +/- 5 cm. Deste modo, representativo da atividade glotal.
temos um atraso no sinal do microfone convencional da Vrios algoritmos precursores da deteco automtica de
ordem de (0,6 +/- 0,15) ms. Os sinais obtidos foram eventos no sinal de voz, como por exemplo, os descritos em
amostrados na freqncia de 22050 Hz o que resulta em um [10], [11], [12], [13] e [14], baseiam-se na idia de que em
atraso em torno de 12 amostras. Na Fig. 3 mostrado no segmentos curtos (menores do que um perodo de pitch) que
grfico superior o sinal obtido pelo microfone convencional, no contm uma excitao, o modelo de predio linear
onde foi compensado o atraso de 12 amostras, e no grfico mais adequado e conseqentemente o erro de predio
abaixo o sinal do microfone de contato. menor. Por outro lado, quando um instante de excitao, ou o
instante de fechamento glotal, est includo no segmento de
0.6
Microfone convecional anlise o erro de predio linear maior. Deste modo, o
ponto onde ocorre um grande erro de predio pode ser usado
0.4
para indicar o instante do fechamento glotal [13].
Em [14], a partir da suposio de que o resduo de predio
amplitude
0.2
0
uma janela de Hanning sua FFT, para reduzir as
componentes de baixas e altas freqncias. Em seguida,
-0.2 obtido o contorno da Transformada de Hilbert de modo a
atenuar os efeitos de fase introduzidos na obteno do
-0.4
0 500 1000 1500 resduo.
amostras
Na aplicao do mtodo ao sinal do microfone de contato,
inicialmente foi aplicado um filtro de pr-nfase enfatizando
Fig. 3: sinal de voz e do microfone de contato as altas freqncias, para tornar seu decaimento espectral
Observando os sinais obtidos pelo microfone de contato e similar ao sinal de voz. Em seguida a aplicao do mtodo
pelo microfone convencional, nota-se que durante os trechos de deteco pode ser observada na Fig. 4.
Observa-se que os mximos, correspondentes aos pontos processo gaussiano com N dimenses independentes e
de excitao do trato vocal, ocorrem com maior amplitude do varincia uniforme - .
que no sinal de voz, sendo mais fcil detect-los em meio ao Assim, dado x(n) ! s (n + n0 ) # s(n) , a densidade de
rudo. Porm, os picos intermedirios aos supostos GCIs
probabilidade condicional, ou funo de verossimilhana,
tambm ocorrem com maior amplitude.
ser descrita por:
" N #1 22
0.4
Microfone de contato
1 && # ) . s (n + n0 ) # s (n) / &&
p( X | 0 ) ! .exp ' n ! 0 3 (2)
(21- 2 ) N 2 & 2- 2 &
0.2
&( &4
amplitude
) . s ( n + n ) # s ( n) /
2
2
N 0 (3)
ln . p( X | 0 )/ ! # ln(21- 2 ) # n ! 0
2-
amplitude
1.5 2
2
1 Assim conclui-se que no possvel encontrar uma
0.5
expresso explcita para um valor timo de n0 . Porm,
0
resolvendo algebricamente a potncia interna ao somatrio, e
0 200 400 600 800 1000 1200 1400 1600 1800 2000 observando as possibilidades de mximos na funo de
amostras
ln[ p( X | 0 )] em funo de n0 , tem-se que o termo
N #1
Fig. 4: Obteno dos GCIs por resduo da predio linear.
) . s(n + n ) s(n)/
n!0
0 dominante. Este termo chamado de
Supe-se que o sinal do microfone de contato fornea sinal MLED (maximum-likelihood epoch determination) e
informaes mais intensas no somente sobre o instante de trata-se da correlao cruzada entre o sinal de voz e o sinal
fechamento da glote, mas tambm em outros instantes de modelo. Portanto, em funo de n0 , os mximos no sinal
batimento das cordas vogais, como por exemplo, o instante MLED equivalem aos mximos na funo de
de abertura da glote. Por um lado, o mtodo confirma a verossimilhana. Em seguida, os coeficientes do sinal
suposio de que um microfone de contato forneceria modelo, que produzem um mximo na funo de
informaes mais ntidas sobre o movimento da glote, por verossimilhana, so deduzidos como os coeficientes de
outro lado, a dificuldade em separar o GCIs torna o mtodo predio linear obtidos pelo mtodo da autocorrelao. Neste
ineficiente para esta proposta. sentido, o sinal modelo considerado como os coeficientes
de um filtro casado [5].
Mtodos Baseados na Mxima Verossimilhana Em um perodo do sinal MLED, aparecem no s os
Esta metodologia foi proposta em [5] para estimar os GCIs, mximos locais, onde a correlao cruzada mxima, que
adaptada da teoria de deteco de pocas (ou eventos) por correspondem aos GCIs, mas tambm a outros falsos
mxima verossimilhana em aplicaes para radar. Assim candidatos. A razo em amplitude entre o pulso principal e os
como na seo anterior, este mtodo assume que o sinal de outros pulsos varia substancialmente e depende das
voz dentro de um perodo de pitch induzido por um pulso propriedades do sinal, criando ambigidade na deciso de
em uma poca, geralmente definida como a representao de escolha [5]. Para contornar este problema, os autores
um GCI. propem o uso de um sinal de seleo, similar aplicao
Assumindo que a produo da voz pode ser modelada por de uma janela, para enfatizar o contraste entre o pulso
um sistema linear autoregressivo, o sinal modelo devido a principal e os pulsos secundrios. Os autores demonstram
uma poca pode ser expresso como: que o contorno da transformada de Hilbert (ou mdulo do
sinal analtico) do sinal MLED pode ser utilizado como sinal
"p
&&) ai s(n # i ) 0$n%* de seleo. A mdia pode ainda ser subtrada para tornar o
(1) sinal de seleo mais parecido com um pulso, sendo possvel
s(n) ! ' i !1
n!0 anular o sinal entre pulsos adjacentes.
& G Aplicando o mtodo ao sinal de voz, os autores observaram
&( 0 n$0
experimentalmente que o indicativo para o GCI melhor
onde G uma constante positiva arbitrria e p a ordem do definido a 50% da amplitude do mximo (de zero at o ponto
polinmio. mximo do pulso, esquerda) e este critrio emprico [5].
Em seguida, suposto que a diferena entre o sinal Esta impreciso no posicionamento do GCI relatada pelos
observado, s (n + n0 ) n , [0, N # 1] (onde n0 uma autores foi verificada em vrios sinais, porm o critrio de
seqncia de atrasos de alinhamento) e o sinal modelo um correo sugerido pelos autores nem sempre eficiente.
processo gaussiano e que as N observaes constroem um
Aplicando o mtodo ao mesmo sinal do experimento mximos locais so detectados em segmentos de curta
anterior, passado igualmente por um filtro de pr-nfase, o durao.
resultado da deteco mostrado na Fig 5. Para verificao do mtodo, foram observados casos onde
Microfone de contato
a deteco dos GCIs a partir do sinal de voz extremamente
0.4 difcil, principalmente para consoantes vozeadas.
Nas Fig. 6, 7, 8 e 9 so mostrados dois grficos onde so
0.2
mostrados o sinal de voz e os GCIs obtidos diretamente do
sinal de voz e do sinal do microfone de contato,
amplitude
0
respectivamente. Para notao dos segmentos e na transcrio
-0.2
fontica foram utilizados os smbolos da Associao
Internacional de Fontica (IPA) e a nomenclatura utilizada
-0.4 para as consoantes segue a definida em [15].
0 200 400 600 800 1000 1200 1400 1600 1800 2000
amostras
0.2 0
-0.1
amplitude
0.15
-0.2
amplitude
1500 2000 2500 3000 3500 4000 4500
0.1
GCIs obtidos no mic. de contato
0.2
0.05 0.1
0
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
-0.1
amostras
-0.2
1500 2000 2500 3000 3500 4000 4500
amostras
Fig. 5: Obteno dos GCIs por mxima verossimilhana.
Fig. 6: Segmento do sinal de voz contendo a consoante Oclusiva
Bilabial Vozeada /!/, recortada da palavra abril - /"#!$%&/, e as
Conforme dito anteriormente, o mtodo quando aplicado marcas dos GCIs obtidos do sinal de voz e do microfone de
contato.
ao sinal de voz, apresenta uma impreciso na deteco dos
GCIs, no qual era necessrio um mtodo emprico de
correo. Surpreendentemente, o mtodo quando aplicado ao 0.4
GCIs obtido no sinal de voz
-0.4
Amos4tras
3500 4000 4500 5000
fina. 0.2
dois num intervalo caracterstico para o atraso. Fig. 8: Segmento do sinal de voz contendo a consoante Fricativa
A obteno automtica dos GCIs foi feita utilizando o Alveopalatal Vozeada /)/, recortada da palavra mesmo - /#*+)*&/
mdulo da transformada de Hilbert do sinal MLED, onde os e as marcas dos GCIs obtidos do sinal de voz e do microfone de
contato.
0.1
Speech, and Signal Processing, Vol. 34, No. 4, pp.730-
0
743, 1986.
-0.1
[7] Graciarena, M., Franco, H., Sonmez, K., et al.,
-0.2
Combining Standard and Throat Microphones for
2500 3000 3500 4000 4500 5000 5500
Robust Speech Recognition, IEEE Signal Processing
amplitude
REFERNCIAS BIBLIOGRFICAS
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
__________________________________
_
Codificao Perceptiva de Sinais de Voz de Banda Larga
P. A. Berger, F. A. O. Nascimento, L. M. da Silva.
Departamento de Engenharia Eltrica, Universidade de Braslia, Brasil.
pedrobg@uol.com.br
RESUMO
Esse artigo apresenta o estudo e simulao de um esquema de codificao perceptiva para sinais de voz de banda
larga. O esquema uma verso modificada do codificador de udio AC-3, para atender especificamente s
caractersticas de sinais de voz de banda larga. Sinais de voz codificados com taxas de bits de 32, 24 e 16 kbps
foram obtidos e avaliados subjetivamente. Avaliou-se tambm a robustez do esquema em relao perda de
blocos de informao. Verificou-se o esquema tolera razoavelmente uma perda de at 10% dos blocos de
coeficientes MDCTs.
33
BERGER ET AL. CODIFICAO PERC. DE SINAIS DE VOZ DE B. LARGA.
2 M "1
X (k ) $ & x ( n) h
n $0
k ( n) , 0 % k % M " 1 (1)
Alocao de Bits
IMDCT 2M amostras
M coef. Uma vez fixada a taxa de bits, (bps), a ser despendida na
+
2M amostras
codificao do sinal, o nmero de bits que pode ser gasto a
M coef. IMDCT
+ cada quadro dado por BQ $ RbTQ , onde TQ $ 15 ms a
M coef. IMDCT 2M amostras
durao de um quadro. No codificador simulado,
... M amostras M amostras ... BQ $ BE # BM , onde BE e BM so, respectivamente, as
Quadro k Quadro k+1 quantidades de bits gastas na codificao dos expoentes e das
(b)
Figura 2 Ilustrao da aplicao da MDCT: (a) MDCT direta e (b)
mantissas dos coeficientes MDCTs. A codificao dos
MDCT inversa (IMDCT). expoentes e o valor de BE foram assuntos da Seo 3. Nesta
Codificao dos Expoentes seo discute-se o processo pelo qual os BM bits restantes
Os coeficientes MDCTs de ndice 224 at 255 so distribudos entre as mantissas dos coeficientes MDCTs
correspondem a freqncias fora da banda do sinal (50-7000 de modo a minimizar a distoro audvel presente no sinal
Hz) e, por isso, seus expoentes e mantissas no so reconstrudo. Essa distribuio dinmica, enquanto que a
transmitidos: o decodificador os faz iguais a zero. Os distribuio dos BE bits entre os expoentes esttica.
expoentes dos 224 coeficientes restantes, de ndice 0 at 223,
so divididos em grupos. De cada grupo, apenas o expoente O objetivo determinar b(k ) , k $ 0, 1,!, M " 1 , sujeito
de maior valor codificado e enviado, os demais expoentes seguinte restrio:
do grupo so feitos iguais a esse de maior valor. A mantissa
que tem seu expoente alterado escalonada para compensar a M "1
mudana feita no expoente. Apenas um expoente enviado
integralmente, codificado em uma palavra de 5 bits. Os
& b(k ) $ BE (5)
k $0
demais expoentes so codificados diferencialmente, com
deltas de 0, 1 ou 2. Os deltas so divididos em conjuntos
onde b(k ) o nmero de bits alocado para representar a k-
de 3 deltas e cada conjunto codificado em uma palavra de 7
bits. Foram experimentados dois tipos de agrupamento dos sima mantissa e que define o nmero de nveis do
expoentes: quantizador a ser usado. O critrio usado o da distoro
4 Agrupamento Uniforme (AU): Os 224 expoentes so perceptiva. Bits so distribudos buscando fazer com que a
divididos em 112 grupos, cada um contendo um par envoltria do espectro de potncia do rudo de quantizao
de expoentes. Portanto, so gastos 5 # (1113 3) 5 7 $ 264 fique sempre abaixo do limiar de mascaramento. Todo
componente de rudo com nvel inferior a esse limiar
encoberto pelo prprio sinal de voz (ou de udio) e no
percebido pela audio humana [7]. O limiar de so simtricos e os que possuem mais de 15 nveis so
mascaramento calculado de acordo com um modelo assimtricos.
perceptivo (ou psicacstico). A seguir descrito de forma Vrias mantissas no recebem bits para a sua codificao.
sucinta o modelo psicacstico usado nesse trabalho: ele Isso porque o componente espectral correspondente tem nvel
uma verso simplificada do modelo psicacstico usado pelo abaixo do limiar de mascaramento e, portanto, no audvel
AC-3 [1]-[3]. logo, ele no precisa ser transmitido. Mas mantissas no
O clculo do limiar de mascaramento realizado em trs recebem bits tambm porque os bits disponveis acabaram,
etapas [2]-[3]. Primeiro, os expoentes codificados exp(k ) tendo sido gastos com mantissas mais relevantes. Seja qual
for o caso, a providncia natural a ser tomada pelo
so transformados em uma densidade espectral de potncia
decodificador seria substituir o valor real dessas mantissas
(DEP) logartmica da seguinte forma:
por zero. Contudo, em [3] recomendado que os valores
dessas mantissas sejam substitudos por valores aleatrios
M "1
[3]. Testes subjetivos mostraram que essa estratgia
& b(k ) $ BE (6) realmente melhora qualidade subjetiva do sinal reconstrudo:
k $0 ele soa menos abafado, apresentado maior riqueza espectral
de alta freqncia. Contudo, percebe-se tambm um rudo
Na escala logartmica resultante, 128 unidades corresponde causado por essa estratgia. Assim, a amplitude mxima
a 6 dB. Ento, as amostras dep(k ) so agrupadas em desses nmeros aleatrios deve ser escolhida com cuidado.
bandas cuja largura corresponde, aproximadamente, metade Nas simulaes realizadas, foram utilizados nmeros
da largura das bandas crticas da audio humana. No aleatrios com distribuio uniforme entre 0,35 e + 0,35.
codificador simulado nesse trabalho, o espectro na faixa entre
0 e 7000 Hz (0 " k " 223) dividido em 37 bandas, contendo TESTES PRTICOS
o nmero de amostras indicado na Tabela 1 o Foram realizadas simulaes do codificador descrito para
espaamento entre duas amostras adjacentes de 31,25 Hz. trs taxas de bits: 32, 24 e 16 kbps. A Tabela 2 apresenta a
As amostras contidas em uma nica banda so somadas (em estratgia de codificao dos expoentes e a diviso, entre
escala linear), resultando, ento, uma DEP integrada com expoentes e mantissas, dos bits disponveis por quadro.
apenas 37 amostras. O propsito dessa integrao reduzir o Os sinais codificados com taxa de 32 e 24 kbps tm
esforo computacional requerido para realizar a terceira qualidade subjetiva equivalente. A qualidade desses sinais
etapa. muito boa, mas possvel notar um leve abafamento,
Finalmente, o limiar de mascaramento versus freqncia provavelmente devido falhas na reproduo dos
obtido convoluindo a DEP integrada e um prottipo de componentes de alta freqncia. Nota-se tambm um rudo de
funo de espalhamento isto , um modelo da curva de baixa intensidade sibilado, que devido aos componentes
mascaramento da audio humana. O modelo usado nas cujas mantissas no foram transmitidas e que foram
simulaes o modelo proposto para o AC-3, com substitudas por valores aleatrios. Contudo, o sinal com esse
parmetros estticos [3]. O resultado desse clculo uma rudo prefervel ao sinal em cuja reconstruo faz-se iguais
curva indicando, para cada banda, o nvel de mascaramento a zero as mantissas no transmitidas. Nesse ltimo sinal
estimado. Essa curva comparada com limiar absoluto da bem perceptvel a ausncia dos componentes de alta
audio humana e o maior dentre os dois mantido. freqncia. A figura 3 mostra uma comparao entre um
segmento de sinal de voz original e um segmento de sinal de
Tabela 1 Nmero de amostras nas 37 bandas em que a faixa entre 0 voz decodificado para uma taxa de 32 kbps..
e 7 kHz dividida.
1- 10- 17- 22- 25- 27- 29- 31-
Banda 33 34 35 36 37
9 16 21 24 26 28 30 32
Sinal Original
Tamanho 2 3 4 5 6 7 9 11 14 15 17 18 20 0.5
0
A curva estimada de mascaramento subtrada da
Amplitude
Sinal Decodificado
pode-se mapear a RSR desejada no nmero de bits b(k ) que 0.5
mapa utilizado nas simulaes o usado pelo AC-3 [3], que -0.5
considera um ganho de RSR menor que 6 dB por bit para
b(k ) % 4 . O valor mximo para b(k ) 16. -1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Tempo (s)
CONCLUSO
Neste artigo, apresentou-se o estudo de um esquema de
codificao perceptiva para sinais de voz de banda larga. O
esquema uma verso simplificada do codificador de udio
AC-3. Foram realizadas simulaes que geraram sinais
codificados com taxas de bits de 32, 24 e 16 kbps. Avaliaes
subjetivas da qualidade dos sinais codificados indicam que o
esquema promissor, mas para operar com taxas de 16 kbps
ou menor precisa ser melhorado. Estratgias que podem vir a
propiciar a melhoria necessria so, por exemplo, o uso da
quantizao vetorial e a codificao paramtrica da envoltria
espectral. Essas possibilidades sero investigadas em
trabalhos futuros. Foi testada tambm a robustez do esquema
simulado em relao perda de blocos de informao.
Verificou-se que perdas de at 10% dos blocos de
coeficientes MDCTs razoavelmente tolerada pelo esquema.
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Amplificador Classe D de 1000W RMS com Realimentao
RESUMO
Este artigo apresenta uma nova topologia de amplificador Classe D de potncia, com rendimento superior a 90%,
adequado para operar com sub-woofer e woofer. A proposta no necessita de filtro passa baixa no estgio de
sada, uma vez que possui como princpio de funcionamento, modular o sinal a ser amplificado por meio de duas
fontes de corrente sobre um capacitor de filtro. O referido modo de operao possibilita que o amplificador
opere com fontes de tenso no estabilizadas com THD inferior a 1%.
38
VINCENZI, ET AL. AMPLIFICADOR CLASSE D DE 1000W RMS COM REALIMENTAO
V 6t 7 ! V . sin 68 .t 7 (1)
pk
onde:
6 7 ! 8.V
dV t
6 7
pk . cos 8 .t
(2)
dt
Fig. 2. Conversor Classe D apresentado em trabalhos anteriores A variao mxima ocorre na passagem por zero para a
mxima freqncia a ser amplificada cos 0 ! 1 . Isso 67
6 7
significa que cos 8 .t na Equaes (2) pode ser eliminado A Equao (6) mostra a corrente instantnea no circuito LC
mostrado na Fig. 6.
o que resulta na Equaes (3).
dV t6 7 ! 8.V V
dt
pk
(3) 67
I t ! DC . cos 8 .t 6 7 (6)
Zo
dV
I ! C. (4)
dt
onde:
f max - a mxima freqncia a ser amplificada
VCT
Fig.6: Circuito LC equivalente (Taxa de Crescimento Positiva).
V
I pk ! DC (7)
Zo
onde:
L
Zo !
CT
2 Vo( pk ) 114V
VDC
L! (8)
2 2 2
4.1 . fmax .V pk .CT f max 2kHz
I !I ! I CARGA
L16 pk 7 L 26 pk 7
interessante notar que a impedncia carga nunca
considerada. Isso ocorre porque a carga no est relacionada
com o slew-rate. A impedncia relevante para anlise de VDC 144V
resposta em freqncia e/ou anlise de filtro. interessante
notar que o slew-rate mximo ocorre (na passagem por zero) A tenso nominal RMS na carga (Vo) :
quando a corrente mxima e a tenso zero. Se a tenso
zero a carga incapaz de drenar corrente.
Vo
A capacitncia total CT a soma das Cp , C1 e C2. Valores 6 pk 7 (9)
6
adequados para C1 e C2 so C p % C1 ! C2 % 2.C p .7 Vo !
2
114V
3 EXEMPLO DE PROJETO Vo ! ! 80V
2
O objetivo deste projeto alimentar um alto falante de 18
polegadas de 800W RMS e 8! de impedncia. Como pode Po ! Vo.Io (10)
ser observado na Fig. 7 [2], o sistema de trs vias divide as
freqncias em trs faixas que so: onde:
Po = Potencia nominal RMS de sada
5 10 700Hz para woofer Vo = Tenso nominal RMS de sada
5 700 4kHz para midrange Io = Corrente nominal RMS de sada
5 acima de 4kHz para tweeter
A corrente nominal RMS na carga dada pela equao
Desta forma pretende-se projetar um amplificador que (10).
possua uma freqncia de corte de 2kHz destinado a suprir os 800W
45% de potncia destinada ao woofer. O projeto de um Io ! ! 10 A
amplificador para midrange deve levar em considerao a 80V
freqncia de operao mxima de 4kHz.
O exemplo a seguir destinado, somente, a alimentao do A corrente de pico na carga:
woofer pelo fato da freqncia de corte de 2kHz no atender
Io ! 10. 2 ! 14,14 A
toda a faixa de operao do midrange. 6 pk 7
A Fig. 7 mostra que 45% da potncia de um sistema de Usando a Equao (5) CT :
som de 3 vias destinado a alimentao do woofer, 45%
direcionado ao midrange e 10% ao tweeter. Isto posto, 14,14 A
CT ! ! 10 9 F
apresentado a seguir as especificaes de projeto. 2.1 .2000 Hz.114V
Amplifidador (10%)
do Tweeter
Adotando C1 = C2 = 2.CS a capacitncia Cp, C1 e C2 :
2 2
C1 ! C2 ! .CT ! .10 9 F ! 4 9 F
Amplifidador 5 5
Entrada (45%)
do MIDRANGE
CT 10 9 F
Cp ! ! ! 29 F
Amplifidador
(45%) 5 5
do WOOFER
4 Estratgia de Controle
REF.
Amplificador
Re alimen tao
4 RESULTADOS EXPERIMENTAIS
REFERNCIAS BIBLIOGRFICAS
Este artigo foi reproduzido do original entregue pelo autor, sem edies, correes e consideraes feitas pelo comit tcnico
deste evento. Outros artigos podem ser adquiridos atravs da Audio Engineering Society, 60 East 42nd Street, New York, New
York 10165-2520, USA, www.aes.org. Informaes sobre a seo brasileira podem ser obtidas em www.aesbrasil.org. Todos os
direitos reservados. No permitida a reproduo total ou parcial deste artigo sem autorizao expressa da AES Brasil.
___________________________________
Simulao de Som 3D em um Ambiente de Realidade Virtual Imersiva
Utilizando HRTF
Leandro Ferrari Thomaz, Marcelo K. Zuffo, Joo Antonio Zuffo, Regis Rossi A. Faria
LSI Escola Politcnica da USP
05508-900, So Paulo, SP, Brasil
{lfthomaz, mkzuffo, jazuffo, regis}@lsi.usp.br
RESUMO
Este artigo descreve a implementao de um sistema de auralizao 3D em um ambiente de realidade virtual
imersiva utilizando-se tcnicas bi-aurais. Para avaliar a eficcia desta soluo em ambientes do tipo CAVE um
programa est sendo desenvolvido para calcular a posio do usurio e da fonte sonora e convoluir o som
proveniente desta fonte com respostas impulsivas do tipo HRTF previamente calculadas, sintetizando-se o som
em fones de ouvido. O software ser integrado ao conjunto de solues para sonorizao tridimensional previstas
no projeto AUDIENCE.
INTRODUO
A motivao deste projeto poder implementar um sistema
de auralizao 3D de baixo custo, utilizando partes de
software e medies de HRTF previamente feitas, por ser
uma tcnica amplamente conhecida e empregada. A
integrao com o software de navegao e sntese
desenvolvido na CAVERNA Digital [1], o Jinx [2], uma
premissa fundamental para investigarmos o potencial de
aplicao desta tcnica em um ambiente de RV imersiva.
CAVERNA DIGITAL
A CAVERNA Digital (CAVE1 - Audio Visual Experience
Automatic Virtual Environment) um sistema de realidade
virtual, que consiste de uma sala, na qual cada parede uma
tela de projeo. O observador que se encontra dentro do
ambiente experimenta um alto grau de imerso. Este sistema
Fig. 1 - CAVERNA Digital
no intrusivo, e no existem equipamentos pesados para
serem carregados pelo usurio.
A CAVERNA composta por um cubo de dimenso 3m x
3m x 3m com projeo nas quatro paredes laterais mais o
1
CAVE marca registrada da University of Illinois.
44
THOMAZ ET AL SIMULAO DE SOM 3D EM REALIDADE VIRTUAL COM HRTF
piso (fig. 1). O sistema pode comportar at 6 usurios no seu eletromagnticos. Os pilares e vigas do prdio prximos
interior, compartilhando a mesma experincia virtual. CAVERNA foram construdos de madeira, tambm para
Os sistemas cbicos apresentam atualmente uma qualidade evitar interferncia no sistema eletromagntico.
de imerso melhor que qualquer outra forma de sistema de Nas CAVEs, em geral, verifica-se que o sistema de udio
realidade virtual como, por exemplo, os capacetes de secundrio, existindo apenas sistemas estreo ou com poucos
realidade virtual HMD (Head Mounted Display), que so recursos multicanais. Desta forma, no existe uma adequada
culos pesados e apresentam srios problemas de reproduo de ambincia, localizao dos objetos e correta
rastreamento, navegabilidade, campo de viso e podem indicao da diretividade dos objetos sonoros.
induzir ao mal estar no usurio. Na CAVERNA Digital os Com relao parte de udio da CAVERNA, est sendo
recursos incorporados ao usurio para a imerso so desenvolvido um projeto para a implementao de um
geralmente mnimos, baseando-se apenas em culos para sistema de udio 3D flexvel e escalvel, o AUDIENCE [3] .
suportar a estereoscopia e dispositivos de rastreamento. Este projeto conta com a incorporao de solues
Uma grande vantagem da CAVERNA Digital sua comerciais e surround at desenvolvimentos especficos para
flexibilidade, em ter a possibilidade de compartilhamento do sonorizao 3D e auralizao, prevendo-se a correta gerao
mundo virtual por vrios usurios simultaneamente, a de campos sonoros espaciais. Embora focado em reproduo
quantidade de pessoas est limitada diretamente s dimenses multicanal, dentro do escopo do AUDIENCE esto previstas
fsicas da CAVERNA utilizada, como tambm possvel o investigaes de diversos sistemas, incluindo aqueles bi-
reclculo do ponto de vista do usurio, baseado em um aurais com reproduo via fones de ouvido, para se conhecer
sistema de rastreamento para um usurio e assim se produzir melhor a adequao a aplicaes especificas, e estudar sua
o efeito perfeito de imerso e navegabilidade. usabilidade.
Dentre as possveis aplicaes da CAVERNA Digital,
destacamos: a visualizao de lenis petrolferos para HRTF
otimizar o projeto de perfuraes, as maquetes digitais na HRTF (Head-Related Transfer Function), ou funo de
indstria automobilstica para solucionar problemas de design transferncia relativa cabea, consiste numa representao
e aerodinmica, a anlise meteorolgica como a visualizao matemtica da transformao que um som sofre desde a fonte
de massas de ar, alm de simulaes cirrgicas na medicina, sonora at o ouvido humano, usualmente expressa segundo
planetrio virtual, projetos arquitetnicos, a navegao em uma medio da resposta impulsiva (ou Impulse Response,
ambientes virtuais, como museus e salas de espetculos, e IR) na altura dos ouvidos humanos. Conforme podemos
aplicaes avanadas de entretenimento. observar na figura 3, a gerao de um som x(t) na posio da
No leiaute arquitetnico da CAVERNA Digital (fig. 2), um fonte sonora ouvido pela cabea como xR(t) no ouvido
dos aspectos levados em conta foi embutir totalmente os direito e xL(t) no ouvido esquerdo, ou seja, existe uma
projetores e outros dispositivos, escondendo do usurio final diferena entre esses sons. As respostas impulsivas medidas
as particularidades tcnicas do sistema. so relativas a cada ouvido, hR(t) e hL(t) (fig. 3).
Do ponto de vista estrutural deve-se levar em conta O experimento para a gerao das HRTFs consiste em,
tambm aspectos como compatibilidade eletromagntica, para uma dada posio relativa a cabea, gerar um impulso
iluminao, isolamento e tratamento acstico, controle de sonoro (com um estouro, por exemplo) e, atravs de
temperatura e umidade, e finalmente a possibilidade de microfones posicionados nas entradas dos dois ouvidos,
montagem de perifricos adicionais no interior da gravar este impulso.
CAVERNA Digital, como fones de ouvido. A estrutura do Com estas respostas impulsivas, hR e hL, gravadas podemos
cubo toda feita em madeira e plstico, envolvendo o uso de simular como um som seria ouvido pela cabea, caso fosse
metal apenas em alguns parafusos estruturais e projetores, gerado naquela dada posio da fonte e recebida naquela
buscando assim minimizar a distoro dos campos posio da cabea. Isto possvel atravs da aplicao do
magnticos gerados pelos rastreadores de posio teorema da convoluo [4], onde o som simulado seria obtido
atravs da resposta impulsiva convoluida com um som Se o ngulo 6 for negativo porque a fonte sonora est
qualquer. esquerda do usurio. Assim, selecionamos a resposta
impulsiva com ngulo de rotao mais prxima do obtido
AURALIZAO NA CAVERNA ATRAVS DE HRTF pelo clculo.
As respostas impulsivas que so utilizadas neste primeiro
O clculo do ngulo de elevao C da elevao feito
trabalho foram obtidas pelo Media Labs do MIT [5]. O
atravs da seguinte equao:
trabalho realizado por eles gerou um grupo de arquivos que
contm respostas impulsivas para vrios ngulos de elevao
(de 10 em 10 graus) e rotao (de 5 em 5 graus). Todas as 9 :
z "c
respostas so para o ouvido direito, sendo que para obter do C $ arctg ;; <
< (6)
ouvido esquerdo basta utilizar a resposta impulsiva ; ( x"a )2 #( y "b)2 <
= >
suplementar (por exemplo, se para o direito utilizada a
rotao de 15 graus, para o esquerdo se utiliza a de 165
A intensidade da fonte sonora (I) calculada a partir da
graus).
distncia (d) desta em relao cabea, utilizando a equao
Para o clculo da posio do usurio em relao fonte
de onda que diz que a intensidade proporcional ao inverso
sonora utilizamos os dados obtidos do rastreador, que fornece
da distncia ao quadrado [6].
a posio xyz, o grau de rotao da cabea do usurio em
relao a um eixo fixo de coordenadas e a posio da fonte
sonora (fig. 4). 1
ID 2
(7)
d
x R $ x E hR (6 ) (8)
IMPLEMENTAO
Fig. 4 Clculo do ngulo 67entre a cabea e a fonte A implementao do sistema envolve a integrao do
hardware disponvel na CAVERNA, o software utilizado
O eixo de coordenadas deslocado para a cabea do
para navegao (Jinx) e um mdulo especfico de udio que
usurio, a fonte sonora transferida para o 1 quadrante do
se encaixa no Jinx. O diagrama de blocos a seguir mostra as
plano e o ngulo entre a cabea e a fonte calculado atravs
partes do sistema (fig. 5).
da seguinte equao (sendo ab as coordenadas da cabea e xy
as coordenadas da fonte sonora deslocada):
JINX Posio do usurio
9 x"a : Posio da fonte sonora
8 $ arctg ; < (1) Mdulo Arquivo de som
= y "b > Renderizao
udio HRTF
na cabea, fazendo com que sejam perdidas informaes de [10] AudioMulch Interactive Music Studio. Disponvel em:
diretividade dadas, tanto pela orelha humana, como pelo http://www.audiomulch.com/. Consultado em
formato da cabea. Vale lembrar que as medies de HRTF
15/03/2005.
so diferentes para cada pessoa, e que a medio feita pelo
MIT em uma cabea artificial apenas uma aproximao. Ou [11] Voxengo Pristine Space. Disponvel em:
seja, o ideal seria, antes da simulao, obter as HRTFs do http://www.voxengo.com/pspace/. Consultado em
usurio e executar o sistema com estas. 15/03/2005.
Para desenvolvimentos futuros, pensamos em obter as
nossas prprias respostas impulsivas, mais precisas que as j [12] Ambisonic. Disponvel em: http://www.ambisonic.net/.
datadas medidas do MIT. Outra melhoria a interpolao de Consultado em 15/03/2005.
HRTFs para posies intermedirias, minimizando o erro na [13] M.A. Gerzon, Periphony: With-Height Sound
transio entre duas respostas impulsivas. Tambm devemos
Reproduction, J. Audio Eng. Soc., vol. 21, pp. 2-10
incluir ao software de auralizao a possibilidade de
adicionar ao som produzido campos sonoros pr-definidos, (1973 Jan./Feb.)
como cavernas, catedrais etc. [14] Michael Gerzon, Surround Sound Psychoacoustics,
O problema da baixa sensao de realismo pode ser Wireless World, vol. 80, pp. 483-486 (1974 Dec.)
resolvido utilizando algum sistema de sntese de som 3D
mais robusto como, por exemplo, o Ambisonic [12]. Este [15] CRUZ-NEIRA, C.; D.J. SANDIN; T.A. DEFANTI.
sistema conta com uma codificao do som numa grade 3D Surround-screen projection-based virtual reality: The
mais elegante e, usualmente, utiliza diversas caixas de som design and Implementation of the CAVE. In:
posicionados em volta da CAVERNA, que podem assim SIGGRAPH 1993. ACM SIGGRAPH, Anaheim, Jul.
gerar um campo de som perifnico. Esta soluo est sendo 1993
explorada dentro do escopo do projeto AUDIENCE, em
curso na CAVERNA Digital.
REFERNCIAS BIBLIOGRFICAS
[1] CAVERNA DIGITAL. Disponvel em:
http://www.lsi.usp.br/~rv/p/cave_p.html. Consultado em
15/03/2005.
[2] Soares, L. P. and Zuffo, M. K. JINX: an X3D browser
for VR immersive simulation based on clusters of
commodity computers. In Proceedings of the ninth
international conference on 3D Web technology,
Monterey, California, USA, 79 86, 2004.
[3] AUDIENCE Audio Immersion Experience by
Computer Emulation. Disponvel em
http://www.lsi.usp.br/interativos/nem/audience/.
Consultado em 15/03/2005.
[4] Oppenheim A., Schafer R., Discrete-Time Signal
Processing, 2nd ed., Prentice Hall, 1998.
[5] Gardner B., Martin K., HRTF Measurements of a
KEMAR Dummy-Head Microphone, 1994. Disponvel
em: http://sound.media.mit.edu/KEMAR.html.
Consultado em 15/03/2005.
[6] Everest F., Master Handbook of Acoustics, 4th ed.,
McGraw-Hill, 2001.
[7] Flock of Birds. Disponvel em: http://www.ascension-
tech.com. Consultado em 15/03/2005.
[8] Torger A., BruteFIR, 2002. Disponvel em:
http://www.ludd.luth.se/~torger/brutefir.html.
Consultado em 15/03/2005.
[9] Roederer J., Introduo fsica e psicofsica da msica,
1 ed. 1 reimpr., So Paulo: EDUSP, 2002.
ABSTRACT
In this paper we introduce a new model for granular synthesis using Markov Chains and Fuzzy Sets.
Whereas Markov Chains are used to control the evolution of the sound in time, Fuzzy Sets are employed
to define the internal structure of the sound grains. It is shown also how the fuzzy structure of grains
changes the markov Process. We provide the mathematical foundations of the model and briefly discuss
how we have implemented it in a MATLAB program named Fuzzkov 1.0.
49
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS
this case modulate the transition probabilities between particular Fourier partials, that is, it is a sum of basic
states (i.e., grains), changing their ordering position in sinusoidal frequencies.
the time domain. This paper introduced just one of sev- With the above defined matrices Gi , it is possible
eral possible modes of interaction between internal and to define an unambiguously time evolution of grains
external control variables. through out Markov Chains. This is usually accom-
plished through a Fuzzy Transition Table, constructed
FUZZY GRAIN AND ITS MATRIX REPRESENTA- as follows: firstly, suppose that we have a transition ma-
TION trix for ordinary grains, that is, with no membership
Let us denote the space of all possible oscillators, vector yet defined. This can be written as follows:
that is the frequency amplitude space of the ordered
g1 g2 gN
2 3
pair (, a), where the variables and a varies in some ...
1
suitable real intervals. is referred to as a Parameters
6g
6 2 p11 p12 ... 1N 7
p 7
Space. We define, formally, a grain as a finite collection
6g
6 p21 p22 ... p2N 77 (4)
4. . . ... ... ... ... 5
of points {(i (t), ai (t)), i = 1, 2, . . . , N } in , which is
taken here as a state of a Markov Chain. A grain can gN p1N p2N ... pNN
be described by its Fourier Partials inside a real interval which can be viewed as a function
I. Its spectral content can be written, without loss of
generality, as p: `gi gj [0,` 1]
g ,g $ p g i , g j = pij
N
Now, we define a Fuzzy Extended Probability Tran-
X
G(t) = an sin[2n t + n ], (1)
n=1 sition Matrix (or simply Fuzzy Transition Matrix) Q :
where an , n , n reads for amplitude, frequency and a G G [0, 1] as
possible phase, respectively.
In granular synthesis a sound can be viewed as a quick Qij = Q Gi , Gj = ij pij (5)
stream of grains which, from a geometrical point of view,
describes a trajectory in the space. where the symbol means a matrix operation (e.g., a
A grain gi with r Fourier Partials can be read as a scalar product, a matrix product or any other well de-
2 r matrix: fined operation). The function ij is generated as a finite
number of applications of the following basic operations
2 i
1 ai1 of fuzzy sets: for i, j = 1, 2, . . . , N , we define
3
62i i7
a2 7 1.
gi = 6 . .. 7 (2)
6 n o
4 .. .5 ij = max ik , jk , (6)
1kr
ri air
where i and j are the membership vectors of the
Now, a fuzzy grain can be represented as a 3 column grains Gi and Gj respectively.
matrix
2. n o
ij = min ik , jk ,
2 i
1 ai1 i1 (7)
3
1kr
62i ai2 i2 7
Gi = 6 . .. .. 7 (3) where i and j are the membership vector of the
6 7
4 .. . . 5 grains Gi and Gj respectively.
ri air ir
3.
where we have introduced a third column with the mem- ic = 1 i . (8)
bership frequency and amplitude values of each partial
of the grain Gi . Note that g i is a particular case of Gi These result in a product like = ij
ij ij
. . . ij
1 2 l ,
for i1 = i2 = . . . = ir = 1. where the third operation above can be performed on
any product of i vectors. These are basic operations
MARKOV PROCESSES FOR FUZZY GRAINS on Fuzzy Sets. See Diamond and Kloeden [1] for a in-
Fuzzy sets, first proposed by Lofti Zadeh [11] are able troduction to Fuzzy Sets and their metrics. Note that
for handling uncertainty, imprecisions or vagueness. Be- since the membership function modulates the proba-
low we show how the membership functions of fuzzy bility
PN values pij , the condition for the probability sum
ij
grains can modify the Markov Transition Matrix and so j=1 Q = 1 can be violated. In order to solve this
we get a fuzzy control for the Markov Chain. For a good problem we P renormalize the matrix Qij as follows. De-
account of Fuzzy Sets the reader is refereed to [1, 2]. Let noting qi = N k=1 Qik we define the elements of matrix
us consider a grain described by its Fourier-like equation P as
(1). Each subset of points in represents a grain with Pij = Qij /q i i, j = 1, 2, . . . , N (9)
50
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS
51
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS
This procedure leads to a concentration of frequencies which avoids glitches and, in the macro scale, we in-
within a narrow bandwidth, but with a large bandwidth cluded crescendo and decrescendo effects. In fact this
for the amplitudes. The halting criterion here can be can be done more generally by using an modulation func-
taken as the Cauchy type. Given an arbitrary (but small) tion with an arbitary number of peaks and regions with
number &, the process stops if dH (Gi , Gi+1 ) &, where increasing as well decreasing rates.
the distance between two points used for defining the We have normalized all the sound signals, so they are
above Hausdorf Distance is given by, for example: more suitable to analysis and comparison. After record
the digital signal as a wav.file the program has three out-
d ((i , ai ) , (j , aj )) = max |i j | . (15) pus: sound stream, spectrogram and plot of the probabil-
1kr
ity vector evolution from MATLAB. In adition,in order
If we fix a particular grain in the space, such as G, to analyse in a easy way our results, we used the WAVE-
we can consider the Convergent LAB program to get a 3D-analysis in a time frequency
` halt criterion , that is space.
the proceess stops if dH Gi , G &.
We can also take the mean frequency only of the last
m grains and so it reads as CONCLUSION
We have presented a model for granular synthesis as
r
X klm + klm+1 + . . . + kl1 a Markov Chain in which each grain is a possible state
(l) = (16) of a Grain Vector G. A major feature of our model
m
k=1 is that the spectral components of the grains are cou-
(l)
pled with the state transition probability through grains
and take
S the r kclosest frequencies to from the set membership vectors. This allows the user more flexibil-
Ul = l1k=lm G . Clearly, for m = l we get the previous ity in a higher level as well more variability to control
model. the sequence of grains of the Markov Chain. We have
A short description of the Diagram of Fuzzkov 1.0 implemented a computer algorithm named Fuzzkov 1.0,
(Fig 1) is as follows. The grains are generated by ran- written in MATLAB, in which the membership functions
domly (uniform and gaussian) 3-dimensional matrices A modulate the Transition Probability Matrix. Neverthe-
with dimensions 2 r N which include r normalized less the internal contents of the grains are not changed
frequencies and amplitudes for N grains (Fourier Par- by them in this first version of Fuzzkov. In this way,
tials). We have taken the uniform as well the Gaus- the present model can be understood as a Coarse Grain
sian distribution of probability to gerated them. From Fuzzy Synthesis. A more complex program should allow
this we get a Matrix B(2, 1, N ) with the sum of Fourier the use of Fuzzy Functions to emphasize some partic-
Partials for the N grains. A Markov transition Matrix ular components of the spectral content of the grains
p(N, N ) is generated and modified by a Membership Ma- and then to drive the sound flow by updating them at
trix M emb(N, N ). A number of diferent operations are each step through mergin and selecting the most rep-
available to do this modification. So we get a fuzzyfied resentative frequencies and amplitudes to construct the
Markov Matrix Q(N, N ) which operates on an aaray of next grain of the stream. As Halt Criteria we used the
probabilities vectors u(n+1, N ). Next, a particular filter Maximal Number of Steps, as well the Cauchy type with
choose the index of the maximal value of each probability the Hausdorff Metric between grains. A model in which
vector I(1, n+1). Finally, the program reorder the Grain the states of the Markov Chain are related to grainss
matrix B(2, 1, N ) along the index vector I(1, n + 1) and subsets (Fine Grain), as well an effective use of Fuzzy
produce the sound as well other outputs for analysis. Metrics, will be presented elsewhere.
A distintive point of our approach is its flexibility of
EXAMPLES AND ANALYSIS OF THE RESULTS macro manipulation by fuzzy matrices parameters. At
We have implemented a prototype of our model us- present time we can consider this control as a toy model.
ing Matlab in which Membership Matrices modulate a Nevertheless it has a great potential to include new as-
Transition Probability Matrix of a Markov Chain, but pects of the fuzzy approach. Also all effects are included
the internal content of the grains are not changed dur- in the algorithm and so no external device is needed.
ing the Process. Thus, our model can be thought of Our experiments with Fuzzkov 1.0 has shown that its
as a Coarse Grain Fuzzy Synthesis. We have used the audio output is comparable with the most recent granu-
MNS and Cauchy criteria, by using the Hausdorff Met- lar synthesizers and in adition, depending on the inputs
ric on the Grain Space, in order to halt the process. parameters it can provide surprisingly new sounds
Weakly convergent process have lead to rich varities of
timbre along sound streams. This is because the sys- ACKNOWLEDGMENTS
tem has time enough to explore the possibilities dur- This work was supported by CAPES (Coordenado-
ing the Markov Process. We have in adition included ria de Aperfeicoamento de Pessoal de Nvel Superior),
some special effects commonly used in granular syntehsis Brazil, under Project 0205-04-4 and FAEP (Fundaca o
such as modulation through time windows for the grains, de Apoio a` Pesquisa e ao Ensino), UNICAMP. AMJ is
52
52
MIRANDA ET AL. SYNTHESIS THROUGH FUZZYFIED MARKOV CHAINS
grateful to the School of Communications, Electronics [10] B. Truax, Real Time Granular Synthesis with a DSP
and Engineering of University of Plymouth for the hos- Computer, Computer Music Journal, Vol. 2, No. 2,
pitality during his sabbatical. pp. 14-26, (1988).
[11] L.A. Zadeh, Fuzzy Sets, Informat. Control, 8, 338-
REFERENCES 353, (1965).
[1] P. Diamond and P. Kloeden, Metrics of Fuzzy Sets:
Theory and Applications, World Scientific, (1994).
[2] A. Kandel, Fuzzy Techniques in Pattern Recogni-
tion, John Wiley Sons, (1982).
[3] D. Gabor, Acoustical Quanta and the Theory of
Hearing, Nature159 (4044), 591-594,(1947).
[4] E. R. Miranda, Generating Source Streams for Ex-
tralinguistic Utterances, Journal of the Audio Engi-
neering Society, 50(3):165-172, (2002).
[5] E. R. Miranda, Computer Sound Design: Synthesis
techniques and Programming, Oxford: Focal Press
(2002).
[6] C. Roads, Introduction to Granular Synthesis,
Comp. Mus. Jour. 12(2), 11-13 (1988.)
[7] C. Roads, Computer Music Tutorial, MIT Press,
Cambridge, MA (1996).
[8] C. Roads, Microsound, MIT Press, Cambridge,MA,
(2001).
[9] P. Thomson, Atoms and errors: towards a his-
tory and aesthetics of microsound, Organized Sound
9(2), 207-218, (2004).
53
Reviso
Andr Lus Dalcastagn
Antonio Carlos Moreiro de Queiroz
Fbio Pacheco Freeland
Fernando Antnio Pinto Barqui
Fernando Santana Pacheco
Filipe Castello da Costa Beltro Diniz
Joarez Bastos Monteiro
Leandro Ferrari Thomaz
Leonardo Gomes Baltar
Miguel Arjona Ramrez
Monique Virrio Nicodem
PauloAntonio Andrade Esquef
Regis Rossi Alves Faria
Ronaldo de Freitas Zampolo
Rosalfonso Bortoni
Sergio Lima Netto
Sidnei Noceti Filho
Tadeu Nagashima Ferreira
Crditos
Coordenao Geral:
Coordenao Tcnica:
Comisso Tcnica: