Escolar Documentos
Profissional Documentos
Cultura Documentos
MARINGÁ
2017
GUILHERME EL KADRI RIBEIRO
A forma do decoder é uma matriz linear de coeficientes complexos, que definem a amplitude
e diferença de fase dos sinais de saída, dependentes do sinal da fonte de entrada. São
discutidas técnicas de aprimoramento da lógica, que procuram melhorar a separação entre
os canais.
O decoder descrito é capaz de fornecer uma boa reprodução do som surround. Em particular,
mostrou um desempenho muito próximo de um sistema discreto de 5 canais de uma matriz
decoder ativo, matrizes originalmente gravados para a reprodução surround. As falhas
normalmente associadas ao decorder passivo, decodificados, são quase inaudíveis e bem
atenuadas visto que o sinal esta sendo tratado digitalmente, atribuindo uma boa fidelidade
na qualidade do sinal processado comparado a outros tecnologias surround.
The form of the decoder is a linear matrix of complex coefficients that define the power
and phase difference of the output signals dependent on the input source signal. Logic
enhancement techniques are discussed that seek to improve how separations between
channels.
The described decoder is capable of providing a good reproduction of the surround sound.
In particular, it showed very close performance of a discrete 5-channel system of an
active matrix decoder, i.e. originally recorded for surround playback. The faults normally
associated with passive decoded decoded are almost inaudible and well attenuated as the
signal is treated digitally, attributing a good fidelity in the quality of the processed signal.
RC Resistor Capacitor
FT Função Transferência
l Left
r Right
c Center
ls Left Surround
rs Right Surround
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . 13
2.1 Teorema da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Bit rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Compressão de áudio . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Filtros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Reprodução Surround . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Canal LFE (Subwoofer) . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Decibel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 Sistema Físico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Crossover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 Filtro FIR passa-baixa . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Modelagem Matemática . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1 Matriz surround . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1 Espectrogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
11
1 Introdução
A história da reprodução de som teve seu início apenas um canal (mono), poste-
riormente desenvolveu-se com dois canais, convencionado de stereo e o som multicanal,
também conhecido como surround. A empresa Dolby iniciou sua aplicação nesta área,
com atenuadores de ruído com a Dolby Noise Reduction em 1968, após isso começou
seu trabalho em processamento de áudio. Seu primeiro padrão multicanal foi o Dolby
Surround, utilizado em 1976 pelo filme A Star is Born. Em menos de dez anos depois a
Dolby reformulou o sistema para uso doméstico, evoluindo a tecnologia comercializada no
padrão Dolby Pro Logic.
O sistema matriz Dolby Surround (5-2-5) foi projetado principalmente para superar
as limitações de compatibilidade mono e estéreo de outros sistemas de matriz 5-2-5
propostos, mantendo a capacidade de fornecer um decoder passivo. Para que a reprodução
da Dolby forneça um aprimoramento significativo na sensação do som, juntamente com
uma maior sensação de realidade para o ouvinte, o decoder estudado deve ser efetivo
na extração da informação direcional contida na matriz 5-2-5 cujo o sinal stereo está
codificado.
A notação 5-2-5 consiste no número de canais de áudio discretos separados por
dois pontos a partir do número de canais codificados e decodificados. A decodificação dos
sinais 5-2-5 não se limita a um único método, e é o propósito deste trabalho averiguar a
lógica dos decoders que foram implementados. É altamente provável, no entanto, que a
evolução continuará a ser feita no campo da decodificação.
Formatos populares de som surround :
• Som Quadrifônico;
• DTS-ES;
• THX Ultra2.
1.1 Problemática
A tentativa de reprodução do som surround vem sendo estudada junto ao avanço
da tecnologia na área de processamento de sinais, usando métodos de localização psico-
acústica para simular campos 3D. Embora o cinema represente o principal uso do surround,
seu campo de aplicação é mais amplo. As técnicas de áudio multicanal podem ser usadas
Capítulo 1. Introdução 12
para reproduzir música, fala, sons naturais ou sintéticos para cinema, televisão, rádio ou
computadores. Em termos de música, por exemplo, uma performance ao vivo pode usar
técnicas surround no contexto de um show, orquestras e teatros.
1.2 Objetivo
O trabalho tem como objetivo o estudo da tecnologia criada e comercializada pela
Dolby Laboratories, Pro Logic II de codificação e decodificação de áudio. Apesar de não ser
o único método, o projeto também apresenta a essência do processamento, quantização e
amostragem no sinal.
1.3 Organização
O presente trabalho está organizado da seguinte forma:
Capítulo 1: é explicado o advento da tecnologia assim como a organização deste
trabalho.
Capítulo 2: os conceitos relacionados a processamento digital de sinais de áudio
serão abordados neste capítulo, bem como o levantamento da discretização física dos canais
no espaço.
Capítulo 3: o sistema físico e a matriz decoder foram discutidas, assim como as
especificações de cada dispositivo.
Capítulo 4: resultados em espectros de frequência para localizar as atenuações das
frequências de cada canal e suas devidas potências.
Capítulo 5: remete o tema de forma sucinta visando trabalho futuros e considerações
sobre o trabalho.
13
2 Fundamentação Teórica
B
ωs > 2B(rad/s) ou fs > (2.1)
π
Matematicamente, o processo de amostragem é representado pelo multiplicação do
sinal x(t), no domínio do tempo, pelo trem de pulsos, p(t), conforme a Figura 1.
Essa multiplicação de x(t) no tempo, é equivalente a convolução no domínio da
frequência, a CFT, Continuous Fourier transform, do sinal amostrado, xs (t), corresponde
a convolução da CFT de x(t) com o trem de pulso, p(t). O espectro dos impulsos é também
um trem de impulsos uniformemente espaçados em frequência espaçada 1/Ts Hz. A CFT
do sinal amostrado é, portanto, uma extensão periódica da CFT do sinal analógico como
mostrado na Figura 2. Na Figura 2, o sinal analógico foi considerado idealmente limitado
em banda e a frequência de amostragem, ωs , foi escolhido para ser mais do que 2B para
evitar aliasing (sobreposição espectral). A CFT do sinal amostrado é dado pela equação
∞
1 X
Xs (ω) = X(ω − kωs ). (2.2)
Ts k=−∞
Note que o espectro do sinal amostrado na Figura 2 pode ser usado um filtro passa-
baixas (LPF) para recuperar a banda do sinal e, portanto, reconstruir o sinal analógico
original a partir do sinal digital. O processo de reconstrução é mostrado na Figura 3. A
reconstrução LPF interpola entre as amostras e reproduz o sinal analógico a partir do sinal
digital.A interpolação fica evidente uma vez que a operação de filtragem é interpretada no
domínio do tempo como convolução. A reconstrução ocorre interpolando com a função
sinc, que é a resposta de impulso do filtro passa-baixa ideal. O processo de reconstrução
Capítulo 2. Fundamentação Teórica 14
∞
X
x(t) = x(nTs )sinc(B(t − nTs )). (2.3)
n=−∞
diferentes taxas de áudio utilizadas como padrão estão apresentadas na Tabela 1 [Spanias,
Painter e Atti 2005].
• Frequência de amostragem;
2.2 Filtros
Seja um sistema LTI (Linear Time Invariant), mostrado na Figura 5, um filtro
linear que satisfaça a propriedade de superposição, portanto, a sua saída y(t), é a convolução
da entrada, x(t), com a resposta ao impulso do filtro, h(t). Matematicamente, a convolução
é representada pela integral
Z ∞
y(t) = h(τ )x(t − τ )dτ = h(t) ∗ x(t). (2.5)
−∞
decrescente, e sua resposta em frequência é dado pela função de primeira ordem, H(ω).
Essa função complexa representa o ganho do filtro em relação a frequência no estado
estacionário. Se uma senoidal entrar no filtro, a saída é uma senoidal com frequência
filtrada. Porém, sua amplitude é dimensionada e a fase é deslocada com a mesma magnitude
e fase da função de resposta em frequência, respectivamente.
2.3.2 Decibel
No âmbito do processamento de áudio, usa-se a unidade de medida logarítmica
decibel (dB), esta unidade serve para indicar grandezas como potencia e amplitude do sinal.
O tipo de medida utilizados neste trabalho são dBV (decibel-Voltage), conhecido também
como Amplitude ratio, e dBm (decibel-Miliwatt), utilizado para medir a quantidade de
potência em determinado instante de tempo pelo espectrograma.
Amplitude ratio
Vs
dB = 20log10 , (2.6)
Ve
onde Vs e Ve é a tensão de entrada e a tensão de saída respectivamente.
Decibel-Miliwatt
Ps
dBm = 10log10 , (2.7)
1mW
Ps é a potência de saída do sistema, que sai da relação de potência Power ratio, dado por
Ps
dB = 10log . (2.8)
Pe
20
3 Materiais e Métodos
3.1.1 Crossover
O crossover realiza uma compressão multi-banda que comprime diferentes bandas
de frequência de áudio separadamente, primeiro dividindo o sinal em duas faixas e depois
passando cada banda através de seu próprio filtro de forma independente. Foi utilizado um
filtro crossover Linkwitz-Riley, também conhecido como um filtro quadrado Butterworth,
pois são projetados em cascata pelo mesmo, cada um com um ganho de -3dB na frequência
de corte, ou seja, a resposta dos dois filtros produz um ganho de 0dB na frequência do
cruzamento, de modo que o crossover atua como um filtro passa-tudo, e, portanto, não
apresenta distorção no sinal de áudio [MathWorks 2013].
Foi implementado um filtro de ordem 4, logo sua inclinação, ou joelho, será
24dB/oitava, que realiza um crossover na frequência de 120Hz, ilustrado na Figura
10.
Banda 2
-10
-20
Magnitude (dB)
-30
-40
-50
-60
-70
10 2 10 3 10 4
Frequência (Hz)
0.9
0.8
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250
Amostras
sin ωc (n − nd )
hd [n] = . (3.2)
π(n − nd )
Onde n são amostras do sinal e nd as amostras atrasadas que ornam o filtro causal.
Nota-se que a resposta impulsiva é a função sinc(x) com 145 amostras, conforme a Figura
13. A janela de Kaiser é descrita pela equação 3.3.
q
2n
2
I0 πα 1 − N −1
−1
w[n] = , (3.3)
I0 (πα)
Capítulo 3. Materiais e Métodos 23
10
FIR LPF com Kaiser
0
-10
Magnitude da resposta H(f) (dB)
-20
-30
-40
-50
-60
-70
-80
-90
-100
0 0.5 1 1.5 2
f (Hz) ×10 4
0.35
0.3
0.25
0.2
Amplitude
0.15
0.1
0.05
-0.05
-0.1
0 50 100 150 200 250
Amostras
onde I0 é uma função de Bessel modificada do primeiro tipo e de ordem zero, α é um número
arbitrário não negativo que determina a forma da janela. Logo os coeficientes do filtro
são descritos pela equação 3.1, onde a janela Kaiser é vetorialmente multiplicada por a
resposta ideal. Ao multiplicar a função sinc(x) pela janela Kaiser, tem-se o comportamento
desejado para manter o lóbulo principal e desprezar os lóbulos secundários, conforme a
Figura 14
Como o sinal filtrado y[n] será está sendo multiplicado no domínio da frequência,
Capítulo 3. Materiais e Métodos 24
0.35
0.3
0.25
0.2
Amplitude
0.15
0.1
0.05
-0.05
-0.1
0 50 100 150 200 250
Amostras
podemos calcular sua resposta fazendo uma convolução entre x[n] e h[n].
l(t)
r(t)
" # q q
lt (t) 1 0 √1 −i 23 −i 13
2
(3.5)
= q q . c(t) ,
rt (t) 0 1 √1 i 13 i 23
ls (t)
2
rs (t)
o i indica mudança de fase de 90◦ [Breebaart e Faller 2008]. Alternativamente, o sistema
pode ser escrito como
" #
lt (t)
= vl l(t) + vr r(t) + vc c(t) + vls ls (t) + vrs rs (t), (3.6)
rt (t)
onde os cinco vetores são vetores unitários que mapeiam os cinco canais de entrada para
os dois canais de saída. Os vetores são mostrados em relação a lt (t) e rt (t) na Figura 15.
canais de áudio para zero e assim melhorar a separação do canal. Esta é a principal ideia
por trás dos decoders ativos [Breebaart e Faller 2008].
27
4 Resultados
4.1 Espectrogramas
O áudio de entrada x[n] usado como exemplo é uma faixa stereo em formato
WAV, pois este bitstream é codificado de forma linear sem perdas ou compressão. Para
reprodução, selecionou-se uma música tocada por violino, visto que abrange bem as bandas
de frequência audível ao ser humano, com duração de aproximadamente 54.3 segundos.
Quantizado em 16bits cada canal e amostrado a uma frequência de 44,1kHz conforme a
Figura 16.
Como visto no espectro de frequência da Figura 16, a reprodução é audível entre
as frequências 20Hz a 20kHz e separados nos canais left e right.
Pode-se analisar pela Figura 17 o canal subwoofer a frequência esta limitada a
120Hz com a compressão multi-banda do crossover, e reproduzido como canal mono, visto
que somou-se os dois canais originalmente codificados.
Ambos canais left e right permanecem inalterados do áudio stereo codificado, como
constata na Figura 18 e 19.
Pode-se analisar que a potência em dBm do canal center está mais atenuada, as
cores vermelho e amarelo mais enfraquecidas do que as dos canais left e right visto que
sua amplitude é reduzida em 29% visto na Figura 20.
Nota-se que ambos os canais ls e rs são filtrados as frequências acima de 7kHz,
fazendo com que as magnitudes do sinal mais forte que os demais, de acordo com as
Figuras 21 e 22 respectivamente. Filtrando o conteúdo de alta frequência também tem
o efeito de fazer com que os alto-falantes surround saem mais longe e mais difíceis de
localizar, fazendo com que o som pareça ecoado [Dressler 2000]. Pelos gráficos não pode-se
constatar o delay de 10ms, pois este é um efeito sutil para analisar em um escopo de
tempo. No prática, foi adicionado 441 amostras nulas ao sinal x[n],
-20
dBm
-40
-60
-80
-100
10 -1 10 0 10 1
RBW=21.53 Hz Frequência (kHz)
20 subwoofer
left
0 right
center
left surround
-20 right surround
-40
dBm
-60
-80
-100
-120
-140
10 -1 10 0 10 1
RBW=21.53 Hz Frequência (kHz)
5 Conclusão
Referências
RUMSEY, F. Spatial Audio. illustrated, reprint. Oxford, United Kingdom: Focal Press,
2001. ISBN 0240516230, 9780240516233. Citado 3 vezes nas páginas 17, 18 e 20.
SPANIAS, A.; PAINTER, T.; ATTI, V. Audio Signal Processing and Coding. [S.l.]: John
Wiley & Sons, Inc., 2005. ISBN 9780471791478. Citado 3 vezes nas páginas 14, 15 e 17.