Você está na página 1de 15

Captulo 05 - Codificao de Voz

O sinal de voz um sinal limitado em frequncia, contnuo no tempo e em


amplitude. Embora a frequncia mxima deste sinal esteja em torno de 10 kHz, para
telefonia limitamos esta frequncia em 3,4 kHz, reduzindo a largura de faixa necessria
para transmiti-lo, sem perda de inteligibilidade e da capacidade de identificar o locutor,
embora com perda de qualidade.

Os sinais de voz so no-estacionrios, mas podem ser considerados quase-


estacionrios em segmentos curtos, tipicamente entre 5 e 20 ms. Logo, os processos de
codificao que dependem de propriedades estatsticas e espectrais do sinal so
definidos em segmentos curtos. [SPANIAS, 1994].

Os codificadores de voz podem ser classificados em codificadores de forma de


onda, codificadores paramtricos e codificadores hbridos.

Nos codificadores de forma de onda, buscamos a representao da informao


contida no sinal por meio de um processo de amostragem, quantizao e codificao. As
tcnicas de codificao de forma de onda se aplicam a qualquer sinal analgico (no
necessariamente voz).

Os codificadores paramtricos, tambm denominados de Vocoders, operam


utilizando um modelo que representa o processo de gerao do sinal de voz. O sinal
codificado contm os parmetros do modelo criado para simular o processo fisiolgico
de gerao da voz. O transmissor define os parmetros necessrios para implementar
este modelo e os transmite ao receptor que, com base nestes parmetros, gera o sinal de
voz novamente.

Os codificadores hbridos so aqueles que mesclam conceitos associados a


codificadores de forma de onda e aos paramtricos.

Os codificadores mais comuns em telecomunicaes so os de forma de onda, como


PCM (Pulse Code Modulation), e os hbridos, como CELP (Code Excited Linear
Predictive).

Nas sees 5.2.1 a 5.2.3 apresentaremos um resumo sobre a operao de alguns


codificadores de voz importantes utilizados em telecomunicaes, sem, no entanto,
entrar em detalhes sobre a anlise matemtica destes codificadores e sem abordar
questes relacionadas implementao, que em geral envolvem complexos conceitos de
processamento digital de sinais, que esto fora do escopo deste texto.

Uma anlise um pouco mais detalhada sobre codificao de voz pode ser
encontrada no Captulo 13 de [SKLAR,2001]. Um bom texto tutorial sobre o assunto
pode ser encontrado em [SPANIAS,1994]. Para um estudo mais completo e profundo,
recomendamos ao leitor interessado as referncias [CHU,2003] e
[OGUNFUNMI,2010].

5.2.1. PCM (Pulse Code Modulation)

A Modulao por Cdigos de Pulsos (PCM Pulse Code Modulation) uma das
tcnicas mais importantes para codificao de voz, sendo classificada na famlia de
codificadores de forma de onda.

Para a gerao do sinal PCM, o primeiro passo amostrar o sinal. O Teorema de


Nyquist diz que possvel recuperar completamente o sinal a partir de suas amostras,
desde que a amostragem ocorra a uma frequncia, no mnimo, duas vezes superior
mxima frequncia do sinal. As Figuras 5.2 a 5.4 ilustram o processo de amostragem.
Na Figura 5.2 temos o sinal analgico original; ou seja, o que se deseja digitalizar; na
Figura 5.3 temos um trem de impulsos e na Figura 5.4 temos o sinal original, mostrado
em cinza, e o sinal amostrado (em preto), que obtido pela multiplicao do sinal
analgico original pelo trem de impulsos. A frequncia de amostragem o inverso do
intervalo entre amostras sucessivas, TS na Figura 5.4. Perceba que o sinal amostrado
um sinal discreto no tempo, s existe nos instantes de amostragem, mas ainda no um
sinal digital, pois ainda pode assumir qualquer valor de amplitude, uma vez que a
amplitude de cada amostra corresponde do sinal original no instante de amostragem.

Como j dissemos, se a freqncia de amostragem for maior ou igual a duas vezes a


mxima freqncia do sinal, o sinal original pode ser completamente recuperado a partir
de suas amostras. Para entender esta propriedade necessrio analisar o processo no
domnio da freqncia. Por exemplo, considere que o sinal analgico original tem
freqncia mxima fm e espectro de freqncia como mostrado na Figura 5.5. Quem
familiarizado com anlise de Fourier sabe que o espectro de um trem de impulsos
outro trem de impulsos e que o processo de multiplicao de sinais no domnio do
tempo corresponde convoluo dos mesmos sinais no domnio da freqncia 1. A
Figura 5.6 ilustra a representao no domnio da freqncia do trem de impulsos
ilustrado na Figura 5.3. O espaamento entre impulsos na Figura 5.6 igual
freqncia de amostragem. A convoluo de um sinal com um trem de impulsos resulta
em vrias rplicas do sinal centradas em cada um dos impulsos, como ilustrado na
Figura 5.7. Se a freqncia de amostragem igual a duas vezes a freqncia mxima do
sinal (fs = 2fm), no h sobreposio entre as diversas rplicas do sinal original e o
mesmo pode ser recuperado por simples filtragem (esta situao ilustrada na Figura
5.8). Se a freqncia de amostragem menor do que duas vezes a mxima freqncia
do sinal (fs < 2fm), h sobreposio entre as rplicas e o sinal original no pode ser
recuperado, conforme ilustrado na Figura 5.9.

Figura 5.2. Sinal analgico a ser digitalizado.

1 Se voc no est familiarizado com anlise de Fourier e este pargrafo est parecendo
estar escrito em grego, simplesmente acredite que isto funciona e siga para o texto aps
a figura 5.8.
Figura 5.3. Trem de impulsos.

Figura 5.4. Sinal amostrado.

Figura 5.5. Espectro do Sinal analgico a ser digitalizado.

Figura 5.6. Espectro do trem de impulsos da Figura 5.3.


Figura 5.7. Espectro do sinal amostrado.

Figura 5.8. Espectro do sinal amostrado para fs = 2fm.

Figura 5.9. Espectro do sinal amostrado para fs < 2fm.

O prximo passo no processo de codificao discretizar a amplitude do sinal


amostrado. Neste processo, denominado de quantizao, definimos os valores de
amplitude que o sinal quantizado pode assumir, denominados de nveis de quantizao,
e aproximamos a amplitude de cada amostra para o nvel mais prximo. A Figura 5.10
ilustra o sinal amostrado da Figura 5.4 e cinco nveis de quantizao que sero
utilizados no processo de aproximao do sinal amostrado para o nvel de quantizao
mais prximo (representado por um ponto na figura).

Figura 5.10. Quantizao do sinal amostrado da Figura 5.3.

Aps a quantizao ocorre o processo de codificao, no qual cada amostra


quantizada transformada em uma palavra cdigo binria que ser transmitida. Para tal,
a cada nvel de quantizao temos uma palavra cdigo associada, como ilustrado na
Figura 5.10. Neste exemplo, o sinal analgico original da Figura 5.2 ser transmitido
pela seguinte sequncia binria, na qual cada trs bits representam uma amostra do sinal
original: 001 011 011 011 011 010 001 000 000 011 100 011 010 010.

O nmero de bits da palavra cdigo que ir representar cada amostra quantizada


pode ser calculado por:

n log 2 L
(5.5)

onde L representa o nmero de nveis de quantizao.

Como o espao entre amostras definido pela freqncia de amostragem, que


definido pela mxima freqncia do sinal a ser transmitido, o nmero de nveis de
quantizao definir a taxa de transmisso. Por exemplo, se admitirmos que o sinal
ilustrado na Figura 5.2 tem freqncia mxima de 500 Hz, podemos utilizar uma
freqncia de amostragem de 1 kHz (2fm) e o espaamento entre amostras adjacentes
de 1 ms. Como cada amostra representada por trs bits (veja Figura 5.10), preciso
transmitir 3 bits em 1 ms, resultando em uma taxa de transmisso de 3 kbps. Em geral, a
taxa de transmisso do sinal codificado calculada por:
R fs n
(5.6)

Como podemos observar na Figura 5.10, o processo de quantizao introduz um


erro, denominado erro de quantizao, que a diferena entre a magnitude da amostra
antes da quantizao e a magnitude da amostra quantizada. Quanto maior este erro, pior
a qualidade do sistema. fcil perceber que o mximo erro de quantizao possvel
igual a metade do passo de quantizao, q, que o espaamento entre nveis de
quantizao adjacentes.

Assumindo que o erro de quantizao uniformemente distribudo entre q/2 e +


q/2, sua mdia nula e a varincia do rudo de quantizao (que representa o rudo do
quantizador ou potncia do erro) pode ser calculada por [SKLAR,2001]:

1 q2
e 2 p e de
q 2 q 2
2 e2 de
q 2 q 2 q 12
(5.7)

Logo, para diminuirmos o erro de quantizao necessrio aumentar o nmero de


nveis de quantizao, reduzindo assim o espaamento entre nveis adjacentes. No
entanto, aumentar o nmero de nveis de quantizao significa aumentar o nmero de
bits necessrios para codificar cada nvel e, consequentemente, aumentar a taxa de
transmisso. Ou seja, podemos concluir que na tcnica PCM h um compromisso entre
qualidade e taxa de transmisso. Para obtermos mais qualidade necessrio aumentar a
taxa de transmisso.

A relao entre a potncia de pico do sinal e a potncia mdia do rudo de


quantizao, dada pela equao (5.7), pode ser calculada por [HAYKIN,2001]:
2
V pp Lq
2
L2 q 2
S 2 2
2 2 4 3L2
N q2 q q
12 12 12
(5.8)

Ou seja, para melhorarmos a qualidade do sistema preciso aumentar o nmero de


nveis de quantizao, o que resulta no aumento da taxa de transmisso, como j
conclumos anteriormente.

O processo de quantizao descrito acima denominado de quantizao linear, pois


o passo de quantizao constante em toda faixa de operao do quantizador. O
problema com esta abordagem que o rudo de quantizao tambm constante,
resultando em uma relao sinal/rudo varivel, que diminui medida que o sinal a ser
quantizado tem menor amplitude. Para contornar este problema, uma abordagem
utilizar um quantizador no-uniforme, no qual o passo de quantizao varia, com
valores menores para menores magnitudes do sinal e valores maiores para maiores
magnitudes do sinal. Ou seja, a ideia distribuir os nveis de quantizao com
espaamento no uniforme, objetivando manter a relao sinal/rudo constante,
independente da magnitude do sinal, mantendo no entanto o nmero total de nveis de
quantizao. A Figura 5.11 ilustra a ideia do quantizador no-uniforme para um
quantizador com cinco nveis de quantizao, similar ao ilustrado na Figura 5.10.

Figura 5.11 Ideia do quantizador no-uniforme.

Uma forma usual de implementar uma codificao no-uniforme passar o sinal de


entrada por um processo de compresso e ento utilizar um quantizador linear, como
ilustrado na Figura 5.12. Este procedimento exige que o processo de compresso seja
desfeito no receptor, por um processo chamado de expanso, que a operao inversa
da compresso.
Figura 5.12 Quantizao no-uniforme implementada por meio de compresso.

Para que a compresso resulte em uma relao sinal/rudo que seja independente da
distribuio estatstica da magnitude do sinal de entrada, preciso que a lei de
compresso seja logartmica [SKLAR,2001]. Uma de duas leis de compresso so
normalmente utilizadas nos codificadores padronizados: a Lei , utilizada nos Estados
Unidos com = 255, e a Lei A, utilizada na Europa com A = 87.6. As Equaes (5.9) e
(5.10) definem a relao entre as magnitudes normalizadas de sada e entrada do sinal
para as leis e A, respectivamente, enquanto a Figura 5.13 ilustra tais leis de
compresso [HAYKIN,2001].

log 1 m
v
log 1
(5.9)

Am 1
, 0 m
1 log A A
v
1 log A m ,
1
m 1
1 log A A
(5.10)

Onde |m| representa o mdulo da magnitude normalizada do sinal de entrada, |v|


representa o mdulo da magnitude normalizada do sinal de sada e e A so constantes
positivas.

Figura 5.13 Ilustrao das leis de compresso e A.


O padro G.711 do ITU-T utiliza a tcnica PCM para digitalizao de sinais de voz
para transmisso pela rede telefnica. Neste padro o sinal amostrado a uma taxa de
8.000 amostras por segundo e cada amostra codificada em 8 bits, pois so utilizados
256 nveis de quantizao. Logo, a taxa de transmisso resultante de 64 kbps (8.000
amostras por segundo vezes 8 bits por amostra).

5.2.2. Differential PCM (DPCM)

A tcnica DPCM consiste em quantizar diferenas de amplitude entre amostras


sucessivas do sinal amostrado, ao invs de quantizar o valor absoluto de cada amostra.
Como no sinal de voz no h variao muito abrupta nos valores de magnitude de uma
amostra para a prxima, esta abordagem resulta na diminuio da faixa dinmica do
sinal quantizado (diferena entre o maior e o menor valor possvel do sinal quantizado),
permitindo o uso de um menor nmero de nveis de quantizao e, consequentemente, a
reduo na taxa de bits resultante do processo de codificao. A Figura 5.14 ilustra a
ideia do DPCM para um sinal sem variao abrupta de magnitude: podemos observar na
figura o sinal amostrado a partir do sinal original e o sinal resultante da diferena entre
amostras sucessivas; os nveis de quantizao esto tambm ilustrados na figura (linhas
tracejadas). Podemos perceber facilmente que a quantizao do sinal resultante da
diferena entre amostras sucessivas requer uma menor quantidade de nveis de
quantizao se comparado ao sinal amostrado a partir do sinal original.

Figura 5.14 Ilustrao do processo de quantizao do sinal diferena entre


amostras sucessivas.
Como sucessivas amostras do sinal de voz so altamente correlacionadas, possvel
reduzir ainda mais a taxa de transmisso utilizando um algoritmo de predio das
amostras do sinal de voz. Nesta abordagem, ilustrada na Figura 5.15, um preditor estima
o valor de cada amostra e o sinal quantizado e codificado a diferena entre o valor real
da amostra e o valor estimado pelo preditor, denominado de erro de predio. A alta
correlao entre amostras sucessivas garante um bom desempenho do preditor,
resultando em um sinal de erro de predio com faixa dinmica reduzida, o que permite
a reduo no nmero de nveis de quantizao e, consequentemente, a reduo na taxa
de transmisso.

A sada de um preditor linear de N passos uma combinao linear dos N sinais


prvios presentes em sua entrada. Em outras palavras, a estimativa para a n-sima
amostra obtida com base nas amostras (n 1), (n 2), ..., (n N), ou seja:

x n h1 y n 1 h2 y n 2 hN y n N
(5.11)

onde h1, h2, ..., hN so os coeficientes de predio; y(n 1), y(n 2), y(n N) so os

x
sinais na entrada do preditor e (n) a o sinal estimado na sada do preditor para a n-
sima amostra. Os valores dos coeficientes de predio devem ser definidos de forma a
maximizar o ganho obtido com a codificao diferencial. Para detalhes, veja [JAYANT,
1984].

Uma abordagem mais simples, e em geral mais ineficiente, fazer a estimativa para
a n-sima amostra com base apenas na amostra anterior (preditor de 1 passo), ou seja:

x n h1 y n 1
(5.12)
Figura 5.15 Ideia bsica do DPCM.

Se o preditor e/ou quantizador so adaptativos, tem-se a tcnica denominada


ADPCM (Adaptive DPCM). Alguns codificadores padronizados que utilizam a tcnica
ADPCM so o G.726 e o G.727, ambos padronizados pelo ITU-T, que operam com
taxas entre 16 e 40 kbps, inferior, portanto, aos 64 kbps do codificador G.711, que
utiliza a tcnica PCM.

5.2.3. Codificadores Paramtricos e Codificadores Hbridos

Basicamente, o sinal de voz pode ser decomposto em trechos que apresentam certa
periodicidade no domnio do tempo (quase-peridicos), denominados sinais sonoros, e
trechos com caractersticas similares a sinais aleatrios, denominados sinais no-
sonoros, conforme ilustrado na Figura 5.16 [SALOMON,2007].

Figura 5.16 Ilustrao de sinal de voz sonoro e no-sonoro.

Os codificadores paramtricos se baseiam em modelos de sintetizao do sinal de


voz, como o modelo simples ilustrado na Figura 5.17. Neste modelo dois geradores so
utilizados para gerar sinais sonoros ou no-sonoros, um amplificador que define a
magnitude do sinal e um filtro de sntese que modela o processo de gerao do sinal de
voz (trato vocal) [SPANIAS,1994]. Na sada do filtro de sntese tem-se o sinal de voz
sintetizado. O codificador, neste modelo, busca encontrar os parmetros necessrios
para a sintetizao do sinal de voz, que so transmitidos para o receptor e utilizados para
a sintetizao da voz. Os parmetros transmitidos so: os parmetros para
implementao do filtro de sntese; um flag para indicar se o sinal a ser gerado sonoro
ou no-sonoro; para sinais sonoros, a periodicidade do sinal (denominado de perodo de
pitch, que mede o intervalo entre sucessivos ciclos de abertura e fechamento das cordas
vocais); e o ganho do amplificador. Como j citado no incio desta seo, estes
parmetros so atualizados a cada 10-20 ms para acompanhar a natureza no-
estacionria do sinal de voz.

Figura 5.17 Princpio bsico de um codificador paramtrico.

Os codificadores paramtricos, embora consigam codificar a voz a taxas muito


baixas, no conseguem representar fielmente o sinal de voz, resultando em
imperfeies, como, por exemplo, a dificuldade de se identificar o locutor.

Os codificadores hbridos buscam contornar as deficincias dos codificadores


paramtricos por meio da sofisticao do processo. A Figura 5.18 ilustra o princpio de
uma importante categoria de codificador hbrido: denominada de tcnica de Analysis-
by-synthesis. Nesta tcnica o codificador composto por um filtro de sntese, que busca
representar um modelo do trato vocal, um gerador de excitao e um processador de
erro. O gerador de excitao e o filtro geram um sinal de voz que comparado com o
sinal que se deseja transmitir. O erro processado e realimenta o gerador de excitao,
alterando as suas caractersticas de modo a aproximar mais o sinal sintetizado pelo filtro
do sinal a ser transmitido. O processo realimentado continua at que o sinal sintetizado
esteja suficientemente prximo do sinal que se deseja transmitir. Novamente, o sinal de
voz processado em intervalos curtos de tempo, tipicamente quadros de 20 ms. Para
cada quadro, determinamos os parmetros do filtro de sntese e buscamos uma excitao
que resulte no menor erro entre o sinal de voz de entrada e o sinal sintetizado. Os
parmetros do filtro e a excitao so transmitidos para o receptor.

Um exemplo importante de codificador de voz que utiliza a tcnica de Analysis by


Syntheses o codificador CELP (Code-Excited Linear Predictive)

Figura 5.18. - Ideia bsica de codificador com a tcnica Analysis by Synthesis.

Com os codificadores hbridos, ao custo de uma maior complexidade de


implementao, possvel reduzir a taxa de transmisso sem perda significativa de
qualidade. Por exemplo, o codificador G.728 LD-CELP (Low Delay Code Excited
Linear Predictive) codifica o sinal de voz a 16 kbps com boa qualidade.

A Figura 5.19 compara os tipos de codificadores em funo da qualidade e da taxa


de transmisso requerida. Como se pode observar, os codificadores paramtricos
(Vocoders) no conseguem produzir sinais de boa qualidade. Nos codificadores de
forma de onda, como j discutido, a qualidade aumenta com a taxa de transmisso. Os
codificadores hbridos no conseguem obter qualidade excelente, mas oferecem
qualidade boa com taxas de transmisso menores que os codificadores de forma de
onda.
Figura 5.19. - Comparando os tipos de codificadores de voz.