Você está na página 1de 5

Codificadores de Voz

INTRODUÇÃO CARACTERIZAÇÃO DE FALA E DIGITALIZAÇÃO TÉCNICAS DE CODIFICAÇÃO REDES E VOZ


OUTRAS APLICAÇÕES PERGUNTAS E RESPOSTAS APÊNDICE A APÊNDICE B

1. CARACTERIZAÇÃO DE FALA E DIGITALIZAÇÃO


1.1 O Trato Vocal
O mecanismo fonador humano tem como principais elementos os pulmões, as pregas vocais e a
traquéia, a cavidade nasal e a cavidade oral. Podemos comparar esta configuração àquela de um
instrumento de sopro: os pulmões representam a fonte de ar necessário para o soar das notas; as
pregas vocais, as palhetas que determinam as notas e a cavidade bucal e nasal, associadas à
traquéia, representam o tubo de reverberação. Entretanto, o que diferencia a nossa estrutura
fonadora de um instrumento é justamente a gama de sons (fonemas) diferentes que podemos
compor graças a movimentos musculares distintos.

Dentre os fonemas e músculos envolvidos na pronúncia de palavras, os mais importantes para a


cultura ocidental são as articulações labiais, que permitem sons como ‘m’, ‘p’ e ‘b’, a variação da
abertura nasal, permitindo sons como ‘ã’ e a abertura ou fechamento das pregas vocais,
permitindo sons aspirados ou mais reverberantes, como ‘r’, ‘q’ e ‘g’. Cabe destacar que as
variações na configuração do aparelho fonador não precisam ser muito acentuadas para que
fonemas distintos sejam produzidos. Por exemplo, algumas palavras são ricas em fonemas, mas
são de difícil leitura labial por pessoas que apresentam alguma dificuldade auditiva justamente
porque, mesmo para fones bastante distintos, há vezes onde a configuração labial não se altera
tanto.

Ademais, cabe destacarmos que a estrutura fonadora humana é muito mais rica do que sua
utilização costumeira. O português, por exemplo, possui cerca de 37 fonemas, sendo que este
idioma não contempla muitos fonemas existentes em outros, como o inglês, francês ou japonês.
Além disto, alguns idiomas têm predominância de sons não vozeados, como as fricativas (tal qual
o ‘s’ e o ‘f’), enquanto em outros, predominam os sons vozeados (de maior amplitude). Os sons
vozeados ocorrem quando há vibração das cordas vocais. Em resposta à variação de tensão
muscular, as cordas vibram em torno de freqüências bem determinadas, resultando em pulsos
periódicos de ar que excitam o trato vocal. Os sons não vozeados são gerados quando o ar
atravessa algum bloqueio formado no trato vocal, produzindo turbulência, o que é considerado
como uma fonte de ruído de amplo espectro de excitação para o trato vocal. Estes últimos dois
conceitos apresentados são de extrema importância quando adentrarmos o estudo de
codificadores paramétricos.

1.2. Digitalização do Sinal de Voz


O processo de digitalização de sinais de voz é idêntico ao processo de digitalização de qualquer
tipo de sinal, salvo por algumas particularidades. Portanto, abordaremos a digitalização de sinais
de maneira genérica, destacando as distinções do sinal de voz por último.

O processo de digitalização pode ser dividido em duas etapas de quantização: no tempo


(amostragem) e em amplitude, sendo o primeiro processo altamente relacionado com a
representação em freqüência que se conseguirá extrair do sinal digitalizado, e o segundo processo
relacionado à representação das amplitudes do sinal e a seu alcance dinâmico. Ambos processos
são abordados em seguida:

1.2.1. Quantização no tempo

A quantização de um sinal no tempo pode ser entendida como o produto de um sinal analógico por
uma sequência de impulsos de Dirac espaçados no tempo por um intervaloTs (Fig. 1.1). Sabendo
que o impulso de Dirac é caracterizado por:
(Eq. 1.1)

Tem-se que o sinal amostrado pode ser expresso como:

(Eq. 1.2)

Fig.1.1 - Produto de seno por trem de impulsos, representando o processo de amostragem.

Todavia, a análise desta operação somente no domínio do tempo pode mascarar uma séria
questão causada pela quantização do sinal: o aliasing nas extremidades do espectro. Para melhor
compreendermos este fenômeno, devemos analisar este processo no domínio da frequência.
Tomando-se como pressuposto que o produto no domínio temporal corresponde a uma operação
de convolução no domínio frequencial, através do uso da Transformada de Fourier, podemos
expressar o espectro do sinal amostrado conforme o desenvolvido na Eq. 1.3.

(Eq. 1.3)
Adotando-se um sinal S(f) com espectro genérico (Fig. 1.2), é possível melhor observar o impacto
da Eq.1.3.

Fig. 1.2 - Espectro genérico representativo de um sinal cuja banda compreende 0Hz até W

Fig.1.3 - Espectro do sinal assinalado na Fig.1.2 após amostragem

A partir da Fig. 1.3 é possível perceber que, para que não haja sobreposição do espectro e,
consequentemente, aliasing, é necessário que a frequência de amostragem fs seja suficientemente
grande para manter os “espelhos” do espectro original separados, isto é:

(Eq. 1.4)

Essa conclusão é conhecida como Teorema de Nyquist, tendo especial importância para a
manutenção da integridade da informação presente no sinal, quando de sua reconstrução através
da filtragem passa-baixas.

Em geral, especialmente na telefonia, assume-se que a voz humana está limitada à frequência
máxima de 4 kHz, o que nos permite verificar, à luz de todo o acima exposto, que é possível
amostrá-la a uma taxa de 8000 amostras por segundo.

O desenvolvimento acima exposto aplica-se ao caso de sinais passa-baixas, ou seja, sinais que
têm desde nível DC até uma frequência máxima, o que contempla a pluralidade dos sinais de
áudio. Todavia, podemos tornar este teorema ainda mais genérico se fizermos a mesma análise
para um sinal passa faixa, ou seja, que possui uma frequência mínima diferente de 0 Hz e uma
frequência máxima qualquer.
Fig. 1.4 - Espectro de sinal genérico cuja frequência mínima é diferente de 0

Para este tipo de sinal, o Teorema de Nyquist pode ser expresso por:

(Eq. 1.5)

onde N є {1,2,3,4,5,...} e deve-se escolher aquele que gere a menor faixa para fs.

1.2.2. Quantização das amplitudes

O processo de quantização das amplitudes de um sinal é habitualmente realizado por circuitos


analógicos conhecidos como ADCs (Analog to Digital Converters). A função destes circuitos é
representar amplitudes de sinais analógicos por números binários que podem, então, ser
processados por sistemas digitais.

Dentre as topologias mais conhecidas, destacamos o conversor analógico-digital com rampa


digital, o conversor analógico-digital por aproximações sucessivas, o ADC de rampa simples e o
ADC de rampa dupla, cujo esquemático apresentamos na Fig. 1.5, bem como o conversor Flash e
o conversor Σ∆.

Fig. 1.5 - Conversor Analógico Digital de rampa dupla: circuito característico da quantização de
amplitudes

Podemos depreender da fig. 1.5 o funcionamento da conversão A/D por rampa dupla: inicialmente,
com o capacitor descarregado, a chave ,S1.é ligada à tensão ,Vs e esta é paulatinamente integrada
no primeiro estágio de amplificador operacional. Ao passo que esta integração ocorre, o contador
realiza a contagem de 0 até 2ˆN, ao fim da qual retorna ao valor nulo e CO é levado ao nível lógico
alto, fazendo a chave S1 trocar para a tensão -Vref. O contador volta a realizar contagem e, quando
o valor da integração de -Vref dado o estado inicial forçado pela integração prévia de Vs tornar-se
positiva, o segundo amplificador de tensão – que atua como comparador com a tensão de
referência de terra – aciona a lógica de controle, responsável por ativar o Latch que armazenará o
valor atual da contagem, e reiniciará o circuito causando o fechamento de S2 e, por onseqüência, o
retorno do integrador à sua primeira condição inicial (nula).

Finalmente, o resultado da conversão é dado por:

(Eq. 1.6)

Você também pode gostar