Escolar Documentos
Profissional Documentos
Cultura Documentos
07 01 Soares PDF
07 01 Soares PDF
Departamento de Informtica
2
Fundamentos de Sistemas Multimdia
Part 1 Aquisio, Codificao e Exibio de Dados
Laboratrio TeleMdia
Departamento de Informtica
Pontifcia Universidade Catlica do Rio de Janeiro
Rua Marqus de So Vicente, 225, Prdio ITS - Gvea
22451-900 Rio de Janeiro RJ Brasil
http://www.telemidia.puc-rio.br
3
Table of Contents
1. Introduo.......................................................................................................................5
2. Informao e Sinal..........................................................................................................5
3. Converso de Sinais........................................................................................................7
3.1. Converso A/D .......................................................................................................7
3.2. Converso D/A .......................................................................................................9
3.3. Outros Codificadores de Onda ...............................................................................9
4. Compresso e Compactao .........................................................................................10
4.1. Codificao por Carreira ......................................................................................10
4.2. Codificao de Shannon-Fano..............................................................................11
4.3. Codificao de Huffman.......................................................................................12
4.4. Codificao de Lempel-Ziv-Welch ......................................................................13
4.5. Outras Tcnicas de Compactao.........................................................................14
4.6. Compresso em Imagem Esttica.........................................................................14
4.7. Compresso em udio..........................................................................................18
4.8. Compresso em Vdeo..........................................................................................23
4.8.1. H.261 ............................................................................................................25
4.8.2. MPEG Vdeo ................................................................................................27
4.9. Multiplexao e Sincronizao.............................................................................30
5. Aplicaes de Banda Larga ..........................................................................................32
6. Requisitos de Comunicao das Diversas Mdias ........................................................33
6.1. Texto.....................................................................................................................34
6.2. Imagem .................................................................................................................34
6.3. udio ....................................................................................................................35
6.4. Vdeo ....................................................................................................................37
7. Consideraes Finais ....................................................................................................38
Referncias ...........................................................................................................................38
4
Fundamentos de Sistemas Multimdia
Part 1 Aquisio, Codificao e Exibio de Dados
Luiz Fernando Gomes Soares
1. Introduo
Os sistemas de computao (sistemas de processamento, sistemas operacionais, redes de
comunicao etc.) foram desenvolvidos, originalmente, para dar suporte ao processamento e
comunicao de dados textuais. Com a evoluo tecnolgica, no s as redes aumentaram em
muito seu desempenho, mas tambm cresceu muito a capacidade de processamento e
armazenamento das estaes de trabalho. Isso tornou possvel o desenvolvimento de sistemas
para processamento e comunicao de informaes representadas em vrias outras mdias
alm da textual, como udio, vdeo etc. O fenmeno da convergncia , em parte, marcado
por essa mistura de diferentes tipos de mdia em sistemas integrados de transmisso e
processamento de informao. Nesta monografia, apresentaremos os principais conceitos
envolvidos na codificao digital dessas informaes e na sua comunicao.
2. Informao e Sinal
Os seres humanos adquirem informao atravs de seus sentidos: viso, audio, tato, olfato e
paladar. Esses sentidos so denominados mdias1 de percepo. As informaes adquiridas
so ento codificadas em estruturas de dados que denominamos mdias de representao, ou
simplificadamente mdias. So exemplos de mdias de representao as mdias texto, grfico,
udio e vdeo. Note que no existe uma correspondncia biunvoca entre as mdias de
percepo e de representao e que ainda , no mnimo, pouco usual a utilizao de mdias
representando informaes adquiridas pelo olfato, tato e paladar, embora j existam estudos
nesse sentido.
Definimos sinais como ondas que se propagam atravs de algum meio fsico possuindo, por
exemplo, uma amplitude que varia ao longo do tempo, correspondendo codificao da
1
Em portugus, mdia vem da palavra latina medius (de onde derivou a palavra anglo-saxnica medium), e seu
plural mdias (correspondendo palavra anglo-saxnica media).
5
informao transmitida. Um sinal pode ser distorcido durante sua transmisso, por terem suas
componentes de freqncia atenuaes diferentes devido a limitaes do meio de transmisso.
Pode-se mesmo ter perda ou deformao de parte do sinal por rudos. Ao transmitir
informaes esperamos, no entanto, preservar seu significado e recuperar seu entendimento.
Do exemplo anterior, podemos notar que um sinal pode carregar muita informao
redundante. Tcnicas para reduo dessa redundncia, denominadas tcnicas de compresso e
de compactao, podem ser empregadas. Sobre elas, teremos muito o que discutir ao longo
desta monografia. Vamos, no entanto, primeiramente, aprofundar um pouco mais a discusso
sobre informaes e sinais, analgicos e digitais.
A mdia grfica foi a segunda mdia a ganhar representao nos computadores digitais. Ela
possui dois formatos: o vetorial e o matricial. O formato vetorial bastante utilizado em
modelagem geomtrica e nele as figuras so representadas por um conjunto de segmentos de
reta ou curvas, dados pelas coordenadas de seus pontos e pelos atributos das linhas que os
unem. Imagens no formato matricial so usualmente chamadas de imagens estticas. Nesse
formato, as imagens so divididas em pequenas regies, chamadas de elementos de fotografia,
ou pixels (picture elements, muitas vezes tambm chamados de pels). Para cada uma dessas
regies guarda-se sua informao codificada de cor. Quanto maior o nmero de bits para
codificar a cor, mais cores pode-se codificar e mais prximo pode-se chegar da cor original.
Temos assim uma matriz de M linhas e N colunas, onde cada elemento representa um dos
MxN pixels que compe a imagem. Na reproduo da imagem, os pixels so reconstrudos
utilizando-se a informao de cor armazenada na matriz. Quanto menor for o tamanho do
pixel, mais fiel ser sua colorao com relao original, mas maior ser a matriz da imagem.
Ao tamanho da matriz d-se o nome de resoluo geomtrica da imagem. A quantidade de
bits utilizados para armazenar a cor de um pixel chama-se resoluo de cor da imagem.
Informaes na mdia textual e grfica so originalmente digitais. Por isso, muitas vezes essas
mdias so referidas como mdias discretas. J informaes geradas por fontes sonoras e de
vdeo apresentam variaes contnuas de amplitude, constituindo-se no tipo de informao
que comumente percebida pelos sentidos humanos atravs de sinais que denominamos
analgicos. Devido a isso, as mdias de vdeo e udio so usualmente referidas como mdias
contnuas.
6
importante que se entenda que qualquer tipo de informao (seja analgica ou digital) pode
ser codificada em uma estrutura de dados (mdia de representao) digital, e essa codificao
digital pode ser transmitida em um sinal analgico ou digital, como veremos.
3. Converso de Sinais
Para utilizarmos as vantagens da codificao digital, devemos transformar as mdias contnuas
de udio e vdeo, normalmente adquiridas atravs de sinais analgicos. A essa transformao
chamamos de converso analgica digital, ou converso A/D.
Uma vez processados e transmitidos, sinais digitais2 podem ter de ser transformados em
analgicos para percepo pelos sentidos humanos. A essa transformao chamamos de
converso digital analgica, ou simplesmente converso D/A.
A partir dos pulsos PAM, podemos produzir os pulsos PCM (Pulse Code Modulation) atravs
de um processo conhecido como quantizao, onde cada amostra PAM aproximada a um
inteiro de n bits. No exemplo da Figura 1, escolhemos n=3, dando origem a oito nveis (23) de
quantizao. A sada PCM corresponde ao resultado dessa quantizao.
Podemos calcular, a partir desse processo, denominado converso A/D, a taxa gerada pela
transmisso de informao analgica atravs de sinais digitais.3 Considere o caso de sinais de
voz, por exemplo. Se assumirmos que a banda passante necessria desses sinais tem largura
igual a 3.100 Hz, a taxa de amostragem de Nyquist , nesse caso, igual a 6.200 amostras por
segundo. Normalmente amostra-se a uma taxa maior, para facilitar a construo dos codecs
(codificadores/decodificadores). Se escolhermos uma taxa de 8.000 amostras por segundo e
codificarmos cada amostra com oito bits, a taxa gerada ser 8.000 x 8 = 64 Kbps, que a taxa
definida pelo padro ITU-T G.711 [ITU-T G.711] para telefonia digital.
2
Um sinal digital pode ser transformado em um sinal analgico, para transmisso em um dado meio, tambm
pelo processo de modulao.
3
Nesta monografia consideraremos sempre o sinal digital gerado a partir de uma informao codificada
digitalmente como tendo sempre um bit por intervalo de sinalizao, ou seja, um sinal onde sua taxa em bauds
a mesma que sua taxa em bits por segundo.
7
Sinal Original
t
6,9 6,5
5,1
4,6
3,0 2,8
Pulsos PAM
1,0
t
7
6
5
4
Quantizao 3
2
1
0 t
011 101 111 101 110 011 001
Para melhorar a qualidade do sinal amostrado, podemos usar uma quantizao logartmica,
onde o sinal primeiro logaritmicamente transformado de forma a manter o erro mximo de
quantizao aproximadamente constante, a despeito da amplitude da amostra. Vrias funes
logartmicas foram propostas e estudadas com esse intento. Duas dessas funes so
largamente utilizadas e padronizadas, sendo denominadas lei A e lei . A primeira mais
utilizada na Europa, enquanto a segunda predomina nos EUA.
1 1
1 + ln Ax 1
<x <1
ln ( 1 + x) 1 + ln A A
y(x) = 0 < x < 1
ln ( 1 + ) y(x) =
Ax 1
= 255 1 + ln A
0 <x <
A
A = 100
8
A Tabela 1 apresenta o resultado da converso A/D de alguns sinais de udio e vdeo.
No fosse pelo erro de quantizao, o sinal obtido da sada do filtro seria idntico ao sinal
analgico original.
Note que o sinal de sada to mais prximo do sinal original quanto menor for o erro de
quantizao. O erro de quantizao, por sua vez, to menor quanto maior o nmero de
nveis de quantizao, ou seja, quanto maior o nmero de bits utilizados na codificao.
A idia do DPCM pode ser ainda refinada um pouco mais, variando-se dinamicamente os
nveis de quantizao, dependendo se o sinal varia muito ou pouco. Dessa forma, prev-se
no apenas o valor da amostra corrente baseado na amostra anterior, mas tambm o valor do
quantum, baseado em uma funo, bem conhecida, dos valores de amostras anteriores. Esse
esquema denominado ADPCM, de Adaptative Differencial Pulse Code Modulation.
9
Existem ainda outras formas de codificao que independem do tipo do sinal analgico.
Vamos citar apenas mais uma, a SBC (SubBand Coding). Na codificao por sub-bandas, o
espectro de freqncia do sinal dividido em vrias bandas de freqncia. Cada banda ento
tratada como se representasse um sinal distinto, e nela aplicada qualquer uma das tcnicas
anteriores. A vantagem da SBC que, atravs da anlise de um sinal, pode-se identificar suas
bandas mais importantes no transporte da informao. Para essas bandas, pode-se utilizar um
erro de quantizao menor do que aquele usado nas bandas menos importantes, ou seja, pode-
se codificar as bandas menos importantes utilizando um nmero menor de bits por amostras.
4. Compresso e Compactao
Um sinal digital, em geral, carrega muita informao redundante. Se eliminarmos essa
redundncia conseguiremos reduzir em muito a quantidade de bits gerados, que em alguns
casos pode ser muito grande; na Tabela 1, por exemplo, pode ser observado que 1 minuto de
vdeo preto e branco gera 600 Mbytes.
Existem vrias tcnicas de compresso sem perdas (compactao) que podem ser aplicadas a
qualquer tipo de dados, independente da mdia representada. As Sees 4.1 4.5 so
dedicadas a algumas dessas tcnicas mais usuais. As tcnicas de compresso com perdas
sero estudadas para cada mdia em particular nas Sees 4.6 4.8.
10
76 76 76 76 76 78 79 79 79 79 80 80
76 | 5 78 | 1 79 | 4 80 | 2
...
0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 1
Smbolo A B C D E
Nmero de 15 7 6 6 5
Ocorrncias
11
Smbolo Freqncia Cdigo Subtotal (#bits)
A 15 00 30
B 7 01 14
C 6 10 12
D 6 110 18
E 5 111 15
12
Note que, quer usando a codificao de Huffman ou de Shannon-Fano, o decodificador deve
usar o mesmo dicionrio de cdigos gerado pelo codificador para recuperar os smbolos
originais.
Note que assim procedendo, o decodificador no tem a necessidade de conhecer a priori todo
o dicionrio, pois pode reconstru-lo passo a passo, dinamicamente, a partir dos dados
codificados. A decodificao se inicia definindo a seqncia de smbolos corrente S como a
entrada no dicionrio correspondente ao primeiro cdigo a decodificar e dando como sada o
smbolo S. Se houver mais cdigos a decodificar faa:
13
4.5. Outras Tcnicas de Compactao
Alm das tcnicas anteriormente mencionadas, outras so encontradas, bem como variantes
das primeiras. Uma, no entanto, merece destaque por ser comumente utilizada: a codificao
aritmtica.
14
Atravs das adies das cores vermelha, verde e azul, podemos obter quase todas as cores
visveis pelo olho humano. Assim, uma representao bem comum a RGB (de Red Green
Blue), onde um pixel representado pelos valores dessas componentes. comum
encontrarmos o padro RGB 8-8-8, onde se utilizam 8 bits para codificao de cada
componente; e o padro 5-6-5, onde reservado um nmero maior de bits (6) para a
componente verde, por ser o olho humano mais sensvel a essa componente. Outra
representao bastante utilizada o sistema YCrCb. A componente Y denominada
luminncia, e uma medida da sensibilidade do olho humano s vrias componentes de
freqncia de uma cor. Para as fontes usuais de luz provenientes de dispositivos de vdeo, Y
dada por:
Uma outra forma de compresso de imagem esttica, geralmente sem perdas, a codificao
preditiva. De forma anloga explicao da Seo 3.3, na codificao preditiva de uma
imagem, realiza-se uma predio do valor do pixel baseada em valores de outros pixels da
imagem. A diferena do valor real para o valor predito ento codificada. A Figura 5 ilustra o
caso.
Se na imagem os pixels tiverem valores muito prximos, pode-se usar um nmero menor de
bits para armazenar o erro da predio, do que aquele usado para codificar o valor absoluto do
15
pixel. Alm disso, uma imagem com poucos contornos vai gerar muitos valores pequenos, ou
mesmo o valor zero, tornando o emprego de um outro mtodo de compresso posterior bem
eficiente.
Antes de continuarmos nossa discusso sobre tcnicas de compresso, devemos ressaltar que,
normalmente, as tcnicas de compresso so seguidas pela aplicao de algum esquema de
compactao. Muitas vezes, o esquema de compresso simplesmente prepara os dados para
que possam sofrer uma maior compactao. Nada impede tambm que apliquemos vrias
tcnicas de compresso em seqncia.
Um exemplo de codificao preditiva pode ser encontrado no padro JPEG [ISO 94] no modo
sem perdas, onde a codificao de Huffman aplicada aps a codificao preditiva. No
esquema, apresentado na Figura 6, o codificador por entropia utiliza a codificao de
Huffman. Note tambm, pela figura, que existem 7 possveis predies para um pixel X.
Selees Predio
0 sem predio
1 A
CB 2 B
Preditor Codificador C
A X 3
por entropia A+B-C
4
imagem A+((B-C)/2)
5
comprimida
imagem 6 B+((A-C)/2)
fonte Tabela de (A+B)/2
7
especificao
Existem ainda outras tcnicas para compresso de imagem, tais como a codificao por sub-
bandas (similar ao apresentado na Seo 3.3) e a quantizao vetorial. Entretanto, ns nos
deteremos apenas em mais uma, por ser utilizada nos padres JPEG e MPEG: a codificao
por transformadas.
O leitor j deve ter percebido, pelas vrias referncias Seo 3.3, que existem vrias
similaridades entre amostras no tempo e pixels. Na verdade, podemos considerar os pixels
como se fossem amostras do sinal imagem, s que amostras obtidas no no tempo, mas no
espao. exatamente por isso que podemos aplicar todas as tcnicas da Seo 3.3 nas
imagens estticas. Note tambm que, em um sinal de vdeo, o grupo de vrias amostras
temporais formam um quadro (por exemplo, no nosso sistema de TV, existem 30 quadros por
segundo). Esse quadro uma imagem esttica onde, de fato, as amostras temporais do vdeo
so os pixels (amostras espaciais). Esse fato que nos permite no somente tratar o vdeo
como um sinal contnuo e nele aplicarmos todas as tcnicas de compresso conhecidas para
sinal contnuo, como tambm trat-lo como uma seqncia de imagens estticas no tempo,
aplicando as mesmas tcnicas de compresso utilizadas para imagens.
Uma vez que uma imagem esttica pode ser considerada uma seqncia de amostras
espaciais, ns podemos agora pensar, como fizemos com os sinais analgicos, em aplicar uma
transformada (por exemplo Fourier) para descrever o mesmo sinal no domnio da freqncia.
S que agora no domnio das freqncias espaciais. Como estamos com um sinal discreto,
precisaremos de uma transformada discreta. Poderamos usar a transformada discreta de
Fourier, como mencionado, mas outra transformada leva a melhores resultados na
compresso: a transformada discreta de co-senos.
16
No espao bidimensional de uma imagem de 8x8 pixels, a transformada discreta de co-senos
(FDCT: Forward Discrete Cosine Transform) dada por:
1 7 7
(2 x + 1)u (2 y + 1)v
F ( u, v ) = C ( u) C ( v ) f ( x , y ) cos cos
4 x=0 y =0 16 16
1
C( w) = para w = 0
2
C( w) = 1 para w = 1, 2, ... , 7
1 7 7 (2 x + 1)u (2 y + 1)v
f ( x, y ) =
4 u =0 v =0
C (u )C (v) F (u, v) cos
16
cos
16
No domnio da freqncia, as mudanas abruptas que acontecem nos contornos de uma figura
esto concentradas nas freqncias mais altas. Assim, uma imagem com poucos contornos
deve concentrar seus coeficientes nas freqncias baixas. Mais ainda, os coeficientes das
freqncias altas so menos importantes e perdas nesses coeficientes podem diminuir um
pouco a nitidez da imagem, mas para muitas aplicaes isto pode ser aceitvel.
Pelos motivos mencionados no pargrafo anterior, aps uma imagem ser transformada, os
coeficientes gerados so quantizados de forma diferenciada, usando uma maior preciso
(quantum menor) para as freqncias mais baixas. Assim procede o padro JPEG [ISO 94] no
modo seqencial, dividindo uma imagem em blocos de 8x8 pixels e aplicando uma
compresso em cada bloco, conforme o diagrama mostrado na Figura 7. A imagem varrida
uma nica vez, da esquerda para direita, de cima para baixo.
Codificador
FDCT Quantizador
por entropia
imagem
imagem comprimida
fonte Tabela de Tabela de
especificao especificao
4
Na verdade, um passo adicional existe no JPEG, quando os coeficientes DC (freqncia zero) de um bloco so
codificados pela diferena entre seu valor e o valor do coeficiente DC do bloco anterior.
17
A decodificao JPEG modo seqencial ilustrada na Figura 8.
Decodificador
Dequantizador IDCT
por entropia
imagem
comprimida Tabela de imagem
Tabela de
especificao especificao reconstruda
O padro JPEG ainda possui mais dois modos de compresso: o progressivo e o hierrquico.
O modo JPEG hierrquico tambm permite separar da imagem os dados mais relevantes dos
menos relevantes, mas atravs do aumento progressivo da resoluo geomtrica. Nesse modo,
a imagem codificada com mltiplas resolues, de forma que a menor resoluo pode ser
decodificada sem a necessidade de se ter a resoluo maior.
Um ser humano falando emite surtos de voz apenas durante 35% a 40% do tempo de fala. O
restante do tempo preenchido com silncio que existe entre palavras e entre uma sentena e
outra. Se pudermos detectar esse silncio e elimin-lo da codificao, de forma que ele possa
ser recuperado na decodificao, reduziremos muito a quantidade de dados gerados. Essa
tcnica aplicada telefonia digital com o nome TASI (Time Assignment Digital
18
Interpolation). Ainda como outra caracterstica da voz e do ouvido humano, a perda de surto
de voz e de silncio muito diferente. Perdas da ordem de 1% da informao do surto de voz
so tolerveis,5 ao passo que podemos tolerar a perda de at 50% do silncio. Note que, com a
deteco de silncio, transformamos um trfego de voz contnuo em um trfego em rajadas.
Uma outra forma de comprimir a voz humana codificar, ao invs de suas amostras, os
parmetros de um modelo analtico do trato vocal capaz de gerar aquelas amostras. No
mtodo conhecido como LPC (Linear Predictive Coding), apenas os parmetros que
descrevem o melhor modelo que se adapta s amostras codificado. Um decodificador LPC
usa esses parmetros para a gerao sinttica da voz que , usualmente, parecida com a
original. O resultado inteligvel, mas a tonalidade aquela de um rob falando.
CELP (Code Excited Linear Predictor) bastante similar a LPC. O codificador CELP gera os
mesmos parmetros LPC, mas computa os erros entre a fala original e a fala gerada pelo
modelo sinttico. Tanto os parmetros do modelo analtico do trato vocal quanto uma
representao comprimida dos erros so codificados. A representao comprimida um
ndice em um vetor de excitao (que pode ser pensado como um livro de cdigos
compartilhado pelo codificador e decodificador). O resultado do CELP tem uma qualidade de
fala muito boa a uma taxa bem baixa. A Tabela 2 apresenta alguns padres recomendados
pelo ITU-T [ITU-T G.711; ITU-G.722; ITU-T G.723; ITU-T G.726; e ITU-T G.729] para
voz.
Taxa de Recursos de
Qualidade da Atraso
Padro Algoritmo compresso processamento
voz resultante adicionado
(Kbps) necessrios
48, 56, 64 (sem
G.711 PCM Nenhum Excelente Nenhum
compresso)
64 (faixa passante
G.722 SBC/ADPCM Moderado Excelente Alto
de50 a 7KHz)
Boa (6.3)
G.723 MP-MLQ 5.3, 6.3 Moderado Alto
Moderada (5.3)
Boa (40) Muito
G.726 ADPCM 16, 24, 32, 40 Baixo
Moderada (24) baixo
G.738 LD-CELP 16 Muito Alto Boa Baixo
G.729 CS-ACELP 8 Alto Boa Baixo
Mais especificamente para udio, de uma forma geral, um padro muito importante o
MPEG udio [ISO 93a e ISO 98].
MPEG udio leva em conta o modelo psicoacstico humano para realizar uma compresso
perceptualmente sem perdas. O modelo divide o domnio de freqncia audvel (entre 20
Hz e 20 KHz) em 32 bandas, chamadas bandas crticas. O sistema de audio tem uma
resoluo limitada e dependente da freqncia. A medida perceptualmente uniforme de
freqncias pode ser expressa em termos das larguras das bandas crticas. A Figura 9 mostra
a sensibilidade do ouvido humano nas diversas freqncias.
5
Na realidade, a percentagem de perda depende do tamanho do surto de voz e se a perda ocorre no incio ou no
meio do surto. Na referncia [Gruber 85] possvel encontrar uma discusso sobre o assunto.
19
Limite no Silncio
Frequncia
Note que a sensibilidade do ouvido ilustrada na Figura 9 medida em decibis (dB SPL dB
Sound Preassure Level ou simplificadamente dB). O decibel uma unidade conveniente
para expressar o que se chama de nvel sonoro. O som, de uma forma geral, tem uma medida
de intensidade que a potncia transferida por uma onda sonora por rea de uma superfcie
que intercepta essa onda. O decibel nada mais do que uma forma comparativa de analisar
valores. Nesse caso, ao invs de fornecer o valor absoluto da intensidade sonora para uma
freqncia, podemos fornecer o seu valor dividido pela menor intensidade perceptvel ao
ouvido humano6 e utilizar uma escala logartmica para representar essa razo, j que o
intervalo de intensidades produzido pela voz humana muito grande. Assim, o nvel sonoro
em decibis definido como:
I
= 10 log10
I0
Freqncia
6
O valor de referncia definido como I0 = 10-12 Watts/m2. Ele corresponde aproximadamente o limiar da
audio humana. No entanto, o limiar de audio varia de freqncia para freqncia e com a intensidade do
som, como descoberto por Fletcher e Munson em 1933.
20
MPEG udio transforma o sinal para o domnio da freqncia e aplica o mascaramento de
freqncias, codificando apenas aquelas componentes de freqncia que no so mascaradas.
A Figura 11 ilustra o procedimento.
Antes
Freqncia
Depois
Freqncia
MPEG udio tambm leva em considerao resultados psicoacsticos que mostram que, para
freqncias maiores que 2 KHz, o ouvido percebe a imagem estereofnica baseado mais no
envelope temporal do udio do que em sua estrutura mais refinada. Assim, no modo intensity
stereo, o codificador soma as freqncias mais altas do sinal estereofnico em um nico
sinal. Os canais de esquerda e direita so reconstrudos com a mesma forma, mas com
magnitudes diferentes, baseadas em fatores de escala.
Na codificao MPEG, para cada intervalo de tempo de udio codificado (isto , para cada
conjunto de amostras), existe um nmero fixo de bits total para todas as 32 sub-bandas.
Escolhe-se o nmero de bits de uma banda de forma a minimizar a percepo auditiva do
rudo de quantizao, levando-se em conta, como j mencionamos, o mascaramento de
freqncias.
MPEG 1 udio [ISO 93a] define trs mtodos de compresso, denominados camadas 1, 2 e 3
(MP1, MP2, MP3).
MP1 agrupa 12 amostras para cada uma das 32 sub-bandas. Cada grupo de 12 recebe ento os
bits para codificao e, se o nmero de bits no zero, um fator de escala.
MP2 e MP3 ainda levam em conta uma outra caracterstica psicoacstica, o mascaramento
temporal. Quando emitido um tom em uma dada freqncia e com uma certa amplitude,
esse tom mascara os tons, na mesma freqncia, abaixo de uma certa amplitude, que varia no
tempo. A Figura 12 ilustra o fato com um tom emitido a 60dB.
21
Tom de teste
Tom de
mascaramento
Tempo (ms)
MP2 codifica os dados em grupos maiores: para cada sub-banda agrupa 3 grupos de 12
amostras. Isso modela um pouco da mscara temporal, pois se faz uma alocao de bits e se
usa trs fatores de escala para cada trio de 12 amostras.
Tanto MP1 quanto MP2 usam bandas uniformes, isto , do mesmo tamanho, que no
modelam bem o ouvido humano, como pode ser visto pela Figura 9. MP3 usa bandas no
uniformes e faz uma alocao de bits melhor. MP3 faz um melhor clculo do quantum de
cada banda, isto , uma melhor distribuio de bits, usando inclusive o conceito de
reservatrio de bits (como mencionado, o nmero de bits total para as 32 bandas fixo para
cada grupo de amostras, mas no MP3 pode haver emprstimos de bits de um grupo de
amostras para outro).
MP2 e MP3 tambm permitem o MS stereo mode, alm do stereo intensity mode. O modo MS
stereo codifica os sinais de freqncias mais altas dos canais direito e esquerdo como a soma
(middle-channel) e diferena (side-channel). Tcnicas de sintonizao so ento utilizadas
para comprimir o sinal side-channel.
Tabela 3: Camadas MPEG 1 udio (a codificao pode ser realizada com taxas de amostragem de 32, 41.1 e 48 KHz).
As camadas do padro MPEG 1 udio, denominada fase 1 (MP1, MP2 e MP3) prevem
apenas o uso de dois canais em um fluxo de udio, ou seja, apenas o estreo tradicional. O
padro MPEG 2 [ISO 98] introduz algumas extenses. O padro MPEG 2 udio (fase 2)
comum, chamado de BC (Backward Compatible), tem as mesmas camadas e usa os
mesmos algoritmos com os mesmos parmetros do udio MPEG 1. A diferena que o
22
MPEG 2 prev a formao de fluxos de udio com at 6 canais, em vez de implementar
apenas o estreo com dois canais.
A codificao AAC novidade do udio MPEG 2, conhecida como NBC (Non Backward
Compatible), de no compatvel com MPEG 1. Essa codificao mais eficiente que o MPEG
1 (MP3 etc.), tolera at 48 canais de udio e 15 canais de freqncias baixas, com taxas de
amostragem de 8 a 96 KHz. A AAC necessita de menos processamento e, conseqentemente,
tem retardo menor na (de)codificao.
Alm das codificaes apresentadas, ainda existem vrias outras em uso atual. Entre elas
podemos citar a DD e a DTS.
AC-3 era o antigo nome da codificao chamada hoje de Dolby Digital (DD). Essa
codificao proprietria da empresa Dolby, mas foi adotada pelos EUA como codificao de
udio a ser utilizada nos DVDs e em HDTV (High Definition TV). Ela utiliza 6 canais de
udio, sendo 5 com qualidade de CD (20 Hz a 20 KHz) e um apenas para as baixas
freqncias, (20 a 120 Hz). A taxa dessa codificao de cerca de 384 Kbps. A Figura 13
apresenta a distribuio sugerida de auto-falantes para os 6 canais de udio.
Central
Principal Principal
Esquerdo Direito
Sub-woofer
Surround Surround
Esquerdo Direito
A Europa usa ainda uma outra codificao proprietria, a DTS. Essa tambm multicanal,
mas a taxa gerada de cerca de 1,536 Mbps. Tanto o DD quanto DTS trabalham com
codificao por sub-bandas (at 576 na DD). Testes exaustivos com especialistas em udio
no conseguem chegar a uma definio sobre qual codificao a melhor. No entanto, trilhas
DD obviamente ocupam menos espao de armazenamento (e de banda, quando transmitidas)
e, por isso, a codificao DD tem sido preferida pelos fabricantes de DVD.
23
maior redundncia pode estar nas informaes contidas em quadros consecutivos
(redundncia inter-quadros).
Nesta seo nos deteremos na anlise de dois padres de codificao de vdeo que levam em
conta no apenas a redundncia intra-quadro, mas tambm a existente inter-quadros: os
padres H.261 e MPEG vdeo. Antes, porm, vamos analisar alguns padres de sinal de
vdeo.
Sinais de TV so, em geral, adquiridos no formato RGB, mas transmitidos no formato YCrCb,
onde a resoluo dos canais de crominncia menor que a de luminncia, levando em conta a
maior sensibilidade do olho humano luminncia, como discutimos na Seo 4.6. Os sinais
so ento multiplexados e modulados, gerando um sinal chamado vdeo composto modulado,
conforme ilustrado na Figura 14.
R Componentes
Cmera G
B
De Video
(BNC)
Somador Y
Cr S-VHS
Subtrator Cb (Mini DIN)
Vdeo
Sub-amostragem Multiplexador VC Composto
na crominncia (RCA)
Vdeo
Modulador VCM Composto
Modulado
Sistemas de vdeo apresentam informaes como uma seqncia de quadros, sendo cada
quadro composto de linhas. Um dos sistemas de distribuio de televiso mais utilizado usa
525 linhas por quadro, a uma taxa de 30 quadros/segundo ( o padro M de TV, utilizado
tanto pelo padro americano NTSC, quanto pelo padro brasileiro PAL-M).7 As televises
tm uma relao de aspecto de 4:3, dando ao padro M uma resoluo para a luminncia de
700 x 525 pixels por quadro.
Nem todas as linhas da televiso so visveis. A maioria dos formatos de vdeo digital esto
relacionados com a rea visvel para cada padro de televiso. A recomendao BT 601-4
[ITU-R BT.601-4] especifica 483 linhas ativas, com 720 pixels por linha. Apenas 480 das 483
linhas e 704 dos 720 pixels (os primeiros e ltimos 8 pixels so descartados) so usados para
codificao. O padro especifica a sub-amostragem de crominncia 4:2:2, conforme dado pela
Figura 15, indicando que, para cada dois valores de luminncia na horizontal, apenas um de
cada crominncia deve ser gerado. Isso implica em uma taxa gerada de:
7
Na verdade, a taxa de quadros de 29,97 quadros/segundo para TV colorida. Os padres europeus, em geral,
usam 25 quadros/segundo e 625 linhas por quadro.
24
A Figura 15 apresenta tambm outras sub-amostragens de crominncia utilizadas em outros
padres de codificao, como veremos.
Crominncia Luminncia
Cr e Cb
1 pixel de Crom innci a Cr
1 pixel de Lumin nci a
e 1 pixel de Crominncia Cb
O padro H.261 do ITU-T, discutido mais adiante, usa os formatos CIF (Common
Interchange Format), com 288 linhas e 352 pixels por linha, e QCIF (Quarter CIF), com 144
linhas e 176 pixels por linha, para a luminncia. Sua extenso, H.263, acrescenta trs novos
formatos: o sub-QCIF (128 x 96), o 4CIF (704 x 576), tambm conhecido como SCIF, e o
16CIF (1408 x 1152). Todos os formatos citados possuem sub-amostragem de crominncia
(relao de aspecto) 4:2:0, conforme ilustrado na Figura 15.
O padro MPEG 1 vdeo pode codificar imagens de at 4096 linhas x 4096 pixels x 60
quadros/segundo. No entanto, a maioria das aplicaes usam o formato SIF, com 240 linhas,
352 pixels por linha e sub-amostragem de crominncia 4:2:0.
O padro MPEG 2 pode codificar imagens de at 16.383 linhas x 16.383 pixels. O padro
organizado, como veremos, em diversos perfis e nveis, que especificam o formato utilizado.
Exemplos de formato so: nvel baixo (240 linhas x 352 pixels/linha x 30 quadros/segundo
idntico ao SIF MPEG 1), nvel principal, visando a codificao com qualidade de TV (720 x
480 x 30), e os nveis alto, visando a TV de alta resoluo - HDTV, e a produo de filmes
(em geral 1280 x 720 x 30; 1920 x 1080 x 30 ou 1440 x 1152 x 30). O padro permite sub-
amostragem de crominncia 4:2:0, 4:2:2 e 4:4:4.
Note que vrios formatos so menores que os tamanhos de TV atuais. Note tambm que as
imagens de TV so significativamente menores do que as telas atuais das estaes de
trabalho. Quase todos os formatos de vdeo digital apresentam a imagem em uma rea menor
do que a tela da estao. Alguns padres, no entanto, chegam a resolues suficientes para
atender a qualidade das TVs de alta resoluo, a HDTV.
4.8.1. H.261
H.261 [ITU-T H.261] o padro de compresso mais usado em sistemas de videoconferncia.
Seu objetivo inicial foi as aplicaes para redes comutadas por circuito, mais especificamente
a RDSI-FE. Da decorre sua gerao de trfego CBR (de Constant Bit Rate, isto , taxa
constante) nas taxas de p x 64 Kbps, p variando de 1 a 30.
25
Pixels
(a) Blocos Y
Luma
Cb Cr
(b) Blocos
Todo macrobloco sofre uma codificao intra-quadro e preditiva. A que gera a maior
compresso escolhida. Uma vez codificados, os quadros so enviados a um buffer que vai
regular o fluxo de informao para uma taxa de bits constante. Lembre-se que o H.261 foi
pensado para uma rede comutada por circuitos. Como a taxa de entrada no buffer VBR
(Variable Bit Rate, isto , taxa varivel), se no fosse tomada nenhuma providncia poderia
ocorrer estouro de buffer ou falta de bits codificados. Para que isso no acontea, o tamanho
do passo do quantizador (o quantum), dos coeficientes gerados a partir da transformada de co-
senos, ajustado, quando necessrio, conforme a quantidade de dados no buffer, para se
chegar taxa CBR desejada de sada.
O padro H.263 [ITU-T H.263] estende o padro H.261, introduzindo novos formatos de
quadros, como discutimos anteriormente, otimizando o H.261 para codificao de vdeo a
taxas inferiores a 64 Kbps e adicionando facilidades para maior qualidade e melhores
servios. Contudo, as idias bsicas de compresso so as mesmas.
26
4.8.2. MPEG Vdeo
Idntico ao H.261, o padro MPEG vdeo [ISO 93c e ISO 00a] divide um quadro em
macroblocos, como apresentado na Figura 16, vlida tambm para o MPEG com amostragem
de crominncia 4:2:0.
Cada bloco pode ser codificado usando apenas a informao intra-quadro, de forma idntica
ao que foi apresentado para o JPEG. Quadros em que todos os blocos so codificados dessa
forma so denominados quadros I.
27
Quadros B apresentam como vantagem o fato de, normalmente, apresentarem uma
compresso maior que os quadros I e P (Tabela 4). So tambm quadros que, se perdidos, no
afetam tanto a qualidade da imagem, pois o erro cometido no se propagar, uma vez que
esses quadros no so usados como referncia de predio (note que a perda de um quadro I
ou P implica na perda de todos os quadros at o prximo quadro I). No entanto, quadros B
introduzem um retardo extra no processo de codificao, porque devem ser codificados fora
da seqncia, alm de exigirem mais processamento para codificao.
I 18 2:1
P 6 7:1
B 2,5 50:1
O padro MPEG 1 trabalha, em geral, com o formato SIF, embora uma maior resoluo
tambm seja permitida por sua sintaxe. O padro MPEG 2, como j mencionado, admite
vrios formatos de quadros e diferentes resolues para as componentes de crominncia. De
fato, o MPEG 2 especifica vrios conjuntos de parmetros de restrio, que so definidos nos
seus perfis e nveis. Um perfil especifica as facilidades de codificao que sero utilizadas.
Um nvel especifica a resoluo dos quadros, as taxas de bits etc. Vrias combinaes de
perfis e nveis foram definidas, como veremos mais adiante. O MPEG 2 usa os mesmos tipos
de quadro I, P e B, como o MPEG 1, mas introduz outros mtodos de predio [Netravali 95]
para lidar com vdeo entrelaado.8
8
Vdeo entrelaado tipicamente usado em TV, onde so primeiro varridas as linhas mpares e depois as pares.
Aos conjuntos de linhas mpares e pares chamamos campos. Assim, um quadro composto de dois campos.
28
Com a escalabilidade SNR (Signal to Noise Ratio), outra camada pode ser adicionada
camada base, oferecendo uma melhora na preciso dos coeficientes da DCT (Discrete Cosine
Transform), adicionando valores de correo para serem utilizados antes da decodificao
(aplicao da DCT inversa). Essa extenso tambm prov a codificao do vdeo na resoluo
4:2:2, tendo por camada base o vdeo na resoluo 4:2:0.
Escalabilidade por partio de dados uma verso simplificada da escalabilidade SNR. Com
essa extenso, at um certo nmero de coeficientes de freqncias DCT enviado pela
camada base. Os coeficientes restantes so enviados por outra camada a ser adicionada
bsica.
Na escalabilidade espacial, a camada base tem uma resoluo espacial (resoluo geomtrica
de cada imagem) menor do que a do vdeo original. A camada de melhoramento ento
acrescida camada base para se obter a resoluo original.
Na escalabilidade temporal, a camada base tem uma resoluo temporal (nmero de quadros
por segundo) menor do que a do vdeo original. Novamente, a camada de melhoramento
ento adicionada camada base para a obteno da resoluo original.
9
MPEG 4, cuja designao formal do ISO/IEC ISO/IEC 14496, foi finalizado em outubro de 1998 e tornou-se
um padro internacional nos primeiros meses de 1999. No final de 1999, foram acrescentadas novas extenses
(MPEG-4 verso 2), tornando-se um padro internacional formal no comeo de 2000.
29
O objetivo inicial do MPEG 4 era a sua utilizao em aplicaes com baixas taxas de bits.
Com as finalidades originais consideravelmente modificadas, um novo conjunto de aplicaes
usar o MPEG 4, tais como: videoconferncia, comunicaes mveis, acesso a vdeo de
servidores remotos para aplicaes multimdia, jogos etc. Atualmente, o grupo MPEG 4 est
direcionando os trabalhos para televiso digital, aplicaes grficas interativas e World Wide
Web.
O MPEG 4 considera uma cena como sendo composta de Objetos de Vdeo (Video Objects)
VOs. Os VOs tm propriedades como forma, movimento, textura etc. Eles vo se constituir
nas entidades no fluxo de bits que o usurio pode manipular e ter acesso. Um Plano de
Objetos de Vdeo (Video Object Plane - VOP) uma ocorrncia de um VO em dado instante
de tempo. Cada quadro consiste de vrios VOPs. Uma cena que contm somente um VOP
pode corresponder aos padres correntes, tais como MPEG 1 ou 2. Cada VOP tem sua prpria
resoluo espacial e temporal.
Uma cena, dividida em objetos como mencionado, possui uma organizao hierrquica. Uma
informao adicional enviada com os VOPs a fim de informar ao receptor como compor a
cena. A descrio de cada cena baseia-se em conceitos da Virtual Reality Modeling Language
(VRML Linguagem de Modelagem de Realidade Virtual). Contudo, o padro MPEG 4
introduziu novos conceitos de modelagem e otimizou os j existentes, dando origem a uma
linguagem diferente e mais poderosa: Binary Format for Scenes (BIFS).
Relgio
do
Sistema
30
packs. O cabealho pack contm informaes de temporizao do sistema e sobre as taxas de
dados. O cabealho packet contm a identificao do fluxo elementar, os requisitos de
armazenamento e informaes de temporizao. Os dados packet contm um nmero de bytes
varivel de um mesmo fluxo elementar. Assim, depois de remover o cabealho packet, os
dados packet de todos os packets com o mesmo identificador so concatenados para a
recuperao de um fluxo elementar. At 32 fluxos de udio e 16 fluxos de vdeo podem ser
multiplexados em um fluxo MPEG. A Figura 19 apresenta a estrutura de camadas MPEG 1
System [ISO 93b].
Empacotador
Empacotador
31
Similar ao MPEG 1 e 2, o MPEG 4 System [ISO 01b] desenvolvido para fornecer
multiplexao de fluxos de dados elementares, sincronizao e empacotamento.
Adicionalmente, o MPEG 4 System fornece parmetros de representao/manipulao
bsicos (translao, rotao e zoom) no cabealho da camada de fluxo de dados de cada
objeto.
O ITU-T define como servios de banda larga (broadband) qualquer servio que requer
canais de transmisso capazes de suportar taxas maiores que aquelas do acesso primrio das
RDSI-FE (T1 = 1,544 Mbps, E1 = 2,048 Mbps).
Servios conversacionais provem meios para transferncia fim a fim em tempo real. Entre as
aplicaes que a se enquadram podemos citar: videotelefonia, videoconferncia,
transferncia de documentos multimdia em tempo real (fac-smile de alta resoluo, anotao
de voz etc.), servios de segurana, supercomputao virtual e teleao (controle por
computador de dispositivos fsicos remotos, associados a um controle de processo em tempo
real). O ponto chave dessas aplicaes a interatividade em tempo real da comunicao entre
os usurios dos servios.
32
Servios de recuperao fornecem a facilidade de recuperao de informao armazenada
remotamente. Entre as aplicaes que a se enquadram podemos citar: videotexto, livrarias
eletrnicas e vdeo sob demanda (tanto para entretenimento, pela substituio da TV a cabo,
quanto para educao e treinamento remotos).
O que caracteriza as aplicaes de banda larga o fato de terem de lidar com objetos no
convencionais (udio, vdeo etc.). No convencionais no sentido de serem objetos longos (1
minuto de vdeo colorido no comprimido, qualidade TV, contm 1,8 Gbytes de dados), de
exigirem transferncia contnua de dados a altas taxas (162 Mbps para sinal de TV no
comprimido) e, alm de tudo, de exigirem acesso sincronizado aos dados. A prxima seo
resumir as caractersticas e requisitos de comunicao das diversas mdias envolvidas nas
aplicaes de banda larga.
Na classe de trfego contnuo com taxa constante,10 o trfego, como o prprio nome diz,
constante e, por conseguinte, sua taxa mdia igual a sua taxa de pico. Essa taxa o nico
parmetro necessrio para se caracterizar tal fonte.
As fontes cujo trfego gerado tem caracterstica de rajadas apresentam perodos ativos
(durante os quais h gerao de informao pela fonte, que opera na sua taxa de pico)
intercalados por perodos de inatividade (durante os quais a fonte no produz trfego algum).
Para se caracterizar uma fonte com trfego em rajadas no suficiente utilizarmos a taxa
mdia de gerao de informao, j que essa taxa no representa corretamente o seu
10
Em geral, os padres de comunicao utilizam a palavra contnuo para caracterizar sem interrupo e a taxas
constantes. Note, no entanto, que temos, alm do trfego em rajadas, o trfego sem interrupo mas com taxa
varivel. Em geral, os padres chamam apenas de trfego com taxa varivel (VBR) a ambos os trfegos (em
rajadas e contnuo com taxa varivel), independente de serem sem interrupo ou no.
33
comportamento. A taxa mdia nem sequer representa uma taxa na qual a fonte opera em
algum momento. Muito mais significativas so informaes sobre a distribuio das rajadas
ao longo do tempo, a durao das rajadas, e a taxa de pico atingida durante as rajadas. Alguns
parmetros comumente utilizados para caracterizao desse tipo de trfego incluem a durao
mdia dos perodos de atividade e a explosividade (burstiness) da fonte a razo entre a
taxa de pico e a taxa mdia de utilizao do canal.11
Por fim, as fontes de trfego contnuo com taxa varivel apresentam variaes na taxa de
transmisso ao longo do tempo. Parmetros como a mdia e a varincia da taxa de
transmisso podem ser utilizados para caracterizar o comportamento de fontes com essa
caracterstica. O parmetro de explosividade (burstiness) tambm bastante utilizado na
caracterizao dessas fontes.
Requisitos sobre a qualidade do servio de comunicao desejado (QoS), tais como retardo
mximo de transferncia, variao estatstica do retardo (jitter), vazo mdia, taxas aceitveis
de erro de bit e de pacote de dados, variam muito de uma mdia para outra, e so dependentes
da aplicao. De uma forma geral, podemos caracterizar as diversas mdias, quanto aos
requisitos de comunicao exigidos, como se segue nos prximos pargrafos.
6.1. Texto
O trfego gerado por informaes em texto , em sua grande maioria, de rajada. Para
compreender essa natureza do trfego, pense na comunicao de um terminal com um
computador durante a execuo interativa de um programa. A vazo mdia dos dados vai
depender muito da aplicao, variando desde alguns poucos bits por segundo para aplicaes
de correio eletrnico, at alguns megabits por segundo em transferncia de arquivos. Para
texto, excetuando-se algumas aplicaes em tempo real, como por exemplo para controle de
processos crticos, o retardo mximo de transferncia e a variao estatstica do retardo no se
constituem em problemas, sendo seus requisitos, em geral, facilmente satisfeitos pelo sistema
de comunicao. Quanto tolerncia a erros, na grande maioria das aplicaes, no se pode
tolerar erro nem em um nico bit: suponha, por exemplo, o caso da perda de um bit numa
transferncia eletrnica de fundos.
6.2. Imagem
O trfego gerado em aplicaes grficas animadas, onde vrios quadros so gerados em
intervalos regulares de tempo, tem caractersticas bem semelhantes s da mdia de vdeo,
comentadas mais frente. Excetuando o caso de imagens animadas, a natureza do trfego
gerado pela mdia grfica tambm de rajadas, com vazes mdias chegando a algumas
dezenas de megabits por segundo. Como em textos, o retardo mximo e a variao estatstica
do retardo, em geral, no so relevantes.
Como discutido na Seo 2 as imagens grficas podem estar no formato vetorial ou matricial.
Para imagens no formato matricial e sem compresso, a taxa de erro de bit pode ser bem
maior que a taxa de erro de pacote, uma vez que, em geral, no haver nenhum problema se,
11
Existem outras definies para a medida da explosividade da fonte: a razo entre o desvio padro e a taxa
mdia gerada, por exemplo.
34
por exemplo, um nico pixel de uma tela ficar azul em vez de verde. O mesmo no se pode
dizer da perda de um pacote, que poder, por exemplo, apagar um bloco da imagem na tela.
Para imagens no formato vetorial e imagens (vetoriais ou matriciais) onde foram utilizadas
tcnicas de compresso ou compactao, a tolerncia perda depende muito da aplicao e
seus usurios. Como discutimos na Seo 4.6, existem mtodos de compresso que
identificam a poro mais importante dos dados de uma imagem. Para esses dados, deve-se
evitar ao mximo as perdas. As pores menos importantes podem ser descartadas, se
necessrio (seja por erro na transmisso, por congestionamento no sistema de comunicao,
ou mesmo porque o usurio final no necessita delas para obter a informao que deseja). Um
sistema de comunicao deve poder identificar as pores que ele deve manter ntegras. Outro
caso importante, com relao s perdas, so as imagens que no so processadas somente pelo
olho humano, mas tambm pelo computador como, por exemplo, imagens mdicas ou
cartogrficas. Nesse caso, a perda de um nico bit (seja devido comunicao ou ao mtodo
de compresso) pode ser intolervel (imagine uma doena que se quer diagnosticar atravs de
uma imagem mdica).
6.3. udio
A mdia de udio tem caractersticas bem distintas das mencionadas nos dois pargrafos
anteriores, principalmente em aplicaes de tempo real com interatividade, como os servios
conversacionais do ITU-T. Comeando pela natureza do trfego gerado, a mdia de udio se
caracteriza por gerar um trfego contnuo com taxa constante. Mesmo quando no sinal de voz
realizada a compactao por deteco de silncio, por exemplo, passando a se caracterizar
agora como um trfego de rajada [Gruber 82], ele deve ser reproduzido no destino a uma taxa
constante. O trfego gerado para comunicao dessa mdia do tipo CBR, caso no seja
empregada nenhuma tcnica de compactao ou compresso. Em caso contrrio, o trfego se
caracteriza como VBR e, s vezes, como no caso da voz com deteco de silncio, como um
trfego em rajadas.
A vazo mdia gerada pela mdia de udio depende da qualidade do sinal, da codificao e
compactao ou compresso utilizadas. Para sinais de voz, por exemplo, j apresentamos a
tcnica PCM, que gera 64 Kbps se utilizarmos 8 bits para codificar cada amostra (tomada a
cada 125 seg, isto , 8.000 amostras por segundo). Com qualidade aproximadamente igual, a
codificao ADPCM gera 32 Kbps. Sinais de udio de alta qualidade (qualidade de CD
estreo, por exemplo) geram taxas bem superiores, como, por exemplo, os CDs de udio,
onde a taxa de 1,411 Mbps, como vimos na Seo 3.1.
Quanto s perdas, as taxas de erros de bits ou de pacotes podem ser relativamente altas,
devido ao alto grau de redundncia presente nos sinais de udio. O nico requisito que os
pacotes no sejam muito grandes (no caso da voz, menores que uma slaba), o que
normalmente j satisfeito para no se perder tempo no empacotamento e assim no
aumentar o retardo de transferncia. Perdas da ordem de 1% da informao de voz so
tolerveis12 [Gopal 84, Gruber 85]. Uma vez que as redes de alta velocidade utilizam, hoje em
dia, meios fsicos de alta confiabilidade (como fibra tica, por exemplo, onde a taxa de erro
tpica de 10-9 ou menos) a deteco de erros para a voz nessas redes pode ser tranqilamente
12
Na realidade, como j comentamos, a percentagem de perda depende do tamanho do surto de voz e se a perda
ocorre no incio ou no meio do surto.
35
dispensada, em benefcio de um maior desempenho. Apesar da baixa taxa de erros das redes
de fibra tica, nas mdias grfica e de texto a deteco de erros ainda , na maioria das vezes,
necessria, e em alguns casos at a deteco e correo. Um cuidado adicional deve ser
tomado quando, devido s tcnicas de compresso utilizadas no udio, um erro pode se
propagar para outros bits. Nesse caso, o erro pode ser intolervel. Ainda com respeito ao
udio, pores da informao podem ser diferenciadas quanto tolerncia s perdas. No caso
da voz, por exemplo, perdas nos intervalos de silncio so muito mais tolerveis do que
perdas durante os surtos de voz. Um sistema de comunicao deve poder identificar as
pores mais sensveis a perdas, caso seja necessrio o descarte de dados.
Surto de Voz
Perodo de Silncio
1 2 3 4 5 6 7 8 9 10
TEMPO
ORIGEM
1 2 3 4 5 6 7 8 9 10
TEMPO
DESTINO
Na linha horizontal superior vemos os surtos de voz e de silncio sendo gerados na fonte a
uma taxa constante. Os surtos de voz so divididos em pacotes, que so as unidades que
transitaro no sistema de comunicao (os surtos de silncio no so transmitidos). Uma vez
que o pacote gerado, ele imediatamente entregue para transmisso (veremos a seguir que o
retardo mximo um requisito importante). Se os pacotes sofrerem retardos variveis,
chegaro ao destino no mais preservando a continuidade, conforme mostra a linha horizontal
inferior da figura, podendo gerar intervalos de silncio dentro de um surto de voz, ou
diminuir, e at mesmo eliminar, intervalos de silncio, o que pode causar a perda da
inteligibilidade da informao no destino. Alguma forma de compensao dessa variao
estatstica do retardo deve ser realizada.13 A estratgia utilizada pelos algoritmos de
compensao baseia-se fundamentalmente em assegurar uma reserva de pacotes antes de dar
incio ao processo de reproduo, introduzindo um retardo inicial a cada surto de voz.
Aparentemente o problema estaria resolvido se escolhssemos o retardo inicial bem grande,
13
Note que a variao estatstica do retardo no necessariamente introduzida s pela rede de comunicao, mas
por todo o sistema. Ela introduzida desde a interao da placa de udio com o sistema operacional da estao,
passando pelos protocolos de comunicao (sistema operacional de rede), at chegar ao sistema de transmisso.
No destino, o caminho semelhante, mas em ordem inversa, tambm pode introduzir aleatoriedade no retardo
antes da reproduo. Assim, embora muitas vezes o sistema de transmisso no introduza aleatoriedade no
retardo, a compensao ainda deve ser feita.
36
entretanto, o valor desse retardo est limitado pelo mximo retardo de transferncia (desde a
gerao at a reproduo) permitido para o sinal de voz, sem que haja perda da interatividade
da comunicao [Bastos 92]. As referncias [Soares 91, Bastos 92, Soares 92, Gopal 84,
Adams 85, e Faria 92] discutem com algum detalhe a anlise de desempenho de vrios
algoritmos para compensao da variao estatstica de retardo, com o objetivo de manter a
continuidade em sinais de voz. Embora apresentados para sinais de voz, os algoritmos podem
ser facilmente estendidos para qualquer sinal contnuo (com taxas constante ou varivel). O
Apndice C apresenta uma discusso resumida desses algoritmos.
6.4. Vdeo
Tal qual a mdia de udio, a mdia de vdeo se caracteriza por gerar um trfego contnuo com
taxa constante. Da mesma forma que no udio, mesmo quando no sinal realizada alguma
tcnica de compactao ou compresso e o trfego gerado para comunicao se caracterizar
como um trfego com taxas variveis, o sinal deve ser reproduzido no destino a uma taxa
constante. Como na mdia de udio, o retardo de transferncia mximo tem grande
importncia, e a variao estatstica do retardo deve ser compensada. Normalmente, como o
vdeo vem acompanhado de (sincronizado com) udio, uma vez obedecidos os requisitos de
retardo desse, esto obedecidos os daquele.
A vazo mdia gerada por uma fonte de vdeo varia com a qualidade do sinal e os algoritmos
de codificao, compactao e compresso empregados, conforme discutido na Seo 4.8.
Em vdeo, a taxa de erro de bit pode ser maior que a taxa de erro de pacote, pelos mesmos
motivos explicitados para as imagens grficas no formato matricial. No entanto, no vdeo,
como a imagem no esttica e devem ser gerados vrios quadros por segundo, a taxa de erro
de pacote no to crtica. Mesmo a taxa de erro de bit tolervel maior do que aquela para
imagens estticas [Hehmann 90]. Na verdade, a discusso sobre a taxa de erro aceitvel no
to simples. Quando utilizamos tcnicas de compresso, um erro pode se propagar. Dessa
forma, alguns quadros, em que o erro no se propaga, podem tolerar erros de bits e de
pacotes. Naqueles em que o erro se propaga, s vezes at um nico erro de bit pode ser
intolervel. Tal qual nas imagens no formato matricial, quando se utiliza tcnicas de
compresso ou compactao, a tolerncia a perda depende muito da aplicao e seus usurios.
Como discutimos na Seo 4.8, existem mtodos de compresso que identificam a poro
mais importante dos dados de um vdeo. Para esses dados, deve-se evitar ao mximo as
37
perdas, as pores menos importantes podem ser descartadas, se necessrio (ou por erro na
transmisso, ou por congestionamento no sistema de comunicao, ou mesmo porque o
usurio final no necessita delas para obter a informao que deseja). Mais uma vez, um
sistema de comunicao deve poder identificar as pores em que ele deve minimizar as
perdas.
7. Consideraes Finais
As referncias [Hehmann 90, Gruber 82, Soares 92] apresentam vrias caractersticas das
diversas mdias para diferentes aplicaes e tcnicas de compresso e compactao utilizadas.
A especificao de qual estratgia a ser adotada, para todos os tipos de erro: deteco,
deteco e correo, ou nada;
Referncias
[Adams 85] Adam, C. e Ades, S. Voice Experiments in the UNIVERSE Project.
Proceedings of International Conference on Communications. 29.4.1 -
29.4.9, 1985.
[Bastos 92] Bastos, T.L.P. e Soares, L.F.G. Anlise de Algoritmos para Reproduo
em Tempo Real de Voz em Redes de Pacotes. Relatrio Tcnico IBM
CCR-141, Rio de Janeiro. Janeiro, 1992.
38
[Cormen 02] Cormen, T.H.;Leiserson, C.E.; Rivest, R.L.; Stein, C. Algoritmos.
Traduo da 2 edio americana Teoria e Prtica. 2002.
[Gopal 84] Gopal, P.M., Wong, J.W. e Majithia, J.C. Analysis of Playout Strategies
for Voice Transmission Using Packet Switching Techniques.
Performance Evaluation, n.4. Fevereiro, 1984
[Gruber 82] Gruber, J.G. A Comparison of Measure and Calculated Speech Temporal
Parameters Relevant to Speech Activity Detection. IEEE Transactions on
Communications, vol. com-30, n.4. Abril, 1982.
[Gruber 85] Gruber, J.G. Subjective Effects of Variable Delay and Speech Loss in
Dinamically Managed Voice Systems. IEEE Transactions on
Communications, vol. com-33. Agosto, 1985.
[Hehmann 90] Hehmann, D. B., M.G. Salmony, and H.J. Stuttgen. Transport services for
multimedia applications on broadband networks. Computer
Communications Vol 13 No. 4, 1990, Pages 197-203.
[ISO 93a] ISO/IEC. Coding of Moving Pictures and Associated Audio for Digital
Storage Media at up to about 1.5 Mbit/s - Part 3: Audio. ISO/IEC 11172-
3. 1993.
[ISO 94] ITU-T Recommendation T.81. Joint Photographic Experts Group, 1993.
39
[ISO 01b] ISO/IEC. Coding of Audio-Visual Objects Part 1: Systems. ISO/IEC
14496-1. 2 Edition. 2001.
[ITU-R BT.601-4] ITU-R. Encoding parameters of digital television for studios. ITU-R
BT.601-4. 1994.
[ITU-T G.711] ITU-T. Pulse Code Modulation (PCM) of Voice Frequencies. ITU-T
G.711. 1988.
[ITU-T G.723] ITU-T. Speech Coders Dual Rate Speech Coder for Multimedia
Communications Transmitting at 5.3 and 6.3 kbit/s. ITU-T G.723. 1996.
[ITU-T G.726] ITU-T. 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation
(ADPCM). ITU-T G.726. 1990.
[ITU-T H.261] ITU-T. Video Codec for Audiovisual Services at p x 64 kbit/s. ITU-T
H.261. 1993.
[ITU-T H.263] ITU-T. Video Coding for Low Bit Rate Communication. ITU-T H.263.
2005.
[Soares 91] Soares, L.F.G., Martins, S.L. e Bastos, T.L.P. Um Algoritmo para
Compensao da Variao Estatstica do Retardo em Redes Comutadas
por Pacotes. Anais do 8 Simpsio Brasileiro de Redes de Computadores.
1991.
[Soares 92] Soares, L.F.G. e Bastos, T.L.P. Anlise de Algoritmos para Reproduo
em Tempo Real de Voz em Redes de Pacotes. Anais do 10 Simpsio
Brasileiro de Redes de Computadores, Recife. 1992.
40