CapII EE013 RadiodifusaoDigital PDF

EE013 – Sistemas de Radiodifusão
Digital
Capítulo II – Compressão de sinais de áudio e

vídeo
Prof. MSc. Marcelo Carneiro de Paiva - mcpaiva@inatel.br
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva
Agenda
• Conversão de Analógico para Digital.
• Técnicas básicas de compressão de vídeo.
• Padrões de compressão de vídeo.
1
Visão Geral
Sistema de comunicação digital genérico
Transmissão
Codificador Codificador
Fonte Modulador
de fonte de canal
Canal
Ruído
Recepção
Decodificador Decodificador
Demodulador Destino
de canal de fonte
Visão Geral
Etapa de multiplexação
Em sistemas de transmissão com mais de uma fonte deve se realizar o
processo de multiplexação com o objetivo de construir um único sinal que
alimentará a etapa de codificação de canal.
No receptor deverá existir um elemento capaz de realizar o processo de
demultiplexação para que os decodificadores de fonte sejam alimentados
corretamente.
Codificador Decodificador
Fonte de fonte
Destino
de fonte
Multiplexação Demultiplexação
Codificador Decodificador
Fonte de fonte
Destino
de fonte
Transmissor Receptor
2
Visão Geral
Padrões de transmissão de TV Digital
Nov/2013
Visão Geral
Exemplo para o sistema de transmissão ISDB-T
HD Dados
Adicionais
Codificador
de áudio e
vídeo
Multiplexador
Estúdio LD
Codificador
Áudio e vídeo de áudio e
vídeo
Codificação Antena
Modulador
de canal
3
Visão Geral
Relação de aspecto
4:3
Largura = 1,33 x Altura
16:9
Largura = 1,78 x Altura
Visão Geral
Exemplos de visualização
16:9 em 4:3
4:3 em 16:9
Letterbox Pillar Box
4
Visão Geral
LDTV – Low Definition Television
320 x 240 (4:3)
0,077 Megapixels
SDTV – Standard Definition Television
640 x 480 (4:3)
0,307 Megapixels
EDTV – Enhanced Definition Television

1280 x 720 (16:9)
0,922 Megapixels
HDTV – High Definition Television

1920 x 1080 (16:9)
2,74 Megapixels
Visão Geral
UHDTV 4K – Ultra High Definition Television ~ 4000 pixels/linha
3840 x 2160 (16:9)
8,29 Megapixels
UHDTV 8K – Ultra High Definition Television ~ 8000 pixels/linha
7680 x 4320 (16:9)
33,18 Megapixels
5
Visão Geral
Interfaces do sinal de vídeo:
1 – S-Vídeo/Vídeo Composto;
Resolução SD;
3 – Vídeo Composto;
Resolução SD;
4 e 5 – Vídeo Componente;
Resolução SD, ED e HD;
6 – HDMI;
Resolução SD, ED e HD;
7 – VGA;
Resolução SD, ED e HD.
Analógico para Digital

Um sinal de vídeo digital geralmente é representado por intermédio de
um sinal de vídeo componente chamado YCbCr. A relação matemática
para conversão do sinal RGB gama corrigido digitalizado em um sinal
YCbCr, definida pela recomendação ITU-R BT.601 para sinais SD
(Standart Definition), está mostrada abaixo:
Y = 0,257R’ + 0,504G’ + 0,098B’ + 16.

Cb = −0,148R’ − 0,291G’ + 0,439B’ + 128.
Cr = 0,439R’ − 0,368G’ − 0,071B’ + 128.
16 ≤ Y ≤ 235
0 ≤ R’, G’, B’ ≤ 255
16 ≤ Cb, Cr ≤ 240
6
O valor 0 (Zero) das componentes RGB correspondem à saturação
mínima da cor, enquanto o valor 255 representa a saturação máxima da
cor.
Veja a seguir a composição da barra de cores (color bar 100%) que
explora a saturação das componentes RGB:
7
Os sinais RGB gama corrigido podem ser recuperados a partir

dos sinais YCbCr utilizando as seguintes expressões:
R’ = 1,164(Y −16) + 1,596(Cr − 128).
G’ = 1,164(Y −16) − 0,813(Cr −128) − 0,392(Cb − 128).
B’=1,164(Y −16) + 2,017(Cb − 128).

A conversão dos sinais de vídeo analógicos para sinais de vídeo digitais
passa pelas seguintes etapas:
Sinal de Sinal de
vídeo Filtro Amostrador Codificador
Quantizador vídeo
analógico PCM digital
A Filtragem limita a largura de faixa do sinal de entrada visando evitar

aliasing.
O Amostrador define como será o processo de amostragem dos pixels.
O Quantizador estabelece valores discretos para as amostras coletadas
inserindo um erro de quantização.
O Codificador transforma os níveis discretos em palavras binárias.
8
R’G’B’ (analógico)
Matriz Linear*
(RGB p/ YPbPr)
YPbPr (analógico)**
Filtro
Filtro Amostrador
Amostrador Quantizador
Quantizador Codificador
CodificadorPCM
Filtro Amostrador Quantizador CodificadorPCM
PCM
* Converte RGB para YPbPr

YCbCr (Digital)
** Versão analógica do YCbCr
Teorema de Nyquist:
“Todo sinal analógico limitado em banda pode ser perfeitamente
representada por suas amostras, desde que estas sejam tomadas a taxa
de amostragem dada por
f S  2 f máx
onde, fs é a frequência de amostragem e fmax é a máxima frequência do
sinal analógico.”
9
• Sinal limitado em frequência:

|S(f)|
-fm fm
f
• Sinal Amostrado
-fs-fm -fs -fs+fm -fm fm fm-fs fs fm+fs f
No caso da quantização uniforme a relação Sinal/Ruído de

quantização é definida como sendo a relação entre a potência de pico
do sinal e a potência média do ruído de quantização resultando em
RSRq = 3L2
onde, L é o número de níveis de quantização.

Em dB, temos:
RSRq = 10 log (3L2)
10
Sinal
Quantizado
Sinal
Original
Erro de
Quantização

A recomendação ITU-R BT.601 padronizou inicialmente como
unidade fundamental de amostragem o valor fUF = 3,375MHz, pois
trata-se de um número múltiplo da frequência horizontal fH tanto
para o padrão M (525 linhas e fV = 59,94Hz) como para o padrão
Europeu (625 linhas e fV = 50Hz) visando reduzir distorções.
A frequência de amostragem fA era ser especificada em termos dos
múltiplos de fUF , ou seja,
fA = 1fUF = 3,375MHz ou
fA = 2fUF = 6,75MHz ou
fA = 4fUF = 13,5MHz.
11
As principais frequências utilizadas na amostragem das componentes
dos sinais de vídeo com relação de aspecto 4:3 são:
Componente Frequência de amostragem

Y, R, G, B fA = 4fUF = 13,5MHz
Pb e Pr fA = 1fUF = 3,375MHz ou
ou fA = 2fUF = 6,75MHz ou
R-Y, B-Y fA = 4fUF = 13,5MHz.
Posteriormente, foi definida a frequência de amostragem de 18MHz

para amostragem dos sinais de vídeo com relação de aspecto 16:9.

Formatos de amostragem dos sinais de vídeo
• O formato de amostragem define como as componentes Y, Cb e

Cr serão amostradas para compor a informação de cada pixel da
imagem;
• Emprega-se normalmente a sub-amostragem (down sample) dos

sinais de crominância para diminuir a taxa de bits necessária para
a transmissão das informações de vídeo;
• O formato de amostragem é representado pela notação A:B:C

Ex.: 4:4:4, 4:2:2, etc.
12
Um formato de amostragem 4:4:4 significa que para um conjunto
de 4 pixels, em todos os quatro os sinais YCrCb foram amostrados,
sobre um quadro hipotético destacado.
Pixel
Amostra Luminância (Y)
Amostra Crominância (Cr,Cb)
Formato 4:4:4

No formato 4:2:2, para quatro pixels dos quais amostras Y foram
tomadas, de apenas dois, alternadamente, são tomadas as amostras
dos sinais Cr e Cb amostrados sobre um quadro hipotético.
Pixel
Formato 4:2:2
13
O formato 4:2:0 consiste numa amostragem onde, para cada 4
pixels em que as amostras de Y foram tomadas, na primeira linha
toma-se amostras dos sinais Cr e Cb amostrados e na segunda
nenhuma amostra.
Pixel
Formato 4:2:0

O formato 4:1:1 consiste numa amostragem onde, para cada 4
pixels em que as amostras de Y foram tomadas, apenas de um
pixel foram tomadas amostras dos sinais Cr e Cb amostrados
Pixel
Formato 4:1:1
14
Resumindo:
Formato Componente Frequência de amostragem

Y 4fUF = 13,5MHz
4:4:4 4fUF = 13,5MHz
Cb, Cr
Y 4fUF = 13,5MHz
4:2:2
Cb, Cr 2fUF = 6,75MHz
Y 4fUF = 13,5MHz
4:1:1
Cb, Cr 1fUF = 3,375MHz

A tabela abaixo apresenta o número de pixels para as duas taxas de
amostragem da Recomendação ITU-R BT601-5, de acordo com os
formatos de amostragens 4:2:2 e 4:4:4, para padrões com 525 linhas e
30 quadros por segundo (NTSC e PAL-M).
15
As taxas de transmissão dos sinais de vídeo de uma TV convencional
no formato digital pode ser calculada através da expressão:
Rb  Rq  nb  l  (SY  SCr  SCb )

onde: Rb é a taxa de bits em bps,
Rq é a taxa de apresentação de quadros por segundo,
nb é o número de bits por amostra,
l é o número de linhas ativas,
SY é o número de amostras do sinal Y (pixels ativos),
SCr é o número de amostras do sinal Cr (pixels ativos),
SCb é o número de amostras do sinal Cb (pixels ativos).

Determine a taxa de transmissão para os padrões de TV com 525
linhas e 30 quadros por segundo para taxas de amostragens de 13,5
MHz e 18 MHz, e formatos de amostragem 4:2:2 e 4:4:4.
Rb  Rq  nb  l  (SY  SCr  SCb )
16
Analisando a figura abaixo, responda:
1 – Descreva o processo de conversão do sinal RGB em YCBCr;
2 – Qual o formato de amostragem empregado?
3 – Quantos bits serão usados para representar cada componente?
4 – Qual a taxa de bits do sinal de vídeo digitalizado?
Compressão de Vídeo
• Objetivo: reduzir as redundâncias, introduzindo distorções
controladas na informação.
Redundância
Entropia
Redundância
Entropia Entropia
Redundância
Compactação Compressão
17
• Exemplo de compactação: amostragem.

• Teorema de Nyquist: “Todo sinal analógico limitado em banda
pode ser perfeitamente representada por suas amostras, desde que
estas sejam tomadas a taxa de amostragem dada por
f S  2 f máx
onde, fs é a frequência de amostragem e fmax é a máxima frequência do
sinal analógico.”
• Exemplo de compressão: quantização.
• Ruído de quantização: erro introduzido pelo arrendamento das
amostras que não pode ser removido.
2 2
Sinal de Erro
1.5 1.5
1 1
0.5 0.5
s(t) e s (t)
q
e(t)
0 0
-0.5 -0.5
-1 -1
-1.5 Sinal não quantizado -1.5

Sinal quantizado
-2 -2
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
tempo [s] tempo [s]
18
Tipos de redundância
• Espacial - informações similares dentro de um mesmo quadro;
• Temporal - informações similares entre quadros sucessivos;
• A redução da redundância espacial tira proveito da alta correlação
existente entre os pixels de uma imagem, ou seja, não é necessário a
transmissão de todas as amostras uma vez que um pixel é, geralmente,
muito semelhante aos seus vizinhos.
• Note que este conceito é diferente de alguns formatos de

amostragem, onde os sinais de crominância não são amostrados com a
mesma frequência do sinal de luminância.
• A compressão espacial é feita a partir das amostras dos sinais,

independentemente do formato de amostragem utilizado, e consiste na
redução da redundância estatística e subjetiva existente no quadro.
19
• A compressão espacial reduz as redundâncias entre as partes de

uma mesma cena.
Blocos com alta correlação
• Uma vez que a sensação de movimento é reproduzida a partir da
exposição consecutiva de diversos quadros, existe também uma alta
correlação entre quadros. A essência da compressão temporal na retirada
da redundância estatística e subjetiva entre quadros.
• A compressão espacial reduz as redundâncias entre as partes de uma
mesma cena.
20
• As duas principais técnicas utilizadas para compressão de vídeo

utilizando as redundâncias espaciais são:
• Codificação Preditiva (Predição de pixels intraquadro);
• Codificação por Transformada de Domínio;
• As duas principais técnicas utilizadas para compressão de vídeo

utilizando as redundâncias temporais são:
• Estimação de movimento (Predição de pixels interquadro);
• Compensação de movimento;
• No processo de compressão de vídeo, em geral, ocorrem os
processos de:
• Codificação preditiva (intraquadro) ou Transformada de
domínio;
e/ou
• Codificação preditiva (interquadro);
• O segundo passo consiste no processo de quantização que envolve
a seleção dos coeficientes de maior importância e o descarte dos
menos relevantes;
• No último passo ocorre a codificação de entropia que proporciona

benefícios substanciais na codificação dos coeficientes, que possuem
distribuição de probabilidade altamente não uniforme.
21
• Em uma fonte de Markov a probabilidade de um determinado

símbolo ser emitido depende do símbolo que foi emitido no instante
anterior. Se a dependência é apenas sobre o símbolo emitido
anteriormente, a fonte é conhecida como fonte de Markov de
Primeira Ordem. Se a dependência é sobre dois símbolos
transmitidos previamente a fonte é chamada de Markov de Segunda
Ordem, e assim por diante.
• Uma imagem pode ser modelada como uma fonte de Markov,

onde a ocorrência de um símbolo influencia a probabilidade de
ocorrência dos próximos símbolos.
• Análises comprovam que o erro médio quadrático observado na
predição que usa apenas um pixel vizinho cai substancialmente
quando são utilizados dois ou três pixels vizinhos, mas nenhuma
mudança significativa é observada a partir do uso de um quarto
pixel. Normalmente, uma imagem é considerada uma fonte de
Markov de terceira ordem.
• Desta forma, os valores de intensidade luminosa dos pixels

adjacentes em uma imagem são altamente correlacionados. A
entropia destes pixels é alta, pois todos os possíveis valores de
intensidade luminosa tem probabilidade de ocorrência similares.
22
Codificação Preditiva
• Os processos de Codificação Preditiva e Codificação por

Transformada de Domínio transformam uma fonte com alta
entropia e valores correlacionados em uma fonte com baixa
entropia e valores pouco correlacionados.
• O codificador de entropia tem seu desempenho potencializado

para fontes de baixa entropia e por esse motivo é utilizado
posteriormente aos processos de Codificação Preditiva e
Codificação por Transformada de Domínio .
• A predição do pixel atual é feita a partir do valor de um ou mais
pixels adjacentes.
• O erro de predição, ou sinal diferencial, resultante da subtração
do valor do pixel pela sua predição é quantizado em um dos L
níveis de amplitude discretos.
• As principais partes do codificador preditivo são: Predição,
Quantização, e Codificador de Entropia.
23
• Note que a faixa de valores possíveis para o erro de predição é

duas vezes maior que a faixa de valores possíveis de entrada do
codificador preditivo. Por esse motivo o codificador preditivo deve
possuir um codificador de entropia conectado à sua saída para que o
processo de compressão seja alcançado em sua plenitude.
• A saída do codificador preditivo consiste no erro de predição

entre o valor pixel atual e o valor estimado. Este conjunto de
valores de erro de predição possuem pouca correlação, mas os
valores individuais tem grande probabilidade de serem semelhantes.
• Analise do resultado na saída do codificador preditivo
24
• Em sua versão mais simples, o codificador preditivo usa o pixel
horizontal previamente transmitido como uma previsão.
• Com o objetivo de aproveitar todas as correlações, mais pixels na
direção horizontal, bem como alguns pixels da linha anterior no
mesmo campo, também são utilizados.
• O arranjo empregado para realizar a predição também influencia
na eficiência da predição. A predição de terceira ordem para o pixel
X poder ser realizada com a
expressão,
X = αA+βB+δC
• A predição de primeira ordem mais óbvia possível é fazer α=1,

β=0 e δ=0, resultando em,
X=A
• A predição de segunda ordem mais óbvia possível é fazer α=1/2,

β=0 e δ=1/2, resultando em,
X = 0,5A+0,5C
• As expressões abaixo mostram dois tipos de predição de terceira

ordem bastante úteis,
X=A‒ B+C
X = 0,75A ‒ 0,5B + 0,75C
25
Esta tabela apresenta algumas possibilidades de coeficientes de
predição para os sinais Y, Cr e Cb e suas correspondentes variâncias
para os erros de predição.
Transformada de Domínio
• A Codificação por Transformada de Domínio visa reduzir a
redundância espacial de uma imagem. Esta codificação gera um
conjunto de valores que representam a energia dos pixels no
domínio dos coeficientes da transformada.
• Se a energia dos pixels estiver concentrada em poucos coeficientes,

há um ganho de compressão, pois os coeficientes com valores
próximos de zero podem ser descartados sem provocar distorções
significativas.
• Esta técnica é utilizada pelos principais padrões de compressão de

imagens estáticas e dinâmicas (JPEG e MPEG).
26
Os blocos de pixels são convertidos para outro domínio através de uma
transformada de domínio. A correlação espacial entre os diferentes
coeficientes de um mesmo quadro é reduzida substancialmente com a
transformada, sendo relativamente eficiente para baixas taxas e isso
ocorre basicamente por três motivos.
• Nem todos os coeficientes da transformada precisam ser
transmitidos para a obtenção de uma boa qualidade da imagem.
• Os coeficientes que são codificados não precisam ser representados
com muita precisão.
• Os coeficientes possuem uma distribuição de probabilidade
altamente não uniforme e, portanto, podem ser codificados de forma
eficiente por um codificador de entropia.
• Os principais padrões de compressão utilizam a transforma discreta
de cossenos (DCT - Discrete Cosine Transform), pois apresenta uma
solução de compromisso entre complexidade e desempenho.
• A codificação de transformada de domínio usando DCT envolve os

seguintes passos:
Cálculo Ordenação dos Codificação

da DCT Quantização RLC/VLC
coeficientes
27
A DCT pode ser definida para qualquer arranjo retangular de pixels,
mas em compressão de imagem, o bloco básico é geralmente um
arranjo com 8 × 8 pixels (64 pixels). x
y 172
188
179
187
188
190
191
193
196
199
200
201
204
178
174
101
189 189 196 197 199 183 117 84
186 192 197 199 189 130 85 85
198 197 199 192 149 100 100 95
195 195 193 158 108 98 96 98
195 189 171 111 111 108 104 96
192 177 124 110 113 113 108 100
8 × 8 pixels Valores de intensidade do pixel (Y)
A aplicação da DCT sobre um bloco de pixels de tamanho maior

aumenta consideravelmente a complexidade de processamento e não
proporciona ganho de compressão significativo.
Para um arranjo com 8 × 8 pixels é definida como
onde,
f (x, y) é o valor da amostra do pixel situado nas coordenadas (x, y) do
arranjo 8 × 8;
F(u, v) são os coeficientes da transformada dos pixels nas coordenadas
(u, v), que correspondem às coordenadas (x, y) no domínio dos
pixels.
Os valores de Cu e Cv
são definidos como
28
A DCT converte valores de amostras espaciais (ex. valores de

luminância (Y) dos pixels de um determinado espaço da imagem) em
coeficientes de frequências espaciais.
x
f(x,y) F(u,v)
DCT u
y v
IDCT
Domínio espacial Domínio da Frequência

(amostras dos pixels) (frequência espacial)
x u
y 172 179 188 191 196 200 204 174
DCT v 1256,4 228,6 -50,0 17,7 -15,6 2 -2,7 5,8
188 187 190 193 199 201 178 101
154,8 -80 -93,2 27 -6,5 12,3 2 0,7
189 189 196 197 199 183 117 84
9,7 -92,3 57,3 39,3 -29 3,4 6,3 1,5
186 192 197 199 189 130 85 85
16,3 -12,7 35,4 -47,6 -6,9 17,8 -2,1 4,4
198 197 199 192 149 100 100 95
2,1 -18,2 4 -14,4 27,6 -5,7 -12,9 -1,4
195 195 193 158 108 98 96 98
IDCT
-3 -3,9 0,6 -9,3 2,5 -17,8 12,3 6,1
195 189 171 111 111 108 104 96 -1,2 -5,4 1,9 -7,2 6,2 -1,5 6,2 -11,8
192 177 124 110 113 113 108 100 7,1 -2,9 3,8 0,9 -1,4 0 2 2,9
f(x,y) F(u,v)
F(u,v) = Coeficientes da DCT
DCT
f(x,y) = valor de amostra – ex. luminância (Y) - de cada pixel.
29
Note que:
• O cálculo de F(0, 0) resultará em um valor DC (sem componentes cosenoidais
ou seja, sem componentes AC).
• O cálculo de um valor de coeficiente F(u, v) envolve a soma/multiplicação dos 64
valores de f(x,y). Portanto, cada valor de F(u, v) depende de todos os pixels do
bloco.
• Os valores dos elementos da fórmula que não o f(x,y) – amostras da imagem -
dependem apenas de x, u, y e v, que são valores pré-determinados (0 a 7 para
blocos de 8x8 pixels):
Estes valores são chamados de FUNÇÕES BASE da DCT.
Veja as funções base da DCT no domínio espacial (domínio dos pixels):
As funções base representam

um conjunto de 64 pixels
30
A DCT descreve o bloco da imagem em função de uma soma
ponderada ou combinação linear das funções base.
Bloco da Componente Componentes

imagem DC AC
IDCT
Através da soma ponderada das funções base,

pode-se representar o padrão de bloco de imagem.
Aumento da
Componentes de frequência espacial frequência espacial
• Tipicamente o resultado da DCT concentra

coeficientes de maior intensidade nas componentes
de baixa frequência espacial.
F(u,v)
• O sistema visual humano é

menos sensível às componentes de
alta frequência espacial.
31
Os coeficientes obtidos com a transformada são quantizados pela
divisão de cada um dos coeficientes da matriz, F(u,v) pelo
correspondente elemento da matriz de quantização Q(u,v). O resultado,
Co(u,v) é aproximado para o inteiro mais próximo, conforme
expressão
Como resultado da quantização, apenas poucos valores serão não-

nulos, sendo estes os coeficientes que devem ser transmitidos.
• Obviamente, os coeficientes provenientes da divisão são
arredondados para o número inteiro mais próximo.
• São esses valores aproximados que são transmitidos para o

decodificador de vídeo.
• No decodificador, cada valor quantizado é multiplicado pelo seu

correspondente valor na matriz de quantização, obtendo-se assim, uma
versão recuperada dos coeficientes.
• Uma vez obtida a matriz com uma versão dos coeficientes da DCT,
a transformada inversa, ou IDCT, pode ser aplicada de forma a obter-
se uma versão recuperada das amostras dos pixels.
32
• O emprego da DCT resulta em pouca compactação, pois a matriz
resultante terá o mesmo tamanho da matriz original.
• A matriz de coeficientes DCT é dividida por outra matriz (chamada
de matriz de quantização). O resultado da divisão passa por um
arredondamento, e muitos elementos passam a assumir o valor
nulo.
• O processo de arredondamento da divisão introduz perda de
informação, o que insere distorções irreversíveis, porém pouco
perceptíveis ao olho humano.
• O processo de quantização permite realizar a compressão de dados,
pois transforma em zero muitos elementos da matriz de coeficientes
DCT.
A IDCT é definida como
O erro quadrático médio para blocos de 8 x 8 pixels é dado por
Resultando numa relação sinal/ruído de quantização, em dB, igual a
33
Aplicação da DCT e IDCT no JPEG
Considere a matriz apresentada a seguir, cujos valores correspondem
às amostras do sinal de luminância de um bloco com 8 × 8 pixels.
• A aplicação da transformada sobre as amostras, cujos valores
podem chegar a 255, resulta em componentes AC na faixa de –1023
até 1023, que podem ser representados por palavras binárias com 11
bits.
• Entretanto, o componente DC pode situar-se entre 0 e 2040, ou seja,
pode assumir valores inadequados para serem representados por 11
bits.
• Para evitar o uso de 12 bits exclusivamente para o nível DC, o valor
128 é subtraído de cada amostra de sinal. Esta subtração não afeta os
coeficientes AC, mas desloca o coeficiente DC para uma faixa de
valores que podem ser representados por 11 bits.
34
Subtraindo-se 128 de cada amostra,
obtém-se
Aplicando se a DCT na
tabela acima, encontra-se
A matriz de quantização para o sinal

de luminância no JPEG é
Ao fazer a quantização encontra-se

os coeficientes quantizados transmitidos
35
No decodificador a quantização inversa
é feita pela multiplicação dos valores
quantizados pelos seus correspondentes
valores, obtendo-se assim
Aplicando-se a IDCT, obtém-se
Existe a necessidade de deslocar novamente os valores das amostras
recuperadas adicionando-se a cada uma delas o valor 128, que foi
retirado de cada uma antes da aplicação da DCT no codificador. Isso
resulta nas amostras de luminância recuperadas
36
Note que os valores de luminância recuperados não são exatamente os
mesmos.
Abaixo a matriz de erro apresenta as diferenças entre a matriz original
e a recuperado no decodificador.
A relação sinal/ruído de quantização, consequência deste processo,

resulta em RSRq = 40,126 dB.
37
A escolha da matriz de quantização deve atender a relação de
compromisso: qualidade de imagem x taxa de compressão.
A matriz de quantização normalmente provê MAIOR precisão para as

componentes de MENOR frequência espacial – às quais o olho
humano é mais sensível - e MENOR precisão às componentes de
ALTA frequência espacial – às quais o olho humano é menos sensível.
No processo de arredondamento muitas componentes de alta

frequência são arredondados para zero e muitas das componentes
restantes transformam-se em números positivos ou negativos de
pequenos valores, que requerem menos bits para serem codificados e
transmitidos/armazenados.
Exemplos de matrizes de quantização utilizadas no padrão JPEG
38
Organização dos coeficientes
A leitura (scan) dos coeficientes da DCT

quantizados é realizada de forma a
concatenar o maior número de zeros
consecutivos.
A leitura se inicia pelos componentes com

probabilidade maior de assumir valores
diferentes de zero.
Leitura em zig-zag Existem padrões de leitura padronizados

como o “zig-zag” (veja ao lado).
Codificação RLC – Run Lenght Coding
A utilização de codificação RLC para a codificar os coeficientes da

DCT quantizados permite reduzir a taxa de bits necessária para a
transmissão de tais coeficientes.
A codificação RLC é potencializada graças aos processo prévios de

quantização e de organização de leitura dos coeficientes quantizados.
Coeficientes organizados:
5, -21, 2, 0, ... 0, 0, 0, 0, 0, 0
39
VLC - Variable-Length Coding
Codificação de entropia / Códigos de comprimento variável
Dada uma fonte sem memória, ou seja, cuja probabilidade de

ocorrência dos símbolos são independentes entre si, a codificação
de entropia estabelece que:
quanto maior a probabilidade de ocorrência de um símbolo,

menor será a palavra código associada ao referido símbolo.
Qual a entropia H(x) da fonte sem memória – fonte em que os
símbolos tem probabilidade de ocorrência independentes entre si -
dada a seguir? Símbolo (x) p(x) I(x)
(probabilidade) (Informação)
A 0,7 0,515
B 0,1 3,322
C 0,1 3,322
D 0,1 3,322
H ( x)  I ( x1 ) p( x1 )  I ( x2 ) p( x2 )  ...
H(x) = 1,357 bits/símbolo
40
Exemplo de código entrópico eficiente, utilizado em processos de
compactação, é o código de Huffman. Este é empregado em
algoritmos como JPEG e MPEG.
Símbolo (x) p(x) I(x) Palavra Código
(probabilidade) (Informação) HUFFMAN
A 0,7 0,515 0
B 0,1 3,322 10
C 0,1 3,322 110
D 0,1 3,322 111
Qual será, provavelmente, a quantidade de bits necessários para a

transmissão de 10 símbolos desta fonte? 15
Taxa de compressão no JPEG
Tipicamente a compressão sem perda visível gira em torno de 10:1,

podendo chegar até 20:1.
Exemplo: Imagem de 2 Mbytes tem seu tamanho reduzido para 100

Kbytes.
O limiar de erro visível varia consideravelmente por imagem.

Compressão de 30:1 a 50:1 é possível com imperfeições
moderadas.
Acima disto, como o extremo 100:1, a qualidade da imagem sofre

perdas acentuadas.
41
Compressão 2,6:1
Tamanho do arquivo 83kB
Compressão 15:1
Compressão 46:1
Redundância Temporal
Além da redundância espacial, são exploradas as redundâncias

temporais existentes entre quadros ou campos consecutivos com o
objetivo de ampliar a compressão do sinal.
Esta similaridade entre quadros ou campos consecutivos será

processada por intermédio da utilização de técnicas como:
• Predição de pixels;
• Busca de blocos semelhantes;
• Compensação de movimento;
42
A predição de movimento consiste em utilizar pixels codificados de
quadros ou campos anteriores para estimar o valor do pixel, X, do
quadro atual.
Bons resultados são alcançados quando não há alterações na

intensidade da cena de quadro para quadro e quando há pequenos
movimentos de objetos com bordas moderadamente pronunciadas.
A Tabela abaixo apresenta os valores de
entropia diferencial para alguns
esquemas de predição interquadros
baseado apenas na correlação temporal
e considerando sinais quantizados com
35 níveis.
O objeto de predição é o pixel X.
43
• Essas técnicas de predição apresentam resultados satisfatórios
quando o movimento é lento. Em movimentos rápidos, a falta de
correlação entre os pixels pode ocorrer de um quadro para outro,
acarretando um menor desempenho de compressão.
•Exemplo de determinação do vetor deslocamento.
Baseado nestas premissas, as intensidades monocromáticas Yi,j(t) e
Yi+c,j+d(t - τ) de um pixel em dois quadros consecutivos estão
relacionadas por
Yi, j (t) = Yi+c, j+d (t - τ),
onde:
Yi,j(t) é o valor quantizado da luminância do pixel localizado nas
coordenadas i e j no instante t,
Yi+c,j+d(t - τ) é o valor quantizado da luminância do pixel localizado
nas coordenadas (i + c) e (j + d) no instante (t - τ), sendo [c, d] o
vetor de translação bi-dimensional do objeto durante o intervalo de
tempo entre t e (t - τ).
O desafio reside em estimar [c, d] de forma que a igualdade seja
verificada.
44
Existem vários métodos para determinar a predição do vetor [c, d],
os mais comuns são:
• Método do Casamento de Blocos, no qual um bloco de pixels do

quadro atual é “localizado” no quadro anterior e a diferença de
posição entre ambos permite a estimação do valor do vetor
deslocamento que é transmitido como informação lateral.
• Método Recursivo, no qual o vetor deslocamento não é

transmitido, sendo estimado a partir dos pixels previamente
transmitidos.
Método do Casamento de Blocos
Este algoritmo procura por um grupo de pixels, formado por uma
janela de MxN, dentro de uma área pré-definida.
Passos do algoritmo:
1º - Define-se um bloco formado por MxN pixels dentro do quadro no
instante t.
2º - Toma-se o pixel do centro deste bloco como referência e valor da
luminância deste pixel é denotado por Yi,j(t).
3º - A partir das coordenadas [i, j] uma área de exploração, limitada
por [i ± Δ, j ± Δ] é estabelecida.
4º - Um algoritmo de busca começa a varrer a área de exploração do
quadro no tempo (t - τ).
45
O algoritmo escolhe o vetor deslocamento que minimiza a função erro
de predição dada por
1 k l
PE (c, d )    Yi  m, j n t   Yi c m, j d n (t  )
M  N mk nl
onde, k = (M-1)/2,
l = (N-1)/2,
PE(c, d) é o valor médio dos erros entre as intensidades dos
pixels do bloco M × N, no instante t, comparado com as
correspondentes intensidades dos pixels de um bloco M × N,
deslocado por um vetor [c, d] a partir das coordenadas [i, j], no
instante (t - τ).
O valor de PE(c,d) deve ser calculado para todas as possíveis
variações de deslocamento dentro da área definida.
Pode-se fazer saltos maiores, visando uma relação de compromisso
entre velocidade
e precisão.
46
Exemplo:
Considere o quadro com 20 × 15 pixels, apresentado no slide anterior.
O sinal de luminância de todos os pixels foi amostrado com 16 níveis
de quantização e um bloco de pixels 3 × 3, centrado em [i, j] = [7, 9],
no tempo t, possua os valores
Admita que uma área de exploração esteja limitada a partir de [i, j] em
Δ = [±5, ±5], e que os valores de luminância dentro da área de
exploração no tempo (t - τ) sejam os valores apresentados a seguir
47
Determine o vetor deslocamento para o bloco 3 × 3 definido,

considerando que algoritmo de busca prioriza o sentido horizontal, em
saltos de três pixels e a partir da posição onde o valor de PE(c, d) é o
mais baixo.
O algoritmo muda a busca para o sentido vertical, também em passos

de três pixels, e assim sucessivamente até que o menor valor de
PE(c, d) seja encontrado.
Passo 1 – Determinação da matriz 3 × 3 para [c, d] = [0, 0] e cálculo
de PE(c,d).
48
Passo 2 – Determinação da matriz 3 × 3 para [c, d] = [0, -3] e cálculo
de PE(c,d).
Passo 3 – Determinação da matriz 3 × 3 para [c, d] = [0, 3] e cálculo
de PE(c,d).
49
Passo 4 – Determinação da matriz 3 × 3 para [c, d] = [3, -3] e cálculo
de PE(c,d).
O cálculo do melhor casamento pode indicar que há diferenças entre
o bloco do quadro atual e o bloco de melhor casamento.
Deformações de objetos, rotações, diferenças de iluminação, etc.

podem causar diferenças “pequenas” entre os blocos.
A matriz de diferenças entre os blocos, chamada de RESÍDUO, é

codificada e transmitida junto com o vetor de movimento para
permitir reconstruir o bloco atual em função do bloco de referência.
Um bom codificador compara a quantidade de bits necessária para a

transmissão dos resíduos e para a transmissão do bloco inteiro (sem
usar compensação de movimento) para verificar qual a melhor opção
em termos de redução de taxa de transmissão.
50
MPEG-1 - Introdução
• O MPEG (Moving Pictures Expert Group) foi criado em 1988 pela ISO
(International Organization for Standardization) com o objetivo de
desenvolver padrões de compressão/codificação de vídeo e áudio.
• O MPEG-1 foi padronizado em 1991(ISO/IEC 11172) com o objetivo
principal de criar um padrão de codificação de vídeo e áudio que permitisse a
transmissão em circuitos T1 e para reprodução a partir de CD-ROM (taxa de
1,5Mb/s).
• A tabela abaixo apresenta os principais parâmetros de restrição do MPEG-1.
Parâmetro Valor
Resolução Horizontal Menor que 768 pixels
Resolução Vertical Menor que 576 linhas
Número de macroblocos Menor que 396
Taxa de macroblocos/s Menor que 396 x 25 = 9900
Taxa de quadros Menor que 30 quadros/s
Taxa de bits/s Menor que 1,856 Mb/s
• O grande limitante imposto pelo MPEG-1 foi número de macroblocos e o

número de macroblocos por segundo, pois isto impede a codificação de
sinais SDTV (Standard Definition Television).
• O número de macroblocos em uma imagem SDTV é dada por:

640 480
N MB    1200
16 16
• A taxa de macroblocos necessária neste caso é dada por:
1200 30  36000 para 60 Hz

RMB  
1200 25  30000 para 50 Hz
51
• A máxima resolução possível no MPEG-1, considerando uma taxa de

25 quadros/s é de 352x288, pois
352 288
RMB    25  9900 MB/s
16 16
• Para uma taxa de 30 quadros/s, tem-se que a resolução máxima é dada
por 352x240, uma vez que
352 240
RMB    30  9900 MB/s
16 16
• Os dois formatos apresentados acima são conhecidos como CIF (Common

Intermediate Format) e são utilizados em diversas aplicações,
principalmente para armazenagem de vídeo em CD’s.
• A qualidade obtida com os CIF’s é aproximadamente a metade da resolução

obtida no SDTV, porém não é muito diferente da qualidade de imagem
entregue nos sistemas analógicos, como o NTSC e o PAL-M.
PAL-M CIF
525*0,92 = 483 linhas. 352 x 288
483*0,65 = 314 linhas. Para 25 quadros/segundo.
314*(4/3) ≡ 419 pixels/linha.
Assim, 419 x 314. 352 x 240
Varredura entrelaçada. Para 30 quadros/segundo.
(60 campos/segundo)
52
• Uma das principais diferenças entre o MPEG e o JPEG é que o MPEG

permite compressão temporal além da compressão espacial.
• Por este motivo, a análise dos sistemas MPEG deve ser feita em 3
dimensões, ao invés de 2. Isto aumenta consideravelmente a
complexidade do sistema.
• Nos padrões MPEG, a maior complexidade está no processo de

codificação. A complexidade de decodificação foi reduzida para baratear
os receptores/decodificadores domésticos. Um sistema como este é dito
assimétrico.
• Outros sistemas usados para teleconferência geralmente são simétricos,

devido ao fluxo bidirecional.
Definições do MPEG-1
• O MPEG-1 define diversas ferramentas para realizar a compressão de sinais de

vídeo e mostra algumas maneiras de implementá-las.
• O MPEG-1 também define as sintaxes da sequência de bits codificados e as

maneiras com a qual o decodificador deve interpretá-las.
• O interessante da norma MPEG-1 é que o codificador não é definido. Qualquer

codificador (em software ou em hardware) que gere uma sequência de bits
válida é um codificador MPEG-1.
• Esta abordagem permite que novas técnicas sejam empregadas para aumentar a
eficiência do codificador, sem que seja necessário alterar o parque dos
decodificadores instalados.
• Para o decodificador, as regras são diferentes, uma vez que um decodificador

MPEG-1 deve ser capaz de decodificar toda e qualquer sequência MPEG-1.
53
Hierarquia e Terminologia do MPEG
• Bloco: é uma matriz de 8x8 pixels de luminância.
• Macrobloco: é uma matriz composta de 16x16
pixels de luminância.
• Fatia (Slice): é um conjunto finito de macroblocos.
Os slices são codificados de modo independente,
de modo que se o canal corromper os dados, a
decodificação pode recomeçar no próximo slice
recebido. Quadro
• Quadro: é uma imagem propriamente dita. No Slice
MPEG-1 não há discriminação entre imagem
entrelaçada e não-entrelaçada. Imagens
entrelaçadas podem ser combinadas para formar
um quadro ou podem ser tratadas como quadros Bloco
distintos. No segundo caso, o MPEG-1 não é
capaz de evitar a perda inerente de eficiência da
Macrobloco
codificação.
Hierarquia e Terminologia do MPEG
• Sequência de quadros: é um conjunto de quadros concatenados.

• Grupo de quadros (GOP – Group of Pictures): é um conjunto de quadros de
informação (I), de vetorização (P) e interpolação (B). Esta estruturação é
extremamente importante no MPEG pois permite a compressão temporal.
Esta estruturação será estudada com mais detalhes adiante.
I B B B P B B B P B B B P I
Grupo de Quadros
54
Tipos de Quadros no MPEG
• Quadro I (Intraquadro): é um quadro cuja codificação é realizada utilizando

apenas as informações contidas no próprio quadro. Em outras palavras, este
quadro sofre apenas compressão espacial e não compressão temporal.
• Quadro P (Quadro de predição): é um quadro que contém os vetores de

movimento e as diferenças entre o último quadro I ou P para o quadro atual.
Sofre grande compressão temporal.
• Quadro B (Quadro bidirecional): é um quadro construído a partir da

interpolação entre o quadro P ou I anterior e o quadro P ou I posterior.
Grupo de Quadros
Tipos de Quadros no MPEG

Referências:
• Os quadros I e P são chamados quadros ancoras, pois podem servir de
referência para outros quadros a serem codificados utilizando compensação
de movimento.
Próximo GOP
Os quadros B não são utilizados como referência para a compensação de

movimento e portanto não são quadros ancoras.
55
Grupo de Quadros - GOP
• A figura abaixo ilustra uma estrutura de GOP hipotética.
Grupo de Quadros
• O primeiro quadro de um GOP é sempre um quadro I, pois este deve conter

as informações de referência para a vetorização dos movimentos (compressão
temporal).
• O primeiro quadro P utiliza o quadro I anterior como referência. Os demais
quadros P utilizam o quadro P anterior como referência. Erros no quadro P
são propagados para os demais quadros que o utilizaram como referência.
• Quadros B nunca são referência para a codificação.
Tipos de GOP
• GOP regular: são grupo de quadros que apresentam um número fixo de

quadros P e B. Este tipo de grupo de quadros podem ser representados
por dois parâmetros:
• M que representa a distância entre dois quadros I sucessivos;
• N que representa a distância entre dois quadros de referência
sucessivos;
• GOP irregular: não apresenta uma estrutura de repetição com distância

fixa entre os quadros fixos. Embora seja prevista, este tipo de
organização dos quadros não é muito utilizada.
56
Quadros MPEG
Princípio da codificação dos 1

quadros I, P e B
O princípio de codificação dos quadros I, P e B será 2

ilustrado usando a sequência de quadros dadas ao
lado.
As figuras mostram uma sequência de quadros

consecutivos 1, 2 e 3 que estão sendo aplicadas na 3
entrada de um codificador MPEG-1.
Quadros MPEG
• A figura abaixo apresenta o diagrama em blocos de um codificador MPEG-1,
considerando apenas a compressão espacial.
Código de Para o buffer de

Quadro sendo fonte com transmissão
DCT Quantizador
codificado comprimento
I variável
Quadro de
DCT Inversa Dequantizador
Referência
I*
• O quadro codificado é enviado para o buffer de transmissão e ao mesmo
tempo é decodificado no codificador. Isto é feito porquê o quadro codificado
não é o mesmo que o quadro original, devido à compressão com perdas.
• Este quadro reconstruído, chamado de I*, é utilizado como referência no
decodificador. Portanto, é essencial que o codificador utilize a mesma
referência.
57
Quadros MPEG
• O quadro 1 será codificado como um quadro I,

portanto, utilizando somente compressão espacial 1
e será utilizado como referência para a
codificação de outros quadros. O quadro de
referência será o quadro decodificado no
codificador (quadro 1*) e não o quadro
original (quadro 1) que alimentou o 2
codificador.
• O quadro 3 será codificado como um quadro P e

para tal, será realizado o processo de casamento
de bloco entre os blocos do quadro 3 e os blocos
do quadro de referência 1*, a fim de obter os
3
vetores de movimento e resíduos que permitam
reconstruir o quadro 3 a partir do quadro de
referência 1*.
Quadros MPEG
• O quadro P será utilizado como referência para

codificar outros quadros, e por esse motivo ele 1
também deve ser decodificado localmente no
codificador, para que o processo de compressão
temporal utilize como referência o quadro 3*
(que é o quadro a ser obtido no receptor e
utilizado na descompressão temporal). 2
• O quadro 2 será codificado como um quadro B,

sendo codificado a partir de informações
semelhantes contidas nos quadros 1 e 3. Neste
caso, utiliza-se como referência os quadros 1*
e 3* para encontrar os vetores de movimento 3
que permitam reconstruir a o quadro 2 a
partir de informações contidas nos quadros
anterior e posterior.
58
Quadros MPEG
• Os vetores de movimento devem referenciar

tanto o quadro 1* quanto o quadro 3* e,
portanto, o quadro 2 sofre uma codificação
bidirecional.
1
• É importante notar que o quadro 2* somente Disponível do
quadro posterior
Disponível do
quadro anterior
poderá ser decodificado/reconstruído no receptor

se o receptor possuir antecipadamente as
informações decodificadas do quadro 1* e 3*.
2
3
Ordem de transmissão de um GOP
• Para que um quadro B possa ser decodificado, é necessário que os dois

quadros de referência sejam recebidos.
• A ordem de exibição dos quadros em um GOP não é eficiente para a

transmissão, pois o receptor necessita esperar até o recebimento do quadro
P para decodificar o primeiro quadro B.
• Portanto, é mais eficiente reordenar os quadros e enviar os quadros de

referência primeiro e depois enviar os quadros bidirecionais. Assim, será
possível decodificar um quadro B no instante em que este é recebido.
• Esta reordenação de quadros exige uso de buffer no codificador e insere

delay no processo de codificação, mas facilita e simplifica o processo de
decodificação.
59
Grupo de Quadros para exibição
I P B B B P B B B P B B B I
Grupo de Quadros para transmissão
I1 B1 B2 P1 B3 B4 P2
GOP – Define como os quadros de entrada serão tratados
I1 P1 B1 B2 P2 B3 B4
Ordem de transmissão
I1 B1 B2 P1 B3 B4 P2
Ordem de saída do decodificador – Ordem de apresentação/exibição
60
GOP – Tipo de quadro x Taxa
I P B
A quantidade de bits necessária para a transmissão de cada quadro do GOP

dependerá da cena e de seu dinamismo – devido suas redundâncias - e de
cada tipo de quadro – devido ao tipo de codificação empregada;
Tipicamente o quadro I requer maior quantidade de bits que um quadro P e
o quadro P requer uma quantidade de bits maior que o quadro B;
Grosseiramente:
Quadro P requer ½ da taxa de um quadro I; TI > TP > TB
Quadro B requer ¼ da taxa de um quadro I;
Formato e Codificação de Macroblocos
Estrutura de formação do Macrobloco
• Cada macrobloco é composto por 4 blocos ou 16x16 pixels e cada pixel possui
valores de Y, CB e CR de acordo com o formato de amostragem utilizado (4:4:4,
4:2:2 ou 4:2:0);
No caso do MPEG-1 é suportado apenas o formato 4:2:0;
Codificação do macrobloco:
• O tipo de codificação a ser empregada - espacial ou temporal - dependerá do tipo
do quadro em questão (I, P ou B).
• A codificação espacial emprega ferramentas semelhantes às utilizadas no JPEG:

Ex. codificação por DCT utilizando blocos de 8x8 pixels.
• O processamento dos macroblocos da imagem é feita bloco a bloco.
61
Codificação Espacial de Macroblocos
• A codificação espacial no MPEG é praticamente a mesma utilizada no JPEG.

A principal diferença é que a tabela de quantização no MPEG é definida e
depende do tipo do quadro (I, B ou P).
• As tabelas de quantização no MPEG podem ser alteradas. Neste caso, o

codificador deve enviar a tabela de quantização utilizada para o decodificador
utilizando o cabeçalho dos pacotes MPEG.
• Caso nenhuma tabela seja recebida pelo decodificador, o mesmo irá utilizar as
tabelas padrões.
8 16 19 22 26 27 29 34 16 16 16 16 16 16 16 16
16 37 16
 16 22 24 27 29 34
 16 16 16 16 16 16 16
19 22 26 27 29 34 34 38 16 16 16 16 16 16 16 16
   
22 22 26 27 29 34 37 40 16 16 16 16 16 16 16 16
22 26 27 29 32 35 40 48 16 16 16 16 16 16 16 16
   
26 27 29 32 35 40 48 58 16 16 16 16 16 16 16 16
26 27 29 34 38 46 56 69 16 16 16 16 16 16 16 16
   
27 29 35 38 46 56 69 83 16 16 16 16 16 16 16 16
Tabela para quantização de quadros I. Tabela para quantização de quadros P e B.
Codificação de Quadros B e P
Codificação Temporal – Aplicada aos quadros P e B

• Para a codificação temporal em quadros P ou B é empregada a compensação
de movimento.
• O primeiro passo é realizar a estimação de movimento, encontrando todos os

macroblocos possíveis no quadro de referência anterior (para o caso de quadros
P) e posterior (para o caso de quadro B) com o melhor casamento/correlação e
definir um vetor de movimento associado.
• O segundo passo é criar, para cada bloco do macrobloco, uma matriz 8x8 de
resíduos contendo a diferença entre os pixels do quadro que se deseja codificar
e o quadro de referência.
62
Codificação de Quadros B e P
Codificação Temporal – Aplicada aos quadros P e B
• O terceiro passo é codificar a matriz de resíduos utilizando a codificação por

transformada DCT;
Passo adicional: cálculo da codificação espacial para definição do tipo de

codificação que requer menor taxa de transmissão
• Na codificação de quadros P e B é realizada, além da estimação de movimento,

a codificação espacial para se comparar a taxa de transmissão requerida em
cada tipo de codificação.
• A escolha do tipo de codificação a ser considerada para o macrobloco é

realizada comparando-se o total de bits necessários para a transmissão usando a
codificação temporal e a codificação espacial;
• A escolha, obviamente, se dará em função da técnica que resultar na menor

quantidade de bits para a transmissão do macrobloco codificado.
Controle de Taxa
• Conforme mencionado anteriormente, o MPEG-1 especifica apenas o

decodificador, e não o codificador.
• Dentre as particularidades de implementação do sistema, um detalhe que
merece atenção especial é o controle de taxa.
• Considere um GOP. Mesmo que a distribuição dos bits em todos os quadros
originais seja igual, as diferentes técnicas de codificação geram um problema
com a taxa de dados de saída.
• Dentro de um GOP, é de se esperar que os quadros P tenham menos bits do
que o quadro I e o quadro B tenha ainda menos bits.
• Portanto, para um sistema de transmissão com taxa constante, o tempo de
transmissão de um quadro I será maior do que de um quadro P, que será maior
do que do quadro B.
• A taxa de chegada de quadro não codificados ao codificador, no entanto, é
constante, assim como a taxa de quadros recuperados que o decodificador
deve entregar na sua saída.
63
Controle de Taxa
Taxa constante Taxa constante
Fonte de Taxa variável
1/30 quadros/ seg Codificador 1/30 quadros/seg Equipamento
quadros não Decodificador
MPEG de
codificados MPEG
Reprodução
• Para que esta tarefa possa ser realizada com sucesso, é necessário que o
atraso entre a entrada do codificador e a saída do decodificador deve ser
constante. Assim, é necessário possuir um buffer na saída de cada bloco do
sistema.
• Além desta variação da codificação de quadros P, I e B, existe uma grande
variação na quantidade de informação de quadro para quadro.
• O controle de taxa é necessário mesmo no caso de transmissão apenas de
quadros I.
• Para manter a taxa de bit entre o codificador e o decodificador constante, é
necessário fazer com que a qualidade seja variável.
• Essa opção, normalmente incomoda mais os telespectadores do que uma pior
qualidade constantemente.
Controle de Taxa
• O desejado é manter a qualidade constante para quadros com complexidades
variáveis (a taxa tem que ser variável).
• O mesmo acontece dentro de um quadro, pois cada macrobloco possui
complexidades diferentes.
• Uma maneira de realizar o controle de taxa é ponderar a distribuição dos bits
entre os quadros I, P e B e em função da complexidade dos macroblocos
dentro de um quadro.
• Uma ferramenta que permite fazer este controle é o fator de escala de
quantização, pois minimiza o número de bits utilizado na codificação de um
certo macrobloco, mas não controla onde os bits estão sendo usados.
• Os dados com taxa variável gerados pelo codificador são entregues para um
buffer de saída. Os dados são lidos do buffer utilizando uma taxa constante
(taxa de transmissão).
• Caso a taxa de saída do codificador seja muito baixa, o buffer pode se esvaziar
e não haver nada para transmitir. Caso a taxa do codificador seja muito
elevada, o buffer pode encher e dados serão perdidos.
64
Controle de Taxa
• A figura abaixo apresenta o diagrama em blocos de um codificador MPEG

básico com controle de taxa.
Controle de
Fator de Taxa Medida do
Escala de enchimento
Quantização do Buffer
Código de Saída
Entrada
comprimento Buffer de
DCT Quantizador
variável transmissão
(Huffman)
• A medida de enchimento do buffer de transmissão permite que o bloco

de controle de taxa defina um valor para o fator de escala de
quantização, de tal modo que o buffer nunca fique totalmente cheio ou
totalmente vazio.
Controle de Taxa
• Alguns codificadores calculam a atividade espacial para cada

macrobloco de um quadro antes de iniciar sua codificação. Isto
melhora a precisão de distribuição dos bits dentro de cada quadro.
• Esta técnica introduz um certo atraso, pois é necessário comparar a

atividade espacial de um quadro com a de seus vizinhos.
• Assim, é possível determinar a melhor distribuição de bits também

entre os quadros.
• Pelo fato do codificador não ser definido pelo padrão MPEG, outras
técnicas são desenvolvidas para melhorar ainda mais o controle de
taxa, normalmente sacrificando o atraso introduzido pelo sistema.
65
Codificador e Decodificador MPEG
• A figura abaixo mostra o diagrama em blocos do codificador MPEG.
Controle de
Fator de Taxa Medida do
Escala de enchimento
Quantização do Buffer
Quadros sem Código de Sequüência

Ordenação MPEG
comprimento Buffer de
compressão
dos DCT Quantizador
variável transmissão
quadros
(Huffman)
Predição de Predição Codificador Codificador

Movimento de Predição de Predição
Quadro de
DCT Inversa
Referência
Vetores de Movimento
• No codificador, o quadro a ser codificado é comparado com um

(quadro P) ou dois (quadro B) quadros de referência.
• Após todos os macroblocos serem mapeados, gera-se os vetores de

movimento correspondente a cada macrobloco, que serão utilizados na
predição.
• Tanto os macroblocos originais (quadro I) quanto os macroblocos

residuais, que são formados pela subtração do macrobloco original
pela sua predição, passam pela compressão espacial.
• Conforme visto anteriormente, a compressão espacial é praticamente

igual a compressão utilizada no JPEG, mas com a adição do laço de
controle de taxa.
• Os vetores de movimento são codificados de maneira preditiva.
66
• A figura abaixo mostra o diagrama em blocos do decodificador MPEG.
Decodificação Quadros de
Sequüência Buffer de Saída
MPEG de Reordenação
Entrada Dequantizador DCT Inversa
comprimento dos quadros
controlado
variável
Coeficientes DC
Armazenagem
Decodificador Predição de
do quadro de
de Predição Movimento
Referência
Vetores de Movimento
MPEG -2 - Introdução
• A primeira versão do MPEG-2 foi padronizado em 1995 (ISO/IEC 13818,

mas também é conhecido como H.262 (ITU-T)) com o principal objetivo de
superar a limitação da qualidade CIF apresentada pelo MPEG-1 e fornecer
ferramentas de suporte para vídeo entrelaçado (Radiodifusão).
• O MPEG-2 é um sistema muito mais complexo que o MPEG-1 (que pode ser
visto como um JPEG com compressão temporal e controle de taxa).
• As principais diferenças entre o MPEG-2 e o MPEG-1 são:
1) Suporte para vídeo entrelaçado.
2) Escalabilidade.
3) Variações de perfis e níveis para acomodar diferentes aplicações.
4) Camada de sistema para suportar múltiplos programas.
• O MPEG-1 foi uma plataforma robusta sobre a qual construiu-se o MPEG-2.

• A versatilidade do MPEG-2 é tamanha que desbancou o MPEG-3, sistema
que seria desenvolvido para compressão de sinais de alta definição. O MPEG-
2 foi adotado pelos padrões ATSC, DVB-T e ISDB-T.
67
Melhoramentos apresentados pelo MPEG-2
• Amostragem de Cor: Além do formato 4:2:0, o MPEG-2 permite a

codificação nos formatos 4:2:2 e 4:4:4.
• Estrutura dos “Slices”: no MPEG-1 não há restrição quanto ao

comprimento do slice (que pode variar desde de 1 macrobloco até o
tamanho do quadro inteiro). No MPEG-2, o comprimento máximo do
slice é uma linha de macroblocos.
• Quantização: O MPEG-1 permite apenas uma precisão de 8 bits para a

componente DC do quadro. Já o MPEG-2 permite uma precisão de 9 ou
10 bits, dependendo do perfil e do nível utilizados.
• PAN e SCAN: o MPEG-2 permite duas relações de aspectos diferentes

(16:9 e 4:3). As informações sobre PAN e SCAN permitem que
programas gerados em 16:9 sejam exibidos em telas 4:3 e vice-versa.
Perfis e Níveis do MPEG-2
• No MPEG-1 a grande preocupação era garantir que o decodificador fosse

capaz de receber qualquer sequência MPEG-1 válida.
• No MPEG-2, isto não é possível, pois um decodificador que seja capaz de
decodificar todas as variedades possíveis previstas seria caro.
• Ficou claro para o grupo MPEG que, caso algo não fosse implementado
para permitir a construção estruturada e organizada de decodificadores,
diversas soluções proprietárias e incompatíveis seriam lançadas no
mercado.
• A solução foi encontrar sub-divisões dentro do padrão com características
comuns e essas divisões deveriam seguir dois percursos distintos.
• Um perfil MPEG-2 pode ser visto como o conjunto de funcionalidades
que podem ser utilizadas. O perfil mais simples, por exemplo, não
permite o uso de quadros B, o que simplifica em muito a construção dos
decodificadores.
68
• O MPEG-2 Foi desenvolvido com intuito de atender um grande número de

aplicações e, por isso, possui uma grande gama de funcionalidades/ferramentas.
• A implementação completa das funcionalidades proposta pelo padrão MPEG-2

inviabiliza muitas aplicações práticas devido a complexidade envolvida –
implicando em alto custo.
• Para viabilizar a implementação prática do sistema, o padrão foi dividido em

subconjuntos que restringem as funcionalidades e limitam os parâmetros a
serem utilizados em um dado sistema.
• Esta divisão foi realizada fazendo uso do conceito de Perfis (Profile) e Níveis
(Levels) :
- Perfil - Profile – Define o subconjunto de algorítmos/funcionalidades;
- Nível - Level – Define limitantes superiores para os parâmetros utilizados;
A tabela abaixo ilustra exemplos de funcionalidades associadas aos

Profiles/Perfis principais do padrão MPEG-2.
Profile Funcionalidades
- Escalonamento espacial – Até 3 camadas
High
- Formato de amostragem 4:2:2
- Não suporta escalonamento de vídeo
- Codificação de vídeo entrelaçado
Main
- Suporte a quadros bidirecionais – Quadro B
-Inclui as funcionalidades do profile Main, porém NÃO suporta
Simple quadros bidirecionais – Quadros B
Os perfis superiores englobam as funcionalidades dos perfis inferiores.
69
A tabela abaixo ilustra exemplos da limitação superior de parâmetros

associadas aos Níveis/Levels principais do padrão MPEG-2.
Level Parâmetros
1920 amostras/linha
1152 linhas/quadro
High
60 Quadros/s
80 Mbps
720 amostras/linha
576 linhas/quadro
Main
30 Quadros/s
15 Mbps
352 amostras/linha
288 linhas/quadro
Low
30 Quadros/s
4 Mbps
• A tabela abaixo apresenta um resumo das possíveis combinações de perfil e nível.
Perfil
Nível Simple Main SNR Spatial High 4:2:2
1920H 1920H 1920H
High 1152V 1152V 1152V
60Hz 60Hz 60Hz
1440H 1440H 1440H
High1140 1152V 1152V 1152V
60Hz 60Hz 60Hz
720H 720H 720H 720H 720H
Main 576V 576V 576V 576V 576V
30Hz 30Hz 30Hz 30Hz 30Hz
352H 352H
Low 288V 288V
30Hz 30Hz
• Nem todos os perfis são definidos em todos os níveis.

• Uma combinação de perfil e nível é definido como Perfil@Nível
Exemplo: MP@ML - Main Profile at Main Level).
70
Varredura dos coeficientes da DCT
• Existem duas maneiras para realizar a varredura dos coeficientes
provenientes da DCT: a varredura em zig-zag e a varrredura alternada.
• A varredura zig-zag é utilizada pelo MPEG-1 e pelo MPEG-2 quando
utiliza-se a DCT de quadro (sinais não entrelaçados).
DC 1 5 6 14 15 27 28
2 4 7 13 16 26 29 42
3 8 12 17 25 30 41 43
9 11 18 24 31 40 44 53
10 19 23 32 39 45 52 54
20 22 33 38 46 51 55 60
21 34 37 47 50 56 59 61
35 36 48 49 57 58 62 63
Varredura dos coeficientes da DCT

• A varredura alternada é prevista apenas no MPEG-2, quando a DCT de
campo é empregada (sinais entrelaçados).
71
Falhas no MPEG-2
• O sinal decodificado a partir de um feixe MPEG-2 pode apresentar algumas
falhas inerentes ao sistema, ou seja, que foram causadas pelo processo de
codificação e decodificação e não pelo erros introduzidos pelo canal.
• As imagens compostas por objetos movendo de forma complexa e por regiões
estáticas, mas com diferentes padrões de cor são difíceis de serem codificadas
e, portanto, podem apresentar alguns erros.
• Duas das principais falhas do MPEG-2 estão listadas a seguir:
1) Blocking:
• é uma das características de quadros que sofreram uma compressão espacial
muito alta.
• Se, por algum motivo, não houver bits suficientes para codificar um bloco ou
um macrobloco, esta estrutura se torna aparente na imagem.
• Este efeito, normalmente pode ser percebido em imagens formadas por um leve
gradiente de cor (degrade)
• Este efeito também é muito ressaltado quando um objeto se move rapidamente
sobre um padrão de fundo constante.
Falhas no MPEG-2: Blocking
72
Falhas no MPEG-2
2) Ruído mosquito ou Efeito Gibbs:
• Este ruído é mais aparente em torno de objetos artificiais, como letras e
formas geométricas que formam um grande contraste com o segundo
plano.
• Este efeito acontece porque os coeficientes de alta frequência da DCT são
quantizados de maneira mais coesa.
MPEG-4: Introdução
• Inicialmente, o MPEG-4 foi desenvolvido com foco na compressão de

sinais com taxas muito baixas. Três faixas de taxas eram de especial
interesse, sendo elas:
1) Abaixo de 64kb/s
2) entre 64kb/s e 384kb/s
3) entre 384kb/s e 4Mb/s.
• Outro fator de grande interesse era o desempenho em ambientes ruidosos.
Era fundamental que o MPEG-4 não fosse muito sensível aos erros do
canal, o que tornava este padrão ideal para transmissão de vídeo digital
para dispositivos móveis (celulares e Palm tops).
• Além das baixas taxas mencionadas acima, o MPEG-4 também possui
níveis e perfis que permitem taxas de até 38,4Mb/s.
• Existem trabalhos em desenvolvimento para atender taxas de até 1,2Gb/s
que serão necessárias em estúdios (studio profiles).
73
• O ponto mais importante no MPEG-4 é que este deixou de ser

simplesmente outro sistema de compressão, como os outros concorrentes do
MPEG-2.
• O MPEG-4 traz um conceito totalmente novo de codificação multimídia,

com ferramentas para a interatividade que podem ser utilizadas em uma
maior gama de aplicações que o MPEG-2.
• Um dos mais importantes conceitos introduzidos pelo MPEG-4 é o objeto.
• Partes diferentes de uma cena podem ser codificadas e transmitidas

separadamente como objetos de vídeo ou objetos de áudio. Esses objetos
são agrupados novamente pelo decodificador para montar a cena final.
• Os diferentes objetos podem ser codificados utilizando técnicas distintas, ou

seja, pode-se escolher a melhor ferramenta de compressão para cada caso.
O conteúdo de vídeo pode ser formado por vários recursos como vídeo, gráficos e
textos.
No caso do MPEG-2, os elementos que formam o vídeo são codificados como

uma única matriz/plano de pixels.
Exemplo - caso uma emissora retransmita a cobertura de um evento gerado por outra
emissora, o logotipo da Emissora geradora não poderá ser removido do vídeo.
No caso do MPEG-4, a composição do vídeo ocorre depois da codificação

dos objetos da cena. Os diferentes objetos podem ser codificados e transmitidos
separadamente para o decodificador. Neste caso, o processo de codificação de cada
objeto pode ser otimizado de acordo com a natureza de cada objeto: vídeo, texto,
gráficos.
O MPEG-4 está preparado para codificar objetos, porém não define como gerar tais
objetos e admite que isto é desempenhado por uma etapa de pré-processamento.
74
MPEG-4: Estrutura Básica
Pontos de interação do usuário
Codificação Decodificação
de Objeto de Objeto
Fonte
Separação Codificação Decodificação
de
em objetos de Objeto de Objeto
Vídeo
Codificação Decodificação Composição

de Objeto Multiplexador Demultiplexador de Objeto Tela
da Cena
Objetos Codificação Decodificação

Adicionais de Objeto de Objeto
Objetos Codificação Decodificação

Adicionais de Objeto de Objeto
• Além de permitir uma codificação mais eficiente, a separação do conteúdo

de uma cena em objetos permite a interação do usuário com estes objetos, o
que abre um novo leque de aplicações para jogos e programas educativos.
• Há algumas desvantagens em utilizar esta abordagem de objetos. O
decodificador deve ser capaz de lidar com todas as técnicas de compressão
possíveis além de ter a capacidade de recompor a imagem.
• Com isso, o hardware do decodificador MPEG-4 é sensivelmente mais
complexo do que o necessário para o MPEG-2.
• O número de objetos possíveis no MPEG-4 é muito grande e continua
crescendo. Obviamente não é economicamente viável construir um
decodificador que seja capaz de lidar com todos os objetivos previstos.
• Assim, tal como no MPEG-2, o MPEG-4 define uma série de perfis e níveis
que permite que decodificadores específicos para uma dada aplicação
possam ser construídos.
75
H.264/AVC
ITU-T H.264 ou MPEG-4 (Parte 10) Advanced Video Coding
H.264 é um padrão para compressão de vídeo, baseado no MPEG-4 Part 10 ou

AVC (Advanced Video Coding).
O padrão foi desenvolvido pela ITU-T - Video Coding Experts Group (VCEG)
- em conjunto com a ISO/IEC – MPEG - através de uma parceria conhecida por
Joint Video Team (JVT).
A versão oficial do padrão, ISO/IEC 14496-10, foi lançado em 2003.
A principal meta proposta para o desenvolvimento do padrão H.264/AVC foi a

de melhorar a eficiência de codificação em pelo menos duas vezes em relação
ao MPEG-2.
H.264/AVC

- Faz uso de métodos de predição mais flexíveis que os padrões anteriores:
- Predição – Intraquadro – faz uso de blocos de 16x16 e 4 x 4 para prever o

macrobloco;
- Predição Inter quadro - usa diferentes tamanhos de blocos – de 16 x 16 a 4

x 4 . Pode-se subdividir os macroblocos para otimizar a compensação de
movimento. Portanto, podem haver múltiplos vetores de movimento por
macrobloco.
76
H.264/AVC
- Transformada
faz uso da transformada DCT de 8x8 ou 4x4.
- Utilização de múltiplas referências temporais – Cada quadro pode possuir

uma lista de quadros de referência, e os vetores de movimento pode apontar
para qualquer um dos quadros da lista;
H.264/AVC
Filtro anti-blocagem – O H.264 define filtros “anti-blocagem”, diminuindo efeito dos

artefatos causados pela descontinuidade entre um bloco e outro. Este filtro atua nas
imagens de referência – a serem utilizadas no processo de compensação de
movimento.
- Codificação por entropia adaptativa ao contexto

CAVLC (Context Adaptive Variable Length Coding) e o CABAC (Context Adaptive
Binary Arithmetic Coding), sendo que ambos são adaptativos ao contexto, isso é,
consideram as probabilidades condicionais dos símbolos no contexto dos símbolos
previamente decodificados. Dessa forma, podem ser ainda mais eficientes.
77
H.264/AVC
Desempenho:
Comparando MPEG-2 com H.264, pode-se concluir que
- tem-se uma melhor qualidade de imagem para uma mesma taxa ou
- Tem-se uma menor taxa de bits mantendo-se a qualidade;
Ex. Um DVD pode armazenar 2 h de filme no formato MPEG-2.

Utilizando H.264, pode-se armazenar 4h;
Assim como o MPEG-2, o MPEG-4 é subdividido em diversos perfis e

níveis.
Conclusão
• A transmissão de vídeo digital seria inviável sem o desenvolvimento das

técnicas de compressão apresentadas neste capitulo.
• A compressão baseia-se na eliminação de redundâncias espaciais

existentes dentro de um quadro ou campo e na eliminação das
redundâncias temporais existentes entre quadros ou campos consecutivos.
• Diversas técnicas de compressão são utilizadas em um padrão de

compressão de vídeo visando obter uma maior taxa de compressão sem
introduzir distorções significativas.
• Os padrões MPEG são consideradas tecnologias indispensável para a

evolução dos sistemas de vídeo digital em diversos campos de aplicação.
78

CapII EE013 RadiodifusaoDigital PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

CapII EE013 RadiodifusaoDigital PDF

Enviado por

Direitos autorais:

Formatos disponíveis

EE013 – Sistemas de Radiodifusão

Capítulo II – Compressão de sinais de áudio e

Prof. MSc. Marcelo Carneiro de Paiva - mcpaiva@inatel.br

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

• Conversão de Analógico para Digital.

• Técnicas básicas de compressão de vídeo.

• Padrões de compressão de vídeo.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Letterbox Pillar Box

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EDTV – Enhanced Definition Television

HDTV – High Definition Television

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

Y = 0,257R’ + 0,504G’ + 0,098B’ + 16.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Os sinais RGB gama corrigido podem ser recuperados a partir

R’ = 1,164(Y −16) + 1,596(Cr − 128).

G’ = 1,164(Y −16) − 0,813(Cr −128) − 0,392(Cb − 128).

B’=1,164(Y −16) + 2,017(Cb − 128).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

A Filtragem limita a largura de faixa do sinal de entrada visando evitar

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

* Converte RGB para YPbPr

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

• Sinal limitado em frequência:

-fs-fm -fs -fs+fm -fm fm fm-fs fs fm+fs f

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

No caso da quantização uniforme a relação Sinal/Ruído de

onde, L é o número de níveis de quantização.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Componente Frequência de amostragem

Posteriormente, foi definida a frequência de amostragem de 18MHz

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

• O formato de amostragem define como as componentes Y, Cb e

• Emprega-se normalmente a sub-amostragem (down sample) dos

• O formato de amostragem é representado pela notação A:B:C

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Formato Componente Frequência de amostragem

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva