Você está na página 1de 78

EE013 – Sistemas de Radiodifusão

Digital

Capítulo II – Compressão de sinais de áudio e


vídeo

Prof. MSc. Marcelo Carneiro de Paiva - mcpaiva@inatel.br

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Agenda

• Conversão de Analógico para Digital.

• Técnicas básicas de compressão de vídeo.

• Padrões de compressão de vídeo.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

1
Visão Geral
Sistema de comunicação digital genérico
Transmissão

Codificador Codificador
Fonte Modulador
de fonte de canal

Canal
Ruído
Recepção

Decodificador Decodificador
Demodulador Destino
de canal de fonte

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Visão Geral
Etapa de multiplexação
Em sistemas de transmissão com mais de uma fonte deve se realizar o
processo de multiplexação com o objetivo de construir um único sinal que
alimentará a etapa de codificação de canal.
No receptor deverá existir um elemento capaz de realizar o processo de
demultiplexação para que os decodificadores de fonte sejam alimentados
corretamente.

Codificador Decodificador
Fonte de fonte
Destino
de fonte

Multiplexação Demultiplexação

Codificador Decodificador
Fonte de fonte
Destino
de fonte

Transmissor Receptor
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

2
Visão Geral
Padrões de transmissão de TV Digital

Nov/2013

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Visão Geral
Exemplo para o sistema de transmissão ISDB-T
HD Dados
Adicionais
Codificador
de áudio e
vídeo
Multiplexador
Estúdio LD
Codificador
Áudio e vídeo de áudio e
vídeo

Codificação Antena
Modulador
de canal

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

3
Visão Geral
Relação de aspecto

4:3
Largura = 1,33 x Altura

16:9
Largura = 1,78 x Altura

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Visão Geral
Exemplos de visualização
16:9 em 4:3
4:3 em 16:9

Letterbox Pillar Box

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

4
Visão Geral
LDTV – Low Definition Television
320 x 240 (4:3)
0,077 Megapixels
SDTV – Standard Definition Television
640 x 480 (4:3)
0,307 Megapixels

EDTV – Enhanced Definition Television


1280 x 720 (16:9)
0,922 Megapixels

HDTV – High Definition Television


1920 x 1080 (16:9)
2,74 Megapixels
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Visão Geral
UHDTV 4K – Ultra High Definition Television ~ 4000 pixels/linha
3840 x 2160 (16:9)
8,29 Megapixels
UHDTV 8K – Ultra High Definition Television ~ 8000 pixels/linha
7680 x 4320 (16:9)
33,18 Megapixels

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

5
Visão Geral
Interfaces do sinal de vídeo:
1 – S-Vídeo/Vídeo Composto;
Resolução SD;
3 – Vídeo Composto;
Resolução SD;
4 e 5 – Vídeo Componente;
Resolução SD, ED e HD;
6 – HDMI;
Resolução SD, ED e HD;
7 – VGA;
Resolução SD, ED e HD.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


Um sinal de vídeo digital geralmente é representado por intermédio de
um sinal de vídeo componente chamado YCbCr. A relação matemática
para conversão do sinal RGB gama corrigido digitalizado em um sinal
YCbCr, definida pela recomendação ITU-R BT.601 para sinais SD
(Standart Definition), está mostrada abaixo:

Y = 0,257R’ + 0,504G’ + 0,098B’ + 16.


Cb = −0,148R’ − 0,291G’ + 0,439B’ + 128.
Cr = 0,439R’ − 0,368G’ − 0,071B’ + 128.

16 ≤ Y ≤ 235
0 ≤ R’, G’, B’ ≤ 255
16 ≤ Cb, Cr ≤ 240

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

6
Analógico para Digital
O valor 0 (Zero) das componentes RGB correspondem à saturação
mínima da cor, enquanto o valor 255 representa a saturação máxima da
cor.
Veja a seguir a composição da barra de cores (color bar 100%) que
explora a saturação das componentes RGB:

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

7
Analógico para Digital

Os sinais RGB gama corrigido podem ser recuperados a partir


dos sinais YCbCr utilizando as seguintes expressões:

R’ = 1,164(Y −16) + 1,596(Cr − 128).

G’ = 1,164(Y −16) − 0,813(Cr −128) − 0,392(Cb − 128).

B’=1,164(Y −16) + 2,017(Cb − 128).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


A conversão dos sinais de vídeo analógicos para sinais de vídeo digitais
passa pelas seguintes etapas:
Sinal de Sinal de
vídeo Filtro Amostrador Codificador
Quantizador vídeo
analógico PCM digital

A Filtragem limita a largura de faixa do sinal de entrada visando evitar


aliasing.
O Amostrador define como será o processo de amostragem dos pixels.
O Quantizador estabelece valores discretos para as amostras coletadas
inserindo um erro de quantização.
O Codificador transforma os níveis discretos em palavras binárias.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

8
Analógico para Digital

R’G’B’ (analógico)
Matriz Linear*
(RGB p/ YPbPr)

YPbPr (analógico)**

Filtro
Filtro Amostrador
Amostrador Quantizador
Quantizador Codificador
CodificadorPCM
Filtro Amostrador Quantizador CodificadorPCM
PCM

* Converte RGB para YPbPr


YCbCr (Digital)
** Versão analógica do YCbCr
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

Teorema de Nyquist:
“Todo sinal analógico limitado em banda pode ser perfeitamente
representada por suas amostras, desde que estas sejam tomadas a taxa
de amostragem dada por
f S  2 f máx
onde, fs é a frequência de amostragem e fmax é a máxima frequência do
sinal analógico.”

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

9
Analógico para Digital

• Sinal limitado em frequência:


|S(f)|

-fm fm
f

• Sinal Amostrado

-fs-fm -fs -fs+fm -fm fm fm-fs fs fm+fs f

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital

No caso da quantização uniforme a relação Sinal/Ruído de


quantização é definida como sendo a relação entre a potência de pico
do sinal e a potência média do ruído de quantização resultando em

RSRq = 3L2

onde, L é o número de níveis de quantização.


Em dB, temos:
RSRq = 10 log (3L2)

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

10
Analógico para Digital

Sinal
Quantizado

Sinal
Original

Erro de
Quantização

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


A recomendação ITU-R BT.601 padronizou inicialmente como
unidade fundamental de amostragem o valor fUF = 3,375MHz, pois
trata-se de um número múltiplo da frequência horizontal fH tanto
para o padrão M (525 linhas e fV = 59,94Hz) como para o padrão
Europeu (625 linhas e fV = 50Hz) visando reduzir distorções.
A frequência de amostragem fA era ser especificada em termos dos
múltiplos de fUF , ou seja,
fA = 1fUF = 3,375MHz ou

fA = 2fUF = 6,75MHz ou

fA = 4fUF = 13,5MHz.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

11
Analógico para Digital
As principais frequências utilizadas na amostragem das componentes
dos sinais de vídeo com relação de aspecto 4:3 são:

Componente Frequência de amostragem


Y, R, G, B fA = 4fUF = 13,5MHz

Pb e Pr fA = 1fUF = 3,375MHz ou
ou fA = 2fUF = 6,75MHz ou
R-Y, B-Y fA = 4fUF = 13,5MHz.

Posteriormente, foi definida a frequência de amostragem de 18MHz


para amostragem dos sinais de vídeo com relação de aspecto 16:9.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


Formatos de amostragem dos sinais de vídeo

• O formato de amostragem define como as componentes Y, Cb e


Cr serão amostradas para compor a informação de cada pixel da
imagem;

• Emprega-se normalmente a sub-amostragem (down sample) dos


sinais de crominância para diminuir a taxa de bits necessária para
a transmissão das informações de vídeo;

• O formato de amostragem é representado pela notação A:B:C


Ex.: 4:4:4, 4:2:2, etc.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

12
Analógico para Digital
Um formato de amostragem 4:4:4 significa que para um conjunto
de 4 pixels, em todos os quatro os sinais YCrCb foram amostrados,
sobre um quadro hipotético destacado.

Pixel
Amostra Luminância (Y)
Amostra Crominância (Cr,Cb)

Formato 4:4:4

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


No formato 4:2:2, para quatro pixels dos quais amostras Y foram
tomadas, de apenas dois, alternadamente, são tomadas as amostras
dos sinais Cr e Cb amostrados sobre um quadro hipotético.

Pixel
Amostra Luminância (Y)
Amostra Crominância (Cr,Cb)

Formato 4:2:2

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

13
Analógico para Digital
O formato 4:2:0 consiste numa amostragem onde, para cada 4
pixels em que as amostras de Y foram tomadas, na primeira linha
toma-se amostras dos sinais Cr e Cb amostrados e na segunda
nenhuma amostra.
Pixel
Amostra Luminância (Y)
Amostra Crominância (Cr,Cb)

Formato 4:2:0

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


O formato 4:1:1 consiste numa amostragem onde, para cada 4
pixels em que as amostras de Y foram tomadas, apenas de um
pixel foram tomadas amostras dos sinais Cr e Cb amostrados

Pixel
Amostra Luminância (Y)
Amostra Crominância (Cr,Cb)

Formato 4:1:1

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

14
Analógico para Digital
Resumindo:

Formato Componente Frequência de amostragem


Y 4fUF = 13,5MHz
4:4:4 4fUF = 13,5MHz
Cb, Cr

Y 4fUF = 13,5MHz
4:2:2
Cb, Cr 2fUF = 6,75MHz

Y 4fUF = 13,5MHz
4:1:1
Cb, Cr 1fUF = 3,375MHz

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


A tabela abaixo apresenta o número de pixels para as duas taxas de
amostragem da Recomendação ITU-R BT601-5, de acordo com os
formatos de amostragens 4:2:2 e 4:4:4, para padrões com 525 linhas e
30 quadros por segundo (NTSC e PAL-M).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

15
Analógico para Digital
As taxas de transmissão dos sinais de vídeo de uma TV convencional
no formato digital pode ser calculada através da expressão:

Rb  Rq  nb  l  (SY  SCr  SCb )


onde: Rb é a taxa de bits em bps,
Rq é a taxa de apresentação de quadros por segundo,
nb é o número de bits por amostra,
l é o número de linhas ativas,
SY é o número de amostras do sinal Y (pixels ativos),
SCr é o número de amostras do sinal Cr (pixels ativos),
SCb é o número de amostras do sinal Cb (pixels ativos).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Analógico para Digital


Determine a taxa de transmissão para os padrões de TV com 525
linhas e 30 quadros por segundo para taxas de amostragens de 13,5
MHz e 18 MHz, e formatos de amostragem 4:2:2 e 4:4:4.

Rb  Rq  nb  l  (SY  SCr  SCb )

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

16
Analógico para Digital
Analisando a figura abaixo, responda:
1 – Descreva o processo de conversão do sinal RGB em YCBCr;
2 – Qual o formato de amostragem empregado?
3 – Quantos bits serão usados para representar cada componente?
4 – Qual a taxa de bits do sinal de vídeo digitalizado?

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• Objetivo: reduzir as redundâncias, introduzindo distorções
controladas na informação.
Redundância

Entropia

Redundância

Entropia Entropia

Redundância

Compactação Compressão

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

17
Compressão de Vídeo

• Exemplo de compactação: amostragem.


• Teorema de Nyquist: “Todo sinal analógico limitado em banda
pode ser perfeitamente representada por suas amostras, desde que
estas sejam tomadas a taxa de amostragem dada por

f S  2 f máx
onde, fs é a frequência de amostragem e fmax é a máxima frequência do
sinal analógico.”

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• Exemplo de compressão: quantização.
• Ruído de quantização: erro introduzido pelo arrendamento das
amostras que não pode ser removido.

2 2
Sinal de Erro
1.5 1.5

1 1

0.5 0.5
s(t) e s (t)
q

e(t)

0 0

-0.5 -0.5

-1 -1

-1.5 Sinal não quantizado -1.5


Sinal quantizado

-2 -2
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
tempo [s] tempo [s]

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

18
Compressão de Vídeo
Tipos de redundância
• Espacial - informações similares dentro de um mesmo quadro;
• Temporal - informações similares entre quadros sucessivos;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• A redução da redundância espacial tira proveito da alta correlação
existente entre os pixels de uma imagem, ou seja, não é necessário a
transmissão de todas as amostras uma vez que um pixel é, geralmente,
muito semelhante aos seus vizinhos.

• Note que este conceito é diferente de alguns formatos de


amostragem, onde os sinais de crominância não são amostrados com a
mesma frequência do sinal de luminância.

• A compressão espacial é feita a partir das amostras dos sinais,


independentemente do formato de amostragem utilizado, e consiste na
redução da redundância estatística e subjetiva existente no quadro.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

19
Compressão de Vídeo

• A compressão espacial reduz as redundâncias entre as partes de


uma mesma cena.
Blocos com alta correlação

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• Uma vez que a sensação de movimento é reproduzida a partir da
exposição consecutiva de diversos quadros, existe também uma alta
correlação entre quadros. A essência da compressão temporal na retirada
da redundância estatística e subjetiva entre quadros.
• A compressão espacial reduz as redundâncias entre as partes de uma
mesma cena.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

20
Compressão de Vídeo

• As duas principais técnicas utilizadas para compressão de vídeo


utilizando as redundâncias espaciais são:
• Codificação Preditiva (Predição de pixels intraquadro);
• Codificação por Transformada de Domínio;

• As duas principais técnicas utilizadas para compressão de vídeo


utilizando as redundâncias temporais são:
• Estimação de movimento (Predição de pixels interquadro);
• Compensação de movimento;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• No processo de compressão de vídeo, em geral, ocorrem os
processos de:
• Codificação preditiva (intraquadro) ou Transformada de
domínio;
e/ou
• Codificação preditiva (interquadro);
• O segundo passo consiste no processo de quantização que envolve
a seleção dos coeficientes de maior importância e o descarte dos
menos relevantes;

• No último passo ocorre a codificação de entropia que proporciona


benefícios substanciais na codificação dos coeficientes, que possuem
distribuição de probabilidade altamente não uniforme.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

21
Compressão de Vídeo

• Em uma fonte de Markov a probabilidade de um determinado


símbolo ser emitido depende do símbolo que foi emitido no instante
anterior. Se a dependência é apenas sobre o símbolo emitido
anteriormente, a fonte é conhecida como fonte de Markov de
Primeira Ordem. Se a dependência é sobre dois símbolos
transmitidos previamente a fonte é chamada de Markov de Segunda
Ordem, e assim por diante.

• Uma imagem pode ser modelada como uma fonte de Markov,


onde a ocorrência de um símbolo influencia a probabilidade de
ocorrência dos próximos símbolos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Compressão de Vídeo
• Análises comprovam que o erro médio quadrático observado na
predição que usa apenas um pixel vizinho cai substancialmente
quando são utilizados dois ou três pixels vizinhos, mas nenhuma
mudança significativa é observada a partir do uso de um quarto
pixel. Normalmente, uma imagem é considerada uma fonte de
Markov de terceira ordem.

• Desta forma, os valores de intensidade luminosa dos pixels


adjacentes em uma imagem são altamente correlacionados. A
entropia destes pixels é alta, pois todos os possíveis valores de
intensidade luminosa tem probabilidade de ocorrência similares.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

22
Codificação Preditiva

• Os processos de Codificação Preditiva e Codificação por


Transformada de Domínio transformam uma fonte com alta
entropia e valores correlacionados em uma fonte com baixa
entropia e valores pouco correlacionados.

• O codificador de entropia tem seu desempenho potencializado


para fontes de baixa entropia e por esse motivo é utilizado
posteriormente aos processos de Codificação Preditiva e
Codificação por Transformada de Domínio .

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Codificação Preditiva
• A predição do pixel atual é feita a partir do valor de um ou mais
pixels adjacentes.
• O erro de predição, ou sinal diferencial, resultante da subtração
do valor do pixel pela sua predição é quantizado em um dos L
níveis de amplitude discretos.
• As principais partes do codificador preditivo são: Predição,
Quantização, e Codificador de Entropia.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

23
Codificação Preditiva

• Note que a faixa de valores possíveis para o erro de predição é


duas vezes maior que a faixa de valores possíveis de entrada do
codificador preditivo. Por esse motivo o codificador preditivo deve
possuir um codificador de entropia conectado à sua saída para que o
processo de compressão seja alcançado em sua plenitude.

• A saída do codificador preditivo consiste no erro de predição


entre o valor pixel atual e o valor estimado. Este conjunto de
valores de erro de predição possuem pouca correlação, mas os
valores individuais tem grande probabilidade de serem semelhantes.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Codificação Preditiva
• Analise do resultado na saída do codificador preditivo

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

24
Codificação Preditiva
• Em sua versão mais simples, o codificador preditivo usa o pixel
horizontal previamente transmitido como uma previsão.
• Com o objetivo de aproveitar todas as correlações, mais pixels na
direção horizontal, bem como alguns pixels da linha anterior no
mesmo campo, também são utilizados.
• O arranjo empregado para realizar a predição também influencia
na eficiência da predição. A predição de terceira ordem para o pixel
X poder ser realizada com a
expressão,

X = αA+βB+δC

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Codificação Preditiva

• A predição de primeira ordem mais óbvia possível é fazer α=1,


β=0 e δ=0, resultando em,
X=A

• A predição de segunda ordem mais óbvia possível é fazer α=1/2,


β=0 e δ=1/2, resultando em,
X = 0,5A+0,5C

• As expressões abaixo mostram dois tipos de predição de terceira


ordem bastante úteis,
X=A‒ B+C
X = 0,75A ‒ 0,5B + 0,75C

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

25
Codificação Preditiva
Esta tabela apresenta algumas possibilidades de coeficientes de
predição para os sinais Y, Cr e Cb e suas correspondentes variâncias
para os erros de predição.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
• A Codificação por Transformada de Domínio visa reduzir a
redundância espacial de uma imagem. Esta codificação gera um
conjunto de valores que representam a energia dos pixels no
domínio dos coeficientes da transformada.

• Se a energia dos pixels estiver concentrada em poucos coeficientes,


há um ganho de compressão, pois os coeficientes com valores
próximos de zero podem ser descartados sem provocar distorções
significativas.

• Esta técnica é utilizada pelos principais padrões de compressão de


imagens estáticas e dinâmicas (JPEG e MPEG).
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

26
Transformada de Domínio
Os blocos de pixels são convertidos para outro domínio através de uma
transformada de domínio. A correlação espacial entre os diferentes
coeficientes de um mesmo quadro é reduzida substancialmente com a
transformada, sendo relativamente eficiente para baixas taxas e isso
ocorre basicamente por três motivos.
• Nem todos os coeficientes da transformada precisam ser
transmitidos para a obtenção de uma boa qualidade da imagem.
• Os coeficientes que são codificados não precisam ser representados
com muita precisão.
• Os coeficientes possuem uma distribuição de probabilidade
altamente não uniforme e, portanto, podem ser codificados de forma
eficiente por um codificador de entropia.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
• Os principais padrões de compressão utilizam a transforma discreta
de cossenos (DCT - Discrete Cosine Transform), pois apresenta uma
solução de compromisso entre complexidade e desempenho.

• A codificação de transformada de domínio usando DCT envolve os


seguintes passos:

Cálculo Ordenação dos Codificação


da DCT Quantização RLC/VLC
coeficientes

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

27
Transformada de Domínio
A DCT pode ser definida para qualquer arranjo retangular de pixels,
mas em compressão de imagem, o bloco básico é geralmente um
arranjo com 8 × 8 pixels (64 pixels). x
y 172
188
179
187
188
190
191
193
196
199
200
201
204
178
174
101
189 189 196 197 199 183 117 84
186 192 197 199 189 130 85 85
198 197 199 192 149 100 100 95
195 195 193 158 108 98 96 98
195 189 171 111 111 108 104 96
192 177 124 110 113 113 108 100

8 × 8 pixels Valores de intensidade do pixel (Y)

A aplicação da DCT sobre um bloco de pixels de tamanho maior


aumenta consideravelmente a complexidade de processamento e não
proporciona ganho de compressão significativo.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Para um arranjo com 8 × 8 pixels é definida como

onde,
f (x, y) é o valor da amostra do pixel situado nas coordenadas (x, y) do
arranjo 8 × 8;
F(u, v) são os coeficientes da transformada dos pixels nas coordenadas
(u, v), que correspondem às coordenadas (x, y) no domínio dos
pixels.

Os valores de Cu e Cv
são definidos como

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

28
Transformada de Domínio

A DCT converte valores de amostras espaciais (ex. valores de


luminância (Y) dos pixels de um determinado espaço da imagem) em
coeficientes de frequências espaciais.

x
f(x,y) F(u,v)
DCT u
y v

IDCT

Domínio espacial Domínio da Frequência


(amostras dos pixels) (frequência espacial)

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
x u
y 172 179 188 191 196 200 204 174
DCT v 1256,4 228,6 -50,0 17,7 -15,6 2 -2,7 5,8
188 187 190 193 199 201 178 101
154,8 -80 -93,2 27 -6,5 12,3 2 0,7
189 189 196 197 199 183 117 84
9,7 -92,3 57,3 39,3 -29 3,4 6,3 1,5
186 192 197 199 189 130 85 85
16,3 -12,7 35,4 -47,6 -6,9 17,8 -2,1 4,4
198 197 199 192 149 100 100 95
2,1 -18,2 4 -14,4 27,6 -5,7 -12,9 -1,4
195 195 193 158 108 98 96 98
IDCT
-3 -3,9 0,6 -9,3 2,5 -17,8 12,3 6,1
195 189 171 111 111 108 104 96 -1,2 -5,4 1,9 -7,2 6,2 -1,5 6,2 -11,8
192 177 124 110 113 113 108 100 7,1 -2,9 3,8 0,9 -1,4 0 2 2,9

f(x,y) F(u,v)

F(u,v) = Coeficientes da DCT

DCT

f(x,y) = valor de amostra – ex. luminância (Y) - de cada pixel.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

29
Transformada de Domínio

Note que:
• O cálculo de F(0, 0) resultará em um valor DC (sem componentes cosenoidais
ou seja, sem componentes AC).
• O cálculo de um valor de coeficiente F(u, v) envolve a soma/multiplicação dos 64
valores de f(x,y). Portanto, cada valor de F(u, v) depende de todos os pixels do
bloco.
• Os valores dos elementos da fórmula que não o f(x,y) – amostras da imagem -
dependem apenas de x, u, y e v, que são valores pré-determinados (0 a 7 para
blocos de 8x8 pixels):
Estes valores são chamados de FUNÇÕES BASE da DCT.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Veja as funções base da DCT no domínio espacial (domínio dos pixels):

As funções base representam


um conjunto de 64 pixels

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

30
Transformada de Domínio
A DCT descreve o bloco da imagem em função de uma soma
ponderada ou combinação linear das funções base.

Bloco da Componente Componentes


imagem DC AC

IDCT

Através da soma ponderada das funções base,


pode-se representar o padrão de bloco de imagem.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Aumento da
Componentes de frequência espacial frequência espacial

• Tipicamente o resultado da DCT concentra


coeficientes de maior intensidade nas componentes
de baixa frequência espacial.
F(u,v)

• O sistema visual humano é


menos sensível às componentes de
alta frequência espacial.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

31
Transformada de Domínio
Os coeficientes obtidos com a transformada são quantizados pela
divisão de cada um dos coeficientes da matriz, F(u,v) pelo
correspondente elemento da matriz de quantização Q(u,v). O resultado,
Co(u,v) é aproximado para o inteiro mais próximo, conforme
expressão

Como resultado da quantização, apenas poucos valores serão não-


nulos, sendo estes os coeficientes que devem ser transmitidos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
• Obviamente, os coeficientes provenientes da divisão são
arredondados para o número inteiro mais próximo.

• São esses valores aproximados que são transmitidos para o


decodificador de vídeo.

• No decodificador, cada valor quantizado é multiplicado pelo seu


correspondente valor na matriz de quantização, obtendo-se assim, uma
versão recuperada dos coeficientes.

• Uma vez obtida a matriz com uma versão dos coeficientes da DCT,
a transformada inversa, ou IDCT, pode ser aplicada de forma a obter-
se uma versão recuperada das amostras dos pixels.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

32
Transformada de Domínio
• O emprego da DCT resulta em pouca compactação, pois a matriz
resultante terá o mesmo tamanho da matriz original.
• A matriz de coeficientes DCT é dividida por outra matriz (chamada
de matriz de quantização). O resultado da divisão passa por um
arredondamento, e muitos elementos passam a assumir o valor
nulo.
• O processo de arredondamento da divisão introduz perda de
informação, o que insere distorções irreversíveis, porém pouco
perceptíveis ao olho humano.
• O processo de quantização permite realizar a compressão de dados,
pois transforma em zero muitos elementos da matriz de coeficientes
DCT.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
A IDCT é definida como

O erro quadrático médio para blocos de 8 x 8 pixels é dado por

Resultando numa relação sinal/ruído de quantização, em dB, igual a

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

33
Transformada de Domínio
Aplicação da DCT e IDCT no JPEG
Considere a matriz apresentada a seguir, cujos valores correspondem
às amostras do sinal de luminância de um bloco com 8 × 8 pixels.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
• A aplicação da transformada sobre as amostras, cujos valores
podem chegar a 255, resulta em componentes AC na faixa de –1023
até 1023, que podem ser representados por palavras binárias com 11
bits.
• Entretanto, o componente DC pode situar-se entre 0 e 2040, ou seja,
pode assumir valores inadequados para serem representados por 11
bits.
• Para evitar o uso de 12 bits exclusivamente para o nível DC, o valor
128 é subtraído de cada amostra de sinal. Esta subtração não afeta os
coeficientes AC, mas desloca o coeficiente DC para uma faixa de
valores que podem ser representados por 11 bits.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

34
Transformada de Domínio
Subtraindo-se 128 de cada amostra,
obtém-se

Aplicando se a DCT na
tabela acima, encontra-se

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio

A matriz de quantização para o sinal


de luminância no JPEG é

Ao fazer a quantização encontra-se


os coeficientes quantizados transmitidos

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

35
Transformada de Domínio
No decodificador a quantização inversa
é feita pela multiplicação dos valores
quantizados pelos seus correspondentes
valores, obtendo-se assim

Aplicando-se a IDCT, obtém-se

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Existe a necessidade de deslocar novamente os valores das amostras
recuperadas adicionando-se a cada uma delas o valor 128, que foi
retirado de cada uma antes da aplicação da DCT no codificador. Isso
resulta nas amostras de luminância recuperadas

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

36
Transformada de Domínio
Note que os valores de luminância recuperados não são exatamente os
mesmos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Abaixo a matriz de erro apresenta as diferenças entre a matriz original
e a recuperado no decodificador.

A relação sinal/ruído de quantização, consequência deste processo,


resulta em RSRq = 40,126 dB.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

37
Transformada de Domínio
A escolha da matriz de quantização deve atender a relação de
compromisso: qualidade de imagem x taxa de compressão.

A matriz de quantização normalmente provê MAIOR precisão para as


componentes de MENOR frequência espacial – às quais o olho
humano é mais sensível - e MENOR precisão às componentes de
ALTA frequência espacial – às quais o olho humano é menos sensível.

No processo de arredondamento muitas componentes de alta


frequência são arredondados para zero e muitas das componentes
restantes transformam-se em números positivos ou negativos de
pequenos valores, que requerem menos bits para serem codificados e
transmitidos/armazenados.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Exemplos de matrizes de quantização utilizadas no padrão JPEG

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

38
Transformada de Domínio
Organização dos coeficientes

A leitura (scan) dos coeficientes da DCT


quantizados é realizada de forma a
concatenar o maior número de zeros
consecutivos.

A leitura se inicia pelos componentes com


probabilidade maior de assumir valores
diferentes de zero.

Leitura em zig-zag Existem padrões de leitura padronizados


como o “zig-zag” (veja ao lado).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Codificação RLC – Run Lenght Coding

A utilização de codificação RLC para a codificar os coeficientes da


DCT quantizados permite reduzir a taxa de bits necessária para a
transmissão de tais coeficientes.

A codificação RLC é potencializada graças aos processo prévios de


quantização e de organização de leitura dos coeficientes quantizados.

Coeficientes organizados:
5, -21, 2, 0, ... 0, 0, 0, 0, 0, 0

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

39
Transformada de Domínio
VLC - Variable-Length Coding
Codificação de entropia / Códigos de comprimento variável

Dada uma fonte sem memória, ou seja, cuja probabilidade de


ocorrência dos símbolos são independentes entre si, a codificação
de entropia estabelece que:

quanto maior a probabilidade de ocorrência de um símbolo,


menor será a palavra código associada ao referido símbolo.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Qual a entropia H(x) da fonte sem memória – fonte em que os
símbolos tem probabilidade de ocorrência independentes entre si -
dada a seguir? Símbolo (x) p(x) I(x)
(probabilidade) (Informação)
A 0,7 0,515
B 0,1 3,322
C 0,1 3,322
D 0,1 3,322

H ( x)  I ( x1 ) p( x1 )  I ( x2 ) p( x2 )  ...
H(x) = 1,357 bits/símbolo
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

40
Transformada de Domínio
Exemplo de código entrópico eficiente, utilizado em processos de
compactação, é o código de Huffman. Este é empregado em
algoritmos como JPEG e MPEG.
Símbolo (x) p(x) I(x) Palavra Código
(probabilidade) (Informação) HUFFMAN
A 0,7 0,515 0
B 0,1 3,322 10
C 0,1 3,322 110

D 0,1 3,322 111

Qual será, provavelmente, a quantidade de bits necessários para a


transmissão de 10 símbolos desta fonte? 15
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Transformada de Domínio
Taxa de compressão no JPEG

Tipicamente a compressão sem perda visível gira em torno de 10:1,


podendo chegar até 20:1.

Exemplo: Imagem de 2 Mbytes tem seu tamanho reduzido para 100


Kbytes.

O limiar de erro visível varia consideravelmente por imagem.


Compressão de 30:1 a 50:1 é possível com imperfeições
moderadas.

Acima disto, como o extremo 100:1, a qualidade da imagem sofre


perdas acentuadas.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

41
Transformada de Domínio

Compressão 2,6:1
Tamanho do arquivo 83kB

Compressão 15:1
Tamanho do arquivo 15kB

Compressão 46:1
Tamanho do arquivo 5kB
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal

Além da redundância espacial, são exploradas as redundâncias


temporais existentes entre quadros ou campos consecutivos com o
objetivo de ampliar a compressão do sinal.

Esta similaridade entre quadros ou campos consecutivos será


processada por intermédio da utilização de técnicas como:
• Predição de pixels;
• Busca de blocos semelhantes;
• Compensação de movimento;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

42
Redundância Temporal
A predição de movimento consiste em utilizar pixels codificados de
quadros ou campos anteriores para estimar o valor do pixel, X, do
quadro atual.

Bons resultados são alcançados quando não há alterações na


intensidade da cena de quadro para quadro e quando há pequenos
movimentos de objetos com bordas moderadamente pronunciadas.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
A Tabela abaixo apresenta os valores de
entropia diferencial para alguns
esquemas de predição interquadros
baseado apenas na correlação temporal
e considerando sinais quantizados com
35 níveis.

O objeto de predição é o pixel X.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

43
Redundância Temporal
• Essas técnicas de predição apresentam resultados satisfatórios
quando o movimento é lento. Em movimentos rápidos, a falta de
correlação entre os pixels pode ocorrer de um quadro para outro,
acarretando um menor desempenho de compressão.

•Exemplo de determinação do vetor deslocamento.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
Baseado nestas premissas, as intensidades monocromáticas Yi,j(t) e
Yi+c,j+d(t - τ) de um pixel em dois quadros consecutivos estão
relacionadas por
Yi, j (t) = Yi+c, j+d (t - τ),
onde:
Yi,j(t) é o valor quantizado da luminância do pixel localizado nas
coordenadas i e j no instante t,
Yi+c,j+d(t - τ) é o valor quantizado da luminância do pixel localizado
nas coordenadas (i + c) e (j + d) no instante (t - τ), sendo [c, d] o
vetor de translação bi-dimensional do objeto durante o intervalo de
tempo entre t e (t - τ).
O desafio reside em estimar [c, d] de forma que a igualdade seja
verificada.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

44
Redundância Temporal
Existem vários métodos para determinar a predição do vetor [c, d],
os mais comuns são:

• Método do Casamento de Blocos, no qual um bloco de pixels do


quadro atual é “localizado” no quadro anterior e a diferença de
posição entre ambos permite a estimação do valor do vetor
deslocamento que é transmitido como informação lateral.

• Método Recursivo, no qual o vetor deslocamento não é


transmitido, sendo estimado a partir dos pixels previamente
transmitidos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
Método do Casamento de Blocos
Este algoritmo procura por um grupo de pixels, formado por uma
janela de MxN, dentro de uma área pré-definida.
Passos do algoritmo:
1º - Define-se um bloco formado por MxN pixels dentro do quadro no
instante t.
2º - Toma-se o pixel do centro deste bloco como referência e valor da
luminância deste pixel é denotado por Yi,j(t).
3º - A partir das coordenadas [i, j] uma área de exploração, limitada
por [i ± Δ, j ± Δ] é estabelecida.
4º - Um algoritmo de busca começa a varrer a área de exploração do
quadro no tempo (t - τ).
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

45
Redundância Temporal
O algoritmo escolhe o vetor deslocamento que minimiza a função erro
de predição dada por

1 k l
PE (c, d )    Yi  m, j n t   Yi c m, j d n (t  )
M  N mk nl

onde, k = (M-1)/2,
l = (N-1)/2,
PE(c, d) é o valor médio dos erros entre as intensidades dos
pixels do bloco M × N, no instante t, comparado com as
correspondentes intensidades dos pixels de um bloco M × N,
deslocado por um vetor [c, d] a partir das coordenadas [i, j], no
instante (t - τ).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
O valor de PE(c,d) deve ser calculado para todas as possíveis
variações de deslocamento dentro da área definida.
Pode-se fazer saltos maiores, visando uma relação de compromisso
entre velocidade
e precisão.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

46
Redundância Temporal
Exemplo:
Considere o quadro com 20 × 15 pixels, apresentado no slide anterior.
O sinal de luminância de todos os pixels foi amostrado com 16 níveis
de quantização e um bloco de pixels 3 × 3, centrado em [i, j] = [7, 9],
no tempo t, possua os valores

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
Admita que uma área de exploração esteja limitada a partir de [i, j] em
Δ = [±5, ±5], e que os valores de luminância dentro da área de
exploração no tempo (t - τ) sejam os valores apresentados a seguir

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

47
Redundância Temporal

Determine o vetor deslocamento para o bloco 3 × 3 definido,


considerando que algoritmo de busca prioriza o sentido horizontal, em
saltos de três pixels e a partir da posição onde o valor de PE(c, d) é o
mais baixo.

O algoritmo muda a busca para o sentido vertical, também em passos


de três pixels, e assim sucessivamente até que o menor valor de
PE(c, d) seja encontrado.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
Passo 1 – Determinação da matriz 3 × 3 para [c, d] = [0, 0] e cálculo
de PE(c,d).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

48
Redundância Temporal
Passo 2 – Determinação da matriz 3 × 3 para [c, d] = [0, -3] e cálculo
de PE(c,d).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
Passo 3 – Determinação da matriz 3 × 3 para [c, d] = [0, 3] e cálculo
de PE(c,d).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

49
Redundância Temporal
Passo 4 – Determinação da matriz 3 × 3 para [c, d] = [3, -3] e cálculo
de PE(c,d).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Redundância Temporal
O cálculo do melhor casamento pode indicar que há diferenças entre
o bloco do quadro atual e o bloco de melhor casamento.

Deformações de objetos, rotações, diferenças de iluminação, etc.


podem causar diferenças “pequenas” entre os blocos.

A matriz de diferenças entre os blocos, chamada de RESÍDUO, é


codificada e transmitida junto com o vetor de movimento para
permitir reconstruir o bloco atual em função do bloco de referência.

Um bom codificador compara a quantidade de bits necessária para a


transmissão dos resíduos e para a transmissão do bloco inteiro (sem
usar compensação de movimento) para verificar qual a melhor opção
em termos de redução de taxa de transmissão.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

50
MPEG-1 - Introdução

• O MPEG (Moving Pictures Expert Group) foi criado em 1988 pela ISO
(International Organization for Standardization) com o objetivo de
desenvolver padrões de compressão/codificação de vídeo e áudio.
• O MPEG-1 foi padronizado em 1991(ISO/IEC 11172) com o objetivo
principal de criar um padrão de codificação de vídeo e áudio que permitisse a
transmissão em circuitos T1 e para reprodução a partir de CD-ROM (taxa de
1,5Mb/s).
• A tabela abaixo apresenta os principais parâmetros de restrição do MPEG-1.

Parâmetro Valor
Resolução Horizontal Menor que 768 pixels
Resolução Vertical Menor que 576 linhas
Número de macroblocos Menor que 396
Taxa de macroblocos/s Menor que 396 x 25 = 9900
Taxa de quadros Menor que 30 quadros/s
Taxa de bits/s Menor que 1,856 Mb/s

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG-1 - Introdução

• O grande limitante imposto pelo MPEG-1 foi número de macroblocos e o


número de macroblocos por segundo, pois isto impede a codificação de
sinais SDTV (Standard Definition Television).

• O número de macroblocos em uma imagem SDTV é dada por:


640 480
N MB    1200
16 16

• A taxa de macroblocos necessária neste caso é dada por:

1200 30  36000 para 60 Hz


RMB  
1200 25  30000 para 50 Hz

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

51
MPEG-1 - Introdução

• A máxima resolução possível no MPEG-1, considerando uma taxa de


25 quadros/s é de 352x288, pois

352 288
RMB    25  9900 MB/s
16 16
• Para uma taxa de 30 quadros/s, tem-se que a resolução máxima é dada
por 352x240, uma vez que

352 240
RMB    30  9900 MB/s
16 16

• Os dois formatos apresentados acima são conhecidos como CIF (Common


Intermediate Format) e são utilizados em diversas aplicações,
principalmente para armazenagem de vídeo em CD’s.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG-1 - Introdução

• A qualidade obtida com os CIF’s é aproximadamente a metade da resolução


obtida no SDTV, porém não é muito diferente da qualidade de imagem
entregue nos sistemas analógicos, como o NTSC e o PAL-M.

PAL-M CIF
525*0,92 = 483 linhas. 352 x 288
483*0,65 = 314 linhas. Para 25 quadros/segundo.
314*(4/3) ≡ 419 pixels/linha.
Assim, 419 x 314. 352 x 240
Varredura entrelaçada. Para 30 quadros/segundo.
(60 campos/segundo)

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

52
MPEG-1 - Introdução

• Uma das principais diferenças entre o MPEG e o JPEG é que o MPEG


permite compressão temporal além da compressão espacial.

• Por este motivo, a análise dos sistemas MPEG deve ser feita em 3
dimensões, ao invés de 2. Isto aumenta consideravelmente a
complexidade do sistema.

• Nos padrões MPEG, a maior complexidade está no processo de


codificação. A complexidade de decodificação foi reduzida para baratear
os receptores/decodificadores domésticos. Um sistema como este é dito
assimétrico.

• Outros sistemas usados para teleconferência geralmente são simétricos,


devido ao fluxo bidirecional.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Definições do MPEG-1

• O MPEG-1 define diversas ferramentas para realizar a compressão de sinais de


vídeo e mostra algumas maneiras de implementá-las.

• O MPEG-1 também define as sintaxes da sequência de bits codificados e as


maneiras com a qual o decodificador deve interpretá-las.

• O interessante da norma MPEG-1 é que o codificador não é definido. Qualquer


codificador (em software ou em hardware) que gere uma sequência de bits
válida é um codificador MPEG-1.

• Esta abordagem permite que novas técnicas sejam empregadas para aumentar a
eficiência do codificador, sem que seja necessário alterar o parque dos
decodificadores instalados.

• Para o decodificador, as regras são diferentes, uma vez que um decodificador


MPEG-1 deve ser capaz de decodificar toda e qualquer sequência MPEG-1.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

53
Hierarquia e Terminologia do MPEG
• Bloco: é uma matriz de 8x8 pixels de luminância.
• Macrobloco: é uma matriz composta de 16x16
pixels de luminância.
• Fatia (Slice): é um conjunto finito de macroblocos.
Os slices são codificados de modo independente,
de modo que se o canal corromper os dados, a
decodificação pode recomeçar no próximo slice
recebido. Quadro
• Quadro: é uma imagem propriamente dita. No Slice
MPEG-1 não há discriminação entre imagem
entrelaçada e não-entrelaçada. Imagens
entrelaçadas podem ser combinadas para formar
um quadro ou podem ser tratadas como quadros Bloco
distintos. No segundo caso, o MPEG-1 não é
capaz de evitar a perda inerente de eficiência da
Macrobloco
codificação.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Hierarquia e Terminologia do MPEG

• Sequência de quadros: é um conjunto de quadros concatenados.


• Grupo de quadros (GOP – Group of Pictures): é um conjunto de quadros de
informação (I), de vetorização (P) e interpolação (B). Esta estruturação é
extremamente importante no MPEG pois permite a compressão temporal.
Esta estruturação será estudada com mais detalhes adiante.

I B B B P B B B P B B B P I

Grupo de Quadros

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

54
Tipos de Quadros no MPEG

• Quadro I (Intraquadro): é um quadro cuja codificação é realizada utilizando


apenas as informações contidas no próprio quadro. Em outras palavras, este
quadro sofre apenas compressão espacial e não compressão temporal.

• Quadro P (Quadro de predição): é um quadro que contém os vetores de


movimento e as diferenças entre o último quadro I ou P para o quadro atual.
Sofre grande compressão temporal.

• Quadro B (Quadro bidirecional): é um quadro construído a partir da


interpolação entre o quadro P ou I anterior e o quadro P ou I posterior.

I B B B P B B B P B B B P I

Grupo de Quadros

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Tipos de Quadros no MPEG


Referências:
• Os quadros I e P são chamados quadros ancoras, pois podem servir de
referência para outros quadros a serem codificados utilizando compensação
de movimento.

Próximo GOP

Os quadros B não são utilizados como referência para a compensação de


movimento e portanto não são quadros ancoras.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

55
Grupo de Quadros - GOP
• A figura abaixo ilustra uma estrutura de GOP hipotética.

I B B B P B B B P B B B P I

Grupo de Quadros

• O primeiro quadro de um GOP é sempre um quadro I, pois este deve conter


as informações de referência para a vetorização dos movimentos (compressão
temporal).
• O primeiro quadro P utiliza o quadro I anterior como referência. Os demais
quadros P utilizam o quadro P anterior como referência. Erros no quadro P
são propagados para os demais quadros que o utilizaram como referência.
• Quadros B nunca são referência para a codificação.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Tipos de GOP

• GOP regular: são grupo de quadros que apresentam um número fixo de


quadros P e B. Este tipo de grupo de quadros podem ser representados
por dois parâmetros:
• M que representa a distância entre dois quadros I sucessivos;
• N que representa a distância entre dois quadros de referência
sucessivos;

• GOP irregular: não apresenta uma estrutura de repetição com distância


fixa entre os quadros fixos. Embora seja prevista, este tipo de
organização dos quadros não é muito utilizada.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

56
Quadros MPEG

Princípio da codificação dos 1


quadros I, P e B

O princípio de codificação dos quadros I, P e B será 2


ilustrado usando a sequência de quadros dadas ao
lado.

As figuras mostram uma sequência de quadros


consecutivos 1, 2 e 3 que estão sendo aplicadas na 3
entrada de um codificador MPEG-1.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Quadros MPEG
• A figura abaixo apresenta o diagrama em blocos de um codificador MPEG-1,
considerando apenas a compressão espacial.

Código de Para o buffer de


Quadro sendo fonte com transmissão
DCT Quantizador
codificado comprimento
I variável

Quadro de
DCT Inversa Dequantizador
Referência

I*
• O quadro codificado é enviado para o buffer de transmissão e ao mesmo
tempo é decodificado no codificador. Isto é feito porquê o quadro codificado
não é o mesmo que o quadro original, devido à compressão com perdas.
• Este quadro reconstruído, chamado de I*, é utilizado como referência no
decodificador. Portanto, é essencial que o codificador utilize a mesma
referência.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

57
Quadros MPEG

• O quadro 1 será codificado como um quadro I,


portanto, utilizando somente compressão espacial 1
e será utilizado como referência para a
codificação de outros quadros. O quadro de
referência será o quadro decodificado no
codificador (quadro 1*) e não o quadro
original (quadro 1) que alimentou o 2
codificador.

• O quadro 3 será codificado como um quadro P e


para tal, será realizado o processo de casamento
de bloco entre os blocos do quadro 3 e os blocos
do quadro de referência 1*, a fim de obter os
3
vetores de movimento e resíduos que permitam
reconstruir o quadro 3 a partir do quadro de
referência 1*.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Quadros MPEG

• O quadro P será utilizado como referência para


codificar outros quadros, e por esse motivo ele 1
também deve ser decodificado localmente no
codificador, para que o processo de compressão
temporal utilize como referência o quadro 3*
(que é o quadro a ser obtido no receptor e
utilizado na descompressão temporal). 2

• O quadro 2 será codificado como um quadro B,


sendo codificado a partir de informações
semelhantes contidas nos quadros 1 e 3. Neste
caso, utiliza-se como referência os quadros 1*
e 3* para encontrar os vetores de movimento 3
que permitam reconstruir a o quadro 2 a
partir de informações contidas nos quadros
anterior e posterior.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

58
Quadros MPEG

• Os vetores de movimento devem referenciar


tanto o quadro 1* quanto o quadro 3* e,
portanto, o quadro 2 sofre uma codificação
bidirecional.
1
• É importante notar que o quadro 2* somente Disponível do
quadro posterior
Disponível do
quadro anterior

poderá ser decodificado/reconstruído no receptor


se o receptor possuir antecipadamente as
informações decodificadas do quadro 1* e 3*.
2

3
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Ordem de transmissão de um GOP

• Para que um quadro B possa ser decodificado, é necessário que os dois


quadros de referência sejam recebidos.

• A ordem de exibição dos quadros em um GOP não é eficiente para a


transmissão, pois o receptor necessita esperar até o recebimento do quadro
P para decodificar o primeiro quadro B.

• Portanto, é mais eficiente reordenar os quadros e enviar os quadros de


referência primeiro e depois enviar os quadros bidirecionais. Assim, será
possível decodificar um quadro B no instante em que este é recebido.

• Esta reordenação de quadros exige uso de buffer no codificador e insere


delay no processo de codificação, mas facilita e simplifica o processo de
decodificação.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

59
Ordem de transmissão de um GOP

I B B B P B B B P B B B P I

Grupo de Quadros para exibição

I P B B B P B B B P B B B I

Grupo de Quadros para transmissão

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Ordem de transmissão de um GOP

I1 B1 B2 P1 B3 B4 P2

GOP – Define como os quadros de entrada serão tratados

I1 P1 B1 B2 P2 B3 B4

Ordem de transmissão

I1 B1 B2 P1 B3 B4 P2

Ordem de saída do decodificador – Ordem de apresentação/exibição

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

60
GOP – Tipo de quadro x Taxa

I P B

A quantidade de bits necessária para a transmissão de cada quadro do GOP


dependerá da cena e de seu dinamismo – devido suas redundâncias - e de
cada tipo de quadro – devido ao tipo de codificação empregada;
Tipicamente o quadro I requer maior quantidade de bits que um quadro P e
o quadro P requer uma quantidade de bits maior que o quadro B;

Grosseiramente:
Quadro P requer ½ da taxa de um quadro I; TI > TP > TB
Quadro B requer ¼ da taxa de um quadro I;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Formato e Codificação de Macroblocos

Estrutura de formação do Macrobloco

• Cada macrobloco é composto por 4 blocos ou 16x16 pixels e cada pixel possui
valores de Y, CB e CR de acordo com o formato de amostragem utilizado (4:4:4,
4:2:2 ou 4:2:0);

No caso do MPEG-1 é suportado apenas o formato 4:2:0;

Codificação do macrobloco:
• O tipo de codificação a ser empregada - espacial ou temporal - dependerá do tipo
do quadro em questão (I, P ou B).

• A codificação espacial emprega ferramentas semelhantes às utilizadas no JPEG:


Ex. codificação por DCT utilizando blocos de 8x8 pixels.

• O processamento dos macroblocos da imagem é feita bloco a bloco.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

61
Codificação Espacial de Macroblocos

• A codificação espacial no MPEG é praticamente a mesma utilizada no JPEG.


A principal diferença é que a tabela de quantização no MPEG é definida e
depende do tipo do quadro (I, B ou P).

• As tabelas de quantização no MPEG podem ser alteradas. Neste caso, o


codificador deve enviar a tabela de quantização utilizada para o decodificador
utilizando o cabeçalho dos pacotes MPEG.

• Caso nenhuma tabela seja recebida pelo decodificador, o mesmo irá utilizar as
tabelas padrões.
8 16 19 22 26 27 29 34 16 16 16 16 16 16 16 16
16 37 16
 16 22 24 27 29 34
 16 16 16 16 16 16 16
19 22 26 27 29 34 34 38 16 16 16 16 16 16 16 16
   
22 22 26 27 29 34 37 40 16 16 16 16 16 16 16 16
22 26 27 29 32 35 40 48 16 16 16 16 16 16 16 16
   
26 27 29 32 35 40 48 58 16 16 16 16 16 16 16 16
26 27 29 34 38 46 56 69 16 16 16 16 16 16 16 16
   
27 29 35 38 46 56 69 83 16 16 16 16 16 16 16 16

Tabela para quantização de quadros I. Tabela para quantização de quadros P e B.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Codificação de Quadros B e P

Codificação Temporal – Aplicada aos quadros P e B


• Para a codificação temporal em quadros P ou B é empregada a compensação
de movimento.

• O primeiro passo é realizar a estimação de movimento, encontrando todos os


macroblocos possíveis no quadro de referência anterior (para o caso de quadros
P) e posterior (para o caso de quadro B) com o melhor casamento/correlação e
definir um vetor de movimento associado.
• O segundo passo é criar, para cada bloco do macrobloco, uma matriz 8x8 de
resíduos contendo a diferença entre os pixels do quadro que se deseja codificar
e o quadro de referência.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

62
Codificação de Quadros B e P
Codificação Temporal – Aplicada aos quadros P e B

• O terceiro passo é codificar a matriz de resíduos utilizando a codificação por


transformada DCT;

Passo adicional: cálculo da codificação espacial para definição do tipo de


codificação que requer menor taxa de transmissão

• Na codificação de quadros P e B é realizada, além da estimação de movimento,


a codificação espacial para se comparar a taxa de transmissão requerida em
cada tipo de codificação.

• A escolha do tipo de codificação a ser considerada para o macrobloco é


realizada comparando-se o total de bits necessários para a transmissão usando a
codificação temporal e a codificação espacial;

• A escolha, obviamente, se dará em função da técnica que resultar na menor


quantidade de bits para a transmissão do macrobloco codificado.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Controle de Taxa

• Conforme mencionado anteriormente, o MPEG-1 especifica apenas o


decodificador, e não o codificador.
• Dentre as particularidades de implementação do sistema, um detalhe que
merece atenção especial é o controle de taxa.
• Considere um GOP. Mesmo que a distribuição dos bits em todos os quadros
originais seja igual, as diferentes técnicas de codificação geram um problema
com a taxa de dados de saída.
• Dentro de um GOP, é de se esperar que os quadros P tenham menos bits do
que o quadro I e o quadro B tenha ainda menos bits.
• Portanto, para um sistema de transmissão com taxa constante, o tempo de
transmissão de um quadro I será maior do que de um quadro P, que será maior
do que do quadro B.
• A taxa de chegada de quadro não codificados ao codificador, no entanto, é
constante, assim como a taxa de quadros recuperados que o decodificador
deve entregar na sua saída.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

63
Controle de Taxa
Taxa constante Taxa constante
Fonte de Taxa variável
1/30 quadros/ seg Codificador 1/30 quadros/seg Equipamento
quadros não Decodificador
MPEG de
codificados MPEG
Reprodução

• Para que esta tarefa possa ser realizada com sucesso, é necessário que o
atraso entre a entrada do codificador e a saída do decodificador deve ser
constante. Assim, é necessário possuir um buffer na saída de cada bloco do
sistema.
• Além desta variação da codificação de quadros P, I e B, existe uma grande
variação na quantidade de informação de quadro para quadro.
• O controle de taxa é necessário mesmo no caso de transmissão apenas de
quadros I.
• Para manter a taxa de bit entre o codificador e o decodificador constante, é
necessário fazer com que a qualidade seja variável.
• Essa opção, normalmente incomoda mais os telespectadores do que uma pior
qualidade constantemente.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Controle de Taxa
• O desejado é manter a qualidade constante para quadros com complexidades
variáveis (a taxa tem que ser variável).
• O mesmo acontece dentro de um quadro, pois cada macrobloco possui
complexidades diferentes.
• Uma maneira de realizar o controle de taxa é ponderar a distribuição dos bits
entre os quadros I, P e B e em função da complexidade dos macroblocos
dentro de um quadro.
• Uma ferramenta que permite fazer este controle é o fator de escala de
quantização, pois minimiza o número de bits utilizado na codificação de um
certo macrobloco, mas não controla onde os bits estão sendo usados.
• Os dados com taxa variável gerados pelo codificador são entregues para um
buffer de saída. Os dados são lidos do buffer utilizando uma taxa constante
(taxa de transmissão).
• Caso a taxa de saída do codificador seja muito baixa, o buffer pode se esvaziar
e não haver nada para transmitir. Caso a taxa do codificador seja muito
elevada, o buffer pode encher e dados serão perdidos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

64
Controle de Taxa

• A figura abaixo apresenta o diagrama em blocos de um codificador MPEG


básico com controle de taxa.

Controle de
Fator de Taxa Medida do
Escala de enchimento
Quantização do Buffer

Código de Saída
Entrada
comprimento Buffer de
DCT Quantizador
variável transmissão
(Huffman)

• A medida de enchimento do buffer de transmissão permite que o bloco


de controle de taxa defina um valor para o fator de escala de
quantização, de tal modo que o buffer nunca fique totalmente cheio ou
totalmente vazio.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Controle de Taxa

• Alguns codificadores calculam a atividade espacial para cada


macrobloco de um quadro antes de iniciar sua codificação. Isto
melhora a precisão de distribuição dos bits dentro de cada quadro.

• Esta técnica introduz um certo atraso, pois é necessário comparar a


atividade espacial de um quadro com a de seus vizinhos.

• Assim, é possível determinar a melhor distribuição de bits também


entre os quadros.

• Pelo fato do codificador não ser definido pelo padrão MPEG, outras
técnicas são desenvolvidas para melhorar ainda mais o controle de
taxa, normalmente sacrificando o atraso introduzido pelo sistema.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

65
Codificador e Decodificador MPEG
• A figura abaixo mostra o diagrama em blocos do codificador MPEG.

Controle de
Fator de Taxa Medida do
Escala de enchimento
Quantização do Buffer

Quadros sem Código de Sequüência


Ordenação MPEG
comprimento Buffer de
compressão
dos DCT Quantizador
variável transmissão
quadros
(Huffman)

Predição de Predição Codificador Codificador


Movimento de Predição de Predição

Quadro de
DCT Inversa
Referência

Vetores de Movimento

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Codificador e Decodificador MPEG

• No codificador, o quadro a ser codificado é comparado com um


(quadro P) ou dois (quadro B) quadros de referência.

• Após todos os macroblocos serem mapeados, gera-se os vetores de


movimento correspondente a cada macrobloco, que serão utilizados na
predição.

• Tanto os macroblocos originais (quadro I) quanto os macroblocos


residuais, que são formados pela subtração do macrobloco original
pela sua predição, passam pela compressão espacial.

• Conforme visto anteriormente, a compressão espacial é praticamente


igual a compressão utilizada no JPEG, mas com a adição do laço de
controle de taxa.

• Os vetores de movimento são codificados de maneira preditiva.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

66
Codificador e Decodificador MPEG

• A figura abaixo mostra o diagrama em blocos do decodificador MPEG.

Decodificação Quadros de
Sequüência Buffer de Saída
MPEG de Reordenação
Entrada Dequantizador DCT Inversa
comprimento dos quadros
controlado
variável

Coeficientes DC
Armazenagem
Decodificador Predição de
do quadro de
de Predição Movimento
Referência

Vetores de Movimento

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG -2 - Introdução

• A primeira versão do MPEG-2 foi padronizado em 1995 (ISO/IEC 13818,


mas também é conhecido como H.262 (ITU-T)) com o principal objetivo de
superar a limitação da qualidade CIF apresentada pelo MPEG-1 e fornecer
ferramentas de suporte para vídeo entrelaçado (Radiodifusão).
• O MPEG-2 é um sistema muito mais complexo que o MPEG-1 (que pode ser
visto como um JPEG com compressão temporal e controle de taxa).
• As principais diferenças entre o MPEG-2 e o MPEG-1 são:
1) Suporte para vídeo entrelaçado.
2) Escalabilidade.
3) Variações de perfis e níveis para acomodar diferentes aplicações.
4) Camada de sistema para suportar múltiplos programas.

• O MPEG-1 foi uma plataforma robusta sobre a qual construiu-se o MPEG-2.


• A versatilidade do MPEG-2 é tamanha que desbancou o MPEG-3, sistema
que seria desenvolvido para compressão de sinais de alta definição. O MPEG-
2 foi adotado pelos padrões ATSC, DVB-T e ISDB-T.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

67
Melhoramentos apresentados pelo MPEG-2

• Amostragem de Cor: Além do formato 4:2:0, o MPEG-2 permite a


codificação nos formatos 4:2:2 e 4:4:4.

• Estrutura dos “Slices”: no MPEG-1 não há restrição quanto ao


comprimento do slice (que pode variar desde de 1 macrobloco até o
tamanho do quadro inteiro). No MPEG-2, o comprimento máximo do
slice é uma linha de macroblocos.

• Quantização: O MPEG-1 permite apenas uma precisão de 8 bits para a


componente DC do quadro. Já o MPEG-2 permite uma precisão de 9 ou
10 bits, dependendo do perfil e do nível utilizados.

• PAN e SCAN: o MPEG-2 permite duas relações de aspectos diferentes


(16:9 e 4:3). As informações sobre PAN e SCAN permitem que
programas gerados em 16:9 sejam exibidos em telas 4:3 e vice-versa.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Perfis e Níveis do MPEG-2

• No MPEG-1 a grande preocupação era garantir que o decodificador fosse


capaz de receber qualquer sequência MPEG-1 válida.
• No MPEG-2, isto não é possível, pois um decodificador que seja capaz de
decodificar todas as variedades possíveis previstas seria caro.
• Ficou claro para o grupo MPEG que, caso algo não fosse implementado
para permitir a construção estruturada e organizada de decodificadores,
diversas soluções proprietárias e incompatíveis seriam lançadas no
mercado.
• A solução foi encontrar sub-divisões dentro do padrão com características
comuns e essas divisões deveriam seguir dois percursos distintos.
• Um perfil MPEG-2 pode ser visto como o conjunto de funcionalidades
que podem ser utilizadas. O perfil mais simples, por exemplo, não
permite o uso de quadros B, o que simplifica em muito a construção dos
decodificadores.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

68
Perfis e Níveis do MPEG-2

• O MPEG-2 Foi desenvolvido com intuito de atender um grande número de


aplicações e, por isso, possui uma grande gama de funcionalidades/ferramentas.

• A implementação completa das funcionalidades proposta pelo padrão MPEG-2


inviabiliza muitas aplicações práticas devido a complexidade envolvida –
implicando em alto custo.

• Para viabilizar a implementação prática do sistema, o padrão foi dividido em


subconjuntos que restringem as funcionalidades e limitam os parâmetros a
serem utilizados em um dado sistema.

• Esta divisão foi realizada fazendo uso do conceito de Perfis (Profile) e Níveis
(Levels) :
- Perfil - Profile – Define o subconjunto de algorítmos/funcionalidades;
- Nível - Level – Define limitantes superiores para os parâmetros utilizados;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Perfis e Níveis do MPEG-2

A tabela abaixo ilustra exemplos de funcionalidades associadas aos


Profiles/Perfis principais do padrão MPEG-2.

Profile Funcionalidades
- Escalonamento espacial – Até 3 camadas
High
- Formato de amostragem 4:2:2
- Não suporta escalonamento de vídeo
- Codificação de vídeo entrelaçado
Main
- Suporte a quadros bidirecionais – Quadro B
- Formato de amostragem 4:2:0
-Inclui as funcionalidades do profile Main, porém NÃO suporta
Simple quadros bidirecionais – Quadros B
- Formato de amostragem 4:2:0

Os perfis superiores englobam as funcionalidades dos perfis inferiores.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

69
Perfis e Níveis do MPEG-2

A tabela abaixo ilustra exemplos da limitação superior de parâmetros


associadas aos Níveis/Levels principais do padrão MPEG-2.

Level Parâmetros
1920 amostras/linha
1152 linhas/quadro
High
60 Quadros/s
80 Mbps
720 amostras/linha
576 linhas/quadro
Main
30 Quadros/s
15 Mbps
352 amostras/linha
288 linhas/quadro
Low
30 Quadros/s
4 Mbps

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Perfis e Níveis do MPEG-2

• A tabela abaixo apresenta um resumo das possíveis combinações de perfil e nível.

Perfil
Nível Simple Main SNR Spatial High 4:2:2
1920H 1920H 1920H
High 1152V 1152V 1152V
60Hz 60Hz 60Hz
1440H 1440H 1440H
High1140 1152V 1152V 1152V
60Hz 60Hz 60Hz
720H 720H 720H 720H 720H
Main 576V 576V 576V 576V 576V
30Hz 30Hz 30Hz 30Hz 30Hz
352H 352H
Low 288V 288V
30Hz 30Hz

• Nem todos os perfis são definidos em todos os níveis.


• Uma combinação de perfil e nível é definido como Perfil@Nível
Exemplo: MP@ML - Main Profile at Main Level).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

70
Varredura dos coeficientes da DCT
• Existem duas maneiras para realizar a varredura dos coeficientes
provenientes da DCT: a varredura em zig-zag e a varrredura alternada.
• A varredura zig-zag é utilizada pelo MPEG-1 e pelo MPEG-2 quando
utiliza-se a DCT de quadro (sinais não entrelaçados).

DC 1 5 6 14 15 27 28
2 4 7 13 16 26 29 42
3 8 12 17 25 30 41 43
9 11 18 24 31 40 44 53
10 19 23 32 39 45 52 54
20 22 33 38 46 51 55 60
21 34 37 47 50 56 59 61
35 36 48 49 57 58 62 63

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Varredura dos coeficientes da DCT


• A varredura alternada é prevista apenas no MPEG-2, quando a DCT de
campo é empregada (sinais entrelaçados).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

71
Falhas no MPEG-2
• O sinal decodificado a partir de um feixe MPEG-2 pode apresentar algumas
falhas inerentes ao sistema, ou seja, que foram causadas pelo processo de
codificação e decodificação e não pelo erros introduzidos pelo canal.
• As imagens compostas por objetos movendo de forma complexa e por regiões
estáticas, mas com diferentes padrões de cor são difíceis de serem codificadas
e, portanto, podem apresentar alguns erros.
• Duas das principais falhas do MPEG-2 estão listadas a seguir:
1) Blocking:
• é uma das características de quadros que sofreram uma compressão espacial
muito alta.
• Se, por algum motivo, não houver bits suficientes para codificar um bloco ou
um macrobloco, esta estrutura se torna aparente na imagem.
• Este efeito, normalmente pode ser percebido em imagens formadas por um leve
gradiente de cor (degrade)
• Este efeito também é muito ressaltado quando um objeto se move rapidamente
sobre um padrão de fundo constante.
EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Falhas no MPEG-2: Blocking

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

72
Falhas no MPEG-2
2) Ruído mosquito ou Efeito Gibbs:
• Este ruído é mais aparente em torno de objetos artificiais, como letras e
formas geométricas que formam um grande contraste com o segundo
plano.
• Este efeito acontece porque os coeficientes de alta frequência da DCT são
quantizados de maneira mais coesa.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG-4: Introdução

• Inicialmente, o MPEG-4 foi desenvolvido com foco na compressão de


sinais com taxas muito baixas. Três faixas de taxas eram de especial
interesse, sendo elas:
1) Abaixo de 64kb/s
2) entre 64kb/s e 384kb/s
3) entre 384kb/s e 4Mb/s.
• Outro fator de grande interesse era o desempenho em ambientes ruidosos.
Era fundamental que o MPEG-4 não fosse muito sensível aos erros do
canal, o que tornava este padrão ideal para transmissão de vídeo digital
para dispositivos móveis (celulares e Palm tops).
• Além das baixas taxas mencionadas acima, o MPEG-4 também possui
níveis e perfis que permitem taxas de até 38,4Mb/s.
• Existem trabalhos em desenvolvimento para atender taxas de até 1,2Gb/s
que serão necessárias em estúdios (studio profiles).

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

73
MPEG-4: Introdução

• O ponto mais importante no MPEG-4 é que este deixou de ser


simplesmente outro sistema de compressão, como os outros concorrentes do
MPEG-2.

• O MPEG-4 traz um conceito totalmente novo de codificação multimídia,


com ferramentas para a interatividade que podem ser utilizadas em uma
maior gama de aplicações que o MPEG-2.

• Um dos mais importantes conceitos introduzidos pelo MPEG-4 é o objeto.

• Partes diferentes de uma cena podem ser codificadas e transmitidas


separadamente como objetos de vídeo ou objetos de áudio. Esses objetos
são agrupados novamente pelo decodificador para montar a cena final.

• Os diferentes objetos podem ser codificados utilizando técnicas distintas, ou


seja, pode-se escolher a melhor ferramenta de compressão para cada caso.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG-4: Introdução
O conteúdo de vídeo pode ser formado por vários recursos como vídeo, gráficos e
textos.

No caso do MPEG-2, os elementos que formam o vídeo são codificados como


uma única matriz/plano de pixels.

Exemplo - caso uma emissora retransmita a cobertura de um evento gerado por outra
emissora, o logotipo da Emissora geradora não poderá ser removido do vídeo.

No caso do MPEG-4, a composição do vídeo ocorre depois da codificação


dos objetos da cena. Os diferentes objetos podem ser codificados e transmitidos
separadamente para o decodificador. Neste caso, o processo de codificação de cada
objeto pode ser otimizado de acordo com a natureza de cada objeto: vídeo, texto,
gráficos.

O MPEG-4 está preparado para codificar objetos, porém não define como gerar tais
objetos e admite que isto é desempenhado por uma etapa de pré-processamento.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

74
MPEG-4: Estrutura Básica
Pontos de interação do usuário

Codificação Decodificação
de Objeto de Objeto

Fonte
Separação Codificação Decodificação
de
em objetos de Objeto de Objeto
Vídeo

Codificação Decodificação Composição


de Objeto Multiplexador Demultiplexador de Objeto Tela
da Cena

Objetos Codificação Decodificação


Adicionais de Objeto de Objeto

Objetos Codificação Decodificação


Adicionais de Objeto de Objeto

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

MPEG-4: Introdução

• Além de permitir uma codificação mais eficiente, a separação do conteúdo


de uma cena em objetos permite a interação do usuário com estes objetos, o
que abre um novo leque de aplicações para jogos e programas educativos.
• Há algumas desvantagens em utilizar esta abordagem de objetos. O
decodificador deve ser capaz de lidar com todas as técnicas de compressão
possíveis além de ter a capacidade de recompor a imagem.
• Com isso, o hardware do decodificador MPEG-4 é sensivelmente mais
complexo do que o necessário para o MPEG-2.
• O número de objetos possíveis no MPEG-4 é muito grande e continua
crescendo. Obviamente não é economicamente viável construir um
decodificador que seja capaz de lidar com todos os objetivos previstos.
• Assim, tal como no MPEG-2, o MPEG-4 define uma série de perfis e níveis
que permite que decodificadores específicos para uma dada aplicação
possam ser construídos.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

75
H.264/AVC

ITU-T H.264 ou MPEG-4 (Parte 10) Advanced Video Coding

H.264 é um padrão para compressão de vídeo, baseado no MPEG-4 Part 10 ou


AVC (Advanced Video Coding).

O padrão foi desenvolvido pela ITU-T - Video Coding Experts Group (VCEG)
- em conjunto com a ISO/IEC – MPEG - através de uma parceria conhecida por
Joint Video Team (JVT).

A versão oficial do padrão, ISO/IEC 14496-10, foi lançado em 2003.

A principal meta proposta para o desenvolvimento do padrão H.264/AVC foi a


de melhorar a eficiência de codificação em pelo menos duas vezes em relação
ao MPEG-2.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

H.264/AVC

ITU-T H.264 ou MPEG-4 (Parte 10) Advanced Video Coding


- Faz uso de métodos de predição mais flexíveis que os padrões anteriores:

- Predição – Intraquadro – faz uso de blocos de 16x16 e 4 x 4 para prever o


macrobloco;

- Predição Inter quadro - usa diferentes tamanhos de blocos – de 16 x 16 a 4


x 4 . Pode-se subdividir os macroblocos para otimizar a compensação de
movimento. Portanto, podem haver múltiplos vetores de movimento por
macrobloco.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

76
H.264/AVC

ITU-T H.264 ou MPEG-4 (Parte 10) Advanced Video Coding

- Transformada
faz uso da transformada DCT de 8x8 ou 4x4.

- Utilização de múltiplas referências temporais – Cada quadro pode possuir


uma lista de quadros de referência, e os vetores de movimento pode apontar
para qualquer um dos quadros da lista;

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

H.264/AVC
ITU-T H.264 ou MPEG-4 (Parte 10) Advanced Video Coding

Filtro anti-blocagem – O H.264 define filtros “anti-blocagem”, diminuindo efeito dos


artefatos causados pela descontinuidade entre um bloco e outro. Este filtro atua nas
imagens de referência – a serem utilizadas no processo de compensação de
movimento.

- Codificação por entropia adaptativa ao contexto


CAVLC (Context Adaptive Variable Length Coding) e o CABAC (Context Adaptive
Binary Arithmetic Coding), sendo que ambos são adaptativos ao contexto, isso é,
consideram as probabilidades condicionais dos símbolos no contexto dos símbolos
previamente decodificados. Dessa forma, podem ser ainda mais eficientes.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

77
H.264/AVC

Desempenho:
Comparando MPEG-2 com H.264, pode-se concluir que
- tem-se uma melhor qualidade de imagem para uma mesma taxa ou
- Tem-se uma menor taxa de bits mantendo-se a qualidade;

Ex. Um DVD pode armazenar 2 h de filme no formato MPEG-2.


Utilizando H.264, pode-se armazenar 4h;

Assim como o MPEG-2, o MPEG-4 é subdividido em diversos perfis e


níveis.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

Conclusão

• A transmissão de vídeo digital seria inviável sem o desenvolvimento das


técnicas de compressão apresentadas neste capitulo.

• A compressão baseia-se na eliminação de redundâncias espaciais


existentes dentro de um quadro ou campo e na eliminação das
redundâncias temporais existentes entre quadros ou campos consecutivos.

• Diversas técnicas de compressão são utilizadas em um padrão de


compressão de vídeo visando obter uma maior taxa de compressão sem
introduzir distorções significativas.

• Os padrões MPEG são consideradas tecnologias indispensável para a


evolução dos sistemas de vídeo digital em diversos campos de aplicação.

EE013 – Radiodifusão Digital Prof. MSc. Marcelo Carneiro de Paiva

78

Você também pode gostar