Padrões MPEG. Projecto 1

1
TV DIGITAL 1. Breve resumo sobre a TV Digital Definir no bsico Televiso Digital falar sobre transmisso de dados digitais e no de sinais analgicos o que quer dizer um aumento de qualidade de informao transmitida. Enquanto o sistema analgico transmite o sinal vdeo e som, o sistema digital transmite dados em forma binria (1 e 0) que aumenta o volume transportado. Os tipos de transmisso pode ser implantada como: 1.Transmisses terrestres
2.Como via cabo
3.Via satlite.
Televiso de Alta Definio (HDTV) televiso digital, embora o inverso no seja sempre verdade, isto porque a televiso de alta-definio obedece a normas de resoluo diferentes, produzindo imagens de qualidade superior. Existe tambm a transmisso pela internet , conhecida como IPTV A televiso digital de alta-definio no melhorar a definio por unidade de rea mas sim aumentar a percentagem de campo visual contido numa imagem, com o objectivo de a aproximarmos cada vez mais da nossa viso perifrica.
Para ser TV completamente digital envolve: cmeras digitais funcionando com uma resoluo muito maior do que as cmeras analgicas, transmisso digital, exibio digital com uma resoluo muito maior.
1.1.Varredura ou Rastreio de Tela processo utilizado em telas de televiso e monitores de computador, para reproduo de imagens num padro horizontal de linhas formadas por pequenos pontos que podem ser iluminados separadamente pela aco de um feixe de electres, e existem dois diferentes tipos: Varredura Entrelaada (Interlaced) e Varredura Progressiva (Progressive Scan). Varredura Progressiva (Progressive Scan): a tcnica de apresentao de imagens mais moderna, onde apresentado apenas um campo, ou seja, as linhas no so divididas em pares e impares. A frequncia de varredura de 60 Hz, que melhora a qualidade das imagens, em cenas em movimento, como em cenas com objectos muito pequenos, e que tem sido adaptada nos equipamentos mais modernos de apresentao de imagens, tais como televisores e tambm nos equipamentos de captao de imagens, tais como cmeras amadoras e profissionais. 1.2.Aparelhos de Televiso Digital Existem diferentes televisores digitais com diferentes resolues e varreduras neste trabalho iremos de realar sobre: LCD, Plasma, Retroprojeo. LCD (Liquid Cristal Display) Adoptado inicialmente em computadores, seu uso tem sido difundido em televisores digitais, que normalmente j possuem incorporados tambm os circuitos de varredura progressiva. Possuem um ptimo brilho, pouco consumo de energia, mas o contraste de menor qualidade, o tempo de apresentao de imagens um pouco mais lenta quando comparados aos dispositivos de plasma. Normalmente os dispositivos de LCD variam entre 15 e 40 polegadas, mas podem chegar a telas de 52 ou mais.
Plasma Seu uso aplica-se principalmente aos televisores digitais de maior porte, que normalmente j possuem incorporados circuitos de varredura progressiva. Possuem brilho, contraste e tempo de apresentao de imagens de ptima qualidade, embora apresentem algumas elevadas marcas permanentes na tela, geralmente causado por imagens estticas. Existem dispositivos de plasma a partir de 42 polegadas, podendo chegar at 70 polegadas ou mais. Retroprojeo A tcnica consiste em ter um display interno de pequeno porte que projecta a imagem na tela frontal do televisor. Estes televisores normalmente possuem incorporados tambm os circuitos varredura progressiva. Possuem brilho, contraste e tempo de apresentao de imagens de ptima qualidade. Existem a partir de 40 polegadas, e sua aplicao principal est voltada para TV's de grande porte.
A tabela abaixo mostra vrias opes de tela
1.3. Princpio de funcionamento da DTV O esquema abaixo visa resumir o processo de compresso do vdeo/ udio analgico para o digital, e que de forma simplificada podemos apresentar: - Varrimento: tem por objectivo quantizar o sinal analgico. - Converso: codifica o final quantizado atravs da transformada DCT. - Construo do VLC: depois de determinados os coeficientes da DCT, a sua transmisso feita segundo um algoritmo de zig zag que constri um Variant Run-Length Code (VLC) que maximiza a transmisso desses coeficientes. - Estimao do movimento: um algoritmo de estimao de movimento utilizado com a finalidade de comprimir ainda mais o sinal, optimizando a sua codificao. - Constituio dos GOPs: um conjunto de frames de imagens do tipo I. P e B so agrupadas formando um GOP. Predio de Quadros: uma compresso temporal e determina trs tipos de quadros: I (Intra Codec Pictures): so codificados sem nenhuma dependncia com os outros quadros. Formam uma imagem completa, sendo referncia para os quadros P e B. O uso dos quadros tipo I facilita a inicializao da imagem quando ocorre uma mudana de canal no receptor. Ao contrrio dos quadros P e dos quadros B, os quadros I no dependem dos dados de quadros precedentes ou seguintes. P (Predective Codec Pictures): so quadros preditivos. Possuem apenas as diferenas que ocorreram no quadro anterior. B (Bidirectionally Predicted Pictures): so quadros bidireccionais. Alm das diferenas em relao ao quadro anterior, tambm informam as diferenas em relao ao quadro posterior
-Multiplexagem de dados: por fim, os dados da imagem so multiplexados com o udio e dados extra, como por exemplo metadata. O resultado desta multiplexagem o formato digital MPEG que usado na transmisso de sinais de televiso digital.
Depois de ver-mos um breve resumo sobre TV Digital agora vamos focar com profundidade uma parte muito importante no funcionamento da TV Digital que a compresso e os padres mais usados
2. Histrico Na dcada de 1980 ficou claro a necessidade de aliar imagem com tecnologia digital. Nesse sentido, em 1988 ISO esquematizou o MPEG (Moving Picture Experts Group em portugus Grupo de Especialistas em Imagens com Movimento), para desenvolver padres para o vdeo digital. Foram definidos itens a serem desenvolvidos: 1. Vdeo e udio associados a uma taxa de 1.5 Mbps (mais tarde chamado de MPEG-1 em 1993); 2. Imagens em movimento e udio associados a uma taxa de 10 Mbps (mais tarde chamado de MPEG-2 em 1994); 3. Imagens em movimento e udio associados a uma taxa de 60 Mbps (mais tarde reduzido para 40 Mbps chamado MPEg-3 e ento cancelado em 1992). 4. Codificao para audiovisual com baixa taxa de transmisso variando entre 4,8 a 64KbpS (mas tarde chamado de MPEG-4 em 1998) 5. Interface de descrio de contedo multimidia: Um padro de descrio de dados multimidia Informaes udio MPEG 1 era orientado como imagem digital armazenada em Mdia de armazenagem digital (DSM - Digital Storage Media). MPEG-2 foi orientado como broadcast. MPEG-3 para televiso de alta-definio HDTV (high definition television) que em portuges = Televiso digital de alta definio. O MPEG-4 Foi orientado para superar todos os defeitos do MPEG-1 e MPEG-2 Enquanto os padres se desenvolviam ficou claro que as tcnicas empregadas nos padres poderiam ser usados em qualquer bitrate (quantidade de bits necessrios para codificar um segundo de informao, seja esta vdeo, udio ou ambos). Assim o ttulo dos que incluam a taxa de transmisso, foram alterados para MPEG-1 e MPEG-2 e ficou claro que MPEG-2 poderia satisfazer as necessidades do HDTV, assim, o MPEG-3 foi descartado.
3. Introduo
Esse trabalho tem por objetivo apresentar as formas de compresso de vdeo padronizados pelo grupo MPEG. Para tal, primeiramente, faz-se uma explanao sobre os conceitos de compresso. Partindo-se deste ponto, comea-se a definir como feita a formatao em MPEG e quais as suas definies, origens e ferramentas que se baseia desde seu surgimento at a atualidade. Com isso, necessrio fazer uma rpida reviso sobre o que e como funciona a transformada discreta dos cossenos, a quantizao e a codificao. Estas ferramentas, somadas aos conceitos de MPEG so ento montadas de forma a definio dos padres da montagem do sistema. Estes padres so divididos em vrios grupos e, cada um deles ser analisado com detalhes. Estes grupos so abreviados por: MPEG-1, MPEG-2 e MPEG-3, MPEG 4, MPEG -7 e MPEG -21.
10
4. Conceito de Compresso A compresso de dados so o ato de reduzir o espao ocupado por dados num determinado dispositivo. Essa operao realizada atravs de diversos algoritmos de compresso, reduzindo a quantidade de Bytes para representar um dado, sendo esse dado um imagem, um texto, ou um arquivo (ficheiro) qualquer. e apresenta dois factores de extrema importncia: a taxa de compresso e a velocidade de processamento Quando o volume de dados de vdeo muito grande (1 segundo de vdeo na resoluo de 640 x 480 resulta em 27 MB), tornam-se necessrias tcnicas de compresso. Com a crescente utilizao de dados cada vez maiores, se torna essencial uma compactao de vdeo para as aplicaes multimdia. Para tal, existem algumas razes que justificam esta utilizao. So elas: H a necessidade de armazenamento de dados multimdia; Com dados multimdia de tamanho muito grande, a velocidade de armazenamento e de transferncia se torna relativamente baixa; A largura de banda da rede que no permite a transmisso de vdeo em tempo real; Um dos grandes problemas dos vdeos a redundncia de imagem e a compresso se concentra justamente em eliminar estas redundncias e deixar o vdeo o mais limpo possvel pois, como os humanos so os usurios, existe uma tolerncia razoavelmente boa a erros de informao, Alm da eliminao da redundncia, os dados so comprimidos pelos mais diversos motivos. Entre os mais conhecidos esto economizar espao em dispositivos de armazenamento, como discos rgidos, ou ganhar desempenho (diminuir tempo) em transmisses.
11
5. Como funciona o mpeg (video)
O MPEG (Movie Pictures Expert Groups) um grupo da ISO/IEC (International Standards Organization/International Electrotechnical Commission), criado em 1988, responsvel em padronizar a compresso/descompresso, processamento e
representao codificada de vdeo, udio e combinao destes, quando usados para armazenamento e recuperao em Digital Storage Media (DSM). Neste conceito, existem dispositivos de armazenamento convencionais, tais como CD-ROMs, drivers e discos rgidos. O desenvolvimento do MPEG foi baseado no JPEG(Joint Photographic Experts Group) - hoje conhecido como H261 , o qual foi desenvolvido pelo mesmo grupo ISO e possui uma boa base para seu desenvolvimento. Ele utilizou a ideia de fotos compactadas separadamente e apresentadas sequencialmente. O MPEG trabalha aplicando dois tipos de compresso. A primeira baseada nas cores, o algoritmo procura por agrupamentos de pixels com a mesma cor e os substitui por um nico cdigo, algo parecido com o usado no formato JPG. Com esta primeira camada de compresso j possvel compactar os vdeos numa razo de mais ou menos 1/3. J um grande ganho, mas ainda no o suficiente para colocar duas horas de filme em um DVD. A segunda etapa da compresso um pouco mais inteligente. A imagem dividida em pequenos blocos de 16 x 16 pixels cada um, chamados de macro blocks. Ao invs de simplesmente actualizar toda a imagem a cada quadro, so mudados apenas os blocos que foram alterados de forma perceptvel entre um quadro e outro. Veja um exemplo abaixo. Estes so trs quadros do Toy Story 2, onde o Buzz est falando algo. Note que em trs quadros, quase no houve movimentao. Ele apenas mexeu um pouco a boca e a cabea. O restante do quadro contnua idntica:
12
Usando vdeo sem compresso, cada quadro seria uma nova imagem. Mas, graas ao MPEG, so capturadas apenas as diferenas entre os quadros. Mesmo em cenas com movimentao rpida raro serem alterados mais do que 20 ou 30% dos macro blocks a cada quadro da imagem. Somados, os dois modos de compresso permitem compactar o vdeo de 243 GB que tnhamos originalmente, a ponto dele poder ser armazenado em nico DVD. Claro, que o processo resulta em alguma perda, como sempre temos ao salvar uma imagem em JPEG, mesmo escolhendo mante-la com 90 ou 95% da qualidade, por exemplo. Mas, neste caso, o benefcio fala mais alto, j que mesmo com a compresso um DVD tem uma imagem incomparavelmente superior ao de uma fita VHS. Se no fosse a compresso, no haveria DVD. A codificao MPEG estatstica e para tal baseia-se na correlao Pixel (interpel correlation). Estes algoritmos utilizam as tcnicas de transformada discreta de cossenos (DCT) em blocos de imagens de 8x8 pixels. Para correlao de pixels prximos na mesma imagem, utiliza-se a codificao DPCM entre quadros. Podemos dizer que o MPEG um cdigo de vdeo hbrido DPCM/DCT. O diagrama de blocos de um sistema de codificao e decodificao de vdeo MPEG mostrado na figura a seguir.
Figura 1: Modelo da parte de vdeo de um sistema MPEG importante dizer que o MPEG separa o udio e o vdeo, fazendo assim a compresso em trs camadas: 1. MPEG-Vdeo (Codificao de Vdeo): trata da compresso de sinais de vdeo; 2. MPEG-udio (Codificao de udio): trata da compresso de um sinal de udio digital;
13
3.
MPEG-Sistemas (Aspectos de sistema): trata da sincronizao e multiplexao de bitstreams ( fluxos de bits ) de udio e vdeo compactados. Adicionalmente, ele possui uma parte que determina as caractersticas do
bitstreams codificados. Este sistema consegue uma alta taxa de compresso, pois somente captura imagens mudadas. O MPEG utiliza um tipo de compresso com perdas, uma vez que alguns dados so perdidos, mas essa diminuio de dados geralmente imperceptvel ao olho humano.
Figura 2: mostra que o olho humano possui baixa sensibilidade para frequncias espaciais altas Como olho humano mais sensvel a variao no brilho do que variao de cromaticidade, os dados da imagem so primeiro divididos numa componente de luminncia Y e dois de crominncia Cr Cb, e os componentes de crominncia so subamostrados relativamente componente de luminncia. Depois deste passo, o habitual mtodo de compresso com perdas usado na compresso de vdeo digital baseado em DCT e em quantizao. Esta tcnica reduz as componentes espaciais de altasfreqncias da imagem, uma vez que o observador humano mais sensvel a erros de reconstruo de componentes de baixas freqncias. O objetivo do passo de quantizao representar os coeficientes DCT com a preciso que necessria para alcanar a qualidade de imagem pretendida. O passo zig-zag coloca os coeficientes de altasfreqncias no fim da stream e uma vez que a maioria deles se tornaram zero depois da
14
quantificao, o RLE (Run Length Encoding) usado para uma compresso ainda maior. O coeficiente do canto superior esquerdo (da figura) representa o valor mdio do bloco e codificado usando a diferena do bloco anterior (DPCM). O passo final do processo de compresso minimizar a entropia utilizando a codificao aritmtica ou de Huffman. A imagem codificada normalmente chamada I-frame (intra-frame) porque o processo de codificao no utiliza nenhuma informao de outras imagens.
Figura 3: Diagramas de blocos de compresso de vdeo Alm da anterior, outra tcnica de compresso pode ser utilizada: a redundncia temporal entre imagens. O mtodo bsico consiste em calcular o erro de predio entre os blocos correspondentes nas imagens atuais e nas imagens anteriores. Os valores do erro so enviados para o processo de compresso. As imagens comprimidas geradas pela predio so chamadas P-frames. Quando se utiliza tanto as imagens anteriores como as futuras como referncia, a imagem chamada B-frame (bidirectional frame). Quanto predio de movimento so previstos trs diferentes tipos de quadros: Quadro I (Intra coded picture) Cada quadro tratado como uma imagem separada.
As matrizes componentes Y, Cr e Cb so codificadas independentemente de forma similar ao JPEG (DCT, quantizao, codificao por entropia), com a diferena que todos os coeficientes DCT so quantizados utilizando o mesmo valor constante. Resultado: Quadros I tem uma taxa de compresso baixa!
15
Embora possa parecer vantajoso ter um nico quadro I no incio de cada cena do vdeo, o algoritmo independente do contedo do vdeo, i.e. ele no identifica cenas: Quadros I precisam estar presentes com certa freqncia para permitir que o decodificador possa continuar decodificando o vdeo mesmo quando h erro de transmisso. O nmero de quadros entre quadros I sucessivos conhecido como Grupo de Imagens (group of pictures), que expresso pelo smbolo N (usualmente, entre 3 e 12 Quadro P (Predictive coded picture) - Codificao feita em relao ao quadro I ou P anterior utilizando uma combinao de estimao de movimento e compensao de movimento. - Resultado: Taxa de compresso elevada! Erros contidos em um quadro P so propagados para todos os quadros P posteriores (principal limitante para o no. de quadros P antes de um novo quadro I). O numero de quadros P antes de um I (prediction span) varia de 1 a 3.A estimao de movimento limita-se a uma rea reduzida, o que serve para a maioria dos vdeos onde o movimento suave. Quando o movimento menos suave a predio direta no to eficiente, motivo pelo qual existe a predio bidirecional.
Quadro B (Bidirectionally predictive coded picture) - codificado a partir da interpolao entre um quadro anterior (I ou P) e um quadro posterior I ou P; prov um alto grau de compresso da ordem de 2 a 5 vezes menor que um quadro P.
A figura abaixo apresenta a configurao dos quadros (P,B e I) e o conceito de predio de movimentos, tcnica que reduz muito a redundncia temporal, propiciando excelente compresso no contedo de um vdeo em formato digital.
16
I : Quadros codificados independentemente P: Quadros codificados por predio simples B: Quadros codificados por predio bidirecional
Figura 4: Modelo MPEG de compensao de movimento A predio compensada por movimento uma ferramenta para reduzir a redundncia temporal entre imagens. O conceito de compensao de movimento contm uma estimativa de movimento entre imagens de vdeo. O movimento descrito por um pequeno nmero de vetores de movimento que origina uma translao de um bloco de pixels entre as imagens. Os vetores de movimento e os erros de predio comprimidos so ento transmitidos.
Figura 5: Compensao de movimento

17
Num nvel de compresso mais elevado, o bloco baseado numa transformao DCT introduz alguns artifcios bloqueadores. Os mtodos mais recentes j no precisam desta subdiviso da imagem e permitem nveis de compresso mais profundos sem estes artifcios. A transformao wavelet, uma ferramenta poderosa para comprimir informao, representa imagens como ondas que podem ser descritas matematicamente em termos de frequncia, energia e tempo. A matemtica avanada subjacente transformao wavelet muito complexa. A compresso fractal ganhou algum interesse global, mas at agora no apresenta benefcios em relao aos mtodos baseados em DCT.
5.1.ALGORITMO DE COMPRESSO MPEG: O primeiro tipo de compresso a ser realizado a sub-amostragem de cor. Ela baseada na representao RGB (red, green, blue), levando em considerao que cada cor pode ser representada como uma combinao entre vermelho, verde e azul. Porm como o olho humano trata de forma diferente o brilho e a cor da imagem, sendo mais sensvel ao brilho do que cor, esse fato torna a representao RGB insuficiente para a compresso. Para que a compresso MPEG seja realizada, a representao de cor RBG convertida para o espao de cor YCbCr, no qua Y o sinal luminncia, Cb o sinal crominncia diferena azul e o Cr o sinal crominncia diferena vermelho. A representao YCbCr consegue obter taxas de compresses maior do que a RGB. A passagem de uma imagem RGB para uma imagem YCbCr feita da seguinte forma: Y = 0.299R + 0.587G + 0.114B Cb = -0.1687R - 0.3313G + 0.5B + 128 Cr = 0.5R - 0.4187G - 0.0813B + 128 Na qual R representa a componente vermelha, G a verde e B a azul. Para um sistema MPEG com uma taxa de 60 frames/s (NTSC), os seguintes valores da representao YCbCr so aceitos:
18
Componen Pixels/linha x linha (resoluo espacial da te de Cor imagem) Formato Formato Formato 4:4:4 4:2:0 4:2:2 Y Cb Cr 720 x 480 360 x 240 360 x 240 720 x 480 360 x 480 360 x 480 720 x 480 720 x 480 720 x 480
J para uma taxa de 50 frames/s (PAL-M) os formatos de sub-amostragem aceitos pelo sistema MPEG so: Componente Pixels/linha x linha (resoluo espacial da de Cor imagem) Formato Formato Formato 4:4:4 4:2:0 4:2:2 Y Cb Cr 720 x 576 360 x 288 360 x 288 720 x 576 360 x 576 360 x 576 720 x 576 720 x 576 720 x 576
Alm desse processo, h outros dois para a explorao da redundncia em imagens:

Transformada Discreta do Cosseno (DCT) Predio por compensao de Movimento Inter- Frames
5.2.Transformada Discreta do Cosseno Como forma de simplificao, ser considerado apenas o sinal de luminncia Y de uma imagem PAL-M gerado sub amostragem 4:2:0. No sistema de codificao MPEG, a redundncia espacial removida atravs do processamento dos sinais digitalizados em blocos bidimensionais de 8 pixels/linha x 8 linhas. No caso do formato 4:2:0, para que no haja distores nas cores, preciso filtrar os sinais relativos a crominncia. Por este motivo, recomendvel a utilizao do filtro de vdeo. A figura abaixo demonstra como obtido um bloco de 8x8 pixels, que ir sofrer a transformao para o domnio da frequncia espacial atravs da DCT. Cada linha
19
possui 740 pixels, isto , a direita e a esquerda de cada frame h uma imagem de 8 pixels.
Figura 6: obteno do bloco 8x8 pixels O que na verdade feito na DCT a transformao matemtica da informao original (figura bidimensional) no domnio espacial ou temporal para um outro domnio, abstrato, que na realidade mais adequado para a compresso. Por ser um processo reversvel, aplicando a transformada inversa, a informao original reconstituda. O que ocorre na realidade a diviso da imagem bidimensional em blocos menores de 8x8 pixel, formando uma matriz X com coeficientes xij, ao aplicar a DCT sobre cada um dos blocos, o resultado ser uma outra matriz, Y, com a mesma dimenso da matriz X original, porm com coeficientes ykl. Esse processo pode ser observado na figura 4.
Figura 7: transformada DCT
A transformao da matriz X para a matriz Y feita utilizando a seguinte equao matemtica:

y kl = 1 N 2 i= 0
N1 N 1
0 xij cos j=
2i 1 k 2N
cos
2j 1 l 2N
onde N=8 e k,l = 0,1,..., N-1
20
J o processo inverso, para recuperar a informao original realizado utilizando a IDCT, definida matematicamente por:
N 1 N 1
x ij=
y kl c k c l cos
k= 0 l = 0
2i 1 k 2j 1 l cos 2N 2N onde i , j= 0,1 ,... , N 1 c a = 1, a= 0 2, a 0
Cada coeficiente indica a contribuio de uma funo diferente de base DCT. O primeiro coeficiente, y00 representa a luminosidade mdia do bloco. O valor de um coeficiente y qualquer indica a intensidade conjunta da frequncia espacial vertical (k) e horizontal (l). A medida que aumenta o valor de k, aumenta o valor da frequncia espacial vertical e a medida que o valor de l aumenta, a frequncia espacial horizontal tambm aumenta. Um valor significativo do coeficiente ykl em regies de alta frequncia espacial indica que o bloco de pixels originais xij apresenta alta diferenciao de luminosidade nessa direo. Aps efetuar a DCT, os coeficientes mais significativos podem ser codificados com maior preciso, e os menos significativos, com menor preciso. Pode-se tambm ignorar alguns dos coeficientes. Obtida a matriz, seus coeficientes so quantizados, isto , cada coeficientes do bloco da matriz de transformada dividido por um valor corresponde ao de uma outra matriz, chamada matriz de quantizao. A quantizao aplicada de uma forma especfica para cada um dos coeficientes. Essa quantizao feita de acordo com a frequncia espacial do coeficientes, ou seja, de acordo com a posio que ele ocupa na matriz. O objetivo conseguir transmitir o mnimo de bits necessrio para que o decodificador consiga realizar a IDCT e reconstruir a imagem. Na quantizao, quanto maior a exatido, maior o nmero de bits que tero que ser enviados, e menor o erro de quantizao (rudo de quantizao). Esse erro menos visvel em altas freqncias e em componentes de crominncia do que de luminncia. Para definir a relativa adequao da quantizao nos diferentes coeficientes, so utilizadas matrizes de peso.
5.3.Quantizao Para reduzir a amplitude e aumentar o nmero de coeficientes iguais a zero dos coeficientes da DCT usamos a quantizao. De acordo com a posio do coeficiente, usamos um degrau de tamanho diferente para quantizar os algoritmos MPEG. Os termos DC e AC so quantizados separadamente nos blocos dos intraframes. Esta quatizacao aparece nas seguintes equaes:
21
C(0,0) (F(0,0) 4) / 8
C(u,v) QF)/ 2QF onde:
((A(u,v)
A(u,v) = ((F(u,v) * 16) Q(u,v)/2) / Q(u,v)
Onde temos: C(u,v): coeficiente quantizado; F(u,v): coeficiente DCT; Q(u,v): tamanho do degrau; QF: parmetro de quantizao (usado para controle de taxa); O sinal depende de F(u,v). A quantizao inversa dada por: F(0,0) = 8 C(0,0)
F(u,v) = C(u,v) QF Q(u,v)/8 Para os blocos preditos e interpolados, o quantizador tem uma zona morta ao redor do zero e o mesmo para os coeficientes DC e AC. A(u,v) = ((F(u,v) * 16) Q(u,v)/2) / Q(u,v) Se QF impar: C(u,v) A(u,v)/ 2QF e se QF par:
22
C(u,v) = (A(u,v) 1)/ 2QF onde depende de A(u,v). A quantizao o estgio de perdas na codificao MPEG (o estgio de DCT tambm produz perdas, mas em escala muito menor 5.4.Varredura zig-zag Aps sofrerem a transformada, os coeficientes geralmente tornam-se pequenos e aps a quantizao, nulos. Nesta converso existe uma perda de informao devido ao processo de truncagem obtido na diviso de 2 nmeros inteiros. Na realidade, no a DCT propriamente dita que reduz o nmero de bits que representa o bloco, mas sim o fato da DCT resultar em uma distribuio de coeficientes no uniforme. Essa distribuio no uniforme dos coeficientes ykl um resultado da redundncia espacial presente no bloco original xij. A DCT tende a concentrar a energia nos coeficientes de baixa frequncia, isto , coeficientes prximos de y00. Assim, h coeficientes que possuem um nmero muito baixo, prximo de zero. Esses coeficientes no sero transmitidos, so esses bits que no so transmitidos que reduzem a taxa de bits. A varredura em zig-zag aplicada aos 64 coeficientes, como mostra a figura 5, para que esses coeficientes sejam reorganizados. Esse processo ir agrupar, em forma de sequncia, uma grande quantia de zeros.
Figura 8: varredura zig-zag
5.5.Codificao RLE e codificao VLC Na codificao RLE, qualquer sequncia de caracteres repetidos podem ser substituidos por uma forma abreviada. No caso dessa compresso, aparecer a sequncia de coeficientes nulos repetidos. O RLE ir substituir uma srie de nmeros de
23
caracteres (c) que aparecem n vezes sucessivas por um cdigo. O par {n,c} ser codificado usando um cdigo de comprimento varivel (VLC Variable Length Coding) basicamente similar ao Cdigo de Huffman, que faz o clculo da frequncia de ocorrncia de cada caractere, determinando um nmero mnimo de bits para cada caractere e montando uma tabela com um cdigo para cada um deles. O VLC gera um cdigo que tem diferentes comprimentos dependendo da frequncia esperada de ocorrncia de cada para {n,c}. Combinaes comuns usam palavras cdigos curtas, combinaes menos comuns usam palavras cdigo longas, de modo idntico ao Cdigo Huffman. As combinaes que no se encontram na tabela de codificaes VLC so codificadas pela combinao de um cdigo de escape e dois cdigos de comprimento fixo (uma palavra de 6 bits para representar n e uma palavra de 12 bits para representar c).
5.6.Controle da Taxa de Transmisso para o Canal A quantizao dos coeficientes DCT, a codificao RLE e a codificao VLC produzem uma taxa de bits varivel. Para suavizar essas variaes, h um buffer, que limitar a banda ocupada no canal de transmisso. O Controle de Ocupao do Buffer previne overflow e underflow do buffer. A figura a seguir mostra o processo de compresso com o buffer.
Figura 9: buffer
O processo de quantizao dos coeficientes DCT usado para prover controle direto de entrada do buffer. Quando o buffer enche, o nmero de bits usados para codificar cada coeficiente reduzido. J quando o buffer esvazia, o nmero de bits atribudos a cada coeficiente aumenta. O codificador informa ao decodificador o valor do passo de quantizao instantaneamente adotado.
24
5.7.Reduo de Redundncia Temporal: Predio Interframe Seu objetivo reduzir a redundncia temporal intrnseca sequncia de imagens representada pela sequncia de frames. Na figura abaixo, est um exemplo de implementao de um codificador baseado em predio temporal, o codificador PCM Diferencial (DPCM Differential Pulse Code Modulation). Nesse tipo de codificador, s a diferena entre a imagem de entrada e uma predio baseada na sada prvia localmente decodificada so quantizadas e transmitidas. necessrio um decodificador local junto ao codificador no transmissor, j que a predio no pode ser baseada em imagens fonte prvias pelo fato das imagens terem que ser repetidas no decodificador. Esse decodificador local constitudo pelo preditor, sendo realimentado com a sua sada somada de um erro de predio quantizado. Ele reconstri as imagens como elas seriam no decodificador do receptor. Esse tipo de predio chamada interframe, j que amostras de um frame de referncia so usados na predio de amostras de outro frame.
Figura 10: DPCM Na codificao MPEG, a predio interframe combinada com a DCT e codificao RLE/VLC , como mostra a figura 8. A imagem-erro-de-predio formada subtraindo a entrada da predio. Em seguida, a DCT aplicada ao erro de predio, os coeficientes resultantes so quantizados, e estes valores quantizados so codificados usando RLE/VLC.
Figura 11: combinao: predio, DCT, RLE/VLC

25
A predio interframe mais simples consiste em estimar blocos de amostras no frame a ser predito a partir de blocos respectivamente localizados na mesma posio no frame de referncia, ou seja, exatamente um frame atrs. Porm essa predio no precisa para regies com movimentos, fato que que faz com que, para casos de movimentos, seja utilizado a Predio Interframe com Compensao de Movimento. 5.8.Compensao de Movimento Este tipo de predio procura compensar qualquer movimento de translao que tenha ocorrido entre o bloco que est sendo codificado e o respectivo bloco no frame de referncia que usado como ponto de partida para predio. A codificao da diferena relativa entre reas, a partir de uma posio de uma regio do quadro, e os quadros ou campos anteriores do origem a compensao de movimento. Quando ocorre a codificao, as amostras que esto prximas a amostra a ser codificadas, que j sofreram a codificao so utilizadas para estimar um valor da amostra que ser codificada. A sua codificao feita a partir da diferena entre o valor real e o valor previsto. Para o processo de estimao do movimento, necessrio determinar a regio em movimento e o vetor deslocamento ou de movimento. A partir dos vetores de movimento, sabe-se a direo e a quantidade de movimento com que os macroblocos so transmitidos para o decodificador, como parte do fluxo de bits. Com isso, o decodificador sabe qual a rea de referncia do quadro, que foi utilizada para cada predio. Ento, ele faz a soma da diferena com a predio do movimento compensado, obtendo uma sada. Na figura 9, possvel observar um exemplo de compensao de movimento, assim como na figura 10. O vetor de movimento e os deslocamentos horizontal e vertical so mostrados pela compensao de movimento forward e backward, respectivamente.
Figura 12: Movimento compensado com predio e reconstruo

T e m po
26
Pre di o Forw ard Q ua dro A tual Pre di o Ba c kwa rd
B co co lo s rresp n en o d tes s freq n cias m b as ais aix
Freq cias altas n n d a ireo h rizo tal o n
Freq cias altas n n d a ireo v ertical
Freq cias altas n
Figura 13: Funes-base para a DCT bi-dimensional de blocos de 8 x 8 pixels Enquanto que a unidade bsica de codificao para redundncia espacial no padro MPEG baseada em blocos de 8x8 pixels, a compensao de movimento usualmente baseada em macro blocos de 16 pixels por 16 linhas. O tamanho do macro bloco d-se de:
necessidade de minimizar a taxa de bits necessria para transmitir a representao do movimento ocorrido entre os blocos (conhecida como vetores de movimento), a qual aponta para a utilizao de um tamanho de macro bloco maior e a necessidade de variar o processo de predio localmente dentro do contedo da imagem (e do movimento associado), o que sugere a necessidade de um tamanho menor de macro bloco.
Para minimizar a taxa de bits necessria para transmitir os vetores de movimento, os vetores de movimento so codificados diferencialmente com referncia aos vetores de movimento prvios. O erro de predio do vetor de movimento codificado atravs de codificao por comprimento varivel, utilizando uma outra tabela VLC. A figura 11 mostra um codificador por DCT simplificado com compensao de movimento interframe no qual, para fins didticos, a implementao do processo de predio por compensao de movimento ilustrada pelo uso de um atraso varivel. O atraso varivel representa as tentativas de deslocamento na busca do best match, quando, ento, o erro de predio mnimo. Uma vez ocorrendo o best match, o atraso unidimensional convertido em vetores de movimento bidimensionais.
27
Figura 14: codificador por DCT simplificado com compensao de movimento interframe
5.9.Modos de Predio H vrios mtodos para a predio de movimento em um codificador MPEG-2, como compensao de movimentos. Dentre elas a predio forward (utilizando uma imagem passada), predio backward (utilizando uma imagem futura), interpolao atravs da mdia entre uma uma predio forward e backward, ou ainda uma predio de valor zero. Cada uma dessas predies utiliza um diferente tipo de imagem. Os tipos de imagens so demonstrados no prximo item. Como h diversos tipos de predio, o codificador escolhe um tipo para cada macro bloco a ser codificado, tentando minimizar as distores na imagem decodificada, dentro das restries da disponibilidade da taxa de bits do canal. Para que o decodificador posa regenerar a imagem, junto com o erro de predio, enviado a ele qual o tipo de predio que foi utilizado. A informao sobre o modo de predio escolhido transmitida ao decodificador, juntamente com o erro de predio, de tal forma que o decodificador possa regenerar a predio correta. A figura 15 ilustra a decodificao de um macro bloco que foi codificado bidirecionalmente na transmisso. As chaves esto representando alguns dos modos de predio que podem ser utilizados.
28
Figura 15: decodificao de macro bloco
6. Conceitos Fundamentais do Mtodo de Compresso do MPEG udio Para se efectuar compresso de udio basicamente existem duas alternativas. A primeira consiste em reduzir a frequncia de amostragem e a segunda em reduzir a resoluo da amostra para uma valor inferior. Se pretendermos qualidade no podemos fazer grandes alteraes na frequncia de amostragem, pois o sistema auditivo humano s houve sons entre 20Hz e os 20KHz. De acordo com o teorema de Nyquist, temos de fazer a amostragem a uma frequncia de pelo menos duas vezes a maior frequncia que queremos reproduzir. Tendo em conta que os filtros no so ideais, uma frequncia de 44.1KHz o mnimo razovel. Ou tentamos provar que o teorema de Nyquist est errado ou vamos trabalhar em tentar reduzir a resoluo da amostra. O comit do MPEG optou pela segunda hiptese. A razo da utilizao dos 16 bits por amostra destina-se obteno de uma boa relao sinal rudo. O rudo a que nos estamos a referir o rudo de quantificao proveniente do processo de digitalizao do sinal. Por cada bit que se adiciona resoluo da amostra aumentamos a relao sinal/rudo de 6dB. Para o nosso ouvido 6dB correspondem a aumentar para o dobro o nvel do sinal. Com o sistema CD udio consegue-se uma relao sinal rudo a rondar os 90 dB, que est dentro da gama dinmica do sistema auditivo humano. Isto , no ouvimos nenhum rudo nem do prprio sistema reprodutor, embora existam pessoas que defendem a existncia desse rudo mas de momento no nos vamos preocupar com isso. Se utilizarmos uma resoluo de 8 bits por amostra vamos obter um rudo de fundo que se vai fazer notar. Este rudo pode ser facilmente ouvido em momentos de silncio da msica ou entre palavras. Mas quando o nvel do som elevado no ouvimos nenhum rudo. Isto o chamado efeito de mscara e a chave para o mtodo de codificao utilizado no MPEG udio. O efeito de mscara pertence a uma cincia chamada psicoacstica que estuda a forma como o ouvido humano entende o som.
29
6.1.Modelo Psico-Acstico Primeiro comeamos por apresentar alguns aspectos a ter em conta acerca do ouvido e da voz humana: A "largura de Banda" do ouvido situa-se entre os 20Hz e os 20000Hz, sendo mais sensvel dos 2 a 4KHz. A gama dinmica em termos de nvel do som (desde os sons mais baixos at aos mais fortes) de 96 dB. A "largura de Banda" da voz est entre os 500Hz e os 2KHz. As baixas frequncias so as vogais e os sons graves. As altas frequncias so as consoantes e os sons agudos.
O grfico seguinte mostra a sensibilidade do ouvido humano. Coloca-se uma pessoa num quarto em silncio e aumenta-se o nvel de um Tom a 1KHz at que seja minimamente ouvido. Varia-se a frequncia e obtemos o seguinte resultado:
Confirma-se assim que o ouvido humano mais sensvel entre os 2 e os 4KHz.
6.2.Efeito de Mscara ( Masking ) Se tivermos um sinal muito forte com uma frequncia de 1000Hz e outro a 1100Hz com um nvel de 18dB abaixo do primeiro, este ltimo sinal no vai ser ouvido pois vai ser completamente mascarado pelo primeiro. De facto nenhum som mais fraco perto do som mais forte ( frequncia de 1000Hz) ser ouvido pois sero todos mascarados. Se introduzirmos outro sinal a 2000Hz, tambm 18dB abaixo do primeiro sinal (a 1000Hz) j o conseguiremos ouvir. Para que este possa ficar mascarado necessrio que esteja 45dB abaixo do primeiro. Assim quanto mais longe estivermos de um sinal menor ser o efeito de mscara.
30
O efeito de mscara permite aumentar o rudo de fundo volta de um som forte porque o rudo ser mascarado de qualquer forma. Aumentar o rudo de fundo, o mesmo que reduzir o nmero de bits utilizados por amostra. Usar menos bits significa comprimir. A figura seguinte mostra um grfico de uma experincia onde se pode verificar o Efeito de Mscara. Foi colocado um tom a uma frequncia de 1KHz a um nvel fixo de 60dB. E um outro tom a uma potncia diferente a uma frequncia de 1,1KHz, aumentou-se este segundo tom at que se conseguisse ouvir os dois. O resultado est na figura seguinte:
Pode-se verificar qual o efeito de mscara que o tom a 1 KHz provoca sobre todas as frequncias que estejam dentro da sua banda de mascaramento. Repetindo o processo anterior para diferentes tons de mascaramento temos a figura seguinte:
Verifica-se pela observao deste grfico que medida que aumenta a frequncia do tom de mascaramento, aumenta a largura da banda de mascaramento, que a seguir explicaremos.
6.3.Bandas Criticas ( Critical Bands ) A largura de banda das curvas dos sinais que efectuam o efeito de mscara no proporcional frequncia dos sinais. cerca de 100Hz para frequncias abaixo dos
31
500Hz e sobe muito acima dos 100Hz para sinais a frequncias acima dos 500Hz. Esta largura de banda a chamada dimenso da Banda Critica. Para medir a dimenso da Banda Critica apareceu uma nova unidade chamada Bark (de Barkhausen). 1 Bark = dimenso de um banda critica. Para frequncias<500Hz temos:
Para frequncias>500Hz temos:
Na figura seguinte mostra-se um grfico com vrios limiares de mascaramento em que um dos eixos tem a escala em Bark:
Como se pode observar utilizando a unidade Bark permite-nos definir com maior exactido os limites das bandas de mascaramento.
6.4.Efeito de Mscara no Tempo Produzindo um som a uma frequncia de 1KHz (mask tone) com uma potncia de 60dB, e um outro som a 1,1KHz (test tone) a 40dB. No possvel ouvir o segundo som porque est mascarado pelo primeiro. Se terminarmos o primeiro som, e depois de um pequeno atraso terminarmos o segundo, podemos verificar o tempo que necessrio para ouvirmos o segundo som. Na figura seguinte mostra-se um grfico que ilustra esta experincia onde se pode verificar que o atraso de 5ms:
32
Realizando a experincia anterior mas para vrios sons (test tone) e com um tom de mascaramento (masking tone) constante. Observamos na figura seguinte o efeito total de mscara:
Neste grfico verificamos que uma frequncia bastante afastada do tom de mascaramento, mas na mesma situao temporal que outra de menor frequncia j audvel.
6.5.Codificao em Sub-Bandas ( Sub-Band Coding ) A codificao em Sub-Bandas depende do efeito de mscara que falmos anteriormente. A ideia base do SBC (Sub-Band Coding) consiste em eliminar a informao que diz respeito s frequncias mascaradas. O resultado no o mesmo que o sinal original, mas se a computao for bem feita, o ouvido humano no perceber a diferena. A figura seguinte mostra a estrutura de um codificador SBC (Sub-Band Coding) figura (a) e um descodificador na figura (b).
33
O primeiro bloco de mapeamento tempo/frequncia (time-frequency mapping) (realizado atravs de um Banco de Filtros ou de uma FFT) serve para decompor o sinal de entrada em sub-bandas. O modelo psico-acstico analisa estas sub-bandas como se fosse o sinal original e determina os limiares de mascaramento (masking thresholds) usando a informao psico-acstica. Usando estes, cada uma das amostras das subbandas quantificada e codificada de forma a manter o rudo de quantificao abaixo do limiar de mascaramento. O ltimo bloco destina-se a agrupar todas estas amostras quantificadas em tramas, para que o descodificador possa reconstruir o sinal inicial sem se perder. O descodificador mais simples, uma vez que no preciso o modelo psico-acstico. As tramas so interpretadas, as amostras das sub-bandas so descodificadas, e o bloco do mapeamento tempo/frequncia transforma novamente estas amostras em sinal udio. 6.6.Mtodo de Compresso MPEG udio Depois de termos, no captulo anterior, definido alguns conceitos tericos utilizados no mtodo de compresso MPEG udio, e depois de apresentado o modelo em que este se baseia, vamos de seguida explicar como se desenvolve o algoritmo de compresso MPEG. O MPEG udio, no fundo, consiste num grupo de trs diferentes esquemas de codificao em sub-bandas (SBC), chamadas layerss. Cada layer um codificador SBC com os seus prprios componentes que o caracterizam como o bloco de mapeamento tempo/frequncia, o modelo psico-acstico e quantificador, como foi descrito no captulo anterior o codificador SBC. A Layer I a mais simples, mas aquela que mais pobre em termos de compresso. A Layer III a mais complicada e tambm a de maior exigncia em termos de computao, mas permite-nos obter a melhor compresso.
34
6.7.Descrio do algoritmo Antes de apresentarmos a funcionalidade de cada uma das layers vamos apresentar os vrios passos do algoritmo MPEG em termos gerais: Usar filtros de convoluo para dividir o sinal udio em bandas de frequncia que se aproximem das 32 bandas crticas (filtragem sub-banda) Determinar a quantidade de mascaramento de cada banda causada pelas bandas adjacentes, usando os resultados do modelo (modelo psico-acstico) Se o sinal numa banda inferior ao limiar de mascaramento no codificar. Caso contrrio, determinar o nmero de bits necessrios para representar o coeficiente, de tal modo que o rudo introduzido na quantificao esteja abaixo do efeito de mascaramento (cada bit de quantificao representa um aumento de 6dB no rudo). Formatar os bits A figura seguinte representa estes passos anteriores na forma de blocos.
Apresentamos de seguida um exemplo ilustrativo : Depois da anlise, os primeiros nveis de 16 das 32 bandas so hipoteticamente Banda Nvel (dB) 1 0 2 8 3 12 4 10 5 6 6 2 7 10 8 60 9 35 10 20 11 15 12 2 13 3 14 5 15 3 16 1
Como o nvel da oitava banda de 60dB, tal resulta num mascaramento de 12dB na stima banda, 15dB na nona. O nvel na stima banda e de 10dB ( <12dB ), ignora-la.
35
O nvel na nona banda e de 35dB ( >15dB ), teremos de a enviar, para tal recorreremos a 2bit ( =12dB ) de erro que quantificao. 6.7.1. MPEG Layers Neste ponto definimos cada uma das trs udio layers em pormenor: 6.7.2. MPEG-1 udio Layer I
Mapeamento tempo-frequncia um banco de filtros polifsicos com 32 sub-bandas. Os filtros polifsicos combinam a baixa complexidade computacional com o desenho e opes de implementao flexveis. No entanto as sub-bandas so igualmente espaadas em frequncia (ao contrrio das bandas criticas). O modelo psico-acstico usa uma FFT de 512 pontos de modo a obter uma informao espectral detalhada do sinal. A sada da FFT usada para determinar as mscaras tonais (sinusoidais) e mono tonais (rudo) do sinal. Cada mscara produz um limiar de mascaramento dependente da sua frequncia, intensidade e tonalidade. Para cada subbanda, os limiares de mascaramento so combinados de modo a formar um limiar global de mascaramento. Este limiar comparado com o nvel mximo de sinal para cada sub-banda, produzindo uma relao sinal/mscara (SMR) que a entrada do quantificador. O quantificador/codificador primeiro examina as amostras de cada sub-banda, procura o valor mximo absoluto destes e quantifica a 6 bit. Tal chamado de factor de escala para a sub-banda. Ento determina a alocao de bits para cada sub-banda de modo a minimizar a relao rudo/mascara, respeitando os bits alocados para cada sub-banda. ( possvel que em bandas muito mascaradas se acabe em 0 bit, de modo que nenhumas amostras so codificadas). Finalmente, as amostras da sub-banda so linearmente quantificadas para a alocao da sub-banda. O empacotador da trama tem um trabalho relativamente simples. Cada trama comea com uma informao de cabealho usadas para sincronizao e contabilizao, e um cdigo cclico (CRC) usado para deteco e correco de erros. Cada uma das 32 subbandas usa 4 bit para descrever a alocao de bits e 6 bits para o factor de escala. Os bits restantes da trama so usados para amostras da sub-banda, com uma cauda adicional de informao extra. A figura seguinte ilustra a estrutura da trama.
36
A Layer I processa o sinal de entrada em tramas de 384 amostras PCM. A 48 KHz, cada trama representa 8 ms de som. A especificao MPEG no especifica o dbito binrio codificado, permitindo flexibilidade na implementao. A qualidade mais alta conseguida com um dbito binrio de 384 Kbps. As aplicaes tpicas da Layer I incluem a gravao digital de fitas (Ex. Philips DCC) e de discos rgidos ou magnetoopticos (Sony MiniDisk) que podem suportar este dbito binrio to alto. O dbito binrio pode variar entre 32 Kbps e 448 Kbps.
6.7.3. MPEG-1 udio Layer II Mapeamento tempo-frequncia igual ao da Layer I. Usa um banco de filtros polifsicos com 32 sub-bandas. O modelo psico-acstico similar ao usado na Layer I mas usa uma FFT de 1024 pontos para uma maior resoluo de frequncia. Usa o mesmo procedimento que a Layer I para produzir as relaes sinal/mascara para cada uma das 32 sub-bandas. O quantificador/codificador tambm similar ao usado na Layer I, gerando os factores de escala de 6 bit para cada sub-banda. No entanto as tramas Layer II so trs vezes mais longas que as tramas Layer I, assim, a Layer II permite a cada banda uma sequncia de trs factores de escala sucessivos, e o codificador usa um dois ou trs, dependendo do quanto eles diferem uns dos outros. Isto resulta em mdia num factor de 2 na reduo do dbito binrio para os factores de escala quando comparados com os da Layer I. As alocaes dos bits so calculadas de uma maneira similar a da Layer I. O empacotador da trama usa uma estrutura de cabealho e CRC similar a da Layer I. O nmero de bits usados para descrever as alocaes de bits varia com a sub-banda; 4 bits para as bandas baixas, 3 bits para as bandas intermdias e 2 bits para as bandas altas (seguindo as bandas crticas). Os factores de escala (um, dois ou trs dependendo dos dados) so codificados em conjunto com um cdigo de 2 bits que descreve que combinao de factores de escala se trata. As amostras da sub-banda so quantificadas de acordo com a alocao de bits, sendo ento combinadas em grupos de trs (chamados grnulos). Cada grnulo codificado com uma palavra de cdigo. Isto permite que a Layer II capture muito mais redundncia do sinal que a Layer I. A figura seguinte descreve a estrutura da trama.
37
A Layer II processa o sinal de entrada em tramas de 1152 amostras PCM. A 48 KHz, cada trama contm 24 ms de som. A mais alta qualidade obtida com um dbito binrio de 256 Kbps, mas a qualidade usualmente boa at aos 64 Kbps. Aplicaes tpicas da Layer II incluem radiodifuso (Digital udio Broadcasting - DAB), televiso, gravao domstica e profissional e multimdia. O dbito binrio pode variar entre 32 Kbps e 384 Kbps.
6.7.4. MPEG-1 udio Layer III Mapeamento tempo-frequncia usa bancos de filtros polifsicos para a diviso nas 32 sub-bandas principais, seguida de uma filtragem usando MDCT para subdiviso em 18 sub-bandas (por cada uma das 32 sub-bandas principais), resultando em 576 subbandas, originando um clculo mais preciso dos limiares de mascaramento. O modelo psico-acstico com predio polinomial. O quantificador/codificador sofisticado permitindo tramas de formato varivel, a reduo de redundncia e acompanhada por um processo de codificao de Huffman de modo a tirar partido das propriedades estatsticas do sinal de sada do estgio psicoacstico. O empacotador da trama inclui uma reserva de bits que permite que mais bits sejam usados em pores do sinal que deles necessitem, tornando-se assim num formato (Variable Bit Rate - VBR). A Layer III tem como alvo aplicaes onde uma necessidade critica de baixos dbitos binrios justifique o sofisticado sistema de codificao, exigente de grande poder computacional. Permite resultados de alta qualidade a dbitos binrios to baixos como 64 Kbps por canal. Aplicaes tpicas desta tecnologia so telecomunicaes (dois canais RDIS (cada canal B = 64 Kbps) podem transportar udio em tempo real com qualidade bastante aproximada a de um CD udio) e udio profissional como msica publicada comercialmente. O dbito binrio pode variar entre 32 Kbps e 320 Kbps. O codificador stereo Layer III que fornece a qualidade de referncia ISO em tempo real actualmente implementado fazendo recurso a um par de DSP32C e um par de DSP56002.
38
6.7.5 Efectividade do MPEG udio Laye Dbito Relao de Qualidad Qualidad r Binri Compress e a 64 e a 128 o o Kbit Kbit Final Laye rI Laye r II Laye r III 128 Kbit 128 Kbit 64 Kbit 4:1 6:1 12:1 2.1 a 2.6 3.6 a 3.8 4+ 4+ Atraso Complexidad Complexidad mnim e do e do o Codificador decodificado terico r 19 ms 35 ms 59 ms 1.5 a 3 2a4 > 7.5 1.0 1.25 2.5
5 = perfeito, 4 = mal se nota, 3 = bastante suportvel, 2 = pouco suportvel, 1 = insuportvel O atraso verificado na prtica e cerca de 3 vezes superior ao terico. A complexidade do descodificador da Layer I e tomado como referncia 1.0
39
7. Padres de compresso 7.1.Padro MPEG-1 O primeiro padro desenvolvido pelo grupo MPEG, apelidado MPEG-1, para codificao de imagens em movimento, foi projetado para comprimir fluxos (streams) de imagens, com resoluo de 352x288 (25 Hz) ou 352x240 (30 Hz), a uma taxa total de, aproximadamente, 1.5 Mbits/s de dados comprimidos, mesma taxa mxima de transferncia de um CD de udio comum. Isto faz com que MPEG-1 seja ideal para gravao de CDs com vdeo e udio, que podem ser transmitidos com a mesma taxa de dados. O algoritmo de compresso do MPEG-1 utiliza as seguintes tcnicas: Reduo da resoluo espacial e sub-amostragem de crominncia; Compensao de movimento - utiliza predio baseada no passado, ou baseada no passado e futuro; Erros de predio so transformados em DCT (Discrete Cosine Transformation), sendo removida a redundncia espacial; A DCT aplicada em blocos de 8 x 8 pixels; Os vetores de movimento so combinados com a informao residual DCT. MPEG-1 foi um padro muito inovador. Pela primeira vez um nico padro audiovisual foi produzido e todas as precaues foram tomadas para que as peas do padro se encaixassem. O sucesso causado pelo padro fez com que vrias empresas que, at ento, possuam departamentos de udio e vdeo independentes se reorganizassem. Alm disso, o padro foi o primeiro em outras coisas: Primeiro padro para processamento de sinais desenvolvido usando cdigo em de linguagem de programao em C; Primeiro cdigo de vdeo independente do formato do vdeo; Primeiro padro a incluir implementao em software.
MPEG-1 um padro que fornece uma apresentao normalizada, o que permite aos que desenvolvem realizar o tradicional paradigma dos sistemas de comunicao. Isto pode ser visto na Figura 8. A informao audiovisual pode ser gerada em tempo real de um acontecimento natural ou vir de um servidor. Nos dois casos, um fluxo de bits multiplexado chega ao decodificador por meio de distribuio (uma rede de comunicao, um canal de transmisso, etc.). No caso de um disco local, a parte de
40
distribuio do modelo desaparece, mas o restante continua vlido. Os fluxos de udio e vdeo codificados, forados a ter uma base de tempo comum e combinados em um mesmo fluxo pela camada de sistema do MPEG, so extrados e manipulados pelos decodificadores de udio e vdeo apropriados que produzem seqncias de amostras PCM representando informao de som e imagem.
Figura 16: Modelo de Referncia do Padro MPEG-1 7.1.1. MPEG1 udio O MPEG1 providencia o esquema de compresso para fontes de udio estreo e mono com qualidade semelhante a CD udio. A parte do algoritmo correspondente ao udio dividida em trs camadas: 1. MPEG1 udio Camada 1, que oferece menor taxa de compresso, e usado em sistemas de udio de consumo. A sua vantagem menor custo de implementao; 2. MPEG1 udio Camada 2, que oferece maior taxa de compresso. encontrado em aplicaes profissionais ou em aplicaes de consumo mais sofisticado; e 3. MPEG1 udio Camada 3, que oferece maior taxa de compresso e encontrado em Rede Digital de Servios Integrados (RDSI).O seu custo maior e apresenta maior complexidade de codificao e decodificao.
41
A idia principal que uma aplicao do MPEG1 viabiliza usar a camada que oferece o melhor compromisso entre a necessidade de computao e o desempenho de compresso. O udio pode ser codificado em qualquer uma das camadas. O MPEG1 udio destina-se a transformar sinais de udio amostrados a taxas de 32KHz, 44,1KHz ou 48KHz e codific-los para uma taxa de 32Kbps a 192Kbps.
7.1.2. MPEG-1 Sistemas Enquanto MPEG-1 Vdeo e MPEG-1 udio especificam representao para udios e vdeos, o MPEG-1 Sistemas define uma estrutura multiplexada para combinar fluxos elementares, incluindo udio, vdeo, e outros fluxos de dados. Estes fluxos, chamados de fluxos MPEG, podem multiplexar at 32 fluxos de udio MPEG, 16 fluxos de vdeo MPEG e 2 fluxos de dados de diferentes tipos. MPEG Sistemas tambm especifica o modo de representar as informaes temporais necessrias para reproduo de seqncias sincronizadas em tempo real. A especificao da codificao MPEG Sistemas fornece campos de dados para suportar as seguintes funes: sincronizao de fluxos elementares; gerenciamento de buffer nos decodificadores; acesso aleatrio; identificao do tempo absoluto do programa codificado 7.2.Padro MPEG-2 A Figura 9 mostra o modelo de referncia para o padro MPEG-2. As funes do decodificador MPEG-2 so semelhantes ao do MPEG-1, mas um importante componente tecnolgico o suporte interao cliente-servidor por meios de um protocolo padro de comunicao.
Figura 17: Modelo de Referncia do Padro MPEG-2

42
MPEG-2 surgiu da necessidade de transmisso em redes com qualidade, o que requeria a definio de um padro para imagens maiores (full size) com resoluo de 704x480 a 29.97 Hz, e 704x576 a 25 Hz. O MPEG 2 pode dividir-se em 10 partes: Part 1 : MPEG Systems sincronizao e multiplexao de vdeo e udio Part 2 : MPEG Video codec de compresso para sinais de vdeo entrelaados e no entrelaados Part 3 : MPEG Audio - codec de compresso para codificao perceptual de sinais de udio. Extenso multicanal do MPEG-1 Audio (MP3). Part 4 : descreve procedimentos de testes de conformidade Part 5: descreve sistemas para simulao de software Part 6 : descreve extenses para o DSM-CC (Digital Storage Media Command and Control) Part 7 : Advanced Audio Coding (AAC) Part 9 : Extenso para interfaces tempo-real Part 10 : Extenses de Conformidade para DSM-CC.
O padro MPEG-2 usado pelos padres de broadcast para TV-Digital ATSC e DVB e tambm o padro utilizado pelo sistema de compresso de DVD. MPEG-2 utilizado por muitas aplicaes devido sua capacidade de transportar streams, inclusive para o transporte de dados MPEG-4 e MPEG-7. A taxa de transmisso de MPEG-2 pode variar de 4 Mbits/s a 300 Mbits/s. 7.2.1. MPEG2 Vdeo O primeiro passo do processo fazer a amostragem e a digitalizao dos sinais de vdeo. A digitalizao dos sinais Y, P, B, PR de TV analgica tradicional com formato 4:2:2 ocorreu para a taxa de bits de 270 Mbps. J a digitalizao dos sinais Y, PB, PR de HDTV com formato 22:11:11 pode levar a uma taxa de bits de 1.485Gbps. O processo convencionado de forma que, se houver um erro na transmisso do quadro N, por exemplo, o quadro N + 1 no poder ser formado corretamente. So enviados alguns quadros com informao completa dentro da seqncia de quadros, durante a transmisso, para minimizar esse problema, essa seqncia denominada Group of Pictures (GOP).
43
A semelhana entre as imagens subsequentes a base da compensao de movimentos e permite a transmisso apenas das diferenas . O caminho de realimentao do codificador contm um decodificador funcional que ir subtrair exatamente o sinal que um codificador ter disposio para somar ao sinal recebido, para garantir que esse processo no gere perdas. Alm de introduzir o conceito de estimao de movimentos, o MPEG2 introduz um mtodo para regular a taxa de transmisso atravs do controle do processo de quantificao. Um buffer na sada do codificador permite uma taxa de transmisso. Para o Sistema de TV Digital constante, no caso do buffer se encontrar prximo de exceder sua capacidade de armazenamento, ele ordena que o processo de quantizao diminua a resoluo do vdeo, diminuindo assim o total de dados gerados. Com base nesse conceito fsico de que as altas freqncias podem ser eliminadas sem causar degradaes perceptveis na imagem, a idia do MPEG2 converter a amplitude espacial da imagem em freqncia espacial atravs da DCT (transformada discreta de cosseno).
Figura 18: Amostragem e digitalizao de vdeo
44
7.2.2. MPEG2 udio
O MPEG2 udio foi desenvolvido com base no MPEG1, fazendo com que os benefcios deste proporcionassem maior qualidade e maior eficincia, propiciando um padro de qualidade para satisfazer os requisitos necessrios para as redes digitais. Alm dos canais mono e estreo que o MPEG1 suporta, foi adicionado suporte para mltiplos canais. Assim, o MPEG2 tem a possibilidade de suportar at cinco canais de som (esquerdo, direito, centro e dois canais de surround e mais um canal de graves), ou, em extenso, sete canais mais um canal de graves. Isso possibilita ter em casa o som com o mesmo desempenho de algumas salas de cinema, permitindo a reproduo de som estereofnico mais realista. O MPEG2 possui outras funes, como a caracterstica multilnge, que permite, por exemplo, que um filme possa ser ouvido em diferentes linguagens, de acordo com a escolha do telespectador.
7.2.2.1.MPEG2 udio Camada 1 O mapeamento tempo-freqncia constitudo por um banco de filtros polifsicos com 32 sub-bandas, os quais tm a caracterstica de combinar a baixa complexidade computacional com opes de implementao flexveis. Neste caso, o modelo psicoacstico utiliza a transformada de Fourier que determina as mscaras as quais produz um limiar de mascaramento que feito para cada sub banda e, combinando-se eles, tem-se o limiar global. Este, comparado com o sinal de cada sub banda, produz a relao sinal mscara (SMR). Este sinal entra no quantizador que examina as amostras e procura o valor mximo absoluto. Assim, estas amostras so linearmente quantizadas, simplificando o trabalho do empacotador. Cada trama comea com uma informao de cabealho que ser usada para sincronizao e contabilizao e um cdigo cclico (CRC), usado para deteco e correo de erros. Cada uma das 32 sub-bandas usa 4 bits para alocao de bits e 6 bits para fator de escala. Os bits restantes da trama so usados para amostras da sub-banda, com uma cauda adicional para informao extra.
45
7.2.2.2.MPEG2 udio Camada 2 O mapeamento tempo-freqncia igual ao da Camada 1. A diferena que a transformada rpida de fourier de 2.014 pontos em 32 sub bandas. No caso do quantificador, ele semelhante ao anterior, porm as tramas so trs vezes mais longas resultando em um fator de dois na reduo do dbito binrio para os fatores de escala. O empacotador da trama usa uma estrutura de cabealho e cdigo cclico (CRC) similar ao da Camada 1. O nmero de bits usados para descrever as alocaes de bits varia com a subbanda: 4 para as sub-bandas baixas 3 para as sub-bandas intermedirias 2 para as sub-bandas altas
Os fatores de escala (um, dois ou trs, dependendo dos dados) so codificados em conjunto com um cdigo de 2 bits que descreve qual combinao de fatores de escala se trata. As amostras da sub-banda so quantificadas de acordo com a relao de bits, sendo ento combinadas em grupos de trs denominados grnulos. Cada grnulo codificado com uma palavra de cdigo. Isso permite que a Camada 2 capture muito mais redundncia do sinal que a Camada 1.
7.3.Padro MPEG-4 O MPEG-4 um padro criado para suprir as necessidades da internet, pois tramite vdeo com uma qualidade superior, comparada ao MPEG-1, com uma taxa de bits muito menor. Para formar quadro de vdeo, o MPEG-4 suporta uma variedade de elementos transmitidos separadamente e combinados. Ou seja, o MPEG-4 permite a manipulao de objetos dentro do fluxo do vdeo. Inicialmente, a finalidade do MPEG-4 era a codificao de vdeo e udio em baixas taxas, sendo o padro otimizado em trs taxas:
46
Abaixo de 64 Kbits/s; De 64 a 384 Kbits/s; 384 Kbits/s a 4 Mbits/s.
O MPEG-4 mostrou-se ideal para utilizao em dispositivos mveis devido s baixas taxas, no entanto, taxas de at 38.4 Mbits/s so utilizadas com este padro. O que difere o sistema MPEG-4 do MPEG-2 o conceito dos seus sistemas de transmisso. Isso propicia que o envio de partes diferentes de uma cena, como vdeo e udio, por exemplo, sejam enviados separadamente e reagrupados por um decodificador. Assim, cada objeto pode ser codificado da melhor maneira possvel. A Figura 13 mostra uma generalizao do sistema para codificao de objetos.
Figura 19: Generalizao do sistema de codificao de objetos do MPEG-4 Esta diviso em objetos faz com que MPEG-4 seja bastante til para projetistas de jogos. Futuras extenses de MPEG-4 podem prover nveis de qualidade para cinema digital.
7.4.Padro MPEG-7
O MPEG-7 um padro para descrio de objetos multimdia. Ele no relacionado compresso de vdeo, uma maneira de descrever elementos em um fluxo multimdia de modo que possa ser acessado via banco de dados. O problema da definio de MPEG-7 vem da dificuldade de se catalogar e indexar dados e informaes (Informao armazenada til somente se sua existncia
47
conhecida, e se ela pode ser recuperada em tempo hbil quando necessrio), principalmente no contexto do mundo atual, em que informao gerada a todo instante. Com MPEG-7 podem-se descrever praticamente tudo devido a sua estrutura de descritores e esquema de descritores. 7.5.Padro MPEG-21 A grande quantidade de informao aliada aos mtodos de indexao e consulta do MPEG-7 demandam sistemas que controlem o acesso, privacidade e transaes comerciais que envolvam essas informaes. Com este pensamento em mente, surgiu a idia do MPEG-21. MPEG-21 ainda no est completamente especificado, porm est baseado nas seguintes premissas, como descreve sua verso preliminar: Deve-se fornecer um esquema aberto e extensvel capaz de descrever qualquer tipo de mdia (vdeo, udio, texto, etc.); MPEG-21 deve codificar os contedos das informaes e prover mecanismos para sincronizar todos os elementos destes contedos; Promoo de um ambiente para identificao e descrio de itens digitais (promovendo uma ligao entre todos os elementos); Definio de interfaces e protocolos para o armazenamento e gerenciamento dos itens digitais a fim de promover mecanismos para catalogar e arquivar o contedo de forma a preservar os direitos autorais; Preocupao com o gerenciamento e proteo da propriedade intelectual; Transmisso de itens por meio de vrios tipos de redes e apresentao do contedo em uma grande quantidade de terminais; Mtricas e interfaces para execuo de todos os eventos que devam retornar algo.
48
8. Concluso
Com a crescente demanda do mercado de armazenar e processar vdeos, udio e combinao destes, ficou evidente a necessidade de padronizao desta
compresso/descompresso, por isso foi criado o grupo MPEG. A primeira verso (MPEG-1) foi um padro muito inovador e atendeu s necessidades de compresso, a uma taxa de 1,5Mb/s, com resoluo de 352x288 ou 352 x 240, porm teve limitaes em imagens progressivas, ou seja, no pode ser usado em aplicaes de vdeo entrelaado, como em transmisso de televiso, era necessrio a criao de um novo padro. Assim surgiu o MPEG-2, cujas funes so semelhantes ao do MPEG-1, porm com um suporte interao cliente-servidor, com definio de um padro para imagens maiores. O padro MPEG-4 foi desenvolvido com o objetivo de aplicaes baseadas na comunicao multimdia, um padro que melhor se adapta a Internet, pois tem qualidade superior ao MPEG-1, porm com taxa de bits muito menor, e permite a manipulao de objetos dentro do fluxo do vdeo. Em relao ao MPEG-2, o MPEG-4 tem o diferencial de propiciar o envio de partes diferentes de uma cena, ou seja, utiliza o conceito de objetos em seu sistema de transmisso. J o MPEG-7, que no exatamente um formato de codificao de vdeo, uma maneira de descrever elementos em um fluxo multimdia de modo que possa ser acessado via banco de dados. D esta forma, este padro descreve como os recursos de mdia devem ser representados. O MPEG-21 um padro que define uma infraestrutura para distribuio e consumo de dados multimdia. A criao de todos estes padres contribuiu para a consolidao do vdeo digital, porm pode-se perceber que ainda h muito a ser feito nessa rea, cuja evoluo constante.
49
9. Referncias Bibliograficas
[01] [02]
http://www.videam.com.br/pt-br/tecnologia/tecnologia.html, http://www.mackenzie.br/editoramackenzie/revistas/engenharia/06_eng_
comp_processo_compress.pdf, [03] [04] http://homepages.dcc.ufmg.br/~gpereira/mpeg/mpeg.html, http://www.img.lx.it.pt/~fp/cav/ano2005_2006/Trabalho_2/3compressao
devideodigital.htm, [05] [06] [07] [08] [09] [10] [11] [12] http://www.cin.ufpe.br/~tg/2004-2/els2.pdf, http://www.am.hhi.de/mpeg-video/papers/sikora/mpeg1_2/mpeg1_2.htm, MPEG - Moving Picture Experts Group.'' http://www.mpeg.org, http://www.apple.com/br/quicktime/technologies/mpeg4, http://penta3.ufrgs.br/videoconferencia/manual/mpeg.htm, http://pt.wikipedia.org/wiki/MPEG, http://www.gta.ufrj.br/grad/anteriores98/mpeg-anapaula/mpeg.htm, http://www.scribd.com/doc/454950/redes-de-computadores-4-edicao-
tanembaum, [13] [14] [15] [16] http://www.lsi.usp.br/~rcluiz/MPEG2_SVR2004.pdf, http://www.manlec.com.br/DICAS/materias_especiais_mpeg.php, http://www.infonet.com.br/users/jfonseca/SEMPERDAS.HTM, http://www.larc.usp.br/~cbmargi/pdf/ssi2000-cbm.pdf,
50

Padrões MPEG. Projecto 1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Padrões MPEG. Projecto 1

Enviado por

Direitos autorais:

Formatos disponíveis

1

2.Como via cabo

A tabela abaixo mostra vrias opes de tela

5. Como funciona o mpeg (video)

Figura 5: Compensao de movimento

Alm desse processo, h outros dois para a explorao da redundncia em imagens:

Figura 7: transformada DCT

A transformao da matriz X para a matriz Y feita utilizando a seguinte equao matemtica:

onde N=8 e k,l = 0,1,..., N-1

2i 1 k 2j 1 l cos 2N 2N onde i , j= 0,1 ,... , N 1 c a = 1, a= 0 2, a 0

C(u,v) QF)/ 2QF onde:

A(u,v) = ((F(u,v) * 16) Q(u,v)/2) / Q(u,v)

Figura 8: varredura zig-zag

Figura 11: combinao: predio, DCT, RLE/VLC

Figura 12: Movimento compensado com predio e reconstruo

B co co lo s rresp n en o d tes s freq n cias m b as ais aix

Freq cias altas n n d a ireo h rizo tal o n

Freq cias altas n n d a ireo v ertical

Freq cias altas n

Figura 15: decodificao de macro bloco

Confirma-se assim que o ouvido humano mais sensvel entre os 2 e os 4KHz.

Para frequncias>500Hz temos:

Figura 17: Modelo de Referncia do Padro MPEG-2

Figura 18: Amostragem e digitalizao de vdeo

7.2.2. MPEG2 udio

Abaixo de 64 Kbits/s; De 64 a 384 Kbits/s; 384 Kbits/s a 4 Mbits/s.

comp_processo_compress.pdf, [03] [04] http://homepages.dcc.ufmg.br/~gpereira/mpeg/mpeg.html, http://www.img.lx.it.pt/~fp/cav/ano2005_2006/Trabalho_2/3compressao

tanembaum, [13] [14] [15] [16] http://www.lsi.usp.br/~rcluiz/MPEG2_SVR2004.pdf, http://www.manlec.com.br/DICAS/materias_especiais_mpeg.php, http://www.infonet.com.br/users/jfonseca/SEMPERDAS.HTM, http://www.larc.usp.br/~cbmargi/pdf/ssi2000-cbm.pdf,

Você também pode gostar