Escolar Documentos
Profissional Documentos
Cultura Documentos
Pelotas
2019
UNIVERSIDADE CATÓLICA DE PELOTAS
CENTRO DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS
MESTRADO EM ENGENHARIA ELETRÔNICA E COMPUTAÇÃO
Pelotas
2019
Dados&Internacionais&de&Catalogação&na&Publicação&(CIP)
70 f.
Dissertação (mestrado) – Universidade Católica de Pelotas, Programa de
Pós-Graduação em Engenharia Eletrônica e Computação, Pelotas, BR-RS,
2019. Orientador: Eduardo Antônio César da Costa.
CDD 620
Ficha catalográfica elaborada pela bibliotecária Cristiane de Freitas Chim CRB 10/1233
1
2
AGRADECIMENTOS
RESUMO
O presente trabalho apresenta soluções de hardware eficientes em energia
para a Transformada Discreta do Cosseno – DCT (Discrete Cosine Transform) para o
padrão H.265/HEVC. Uma das ferramentas mais utilizadas na melhoria da eficiência
de compressão em codificadores de vídeo é a DCT, sendo necessário um grande
esforço computacional para a sua aplicação em circuitos digitais. Os estágios da
transformada e quantização representam boa parte do tempo total de codificação do
padrão de codificação de vídeo, o que os colocam entre as operações mais demoradas
do padrão H.265/HEVC. Portanto, o projeto de arquiteturas de hardware dedicadas
de baixa potência para a DCT é vital para um alto desempenho e baixa potência para
o padrão de codificação de vídeo. Nesta dissertação, utilizam-se técnicas de redução
de dissipação de potência para o projeto de uma DCT eficiente em energia.
Inicialmente, utilizam-se somadores compressores 4-2 para o projeto de uma
arquitetura DCT de 8 pontos de baixa dissipação de potência. Após, implementa-se
uma multi-transformada com tamanhos 4x4, 8x8, 16x16 e 32x32. Para cada uma
dessas transformadas, usa-se a técnica MCM (Multiple Constant Multiplication) para
a redução da árvore de somas e deslocamentos da DCT. Para tal, utilizam-se
algoritmos da literatura para o projeto de estágios MCM eficientes. Também,
propõe-se uma estratégia MCM que se mostrou mais eficiente em termos de redução
de dissipação de potência para a DCT 32x32. Além disso, foram utilizados
somadores compressores 4-2, 8-2 e 16-2 para o projeto ainda mais eficiente em
redução de potência da multi-transformada. O uso dos somadores compressores,
juntamente com as técnicas clock-gating e data-gating propiciaram o projeto e a
implementação de uma DCT eficiente energeticamente, com reduções significativas
em dissipação de potência. Para as sínteses realizadas foram utilizadas entradas reais
de vídeo a partir do fluxo da ferramenta comercial da Cadence. Observou-se que os
trabalhos da literatura que propõem soluções para a DCT em síntese lógica, não
levam em consideração o fluxo de uma ferramenta comercial com entradas reais para
a avaliação de potência. Nesta dissertação, as sínteses realizadas levam em
consideração a análise de throughput realista para a avaliação da frequência de
operação, que leva à operação da multi-transformada em tempo real.
Palavras-chaves: Transformada Discreta do Cosseno, Padrões de
Codificação de Vídeo, Somadores Compressores, Clock-Gating, Data-Gating.
4
ABSTRACT
This work presents energy-efficient hardware solutions for the Discrete
Cosine Transform (DCT) for the H.265/HEVC standard. One of most used tools in
improving the compression efficiency in video encoders is the DCT, requiring a
tremendous computational effort for its application in digital circuits. The
transformation and quantization stages represent a considerable portion of the total
encoding time of the video coding standard, placing them among the most
time-consuming operations of the H.265/HEVC standard. Therefore, the design of
dedicated low-power hardware architectures for DCT is vital for high performance
and low-power for the video coding standard. In this dissertation, power dissipation
reduction techniques for the design of an energy-efficient DCT are employed.
Initially, we use 4-2 compressor adders for the design of an 8-point DCT architecture
with low-power dissipation. Then, there is the implementation of a multi-transform
with sizes 4x4, 8x8, 16x16 and 32x32. For each one of these transformations, MCM
(Multiple Constant Multiplication) techniques are used to reduce the tree of sums and
DCT displacements. For this task, we use algorithms of the literature for the design
of efficient MCM stages. In this work, we propose an MCM strategy that proved to
be more efficient regarding power dissipation reduction for 32x32 DCT. Besides, we
use 4-2, 8-2 and 16-2 compressor adders for the even more efficient multi-transform
power reduction design. The use of the addition of compressors along with
clock-gating and data-gating techniques led to the design and implementation of an
energy-efficient multi-transform, with significant power dissipation reduction. For
the synthesis performed, we used real video inputs in the Cadence commercial tool
flow. We noted that the works of the literature that propose solutions for the DCT in
logical synthesis do not take into account the flow of a commercial tool with real
inputs for the power evaluation. In this dissertation, the synthesis also take into
account the analysis of realistic throughput evaluating the needed operation
frequency for the multi-transform operation in real-time.
LISTA DE FIGURAS
LISTA DE TABELAS
CD Compact Disk
CU Coding Unit
DM Direct Mode
HD High Definition
LM Linear Mode
ME Motion Estimation
PU Partition Unit
QP Quantization Parameter
SD Standard Definition
TB Transposition Buffer
TU Transform Unit
SUMÁRIO
1 INTRODUÇÃO ................................................................................................... 10
1.1 Objetivos............................................................................................................. 12
1.2 Justificativa........................................................................................................ 13
1.3 Contribuições da Dissertação.............................................................................. 14
1.4 Organização da Dissertação……….................................................................... 15
2 CODIFICADOR DE VÍDEO DIGITAL………................................................ 16
2.1 Redundâncias……………...................................................................................17
2.2 Etapas da Codificação de Vídeo .........................................................................19
2.3 Resumo do Capítulo............................................................................................ 22
3 VISÃO GERAL DO PADRÃO DE CODIFICAÇÃO H.265/HEVC.……......23
3.1 Padrão de Codificação de Vídeo H.265/HEVC ................................................. 23
3.2 A Transformada Discreta do Cosseno (DCT) .................................................... 28
3.3 Resumo do Capítulo............................................................................................ 30
4 METODOLOGIAS DE AVALIAÇÃO E TÉCNICAS DE REDUÇÃO DE
POTÊNCIA PARA A DCT................................................................................... 31
4.1 Metodologia de avaliação de Potência Considerando Entradas Reais……........ 31
4.1.1 Fontes de Dissipação de Potência em Circuitos CMOS...................................31
4.1.2 Metodologia de Síntese ASIC para a Obtenção de Resultados de Potência... 32
4.2 Técnicas de Redução de Potência Usadas na DCT ............................................ 34
4.2.1 Somadores Compressores…............................................................................ 34
4.2.2 Estratégia de Data-gating................................................................................. 39
4.2.2 Estratégia de Clock-gating............................................................................... 40
4.3 Trabalhos Relacionados da Literatura................................................................. 42
4.4 Resumo do Capítulo............................................................................................ 46
5 ARQUITETURA DE BAIXA DISSIPAÇÃO DE POTÊNCIA PARA A
DCT 2-D DO PADRÃO H.265/HEVC COMBINANDO SOMADORES
COMPRESSORES COM DATA-GATING E CLOCK-GATING................... 47
5.1 Experimento da Transformada DCT de 8 Pontos Utilizando Somadores
Compressores............................................................................................................ 47
5.2 Multi-Transformada DCT para o H.265/HEVC Combinando Data-Gating,
Somadores Compressores e Clock-Gating ……....................................................... 49
5.3 Resumo do Capítulo……………….................................................................... 59
6 CONCLUSÕES E TRABALHOS FUTUROS ................................................. 60
6.1 Trabalhos Futuros…………………………………………………………….... 61
6.2 Publicação no Tema da Dissertação………………………………………….... 62
REFERÊNCIAS...................................................................................................... 63
.
10
1. INTRODUÇÃO
1
Um vídeo, de uma forma simples, é uma sequência de imagens estáticas (DIAS, 2006).
11
1.1 Objetivos
1.2 Justificativa
Nas últimas décadas foi possível perceber um avanço das tecnologias digitais.
Cada vez mais, dispositivos móveis, como computadores, notebooks e tablets, se
tornam essenciais nas atividades cotidianas das pessoas. Com isso, canais de
comunicação precisam constantemente ter suas capacidades de transmissão
aumentadas. Além disso, os dispositivos móveis são cada vez mais utilizados para a
transmissão de vídeos em tempo real, o que por sua vez cria novos desafios para a
indústria de telecomunicações. Porém, estes dispositivos apresentam algumas
limitações como o limite de frequência de transmissão que as operadoras fornecem,
limitação na capacidade de processamento e a restrição energética devido ao recurso
finito de energia (FONSECA, 2008). Com isso, são buscadas técnicas mais
avançadas de codificação de sinais, capazes de transmitir vídeos em tempo real com
a maior resolução possível, utilizando a menor largura de banda pela maior
quantidade de tempo. Consequentemente, surgem novos estudos relacionados a
melhorias nos módulos de processamento dos codificadores de vídeo, a fim de
resultar em ganhos em eficiência energética e capacidade de processamento. Desse
modo, a busca pelo aperfeiçoamento de codificadores/decodificadores de vídeo é
uma atividade fundamental para as atuais demandas do mercado.
14
de vídeo para uma estimativa realista da potência dissipada pela transformada. Desta
forma, as principais contribuições desta dissertação dizem respeito a:
● Um novo projeto de hardware VLSI para a transformada DCT do padrão de
vídeo H.265/HEVC DCT, empregando eficientes somadores compressores de
última geração, que avaliam os resultados da síntese com uma metodologia
precisa de extração de energia usando vetores de entrada reais;
● Um esquema que combina o uso de clock gating no buffer de transposição e
data gating na parte operativa do hardware, sendo ambas as estratégias
habilitadas ao processar os casos de tamanhos menores da multi-transformada
2-D;
● Uma análise de throughput realista usando um conjunto de experimentos no
software do codificador de vídeo x265 H.265/HEVC em tempo real,
considerando todas as latências das múltiplas transformadas.
2.1 Redundâncias
Por meio da ampliação, pode-se distinguir cada uma das amostras da matriz
original (as amostras são de 8 bits) e da matriz transformada (amostras de 16 bits),
onde apenas os 8 bits mais significativos foram convertidos para informação de
intensidade do resultado. Assim, o principal benefício da transformada é a
exploração da redundância psicovisual através da inserção de perdas controladas. Da
22
mesma forma que o olho humano possui menor acuidade para cores, também é
sabido que o olho humano é menos sensível a altas frequências (RICHARDSON,
2003). As amostras originais são quantizadas através da multiplicação ou divisão por
uma matriz de quantização (na verdade requantização, uma vez que a informação
digital é discreta e quantizada) e, com isso, inserir perdas. Para explorar as limitações
do sistema visual humano, os coeficientes da matriz de quantização são escolhidos de
forma a reduzirem mais intensamente a faixa dinâmica dos valores transformados de
alta frequência do que dos de baixa frequência. Para aplicações típicas, como o DVD
(Digital Video Disc), por exemplo, os valores do canto inferior direito da matriz
resultante terão grande probabilidade de terem valor zero (ROSA, 2010), tendo-se
assim uma oportunidade da exploração de técnicas que possam identificar e reduzir a
complexidade dos cálculos.
Units (CTU), cujo tamanho neste padrão pode ser de 64x64 até uma dimensão menor
de 4x4, que ao serem maiores, contribuem para a redução do tempo de codificação,
aumentando a eficiência. As CTUs, quando divididas, chamam-se Unidade de
Codificação (CU), cada CU possui uma unidade de predição (PU) e uma unidade de
transformada (TU) , onde o seu formato é sempre quadrado, podendo assumir um
tamanho de 4x4, 8x8, 16x16 e 32x32 amostras. A CU pode ser dividido em TUs,
podendo atingir quatro tamanhos dependentes da matriz da Transformada Discreta de
Fourier (DFT), ou em CU, que armazena dados de predição, podendo ter diferentes
tamanhos (COSTA e ALMEIDA, 2015)..
A Figura 3 mostra a estrutura geral do padrão de codificação de vídeo
H.265/HEVC, com os seus blocos constituintes.
Por este motivo, ela pode ser tão pequena quanto 4:4 ou tão grande como 32:32 das
amostras de luma de uma imagem. Além disso, uma ou mais TUs podem estar
contidas em cada CU e cada quadrado de uma CU pode se dividir em TUs menores,
conforme é possível observar na Figura 5 a seguir, como exemplo.
(1)
Uma vez que o cosseno é uma função par, apresenta uma simetria em relação
ao eixo Y, evidente pelos coeficientes da transformada.
Para N = 8, a matriz da transformada é dada de acordo com (2).
(2)
Onde,
29
(3)
(4)
(5)
30
(6)
(7)
Este capítulo apresentou uma visão geral dos padrões de codificação de vídeo
atuais. foram mostradas as principais características dos padrões de codificação de
vídeo alvos deste trabalho: H.265/HEVC. Além das principais características,
também foram mostradas comparações entre os padrões em termos desempenho, ou
seja: bit-rate, distorção e tempo de codificação e decodificação. A seguir serão
apresentados os principais conceitos de somadores compressores e da DCT.
31
(a), como mostra a Equação 8. As técnicas de clock gating e data gating visam
reduzir a atividade de chaveamento que tem uma relação direta com a dissipação de
potência dinâmica.
(8)
lógica de Cadence (CAD, 2018) dispõe do modo de estimativa de layout físico (PLE
- Physical Layout Estimation) enquanto que, a ferramenta Synopsys Design
Compiler oferece o modo Topográfico para analisar o impacto das interconexões.
Essas ferramentas estimam o comprimento das redes e levam em conta os efeitos da
capacitância de carga na dissipação de potência, considerando uma estimativa de
roteamento de layout relativamente pessimista. Tal análise requer a inclusão dos
arquivos do formato Exchange (LEF - Layout Exchange Format), que contêm
principalmente as informações de layout físico da biblioteca. A macro LEF inclui a
capacitância da célula da biblioteca interna, e a tecnologia LEF compreende a
capacitância de metal do processo para a estimativa de capacitância de interconexão
(MAN, 2018). Além disso, as bibliotecas de células padrão geralmente oferecem um
arquivo adicional, ou seja, tabela de capacitância, que descreve as capacitâncias da
tecnologia de maneira mais precisa e detalhada, considerando as variações do
processo (MAN, 2018).
De maneira geral, cada somador compressor 4-2 possui cinco entradas (A, B,
C, D e Cin) e quatro saídas (Carry, Sum, Cout),
conforme apresentado na Figura 8 (b).
Todas as entradas possuem o mesmo peso i assim como a saída Sum enquanto as
saídas Carry e Cout possuem peso i+1. É importante conceber o compressor de
maneira que Cout não dependa de Cin para evitar que haja propagação horizontal de
carry no mesmo estágio de compressão. Analisando a tabela verdade (Tabela 1) do
compressor 4-2 pode-se estabelecer que para se obter a soma final utilizando
compressores deve-se fazer.
37
Cin7, Cin8, Cin9, Cin10, Cin11 e Cin12). A estrutura também apresenta quinze saídas, sendo
duas primárias (Sum e carry) e treze para carry de saída - Cout (Cout0, Cout1, Cout2, Cout3,
Cout4, Cout5, Cout6, Cout7, Cout8, Cout9, Cout10, Cout11 e Cout12), conforme ilustrado na Fig. 11.
FONTE: Própria
literatura tem proposto soluções ASIC para o projeto da DCT, tais como (GONG,
2004), (HWANGBO, 2010), (MEHER, 2014), (TAMSE, 2014), (MASERA, 2015),
(PASTUSZAK, 2015), (CHEN, 2016), (GOEBEL, 2016), (KALALI, 2016),
(LIANG, 2016), (ABDELRASOUL, 2017), (BONATTO, 2017), (MASERA, 2017),
(SUN, 2018). Entretanto, apenas os trabalhos relacionados em (AN, 2008),
(MEHER, 2014), (KALALI, 2016), (LIANG, 2016), (BONATTO, 2017), (JRIDI,
2017), (MASERA, 2017), (SUN, 2018), levam em consideração resultados de
dissipação de potência.
Apesar dos trabalhos da literatura proporem diferentes estratégias para o
projeto eficiente da DCT, a maioria desses trabalhos não considera:
● O uso de somadores compressores eficientes para as implementações da
transformada e da multi-transformada;
● A combinação de um buffer baseado em clock-gating com o uso de estratégia
de data-gating na parte operativa da DCT;
● A avaliação do throughput real requerido para a transformada e
multi-transformada, considerando as latências causadas pelas transições do
software da aplicação usando vídeo real com resolução 1080p;
● O uso de entradas reais de vídeo para a análise de potência para o aumento da
precisão dos resultados obtidos.
Uma análise precisa da atividade de transição precisa levar em conta o
desenvolvimento de projetos de VLSI visando soluções de baixa dissipação de
potência. Portanto, é obrigatório que o ambiente de teste seja o mais próximo
possível de aplicações do mundo real para uma avaliação precisa, ou seja, o ambiente
deve levar em conta resultados realistas do comportamento da aplicação alvo. Uma
análise automática que não demonstre o comportamento da atividade de transição ao
longo de todas as redes de interconexão não pode provar a economia de energia que é
proveniente de todas os técnicas eficientes em redução de potência, que são
direcionadas a redução da atividade de chaveamento. A maioria dos trabalhos
relacionados da literatura, que reportam resultados de potência para arquiteturas
ASIC da DCT 2-D para o padrão de codificação de vídeo H.265/HEVC, não
44
(A) Dispositivo alvo para os resultados, (B) Voltado para o padrão H.265/HEVC, (C) Sem
multiplicador (MCM), (D) Análise de área do circuito, (E) Atraso dos caminhos críticos, (F)
Análise de dissipação de potência, (G) Suporte para diferentes tamanhos de transformadas, (H)
Sem perda de qualidade, (I) Análise realista do throughput considerando as latências, (J) Uso de
somadores compressores eficientes de tamanhos maiores (até 16-2) (K) Buffers d e transposição
com estratégia de clock gating, (L) Parte operativa com estratégia de data-gating, (M)
Implementação da DCT 2-D completa, (N) Uso de vetores de teste reais, (O) Simulaçoes no
nível netlist, (P) Simulação com arquivo de atrasos .SDF, (Q) Uso de arquivos de estímulos
.VCD, .TCF ou .SAIF, (R) Uso de arquivo de tabelas de capacitâncias, (S) Análise pós-síntese ou
do layout do circuito, (T) Uso de bibliotecas de processo industrial, (U) Consideração de
transições realistas para os diferentes tamanhos de transformadas.
46
FONTE: Própria.
48
a=64; b=83; c=36; d=89; e=75; f=50; g=18; h=90; i=87; j=80; k=70; l=57;
m=43; n=25; o=9 ; p=90; q=90; r=88; s=85; t=82; u=78; v=73; w=67; x=61;
y=54; z=46; A=38; B=31; C=22; D=13; E=4 ;
transformada (4x4, 8x8, 16x16, 32x32), são necessários quatro blocos MCM, ou seja,
um para cada tamanho de transformada. Cada bloco MCM tem multiplicações de
constantes N/2, sendo duas constantes para o MCM da transformada de 4 pontos
(denominado MCM 4); quatro constantes para o MCM da transformda de 8 pontos
(MCM 8); oito constantes para o MCM da transformada de 16 pontos (MCM 16); e
dezasseis constantes para o MCM da transformada de 32 pontos (MCM 32). A
Figura 9 mostra as constantes associadas a cada tamanho de MCM.
Juntamente com os cinco algoritmos MCM usados nas comparações, também
propõe-se uma solução para o MCM 32. Ao analisar as constantes usadas
especificamente para o padrão H.265/HEVC, desenvolve-se um módulo específico
de multiplicação por constantes, que explora totalmente o compartilhamento de
recursos de hardware (compartilham-se as constantes o máximo possível). A Figura
14 mostra a solução proposta nesta dissertação para o MCM 32.
reduzida. Como pode ser observado na figura, coeficientes como x9 são usados até
oito vezes. O segundo ponto que deve ser levado em consideração é um número
reduzido de somadores no caminho crítico. Para tal, a solução proposta combina o
uso de somadores 3-2. A Tabela 4 mostra os resultados de potência para cada uma
das soluções MCM. Para cada caso, a melhor solução está destacada em verde.
conteúdo um lugar para a direita, liberando a coluna mais à esquerda, que agora pode
receber a saída da primeira transformada. Quando o buffer é preenchido novamente,
o mecanismo de acesso a dados é alterado para linha e o multiplexador (MUX) de
saída seleciona o conteúdo da última linha e a informação proveniente de xn é
armazenada na primeira linha. Esse intercâmbio ocorre a cada quatro ciclos de
relógio, desde que o buffer esteja em uso. A Figura 15 mostra um exemplo do buffer
de transposição.
FONTE: Própria
quadros por segundo, usando QPs (Parâmetros de Quantização) de 22, 27, 32 e 37,
conforme indicado pelas Common Test Conditions (CTCs). O codificador foi
executado na predefinição padrão (média), portanto, não foram necessárias
otimizações para atingir uma taxa de transferência em tempo real.
Ao usar arquiteturas multi-transformadas, é necessário considerar que o
codificador não calcula todos os blocos possíveis de um tamanho específico antes de
iniciar o cálculo para os próximos tamanhos de transformadas, ou seja, codificadores
reais calculam transformadas de forma alternada. Assim, transições entre os
diferentes tamanhos de transformadas irão ocorrer. Essas transições afetarão a
arquitetura devido à latência exigida pelas transições. A arquitetura proposta também
foi projetada com base na minimização dos impactos da latência que poderiam
ocorrer. No entanto, algumas paradas de pipeline ainda são necessárias para as
transições entre alguns tamanhos. Portanto, para uma análise de taxa de transferência
mais realista, precisa-se considerar a probabilidade de transições entre cada tamanho
de transformada em um codificador real.
Com as considerações acima, além de obter o número de chamadas normais
de transformada, obtém-se o número de transições entre cada uma das transformadas
do software do codificador x265. Cada um desses valores foi dividido pela soma das
transições para seu tamanho específico para obter a probabilidade de transição. Esses
valores são apresentados na Figura 15, para a resolução de 1080p.
FONTE: Própria
54
estágios seguintes repetem a divisão N/2 para as operações MCM e borboleta, até
restar apenas a transformada 4x4 .
Supondo que se quer executar uma transformada 8x8, o início do processo
seria com entradas de dados de x9 até x32, o que reduz bastante a atividade de
chaveamento em todo o circuito. Em seguida, as linhas e colunas de 9 a 32 do buffer
de transposição seriam bloqueadas pelo relógio, reduzindo efetivamente a dissipação
de energia. Usando essas técnicas, combinadas com o projeto proposto, a arquitetura
de múltiplas transformadas produziria os resultados para a transformada 8x8. Para
mudar para outro tamanho de transformada, tudo o que é necessário para mudar são
sinais de habilitação internos que controlam a operação de multi-transformada.
A extensa reutilização de recursos de hardware, combinada com relógio e
data-gating, permite que o projeto proposto da multi-transformada opere em
qualquer tamanho de transformada e mude para qualquer tamanho de transformada
suportada em tempo real durante a execução do bloco de transformada dentro do
padrão de codificação de vídeo H.265/ HEVC. A Tabela 6 mostra os resultados de
potência para as diferentes versões da multi-transformada DCT, para diferentes
videos de entrada. A versão V0 representa a versão com o somador da ferramenta de
síntese, a versão V1 (V1-DG) representa a DCT com data-gating, a versão V2
(V2-DG+SC) representa a DCT com data-gating e somadores compressores e,
finalmente a versão V3 (V3 - DG+SC+CG) representa a DCT com data-gating,
somadores compressores e clock-gating. Como pode ser observado, o simples uso de
data-gating faz com que a DCT tenha uma redução considerável de potência.
Entretanto, a combinação de data-gating com somadores compressores e com
clock-gating, faz com que haja ainda mais reduções de potência. Isso se deve
principalmente devido a redução de potência dinâmica habilitada pelas técnicas
utilizadas. Particularmente, a versão V3 que envolve a combinação de todas as
estratégias (data-gating + somadores compressores + clock-gating) agrega reduções
de potência bem consideráveis, sendo a versão preferível para ser utilizada no padrão
de codificação de vídeo H.265/HEVC.
57
FONTE: Própria.
58
Potência (µW)
Vídeo Versões
Estática Dinâmica Total Redução
V0 693.7 104155.6 104849.2 -
V1 - DG 677.2 62944.2 63621.4 39.3%
Basketball Drive
V2 - DG + SC 1204.2 50165.6 51369.7 51.0%
V3 - DG + SC + CG 1209.9 30570.2 31780.1 69.7%
V0 693.2 89481.0 90174.2 -
V1 - DG 676.3 56155.3 56831.6 37.0%
BQTerrace
V2 - DG + SC 1203.1 43778.0 44981.1 50.1%
● Uso de uma estratégia ainda mais eficiente para a técnica MCM da DCT de
32 pontos. Embora a nossa estratégia tenha sido a mais eficiente para a DCT
62
Luis F. Sequeira, Gustavo Santana, Guilherme Paim, Leandro Rocha, Brunno Abreu,
Eduardo Costa, Sergio Bampi. Low-Power HEVC 8-point 2-D Discrete Cosine
Transform Hardware Using Adder Compressors. 2018 16th IEEE International
New Circuits and Systems Conference (NEWCAS). June 2018, Montreal, pp.
309-312.
63
7. REFERÊNCIAS BIBLIOGRÁFICAS
AKSOY, L., COSTA, E., FLORES, P., MONTEIRO, J. Finding the Optimal
Tradeoff Between Area and Delay in Multiple Constant Multiplications.
Microprocessors and Microsystems. Vol. 35. 2011. pp. 729-741.
AKSOY, L., COSTA, E., FLORES, P., MONTEIRO, J. Optimization Algorithms for
the Multiplierless Realization of Linear Transforms. ACM Transactions on Design
Automation of Electronic Systems. Vol. 17. 2012. pp. 1-27.
BONATTO, L., RAMOS, F., ZATT, B., PORTO, M. and BAMPI, S. Low-power
multi-size HEVC DCT architecture proposal for QFHD video processing. In:
2017 30th Symposium on Integrated Circuits and Systems Design (SBCCI), Aug
2017, pp. 41–46.
BOSSEN, F., BROSS, B., SUHRING, K., FLYNN, D. HEVC Complexity and
Implementation Analysis, IEEE Transactions on Circuits and Systems for Video
Technology, vol. 22, No. 12, pp. 1685-1696, December 2012.
BULL, D., HORROCKS, D. Primitive Operator Digital Filters. IEE Proceedings G,
vol. 138, no. 3, pp. 401–412, 1991.
CHANG, C.-H., J. GU, e M. ZHANG, Ultra low-voltage low-power CMOS 4-2 and
5-2 compressors for fast arithmetic circuits. IEEE Transactions on Circuits and
Systems, vol. 51, no. 10, pp. 1985–1997, Oct 2004.
CHIPER, D., SWAMY, M., AHMAD, M., and Stouraitis, T. Systolic algorithms and
a memory-based design approach for a unified architecture for the computation of
DCT/DST/IDCT/IDST. IEEE Transactions on Circuits and Systems I: Regular
Papers, vol. 52, no. 6, pp. 1125–1137, June 2005.
GARRIDO, M., PESCADOR, F., CHAVARRAS, M., LOBO, P., and SANZ, C. A
High Performance FPGA-Based Architecture for the Future Video Coding Adaptive
Multiple Core Transform. IEEE Transactions on Consumer Electronics, vol. 64,
no. 1, pp. 53–60, Feb 2018.
GOEBEL, J. PAIM, G., AGOSTINI, L., ZATT, B., PORTO, M. An HEVC
multi-size DCT hardware with constant throughput and supporting
heterogeneous CUs. In: 2016 IEEE International Symposium on Circuits and
Systems (ISCAS), May 2016, pp. 2202–2205.
GONG, D., HE, Y., Cao, Z. New cost-effective VLSI implementation of a 2-D
discrete cosine transform and its inverse. IEEE Transactions on Circuits and
Systems for Video Technology, vol. 14, no. 4, pp. 405–415, April 2004.
HE, Zhichu. Framework of AVS2-video coding. In: Image Processing (ICIP), 2013
20th IEEE International Conference on. IEEE, 2013. p. 1515-1519.
HSIAO, S., HU, Y., JUANG, T., and LEE, C. Efficient VLSI implementations of
fast multiplierless approximated DCT using parameterized hardware modules for
silicon intellectual property design. IEEE Transactions on Circuits and Systems I:
Regular Papers, vol. 52, no. 8, pp. 1568–1579, August 2005.
JIA, R., CHEN, R. LIN, C., GUO, Z., and YANG, H. Low Cost 1D DCT Core for
Multiple Video Codec. Chinese Journal of Electronics, vol. 25, no. 6, pp.
1052–1057, 2016.
JRIDI, M., and MEHER, P. Scalable Approximate DCT Architectures for Efficient
HEVC-Compliant Video Coding. IEEE Transactions on Circuits and Systems for
Video Technology, vol. 27, no. 8, pp. 1815–1825, Aug 2017.
JOJOA, D., and MEDINA, J. Efficient hardware design of N-point 1D-DCT for
HEVC. In: 2015 20th Symposium on Signal Processing, Images and Computer
Vision (STSIVA), Sept 2015, pp. 1–6.
JVT of ISO/IECMPEG and ITU- TV CEG. Advanced Video Coding for Generic
Audiovisual Services. [S.l.], March 2005.
KIM, Il-Koo et al. Coding efficiency comparison of new video coding standards:
HEVC vs VP9 vs AVS2 video. In: Multimedia and Expo Workshops (ICMEW),
2014 IEEE International Conference on. IEEE, 2014. p. 1-6.
LI, L., WANG, W., CHOI, K., PARK, S., and CHUNG, M.-K. SeSCG: Selective
sequential clock gating for ultra-low-power multimedia mobile processor
design. iEEE International Conference on Electro/Information Technology (EIT).
2010. pp. 1–6.
LIU, S., YU, HUANG, H., and YANG, H. Unified algorithms for computation
of different points integer 1-D DCT/IDCT for the HEVC standard. In:
International Conference on Software Intelligence Technologies and Applications
International Conference on Frontiers of Internet of Things 2014, Dec 2014, pp.
207–211.
67
MA, Siwei; KUO, C.-C. Jay. High-definition video coding with super-macroblocks.
In: Proc. SPIE. 2007. p. 650816.
MAHSA T. POURAZAD, COLIN DOUTRE - HEVC: The New Gold Standard for
Video Compression, IEEE CONSUMER ELECTRONICS MAGAZINE. Julho
2012, pág. 36 a 47.
MASERA, M., FIORENTIN, L., MARTINA, M., MASERA, G., and MASALA, E.
Optimizing the transform complexity-quality tradeoff for hardware-accelerated
HEVC video coding. In: 2015 Conference on Design and Architectures for Signal
and Image Processing (DASIP), Sept 2015, pp. 1–6.
MEHER, P, PARK, S., PARK, Y., MOHANTY, K., LIM, S., YEO, C. Park, B.
K. Mohanty, K. S. Lim, and C. Yeo. Efficient Integer DCT Architectures for
HEVC. IEEE Transactions on Circuits and Systems for Video Technology, vol.
24, no. 1, pp. 168–178, Jan 2014.
Video Coding (HEVC), IEEE Transactions on Circuits and Systems for Video
Technology, Vol. 22, No. 12, pp. 1669-1684, December 2012.
OKLOBDZIJA, V., VILLEGER, D., LIU, S. A Method for Speed Optimized Partial
Product Reduction and Generation of Fast Parallel Multipliers Using an Algorithmic
Approach. IEEE Transactions on Computers, Vol. 45, No. 3, pp. 294-306, March
1996.
OLIVER, J., CURTO, J., BOUVIER, D., RAMOS, M., and BOEMO, E. Clock
gating and clock enable for FPGA power reduction. VIII Southern Conference on
Programmable Logic (SPL). 2012. pp. 1–5.
RAO, D., PALE, T. Low Power Register Design with Integration Clock Gating and
Power Gating. International Journal of Application or Innovation in
Engineering & Management (IJAIEM). Volume 3, Issue 10, October 2014. pp.
117-122.
REVATHI,, K. and MALAR, J. Efficient diagonal data mapping for large size 2D
DCT/IDCT using single port SRAM based transpose memory. In: 2016
International Conference on Electrical, Electronics, and Optimization Techniques
(ICEEOT), March 2016, pp. 4894–4898.
Publishers, 2000.
SHARID, A., ARIF, S. Power Optimization Using Clock Gating and Power Gating:
A Review. Innovative Research and Applications in Next-Generation High
Performance Computing. p. 1-20. 2016
TAMSE, A., LEE, H., RHEE, C. Reusable DCT architecture for parallel
processing of Y, U and V transforms in HEVC. In: The 18th IEEE International
Symposium on Consumer Electronics (ISCE 2014), June 2014, pp. 1–2
TONFAT, J., REIS, R. Low power 3–2 and 4–2 adder compressors implemented
using ASTRAN. In: 2012 IEEE 3rd Latin American Symposium on Circuits and
Systems (LASCAS), February/March, 2012, pp. 1-4.
70
WANG, S., ZHU, X., DING, D., e YU, L. Transform coding in AVS2. In: 2014
IEEE International Conference on Multimedia and Expo Workshops
(ICMEW), July 2014, pp. 1–5.
WU, Z., SHA, J., WANG, Z., LI, L., and GAO, M. Gao. An improved scaled DCT
architecture. IEEE Transactions on Consumer Electronics, vol. 55, no. 2, pp.
685–689, May 2009.
ZHANG, S., SHEN, Y., YANG, C. A stochastic computation based integer DCT
implementation in HEVC. In: 2014 IEEE International Conference on Signal
Processing, Communications and Computing, Aug., 2014,pp. 153–157.