04 Processador

O Processador
Arquitetura de Computadores
Emilio Francesquini
e.francesquini@ufabc.edu.br
2021.Q1
Centro de Matemática, Computação e Cognição
Universidade Federal do ABC
Disclaimer
Estes slides foram preparados para o curso de Arquitetura de Computadores

na UFABC.
Este material pode ser usado livremente desde que sejam mantidos, além
deste aviso, os créditos aos autores e instituições.
O conteúdo destes slides foi baseado no conteúdo do livro Computer
Organization And Design: The Hardware/Software Interface, 5th Edition.
1
Lógica combinacional
Basicão de design lógico
Informação é codificada em binário

I Tensão baixa = 0, tensão alta = 1
I Um fio por bit
I Dados multi-bit são transmitidos em barramentos multi-fios
Elemento combinacional
I Opera nos dados
I Saída depende da entrada
Elementos de estado (sequenciais)
I Armazenam informação
2
A lógica combinacional
Nesta aula revisamos brevemente alguns conceitos fundamentais que

utilizaremos no restante das aulas.
Esta disciplina não trata destes assuntos diretamente (outras disciplinas
como Circuitos Digitais e Sistemas Digitais servem a este propósito) mas
utilizaremos alguns dos conceitos que elas apresentam.
Informações mais detalhadas podem ser vistas em [PH]: Appendix B.
3
Portas lógicas
A A
A NOT A A OR B A AND B
B B
4
Portas lógicas
A A
B B
Pergunta
Que expressão lógica os circuitos acima representam?
5
Decoders
Decoders escolhem uma dentre 2n saídas baseando-se em uma entrada de n

bits.
Exitem também os encoders que fazem o caminho inverso.
Inputs Outputs
Out0
12 11 10 Out7 Out6 Out5 Out4 Out3 Out2 Out1 Out0
Out1
0 0 0 0 0 0 0 0 0 0 1
Out2 0 0 1 0 0 0 0 0 0 1 0
3 Out3 0 1 0 0 0 0 0 0 1 0 0
Decoder 0 1 1 0 0 0 0 1 0 0 0
Out4
1 0 0 0 0 0 1 0 0 0 0
Out5
1 0 1 0 0 1 0 0 0 0 0
Out6 1 1 0 0 1 0 0 0 0 0 0
Out7 1 1 1 1 0 0 0 0 0 0 0
6
Multiplexadores
Permitem escolher uma entrada baseando-se num seletor
A
A 0
M
u C C
x
B 1
B
S S
7
Multiplexadores de 1 bit
A B S C
A 0
M 0 0 0 0
u C 0 0 1 0
x 0 1 0 0
B 1
0 1 1 1
1 0 0 1
1 0 1 0
S
1 1 0 1
1 1 1 1
Como montar um?
Usamos uma tabela verdade! Como transformar em um circuito?
8
Multiplexadores de 1 bit
A 0 A tabela ao lado é equivalente a:

M
u C
x
B 1 C = A.B.S + A.B.S + A.B.S + A.B.S =
A.B.S + A.(B.S + B.S + B.S) =
S A.B.S + A.(S(B + B) + B.S) =
A B S C A.B.S + A.(S + B.S) =
0 0 0 0
0 0 1 0 A.B.S + A.S + A.B.S =
0 1 0 0
0 1 1 1
A.S + B.(A.S + A.S) =
1 0 0 1 A.S + B.(S.(A + A)) =
1 0 1 0
1 1 0 1 A.S + B.S
1 1 1 1
9
Multiplexadores de 32 bits
Select Select
32
A A31
M M
u 32 u
C C31
32 x x
B B31
A30
M
u C30
x ..
B30 .
..
.
A0
M
u C0
x
B0
a. A 32-bit wide 2-to-1 multiplexor b. The 32-bit wide multiplexor is actually

an array of 32 1-bit multiplexors
10
Construindo uma ULA básica de 1 bit
Se queremos chegar até um MIPS, temos várias instruções que precisam ser
implementadas
Vamos começar com as mais básicas
I AND, OR, ADD, SUB, SLT, BEQ, …
Para as duas primeiras já temos as portas lógicas prontas! Vamos começar
por elas.
11
ULA de 1 bit para AND e OR
Operation
a
0
Result
1
b
Vamos adicionar ADD…
12
Um somador de 1 bit
CarryIn
+ Sum
CarryOut
Um somador de 1 bit pode ser facilmente implementado usando o método

que usamos para fazer um multiplexador.
13
Vamos integra-lo na nossa ULA.
ULA de 1 bit com AND, OR e ADD
Operation
CarryIn
a
0
1 Result
⫹ 2
b
CarryOut
Pergunta
Como fazemos para criar uma ULA de 32 bits?
14
ULA de 32 bits com AND, OR e ADD
Operation
CarryIn
a0 CarryIn
ALU0 Result0
b0
CarryOut
a1 CarryIn
ALU1 Result1
b1
CarryOut
a2 CarryIn
ALU2 Result2
b2
CarryOut
.. .. ..
. . .
a31 CarryIn
ALU31 Result31
b31
15
Incluindo a operação SUB
Nas aulas anteriores vimos que para números em complemento de 2, a

subtração é muito parecida com a adição.
Para calcular A − B, invertemos todos os bits de B, somamos 1 ao resultado e
em seguida somamos com A.
Operation
CarryIn
a
0
📝 Note
Conseguimos adaptar o que já temos pronto 1 Result
para fazer isso?

⫹ 2
b
16
CarryOut
Incluindo a operação SUB
Binvert Operation
CarryIn
a
0
1 Result
b 0
⫹ 2
CarryOut
Basta então fornecer os sinais de controle corretamente.

17
Incluindo a operação NOR
De maneira semelhante, com pouquíssimas modificações já conseguimos

adicionar a operação NOR
I NOR A B = NOT(A OR B) = (NOT A) AND (NOT B)
Binvert Operation
CarryIn
a
0
1 Result
b 0
⫹ 2
CarryOut
Pergunta
Como alteramos o circuito acima para fazer isso? 18
Incluindo a operação NOR
Ainvert Operation
Binvert CarryIn
a 0
0
1
1 Result
b 0
⫹ 2
CarryOut
Pergunta
Quais são os sinais de controle para cada uma das operações que já
19
implementamos (AND OR ADD SUB NOR)?
Sinais de controle
Operation Carry in Ainvert Binvert

AND 00 _ 0 0
OR 01 _ 0 0
NOR 00 _ 1 1
ADD 10 0 0 0
SUB 10 1 0 1
💡 Tip
Conseguimos implementar diretamente mais uma operação só com o hardware
que temos? Se sim, qual?
20
Mas ainda está faltando algo…
Para criarmos o nosso processador MIPS, ainda temos 2 operações que são
essenciais: slt e beq
A ALU tem que ser capaz de verificar se A < B e se A = B
O que dá para fazer com que já temos?
Ainvert Operation Operation
Binvert CarryIn
CarryIn
a 0 a0 CarryIn
ALU0 Result0
b0
CarryOut
0
1
a1 CarryIn
ALU1 Result1
b1
1 Result CarryOut
a2 CarryIn
b 0 ALU2 Result2
2 b2
⫹ CarryOut
1 .. .. ..
. . .
a31 CarryIn
CarryOut
b31
ALU31 Result31
21
Implementando o slt
Binvert Operation
Ainvert
Ainvert Operation
CarryIn
Binvert CarryIn
a0 CarryIn Result0
b0 ALU0
a 0 Less
0 CarryOut
1
a1 CarryIn Result1
b1 ALU1
1 0 Less
CarryOut
Result
b 0 a2 CarryIn Result2
⫹ 2 b2 ALU2
0 Less
CarryOut
1
.. . .. .. ..
. . .. . . CarryIn .
..
Less 3
a31 CarryIn Result31
b31 ALU31 Set
0 Less
22
CarryOut Set
beq
Para saber se A = B podemos fazer A − B. Se for 0, então A = B. Basta negar

o resultado!
Vamos consertar o circuito! Mas antes vamos olhar novamente a tabela de
sinais de controle
Operation Carry in Ainvert Binvert

AND 00 _ 0 0
OR 01 _ 0 0
NOR 01 _ 1 1
ADD 10 0 0 0
SUB 10 1 0 1
SLT 11 1 0 1
23
beq
Podemos juntar o Carry in e Binvert. Vamos chamar de Bnegate
Operation Bnegate Ainvert

AND 00 0 0
OR 01 0 0
NOR 01 1 1
ADD 10 0 0
SUB 10 1 0
SLT 11 1 0
Voltando ao beq…
24
beq
Bnegate Operation
Ainvert
a0 CarryIn
Result0
b0 ALU0
Less Criamos uma nova
CarryOut
saída da ALU, chamada
a1 CarryIn
Result1
Zero
b1 ALU1
0 Less
CarryOut ..
.
Zero Quando Zero for 1, A e
B são iguais.
a2 CarryIn
Result2
b2
0
ALU2
Less
📝 Note
Quais são os bits de
CarryOut
.. . .. .. .. ..
. .. ..
.
. . CarryIn . .
controle para beq?
Result31
a31 CarryIn
b31 ALU31 Set
0 Less
25
Finalmente temos uma ALU
ALU operation
Zero
ALU Result
Overflow
CarryOut
26
O Processador
Introdução
O desempenho da CPU é influenciado por

I Número de instruções executadas
Determinado pela ISA e pelo compilador
I CPI e Frequência
Determinada pelo hardware
Vamos estudar duas implementações de MIPS
I Uma versão simplificada monociclo
I Uma versão mais realista, com pipelines
Vamos nos concentrar em um subconjunto das instruções que, apesar de
simples, demonstram a maior parte dos detalhes
I Acesso à memória: lw, sw
I Aritimética e lógica: add, sub, and, or, slt
I Branches e saltos: beq, j
27
Execução de instruções
PC → memória de instruções, carrega instrução

Números de registradores → banco de registradores, leitura de registradores
Dependendo to tipo de instrução
I Usa a ALU para calcular
Resultado aritmético
Endereço de memória para load/store
Endereço para branch
I Acessa a memória de dados para load/store
I PC ← endereço de destino ou PC + 4
28
Uma visão geral do processador
Add Add
Data
Register #
PC Address Instruction Registers ALU Address
Register #
Data
Instruction
memory
memory Register #
Data
Elementos combinacionais que operam nos dados

Elementos sequenciais que armazenam o estado
29
Multiplexadores
Add Add
Data
Register #
Register #
Data
Instruction
memory
memory Register #
Data
Não podemos sair juntando fios. Precisamos de multiplexadores para

selecionar qual sinal é de interesse.
30
Controle
Branch
M
u
x
Add M
Add
u
x
ALU operation
Data
MemWrite
Register #
Register # M Zero
u Data
Instruction
x memory
memory Register # RegWrite
Data
MemRead
Control
31
Clocking methodology
Lógica combinacional transforma os dados durante os ciclos de clock

I Entre os bordas do clock
I Entrada de elementos de estado, saída para elemento de estado
I O atraso mais longo determina o período do clock
State State
element Combinational logic element
1 2 State
Combinational logic
element
Clock cycle
32
Datapath Monociclo
Construindo um Datapath
Datapath
I Elementos que processam os dados e endereços na CPU.
Registradores, ALUs, muxes, memórias, …
Vamos construir um datapath de MIPS de maneira incremental.
I Refinaremos pouco a pouco o design geral que vimos.
33
Intruction Fetch
Add
Read
PC
address
Instruction
Instruction
memory
PC é um registrador de 32 bits.
ALU soma 4 no PC para pular para a próxima instrução.
34
Instruções R-Format
Leem 2 operandos de registradores

Fazem uma operação lógica/aritmética
Escrevem o resultado em um registrador
5 Read ALU operation

4
register 1 Read
Register 5 Read data 1
numbers register 2 Zero
Registers Data ALU ALU
5 Write result
register Read
Write data 2
Data
Data
RegWrite
a. Registers b. ALU
35
Instruções de Load/Store
Lê os operandos dos registradores

Calcula o endereço usando um offset de 16 bits
I Usa a ALU, mas faz a extensão de sinal do offset
Load: lê a memória e atualiza o registrador apropriado
Store: escreve o valor do registrador na memória
MemWrite
Read
Address
data
16 32
Sign-
Data extend
Write memory
data
MemRead
36
a. Data memory unit b. Sign extension unit
Instruções de Branch
Lê os operandos dos registradores

Compara os operandos
I Usa a ALU, subtrai os operando e usa a saída Zero
Calcula o endereço alvo
I Estende o deslocamento (com sinal)
I Faz um shift de 2 (uma palavra)
I Adiciona 4 ao PC
Já feito pelo passo de fetch de instruções
37
Instruções de Branch
PC + 4 from instruction datapath
Branch
Add Sum target
Shift
left 2
Read ALU operation
register 1 4
Instruction Read
Read data 1
register 2 To branch
Registers ALU Zero control logic
Write
register Read
data 2
Write
data
RegWrite
16 32
Sign-
extend
38
Juntando tudo
O Datapath executa uma instrução por ciclo

I Cada elemento do datapath só pode fazer uma função por vez
I Logo precisamos separar as memórias de instruções e de dados
Emprega-se multiplexadores nos locais onde fontes de dados alternativas
são usadas por diferentes instruções.
39
R-type/Load/Store Datapath
Read ALU operation

register 1 4
Read MemWrite
data 1
Read MemtoReg
register 2 Zero
Instruction ALUSrc
Registers Read ALU ALU Read
Write 0 Address 1
data 2 result data M
register M
u u
x x
Write 1 0
data Data
Write memory
RegWrite data
16 32 MemRead
Sign-
extend
40
O Datapath completo
PCSrc
M
Add u
x
ALU
4 Add result
Shift
left 2
Read ALUSrc ALU operation

Read register 1 4
PC Read
address MemWrite
Read data 1
Zero MemtoReg
register 2
Instruction Registers Read ALU ALU Read
Write Address
Instruction data 2 M result data M
register u
memory u
x x
Write
data
Write Data
RegWrite data memory
16 32 MemRead
Sign-
extend
41
Controle da ALU
ALU usada para

I Load/Store: Função = ADD
I Branch: Funcão = SUB
I R-Type: Função depende do campo funct
ALU control lines Function

0000 AND
0001 OR
0010 add
0110 subtract
0111 set on less than
1100 NOR
42
Controle da ALU
Assuma que ALUOp de 2 bits é derivada do opcode

I Lógica combinacional é usada par derivar o controle da ALU
Instruction Instruction Desired ALU control

opcode ALUOp operation Funct field ALU action input
LW 00 load word XXXXXX add 0010
SW 00 store word XXXXXX add 0010
Branch equal 01 branch equal XXXXXX subtract 0110
R-type 10 add 100000 add 0010
R-type 10 subtract 100010 subtract 0110
R-type 10 AND 100100 AND 0000
R-type 10 OR 100101 OR 0001
R-type 10 set on less than 101010 set on less than 0111
43
A unidade de controle principal
R-type 0 rs rt rd shamt funct

31:26 25:21 20:16 15:11 10:6 5:0
Load/
35 or 43 rs rt address
Store
31:26 25:21 20:16 15:0
Branch 4 rs rt address
31:26 25:21 20:16 15:0
opcode always read, write for sign-extend

read except R-type and add
for load and load
44
O Datapath com a unidade de Controle
PCSrc
0
M
Add u
x
ALU
4 Addresult 1
RegWrite Shift
left 2
Instruction [25:21] Read

Read register 1 Read MemWrite
PC address
Instruction [20:16] Read data 1
register 2 ALUSrc Zero MemtoReg
Instruction 0
[31:0] ALU ALU Read
M Write Read 0 Address data 1
u register data 2 result M
Instruction Instruction [15:11] x M
memory u u
1 x x
Write 1 0
data Registers Data
RegDst Write memory
data
Instruction [15:0] 16 32
Sign- ALU
extend
control MemRead
Instruction [5:0]
ALUOp 45
Instruções R-Type
0
M
Add u
x
ALU 1
4 Add result
Shift
RegDst left 2
Branch
MemRead
Instruction [31–26] MemtoReg
Control
ALUOp
MemWrite
ALUSrc
RegWrite
Instruction [25–21] Read

PC Read register 1 Read
address
Instruction [20–16] Read data 1
register 2 Zero
Instruction 0
[31–0] ALU ALU
M Write Read 0 result Address Read
data
1
Instruction u register data 2 M M
Instruction [15–11] x u
memory u
1 x x
Write 0
data Registers 1
Write Data
data memory
Instruction [15–0] 16 Sign- 32

ALU
extend
control
Instruction [5–0] 46
Instruções Load
0
M
Add u
x
ALU 1
4 Add result
Shift
RegDst left 2
Branch
MemRead
Control
ALUOp
MemWrite
ALUSrc
RegWrite

address
register 2 Zero
Instruction 0
[31–0] ALU ALU
data
1
memory u
1 x x
Write 0
data Registers 1
Write Data
data memory

ALU
extend
control
Instrução Branch-on-Equal
0
M
Add u
x
ALU 1
4 Add result
Shift
RegDst left 2
Branch
MemRead
Control
ALUOp
MemWrite
ALUSrc
RegWrite

address
register 2 Zero
Instruction 0
[31–0] ALU ALU
data
1
memory u
1 x x
Write 0
data Registers 1
Write Data
data memory

ALU
extend
control
Implementando Jumps
Field 000010 address

Bit positions 31:26 25:0
Jump usa o endereço de uma palavra

Atualiza o PC com a concatenação dos
I 4 bits mais altos do PC
I Endereço de 26 bits da instrução de jump
I 00
Precisa de um sinal de controle extra (que pode ser gerado pelo opcode)
49
Datapath com Jumps
Instruction [25–0] Jump address [31–0]

Shift
left 2
26 28 PC + 4 [31–28] 0 1
M M
Add u u
x x
ALU 1 0
4 Add result
RegDst Shift
Jump left 2
Branch
MemRead
Control ALUOp
MemWrite
ALUSrc
RegWrite

Read register 1 Read
PC address
register 2 Zero
Instruction 0
[31–0] ALU ALU
data
1
memory u
1 x x
Write 0
data Registers 1
Write Data
data memory

ALU
extend
control
Porque este tipo de Datapath não é usado hoje em dia?
O delay mais longo determina o período do clock

I Caminho crítico - Load Instruction
I Memória de instrução → banco de registradores → ALU → memória de dados
→ banco de registradores
Não é razoável alterar o período a cada instrução
Viola o princípio de tornar rápido o caso mais comum
Veremos como melhorar o desempenho através de pipelining
51
Pipelining
O Datapath com a unidade de Controle
PCSrc
0
M
Add u
x
ALU
4 Addresult 1
RegWrite Shift
left 2
Instruction [25:21] Read

Read register 1 Read MemWrite
PC address
Instruction [20:16] Read data 1
register 2 ALUSrc Zero MemtoReg
Instruction 0
[31:0] ALU ALU Read
M Write Read 0 Address data 1
u register data 2 result M
Instruction Instruction [15:11] x M
memory u u
1 x x
Write 1 0
data Registers Data
RegDst Write memory
data
Instruction [15:0] 16 32
Sign- ALU
extend
control MemRead
Instruction [5:0]
ALUOp 52
Porque este tipo de Datapath não é usado hoje em dia?
O delay mais longo determina o período do clock

I Caminho crítico - Load Instruction
I Memória de instrução → banco de registradores → ALU → memória de dados
→ banco de registradores
Não é razoável alterar o período a cada instrução
Viola o princípio de tornar rápido o caso mais comum
Veremos como melhorar o desempenho através de pipelining
53
Uma analogia com lavar roupas
Execuções paralelas de tarefas para aumento de
desempenho
6 PM 7 8 9 10 11 12 1 2 AM
Time
Task
order
A
4 cargas na máquina
B Tempo total: 8 horas
C Versão com pipeline
D
I Tempo total: 3.5h, ou 2.3x
Time
6 PM 7 8 9 10 11 12 1 2 AM + rápido
I Speedup =
Task
order
2n/0.5n + 1.5 ≈ 4 =
A número de estágios!
B
D
54
O Pipeline no MIPS
Cinco estágios, um passo por estágio
1 IF Instruction Fetch - Busca instrução na memória.

2 ID Instruction Decode - Decodifica a instrução e lê os registradores.
3 EX Execute - Executa a operação dada pela instrução e calcula endereços.
4 MEM Memory - Acesso aos operandos em memória.
5 WB Write Back - Escreve o resultado da operação de volta ao registrador.
55
Desempenho do pipeline
Assuma que o tempo por estágio do pipeline seja de

I 100ps para leitura ou escrita de registradores
I 200ps para os demais
Compare o desempenho de um datapath monociclo com um datapath com
pipeline
Instruction Register ALU Data Register Total
Instruction class fetch read operation access write time
Load word (lw) 200 ps 100 ps 200 ps 200 ps 100 ps 800 ps
Store word (sw) 200 ps 100 ps 200 ps 200 ps 700 ps
R-format (add, sub, AND, 200 ps 100 ps 200 ps 100 ps 600 ps
OR, slt)
Branch (beq) 200 ps 100 ps 200 ps 500 ps
56
Desempenho do pipeline
Program
execution 200 400 600 800 1000 1200 1400 1600 1800
Time
order
(in instructions)
Instruction Data
lw $1, 100($0) fetch
Reg ALU
access
Reg
Instruction Data
lw $2, 200($0) 800 ps fetch
Reg ALU
access
Reg
lw $3, 300($0) 800 ps

Instruction Monociclo
fetch
I Tc = 800 ps
800 ps
Pipelined
Program
execution 200 400 600 800 1000 1200 1400 I Tc = 200 ps
Time
order
(in instructions)
Instruction Data
lw $1, 100($0) fetch
Reg ALU
access
Reg
Instruction Data
lw $2, 200($0) 200 ps fetch
Reg ALU
access
Reg
Instruction Data
lw $3, 300($0) 200 ps fetch
Reg ALU
access
Reg
200 ps 200 ps 200 ps 200 ps 200 ps 57

Speedup com o uso de pipeline
Se todos os estágios estiverem equilibrados (i.e. levam o mesmo tempo)
Tempo entre instruçõesSem pipeline

Tempo entre instruçõesPipeline =
Número de estágios
Se não estiverem balanceados, então o speedup é menor

O speedup é devido ao aumento da vazão (en: throughput)
I Contudo, o tempo total no início ao fim da execução de uma instrução, ou a
latência (en: latency) não se altera.
58
Pipelining e o Design da ISA
A ISA do MIPS foi criada para ser executada em um pipeline.

I Todas as instruções tem 32 bits.
Facilita o fetch e decode em um ciclo.
Compare com o x86 que tem instruções de 1 a 17 bytes.
I Poucos formatos e, dentre eles, com regularidade.
É possível fazer a decodificação e a leitura de registradores em um único passo.
I Endereçamento apenas por load e stores.
Permite calcular o endereço no 3o estágio do pipeline e fazer. os acessos no 4o .
I Operandos de instruções de acesso à memória devem ser alinhados.
Garante que os acessos à memória tomem apenas um ciclo.
59
Pipeline Hazards
Hazards
Em certas situações não é possível iniciar a execução de uma instrução no

ciclo imediatamente após a instrução anterior
Essas situaçoes são chamadas de hazards e são, comumente, divididas em 3
tipos:
I Structure hazards
Ocorrem quando um recurso necessário está ocupado.
I Data hazards
Ocorrem quando é necessário aguardar que uma instrução anterior termine sua
leitura/escrita de dados.
I Control hazards ou Branch hazard
Ocorrem quando uma decisão de controle de execução depende de uma instrução
anterior.
60
Structure hazards
Ocorrem quando há conflito por um recurso

Possível no MIPS, se houver uma única memória
I Load/Store precisam acessar dados
I Busca de instruções terá que adiar (en: stall) o ciclo
Acaba causando uma bolha no pipeline
I Pipeline stalls também são conhecidos como bolhas (bubbles)
Logo, datapaths com pipelines precisam de memórias separadas para
instruções e dados para evitar atrasos
I Ou, de maneira equivalente, caches independentes para dados e instruções
61
Structure hazards
Program
execution 200 400 600 800 1000 1200 1400
Time
order
(in instructions)
Instruction Data
lw $1, 100($0) fetch
Reg ALU
access
Reg
Instruction Data
lw $2, 200($0) 200 ps fetch
Reg ALU
access
Reg
Instruction Data
lw $3, 300($0) 200 ps fetch
Reg ALU
access
Reg
Instruction Data
Reg ALU Reg
fetch access
62
Representando uma instrução
200 400 600 800 1000

Time
add $s0, $t0, $t1 IF ID EX MEM WB
Cada estágio é representado por um bloco

Os sombreados indicam que aquele estágio é utilizado pela instrução sendo
executada
I Sombreados à direita indicam leitura e à esquerda escrita
No exemplo, a instrução add não faz acesso à memória, logo a caixa MEM não
está sombreada
63
Data hazards
Uma instrução depende do término do estágio de acesso aos dados de uma

instrução anterior
1 add $s0, $t0, $t1

2 sub $t2, $s0, $t3
Ambas instruções usam $s0

I add escreve em $s0
I sub depende do resultado de add
64
Data hazard
1 add $s0, $t0, $t1

2 sub $t2, $s0, $t3
Program
execution 200 400 600 800 1000
order Time
(in instructions)
sub $t2, $s0, $t3 IF ID EX MEM WB
65
Data hazard
1 add $s0, $t0, $t1

2 sub $t2, $s0, $t3
Program
execution 200 400 600 800 1000
order Time
(in instructions)
add $s0, $t0, $t1 IF ID EX MEM WB Escrita de $s0
Leitura de $s0
66
Data hazard - Solução 1
Inserimos bolhas no pipeline para garantir que o valor necessário para a

instrução já esteja disponível
67
Data hazard - Solução 2
Adiantamos o valor logo depois do estágio de execução para a próxima

instrução
Chamado de forwarding ou bypassing
Exige hardware adicional no datapath
Program
execution 200 400 600 800 1000
order Time
(in instructions)
68
Load-Use Data Hazard
Nem sempre apenas o fowarding é suficiente para resolver um hazard
1 lw $s0, 20($t1)
2 sub $t2, $s0, $t3
O valor só vai estar disponível após o estágio MEM

Não dá para fazer forward voltando no tempo! :D
69
Load-Use Data Hazard - Solução 3
Possível solução é combinar forwarding com pipeline stalls
Program
execution
200 400 600 800 1000 1200 1400
order Time
(in instructions)
lw $s0, 20($t1) IF ID EX MEM WB
bubble bubble bubble bubble bubble
70
Reordenando instruções para evitar bolhas
Código em C:
1 a = b + e;
2 c = b + f;
Código MIPS (variáveis acessíveis a partir de $t0)
1 lw $t1, 0($t0)
2 lw $t2, 4($t0)
3 add $t3, $t1, $t2
4 sw $t3, 12($t0)
5 lw $t4, 8($t0)
6 add $t5, $t1, $t4
7 sw $t5, 16($t0)
Quais são os hazards? Quais se resolvem com forwarding? 71

Reordenando instruções para evitar bolhas
Código em C:
1 a = b + e;
2 c = b + f;
Código MIPS (variáveis acessíveis a partir de $t0)
1 lw $t1, 0($t0) 1 lw $t1, 0($t0)

2 lw $t2, 4($t0) 2 lw $t2, 4($t0)
3 add $t3, $t1, $t2 3 lw $t4, 8($t0)
4 sw $t3, 12($t0) 4 add $t3, $t1, $t2
5 lw $t4, 8($t0) 5 sw $t3, 12($t0)
6 add $t5, $t1, $t4 6 add $t5, $t1, $t4
7 sw $t5, 16($t0) 7 sw $t5, 16($t0)
Quais são os hazards? Quais se resolvem com forwarding? 72

Control hazards
Branches determinam o controle do fluxo do programa

I A busca da próxima instrução depende da avaliação do branch
I O pipeline não é capaz de sempre buscar a instrução correta
Ainda está trabalhando na identificação da instrução (estágio ID)
No MIPS
I Necessário comparar registradores e computar o destino do branch nos
primeiros estágios do pipeline
I O MIPS tem hardware para fazer isto no estágio ID
73
Control hazards - Solução 1
Espera o resultado do branch antes de buscar a próxima instrução
Program
execution Time 200 400 600 800 1000 1200 1400
order
(in instructions)
Instruction Data
add $4, $5, $6 fetch
Reg ALU
access
Reg
Instruction Data
beq $1, $2, 40 fetch
Reg ALU
access
Reg
200 ps
or $7, $8, $9 Instruction

Reg ALU
Data
Reg
400 ps fetch access
74
Branch Prediction
Pipelines mais longos não conseguem determinar o resultado de um branch

de maneira adiantada como o MIPS
I O custo de inserir bolhas se torna proibitivo
Saída? Chuta-se (cof cof), predizemos o resultado do branch
I Se o chute for errado, é causado um stall
No MIPS
I É capaz de predizer branches não tomados (ele sempre chuta que não é
tomado)
I Logo, carrega, sempre, a instrução seguinte ao branch
75
Branch Predictor no MIPS (Not Taken)
Program
execution Time 200 400 600 800 1000 1200 1400
order
(in instructions)
Instruction Data
add $4, $5, $6 Reg ALU Reg
Predição fetch access
Instruction Data
beq $1, $2, 40 Reg ALU Reg
correta 200 ps fetch access
Instruction Data
lw $3, 300($0) 200 ps fetch
Reg ALU
access
Reg
Program
execution Time 200 400 600 800 1000 1200 1400
order
(in instructions)
Predição Instruction Data
add $4, $5, $6 Reg ALU Reg
incorreta fetch access
Instruction Data
beq $1, $2, 40 fetch
Reg ALU
access
Reg
200 ps
or $7, $8, $9 Instruction Data

400 ps fetch
Reg ALU
access
Reg 76
Preditores no mundo real
Preditor de branches estático

Baseado no comportamento típico do branch
Exemplo: laços e ifs
I Prediz que branches para trás são tomados
I Prediz que branches para frente não são tomados
Preditor de branches dinâmico

Exige hardware adicional para medir o comportamento do branch
I Normalmente armazena informações sobre o comportamento mais recente de
cada um dos branches
I Assume que os comportamentos passados são indicativos do comportamento
futuro
Quando erra, insere uma bolha, carrega a instrução correta e atualiza o histórico
Usado em processadores modernos e tem acerto superior a 90%
77
Resumo sobre pipelining
Pipelining aumenta o desempenho pelo aumento da vazão

I Mas não faz nada quanto à latência de cada instrução
I Baseia-se na execução em paralelo de múltiplas instruções
Pode sofrer de hazards
I Estruturais, de dados ou de controle
A ISA pode influenciar significativamente a complexidade de implementação
de um pipeline
78
Pipelining no MIPS
MIPS Pipelined Datapath
IF: Instruction fetch ID: Instruction decode/ EX: Execute/ MEM: Memory access WB: Write back
register file read address calculation
Add
4 Add
ADD
result
Shift
left 2
Fluxo direita →
0
esquerda pode
Read Read
M register 1
Address data 1
u PC Zero
x Read ALU ALU
causar hazards
1 register 2 Address
Instruction result Read
Registers 0 1
M data
Write Read Data M
Instruction register data 2 u u
memory
memory x x
Write 1
0
data Write
data
16 32
Sign-
extend
79
Registradores de pipeline
IF/ID ID/EX EX/MEM MEM/WB
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Instruction register 2 ALU ALU
Registers Read Read
memory result Address data 1
Write 0
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
80
Operação do pipeline
Ciclo a ciclo as instruções são passadas pelos estágios do datapath

Há duas maneiras comuns de se mostrar o funcionamento do pipeline
I ”Single-clock-cycle”pipeline diagram
Mostra o uso do pipeline em um único ciclo
Destaca os recursos em uso
I ”Multi-clock-cycle”pipeline diagram
Mostra a operação durante o tempo
Vamos começar dando uma olhada no single-clock-cycle para as operações
de load e store
81
IF para load e store
lw
Instruction fetch
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Instruction register 2 ALU
Registers Read ALU Read
Write 0
data 2 M
register M
Data u
u
Write memory x
x 1
data 1
Write
data
16 Sign- 32
extend
82
ID para load e store
lw
Instruction decode
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
83
EX para load
Iw
Execution
Add
4 Add Add
Shift result
left 2
0
M
u PC Address Read
Instruction
x register 1 Read
1 data 1
Read Zero
Instruction register 2 ALU ALU Read
memory Registers Address 1
Write Read 0 result data M
register data 2 M u
u Data
Write memory x
data 1x 0
Write
data
16 Sign- 32
extend
84
MEM para load
Iw
Memory
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 1
data 1
Write
data
16 Sign- 32
extend
85
WB para load
Iw
Write-back
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
86
Possível número de registrador incorreto
Datapath corrigido para load
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
87
EX para store
sw
Execution
Add
4 Add Add
Shift result
left 2
0
M
u PC Address Read
Instruction
register 1 Read
x
1 data 1
Read Zero
memory Registers result Address 1
Read 0 data M
Write
M
register data 2 Data u
u
memory x
Write x 0
data 1
Write
data
16 Sign- 32
extend
88
MEM para store
sw
Memory
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 1
data 1
Write
data
16 Sign- 32
extend
89
WB para store
sw
Write-back
Add
4 Add Add
result
Shift
left 2
0
M
Instruction
u PC Address Read
x register 1 Read
1 data 1
Read Zero
Write 0
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
90
Multi-cycle pipeline diagram
Pode ser desenhado mostrando o uso dos recursos

Time (in clock cycles)
CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9
Program
execution
order
(in instructions)
lw $10, 20($1) IM Reg ALU DM Reg
sub $11, $2, $3 IM Reg ALU DM Reg
add $12, $3, $4 IM Reg ALU DM Reg
lw $13, 24($1) IM Reg ALU DM Reg
add $14, $5, $6 IM Reg ALU DM Reg

91
Multi-cycle pipeline diagram
Ou mostrando o uso dos estágios

Time (in clock cycles)
CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9
Program
execution
order
(in instructions)
Instruction Instruction Data

lw $10, 20($1) fetch decode
Execution
access
Write-back

sub $11, $2, $3 fetch decode
Execution
access
Write-back

add $12, $3, $4 fetch decode
Execution
access
Write-back

lw $13, 24($1) fetch decode
Execution
access
Write-back

add $14, $5, $6 fetch decode
Execution
access
Write-back
92
Single-cycle pipeline diagram
Mostrando o ciclo 5 das figuras anteriores

add $14, $5, $6 lw $13, 24 ($1) add $12, $3, $4 sub $11, $2, $3 lw $10, 20($1)
Instruction fetch Instruction decode Execution Memory Write-back
Add
Add
4 Add
result
Shift
left 2
0
M
u PC Address Read
Read
Instruction
x register 1
1 data 1
Read Zero
memory Address 1
Write 0 result data
data 2 M
register M
Data u
u
Write memory x
x 0
data 1
Write
data
16 Sign- 32
extend
93
Controle do pipeline (simplificado)
PCSrc
Add
4 Add Add
result Branch
Shift
left 2
0 RegWrite
M
Instruction
u PC Address Read
x register 1 Read MemWrite
1 data 1
Read Zero MemtoReg
ALUSrc
Instruction register 2 Add ALU
Registers Read
memory result Address 1
Write Read 0 data
data 2 M M
register u
u Data
x memory x
Write 0
data 1
Write
data
Instruction
(15–0) 16 Sign- 32 6
ALU
extend control MemRead
Instruction
(20–16)
0 ALUOp
M
Instruction u
x
(15–11) 1
RegDst
94
Controle do pipeline
WB
Instruction
Control M WB
EX M WB

95
Controle do pipeline
PCSrc
ID/EX
WB
EX/MEM
Control M WB
MEM/WB
EX M WB
IF/ID
Add
4 Add Add
Shift result
Branch
RegWrite
left 2
ALUSrc
MemWrite
0
MemtoReg
M
Address
Instruction
u PC Read
x register 1 Read
1 data 1
Read Zero
memory Registers Read Address 1
Write 0 result data
data 2 M M
register u
u Data
Write x memory x
data 1 0
Write
data
Instruction
[15–0] 16 Sign- 32 6
ALU
extend control MemRead
Instruction
[20–16] ALUOp
0
M
Instruction u
[15–11] x
1
RegDst
96
Para saber mais sobre pipeline e hazards de dados, controle e exceções
O livro traz na sua seção 4.7 como o pipeline deve ser alterado para levar em
consideração os hazards e fazer o forwarding/bypassing.
A seção 4.9 descreve o tratamento de interrupções e exceções.
Aqui não vamos entrar nestes detalhes, mas caso queira ainda mais detalhes
do que no livro [PH] vejam o livro [HP] disponível na bibliografia da
disciplina.
Vamos dar apenas uma rápida olhada sobre o branch predictor.
97
Dynamic branch predictor
Em processadores com um pipeline longo, o custo de chutar um branch

incorreto pode ser muito caro
A solução é usar algo mais certeiro que sempre chutar que um branch será
tomado ou não
Dynamic branch predictors usam uma predição dinâmica
I Branch predictor buffer (ou branch predictor table)
I Indexado pelos endereços dos branches mais recentes
I Guarda histórico do branch: se foi tomado ou não
Para executar um branch
I Verifica a tabela, chuta o mesmo resultado
I Começa a execução da instrução apontada pelo chute
I Se incorreto, limpa (flush) o pipeline e atualiza a tabela
98
Preditores de 1 bit
Têm um problema de errar a predição duas vezes em laços aninhados!

I Erram na última iteração do laço
I Erram na primeira iteração do laço
1 outer: ...
2 ...
3 inner: ...
4 beq ..., ..., inner
5 ...
6 beq ..., ..., outer
99
Preditores de 2 bits
Taken
Not taken
Predict taken Predict taken
Taken
Not taken Taken
Not taken
Predict not taken Predict not taken
Taken
Not taken
100
Preditores mais elaborados
Correlating predictors
I Mantem 2 automatos, um para quando um branch foi tomado pela última vez e
outro para quando não foi tomado. Mostra-se que isso traz um aumento
significativo do acerto.
Tournament predictors
I Mantém 2 preditores para cada branch. Conforme o branch vai executando, os
preditores são atualizados e a cada momento o que teve mais acertos
históricos é utilizado para prever o resultado. Alguns processadores recentes
usam este esquema.
101
Paralelismo de instruções
Uma maneira de aumentar o paralelismo é aumentar o comprimento do

pipeline (mas isto traz, como já vimos, outros problemas)
Alguns processadores são capazes de executar mais de uma instrução ao
mesmo tempo no mesmo estágio do pipeline
I Para isto, eles incluem hardware adicional para evitar conflitos.
I Isso, na nossa analogia, é equivalente a instalar diversas máquinas de lavar,
secar, …
I O nome geral que se dá a essa técnica é multiple issue
102
Multiple issue
Issue slots são cada uma das posições nas quais as instruções podem ser
selecionadas para execução em um único ciclo.
Issue packet é o conjunto de instruções que será selecionada para execução
em um único ciclo
Estático
I As decisões de quais instruções serão executadas ao mesmo tempo é definida
em tempo de compilação.
I Em arquiteturas VLIW (very long instruction word) as diversas instruções
independentes são empacotadas em uma única instrução (tipicamente com
diversos campos opcode diferentes)
Dinâmico
I As decisões de quais instruções serão executadas ao mesmo tempo é definida
pelo processador em tempo de execução.
I Normalmente o compilador já fez um primeiro passo de otimização.
103
Escalonamento estático de instruções
O compilador é o responsável por remover todos (ou quase) os hazards

I Precisa reordenar instruções dentro de issue packets
I Não pode haver dependêcias dentro de um pacote
I Talvez seja possível haver dependências entre pacotes
Mas depende da ISA! O compilador precisa saber dos detalhes
I Completa pacote com nops caso necessário
104
MIPS com dual-issue estático
Pacotes com dois slots

I Um para instruções ALU/Branch
I Um para instruções load/store
I Precisam estar alinhados em fronteiras de 64 bits
Instruction type Pipe stages

ALU or branch instruction IF ID EX MEM WB
Load or store instruction IF ID EX MEM WB
105
MIPS com dual-issue estático
⫹ M
u
4 x
ALU
M
Registers u
M x
80000180 u PC Instruction
x memory
Write
data
Data
Sign- ALU
extend memory
Sign-
extend
Address
106
Hazards no MIPS com dual-issue
Mais instruções executando em paralelo.

EX data hazard
I Forwarding resolveu os stalls com um sistema de single-issue
I Agora não podemos usar o resultado da ALU em um load/store no mesmo
pacote
1 add $t0, $s0, $s1

2 load $s2, 0($t0)
I É preciso quebrar em dois pacotes (essencialmente estamos fazendo um stall)

Load-use hazard
I Ainda há uma latência para usarmos de um ciclo, mas passa a ser uma espera
de 2 instruções
É necessário um mecanismo de escalonamento mais agressivo por parte do
compilador
107
Exemplo de escalonamento
Queremos escalonar:
Loop: lw $t0, 0($s1) # $t0=array element
addu $t0,$t0,$s2# add scalar in $s2
sw $t0, 0($s1)# store result
addi $s1,$s1,–4# decrement pointer
bne $s1,$zero,Loop# branch $s1!=0
Versão otimizada:
ALU or branch instruction Data transfer instruction Clock cycle

Loop: lw $t0, 0($s1) 1
addi $s1,$s1,–4 2
addu $t0,$t0,$s2 3
bne $s1,$zero,Loop sw $t0, 4($s1) 4
IPC = 5/4 = 1.25 (ideal IPC = 2)

108
Desenrolando laços
Desenrolar laços (loop unroling) permite que aproveitemos melhor os

recursos do processador
Replicamos o corpo do laço para expor mais paralelismo
I Reduz o overhead do controle do laço
Utilizamos diferentes registradores por iteração
I Chamado de ”register renaming”
I Evita anti-dependências loop-carried
Ex. Store seguido de load de um mesmo registrador
Também chamado de dependência de nome
Ocorre quando se reusa o nome de um registrador
109
Desenrolando laços - Exemplo
ALU or branch instruction Data transfer instruction Clock cycle

Loop: addi $s1,$s1,–16 lw $t0, 0($s1) 1
lw $t1,12($s1) 2
addu $t0,$t0,$s2 lw $t2, 8($s1) 3
addu $t1,$t1,$s2 lw $t3, 4($s1) 4
addu $t2,$t2,$s2 sw $t0, 16($s1) 5
addu $t3,$t3,$s2 sw $t1,12($s1) 6
sw $t2, 8($s1) 7
bne $s1,$zero,Loop sw $t3, 4($s1) 8
IPC = 14/8 = 1.75 (ideal IPC = 2)

I Estamos mais próximos de 2, mas pagamos em número de registradores
usados e tamanho do código
110
Processadores superescalares
São processadores com multiple issue dinâmico

O próprio processador decide se deve executar 0, 1, 2, … instruções por ciclo
I Também é responsável por cuidar de hazards estruturais e de dados
Diminui a pressão no escalonamento feito pelo compilador
I Apesar de ainda ser útil
I A semântica do código é garantida pela CPU
Algumas CPUs são capazes de escolher as instruções a serem executadas
fora de ordem (out-of-order)
I Mas ainda dão a ilusão ao usuário que as instruções estão sendo executadas
em ordem
111
Para que fazer escalonamento dinâmico?
Se não fazer simplificaria o hardware e o escalonamento poderia ser feito

pelo compilador?
I Alguns stalls não podem ser determinados em tempo de compilação
Ex. Falhas de cache
I Não é possível fazer o escalonamento no caso de branches
Já que por definição é determinado dinamicamente
I Isto tudo é muito dependente da ISA em questão.
112
Multiple-issue funciona?
Sim! Mas não tanto quanto gostaríamos.

Programas têm dependências que limitam o ILP.
I Algumas são dificílimas de eliminar.
Ex. Pointer aliasing.
Alguns tipos de paralelismo são difíceis de expor.
I Tamanho de janela limitada durante o issue de instruções.
Há atrasos no acesso à memória e uma banda limitada.
I É difícil de manter o pipeline cheio.
Especulação pode ajudar muito, se for bem feita.
113
Eficiência energética
A complexidade de escalonamentos dinâmicos e especulação exigem gasto

de energia.
Dependendo da aplicação, múltiplos núcleos simples podem ser mais
vantajosos.
Pipeline Issue Out-of-Order/ Cores/
Microprocessor Year Clock Rate Stages Width Speculation Chip Power
Intel 486 1989 25 MHz 5 1 No 1 5 W

Intel Pentium 1993 66 MHz 5 2 No 1 10 W
Intel Pentium Pro 1997 200 MHz 10 3 Yes 1 29 W
Intel Pentium 4 Willamette 2001 2000 MHz 22 3 Yes 1 75 W
Intel Pentium 4 Prescott 2004 3600 MHz 31 3 Yes 1 103 W
Intel Core 2006 2930 MHz 14 4 Yes 2 75 W
Intel Core i5 Nehalem 2010 3300 MHz 14 4 Yes 1 87 W
Intel Core i5 Ivy Bridge 2012 3400 MHz 14 4 Yes 8 77 W
114
Arm Cortex-A8 e Intel i7
Processor ARM A8 Intel Core i7 920
Market Personal Mobile Device Server, Cloud

Thermal design power 2 Watts 130 Watts
Clock rate 1 GHz 2.66 GHz
Cores/Chip 1 4
Floating point? No Yes
Multiple Issue? Dynamic Dynamic
Peak instructions/clock cycle 2 4
Pipeline Stages 14 14
Pipeline schedule Static In-order Dynamic Out-of-order with Speculation
Branch prediction 2-level 2-level
1st level caches / core 32 KiB I, 32 KiB D 32 KiB I, 32 KiB D
2nd level cache / core 128 - 1024 KiB 256 KiB
3rd level cache (shared) -- 2 - 8 MiB
115

04 Processador

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

04 Processador

Enviado por

Direitos autorais:

Formatos disponíveis

O Processador

Estes slides foram preparados para o curso de Arquitetura de Computadores

Informação é codificada em binário

Nesta aula revisamos brevemente alguns conceitos fundamentais que

Decoders escolhem uma dentre 2n saídas baseando-se em uma entrada de n

Permitem escolher uma entrada baseando-se num seletor

A 0 A tabela ao lado é equivalente a:

a. A 32-bit wide 2-to-1 multiplexor b. The 32-bit wide multiplexor is actually

Vamos adicionar ADD…

Um somador de 1 bit pode ser facilmente implementado usando o método

Nas aulas anteriores vimos que para números em complemento de 2, a

para fazer isso?

Basta então fornecer os sinais de controle corretamente.

De maneira semelhante, com pouquíssimas modificações já conseguimos

Operation Carry in Ainvert Binvert

Para saber se A = B podemos fazer A − B. Se for 0, então A = B. Basta negar

Operation Carry in Ainvert Binvert

Podemos juntar o Carry in e Binvert. Vamos chamar de Bnegate

Operation Bnegate Ainvert

O desempenho da CPU é influenciado por

PC → memória de instruções, carrega instrução

Elementos combinacionais que operam nos dados

Não podemos sair juntando fios. Precisamos de multiplexadores para

Lógica combinacional transforma os dados durante os ciclos de clock

Leem 2 operandos de registradores

5 Read ALU operation

Lê os operandos dos registradores

Lê os operandos dos registradores

PC + 4 from instruction datapath

O Datapath executa uma instrução por ciclo

Read ALU operation

Read ALUSrc ALU operation

ALU usada para

ALU control lines Function

Assuma que ALUOp de 2 bits é derivada do opcode

Instruction Instruction Desired ALU control

R-type 0 rs rt rd shamt funct

opcode always read, write for sign-extend

Instruction [25:21] Read

Instruction [25–21] Read

Instruction [15–0] 16 Sign- 32

Instruction [25–21] Read

Instruction [15–0] 16 Sign- 32

Instruction [25–21] Read

Instruction [15–0] 16 Sign- 32

Field 000010 address

Jump usa o endereço de uma palavra

Instruction [25–0] Jump address [31–0]

Instruction [25–21] Read

Instruction [15–0] 16 Sign- 32

O delay mais longo determina o período do clock

Instruction [25:21] Read

O delay mais longo determina o período do clock

Cinco estágios, um passo por estágio

1 IF Instruction Fetch - Busca instrução na memória.

Assuma que o tempo por estágio do pipeline seja de

lw $3, 300($0) 800 ps

200 ps 200 ps 200 ps 200 ps 200 ps 57

Se todos os estágios estiverem equilibrados (i.e. levam o mesmo tempo)

Tempo entre instruçõesSem pipeline

Se não estiverem balanceados, então o speedup é menor

A ISA do MIPS foi criada para ser executada em um pipeline.

Em certas situações não é possível iniciar a execução de uma instrução no