Introdução Ao Processamento Paralelo

Introdução ao
Processamento
Paralelo
Prof. Edson Pedro Ferlin
by Prof. Edson Pedro Ferlin
Processamento Paralelo
“É uma forma eficiente do processamento da

informação com ênfase na exploração de eventos
concorrentes no processo computacional.”
Razões para utilização do

¡ Capacidade de aumentar o
processamento com uma única
máquina;
¡ Limitação física;
¡ Processadores em paralelo.
Abrangência
¡ Aplicações em Alto Desempenho;

¡ Partição dos algoritmos paralelos;
¡ Linguagens paralelas;
¡ Compiladores;
¡ Sistemas Operacionais;
¡ Arquiteturas paralelas;
¡ Mapeamento de Algoritmos.
Processamento Paralelo existe apartir

do momento em que dois ou mais
processadores interagem entre si para
resolverem uma determinada tarefa de
forma cooperativa.
Aplicações do Processamento Paralelo
onde há necessidade de grande

poder de processamento.
Classificação das Arquiteturas (Flynn

(Flynn))
¡ SISD (Single Instruction - Single Data)
l Von Neumann
¡ SIMD (Single Instruction - Multiple Data)

l Processadores Matriciais (Vetoriais)
¡ MISD (Multiple Instruction - Single Data)

l Não existe na prática
¡ MIMD (Multiple Instruction - Multiple Data)

l Multiprocessadores e Clusters
Arquiteturas Paralelas (Taxonomia)

Arquiteturas Paralelas
Multicomputador
ou Cluster
Multiprocessador
Avaliar e Medir
¡ Discernir se o desempenho está

melhorando:
l Programas Benchmarks;
l Métricas.
Métricas
¡ FLOP (Operação em Ponto Flutuante executada

por segundo)
¡ MIPS (Milhões de Instruções executadas por

segundo)
Ganho em Tempo de Processamento
¡ Hardware (EPs e organização)

¡ Software (paralelismo e dependências)
Tempo de Processamento
12
Tempo Padronizado
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9 10
Nº de EPs
Tempo de Execução
0,7
0,6
0,5
Tempo (s)
0,4 Dual
0,3 Mono
0,2
0,1
0
2 3 4 5 6 7 8 9 10 11
Nº Processadores
Speedup Ideal x Real
Speedup Ideal e Real
25
20
Speedup
15 Ideal
10 Real
0
1 3 5 7 9 11 13 15 17 19
Nº de Processadores
Speedup
12
10
8
Speedup
Mono
6 Dual
Ideal
4
0
1 2 3 4 5 6 7 8 9 10
Nº Processadores
Arquiteturas dos Computadores para

¡ Eventos Paralelos - ocorrem com múltiplos

recursos no mesmo intervalo de tempo. São os
multiprocessadores e clusters que atendem este
paralelismo.
¡ Eventos Simultâneos - ocorrem no mesmo

instante de tempo. São as arquiteturas
matriciais (SIMD) e máquinas VLIW.
¡ Eventos Pipeline - ocorrem em instantes de

tempo sobrepostos. São as arquiteturas
pipeline.
Máquinas Paralelas
Máquina Paralela (Multiprocessador ou Cluster) é um

computador que possui vários processadores que se
comunicam e cooperam em diferentes níveis para
resolverem uma determinada tarefa:
• Fortemente Acoplados quando a interação entre os

processadores é frequente
• Fracamente Acoplados quando a interação entre os

processadores não é frequente
Top of Máquinas Paralelas
R
a
n RMax
k Manufacturer Processors (TFlops) Processor Frequency System Family Architecture
1 IBM 122400 1.026 PowerXCell 8i 3200 IBM Cluster Cluster
2 IBM 212992 478,2 PowerPC 440 700 IBM BlueGene MPP
3 IBM 163840 450,3 PowerPC 450 850 IBM BlueGene MPP
AMD x86_64 Opteron
4 Sun Microsystems 62976 326 Quad Core 2000 Sun Blade System Cluster
AMD x86_64 Opteron
5 Cray Inc. 30976 205 Quad Core 2100 Cray XT MPP
Fonte: www.top500.org (2008)
Nº
Modelo Ano Arquitetura Processadores TFlops
DOE/NNSA/LANL 2008 Cluster (PowerXCell 8i ) - 3.2GHz 122.400 1.026,00
Earth Simulator 2002 Cluster (NEC SX - 640x8) - 500MHz 5.120 35,86
Exemplos de Máquinas Paralelas
Earth Simulator
NEC
5120 Processadores
(640x8) NEC SX-6
500MHz
35,86 Tera Flops
10 Tera Bytes
Área (4 quadras de tênis,
3 andares)
ASCI Q
Hewlett-Packard
4096 Processadores
(1024x4) Alpha 21264
EV-68 1.25-GHz
13,88 Tera Flops
33 Tera Bytes
MCR Linux Cluster
Linux Networx
2304 Processadores
(576x4) Intel Xeon
2.4 GHz
7,634 Tera Flops
4,6 Tera Bytes

ASCI White
IBM
8192 Processadores
(512x16) Power3
375MHz
7,304 Tera Flops
6 Tera Bytes
Área (2 quadras de
basquete, 106 ton)
Seaborg
IBM
2944 Processadores
(416x16) Power3+
375MHz
7,304 Tera Flops
2,304 Tera Bytes
Hyper Threading
Dual e Quad Core
Pentium D
Quad-Core
Dual-Core
Níveis de Paralelismo - Granularidade
¡ Nível 5 - Processos independentes (jobs) e

Programas
¡ Nível 4 - Sub-processos e pontes de programas
¡ Nível 3 - Rotinas, Sub-rotinas e Co-rotinas
¡ Nível 2 - Iterações (Laços)
¡ Nível 1 - Instruções
Macrotasking
Tempo de Execução
Processador 0 S1 S2 S3 S4
Macrotasking
Processador 0 S1
Processador 1 S2
Programa:
CALL S1( ... )
CALL fork (S2, ... )
Processador 2 S3
Processador 3 S4
Microtasking
Tempo de Execução
Processador 0
I=1 I=2 I=3 I=4 I=5 ... I=N
Microtasking
Processador 0 I=1 I=5
Processador 1 I=2 ...
Programa:
Processador 2 I=3 ... DO I = 1, N
{ Corpo do Laço }
END_DO
Processador 3 I=4 ...
Tarefa 1 Tarefa 2 Tarefa 3
Autotasking
Macrotasking
Tarefa 1
I=1 I=2 I=3 I=4 ... I=N
Tarefa 2
Tarefa 3 Programa:
...
CALL fork ( . . .,Tarefa 1)
CALL fork ( . . .,Tarefa 2)
CALL Tarefa 3
Microtasking ...
Tarefa 1
Processador 0
I=1 I=3 . . . ...
Tarefa 1 Tarefa 1 :
Processador 1 ...
I=2 I=4 . . . I=N DO I = 1, N
DO J = 1, N
Processador 2 Tarefa 2 { Corpo do Laço }

END_DO
END_DO
Processador 3 Tarefa 3
Tempo de Processamento Tempo de Processamento Reduzido pela Paralelização

Programação
¡ Paralelização Explicita
l OCCAM e HPF
¡ Paralelização Implícita
l SISAL
¡ Paralelização Automática
l Métodos específicos
Linguagens de Programação
¡ Linguagens projetadas especificamente

para o Processamento Paralelo
¡ Linguagens convencionais ampliadas por

primitivas para expressar o paralelismo
¡ Linguagens sem extensões

Ambientes de Programação
¡ MPI - Message Passing Interface
¡ PVM - Parallel Virtual Machine
Paralelizador Automático
¡ Todas as fases usuais de um Compilador

¡ Análise Léxica
¡ Análise Sintática
¡ Análise Semântica
¡ Geração do Código
¡ Otimização do Código
¡ Detecção de Paralelismo
¡ Alocação de Recursos
Paralelização Automática
¡ Vantagens
l Grande quantidade de software já desenvolvido;
l Independência do programador (paralelização);
l Adequação à arquitetura paralela.
¡ Desvantagens
l Desenvolvimento de compiladores
paralelizadores;
l Baixa eficiência dos compiladores;
l Custo.
Condição de Bernstein
¡ Dois comandos S e T podem ser

executados em paralelo se e somente se
in(S) ∩ out(T) = ∅
in(T) ∩ out(S) = ∅
out(S) ∩ out(T) = ∅
Dependência dos Dados
¡ Flow Dependence - Dependência de Fluxo;

¡ Anti Dependence - Anti-Dependência;
¡ Output Dependence - Dependência de Saída;
¡ Input Dependence - Dependência de Entrada;
¡ Dependência Condicional;
¡ Dependência de Repetição.
Eliminação de Dependências
¡ Renomeação;
¡ Substituição a frente;
¡ Expansão Escalar;
¡ Distribuição do Laço.
Métodos de Paralelização Automática
¡ Método Hiperplano;
¡ Método Utilizando Transformações
Unimodulares;
¡ Método Alocação de Dados Sem
Comunicação;
¡ Método Particionamento e Rotulação.
Escalonamento e Balanceamento da
carga
¡ Estático em tempo de compilação
¡ Dinâmico em tempo de execução

HPRC (High-
(High-Performance
Reconfigurable Computing)
Computação Tradicional
¡ Circuito Integrado específico para a

aplicação ou ASIC (Application-
Specific Integrated Circuit)
¡ Microprocessadores
Posicionamento
Níveis de Acoplamento
Projetos
¡ Arquitetura Paralela Reconfigurável para

Algoritmos Genéticos aplicada à Síntese
de Circuitos Combinacionais.
¡ Arquitetura Paralela Reconfigurável

baseada em Fluxo de Dados
implementada em FPGA.
Arquitetura Paralela
aplicada a Algoritmos Genéticos
Tempo de uma geração
1%
4%
2%
Avaliação
Seleção
Crossover
Mutação
93%
Arquitetura Paralela
baseada em Fluxo de Dados
¡ Conceito
década de 70
¡ Não segue o
modelo Von
Neumann
Arquitetura Paralela E
E
' HVW
LQR E
8
/
E
7HPSO
DWH
E
' HVW
LQR $
Fluxo de Dados E E
(3
(3
(3
(3
(3 (3
(3
HVWLQRHQGHUHoREL
G
WW (3 7HPODWH
(3 (3
(3
(3
(3 (3
(3
(3
ELW
V (3 ELW
V
5 HVXOW
DGRV 7 HPSODWHV
GRV SDUD
(3V (3V
88QQ LGDG
LGDHH
G
88QQLL
GGDDGGHH ELW
V 8Q
88 QH
Q
LGLGDDGG
HH
8G HQ
G
LG
LG
HG
DG
DGHH
GGH 0 HP y ULD GHH
GG HHHQW ELW
V ' ' HVSDFKR
$UP
U$PD]
$$U D]HQDP
HQDP RR
HQW GH ' HVSDFKR
' HVSDFKR
HVSDFKR
PU
PD]D]HQDP
HQDP HQW
HQW
RR
7HPSO DW HV
ELW
V
ELW
V ELW
V
6QRRS
66QRRS
QRRS
6QRRS
ELW
V %XIIHU
&RQVXO
WDW %XIIHU
&RQVXOD %XIIHU
7HPSO DWH
&RQVXOW
D 7HPSO DWHH
%XIIHU
&RQVXOWD 7HPSO DW
7HPSODWH
W
V
$W
XDOL]D W
V 0 HP y ULD
GH ELW
V
' DGRV
W
V W
V
,QW
HUIDFH
+ RVW
&RQW
URO
DGRU
Características
¡ FPGA Stratix II EP2S60F672C3

¡ 60% EL
¡ 5% Memória
Característica Valor Unidade

Número máximo de EPs 16 -
Freqüência de Operação 50 MHz
Complexidade do EP ULA ponto fixo de 8/16 bits -
Despacho Paralelo/Bufferizado -
Armazenamento Paralelo/Bufferizado -
Quantidade de Instruções 16 -
Tempo de Clock 20 ns
Memória de Templates 1K Templates
Memória de Dados 1Kx16 bits
Testes
120
100
Independente
Tempo Normalizado
80 FIR
Ideal
60
40
20
0
1 4 8 16
Nº de EPs
Futuro
¡ Utilização em maior escala;

¡ Desenvolvimento de software apropriado;
¡ Aumento do número de desenvolvedores,
tanto de hardware quanto de software;
¡ Implementação em FPGA;
¡ High-Performance Reconfigurable
Computing;
¡ “Cultura” em Processamento Paralelo;
Obrigado
pela
Atenção

Introdução Ao Processamento Paralelo

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução Ao Processamento Paralelo

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução ao

by Prof. Edson Pedro Ferlin

“É uma forma eficiente do processamento da

Razões para utilização do

by Prof. Edson Pedro Ferlin

¡ Aplicações em Alto Desempenho;

Processamento Paralelo existe apartir

by Prof. Edson Pedro Ferlin

Aplicações do Processamento Paralelo

onde há necessidade de grande

Classificação das Arquiteturas (Flynn

¡ SIMD (Single Instruction - Multiple Data)

¡ MISD (Multiple Instruction - Single Data)

¡ MIMD (Multiple Instruction - Multiple Data)

by Prof. Edson Pedro Ferlin

Arquiteturas Paralelas (Taxonomia)

by Prof. Edson Pedro Ferlin

¡ Discernir se o desempenho está

¡ FLOP (Operação em Ponto Flutuante executada

¡ MIPS (Milhões de Instruções executadas por

by Prof. Edson Pedro Ferlin

Ganho em Tempo de Processamento

¡ Hardware (EPs e organização)

by Prof. Edson Pedro Ferlin

Speedup Ideal x Real

Speedup Ideal e Real

by Prof. Edson Pedro Ferlin

Arquiteturas dos Computadores para

¡ Eventos Paralelos - ocorrem com múltiplos

¡ Eventos Simultâneos - ocorrem no mesmo

¡ Eventos Pipeline - ocorrem em instantes de

Máquina Paralela (Multiprocessador ou Cluster) é um

• Fortemente Acoplados quando a interação entre os

• Fracamente Acoplados quando a interação entre os

by Prof. Edson Pedro Ferlin

Top of Máquinas Paralelas

Fonte: www.top500.org (2008)

Exemplos de Máquinas Paralelas

by Prof. Edson Pedro Ferlin

by Prof. Edson Pedro Ferlin

MCR Linux Cluster

4,6 Tera Bytes

by Prof. Edson Pedro Ferlin

by Prof. Edson Pedro Ferlin

Dual e Quad Core

Níveis de Paralelismo - Granularidade

¡ Nível 5 - Processos independentes (jobs) e

by Prof. Edson Pedro Ferlin

Processador 0 I=1 I=5

Processador 1 I=2 ...

by Prof. Edson Pedro Ferlin

Tarefa 1 Tarefa 2 Tarefa 3

I=1 I=2 I=3 I=4 ... I=N

Processador 2 Tarefa 2 { Corpo do Laço }

Tempo de Processamento Tempo de Processamento Reduzido pela Paralelização

by Prof. Edson Pedro Ferlin

¡ Linguagens projetadas especificamente

¡ Linguagens convencionais ampliadas por

¡ Linguagens sem extensões

¡ MPI - Message Passing Interface

¡ PVM - Parallel Virtual Machine

by Prof. Edson Pedro Ferlin

¡ Todas as fases usuais de um Compilador

l Independência do programador (paralelização);