Escolar Documentos
Profissional Documentos
Cultura Documentos
Princípios Básicos
Equipe
Antônio Ferreira
Camilo Rodrigues
Flaviano Ramos
Rodrigo Deriggi
Breve Histórico
Ken Kutaragi e a Sony
Toshiba (Produção em massa e
conhecimento)
IBM (Design de Hardware)
Diferentes necessidades: Eficiência
energética, confiabilidade ,
previsibilidade e compatibilidade entre
diversas gerações
400 engenheiros das 3 empresas em
10 centros de desenvolvimento ao
redor do mundo
O que é a Arquitetura
Cell?
Computação distribuída de alta
performance
Hardware
Software: dados e programas (jobs),
enviados ao hardware e retornados
Arquitetura não-fixa: cooperação
(HDTV, Redes, doe o seu poder ocioso
etc.)
Escalabilidade: PDA’s a servidores,
roadrunner, sistemas completamente
diferentes.
Especificações
1 Processador Power Element (PPE).
8 Synergistic Processor Elements (SPEs).
Element Interconnect Bus (EIB).
Controlador de Acesso Direto à Memória (DMAC).
2 Controladores de Memória Rambus XDR.
Interface de entrada/saída Rambus FlexIO.
Capacidade de rodar a velocidades acima de 4GHz.
Largura de banda de memória de 25.6GB\s.
Largura de banda de entrada\saída de 76.8GB\s.
256 GFLOPS (Precisão simples a 4 GHz).
256 GOPS (Inteiros a 4 GHz).
25 GFLOPS (Precisão dupla a 4 GHz).
235 mm2.
235 milhões de transistores.
Consumo de 60 – 80 Watts a 4GHz.
Procesador Power Element
Processador convencional: comunica
tarefas aos SPE’s
64 bits
Arquitetura IBM Power (Power e
PowerPC)
512 KB de cache
Conjunto de instruções PowerPC
Executa duas instruções por vez
Execução de instruções em ordem
(reduz consumo de energia)
Hypervisor: Múltiplos sistemas
operacionais
Synergistic Processor Elements
(SPE’s)
Cada Cell: 8 SPE’s
Razões econômicas: PS3 tem 7,
eletrônicos 6
Processamento Vetorial: age como
independente
Registradores de 128 bits
4 Unidades de precisão simples: 32
GFLOPS
4 Unidades inteiros: 32 GOFLOPS
Não usa cache: “Memória Local”, 256
KB
Synergistic Processor Elements
(SPE’s)
Processamento Vetorial
SPE’s são “processadores
vetoriais”
Podem executar múltiplas
operações simultaneamente com
uma única instrução
4 operações de 32 bits/ciclo
Para desempenho máximo, os
programas devem ser
“vetorizados”
“Memória Local” dos
SPE’s
“Memória Local em vez de cache
Programação um pouco mais
difícil
Hardware menos complexo
Melhor performance
Não há preocupação com o
comportamento do cache
Exemplo: Áudio em pacotes,
melhor performance do Cell
Processamento do Cell
Tarefas são divididas em uma
série de passos
Cada passo é executado com um
ou mais SPE’s trabalhando nele
Cada SPE Lê a saída do
processamento do anterior e
gerar uma saída para o próximo
SPE ler
Exemplo: Decodificação de sinal
de TV digital
Decodificação de sinal de TV
digital