Trinity

Seminário Arquiteturas Paralelas – PPGCC
Prof. Dr. César A. F. De Rose
Trinity
Gabriella Lopes Andrade
Sumário
• Introdução
• Los Alamos National Laboratory
• Aplicação
• Sistema de Resfriamento
• Desempenho
• Arquitetura
• Classificações
• Conclusões
• Referências
2
Introdução
• Construído em 2015
• Projeto do Centro Nacional de Computação Científica de Pesquisa Energética
(NERSC) e da Aliança para Computação em Extrema Escala (ACES)
• ACES é uma aliança entre o Laboratório Nacional de Los Alamos e os Laboratórios
Nacionais de Sandia
• Laboratórios de pesquisa e desenvolvimento da Administração Nacional de Segurança Nuclear (NNSA)
• Fornecido pela Cray (US $ 174 milhões)
Fonte: [LANL., 2019]

Laboratório Nacional de Los Alamos
• Laboratório Federal do Departamento de
Energia (DOE) dos EUA
• Parceria com a Universidades da Califórnia e do
Texas
• Localizado em Los Alamos, no Novo México, EUA
• 56 Km ao noroeste de Santa Fé
Fonte: [The Editors of Encyclopaedia Britannica, 2019]
• 9 milhões ft²
• 11.956 funcionários
• 1.368 estudantes
• 400 pós-doutorandos
• Foco em segurança nuclear e energia
Fonte: [LANL, 2018]

Aplicação
• Utilizado pelo NNSA para modelagem 3D
de explosões nucleares
• Los Alamos:
• 1945 – 1992: projetou, testou e construiu muitos
tipos diferentes de armas
• Projeto Trinity
• Hoje: usa a ciência e engenharia para garantir que
as armas são seguras e eficazes
Fonte: [LANL, 2015b]
5
Sistema de Resfriamento
• Water cooling
• Refrigeração a água morna
• Usinas de resfriamento ao invés de do uso da
água da cidade/poço
• Utiliza água da Instalação de Recuperação de
Efluentes Sanitários (SERF) da LANL,
• Economiza de dezenas de milhões de galões de água
de poço por ano.
Fonte: [Los Alamos, 2015]
6
Desempenho – Top 500
• Benchmark Linpack
• Reflete o desempenho de um sistema
dedicado para resolver um denso
sistema de equações lineares
• Operações ponto flutuante por
segundo
7
Desempenho – Top 500
• Benchmark Linpack
• Reflete o desempenho de um sistema
dedicado para resolver um denso
sistema de equações lineares
• Operações ponto flutuante por
segundo
6º Lugar
Rmax 20.158,7 Tflops/s
Rpeak 41.461,2 Tflop/s
Nmax = 12.353.536
7
Desempenho – Linha do Tempo
6º lugar no Top500 10º lugar no Top500 7º lugar no Top500 6º lugar no Top500
Novembro, 2015 Novembro, 2016 Novembro, 2017 Novembro, 2018
Jan - Abr Mai - Ago Set - Dez Jan - Abr Mai - Ago Set - Dez Jan - Abr Mai - Ago Set - Dez Jan - Abr Mai - Ago Set - Dez Jan - Abr Mai - Ago
2015 2016 2017 2018 2019
7º lugar no Top500 10º lugar no Top500 9º lugar no Top500

Junho 2016 Junho, 2017 Junho, 2018
8
Arquitetura
• Modelo de mantufatura: Cray Inc. • Processadores:
• Arquitetura: Cray XC40 • Intel Xeon E5-2698v3 16c 2,3 GHz
• Intel Xeon Phi 7250, 68c 1,4 GHz
• Capacidade de Memória: 2,07 Pebibytes
• Cores: 979.072
• Tipo de Memória: DDR4 RAM
• Nós: 19.420
• Interconexão: Aries • 9.436 Intel Xeon E5-2698v3
• Topologia: Dragonfly • 9.984 Intel Xeon Phi 7250
• SO: Cray Linux Environment • CPUs/Nós: 2
• Acelerador: Não possui • Nº de CPUs: 38.840
• Memória/nó: 2
9
Arquitetura
Intel Xeon E5-2698v3 Intel Xeon Phi 7250
Arquitetura Haswell Knights Landing
Número de núcleos 16 68
Threads por núcleo 2 -
Frequência 2.3 GHz 1,4 GHz
Capacidade de Memória 768 GB 384 GB
Tipo de memória DDR4 1600/1866/2133 DDR4-2400
Nº máximo de canais da memória 4 6
Largura de banda máxima da memória 68 GB/s 115,2 GB/s
10
Arquitetura
• Nó de computação:
• 2 x Intel® Xeon® E5-2698v3
• 16 cores
• Interconexão QPI
• Formam 2 nós NUMA
• Memória compartilhada dentro do nó
• 8 canais de DDR4
• Máximo de 128 GB total por nó
• 1 x Aries NIC
• Conecta-se ao roteador Aries compartilhado e a
uma rede mais ampla
• PCIe 3.0
Fonte: [Esposito, 2016] 11

Sistema
• Interconexão Aries
• Implementa a topologia Dragonfly
Sistema
• Rede Rank-3
Grupo • Rede Ótica
• Rede Rank-2 Ativa
• Rede Elétrica • Centenas de
Chassis Passiva gabinetes
• Rede Rank-1 • 2 gabinetes • 19.420 nós
• 6 chassis de
• 16 compute computação
Blades • 384 nós de
• Sem cabos computação
Compute
• 64 nós de
Blade computação
• 4 nós de 12
computação
Conexão entre os nós
• Conecta os nós no blade
• 4 nós de computação por blade
Fonte: [Cray Inc., 2016b]

Chip
Rede Nó Memórias
Aries
CPU
CPU
CPU
CPU
13
Fonte: [Katsardis, 2016]

Chassis – Rank 1
• Chassi com 16 blades de computação
• Totalmente conectados
• Comunicação com o Aries pelo backplane
14

Grupo - Rank 2
• Rede elétrica passiva
• Conecta múltiplos chassis
• Conexão de malha completa
Grupo de dois
gabinetes
768 cpus
6 backplanes
conectados com
cabos de cobre em
um gurpo de 2
gabinetes:
“rede preta”
Grupos
4 nós interconectados
16 Aries conectados conectam-se a por cabos ópticos
por backplane um único ativos
“Rede Verde” Aries “Rede Azul” 15

Sistema - Rank 3
• Todos os Grupos conectados entre si por cabos ópticos (Rede azul)
• Topologia Dragonfly
Fonte: [Cray Inc., 2014b] Fonte: [Cray Inc., 2014b]

17
Classificações
• Flynn
• Flynn-Johnson
• Compartilhamento de Memória
• Acesso à Memória
• Tendências na Construção de Arquiteturas
• Dongara
• Rede de Interconexão
18
Flynn
• Estabelecida em 1966
• Fluxos de Dados X Fluxos de Instruções
Fonte: [Gaioso, 2014]

19
Flynn
• Fluxos de Dados X Fluxos de Instruções
MIMD
Fonte: [Gaioso, 2014] Fonte: [De Rose and Navaux, 2003]

19
Flynn-Johnson
• Complemento à classificação MIMD

20
Flynn-Johnson
• Complemento à classificação MIMD
DMMP
20
Compartilhamento e Acesso à Memória
Fonte: [De Rose and Navaux, 2003]

21

21

21

21
Cache coerente:
apenas a memória
do nó local pode
ser armazenada em
cache

21
Tendências na Construção
• Modelos físicos de máquinas paralelas que constituem as principais tendências para
a construção destes sistemas
Processadores vetoriais paralelos (PVP)
Multiprocessadores simétricos (SMP)
Máquinas maciçamente paralelas (MPP)
Máquinas com memória compartilhada distribuída (DSM)
Redes de estações de trabalhos (NOW)
Máquinas agregadas (COW)

22
Tendências na Construção
• Modelos físicos de máquinas paralelas que constituem as principais tendências para
a construção destes sistemas
Processadores vetoriais paralelos (PVP)
Multiprocessadores simétricos (SMP)
Máquinas maciçamente paralelas (MPP)
Máquinas com memória compartilhada distribuída (DSM)
Redes de estações de trabalhos (NOW)
Máquinas agregadas (COW)

22
Top 500
• Arquitetura:
Cluster MPP
23
Top 500
• Arquitetura:
Cluster MPP
23
Dongara
• Nem tudo é cluster
Cluster Naming Parallelism Latency

c: commodity cluster d: distributed t: multithreading c: caches
m: monolithic system s: shared v: vector v: vectors
c: cache coherent c: communication t: multithreaded
sequential processes or m: processor in
message passing memory
s: systolic p: parcel or message
w:VLIW driven split-transaction
h: producer/consumer f: prefetching
p: parallel processes a: explicit allocation
24
Dongara
• Nem tudo é cluster
Cluster Naming Parallelism Latency

c: commodity cluster d: distributed t: multithreading c: caches
m: monolithic system s: shared v: vector v: vectors
c: cache coherent c: communication t: multithreaded
sequential processes m: processor in
or message passing memory
s: systolic p: parcel or message
w:VLIW driven split-
h: producer/consumer transaction
p: parallel processes f: prefetching
a: explicit allocation
24
Rede de Interconexão
• Dragonfly:
• Evolução da Malha 2D
• Universidade de Stanford, juntamente com engenheiros da Cray
25
Fonte: [Catarion, 2015]
Rede de Interconexão
• Tipo de Rede: Dragonfly
• Rede hierárquica
• Estática
Fonte: [Anbar et al.,2015]

26
Conclusões
• 6º no Top 500
• Rpeak 41.461,2 Tflop/s
• Rede de Irterconexão proprietária Aries
• Topologia Dragonfly
• Rede estática
• MIMD: Múltiplos fluxos de instruções e múltiplos fluxos de dados

• Cada nó possui sua memória local
• Compartilhamento de memória entre processadores do nós
• Não é possível acessar a memória dos nós vizinhos
• DMMP, Multicomputador, NORMA e MPP
• Classificação de Dongara
• Não é totalmente monolítico
27
Referências
• Anbar, Ahmad, et al. "PHLAME: Hierarchical locality exploitation using the PGAS model." 2015 9th International
Conference on Partitioned Global Address Space Programming Models. IEEE, 2015.
• Alverson, Bob et al. “Cray XC series network.” Cray Inc.,White Paper WP-Aries01-1112, 2012.
• BBC Brasil. “Explosão da 1ª bomba atômica faz 60 anos.” 2005. Disponível em:
<https://www.bbc.com/portuguese/reporterbbc/story/2005/07/050715_bombacc.shtml>. Acesso em: 3 jun. 2019.
• Catarion, M. H. “Evolução das Redes de Interconexão” Programa de Ciências da Computação IME-USP, Computação
Paralela e Distribuída, Notas de Aula, 2015.
• Cray Inc. "Cray® XC40™ Supercomputer Intel® Xeon® Processor Compute Blade", 2016a. Disponível em:
<https://www.cray.com/sites/default/files/resources/CrayXC_IntelXeonPDC.pdf>. Acesso em: 9 jun. 2019.
• Cray Inc. "Press Release: Cray Awarded $174 Million Supercomputer Contract From the National Nuclear Security
Administration". 2014a Disponível em: <http://investors.cray.com/phoenix.zhtml?c=98390&p=irol-
newsArticle&ID=1946457&highlight=>.Acesso em: 3 jun. 2019.
• Cray Inc. “Cray XC Architecture Overview.” 2014b. Disponível em: <http://pratyush.tropmet.res.in/wp-
content/uploads/2018/01/Cray-XC-Architecture-and-Interface.pdf>. Acesso em: 3 jun. 2019.
• Cray Inc. "Cray XC40 – Scaling Across the Supercomputer Performance Spectrum", 2016b. Disponível em:
<https://www.cray.com/sites/default/files/resources/CrayXC40Brochure.pdf>. Acesso em: 10 jun. 2019.
28
Referências
• Cray Inc. “National Nuclear Security Administration Ensures Safety and Security of U.S. Nuclear Stockpile with Cray®
XC40™ “Trinity” Supercomputing Solution”, 2015. Disponível em: <https://www.cray.com/sites/.../CP-Cray-NNSA-XC40-
Trinity.pdf>. Acesso em: 6 jun. 2019.
• Cray Inc. “XC™ Series System Administration Guide (CLE 7.0.UP00) S-2393”, 2019. Disponível em:
<https://pubs.cray.com/content/S-2393/CLE%205.2.UP03/cle-xc-system-administration-guide-s-2393-5203-xc/cray-
system-components>. Acesso em: 3 jun. 2019.
• De Rose, C. A. F. and Navaux, P. O. A. "Arquiteturas paralelas." Série Livros Didáticos UFGRS, Nº 15. Porto Alegre, Brasil:
Editora Sagra Luzzatto, 2003.
• Dongarra, Jack, et al. "High-performance computing: clusters, constellations, MPPs, and future directions." Computing in
Science & Engineering 7.2 (2005): 51-59.
• Esposito,A.“Performance Tuning and Scaling on the Cray XC40 System Shaheen”, HPC Saudi, 2016.
• Gaioso, R. D. R. A. "Implementações paralelas para os problemas do fecho transitivo e caminho mínimo APSP na GPU."
Dissertação (mestrado), Programa de Pós–Graduação do Instituto de Informática da Universidade Federal de Goiás,
2014.
• Ghose, C. “Battelle gets the keys to Los Alamos National Laboratory, its 7th federal lab management contract.” 2018.
Disponível em: <https://www.bizjournals.com/columbus/news/2018/07/09/battelle-gets-the-keys-to-los-alamos-
national.html>.Acesso em: 3 jun. 2019.
29
Referências
• Intel, “Processador Intel® Xeon® E5-2698 v3”, 2019. Disponível em:
<https://ark.intel.com/content/www/br/pt/ark/products/81060/intel-xeon-processor-e5-2698-v3-40m-cache-2-30-
ghz.html>.Acesso em: 5 jun. 2019.
• Intel, “Processador 7250 Intel® Xeon Phi™”, 2019b. Disponível em:
<https://ark.intel.com/content/www/br/pt/ark/products/94035/intel-xeon-phi-processor-7250-16gb-1-40-ghz-68-
core.html>. Acesso em: 5 jun. 2019.
• Johnson, Eric E. "Completing an MIMD multiprocessor taxonomy." ACM SIGARCH Computer Architecture News, vol. 16,
num. 3, pg 44-47, 1988.
• Katsardis, I. “Cray XC40 Architecture Overview”. Cray Inc. 2016.
• Kim, John et al. "Dragonfly processor interconnect network." U.S. Patent Application n. 12/195,198,25 fev. 2010.
• LANL. "Cooling new Trinity supercomputer." 2015a. Disponível em: <https://www.lanl.gov/newsroom/picture-of-the-
week/pic-week-1.php>.Acesso em: 3 jun. 2019.
• LANL, "NNSA awards Los Alamos National Laboratory management & operating contract," 2018. Disponível em:
<https://www.lanl.gov/discover/news-stories-archive/2018/June/0608-new-contractor.php>. Acesso em: 3 jun. 2019.
• LANL. “Trinity to Trinity.” 2015b. Disponível em: <https://www.lanl.gov/discover/publications/national-security-
science/2015-july/trinity-trinity.php>.Acesso em: 3 jun. 2019.
30
Referências
• LANL. "Trinity: Advanced Technology System. 2019. " Disponível em: <https://lanl.gov/projects/trinity/>. Acesso em: 3 jun.
2019.
• NERSC. "Trinity / NERSC-8 RFP". 2013. Disponível em: <https://www.nersc.gov/users/computational-systems/cori/nersc-
8-procurement/trinity-nersc-8-rfp/>. Acesso em: 3 jun. 2019.
• The Editors of Encyclopaedia Britannica. "Los Alamos National Laboratory - laboratory, Los Alamos, New Mexico,
United States". 2013. Disponível em: <https://www.britannica.com/topic/Los-Alamos-National-Laboratory>. Acesso em:
3 jun. 2019.
• Top500. “NOVEMBER 2018”. 2018. Disponível em: <https://www.top500.org/lists/2018/11/>. Acesso em: 3 jun. 2019.
• Top 500. “The Linpack Benchmark.” 2018b. Disponível em: <https://www.top500.org/project/linpack/>. Acesso em: 3 jun.
2019.
• Vigil, Benny Manuel. Trinity Advanced Technology System Overview. No. LA-UR-14-28143. Los Alamos National Lab.(LANL),
Los Alamos, NM (United States), 2014.
31
Obrigada Gabriella Lopes Andrade
gabriella.andrade@edu.pucrs.br

Trinity

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trinity

Enviado por

Direitos autorais:

Formatos disponíveis

Seminário Arquiteturas Paralelas – PPGCC

Prof. Dr. César A. F. De Rose

Fonte: [LANL., 2019]

Fonte: [LANL, 2018]

Fonte: [LANL, 2015b]

Fonte: [Los Alamos, 2015]

2015 2016 2017 2018 2019

7º lugar no Top500 10º lugar no Top500 9º lugar no Top500

Fonte: [Esposito, 2016] 11

Fonte: [Cray Inc., 2016b]

Fonte: [Katsardis, 2016]

Fonte: [Cray Inc., 2014b]

Fonte: [Cray Inc., 2014b]

Fonte: [Cray Inc., 2014b] Fonte: [Cray Inc., 2014b]

Fonte: [Gaioso, 2014]

Fonte: [Gaioso, 2014] Fonte: [De Rose and Navaux, 2003]

Fonte: [Gaioso, 2014]

Fonte: [De Rose and Navaux, 2003]

Fonte: [De Rose and Navaux, 2003]

Fonte: [De Rose and Navaux, 2003]

Fonte: [De Rose and Navaux, 2003]

Fonte: [De Rose and Navaux, 2003]

Processadores vetoriais paralelos (PVP)

Multiprocessadores simétricos (SMP)

Máquinas maciçamente paralelas (MPP)

Máquinas com memória compartilhada distribuída (DSM)

Redes de estações de trabalhos (NOW)

Máquinas agregadas (COW)

Processadores vetoriais paralelos (PVP)

Multiprocessadores simétricos (SMP)

Máquinas maciçamente paralelas (MPP)

Máquinas com memória compartilhada distribuída (DSM)

Redes de estações de trabalhos (NOW)

Máquinas agregadas (COW)

Fonte: [De Rose and Navaux, 2003]

Cluster Naming Parallelism Latency

Cluster Naming Parallelism Latency

Fonte: [Anbar et al.,2015]

• MIMD: Múltiplos fluxos de instruções e múltiplos fluxos de dados

Você também pode gostar