Escolar Documentos
Profissional Documentos
Cultura Documentos
CLUSTER COARACI
Sumário
-----------------------------------------------------------------------------------------------------------------------------------
Hardware: 1
Headnode 1
Login Node 1
Nós Computacionais 2
Transferência de arquivos: 3
Via SCP - usando o putty 3
Via WinSCP 5
Gerenciamento do cluster: 7
Submetendo seu job 7
Acompanhamento de job 8
-----------------------------------------------------------------------------------------------------------------------------------
Hardware:
Headnode
1 (um) servidor Dell EMC PowerEdge R6525 configurado com:
· 2 (dois) processadores AMD EPYC 7282;
· 256GB de memória DDR4;
· 2 (dois) SSDs de 480GB em RAID1;
· 2 (duas) portas Gigabit Ethernet;
· 2 (duas) portas Mellanox InfiniBand ConnectX.
Login Node
1 (um) servidor Dell EMC PowerEdge R6525 configurado com:
· 2 (dois) processadores AMD EPYC 7282;
· 64GB de memória DDR4;
· 2 (dois) SSDs de 480GB em RAID1;
· 2 (duas) portas Gigabit Ethernet;
· 2 (duas) portas Mellanox InfiniBand ConnectX.
Estrutura Computacional
PARALELA, SERIAL e PAR48
Tipo A) 256 (duzentos e cinquenta e seis) servidores Dell EMC PowerEdge C6525 configurados com:
· 2 (dois) processadores AMD EPYC 7402;
· 128GB de memória DDR4;
· 1 (um) SSD M.2 de 480GB;
· 1 (uma) porta Gigabit Ethernet;
· 1 (uma) porta Mellanox InfiniBand ConnectX.
GPU
Tipo B) 14 (quatorze) servidores Dell EMC PowerEdge R7525 configurados com:
· 2 (dois) processadores AMD EPYC 7402;
· 128GB de memória DDR4;
· 1 (um) SSD SATA de 480GB;
· 3 (três) GPUs NVIDIA A30;
· 2 (duas) portas Gigabit Ethernet;
· 1 (uma) porta Mellanox InfiniBand ConnectX.
FAT
Tipo C) 1 (um) servidor Dell EMC PowerEdge R6525 configurado com:
· 2 (dois) processadores AMD EPYC 7402;
- Nº de núcleos de CPU: 24 (cada processador)
- Nº de threads: 48 (cada processador)
· 2TB de memória DDR4;
· 4 (um) HDDs SATA de 12TB;
· 2 (duas) portas Gigabit Ethernet;
· 1 (uma) porta Mellanox InfiniBand ConnectX.
Storage
2 (dois) servidores Dell EMC PowerEdge R7525 configurados com:
· 2 (dois) processadores AMD EPYC 7402;
· 256GB de memória DDR4;
· 2 (dois) SSDs de 480GB em RAID1;
· 4 (quatro) portas Gigabit Ethernet;
· 2 (duas) portas Mellanox InfiniBand ConnectX.
1 (um) Dell EMC PowerVault ME5084 configurado com:
· 80 (oitenta) HDDs NLSAS de 16TB;
· 4 (quatro) SSDs SAS de 3.84TB.
Nós Computacionais
Os nós deste cluster estão nomeados no formato “rXnXX”, onde rX corresponde ao rack que o nó se
encontra e o nXX seu número. Ex: “r1n01”
O cluster Coaraci possui 4 (quatro) tipos de nós listados abaixo (ver Nós Computacionais):
Transferência de arquivos:
Via SCP - usando o putty
Primeiramente temos que configurar o putty para fazer o scp via túnel.
● No menu do PuTTY, vá para Connection -> SSH -> Tunnels.
● Em "Source port", digite 50022 (ou qualquer porta não utilizada de sua escolha).
● Em "Destination", digite thiagorb@coaraci.ifi.unicamp.br:22 (substitua pelo seu nome de
usuário).
● Certifique-se de que a opção "Local" esteja selecionada e clique no botão "Add".
● Agora, clique em "Session" no menu à esquerda para voltar à tela principal do PuTTY.
● No campo "Host Name (or IP address)", digite thiagorb@gate.ifi.unicamp.br (substitua
thiagorb pelo seu nome de usuário no servidor gate).
● Certifique-se de que a porta SSH padrão 22 esteja configurada.
● `Preencha o campo Saved Sessions para salvar essa configuração para uso futuro
● Clique em Save; selecione o nome da sessão que você salvou (teste, nesse caso).
● Clique em "Open" para iniciar a conexão SSH com o servidor gate.
Uma vez dentro do seu diretório no COARACI já é possível fazer scp puxando arquivos de outros
lugares.
Abaixo temos um exemplo de transferência de dados via scp de dados que estão localizados em
um diretório do cluster KAHUNA que serão transferidos para o cluster COARACI. No caso, a
transferência é de um diretório inteiro com arquivos dentro. No terminal do COARACI, já no
diretório em que se deseja transferir os arquivos usar o seguinte comando:
Via WinSCP
Também é possível fazer a transferência via WinSCP mesmo:
● A esquerda selecione a opção Conexão → Túnel. Selecione “Conectar através de túnel SSH”
● No Nome do Host preencha com o servidor do gate do IFGW, selecione a porta 22 e preencha o seu
usuário. Depois clique em OK.
● Depois clique em Salvar e defina um nome para uso futuro
.
● Depois é só selecionar o nome salvo no meu à esquerda, clicar em Login, digitar a senha duas vezes
(uma para o gate e outra para o cluster) e a conexão já está estabelecida.
Gerenciamento do cluster:
Submetendo seu job
O software que gerencia as máquinas e os Jobs no cluster Coaraci se chama SLURM. É através
dele que iremos submeter os Jobs através dos scripts para máquinas específicas dependendo da
necessidade computacional.
python_script.py.
-------------------------------------
print(‘Hello world’)
-------------------------------------
Uma vez com o script pronto, preparamos o script em bash que vai rodar o nosso script principal.
Esse é o script que o SLURM irá reconhecer e encaminhar para uma máquina no cluster. Esse
script irá se chamar roda_script.sh. Nele, iremos conter as diretivas que contém informações
para o SLURM gerenciar, como nome do job, quantidade de threads, tempo de uso, etc.
roda_script.sh.
------------------------------
#!/bin/bash
#SBATCH --partition=paralela ## Nome da fila que você vai submeter o job (ver nós computacionais)
#SBATCH --job-name=teste ## Nome que você vai dar para o job
#SBATCH --output=sys-output.txt ## Arquivo de output
#SBATCH --time=24:00:00 ## Duração do job
#SBATCH --cpus-per-task=70 ## Número de threads que deseja utilizar
sbatch roda_script.sh
Acompanhamento de job
Para acompanhar os jobs submetidos use o comando:
squeue -u <seu_usuario>
Para acompanhar com mais detalhes um job em específico. A melhor forma de visualizar os stats
é jogando a saída do comando para um txt através do sinal “>”, pois no terminal a tabela fica
desconfigurada → comando > my_stat.txt
Output do comando:
skill <seu_job_id>
ou
scancel <seu_job_id>