Escolar Documentos
Profissional Documentos
Cultura Documentos
Warehouse
Arquitetura e Organizao de computadores
Ivanei
Marlon
Novembro, 2016
Sumrio
1. Introduo
2. Modelos de Programao
3. Arquitetura de Computadores em escala Warehouse
4. Computao em nuvem
5. Questes Cruzadas
6. Google Warehouse
7. Referncias
1. Introduo
Clusters
Datacenters
WSC
3
Introduo
Introduo
WSCs agem como uma grande mquina
Pode custar at valores da ordem de US$ 150 milhes 1
Incluindo: infraestruturas eltrica e de refrigerao, servidores e equipamento de rede
Introduo: Demandas
A pesar de sua diferena, existem um conjunto de demandas
similares as de servidores:
Custo-desempenho
Eficincia de energia
Confiabilidade atravs de redundncia
E/S de rede
Cargas de trabalho
Introduo: Caractersticas
Introduo: Caractersticas
Amplo paralelismo
Servidores preocupam-se se h paralelismo suficiente nas aplicaes,
para justificar o hardware paralelo
WSC no possuem essas preocupao:
Paralelismo de dados: Aplicaes se beneficiam de dados independentes que
requerem processamento independente; e.g. web crawlers
Paralelismo em nvel de requisio: utilizando aplicaes de servio
interativo, conhecido como software as a service (SaaS)
8
Introduo: Caractersticas
Custos operacionais relevantes
Arquitetos de servidor geralmente ignoram os custos de operao,
presumindo que so baixos em comparao ao custo de aquisio
WSCs tm tempo de vida longos e os custos operacionais so
significativos: energia, distribuio de energia e refrigerao
representam mais de 30% dos custos de um WSC em 10 anos.
9
Introduo: Caractersticas
Escala
Custos unitrios menores, visto que possvel alugar partes do
processamento da WSC, gerando lucro
Complexidade adicional com menor confiabilidade (maiores taxas de
falha)
10
Utilizao mdia de CPU de 5000 servidores durante um perodo de seis meses no Google
Patterson & Hennessy , Computer Architecture: A Quantitative Approach, 2011.
13
15
2. Modelos de Programao
MapReduce & Hadoop
Sistema de Arquivos
17
Aplicaes WSCs
Utilizada para servios conhecidos na web
18
19
20
Sistema de Arquivos
Sucesso do MapReduce est atrelado a servios internos
Para fornecer arquivos a qualquer computador, permitindo tarefas serem
escalonadas em qualquer lugar, MapReduce depende do Sistema de
Arquivos Google (Google File System GFS)
Outros sistemas de armazenamento utilizados em WSCs:
Armazenamento de valores-chave da Amazon: Dynamo
Sistema de armazenamento de registros do Google: Bigtable
23
Sistema de Arquivos
Desenvolvido localmente
Adaptvel a demandas locais
Monitoramento
24
3. Arquitetura de computadores
em escala warehouse
Armazenamento
Switches
Hierarquia de memria
25
Redes
WSCs usam uma hierarquia de rede anloga a hierarquia de memria.
26
Redes
Contagem de n (servidor) aproximadamente 50.000
Conectado com hierarquia de redes para reduzir custo por porta
Os ns (servidores) so mantidos em racks de 84 polegadas (213,36
cmts) que possuem 48 unidades = 48 U
Switch commodity GigE oferece 48 portas para acomodar no
rack padro
A contagem de uplink varia (2-8) o que d oversubscription em termos de
Largura de banda (48/2 a 48/8)
Armazenamento
Princpio de localidade
Armazenamento fornecido por discos locais conectados a um servidor
dentro do rack
Acesso externo atravs dos switches Ethernet
28
Switch de arrays
Maior conectividade
Tratamento para reduo do oversubscription
perda de largura de banda de um Switch para outro
29
Hierarquia de memria
Dados para anlise de latncia, Largura de banda e hierarquia de
memria dentro de um WSC:
Cada servidor
16 Gb de memria
2 tera bytes de disco
2 sockets por placa compartilhando uma porta ethernet de 1Gbit/s
30
Hierarquia de memria
31
Hierarquia de memria
32
Hierarquia de memria
Overhead de rede aumenta drasticamente a latncia da DRAM local
para o rack DRAM e array DRAM.
ambos tm latncia mais de 10 vezes melhor do que o disco local.
33
Hierarquia de memria
4. Computao em Nuvem
Se os computadores do tipo que eu defendi se tornarem os computadores do futuro, ento
em algum dia a computao poder ser organizada como um servio pblico, assim como o
sistema telefnico [...] O servio de computadores pode se tornar a base de uma nova e
importante indstria.
John McCarthy, Celebrao do centenrio do MIT(1961)
35
Computao em Nuvem
Utilizao da memria e da capacidade de
armazenamento e processamento de computadores e
servidores compartilhados e interligados por meio da
Internet, seguindo o princpio da computao em
grade.
36
Computao em Nuvem
Impulsionadas pela demanda cada vez maior de usurios
Amazon, Google e Microsoft, etc constroem computadores em escala
warehouse, a partir de componentes comerciais comuns
Levou a inovao em softwares de sistema para operar operaes
nessa escala
Tais como Bigtabel, Dynamo, GFS e MapReduce
37
Computao em Nuvem
38
Computao em Nuvem
Os servidores nos datacenter tendem a ser utilizados somente entre
10 e 20% do tempo
Picos de WSCs no correlacionados entre diferentes clientes podem
gerar uma utilizao mdia acima de 50%
Economias de escala para um WSC oferecem fatores de 7-7 para
diversos componentes de um WSC
alm de alguns fatores de 1.5-2 para todo o WSC
39
42
43
Preo por hora de muitas instncias EC2 aplicados pela Amazon em 2011
44
Redes
Virtual Private Cloud, conexes diretas, Balanceamento de carga e DNS.
46
Computao em
Nuvem: AWS
47
5. Questes Cruzadas
Infraestrutura fsica e custo dos computadores em ecala warehouse
48
Questes Cruzadas
A rede WSC como gargalo
O Switch de nvel 3 uma frao significativa do custo de um WSC
equipamento de rede acima do switch de rack (Juniper- 8216)
Questes Cruzadas
Usando energia com eficincia dentro do servidor
O PUE mede a energia do WSC
diz nada sobre a energia gasta dentro prprio equipamento de TI
Questes Cruzadas
51
Questes Cruzadas
O Sistema de software foi projetado para usar todos os recursos
disponveis caso melhore potencialmente o desempenho, sem
preocupao com as implicaes energticas
Arquitetos de softwares precisam considerar a energia, assim como o
desempenho nos projetos futuros
52
6. Google Warehouse
Um exemplo de WSC
53
Google Warehouse
WSC Google
Douglas Country, Gergia,
EUA
gua 100% reciclada
54
Google
Warehouse
Google conta com dezenas de
datacenters espalhados pelo
mundo, alguns com gigantescas
fazendas de servidores e centenas
de milhares de containers
recheados de dados
Tudo, claro, dando preferncia
aos pases mais frios, para
economizar em sistemas de
resfriamento.
55
Google
Warehouse
A segurana parte do DNA da
Google
Ela cria com exclusivamente os
servidores atualmente para os
data centers, nunca vende ou
distribui externamente
Eles so projetados para que no
incluam hardware ou software
desnecessrio, o que reduz o
nmero de possveis
vulnerabilidades.
56
Google Warehouse
Possui medidas de recuperao de
desastres robustas.
Por exemplo, em caso de incndio
ou de qualquer outro desastre,
mudado o acesso aos dados
automtica e uniformemente para
outro Datacenter, para que os
usurios possam continuar
trabalhando ininterruptamente.
Os geradores de emergncia
continuam a alimentar os
Datacenter, mesmo em caso de
falha de energia.
57
Google
Warehouse
Em vez de armazenar os dados de
cada usurio em uma nica
mquina ou conjunto de mquinas,
eles so distribudos (incluindo
prprios dados da Google) em
vrios computadores e em locais
diferentes
Depois disso, eles so divididos em
blocos e copiados em vrios
sistemas para evitar pontos de falha
Eles so nomeados aleatoriamente
como uma medida extra de
segurana, tornando-os ilegveis ao
olho humano.
58
Google Warehouse
Durante o trabalho, os
servidores fazem backup
automtico dos dados
crticos. Assim, quando
houver (se o computador
falhar ou for roubado) volta
ativa em questo de segundos
59
Google Warehouse
rastreado rigorosamente a localizao e o status de cada
disco rgido nos Datacenter
So destrudos os discos rgidos que chegam ao fim de suas
vidas em um processo complexo e formado por vrias etapas,
para impedir o acesso aos dados.
60
Google Warehouse
Efetividade na utilizao de energia (PUE) do Google
Google Warehouse
Efetividade na utilizao de energia (PUE) do Google
PUE mdio de 19 Datacenters em 2006 era de 1,69
A Google Hoje tem um PUE de 1,12
isso considerando toda a frota de Datacenters no somente as mais novas e
com melhores instalaes,
medio e feita durante os 12 meses do ano no somente em pocas mais frias.
Referencial Bibliogrfico
Patterson and Hennessy, Computer Architecture: A Quantitative
Approach, 5th Ed., Morgan Kaufman, 2011
Barroso and Hlzle, The Datacenter as a Computer: An Introduction to
the Design of Warehouse-Scale Machines, 2nd Ed., Morgan & Claypool,
2009
Paulo Andre Castro, Computao em escala Warehouse, Notas de Aula
63