Você está na página 1de 91

Avaliao de Dependabilidade de Infraestruturas de Data

Centers Considerando os Efeito da Variao de


Temperatura
Por
Rafael Roque de Souza
Dissertao de Mestrado
Universidade Federal de Pernambuco
posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
Recife, Agosto/2013
Universidade Federal de Pernambuco
Centro de Informtica
Ps-graduao em Cincia da Computao
Rafael Roque de Souza
Avaliao de Dependabilidade de
Infraestruturas de Data Centers Considerando os
Efeito da Variao de Temperatura
Trabalho apresentado ao Programa de Ps-graduao
em Cincia da Computao do Centro de Informtica
da Universidade Federal de Pernambuco como requisito
parcial para obteno do grau de Mestre em Cincia da
Computao.
Orientador: Paulo Romero Martins Maciel
Recife, Agosto/2013
Dedico este trabalho minha querida e amada Me,
Lourdes Roque.
Agradecimentos
Agradeo primeiramente a Deus, pelo dom da vida, pelo seu amor incondicional,
pela sade, pela coragem, pela fora que me proporcionou para nunca desistir dos
meus objetivos, e a cada dia superar novos desaos.
minha famlia, especialmente meus pais, Jos Alpio (In Memory), Maria
Lourdes Roque, as minhas irms Andreia Roque e Raquel Roque. A minha namo-
rada, Geyse (Fia), por compreender minha ausncia e por estes anos estar sempre
ao meu lado.
Agradeo ao meu orientador, Paulo Maciel, por ter me dado a oportunidade de
crescimento e por ter acreditado em mim, alm de ter me incentivado, sempre com
bastante objetividade, sobre a pesquisa e escrita. Os seus sbios conselhos, dedi-
cao foram de grande contribuio em cada passo na construo deste trabalho, e
para minha capacitao como pesquisador. Sem dvida, posso me considerar um
privilegiado por ser orientado por ele.
Aos Professor Eduardo Tavares e Luiz Aonso Henderson Guedes de Oliveira,
por terem aceitado o convite para compor esta banca.
Ao Centro de Informtica (CIn) da Universidade Federal de Pernambuco (UFPE),
que forneceu suporte durante a realizao desta pesquisa. Fundao de Amparo
Cincia e Tecnologia do Estado de Pernambuco (FACEPE), que me promoveu
recursos nanceiros para execuo deste trabalho.
Aos meus amigos do grupos de pesquisa MoDCS, por toda informao passada
e pelos muitos momentos de descontrao: Jean Teixeira, Rubens Matos, Julian
Arajo, Erica Teixeira. A Joo Ferreira, Jamilson Dantas, Kdna Camboim, agra-
deo por sua importante contribuio na dissertao e nos artigos. Agradeo em
especial a Gustavo Callou, que no mediu esforos para me ajudar ao longo do
mestrado. As pessoas que conheci no CIn: Airton, Lenin, Ren, Joo Emanuel,
Jamilson Batista. Ao pessoal da secretaria de ps graduao. Enm, a todos que
de forma direta ou indireta contriburam para essa conquista. A todos, meu sincero
agradecimento.
Porque Deus amou o mundo de tal maneira
que deu o seu Filho unignito, para que todo
aquele que nele cr no perea, mas tenha
a vida eterna.
(Joo 3:16)
Resumo
Os data centers esto em constante crescimento, a m de atender s demandas
de novas tecnologias, como cloud computing e e-commerce. Em tais paradigmas,
perodos de inatividade podem levar a perdas nanceiras de milhes de dlares e
danicar permanentemente a reputao de uma empresa. Vrios fatores afetam
a disponibilidade de sistemas de TI em data center, entre eles, as variaes de
temperatura ambiente.
Este trabalho prope modelos para contemplar o efeito de variao de tempera-
tura nas infraestruturas do data center. Alm destes modelos, tambm proposta
uma metodologia para auxiliar na elaborao e avaliao dos diferentes cenrios.
Esta metodologia permite a anlise atravs de vrios modelos intermedirios que
ajudam a encontrar o efeito de variao de temperatura na disponibilidade das
infraestruturas de TI do data center.
Nesta abordagem, a avaliao realizada com modelos de rede de Petri esto-
csticas, modelo de Arrhenius, modelo de energia, e diagrama de blocos de cona-
bilidade. Por m, trs estudos de casos real, bem como, exemplos so apresentados
com a nalidade de mostrar a aplicabilidade deste trabalho.
Palavras-chave: disponibilidade, data center, temperatura, redes de Petri esto-
cstica.
Abstract
Data centers are constantly growing in order to meet the demands of new
technologies such as cloud computing and e-commerce. In such paradigms, periods
of downtime can lead to nancial losses of millions of dollars and permanently
damage a companys reputation. Several factors aect the availability of IT systems
in data centers, among them temperature variations within the data center room.
This work proposes an approach for evaluating the eect of such temperature
changes on data center IT systems. In addition to these models, it is also proposed
a methodology to assist in the elaboration and evaluation of dierent scenarios.
In this approach, the evaluation is accomplished with stochastic Petri net (SPN),
Arrhenius, Energy and RBD models, which simulate the impact of temperature
on the availability of variously specied IT and cooling architectures. Three case
studies are included to demonstrate the applicability of the proposed models.
Keywords: availability, data center, temperature, and stochastic Petri nets.
Sumrio
Lista de Figuras x
Lista de Tabelas xii
Lista de Acrnimos xiii
1 Introduo 15
1.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Estrutura da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Fundamentao Terica 20
2.1 Infraestruturas do Data Center . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Infraestrutura de TI . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Infraestrutura de Energia . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Infraestrutura de Refrigerao . . . . . . . . . . . . . . . . . 22
2.2 Dependabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Diagrama de Bloco de Conabilidade (RBD) . . . . . . . . . . . . . 28
2.4 Redes de Petri Estocstico (SPN) . . . . . . . . . . . . . . . . . . . 32
2.4.1 Simples Componente . . . . . . . . . . . . . . . . . . . . . . 36
2.4.2 Falha comum na dependncia de marcao . . . . . . . . . . 36
2.4.3 Composio de modelos . . . . . . . . . . . . . . . . . . . . 37
2.4.4 Cold Standby . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Trabalho Relacionado 41
3.1 Variao da Temperatura e Transferncia de Calor . . . . . . . . . . 41
3.2 Modelos Dependabilidade . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Metodologia e Modelo 46
4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Modelos para Impacto de Variao de Temperatura . . . . . . . . . 48
4.2.1 Modelo de Energia . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.2 Impacto da Variao da Temperatura no dispositivo de TI -
(Modelo de Arrhenius) . . . . . . . . . . . . . . . . . . . . . 53
4.2.3 Modelo RBD para componentes em Paralelo . . . . . . . . . 54
4.2.4 Modelo SPN . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5 Estudo de Caso 61
5.1 Estudo de Caso I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.1 Arquiteturas . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Estudo de Caso II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.1 Arquiteturas . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 Estudo de Caso III . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1 Mtricas de Custo e Lucro . . . . . . . . . . . . . . . . . . . 76
5.3.2 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3.3 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 Concluso e Trabalhos Futuros 84
6.1 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.2 Restries e Trabalho Futuros . . . . . . . . . . . . . . . . . . . . . 85
Referncias 87
Lista de Figuras
2.1 Infraestrutura de TI. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Infraestrutura de Energia. Adaptado de [12]. . . . . . . . . . . . . . 22
2.3 Infraestrutura de Refrigerao. Adaptado de [14]. . . . . . . . . . . 23
2.4 Relao entre Falha, Erro e Defeito. . . . . . . . . . . . . . . . . . . 24
2.5 Curva da Banheira. Adaptado de [21]. . . . . . . . . . . . . . . . . 26
2.6 Estados Reparveis do Sistema [37]. . . . . . . . . . . . . . . . . . . 27
2.7 Diagrama de Blocos em Srie. Adaptado de [14]. . . . . . . . . . . . 28
2.8 Diagrama de Blocos em Paralelo. Adaptado de [14]. . . . . . . . . . 29
2.9 Diagrama de Blocos Srie-Paralelo. . . . . . . . . . . . . . . . . . . 30
2.10 Diagrama de Blocos Paralelo-Srie. . . . . . . . . . . . . . . . . . . 30
2.11 Diagrama de Blocos Srie-Paralelo (Possvel de Combinao). . . . 31
2.12 Diagrama de Blocos Srie-Paralelo (Resultado da Combinao). . . 31
2.13 Reduo em Srie. Adaptado de [37]. . . . . . . . . . . . . . . . . . 32
2.14 Transies com Tempo [8]. . . . . . . . . . . . . . . . . . . . . . . . 33
2.15 Modelo de Simples Componente [14]. . . . . . . . . . . . . . . . . . 36
2.16 Falha comum na dependncia de marcao. . . . . . . . . . . . . . . 37
2.17 Composio de Modelos [12]. . . . . . . . . . . . . . . . . . . . . . . 38
2.18 Composio de Modelos com Reduo de Sistemas. . . . . . . . . . 38
2.19 Cold Standby [14]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Metodologia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Modelo de Energia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Componentes do Rack. . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4 Modelo RBD para um Rack. . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Conguraes de Data Center. . . . . . . . . . . . . . . . . . . . . . 57
4.6 Modelo SPN da Congurao C1. . . . . . . . . . . . . . . . . . . . 58
4.7 Sub-Rede SPN da Congurao C1. . . . . . . . . . . . . . . . . . . 58
5.1 Conguraes do Data Center. . . . . . . . . . . . . . . . . . . . . . 64
5.2 Modelo SPN para Congurao C1. . . . . . . . . . . . . . . . . . . 66
5.3 Resultados do Primeiro Estudo: Disponibilidade(9s) de cada con-
gurao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4 Conguraes do Data Center. . . . . . . . . . . . . . . . . . . . . . 71
5.5 Resultado do Segundo Estudo de Caso: Disponibilidade(9s) de Cada
Congurao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6 Conguraes do Data center. . . . . . . . . . . . . . . . . . . . . . 78
5.7 Resultado do Terceiro Estudo de Caso: Perdas Financeiras das Con-
guraes em Cada Modo Operacional. . . . . . . . . . . . . . . . . 81
Lista de Tabelas
2.1 Atributos da Composio de Modelos. . . . . . . . . . . . . . . . . 38
2.2 Atributos do componente de agregao. . . . . . . . . . . . . . . . . 39
2.3 Atributos da Transio. . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Parmetros das infraestruturas de TI e Refrigerao. . . . . . . . . 59
4.2 Atributos de Transio. . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1 A Potncia do Sistema de Refrigerao em Cada Congurao. . . . 63
5.2 Temperatura Ambiente. . . . . . . . . . . . . . . . . . . . . . . . . 65
5.3 Parmetros das infraestruturas de TI e Refrigerao. . . . . . . . . 65
5.4 Atributos das Transies. . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5 Expresses para Quanticar a Disponibilidade. . . . . . . . . . . . . 67
5.6 Resumo dos Resultados das Conguraes. . . . . . . . . . . . . . . 68
5.7 Parmetros Modelo de Energia. . . . . . . . . . . . . . . . . . . . . 72
5.8 Temperatura da sala do Data Center. . . . . . . . . . . . . . . . . . 72
5.9 Expresses para Quanticar a Disponibilidade. . . . . . . . . . . . . 73
5.10 Resumo dos Resultados das Conguraes. . . . . . . . . . . . . . . 74
5.11 Temperatura da sala do Data Center. . . . . . . . . . . . . . . . . . 79
5.12 Parmetros da Infraestrutura de TI e Refrigerao. . . . . . . . . . 79
5.13 Expresses para Quanticar a Disponibilidade. . . . . . . . . . . . . 80
5.14 Resumo dos Resultados das Conguraes . . . . . . . . . . . . . . 82
Lista de Acrnimos
AC Aquisition Cost
BTU mean Bookings Price
BP British Thermal Unit
CFD Computational Fluid Dynamics
COP Coecient of Performance
CRAC Computer Room Air Conditioning
EC Employees Cost
EFM Energy Flow Model
FL Financial Losses
GSPN Generalized Stochastic Petri Nets
I Income
NRH Number of Reservations per Hour
MC Maintenance Cost
MNRT Mean Non-Repair Time
MO Modos Operacional
MTBF Mean Time Bethwen Failure
MTR Mean Time to Restore
MTTF Mean Time To Failure
MTTR Mean Time To Repair
OC Operational Cost
P Prot
PDU Power Distribution Unit
RBD Reliability Block Diagram
SHARPE Simbolic Hierarchial Automated Reliabilit and Performance
Evalutor
SEER Seasonal Energy Eciency Ratio
SPN Stochastic Petri Nets
TimeNET Timed Net Evalution
UPS Uninterruptible Power Supply
xiv
1
Introduo
1.1 Contexto
Atualmente, o mundo vem se deparando com constantes transformaes no
campo das TICs (Tecnologias da Informao e Comunicao), passando a exigir
uma maior desenvoltura dos sistemas e dos meios de comunicao para oper-los.
Estas necessidades fomentaram uma maior demanda das aplicaes e servios da
Internet, levando a muitas melhorias no paradigma (ainda sob evoluo) de cloud
computing (ou computao em nuvem).
Assim, tem-se observado uma mudana na forma como interagimos com os
servios e aplicaes atravs da Internet, a qual tem impulsionado o surgimento de
servios que possam cada vez mais atender necessidade do usurio, permitindo
que possa utilizar memria, capacidade de armazenamento e efetuar clculos em
servidores compartilhados, onde os acessos a muitas aplicaes no precisam ser
instalados ou armazenados no computador do usurio. Na verdade, os usurios
no costumam saber sobre a localizao do data center que est fornecendo o
servio. Estes servios em cloud computing seguem o princpio de infraestrutura
compartilhada, servio sob demanda, servios escalonveis e pagos de acordo com
o uso.
No entanto, relevante salientar as caractersticas dos ambientes do cloud com-
puting, como por exemplo, para se alcanar os altos nveis de disponibilidade neces-
srios para infraestruturas do data center, mecanismos de redundncia so essenci-
ais. A depender do contexto, pode-se tornar uma melhor aplicao de redundncia,
utilizando dispositivos mais baratos com uma disponibilidade menor do que os dis-
positivos mais caros, o que poder resultar em melhores resultados em funo da
dependabilidade [7].
15
1.1. CONTEXTO
A m de proporcionar acesso adequado a esses servios e aplicativos, a cloud
computing exige infraestruturas do data center com nveis de alta disponibilidade
e conabilidade. Tradicionalmente, para aumentar a disponibilidade dos servios
fornecidos, as infraestruturas incluem redundncia dos dispositivos. No entanto,
isso pode levar a aumentos signicativos na demanda de energia necessria para
alimentar as infraestruturas de Tecnologia da Informao (TI) e refrigerao. A
consequncia disso o aumento dos custos operacionais. A modelagem uma
forma ecaz de avaliar essas questes no contexto de diferentes infraestruturas do
data center.
Desenvolvimentos tecnolgicos, embora tenham reduzido o tamanho e aumen-
tado o poder computacional dos servidores, tm, em contra partida, uma maior
dissipao de calor, bem como um maior consumo de energia. Este fato ocorre de-
vido ao poder computacional que gera uma maior dissipao de potncia na forma
de calor. Quando a temperatura mais elevada do que a recomendada, os com-
ponentes de hardware de TI podem falhar com mais frequncia [6]. Tais falhas de
hardware ocorrem devido ao aumento da temperatura na sala de TI do data center,
tendo um grande impacto sobre a disponibilidade e conabilidade da infraestrutura
de TI.
O aumento da dissipao de energia e consequentemente gerao de calor eleva
os limites da temperatura do dispositivo, provocando instabilidade na infraestru-
tura de TI, o que geralmente reduz a conabilidade e a disponibilidade. O aumento
de temperatura, por sua vez, pode levar a uma reduo da vida til do disposi-
tivo de TI. Alguns trabalhos mostram que a cada 10 graus Celsius de aumento da
temperatura ambiente, a taxa de falha de um dispositivo eletrnico praticamente
dobra [45].
Portanto, justo expressar que a mudana da temperatura tem um efeito con-
sidervel sobre a disponibilidade da infraestrutura de TI. A falha das unidades
de refrigerao das salas com computadores (Computer Room Air Conditioning -
CRAC) ou qualquer outro componente da infraestrutura de refrigerao do data
center pode reduzir a capacidade de extrao de calor do ambiente e resulta em
aumento da temperatura. Estas caractersticas podem levar a perdas nanceiras de
milhes de dlares por hora em empresas que utilizam o servio em cloud computing
[35].
Nos ltimos anos, alguns trabalhos tm estudado o impacto da temperatura
sobre a conabilidade do centro de dados (data center). Patterson [36] analisa a
16
1.2. MOTIVAO
ecincia energtica, bem como sugere temperaturas para operao do data center.
Pakbaznia [34] estuda a colocao de servidores ativos, juntamente com o forneci-
mento de ar frio. Lpez [26] prope um modelo para o estudo da transferncia de
calor no data center. Ghosh [23] estuda a posio para colocar servidores dentro do
rack. Callou [13] prope modelos para quanticar o impacto da sustentabilidade,
dependabilidade e custo na infraestrutura de refrigerao do data center. Estes e
outros trabalhos so discutidos no Captulo 3.
Nesta dimenso, os modelos propostos so capazes de relacionar a interinde-
pendncia entres as infraestruturas e quanticar o impacto do sistema de TI sobre
o sistema de refrigerao, bem como o impacto que o sistema de refrigerao tem
sobre o sistema de TI. Diferentes infraestruturas de TI e refrigerao com vrios
nveis de redundncia so considerados. Por isso, uma falha no sistema de refri-
gerao pode resultar em uma temperatura no apropriada no ambiente do data
center. Para tanto, vale ressaltar que so complexas estas infraestruturas, onde
nem sempre trivial realizar a anlise de dependabilidade [25].
1.2 Motivao
O crescente avano tecnolgico prov uma maior capacidade de processamento,
armazenamento dos servidores do data center, bem como vem reduzindo o tama-
nho dos dispositivos de TI. A temperatura um efeito deste avano, no qual cada
dispositivo passa a gerar uma maior carga de dissipao e calor. O aumento de tem-
peratura torna-se uma causa pertinente na investigao entre as possveis causas
de reduo de conabilidade e de disponibilidade.
Um dispositivo de TI composto por semicondutores, em que o uxo de cor-
rente percorre os elementos internos do circuito durante a operao, assim, a tem-
peratura do dispositivo proporcional ao uxo de corrente. Portanto, o uxo de
corrente gera uma dissipao de potncia na forma de calor. A elevao da tem-
peratura uma causa comum de falha em um dispositivo eletrnico que, por sua
vez, normalmente projetado para funcionar dentro dos limites de temperatura
especicados pelo fabricante [10].
Este trabalho visa auxiliar os projetista de data center com modelos que permi-
tem estimar o impacto que a variao de temperatura tem sobre a disponibilidade
das infraestruturas do data center. A m de conseguir isso, modelos de redes de
Petri estocstico (Stochastic Petri Nets - SPN) so propostos para representar as
17
1.3. OBJETIVOS
relaes de causas temporais entre os sistemas TI e refrigerao [20].
Os modelos propostos permitem quanticar tanto o impacto do sistema de TI
sobre o sistema de refrigerao, bem como o impacto do sistema de refrigerao
na disponibilidade do sistema de TI. Uma vez que o funcionamento imperfeito do
sistema de refrigerao pode resultar em uma temperatura incorreta no ambiente
do data center. Diferentes arquiteturas de refrigerao e TI com mltiplos nveis
de redundncia so considerados neste trabalho. Nesta dimenso foram utilizados
os diagrama de bloco de conabilidade (Reliability Block Diagrams - RBD), por
permitir a representao de forma combinacional e expressar as mtricas atravs
de expresses analticas [47]. Foram utilizado o modelo de energia e o de Arrhenius
para relacionar o incremento de temperatura com a reduo do tempo de falha dos
dispositivos.
1.3 Objetivos
O principal objetivo desta dissertao a proposio de um conjunto de mo-
delos para avaliar o impacto da variao de temperatura na disponibilidade da
arquitetura de TI do data center. Este trabalho prope meios que auxiliam a ava-
liao de dependabilidade de infraestruturas de data center considerando os efeito
da variao de temperatura. De uma forma mais especca, para se avaliar as
arquiteturas de data center, o presente trabalho se prope a:
elaborar uma metodologia para avaliar os efeitos da variao de temperatura
na infraestrutura de TI;
denir modelos de dependabilidade para avaliao das infraestruturas de TI
e refrigerao do data center;
criar modelos para estimar o impacto da variao da temperatura na infra-
estruturas de TI do data center;
denir mtricas de custo e lucros associados ao data center;
elaborar estudos de casos para avaliar e apresentar aplicabilidade dos mode-
los;
avaliar as infraestruturas, a m de comparar as alternativas, baseado nas
mtricas de dependabilidade, variao de temperatura e custos.
18
1.4. ESTRUTURA DA DISSERTAO
1.4 Estrutura da Dissertao
O captulo 2 mostra os fundamentos para um melhor entendimento do traba-
lho, enfatizando aspectos bsicos sobre dependabilidade, como conceitos e deni-
es relacionadas. Na sequncia, so apresentados modelos gerais para anlise de
dependabilidade, detalhando diagrama de bloco para conabilidade. Por m, so
apresentados os mtodos de avalio que foram utilizados. O Captulo 3 descreve
brevemente alguns trabalhos relacionados que foram encontrados na literatura so-
bre variao da temperatura nas infraestruturas do data center. O Captulo 4
apresenta os modelos propostos para quanticar o impacto da variao de tempe-
ratura nas infraestruturas de TI dos data centers. O Captulo 5 composto pela
descrio de trs estudos de caso, baseados nos modelos propostos, para avalia-
o do impacto da variao de temperatura nas infraestruturas dos data centers
e apresenta os resultados sobre cada estudo. Por m, o Captulo 6 apresenta as
concluses obtidas com o desenvolvimento deste trabalho, assim como as princi-
pais contribuies e, posteriormente, so apresentadas propostas para trabalhos
futuros.
19
2
Fundamentao Terica
Este captulo apresenta os conceitos bsicos sobre data center, incluindo as in-
fraestruturas que o compreendem. Tambm so introduzidos os conceitos bsicos
sobre dependabilidade, incluindo seus atributos e informaes relacionadas. Alm
disso, exposta uma viso geral dos modelos: Diagrama de Blocos de Conabili-
dade (RBD) e Redes de Petri Estocstica (SPN).
2.1 Infraestruturas do Data Center
O data center composto por um conjunto integrado de componentes, que so
divididos nas infraestruturas de energia, refrigerao e TI. Esta seo apresenta um
sistema genrico de data center e tambm descreve informaes e funcionamento
sobre cada infraestrutura [4].
2.1.1 Infraestrutura de TI
uma plataforma que permite fornecer servios de processamento e armaze-
namento de dados em larga escala para organizaes de qualquer porte. Estes
benefcios permitem alcanar estruturas de grande exibilidade, alta segurana
para processar e armazenar informaes, tornando, assim, possvel o paradigma de
cloud computing. Esta plataforma composta por hardware e software.
Os componentes de hardware consistem de roteador, switch, servidor e disposi-
tivo de armazenamento de dados. Os dispositivos de armazenamento (por exemplo,
sistemas de armazenamento) so normalmente conectados atravs de uma rede para
rea de armazenamento (Storage Area Network - SAN). A arquitetura de rede uti-
liza os roteadores, switch e protocolos para gerenciar toda comunicao interna e
20
2.1. INFRAESTRUTURAS DO DATA CENTER
externa. A Figura 2.1 representa uma infraestrutura bsica de TI, composta por 1
router border - (roteador de borda), 1 router - (roteador), 9 switch e 40 rack, onde
cada rack contm 10 servidores.
O software fornece servios como sistemas operacionais, aplicativos e utilitrios
para o gerenciamento do sistema de TI. A utilizao de software para virtualizao
do servidor tambm traz vrios benefcios como um melhor aproveitamento do
hardware, segurana, custo e adaptao a diferentes cargas de trabalho.
. . .
. . .
. . .
Figura 2.1 Infraestrutura de TI.
2.1.2 Infraestrutura de Energia
A infraestrutura de energia responsvel pelo recebimento da energia eltrica
da concessionria e distribuio na frequncia e voltagem correta para as infra-
estruturas de TI e refrigerao. A Figura 2.2 ilustra uma infraestrutura base de
energia, a qual recebe energia da concessionria, passando pelas seguintes etapas:
na primeira etapa, a energia recebida pela fonte de alimentao ininterruptas
(Uninterruptible Power Supply - UPS); na segunda etapa, a energia passa para
as unidades de distribuio de energia (Power Distribution Unit - PDU), que so
compostas por um Step Down Transformer, que responsvel por reduzir a tenso
primria, fornecendo, assim, uma menor tenso secundria e um painel eletrnico
(Subpanel ); na terceira e ltima etapa, a energia distribuda para o sistema de
21
2.2. DEPENDABILIDADE
TI atravs de rgua de energia (power strip). A UPS pode oferecer condies de
backup de energia em caso de falhas de curta durao. Geradores ou outras fontes
de energia local devem ser usados para cortes mais longos, ou at mesmo para
satisfazer as partes crticas da demanda total de energia [12], [47].
Energia
Eltrica
Figura 2.2 Infraestrutura de Energia. Adaptado de [12].
2.1.3 Infraestrutura de Refrigerao
O sistema de refrigerao controla a temperatura da sala do data center, reti-
rando o calor em excesso gerado pela dissipao de potncia do sistema de energia
e do sistema de TI e, consequentemente, refrigerando a sala. A temperatura
regulada no sistema de refrigerao, que mantm a temperatura padro entre 20
e 22 graus Celsius [6]. A infraestrutura de refrigerao composta basicamente
por unidades de ar condicionado da sala de computadores (Computer Room Air
Conditioning - CRACs), chillers e cooling tower.
A Figura 2.3 apresenta o funcionamento da infraestrutura de refrigerao. O
calor retirado do ambiente pelo CRAC, o qual levado atravs da gua em
circulao para o evaporador do chil ler, que, seguidamente, o condensa, recebendo
os vapores comprimidos e quentes do evaporador, passando para o estado lquido,
que enviado para o cooling tower, que o libera para o ambiente externo. O cooling
tower recebe o ar do ambiente externo, que resfriado novamente no condensador
do chiller, passando a esfriar novamente toda a gua. A gua resfriada emitida
ao evaporador, que passa para o CRAC, que, seguidamente, resfria a sala.
2.2 Dependabilidade
O conceito de dependabilidade surgiu mais precisamente em 1992, aps a pu-
blicao do livro Dependability: Basic Concepts and Terminology [25]. A depen-
dabilidade (Dependability) de um sistema deve ser entendida como a capacidade
22
2.2. DEPENDABILIDADE
Sala de
Data Center
Refrigerao do Chiller
Cooling Tower a gua
Cooling
Tower
Chiller a gua
gua resfriada
gua morna
Condensador
Evaporador
Figura 2.3 Infraestrutura de Refrigerao. Adaptado de [14].
de evitar falhas de servio que so mais frequentes e mais graves do que aceitvel
[7].
A falha do sistema representa o evento que ocorre quando a entrega do servio
no ocorre corretamente [25]. A traduo linear dos termos em ingls fault e failure
(ambas podem ser traduzidas para falha) podem no deixar claro o que signicam
em algum contexto. Devido a isto, neste trabalho sero adotados os termos falha
para descrever failure e defeito para descrever fault.
Uma falha pode ser entendida como um problema fsico (hardware). Um erro
indica que certas funcionalidades do software no esto se comportando como es-
pecicado, por sua vez, geram instabilidade nas aplicaes. Um defeito pode ser
compreendido como um comportamento inesperado do sistema, desviando, assim,
das suas especicaes iniciais, que, por sua vez, pode ser compreendido como a
incapacidade de um sistema funcionar adequadamente.
Um sistema com uma determinada falha, mas que ainda consegue prover seu
servio, chamado de servio tolerante a falha, isto , o sistema no falha, mesmo
quando existe defeito em um componente do sistema [3].
A Figura 2.4 ilustra um exemplo para melhor compreenso dos tipos de falhas.
Uma falha apresentada no disco rgido (Hard Disk - HD) de um servidor (falha
fsica) pode levar a uma interpretao errada da informao em sua estrutura de
dados (erro no software), podendo, assim, negar autorizao de acesso ao servio
para o usurio, a depender do tipo de requisio que foi feita, pois o erro pode
ocorrer em uma parte do sistema que no est sendo solicitada no momento, mas
23
2.2. DEPENDABILIDADE
que vir apresentar defeito quando for solicitada.
Figura 2.4 Relao entre Falha, Erro e Defeito.
O conceito de dependabilidade pode ser dividido em trs partes [7], [25]:
Ameaas: compreendem falhas, erros e defeitos. Falha do sistema representa
quando o evento de entrega do servio no ocorre corretamente.
Atributos: referem-se s medidas quantitativas que so frequentemente cruci-
ais para uma anlise dos servios oferecidos. Atributos de dependabilidade incluem
os conceitos de disponibilidade, conabilidade, segurana, integridade e manuten-
o.
Os meios: so os mtodos pelos quais a dependabilidade atingida.
Atualmente essas propriedades vm se tornando foco de muitas reas, como
software e hardware. No software, analisam-se todos os ciclos de desenvolvimentos,
desde a anlise que antecede a implementao at o teste do software. O hardware
possibilita uma anlise antes da sua concepo, bem como uma anlise de uma
infraestrutura composta por um conjunto de hardware (por exemplo, anlise de
infraestruturas de TI de um data center, de modo a analisar a melhor viabilidade
entre componentes).
Anlise de dependabilidade compreende o clculo dos ndices, como tempo m-
dio de falha (Mean Time To Failure - MTTF), tempo mdio de reparo (Mean
Time To Repair - MTTR) e tempo mdio entre falha (Mean Time Bethwen Fai-
lure - MTBF) [37], descritos a seguir:
O MTTF o tempo mdio de falha de um dispositivo representado pela Equao
24
2.2. DEPENDABILIDADE
2.1, onde t representa o tempo e R(t) a funo de conabilidade [37].
MTTF =


0
R(t) dt.

2.1
O MTTR o tempo mdio em que o sistema est indisponvel devido atividade
da manuteno. O MTTR est representado pela Equao 2.2.
MTTR =


0
M(t) dt

2.2
onde t representa o tempo e M(t) a funo de manutenabilidade, uma vez que
a funo de manutenabilidade denida por M(t) = 1 F
D(1)
(t), sendo D(1) o
tempo de reparo do sistema e F
D(1)
(t) a funo de distribuio cumulativa, mais
detalhes consultar [37].
O MTBF o tempo mdio entre falhas de um sistema, representado pela Equa-
o 2.3 [21].
MTBF =MTTR+MTTF.

2.3
A Figura 2.5 mostra a variao da taxa de falhas de componentes de hardware
em funo do tempo. A curva da banheira exibe a taxa de falhas de componentes
de hardware em trs fases distintas [21]:
Na primeira parte, ocorre um curto perodo em que a taxa de falhas bastante
alta. Falhas ocorridas nesse perodo so decorrentes de defeitos de fabricao do
equipamento. Com o intuito de encurtar esse perodo, fabricantes submetem os
equipamentos a um processo chamado burn-in, onde eles so expostos a elevadas
temperaturas de funcionamento.
Na segunda fase, as falhas ocorrem aleatoriamente. Valores de conabilidade
de equipamentos fornecidos por fabricantes aplicam-se a esse perodo. Durante a
fase nal, a taxa de falhas cresce exponencialmente. O perodo de vida til do
equipamento normalmente no uma constante. Ele depende do nvel de estresse
em que o equipamento submetido durante esse perodo.
Em ambientes de alta disponibilidade, deve-se ter certeza de que a primeira fase
tenha passado. Em alguns casos, necessrio deixar os equipamentos funcionando
em um ambiente de testes durante um certo perodo de tempo, em que se deve
tomar cuidado para que o equipamento seja substitudo antes de entrar na fase
nal.
A dependabilidade do sistema pode ser entendida como a capacidade de pre-
25
2.2. DEPENDABILIDADE
Figura 2.5 Curva da Banheira. Adaptado de [21].
venir falhas de servio que so mais frequentes do que aceitvel, ou pode ser en-
tendida simplesmente como a capacidade do sistema ser convel [37]. O conceito
de dependabilidade engloba os seguintes atributos: conabilidade, disponibilidade,
manutenabilidade, segurana. A seguir, so apresentados os atributos de dispo-
nibilidade e conabilidade. Para mais detalhes sobre os atributos, o leitor pode
consultar [25], [37].
A conabilidade a probabilidade que o servio tem para continuar operando
corretamente. Equao 2.4 representa a conabilidade, em que T uma varivel
aleatria contnua, que representa o tempo de ocorrncia de falhas no sistema.
R(t) =P{T t}, t 0.

2.4
Uma simples denio de disponibilidade pode ser basicamente descrita como
uma porcentagem de tempo em que o sistema est ativo. Tal denio expressa
pela Equao 2.5, mais detalhes consultar [37].
A =
E[Uptime]
E[Uptime] +E[Downtime]
.

2.5
Considerando que o sistema inicia sua operao no tempo t = t

, e falso se
t = t

, assim t = t

= Uptime (ver Figura 2.6). Portanto, a disponibilidade


do sistema pode tambm ser expressa pela Equao 2.6 [37]:
A =
MTTF
MTTF +MTR
.

2.6
onde MTR tempo mdio para restaurar (mean time to restore), uma vez que
26
2.2. DEPENDABILIDADE
Figura 2.6 Estados Reparveis do Sistema [37].
denido por MTR = MNRT + MTTR. O MNRT o tempo mdio sem reparao
(mean non-repair time), assim:
se MNRT

= 0,
A =
MTBF
MTBF +MTTR
.

2.7
Enquanto MTTR MTBF, a disponibilidade pode ser representada pela Equa-
o 2.8. Maiores detalhes consultar [37].
A =
MTTF
MTTR+MTTF
.

2.8
Outra forma de representar a disponibilidade atravs do nmero de noves (9s)
[14], como mosta a Equao 2.9. 100 representa o nvel de disponibilidade mxima
que o sistema pode atingir e A representa a disponibilidade real do sistema.
N =log(1A/100).

2.9
A disponibilidade instantnea a probabilidade que o sistema est operacional
em um instante de tempo especco, isto ,
A(t) =P {Z(t) = 1} =E{Z(t)}, 0.

2.10
Caso o reparo no seja possvel, a disponibilidade instantnea A(t) equiva-
lente conabilidade, R(t). Se a abordagem do sistema de estado estacionrio,
aumenta com o tempo, ento possvel, assim, quanticar a disponibilidade de
27
2.3. DIAGRAMA DE BLOCO DE CONFIABILIDADE (RBD)
estado estacionrio, de modo a estimar se o sistema est operacional por um longo
perodo [37].
A = lim
t
A(t), t 0.

2.11
2.3 Diagrama de Bloco de Conabilidade (RBD)
So detalhadas nesta seo, as caractersticas do Diagrama de Bloco de Con-
abilidade (RBD) denido por Way [47] como uma representao das conexes
lgicas de componentes necessrios para atender uma funo do sistema especi-
cado atravs de blocos de subsistemas ou componentes conectados de acordo com
suas funes ou relao de conabilidade. Alm disso, esta tcnica foi estendida
para calcular mtricas de dependabilidade, tais como disponibilidade e manutena-
bilidade.
O modelo RBD compostos por trs elementos bsicos, que so: componentes,
ligao e ns. Os componentes so representados por blocos, os quais tm vrios
atributos como, por exemplo, a funo de distribuio de falha. Os links e ns so
construes lgicas para relacionar os blocos e, assim, denirem os caminhos de um
sistema. Um caminho denido como um percurso contnuo e sem sobreposies
da entrada sada de um RBD. Portanto, possvel representar um componente
fsico em modo de operao, atravs de um bloco e estimar a conabilidade de cada
bloco individual. Para representar a falha de um componente, s remover o bloco
correspondente e, assim, computar a conabilidade do sistema [47].
O sistema pode compreender estruturas de blocos em srie, blocos paralelos
kout of n (k de n) ou combinaes de tais estruturas. Um diagrama que tem
componentes ligados em srie, exige que cada um dos componentes esteja ativo
para que o sistema que em um estado operacional, como mostra a Figura 2.7.
No caso de estruturas em srie com n componentes, a conabilidade do sistema
representada pela Equao 2.12.
Figura 2.7 Diagrama de Blocos em Srie. Adaptado de [14].
28
2.3. DIAGRAMA DE BLOCO DE CONFIABILIDADE (RBD)
R
s
(t) =
n

i=1
R
i
(t).

2.12
Onde R
i
(t) corresponde conabilidade do bloco b
i
em t tempo. Da mesma
forma, outras mtricas podem ser calculadas para as estruturas com probabilidade
em srie.
A Figura 2.8 apresenta um diagrama que tem os componentes ligados em pa-
ralelo, o qual exige apenas um componente para que o sistema esteja operacional
[42]. A conabilidade de 2 blocos ligados em paralelo obtida pela Equao(2.13).
Figura 2.8 Diagrama de Blocos em Paralelo. Adaptado de [14].
R
P
= 1
2

i=1
(1R
i
(t)).

2.13
Onde R
i
(t) corresponde ao bloco b
i
de conabilidade no instante de tempo t.
RBDs so principalmente utilizadas em sistemas modulares que consistem em
vrios mdulos independentes, os quais podem ser facilmente representados por
um bloco de conabilidade.
A conabilidade de n blocos conectados em paralelo obtida atravs da Equao
(2.14).
R
P
= 1
n

i=1
(1R
i
(t)).

2.14
Blocos conectados em srie e blocos conectados em paralelo podem ser com-
binados para formar um novo bloco. A Figura 2.9 apresenta uma combinao
srie-paralelo e a Figura 2.10 apresenta uma combinao paralelo-srie. A cona-
bilidade desses blocos obtida atravs das Equaes (2.12) e (2.14).
A Figura 2.11 mostra a conexo de blocos em srie e paralelo, que so com-
29
2.3. DIAGRAMA DE BLOCO DE CONFIABILIDADE (RBD)
Figura 2.9 Diagrama de Blocos Srie-Paralelo.
Figura 2.10 Diagrama de Blocos Paralelo-Srie.
binados para representar um sistema. Os blocos 1 e 2, conectados em paralelo,
so combinados e formam o bloco P1 e sua conabilidade obtida por meio da
Equao (2.15). Os blocos 4 e 5 so combinados e formam o bloco P2, cuja con-
abilidade obtida atravs da Equao (2.16). A Figura 2.12 mostra o resultado
da combinao desses blocos.
R
P1
= 1
2

i=1
(1R
i
).

2.15
R
P2
= 1
5

i=4
(1R
i
).

2.16
Blocos (k de n) representam estruturas em que o sistema pode funcionar se
k ou mais componentes esto no estado operacional [49]. Por exemplo, em uma
estrutura em que haja cinco componentes e necessita-se de trs funcionando para
30
2.3. DIAGRAMA DE BLOCO DE CONFIABILIDADE (RBD)
Figura 2.11 Diagrama de Blocos Srie-Paralelo (Possvel de Combinao).
Figura 2.12 Diagrama de Blocos Srie-Paralelo (Resultado da Combinao).
prover o servio esperado, temos uma estrutura (3 de 5). As estruturas em srie
e paralela so casos especiais de estruturas (k de n). Uma estrutura em srie
uma (k de n) e uma estrutura em paralelo uma estrutura (1 de n) [47]. Para a
denio matemtica da conabilidade deste arranjo lgico, necessria a denio
da varivel aleatria discreta X, que dene o nmero de blocos que no apresenta
falhas, em um determinado intervalo de tempo. Os eventos probabilsticos de
dependabilidade so independentes para cada bloco da congurao (k de n), e
todos os n blocos possuem a mesma taxa de falha [49].
Os modelos RBD permite avaliao de dependabilidade por meio de equaes
de forma fechada (closed-form), o que deixa a tarefa de avaliao mais rpida, uma
vez que, no requerido a gerao do espao de estado do processo estocstico e,
portanto, no sofre com o problema de exploso de estado. Uma das tcnicas para
avaliao do RBD o mtodo de reduo, uma vez que, possvel analisar sistemas
em srie e sistema em paralelo, bem como analisar estruturas mais complexa como,
por exemplo (k de n). Nesta dissertao foi adotado o mtodo de reduo para
extrair um nico valor de MTTF de um conjunto de componentes ligados em
paralelo.
Para um melhor entendimento sobre a tcnica de reduo, adotado um sistema
em srie composto por n componentes, apresentado na Figura 2.13(a), onde a
sua probabilidade de falha p
i
. Estes sistema pode ser reduzido a um nico
31
2.4. REDES DE PETRI ESTOCSTICO (SPN)
componente, como mostrado na Figura 2.13(b), onde sua probabilidade de falha
P
s
=

n
i=1
p
i
. Para maiores informaes o leitor pode consultar [37].
(a)
(b)
Figura 2.13 Reduo em Srie. Adaptado de [37].
2.4 Redes de Petri Estocstico (SPN)
As redes de Petri estocstica (SPN) so uma extenso do formalismo Petri net,
que se dene como uma ferramenta para modelagem e avaliao de dependabi-
lidade de sistema envolvendo concorrncia e sincronismo. As variveis aleatrias
so adicionadas para representar a durao das atividades, ou atraso at o evento,
permitindo obter mtricas de conabilidade e apresentando um mapeamento direto
entre SPN e eventos de processo de Cadeias de Markov (MC)[8].
O conceito de redes de Petri teve incio na dcada de 70 do sculo XX e vrios
pesquisadores contriburam acrescentando diferentes caractersticas estocstica, pe-
las quais foram criadas extenses estocstica. Entre os pesquisadores, podemos
citar Noe e Nutt [31] em 1976, Merlin e Farber [28] em 1976 e Zuberek [52] em
1976 que tratam de modelagem do comportamento de sistemas computacionais
dinmicos.
Na dcada de 80, Molloy [30] e Natkin [29] realizam dois trabalhos, de forma
independente e aproximadamente ao mesmo tempo, que contriburam fortemente
para a construo do modelo SPN. Nas teses de S. Natkin [30] no Conservatrio Na-
tional des Arts et MCtiers em Paris, Frana, e de MK Molloy [29], da Universidade
da Califrnia, em Los Angeles, (nos Estados Unidos), foram abordadas denies
quase idnticas que ainda tinham o mesmo nome: Stochatic Petri Net. Uma me-
lhoria capaz de especicar sistemas, tambm apresenta uma forma de modelar os
sistemas, utilizando anlise probabilstica.
32
2.4. REDES DE PETRI ESTOCSTICO (SPN)
A extenso SPN teve como melhorias a implantao do tempo em cada tran-
sio, sendo este o foco principal. As transies possuem tempo, disparo atmico
e retardo de transio de variveis aleatrias distribudas exponencialmente, em
que o comportamento das variveis pode ser descrito atravs de um processo es-
tocstico, juntamente com a utilizao de memoryless, que a falta de memria,
necessidade de utilizar distribuio exponencial, fazendo-se, assim, isomrcas as
Cadeias de Markov. A modelagem bsica de uma transio temporizada apresen-
tada na Figura 2.14, onde a atividade representada na transio como o incio da
atividade corresponde justamente habilitao da atividade, e o m da transio
corresponde ao disparo da transio que habilita o lugar P3.
Figura 2.14 Transies com Tempo [8].
Esta caracterstica de tempo nas transies permite diferentes tipos ou carac-
terstica para o funcionamento de disparo. Podemos citar o disparo em trs fases
ou disparo atmico. No caso do disparo em trs fases, ocorre da seguinte forma:
Os token se eliminam quando habilitada a transio;
espera um tempo;
os tokens so aceitos pelo lugar de destino (P3);
J no disparo atmico, tem-se as seguintes caractersticas:
Os tokens permanecem no lugar de entrada at serem disparados pela tran-
sio;
A eleminao/consumo dos token de entrada se d pela aceitao do lugar
de destino.
33
2.4. REDES DE PETRI ESTOCSTICO (SPN)
Uma SPN denida pela 9-tupla SPN ={P, T, I, O, H, , G, M
0
, Atts}, onde:
P ={p
1
, p
2
, ..., p
n
} o conjunto de lugares;
T ={t
1
, t
2
, ..., t
m
} o conjunto de transies imediatas e temporizadas, PT=;
I (N
n
N)
nm
a matriz que representa os arcos de entrada (que podem
ser dependentes de marcaes);
O (N
n
N)
nm
a matriz que representa os arcos de sada (que podem
ser dependentes de marcaes);
H (N
n
N)
nm
a matriz que representa os arcos inibidores (que podem
ser dependentes de marcaes);
N
m
um vetor que associa o nvel de prioridade a cada transio;
G (N
n
{true, false})
m
o vetor que associa uma condio de guarda
relacionada marcao do lugar a cada transio;
M
0
N
n
o vetor que associa uma marcao inicial de cada lugar (estado
inicial);
Atts = (Dist, Markdep, Policy, Concurrency, W)
m
compreende o conjunto de
atributos associados s transies, onde:
Dist N
m
F uma possvel funo de distribuio de probabilidade
associada ao tempo de uma transio (esta distribuio pode ser depen-
dente de marcao), o domnio de F [0, );
Markdep {constante, enabdep}, onde a distribuio de probabilidade
associada ao tempo de uma transio pode ser independente (constante)
ou dependente de marcao (enabdep a distribuio depende da con-
dio de habilitao atual);
Policy {prd, prs} dene a poltica de memria adotada pela transio
(prd preemptive repeat dierent, valor padro, de signicado idntico
race enabling policy; prs preemptive resume, corresponde ao age
memory policy);
Concurrency {ss, is} o grau de concorrncia das transies, onde ss
representa a semntica single server e is representa a semntica innity
server.
34
2.4. REDES DE PETRI ESTOCSTICO (SPN)
W : T IR
+
{0} a funo peso, que representa o peso (w
t
) de
transies imediatas e a taxa
t
de transies temporizadas, onde:
(t) =

1, se t uma transio imediata;


0, caso contrrio.
Se t uma transio temporizada, ento
t
ser o valor do parmetro
da funo densidade probabilidade exponencial.
Se t uma transio imediata, ento W
t
ser um peso, que usado
para o clculo das probabilidades de disparo das transies imediatas
em conitos.
Os arcos inibidores so usados para prevenir transies de serem habi-
litadas quando certa condio verdadeira.
Os modelos SPN permitiu representar a interdependncia entre sistemas, a
construo de modelos realistas para avaliar sistemas. Portanto, as SPN tm as-
sociado sua transio o tempo que exponencialmente distribudo, facilitando
a construo de processo markovianos equivalente e, assim, podendo analisar o
comportamento da rede.
Para se computar mtricas de dependabilidade com modelos SPN, podem ser
utilizadas anlise ou simulao. Em ambos existem tcnicas estacionrias e tran-
sientes, onde:
Anlise transiente, onde as mtricas podem ser computadas em um deter-
minado intervalo de tempo;
A anlise estacionrio nos d a distribuio de probabilidades estacionria
do sistema, ou seja, a frao do tempo que o sistema gasta em cada um dos
seus estados quando ele atinge o equilbrio.
A simulao possibilita a capacidade de extrair informaes de um modelo,
onde muitas vezes um nico mtodo. Vale ressaltar, que isto ocorre, por
exemplo, quando o espao de estados de uma rede muito grande para ser
estudado analiticamente.
Nesta dissertao, foi adotado anlise estacionria para computar a disponibi-
lidade da infraestrutura de TI do data center. Alm disso, apresentado a seguir
os mtodos utilizados para anlise de uma SPN.
35
2.4. REDES DE PETRI ESTOCSTICO (SPN)
2.4.1 Simples Componente
Um simples componente tem dois estados: ativo ou inativo. Para calcular a
sua disponibilidade, MTTF e MTTR deve ser representado. A Figura 2.15 ilus-
tra o modelo SPN de um simples componente, o qual tem dois parmetros (no
representado na gura) o chamado X_MTTF e o X_MTTR, que representam
os atrasos associados com as transies X_Failure e X_Repair, respectivamente
[14].
Figura 2.15 Modelo de Simples Componente [14].
O lugar X_ON e X_OFF so os respectivos estados ativos e inativos. No
modelo, o arco de X_OFF para X_Repair inclui tambm uma caracterstica de
multiplicidade, que depende de um local de marcao. Isto denido pela expresso
(md = IF(#X_Rel_Flag =1) : 2ELSE 1), onde o lugar (X_Rel_Flag) repre-
senta a avaliao da conabilidade e disponibilidade. Se a condio (#X_Rel_Flag =
1) for verdade, a avaliao refere-se conabilidade. Caso contrrio, a avaliao
refere-se a disponibilidade [14].
2.4.2 Falha comum na dependncia de marcao
A falha comum na dependncia de sistema ocorre normalmente quando eventos
tm por dependncia o funcionamento de outro sistema, que ocorre quando no so
estatisticamente independentes. Portanto, um sistema pode afetar outro sistema.
Representar este modo de falha em um RBD no trivial, devido mudana na
estrutura do sistema ao longo do tempo.
Na transio do bloco de um simples componente, pode ser associado mar-
cao dependente, para relacionar com outro sistema. A Figura 2.16 apresenta
dois sistemas simples, em que a falha de um sistema afeta o funcionamento do
36
2.4. REDES DE PETRI ESTOCSTICO (SPN)
outro sistema. O MTTF do sistema C1_ON afeta o sistema C2_ON, conside-
rando que de taxa falha do C1_ON pode afetar C2_ON da seguinte forma:
C2_Failure = 1/( (#C1_ON = 1)), onde C1_ON = 1 representa o nmero
de tokens no lugar C1_ON. Componentes adicionais podem ser levados em conta
e seus respectivos MTTRs podem ser ajustados para considerar atraso de uma
falha dependente de marcao, semelhante ao componente C2_ON.
Figura 2.16 Falha comum na dependncia de marcao.
2.4.3 Composio de modelos
A Figura 2.17 apresenta a composio de modelos, podendo ser representada
atravs de dois modelos bsicos e um modelo de agregao. Seguidamente, os
modelos usam a expresso de guarda nas transies imediatas para representar a
relao entre os modelos. Como exemplo, a composio em srie apresentada
considerando modelo SPN. O mesmo modelo pode representar um sistema em
paralelo sem perda de generalidade, mudando apenas a expresso de guarda [12].
A composio dos modelos em srie, caracteriza-se pelo funcionamento em que
nenhum deles pode falhar, caso falhe um, toda a composio tambm falha, ou
seja, o sistema todo falha. Os dispositivos para esta composio so chamados
de C1 e C2, o sistema como um todo representado pelos lugares Device_UP
e Device_Down. Quando o sistema est em Device_UP, representa o sistema
funcionando. Quando o sistema est inoperante, aps a falha do sistema C1 ou
C2, representado com um token em Device_Down [12].
Para a relao dos modelos bsicos com o modelo de agregao, necessrio
denir funes de habilitao para ambos modelos bsicos. Uma expresso de
guarda associada s transies Device_Repair e Device_Failure. A transio
Device_Failure representada pela condio que representa um estado falho,
similarmente a esta condio, denido reparo na transio Device_Repair. A
37
2.4. REDES DE PETRI ESTOCSTICO (SPN)
Figura 2.17 Composio de Modelos [12].
Tabela 2.1 apresenta as expresses de guarda do modelo de composio (ver 2.17).
Na primeira linha, a transio de falha habilitada quando C1 ou C2 est em falha.
Tabela 2.1 Atributos da Composio de Modelos.
Transio Expresso de Guarda
Device_Failure (#C1_ON = 0) OR (#C2_ON = 0)
Device_Repair NOT((#C1_ON = 0) OR (#C2_ON = 0))
Em uma medida de desempenho e de dependabilidade denido o que vai ser
medido. Dependendo do modelo, esta medida pode relacionar um sistema em srie
ou um sistema em paralelo. A medida tem os seguintes atributos: nome da medida
e uma expresso que deve ser avaliada. A Figura 2.18 apresenta outra forma de
modelar a composio de modelos de agregao. Este modelo pode ser bem til a
depender da complexidade e tamanho do problema.
X_Failure
2
X_ON
X_OFF
X_Repair
Y_Failure
3
Y_ON
Y_OFF
Y_Repair
Figura 2.18 Composio de Modelos com Reduo de Sistemas.
Neste exemplo, o componente bsico X_ON composto por dois subsistemas,
e o sistema Y _ON composto por trs subsistemas. A agregao deste sistema
38
2.4. REDES DE PETRI ESTOCSTICO (SPN)
apresentada na Tabela 2.2. Portanto, a disponibilidade em srie pode ser repre-
sentada pela expresso de guarda P{(#X_ON = 2 AND #Y _ON = 3)}. Como
mencionado anteriormente, se apenas um sistema falhar, o sistema como um todo
ca inoperante. Similarmente, encontrado para um sistema em paralelo, tanto
para os subsistemas X_ON e Y _ON, e tambm para todo o sistema com a ex-
presso P{((#X_ON =1 OR #X_ON =2) OR (#Y _ON =1 OR #Y _ON =2
OR #Y _ON = 3))}. Nesta situao, o sistema falha se todos os subsistemas dos
dois sistemas falharem.
Tabela 2.2 Atributos do componente de agregao.
Atributo tipo Expresso de Guarda
Disponibilidade Serie P{(#X_ON = 2 AND #Y _ON = 3)}
Disponibilidade Paralelo P{((#X_ON = 1 OR #X_ON = 2) OR
(#Y _ON = 1 OR #Y _ON = 2 OR #Y _ON = 3))}
2.4.4 Cold Standby
Um sistema redundante cold standby composto por um mdulo de reposio
inativo que s ativado quando o mdulo ativo principal falhar. Figura 2.19 ilustra
o modelo SPN deste sistema, o qual inclui quatro lugares, isto , X_ON, X_OFF,
X_Spare1_ON, X_Spare1_OFF, que representam os estados operacionais e
falhas dos mdulos principais e livres, respectivamente [14]. O mdulo de reposio
(Spare1) inicialmente desativado, os tokens so inicialmente armazenados em
locais X_Spare1_ON e X_Spare1_OFF. Quando o mdulo principal falhar, a
transio X_Activate_Spare1 disparada, representando a ativao do mdulo
de reposio [14].
A Tabela 2.3 ilustra os atributos de cada transio do modelo. O MTActivate
corresponde ao tempo mdio para ativar o mdulo de reparo. A disponibilidade
pode ser calculada pela probabilidade P{#X_ON = 1 OR #X_Spare1_ON =
1}.
39
2.5. CONSIDERAES FINAIS
Figura 2.19 Cold Standby [14].
Tabela 2.3 Atributos da Transio.
Transio Prioridade Tempo ou Peso
X_Failure - X_MTTF
X_Repair - X_MTTR
X_Activate_Spare1 - MTActivate
X_Failure_Spare1 - X_MTTF_Spare1
X_Repair_Spare1 - X_MTTR_Spare1
X_Desactivate_Spare1 1 1
2.5 Consideraes Finais
Neste captulo, foram abordados os principais conceitos que envolvem esta dis-
sertao. Primeiramente, foi apresentada as estruturas do data center. Posterior-
mente, foram abordados os conceitos de dependabilidade. Por m, foram mostra-
das as denies dos modelos formais SPN, RBD, utilizados neste trabalho para
avaliao de dependabilidade.
40
3
Trabalho Relacionado
Neste captulo, abordada uma comparao da proposta desta pesquisa com
os trabalhos relacionados e, por sua vez, foram selecionados aqueles considerados
mais relevantes de acordo com os objetivos aqui abordados. Portanto, interes-
sante ressaltar que no foram encontrados diante do nosso conhecimento modelos
que relacionassem dependncia entre arquiteturas de TI e refrigerao. A depen-
dncia permite relacionar o impacto que ambas podem causar uma na outra, aps
aumento da temperatura na sala do data center. As sees a seguir apresentam os
modelos utilizados para avaliao do efeito da variao da temperatura e avaliao
de dependabilidade no data center.
3.1 Variao da Temperatura e Transferncia de
Calor
Atualmente, encontram-se diversos trabalhos que tratam do problema do efeito
da variao da temperatura em data center, em que se tem como base a soluo por
meio das equaes diferenciais. As equaes diferencias, por sua vez, dicilmente
possuem uma soluo analtica conhecida. Assim, uma das solues encontradas
atravs de mtodos numricos.
O mtodo numrico ajuda a resolver as derivadas existentes nas equaes
diferenciais, trocando por expresses algbricas. Para tal, o mtodo de dinmica
de uido computacional (CFD), permite dar um suporte ao modelo numrico de
forma a analisar o uxo de uido, transferncia de calor e fenmenos associados [2].
Assim, possvel resolver mtodos de diferenas nitas e volumes nitos, atravs da
soluo das equaes de Euler/Navier-Stokes, juntamente com inmeros mtodos
41
3.1. VARIAO DA TEMPERATURA E TRANSFERNCIA DE CALOR
de integrao temporal e tcnicas de acelerao de convergncia. Os pargrafos
a seguir descrevem os trabalhos que utilizam a tcnica CFD, bem como outras
tcnicas.
Patterson [36] analisa a ecincia energtica, bem como sugere temperaturas
para operao do data center. A anlise utiliza a tcnica CFD para estudo do uxo
de ar na sala. Nesse contexto, os resultados reportados apoiam o desenvolvimento
de estratgias ecazes de gerenciamento trmico para os data centers, mas no
considera o impacto da variao de temperatura na disponibilidade do sistema de
TI.
Chen [16] prope uma abordagem que integra sensores sem o, modelos de
Dinmica dos Fluidos Computacional (CFD) transiente [1], e algoritmos de previ-
so baseadas em dados para prever a temperatura do sistema em tempo real. A
combinao destas tcnicas reduz a complexidade computacional da predio de
temperatura. No entanto, este documento no aborda o impacto da temperatura
sobre a disponibilidade do sistema de TI.
Ghosh [23] descreve um estudo que analisa a quantidade de servidores que esto
colocados no interior de um rack, assim como a posio em que so colocadas (por
exemplo, na parte superior ou na parte inferior da prateleira). O estudo revela
que o aumento do nmero de servidores dentro de um rack tem impacto sobre
a temperatura do ar. Este trabalho no foca os efeitos da temperatura sobre a
disponibilidade do sistema.
Lpez [27] apresentou um modelo de transferncia de calor para os data center
que mais rpido do que a soluo por meio de clculos CFD. A simulao
feita por meio da equao de Laplace para medies em tempo real. Os dados de
entrada da equao so fornecidos por sensores sem o. No entanto, a adoo de
anlise numrica pode ter reduzido a qualidade dos resultados obtidos, devido aos
muitos pressupostos necessrios para calcular esta anlise. Alm disso, o autor no
aborda o impacto da temperatura sobre a disponibilidade das infraestruturas de
data center.
Ratnesh [15] prope uma modelagem numrica para o uxo de ar em salas
de data center com alta densidade de calor. Visto que a distribuio intuitiva
dos CRACs no produz uma refrigerao ecaz, alm de levar ao desperdcio de
energia. A anlise da modelagem contempla uma variao da capacidade trmica
do sistema de refrigerao para atender mudana dinmica da localizao dos
racks, a m de encontra um layout otimizado do sistema de refrigerao com base
42
3.1. VARIAO DA TEMPERATURA E TRANSFERNCIA DE CALOR
na carga de calor atual, com isso, permitem alcanar a ecincia energtica. No
entanto, no considerado o impacto que esta variao da capacidade trmica tem
na disponibilidade da infraestrutura do data center.
Breen [11] fornece um modelo que representa o uxo de calor a partir do nvel
de rack at o cooling tower. Nesse modelo, possvel tanto avaliar o desempenho
do sistema de refrigerao, como identicar os componentes que mais contribuem
para a ineccia do sistema de refrigerao. Uma extenso desse trabalho feita
em [46], apresentando uma anlise que incluem os componentes eletrnicos dentro
de um rack, considerando a dissipao de calor de um processador. Isso permitiu a
determinao da inuncia de diferentes estratgias de coeciente de desempenho
para o sistema de refrigerao. Os autores no consideraram anlise de dependa-
bilidade nas infraestruturas do data center.
Beitelmal [9] faz anlise de uma arquitetura de refrigerao para encontrar
uma melhor disponibilidade como base no posicionamento dos equipamentos de
refrigerao na sala do data center. Nessa anlise, o autor leva em considerao o
movimento das correntes do uxo de ar, com a carga xa de calor. Logo aps, feita
mudana no posicionamento dos equipamentos de refrigerao, a m de encontrar
o melhor posicionamento. Para tanto, utilizada tcnica de modelagem CFD para
solucionar o melhor posicionamento dos CRACs, o que evita uma redundncia
desnecessria. Outra forma apresentada, a migrao da carga de trabalho para
outros sistemas disponveis dentro do data center, de forma a reduzir a temperatura
de entrada dos servidores a um nvel aceitvel. Os resultado so apresentados em
termo de utilizao do CRAC, presso, temperatura e uxo de distribuio do ar.
No entanto, esta anlise no contemplou o impacto do posicionamento das unidades
de CRACs do sistema de refrigerao sobre a disponibilidade das infraestruturas
de data center.
Sankar [39] so apresentados modelos de Arrhenius para avaliar o impacto da
temperatura no dispositivo do servidor do data center. Nesse estudo, relaciona-se
a temperatura e a falha dos servidores, considerando anlise em trs parmetros
que so: chassi do servidor, locais dos servidores em um rack e vrios racks em um
data center. A avaliao utiliza do modelo de Arrhenius para encontrar estimar
falhas de discos rgidos correlacionados com a temperatura de funcionamento do
data center. Este trabalho no contemplou impacto da temperatura ambiente sobre
a disponibilidade da arquitetura de TI.
Pakbaznia [34] tem como objetivo minimizar o consumo de energia total para o
43
3.2. MODELOS DEPENDABILIDADE
sistema de TI e para o sistema de refrigerao, enquanto atende um limite mximo
para a temperatura de cada servidor. Esse trabalho descreve solues de gesto
trmica que melhora a ecincia energtica do data center. O modelo de gesto
trmica decide sobre o nmero de servidores que vo car ativos ao mesmo tempo.
Logo aps, ajusta a temperatura do ar fornecido pela arquitetura de refrigerao.
Portanto, a anlise prev a carga de trabalho com polticas ecientes do tempo de
execuo para trazer novos servidores online, enquanto a carga de trabalho alta,
ou fechar quando a carga de trabalho baixa. Este trabalho no contemplou o
efeito da variao de temperatura na disponibilidade do sistema de TI.
3.2 Modelos Dependabilidade
Ao longo dos ltimos anos tm surgido muitos trabalhos cientcos nas reas de
infraestrutura de data center considerando avaliao de dependabilidade. A ava-
liao de dependabilidade fornece tcnicas para sistemas que podem ser baseados
em modelos ou experimentos. Este conceito abrangente, o qual envolve atributos
de disponibilidade, conabilidade, desempenho, manutenabilidade. O processo de
avaliao atravs de modelos que devem comear durante o desenvolvimento de
um sistema. A seguir, ser descrita uma srie de trabalhos correlatos, por ordem
cronolgica, que levam em conta tcnicas utilizadas na modelagem. A seguir, so
apresentados alguns trabalhos relacionados dependabilidade do data center.
Callou [13] prope modelos para quanticar o impacto da dependabilidade,
sustentabilidade e custos da infraestrutura de refrigerao do data center. A anlise
das arquiteturas foi feita utilizando os modelos SPN e os modelos de uxo de
energia (EFM). A partir desses modelos, foram avaliados e encontrados o custo de
aquisio, custo operacional, consumo de exergia, downtime e a disponibilidade das
arquiteturas de refrigerao. Entretanto, o autor mantm o foco em arquiteturas
de refrigerao, no tratando de questes sobre a temperatura.
Zeng [50] prope modelos para analisar a dependabilidade de uma arquitetura
de control center network em smart grid, bem como diferentes estratgia de bac-
kup de componentes crticos. A avaliao feita pelos modelos SPN, em que so
consideradas disponibilidade, conabilidade e estratgias de backup. Portanto, a
abordagem do autor direcionada anlise de disponibilidade, conabilidade em
smart grid, mas no examinou os efeitos da temperatura sobre a disponibilidade
do dispositivo.
44
3.3. CONSIDERAES FINAIS
Em Wei [48] so propostos modelos de dependabilidade para anlise de infra-
estrutura virtual do data center de cloud computing. O objetivo principal obter
servio de alta conabilidade e disponibilidade, atravs de abordagem hbrida dos
modelos de Redes de Petri Estocsticas Generalizadas (Generalized Stochastic Pe-
tri Nets - GSPN) e RBD. A anlise, por sua vez, tambm apresenta uma relao
entre a disponibilidade e carga de trabalho e migrao de backup em tempo real,
mas no considera o efeito da variao de temperatura na dependabilidade das
arquiteturas do data center.
Como apresentado anteriormente, vrios estudo tm sido realizados conside-
rando dependabilidade, e variao da temperatura no data center, mas, diante do
nosso conhecimento, no foram encontrados trabalhos que se concentram no im-
pacto da variao da temperatura externa na disponibilidade do sistema de TI,
bem como na prpria variao da temperatura interna, causando, assim, o im-
pacto na disponibilidade sistema de TI, como por exemplo, falha do sistema de
refrigerao. Portanto, diferente dos trabalhos apresentados, este trabalho pro-
pem modelos como meio de quanticar o impacto da mudana da temperatura
sobre a disponibilidade nos equipamentos de TI.
3.3 Consideraes Finais
Este captulo mostrou uma grande variedade de mtodos e modelos que so
utilizados para anlise da variao de temperatura e dependabilidade na sala do
data center. Por m, foi apresentada a diferena dos trabalhos relacionados com o
trabalho desta pesquisa, em que foram concebidos os modelos de energia, modelo de
Arrenhius, modelo RBD e modelo SPN. Concluindo, assim, com uma contribuio
muito interessante para o projetista do data center, no momento da elaborao de
um projeto, considerando o aspecto do impacto da variao da temperatura na
disponibilidade do sistema de TI.
45
4
Metodologia e Modelo
O Captulo ora exposto apresenta os modelos adotados neste trabalho para
quanticar o efeito da variao de temperatura na infraestrutura do data center,
assim como caractersticas, mtricas e tcnicas de anlise para cada modelo. Inici-
almente, so apresentados os modelos para anlise do efeito da variao de tempe-
ratura. Em seguida, so apresentado o modelo diagrama de blocos de conabilidade
(RBD). Seguidamente, so mostrados o modelo de redes de Petri estocstica (SPN).
4.1 Metodologia
apresentada a seguir a metodologia concebida para avaliar o impacto da va-
riao de temperaturas, sobre a disponibilidade do sistema de TI no data center.
A metodologia utilizada compreende a realizao de nove fases, so elas: entendi-
mento do sistema, denio de mtricas e parmetros, gerao dos modelos energia,
avaliao dos modelos de energia, resultado dos modelos de energia, gerao dos
modelos do subsistema, gerao de modelo de dependabilidade com modelo Arrhe-
nius, avaliao do sistema e resultado do sistema.
Na Figura 4.1 descrito o processo conduzido pela adoo de uma estratgia de
modelagem hbrida, que considera as vantagens de ambos os modelos combinatrios
e baseados em estados.
1. Entendimento do Sistema: Esta fase refere-se compreenso do sistema,
tais como a funcionalidade e a interao entre o sistema e o subsistema. Nesta
fase, importante identicar o problema a ser analisado.
46
4.1. METODOLOGIA
Gerao do
Modelo Energia
Gerao de Modelos
do Subsistema
Gerao de Modelo
Dependabilidade
com Modelo Arrhenius
Avaliao do Sistema
Entendimento
do Sistema
Definir Mtricas
e Parmetros
Result
Resultado do
Modelo de Energia
Figura 4.1 Metodologia.
2. Denir Mtricas e Parmetros: a denio de mtricas e parmetros
a serem alcanados, que sero considerados no processo de avaliao. Este
trabalho adota as seguintes mtricas, por exemplo: disponibilidade, custo de
aquisio e custo operacional. Os parmetros, por exemplo, utilizados so a
temperatura desejada para o ambiente de TI no data center e a quantidade
de calor a ser extrado pelo sistema de refrigerao.
3. Gerao do Modelos de Energia: compreende a construo do modelo de
energia das infraestruturas do data center, considerando os parmetros de-
nidos na fase anterior. Neste trabalho considerado o efeito da variao de
temperatura ambiente, proveniente do impacto do sistema de TI no sistema
de refrigerao, ou pelo impacto do sistema de refrigerao no sistema de TI.
Em ambas situaes ocorre variao de temperatura ambiente.
47
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
4. Avaliao do Modelo de Energia: apresentada, nesta fase, a avaliao
do modelo de energia construdo na fase anterior.
5. Resultado do Modelo de Energia: Nesta fase, obtido o valor da tem-
peratura ambiente, aps ter sido avaliado na fase anterior.
6. Gerao de Modelos do Subsistema: Nesta fase, so gerados modelos
dos subsistemas do data center, considerando seu modo operacional. Vale
ressaltar que nesta fase no foi considerado a variao de temperatura. Assim,
o modelo utilizado foi o RBD por meio do mtodo de reduo para extrair
um valor de MTTF de um conjunto de componentes. A partir da obteno
do MTTF seguidamente atribudo ao modelo de Arrenhius.
7. Gerao de Modelo de Dependabilidade com Modelo Arrhenius:
compreende a gerao de modelos de dependabilidade composto pelo modelo
de Arrhenius. O modelo de Arrhenius computa um novo MTTF para cada
dispositivo de TI de forma esttica, com base na temperatura fornecida pelo
modelo de energia. Seguidamente, este novo MTTF utilizado pelo mo-
delo SPN, para quanticar o impacto da variao de temperatura sobre a
disponibilidade do sistema de TI do data center.
8. Avaliao do Sistema: Nesta fase, quanticado o impacto da variao
de temperatura na disponibilidade da infraestrutura de TI do data center,
utilizando os modelos apresentado na fase anterior.
9. Resultado do Sistema: So apresentado os resultados da avaliao de todo
o sistema contendo as mtricas de interesses.
4.2 Modelos para Impacto de Variao de Tem-
peratura
Esta seo apresenta os modelos para computar o impacto da variao de tem-
peratura na sala de TI de um data center considerando dois aspectos: o primeiro
variao da temperatura ambiente por motivo da variao da temperatura interna,
que pode ser por falha dos dispositivos do sistema de energia, sistema de refrigera-
o ou sistema de TI. O segundo aspecto, pelo impacto da temperatura externa
no interior do ambiente.
48
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
O efeito da variao de temperatura uma causa muito comum de falha de um
dispositivo eletrnico que, por sua vez, normalmente projetado para funcionar
dentro dos limites da temperatura especicados pelo fabricante. Os dispositivos de
TI so composto por semicondutores, cuja a dissipao de energia proporcional
corrente que percorre os elementos internos do circuito.
4.2.1 Modelo de Energia
Esta seo apresenta um modelo para avaliar o impacto da variao de tem-
peratura na sala de TI em funo de defeitos em um ou mais CRACs. O modelo
tambm permite estimar o aumento da temperatura na sala do data center, aps a
quebra de um ou mais CRACs na sala de TI, bem como permite estimar o consumo
de energia do data center e custo operacional ao longo de um perodo especicado.
A Figura 4.2 ilustra o uxo de energia entre os sistemas de um data center.
O sistema representado por seus subsistemas (sistemas de energia, sistema de
refrigerao e sistema de TI). As setas mostram o uxo de energia a partir de um
subsistema para outro.
PTI
PTI_D
PSR
PTI_S
PSE_E
Infraestruturas do Data Center
Figura 4.2 Modelo de Energia.
onde P
TI_S
corresponde potncia til do sistema de TI. P
TI_D
denota o calor
gerado pelo sistema de TI. Esta energia (calor) deve ser transferida pelo sistema
de refrigerao para o lado externo do data center. P
SR
representa a energia
fornecida pelo sistema de energia para o sistema de refrigerao (sem a qual no
49
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
pode funcionar). P
SE_E
denota a potncia total demandada pelo data center
recebida da companhia provedora de energia eltrica.
A energia consumida pelo sistema de TI em um perodo de tempo pode ser
denida por:
Q
TI
=

t
2
t
1
P
TI
(t)dt,

4.1
onde P
TI
(t) a potncia demandada pelo sistema de TI. Considerando P
TI
uma
constante, no intervalo t2 - t1, temos:
Q
TI
=P
TI
(t
2
t
1
).

4.2
Se considerarmos que P
TI
pode ser expressa em Watts e t
2
t
1
= 1 hora, Q
TI
pode ser expresso em Watt hora (Wh).
A energia (calor) dissipada pelo sistema de TI calculada por:
Q
TID
= (Q
TI
(1
TI
),

4.3
onde
TI
a ecincia energtica do sistema de TI.
Se Q
TID
expresso em (Wh), Q
TID
pode ser representada em (British Thermal
Units - BTU) multiplicando-se por um fator de 3.413. BTU uma unidade padro
para representar sistemas de regulao da temperatura. O aumento da temperatura
em uma rea A
TI
(sala de TI de um data center) devido energia dissipada pelos
dispositivo de TI naquele ambiente pode ser estimada por:
TP
H
=
Q
TID
(A
TI
h)
,

4.4
onde h a condutividade trmica que consiste em uma grandeza fsica para medir
a capacidade de um material conduzir o calor. O fator h normalmente expresso
em (W/m.K) e A
TI
em (m
2
) [41].
A temperatura ambiente (em Kelvin), sem considerar o calor extrado pelo
sistemas de refrigerao, pode ser estimada por:
TP
SSA
=T
A
+TP
H
,

4.5
onde T
A
(Kelvin), sem considerar o aumento da temperatura causado pelo dis-
positivo de TI (em Kelvin).
50
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
A diferena da temperatura (em Kelvin), que deve ser ajustado pelo sistema de
refrigerao, obtida
subtraindo-se TP
SSA
T
A
, portanto:
TP
SR
=TP
SSA
TP
T
.

4.6
Ns restringimos o estudo a localizaes geogrcas com altas temperaturas,
em outras palavras, para regies em que a temperatura que desejamos manter no
ambiente TP
T
(sala de TI) seja menor do que no exterior.
A quantidade de calor (energia) que o sistema de refrigerao tem para transferir
para fora da sala de TI dada pela Equao 4.7:
Q
SR_E
= TP
SR
hA
TI
.

4.7
Q
SR_E
normalmente expressa em BTUs.
A energia requerida pelo sistema de refrigerao a partir do sistema de energia
calculada por:
Q
SR
=
Q
SR_E
t
.

4.8
onde COP o coeciente de desempenho do sistema de refrigerao (coecient of
performance) [22]. Quando usamos o ndice de Ecincia de Energia Sazonal (Se-
asonal Energy Eciency Ratio - SEER) em vez do COP, o ltimo pode ser obtido
atravs da aplicao seguinte COP =
SEER
3.792
. A unidade do SEER BTU/(Wh)
e denotado a quantidade de energia (calor) removida de um ambiente e a energia
eltrica do sistema de refrigerao expressa em (Wh). Por exemplo, considere um
sistema de refrigerao com SEER = 13 e COP = 3.42827, sendo assim, sua capa-
cidade trmica 3.42827 (BTU/h). A energia (calor) que o sistema de refrigerao
tem de transferir para o meio ambiente exterior normalmente expressa em BTUs,
ela convertida em (Wh), dividindo a energia em BTU por 3.413. Portanto, a
potncia provida pelo sistema de energia, que fornece energia ao sistema de TI e o
sistema de refrigerao em um instante de tempo (t) :
P
SE
S
(t) =P
SR
(t) +P
TI
(t),
sendo P
SR
(t) a energia demandada pelo sistema de refrigerao. Caso o P
SR
(t) e
P
TI
(t) sejam constantes, temos a seguinte equao:
51
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
P
SE
S
=P
SR
+P
TI
.
Portanto:
P
SR
=
Q
SR
t
.
Se Q
SR
representado em (Wh) e t = 1 hora, a unidade de P
SR
Watt.
A potncia requeria pelo data center a um provedor de energia eltrica no
momento t, pode ser calculada por:
P
SR_E
(t) =
Q
SR
S
(t)

SE
.
onde
SE
a ecincia energtica do sistema de energia.
Atravs das equaes acima apresentadas e com algumas manipulaes, obtm-
se a seguinte expresso que descreve a temperatura da sala de TI (TP
f
- em Kelvin),
podendo, assim, ser encontrado o impacto da temperatura externa dentro da sala
de TI, bem como a variao da temperatura dentro da sala em funo de defeitos
nos dispositivo do sistema de refrigerao. O P
TI
(expresso em Watt) uma funo
de potncia instalada de TI, a ecincia energtica do equipamento como
SE
, o
t representa o perodo de tempo, temperatura externa com (TP
E
- em Kelvin),
temperatura desejada como (TP
T
- em Kelvin), a rea da sala de TI (A
TI
- expressa
em m
2
), a potncia do sistema de refrigerao (P
CSA
- expressa em BTUs), o fator
h a condutividade trmica da parede expressa em W/(mK) [24].
TP
f
=

(A
TI
h)

(3.413P
TI
(1
TI
)t)
(A
TI
h)
+TP
E
TP
T

P
CSA

(A
TI
h)
+TP
T
.

4.9
A energia consumida pelo data center no perodo t
f
t
0
calculada pela Equa-
o 4.10:
EC
t
f
t
0
=

t
f
t
0
P
SE_E
(t)dt.

4.10
E o custo devido aquisio desta energia consumida :
CEC
t
f
t
0
=

t
f
t
0
(P
SE_E
(t).C
E
(t))dt.

4.11
52
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
onde C
E
(t) o custo da energia no instante t.
4.2.2 Impacto da Variao da Temperatura no dispositivo
de TI - (Modelo de Arrhenius)
Esta seo apresentada a equao de Arrhenius. Esta equao expressa a de-
pendncia entre temperaturas e velocidade de reao. O modelo prev acelerao
de falha devido ao aumento da temperatura.
Em 1884, Svante Arrhenius props no trabalho Recherches sur la conductibi-
lit galvanique des lectrolytes, pela primeira vez a equao de Arrhenius (a qual
recebeu seu nome) [5]. Alternativamente, expresso pela Equao 4.12:
r =Ae

E
a
KTP

4.12
onde r denota a taxa de reao, TP a temperatura absoluta (em Kelvin), em que
ocorre falhas devido ruptura dieltrica. K a constante de Boltzmann (8,623
10
5
eVK), e uma constante exponencial. A
f
uma constante conhecida
como fator de frequncia, e E
a
a energia de ativao para ruptura dieltrica de
semicondutores. A ruptura dialtica dos semicondutores (gate oxide), por sua vez,
est entre a faixa (0,3eV - 0,7eV) [40]. Este trabalho usa 0,642eV [44].
A energia de ativao denida como a energia que tem que ser ultrapassada
para que uma reao qumica ocorra, portanto, podendo ser compreendida como
a energia mnima necessria para iniciar uma reao qumica ou a sensibilidade
da velocidade de reao para a temperatura. O fator de frequncia uma relao
emprica entre a temperatura e a taxa do coeciente. Considerando a Equao
4.12 e adicionando duas temperaturas, TP que representa a temperatura nal (em
Kelvin) e TP
0
que a temperatura inicial ou temperatura desejvel para o interior
da sala do data center (em Kelvin), de tal forma que TP > TP
0
, a Equao 4.13
obtida:
MTTF
TP
=MTTF
TP
0
(e
E
a
k
(
1
TP

1
TP
0
)
).

4.13
O arranjo da Equao 4.13 permite calcular o impacto da variao de temperatura
na taxa de falha do dispositivo TI. Portanto, para um melhor esclarecimento sobre o
modelo de Arrhenius, vamos adotar dois cenrio. O primeiro cenrio no apresenta
variao de temperatura, no entanto, o segundo cenrio, apresenta variao de
53
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
temperatura.
O primeiro cenrio representado pela Equao 4.14, onde considerado um
router com MTTF de 448.000, a temperatura nal no valor de TP = 293.15 (Kel-
vin), e a temperatura inicial no valor de TP
0
= 293.15 (Kelvin), a energia de ati-
vao no valor de 0,642eV, e a constante de Boltzmann (8,623 10
5
eVK). Por
sua vez, conclumos que no ocorreu variao no tempo de falha do router.
MTTF
TP
= 448.000(e
0,642
8,61710
5
(
1
293.15

1
293.15
)
) = 448.000.

4.14
O segundo cenrio apresentado pela Equao 4.15 considera a variao de tem-
peratura, onde similar ao primeiro cenrio, mas diferente por conter a tempera-
tura nal no valor de TP= 297.02610 (Kelvin). Neste segundo cenrio conclumos
que houve uma variao no tempo de falha do router em funo da variao de
temperatura.
MTTF
TP
= 448.000(e
0,642
8,61710
5
(
1
297.02610

1
293.15
)
) = 321.619.

4.15
4.2.3 Modelo RBD para componentes em Paralelo
O modelo RBD mostra as conexes lgicas entre os componentes de um sistema
e permite visualizar a relao existente entre a conabilidade e disponibilidade
geral do sistema em estudo e a conabilidade e disponibilidade de cada um de seus
componentes, como explicado em melhores detalhes no Captulo 2.
Para avaliao de conabilidade e disponibilidade de um sistema (por exemplo,
uma arquitetura de TI) deve-se ter uma denio do que constitui um defeito.
Assim, o sistema pode ter denido diferentes probabilidades para a ocorrncia da
falha, em que necessria a construo de diferentes RBD para cada situao.
Figura 4.3 ilustra um exemplo de funcionamento de um rack composto por 6 ser-
vidores, onde um defeito congurado somente se todos os servidores falharem. A
partir desta lgica de falha, concebido um modelo RBD.
Figura 4.4 mostra um modelo RBD paralelo dos componentes apresentados na
Figura 4.3. O modelo paralelo foi denido pois o rack s apresenta um defeito
se todos os servidores falharem. Para o modelo da Figura 4.4, so utilizado os
valores de 120.000 horas para os MTTF e 8 horas para os MTTRs de todos os
servidores. A partir deste modelo, assume-se que todos os servidores possuem as
mesmas caractersticas e atendem a uma situao de lgica de falha proposta.
54
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
Figura 4.3 Componentes do Rack.
Figura 4.4 Modelo RBD para um Rack.
Assim, a Equao 4.16 permitiu computar o MTTF do rack [43]. Logo aps
ser obtido este valor, seguidamente atribudo ao modelo SPN para computar a
disponibilidade na infraestrutura de TI.
55
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
E[x] =
1

i=1
1
i
=
H
n


1n(n)

4.16
onde E[x] representa o MTTF do sistema paralelo (rack). taxa de falha de cada
componente i para i = 1,2,3,...,n. H
n
a soma parcial de uma srie de componentes
(srie harmnica). ln logaritmo neperiano de n componentes.
4.2.4 Modelo SPN
O modelo SPN permite relacionar a dependncia entre as infraestruturas de
refrigerao e de TI. Considere duas situaes: (i) o aumento do nmero de dis-
positivo de TI conduz a um aumento do calor produzido, consequentemente, a
temperatura do ambiente aumenta, (ii) falha de unidades de CRACs reduz a ca-
pacidade de refrigerao. Em ambas as situaes, a temperatura aumenta, conse-
quentemente, a disponibilidade do sistema reduzida.
Para uma melhor compreenso, foram denidos trs cenrios por meio da ferra-
menta Power Advisor [33], seguidamente foram criados os seus respectivos modelos
SPN. Assim, este trs cenrios tem como objetivo nico auxiliar em um melhor en-
tendimento sobre os modelos SPN, considerando dependncia.
A Figura 4.5 mostra a congurao C1 base em uma viso de alto nvel com-
posta por duas arquiteturas, sendo que a arquitetura de TI contm quatro dispo-
sitivos (um router, um switch e dois racks, cada um contendo seis servidores) e a
arquitetura de refrigerao composta por cinco dispositivos (um cooling tower,
um chiller e trs unidades CRACs).
Nesta congurao, no existe variao da temperatura sobre o sistema de TI,
pois todo o calor gerado pelos dispositivos removido pelo sistema de refrigerao.
Neste cenrio, considera-se que o sistema de refrigerao opera em sua capacidade
mxima.
Outras duas conguraes foram derivadas da congurao C1, considerando-
se diferentes arquiteturas de refrigerao e TI. C2 similar a C1, mas com duas
unidades de CRACs a menos. C3 comparado com C1, contm duas unidades de
rack a mais. Figura 4.6 mostra o modelo SPN da congurao C1, a arquitetura
de TI ilustrada pela linha tracejada na cor cinza e a arquitetura de refrigerao
pelas linhas tracejadas na cor preto.
56
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
. . .
. . .
(a) Congurao (C1),
. . .
. . .
(b) Congurao (C2),
. . .
. . .
(c) Congurao (C3).
Figura 4.5 Conguraes de Data Center.
A Figura 4.7 apresenta a sub-rede da congurao C1, a marca atribuda ao
lugar Switch_ON indica que um dispositivo est ativo, caso contrrio, est ina-
tivo. Da mesma forma, os dois tokens no lugar Rack_ON representam os dois
racks, esta mesma representao serve para todos os dispositivos. As transies
exponencial F_Router e R_Router servem para representar momentos crticos do
sistema, que podem ser por erros ou defeitos. O tempo associado a F_Router re-
cebe uma expresso condicional com a equao de Arrhenius e, consequentemente,
um MTTF de acordo com a temperatura do ambiente.
57
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
Figura 4.6 Modelo SPN da Congurao C1.
Rack_ON
R_Rack
F_Rack
Rack_OFF
2
Figura 4.7 Sub-Rede SPN da Congurao C1.
O tempo mdio de reparo (MTTR) foi considerado o mesmo para todos os
dispositivos de TI, no entanto, o MTTF dos equipamentos depende da variao de
temperatura ambiente. Por exemplo, se a temperatura estiver a 20 graus Celsius,
o equipamento recebe o MTTF padro, caso contrrio, o novo MTTF calculado
pelo modelo de Arrhenius. MTTFs e MTTRs padro adotados esto presentes na
Tabela 4.1, onde foram obtidos em [14] [32] [18] [19] [17].
58
4.2. MODELOS PARA IMPACTO DE VARIAO DE TEMPERATURA
Tabela 4.1 Parmetros das infraestruturas de TI e Refrigerao.
Equipamento MTTF(horas) MTTR(horas)
RouterBorder 448.000 8
Router 276.060 8
Switch 215.000 8
Rack com 6 servidores 294.000 8
Chiller 18.000 48
CoolingTower 24.816 48
CRAC 37.059 8
A Tabela 4.2 mostra a expresso atribuda transio F_Router, F_Switch,
F_Rack, a qual tem uma relao de interdependncia entre as infraestruturas de TI
e refrigerao. A expresso composta por NM=4 que representa quatro dispositi-
vos de TI ativos, logo aps, expressa a relao de funcionamento dos dispositivos
de refrigerao. Por exemplo, #CRAC1_ON =1, signica que CRAC1 est ativo,
enquanto #CRAC1_ON =0 signica que ele est inativo. Isto realizado atravs
de uma expresso a partir do primeiro IF, vericando-se o funcionamento de todos
os dispositivos. No caso de todos os dispositivos estarem funcionando, as transies
F_Router,F_Switch, F_Rack recebem o MTTFs padro. Caso contrrio, estas
transies tero um novo MTTF calculado pela equao de Arrhenius (Equao
4.13). A disponibilidade calculada pela probabilidade P{(#F_Router_ON =1)
and (#F_Switch_ON = 1) and #F_Router_ON = 2)}.
Tabela 4.2 Atributos de Transio.
Transio Tipo Tempo e Peso Prio SS
IF (NM=4) AND (#Chiller_ON=1 AND #CoolingTower_ON=1)
F_Router, AND ((#CRAC1_ON=1 AND #CRAC2_ON=1 AND #CRAC3_ON=0) - - - SS
F_Switch OR (#CRAC1_ON=1 AND #CRAC2_ON=0 AND #CRAC3_ON=1) - - - SS
F_Rack Ex OR (#CRAC1_ON=0 AND #CRAC2_ON=1 AND #CRAC3_ON=1)):MTTF - - - IS
ELSE :MTTF({(E
a
/k)EXP(1/TP - 1/TP
0
))}
F_CRAC1
F_CRAC2
F_CRAC3 Ex MTTF - - - SS
F_Chiller
F_CoolingTower
R_Router,
R_Switch Ex MTTR - - - SS
R_Rack
F_CRAC1
F_CRAC2
F_CRAC3 Ex MTTF - - - SS
F_Chiller
F_CoolingTower
T1, T2, T3 Im 1 1 - - -
Abreviaes: Ex: Exponencial, Im: Imediato, Prio: Prioridade, SS: Single Server, Innite Server.
59
4.3. CONSIDERAES FINAIS
4.3 Consideraes Finais
Este captulo apresentou a metodologia adotada neste trabalho. Em seguida,
o modelo de energia para obter a variao de temperatura ambiente. Tambm foi
apresentado o modelo de Arrhenius para calcular o impacto da variao de tem-
peratura no tempo de falha (MTTF) do dispositivo de TI. Posteriormente foram
mostrados os conceitos e modelo RBD concebido. Alm disso, so apresentadas as
expresses algbricas do modelo RBD para computar o MTTF do sistema paralelo
(rack paralelo). Por ltimo, descrito o modelo SPN para relacionar a interde-
pendncia entre as infraestruturas do data center, bem como avaliar impacto da
variao de temperatura na disponibilidade da infraestrutura de TI do data center.
60
5
Estudo de Caso
Neste captulo sero apresentados trs estudos de casos para mostrar aplicabi-
lidade de um conjunto de modelos proposto, assim, tem-se como objetivo avaliar
o impacto da variao da temperatura sobre a disponibilidade do sistema de TI
do data center. Portanto, todas as etapas da metodologia foram utilizadas para
auxiliar na avaliao desses estudos.
O primeiro estudo tem como objetivo quanticar o impacto do sistema de refri-
gerao sobre sistema de TI. O segundo estudo avalia o impacto do sistema de TI
no sistema de refrigerao. Em ambos os estudos ocorre vario de temperatura
ambiente, onde por sua vez, leva a uma reduo da disponibilidade.
O terceiro estudo adota mtricas de custo e lucro, a m de demostrar como
computar perdas nanceiras de uma companhia, proveniente da variao de tem-
peratura ambiente do data center. Para tal, assume-se um data center de uma
empresa de hotelaria para representar meios de como calcular o impacto da va-
riao de temperatura sobre a disponibilidade do sistema de TI, considerando as
mtricas de custo e lucro.
A avaliao feita para os trs estudos de casos por meio de anlise estacionria,
onde os software utilizados para anlise foram SHARPE [38] para modelagem RBD
e o TimeNet [51] para os modelos de SPN.
5.1 Estudo de Caso I
O principal objetivo deste estudo de caso quanticar o impacto do sistema de
refrigerao sobre a disponibilidade do sistema de TI. Para tanto, considerado
oito diferentes conguraes de data center, onde cada congurao composto por
arquitetura de TI e arquitetura de refrigerao. Alm disso, foram considerados
61
5.1. ESTUDO DE CASO I
na avaliao as mtricas de disponibilidade e downtime.
5.1.1 Arquiteturas
A congurao C1 base, ilustrada em uma viso de alto nvel na Figura 5.1, foi
denida a partir do software da HP Power Advisor [33], onde C1 consiste em uma
arquitetura de TI com 51 dispositivos (um router border, um router, nove switches
e 40 racks, cada uma contendo dez servidores) e a arquitetura de refrigerao com-
posto por oito dispositivos (um cooling tower, um chil ler e seis unidades CRACs).
Nesta congurao, no h variao da temperatura e, consequentemente, no h
variao da disponibilidade do sistema de TI por esta causa, pois todo o calor
gerado pelo dispositivo de TI removido pelo sistema de refrigerao.
Outras sete conguraes foram derivadas a partir da congurao C1, conside-
rando-se diferentes arquiteturas de refrigerao e diferentes nveis de redundncia.
A mudana de temperatura na sala do data center tambm considerada. A
falha da unidade de CRAC resulta no funcionamento imperfeito do sistema de
refrigerao, o que afeta a temperatura da sala. O aumento desta temperatura
afeta diretamente a disponibilidade do sistema de TI.
A congurao C1 possui um sistema de refrigerao que atende todo o calor
produzido pelo sistema de TI, no entanto, as demais conguraes (C2, C3 e C4)
apresentam falha nas unidades de CRACs, o que leva ao um aumento de tempe-
ratura ambiente. C2 C1 sem o CRAC em cold stantby, C3 tem quatro CRACs
ativos e C4 tem apenas trs. A congurao C5 corresponde a C1 incrementado
por um chiller e um cooling tower redundante. Os CRACs so progressivamente
removidos das arquiteturas subsequentes (C6, C7 e C8) de um modo semelhante,
como acima.
62
5.1. ESTUDO DE CASO I
5.1.2 Modelos
A equao 4.9 estima a variao de temperatura na sala do data center consi-
derando a potncia demandada pelo dispositivos de TI, a potncia da capacidade
do sistema de refrigerao e as respectivas falhas dos dispositivos de refrigerao.
Tabela 5.1 apresenta a potncia do sistema de refrigerao (P
CSA
em BTU/h) para
cada congurao. Para computar a variao de temperatura, necessrio denir:
a potncia demandada do sistema de TI (P
TI
= 125.742,40 W), a condutividade
trmica (h) da parede (1,73 W/(mK)) [24], a rea (A
TI
= 400,00 m
2
) da sala do
data center, a ecincia energtica de todos os dispositivos de TI (adotou-se
TI
= 0,95%) e o perodo de anlise (considerou-se 1 hora). Assim todos sistemas de
refrigerao deve extrair 64373,82 BTU/h produzidos pelo sistema de TI.
No entanto, as conguraes que apresentam falha de unidades de CRACs no
conseguem extrair todos este calor, o que leva ao aumento de temperatura ambi-
ente. Portanto, a temperatura na sala do data center aumenta quando menos de
cinco CRACs so utilizados. A Tabela 5.2, mostra a temperatura ambiente refe-
rente a quantidade de CRACs.
Tabela 5.1 A Potncia do Sistema de Refrigerao em Cada Congurao.
Conguraes P
CSA
(BTU/h)
C1 64373,82
C2 64373,82
C3 51499,06
C4 38624,29
C5 64373,82
C6 64373,82
C7 51499,06
C8 38624,29
63
5.1. ESTUDO DE CASO I
. . .
. . .
. . .
(a) Congurao C1, (b) Congurao C2,
(c) Congurao C3, (d) Congurao C4,
(e) Congurao C5, (f) Congurao C6,
(g) Congurao C7, (h) Congurao C8.
Figura 5.1 Conguraes do Data Center.
64
5.1. ESTUDO DE CASO I
Tabela 5.2 Temperatura Ambiente.
Temperatura Ambiente Numero de CRACs ativos
20,0

Celsius 5
26,2

Celsius 4
32,4

Celsius 3
A Figura 5.2 e a Tabela 5.4 mostram o modelo SPN da congurao C1. Os
valores de MTTFs e MTTRs padro so apresentados na Tabela 5.3, onde foram
obtidos em [14] [32] [18] [19] [17]. No modelo SPN, o sistema ilustrado pela linha
tracejada na cor cinza e o sistema de refrigerao pelas linhas tracejadas na cor
preta. Os nove tokens no lugar Switch_ON representam os nove switches. Da
mesma forma, os tokens no lugar Rack_ON representam os racks do sistema.
Modelos semelhantes foram criados para avaliar as outras sete arquiteturas.
Tabela 5.3 Parmetros das infraestruturas de TI e Refrigerao.
Equipamento MTTF(horas) MTTR(horas)
RouterBorder 448.000 8
Router 276.060 8
Switch 215.000 8
Rack com 10 servidores 351.476 8
Chiller 18.000 48
CoolingTower 24.816 48
CRAC 37.059 8
Os atributos adicionados s transies de falha dos dispositivos de TI incluem
duas instrues condicionais, que so apresentados na Tabela 5.4. A primeira
condio se refere ao funcionamento dos dispositivos de TI e a segunda, ao fun-
cionamento dos dispositivos de refrigerao. Por exemplo, NM=2 signica que
tem dois dispositivos de TI ativos, #CRAC1_ON = 1, signica que o CRAC1
est ativo e CRAC1_ON=0 signica que ele est inativo. Por ultimo inserido a
Equao de Arrenhius 4.13, onde utilizada para calcular o impacto da variao
de temperatura no tempo mdio de falha do dispositivo de TI, um novo valor do
MTTF. Alm destas, tambm so apresentadas as transies de reparo e falha dos
dispositivos de refrigerao.
65
5.1. ESTUDO DE CASO I
CRAC6_ON
P0
CRAC6_OFF
CRAC6_F
CRAC6_R
CRAC4_ON
CRAC3_ON
CRAC2_ON
CRAC1_ON
CRAC5_ON
CRAC5_F CRAC5_R
CRAC5_OFF
CRAC4_OFF
CRAC4_R
CRAC4_F
CRAC3_OFF
CRAC3_F CRAC3_R
CRAC2_OFF
CRAC2_F CRAC2_R
CRAC1_OFF
CRAC1_F
CRAC1_R
Cooling Tower1_ON
Cooling Tower1_OFF
Cooling Tower1_R Cooling Tower1_F
Chiller1_ON
Chiller1_R Chiller1_F
Chiller1_OFF
9 40
RouterBorder1_ON
RouterBorder1_R
RouterBorder1_F
RouterBorder1_OFF
Router1_ON
Router1_OFF
Router1_F Router1_R
Switch_ON
Switch1_OFF
Switch1_F Switch1_R
Rack_ON
Rack_OFF
Rack_R Rack_F
Figura 5.2 Modelo SPN para Congurao C1.
66
5.1. ESTUDO DE CASO I
Tabela 5.4 Atributos das Transies.
Transio Tipo Tempo ou Peso Prio SS
IF(NM=51)AND(#Chiller1_ON=1)AND(#CoolingTower1_ON=1) - - -
AND ((#CRAC1_ON=0 AND #CRAC2_ON=1 AND #CRAC3_ON=1
RouterBorder1_F, Ex AND #CRAC4_ON=1 AND #CRAC5_ON=1 AND #CRAC6_ON=1) - - - SS
Router1_F. Ex OR (#CRAC1_ON=1 AND #CRAC2_ON=0 AND#CRAC3_ON=1 - - - SS
AND #CRAC4_ON=1 AND #CRAC5_ON=1 AND#CRAC6_ON=1)
OR (#CRAC1_ON=1 AND #CRAC2_ON=1 AND #CRAC3_ON=0
AND #CRAC4_ON=1 AND #CRAC5_ON=1 AND #CRAC6_ON=1) OR
(#CRAC1_ON=1 AND #CRAC2_ON=1 AND #CRAC3_ON=1
Switch1_F, Ex AND #CRAC4_ON=0 AND #CRAC5_ON=1 AND #CRAC6_ON=1) - - - IS
Rack_F. Ex OR(#CRAC1_ON=1 AND #CRAC2_ON=1 AND #CRAC3_ON=1 - - - IS
AND #CRAC4_ON=1 AND #CRAC5_ON=0 AND #CRAC6_ON=1)
OR(#CRAC1_ON=1 AND #CRAC2_ON=1 AND #CRAC3_ON=1 AND
#CRAC4_ON=1 AND #CRAC5_ON=1 AND #CRAC6_ON=0))
:MTTF({(E
a
/k)EXP(1/TP - 1/TP
0
))} ELSE (250);
RouterBorder1_R,
Router1_R, Switch1_R, Ex MTTR - - - SS
Rack_R.
T1,T2, T3, T4, T5, T6 Im 1 1 - - -
CRAC1_F . . . CRAC6_F
Chiller1_F Ex MTTF - - - SS
Cooling Tower_F
CRAC1_R . . . CRAC6_R
Chiller1_R Ex MTTR - - - SS
Cooling Tower_R
Abreviaturas: Ex: Exponencial, Im: Imediato, Prio: Prioridade, SS: Single Server,
IS: Innite Server, E
a
: Energia de Ativao, k: constante de Boltzmann,
TP: Temperatura Final, TP
0
: Temperatura Inicial.
Para o clculo da disponibilidade, trs modos operacionais foram considerados.
No primeiro modo (MO1), a disponibilidade calculada supondo-se que todos os
dispositivos de TI devem estar funcionando. No segundo (MO2), o sistema consi-
derado operacional se todos os dispositivos de rede (router border, router e switch) e
pelo menos 30 racks estiverem funcionando. No terceiro modo operacional (MO3),
todos os dispositivos de rede e no mnimo 20 racks devem estar funcionando.
A Tabela 5.5 contm as expresses para quanticar a disponibilidade em cada
modo operacional. Por exemplo, na linha MO1 tem-se a expresso para o clculo
da disponibilidade do modo operacional MO1. Essa expresso representa a proba-
bilidade de que os lugares RouterBorder_ON e Router_ON tenham um tokem
cada, o lugar Switch1_ON tenha nove tokens e o lugar Rack1_ON tenha quatro
tokens.
Tabela 5.5 Expresses para Quanticar a Disponibilidade.
MO Expresses de Probabilidade
MO1 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND (#Rack1_ON = 40)};
MO2 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1) AND
(#Switch1_ON = 9) AND ((#Rack1_ON = 30)
OR (#Rack1_ON = 40))};
MO3 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND ((#Rack1_ON = 20
OR (#Rack1_ON = 30) OR (#Rack1_ON = 40)};
Abreviaturas: MO - Modo Operacional.
67
5.1. ESTUDO DE CASO I
5.1.3 Resultados
Tabela 5.6 apresenta um resumo dos resultados das conguraes avaliadas em
cada modo operacional (MO1, MO2 e MO3). Nesta tabela, as mtricas disponibi-
lidade, disponibilidade em nmero de noves (-log [1-A/100])[14] e downtime (em 1
ano).
Como esperado, o downtime aumenta quando a temperatura se eleva. Por
exemplo, adotando-se MO1, downtime de C4 (quando comparado com C1) aumen-
tou 2.024 horas, e o de C8 (em comparao com C5) aumentou para 2.035 horas.
Quando se considera MO2, o downtime de C4 (em comparao com C1) e C8 (em
comparao com C5) aumentaram em 1.851 e 1.861 horas, respectivamente. Os
resultados mostram claramente que o aumento da temperatura ambiente pode le-
var a perdas nanceiras para empresa como consequncia do respectivo impacto
no downtime.
Tabela 5.6 Resumo dos Resultados das Conguraes.
Conguraes MO Disponibilidade (9s) Downtime(h)
C1 99,93601 (3,194) 5,606
C2 99,92270 (3,112) 6,772
C3 99,91956 (3,095) 7,047
C4 MO1 99,91290 (3,060) 7,630
C5 99,99146 (4,068) 0,748
C6 99,97815 (3,660) 1,914
C7 99,97492 (3,601) 2,197
C8 99,96823 (3,498) 2,783
C1 99,94919 (3,294) 4,451
C2 99,93910 (3,215) 5,335
C3 99,93533 (3,189) 5,665
C4 OM2 99,92806 (3,143) 6,302
C5 99,99151 (4,071) 0,744
C6 99,98142 (3,731) 1,627
C7 99,97758 (3,649) 1,964
C8 99,97027 (3,53) 2,604
C1 99,94955 (3,297) 4,419
C2 99,93951 (3,218) 5,299
C3 99,93573 (3,192) 5,630
C4 OM3 99,92845 (3,145) 6,268
C5 99,99151 (4,072) 0,743
C6 99,98148 (3,732) 1,623
C7 99,97762 (3,650) 1,961
C8 99,97030 (3,527) 2,602
Abreviaturas: MO- Modo Operacional.
A Figura 5.3 mostra uma comparao grca da disponibilidade de cada con-
gurao nos trs modos operacionais. O grco demonstra que C1 e C5 so opes
interessantes, visto que suas disponibilidades so superiores s outras conguraes.
68
5.2. ESTUDO DE CASO II
Observe tambm o impacto da falha nas unidades de CRACs na disponibilidade do
sistema de TI. Quando o sistema de refrigerao estiver funcionando com unidades
CRACs insucientes, o sistema de refrigerao no capaz de extrair calor gerado
pelos dispositivos de TI, o que provoca o aumento de temperatura.
Configuraes
D
i
s
p
o
n
i
b
i
l
i
d
a
d
e
3,060
3,095
3,112
3,143
3,145
3,189
3,192
3,194
3,215
3,218
3,294
3,297
3,498
3,527
3,530
3,601
3,649
3,650
3,660
3,731
3,732
4,068
4,071
4,072
MO1
C1 C2 C3 C4 C5 C6 C7 C8
MO2
C1 C2 C3 C4 C5 C6 C7 C8
MO3
C1 C2 C3 C4 C5 C6 C7 C8
Figura 5.3 Resultados do Primeiro Estudo: Disponibilidade(9s) de cada congurao.
5.2 Estudo de Caso II
O segundo estudo de caso computa o impacto do sistema de TI sobre o sistema
de refrigerao. A partir deste impacto elevado a temperatura ambiente, que por
sua vez, reduz a disponibilidade do sistema de TI do data center. Portanto, foram
considerados trs diferentes conguraes de data center, onde cada congurao
composto por uma arquitetura de TI e outra arquitetura de refrigerao. Alm
disso, foram considerados na avaliao as mtricas de disponibilidade e downtime.
69
5.2. ESTUDO DE CASO II
5.2.1 Arquiteturas
A Figura 5.4 ilustra em uma viso de alto nvel das trs conguraes do data
center, onde foram denida a partir do software da HP Power Advisor [33]. A partir
da congurao C1 base, que semelhante a C1 apresentado no estudo anterior,
outras duas conguraes so geradas com diferentes nveis de redundncia nas
infraestruturas de TI. O sistema de refrigerao permanece o mesmo em todas as
conguraes.
Como explicado anteriormente, a infraestrutura de TI da congurao C1
composta por 51 dispositivos (1 router border, 1 router, 9 switch, e 40 racks, em que
cada rack composto por 10 servidores), infraestrutura de refrigerao composta
por oito dispositivos (1 cooling tower, 1 chil ler, e 6 unidades de CRACs). C2
corresponde a C1, com mais 10 racks, e C3 C1 com a adio de 20 racks.
Ns assumimos que C1 opera em uma temperatura ambiente de 20 graus Cel-
sius, isso porque todo o calor produzido pelo sistema de TI extrado pelo sistema
de refrigerao. Em C2 e C3, a capacidade trmica do sistema de refrigerao
excedida devido ao aumento do nmero de racks. O resultado o aumento da
temperatura ambiente, o que afeta diretamente o sistema de TI. O modelo SPN
estima o impacto da variao da temperatura sobre a disponibilidade do sistema
de TI.
5.2.2 Modelos
A Tabela 5.7 apresenta a potncia demandada do sistema de TI (P
TI
) para cada
congurao. Alm disso, considerada a mesma potncia do sistema de refrigera-
o para todas as conguraes, que 64373,82 (BTU/h). A ecincia energtica
adotada, a condutividade trmica da parede considerada, a temperatura ambiente,
e a rea so equivalentes ao apresentado no estudo anterior.
70
5.2. ESTUDO DE CASO II
. . .
. . .
. . .
(a) Congurao C1,
. . .
. . .
. . .
(b) Congurao C2,
. . .
. . .
. . .
(c) Congurao C3.
Figura 5.4 Conguraes do Data Center.
71
5.2. ESTUDO DE CASO II
Tabela 5.7 Parmetros Modelo de Energia.
Congurao P
TI
(Watt)
C1 125742,40
C2 141460,20
C3 157178,00
A Tabela 5.8 apresenta a temperatura da sala do data center, referente a cada
congurao. Assume-se que o sistema de refrigerao de C1 opera em sua capa-
cidade mxima para retirar todo o calor produzido pelo sistema de TI. Assim, a
temperatura ambiente permanece em 20 graus Celsius. No entanto, C2 e C3 apre-
sentam falha nos CRACs, o que impede a retirada de todo o calor do ambiente,
consequentemente, ocorre uma elevao na temperatura ambiente. Com base nos
valores de temperatura da Tabela 5.8, calculam-se os novos MTTFs.
Tabela 5.8 Temperatura da sala do Data Center.
Conguraes Temperatura
C1 20,0

Celsius
C2 23,9

Celsius
C3 27,8

Celsius
O modelo SPN concebido para o estudo de caso II similar ao estudo de
caso I, mas adota diferentes expresses para computar a disponibilidade. Assim,
no apresentado a gura do modelo SPN referente ao segundo estudo, por ser
semelhante ao primeiro estudo. O modelo tambm permite relacionar a interde-
pendncia nas infraestruturas de TI e refrigerao.
A disponibilidade foi computada considerando-se trs modos operacionais. O
modo MO1, dene que o sistema est operacional se todos os dispositivos de TI
estiverem funcionando para as trs conguraes. O modo MO2 dene que C1
est operacional se todos os dispositivos de rede estiverem ativos e pele menos 30
racks estiverem funcionais; C2 est funcional, se todos os dispositivos de rede esti-
verem ativos e pelo menos 40 racks estiverem funcionando; e C3 est operacional
se todos os dispositivos estiverem funcionando e pelo menos 50 racks ativos. Da
mesma forma, o modo operacional MO3 dene que o sistema est operacional se a
72
5.2. ESTUDO DE CASO II
congurao C1 tiver pelo menos 20 racks ativos, C2 pelo menos 30 racks ativos,
C3 pelo menos 40 racks ativos, alm de todos os dispositivos de rede ativos. A
Tabela 5.9 apresenta as expresses das disponibilidade em cada modo operacional.
Tabela 5.9 Expresses para Quanticar a Disponibilidade.
Conf MO Expresses de Probabilidade
C1 MO1 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND (#Rack1_ON = 40)};
C1 MO2 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1) AND
(#Switch1_ON = 9) AND ((#Rack1_ON = 30)
OR (#Rack1_ON = 40))};
C1 MO3 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND ((#Rack1_ON = 20)
OR (#Rack1_ON = 30) OR (#Rack1_ON = 40))};
C2 MO1 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND (#Rack1_ON = 50)};
C2 MO2 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1) AND
(#Switch1_ON = 9) AND ((#Rack1_ON = 40)
OR (#Rack1_ON = 50)};
C2 MO3 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND ((#Rack1_ON = 30)
OR (#Rack1_ON = 40) OR (#Rack1_ON = 50)};
C3 MO1 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND (#Rack1_ON = 60)};
C3 MO2 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1) AND
(#Switch1_ON = 9) AND ((#Rack1_ON = 50)
OR (#Rack1_ON = 60)};
C3 MO3 P{(#RouterBorder_ON = 1) AND (#Router_ON = 1)
AND (#Switch1_ON = 9) AND ((#Rack1_ON = 40)
OR (#Rack1_ON = 50) OR (#Rack1_ON = 60)};
Abreviaturas: MO - Modo Operacional; Conf - Conguraes.
73
5.2. ESTUDO DE CASO II
Tabela 5.10 Resumo dos Resultados das Conguraes.
Conf MO Disponibilidade (9s) Downtime (h)
C1 99,93601 (3,194) 5,606
C2 MO1 99,93267 (3,172) 5,898
C3 99,92823 (3,144) 6,287
C1 99,94919 (3,294) 4,451
C2 MO2 99,94587 (3,267) 4,742
C3 99,94144 (3,232) 5,130
C1 99,94955 (3,297) 4,419
C2 MO3 99,94623 (3,269) 4,710
C3 99,94180 (3,235) 5,099
Abreviaturas: Conf - Conguraes; MO - Modo Operacional.
5.2.3 Resultados
A Tabela 5.10 apresenta os resultados para as conguraes analisadas em cada
modo operacional. As conguraes C2 e C3 apresentam aumento no downtime
comparado com C1. Isto ocorreu devido ao impacto da variao de temperatura.
A temperatura ambiente em C2 e C3 vai de 20,0

Celsius para 23,9

Celsius e
27,8

Celsius.
O modo OM1, C2 tinha aumentado o tempo de downtime em 0,292 horas, e
em C3 o aumento foi de 0,681 horas (em comparao com C1). No modo OM2,
C2 e C3 apresentam aumentos de tempo de downtime de 0,291 e 0,679 horas,
respectivamente, quando comparado com C1. O modo OM3, C2 tinha aumentado
o tempo de downtime, em 0,290 horas e em C3 do aumento em tempo de downtime
foi 0,679 horas (em comparao com C1). Portanto, a adio de dispositivos de TI
pode aumentar a temperatura do data center, bem como reduzir a disponibilidade
do sistema de TI.
A Figura 5.5 ilustra os resultados de disponibilidade, em nmero de noves (9s)
de cada de congurao nos modos operacionais. Os resultados aqui apresentados
mostram o impacto da variao da temperatura sobre a disponibilidade do sistema
informtico. As congurao C1 uma alternativa interessante a ser adotada,
devido ao fato de que de ter o melhor ndice de disponibilidade.
74
5.3. ESTUDO DE CASO III
Configuraes
D
i
s
p
o
n
i
b
i
l
i
d
a
d
e
3,144
3,172
3,194
3,232
3,235
3,267
3,269
3,294
3,297
MO1
C1 C2 C3
MO2
C1 C2 C3
MO3
C1 C2 C3
Figura 5.5 Resultado do Segundo Estudo de Caso: Disponibilidade(9s) de Cada Con-
gurao.
5.3 Estudo de Caso III
Este estudo de caso concentra-se na avaliao do impacto da variao de tempe-
ratura na disponibilidade do sistema de TI do data center, considerando as mtricas
de custo e lucro. Alm de disponibilidade e downtime.
Para tal, foi adotado o cenrio de um data center de uma empresa de hotelaria,
levando em conta valores nanceiros de custo e lucro que a empresa tem em funo
da venda de reserva de quarto por meio de seu sistema online, que por sua vez,
este sistema encontra-se em seu data center. Este estudo assumiu que a empresa de
hotelaria, composto por 5 funcionrios que prestam suporte ao data center, aos
quais cada um recebe um valor mensal de $5.000,00, em que resulta em uma des-
pesa de $240.000,00 anual para a companhia. A empresa recebe seu faturamento
por meios de um sistema de reserva online de quartos, onde so considerados a
venda de 2 reservas por horas, onde cada reserva custa 120,00 dlares. O custo
da energia eltrica para funcionamento do data center foi de $0,11 por kWh. Por-
tando, este estudo avalia oito diferentes conguraes de data center, onde cada
congurao composta por uma arquitetura de TI e outra de refrigerao.
75
5.3. ESTUDO DE CASO III
5.3.1 Mtricas de Custo e Lucro
Esta seo apresenta os aspectos de custos concebidas por este trabalho.
Custo de aquisio (Aquisition Cost - AC) o oramento necessrio para
implementar aa infraestruturas de data center.
Custo Operacional (Operacional Cost - OC) representa o custo de manter o
sistema operacional.
OC =P T E
cost
A.

5.1
Onde E
cost
corresponde ao preo da energia por (kWh); T assume com um
perodo de tempo; P a energia eltrica consumida kW ; A a disponibilidade.
Receita (Income - I) a receita que a empresa tem por meio da venda de
reserva de quarto, atravs de seu sistema online, onde calculado pela seguinte
frmula:
I =BP NHR(T Downtime).

5.2
Onde mean Bookings Price - BP o preo mdio de reservas de um quarto de
hotel, (Number of Reservations per Hour - NRH) o nmero de reservas feitas
por hora e T o perodo considerado em horas.
Custo do Funcionrio (Employees Cost - EC) a despesa de contratao do
pessoal para operar o data center.
Lucro (Prot - P
f
) o lucro liquido da empresa, aps ter subtrado todas as
despesas, onde calculado pela Equao 5.3 :
P
f
=I AC OC EC.

5.3
Onde EC o custo associado aos empregados que mantm o data center ope-
racional.
76
5.3. ESTUDO DE CASO III
Custo de Manuteno (Maintenance Cost - MC) a soma de todos os custos
(ou todas as despesas) do data center mencionados acima.
MC =AC +OC +EC.

5.4
Adicionalmente, tambm so calculadas as perdas nanceiras (Financial Los-
ses - FL). Nesta mtrica so consideradas as perdas nanceiras em funo do
perodo de inatividade (ou downtime) do sistema online de venda de reserva de
quarto. Seguidamente apresentado na Equao 5.5:
FL =Downtime BP NRH.

5.5
5.3.2 Arquitetura
A congurao C1 base, apresentado em uma viso de alto nvel na Figura
5.6, onde foi denida a partir do software da HP Power Advisor [33]. C1 consiste
de um sistema de TI composto por 51 dispositivos (1 router border, 4 router, 13
switch, e 40 racks, em que cada rack contm 10 servidores), e um sistema de
refrigerao composto por oito dispositivos (1 cooling tower, 1 chil ler e 6 CRACs).
Outras sete conguraes foram derivadas a partir de C1, considerando variao
da temperatura ambiente a partir da falha de unidades de CRACs. A falha de
CRAC compromete o perfeito funcionamento do sistema de refrigerao.
A partir de C1 at C4, unidades de CRACs foram progressivamente removi-
das. Congurao C5, corresponde a C1, mas diferente por conter redundncia de
chiller e cooling tower. A partir da C5 at C8, unidades de CRACs foram removi-
das. A falha de CRAC no sistema de refrigerao, resultando em um aumento da
temperatura na sala do data center.
5.3.3 Modelos
Inicialmente, aps a falha de unidades de CRACs, o modelo energia utilizado
para calcular a nova temperatura ambiente. Os valores adotados no modelo de
energia foram equivalente ao estudo de caso I, que so: potncia do sistema de refri-
gerao (BTU/h) (ver Tabela 5.1). A ecincia energtica adotada (
IT
= 0,95%);
77
5.3. ESTUDO DE CASO III
. . .
. . .
. . .
(a) Congurao C1, (b) Congurao C2,
(c) Congurao C3, (d) Congurao C4,
(e) Congurao C5, (f) Congurao C6,
(g) Congurao C7, (h) Congurao C8.
Figura 5.6 Conguraes do Data center.
78
5.3. ESTUDO DE CASO III
a condutividade trmica da parede considerada (h = 1,73 W/(m.K)), a tempera-
tura padro do ambiente (20

Celsius), mas com uma diferena na potncia do


sistema de TI, que (P
TI
= 125841,24 W), adotado em todas as conguraes.
A Tabela 5.11 mostra a temperatura da sala do data center, onde a falha de
CRACs inuenciam na temperatura ambiente. Por exemplo, a temperatura am-
biente padro de 20,0 graus Celsius (considerando todas as unidades de CRACs
ativos). Aps a falha de unidades de CRACs, a temperatura ambiente elevou, em
apenas 1 hora, de 20,0

Celsius para 26,2

Celsius (considerando 4 unidades de


CRACs ativos), e 32,4

Celsius para a situao, em que se tem 3 unidades de


CRACs ativos. Com base nos valores da temperatura na Tabela 5.11 e 5.12, o
modelo Arrenhius calcula o novo MTTF.
Tabela 5.11 Temperatura da sala do Data Center.
Temperatura Numero de CRACs Ativos
20,0

Celsius 5
26,2

Celsius 4
32,4

Celsius 3
Tabela 5.12 Parmetros da Infraestrutura de TI e Refrigerao.
Equipmento MTTF(horas) MTTR(horas)
RouterBorder 448.000 8
Router 276.060 8
Switch 215.000 8
Rack com 10 servidores 35.147619 8
Chiller 18.000 48
CoolingTower 24.816 48
CRAC 37.059 8
O modelo SPN do terceiro estudo de caso similar ao primeiro estudo de caso,
mas com uma diferena na quantidade dos dispositivos de TI. Por este motivo,
no apresentado o modelo SPN, mas vale ressaltar que o sistema de refrigerao
permanece o mesmo. Por exemplo, o lugar Switch_ON recebe 13 tokens para de-
nir uma quantidade de 13 switch, semelhante acontece com o lugar Router_ON,
onde recebe 4 tokens para representar 4 router.
79
5.3. ESTUDO DE CASO III
A relao de interdependncia do sistema de TI e refrigerao foi conseguida a
partir das expresses condicionais colocadas nas transies de falha dos dispositivos
de TI. As expresses deste modelo so semelhantes aos da Tabela 5.4.
Para computar a disponibilidade, trs modos operacionais foram denidos. No
primeiro modo MO1, a disponibilidade computada assumindo que todos os dis-
positivos de TI esto funcionando. No segundo modo MO2, o sistema de TI est
funcional se 1 router border, 4 router, 13 switch, e pelo menos 30 racks estejam
ativos. No terceiro modo MO3, devem estar operacionais 1 router border, 4 rou-
ter, 13 switch, e pelo menos 20 racks. A Tabela 5.13 mostra a probabilidade das
expresses utilizadas para computar a disponibilidade em cada modo operacional.
Tabela 5.13 Expresses para Quanticar a Disponibilidade.
Modo Operacional Expresso
MO1 P{(#RouterBorder_ON = 1) AND (#Router_ON = 4) AND
(#Switch_ON = 13) AND (#Rack1_ON = 40)};
MO2 P{(#RouterBorder_ON = 1) AND (#Router_ON = 4) AND
(#Switch_ON = 13) AND ((#Rack1_ON = 30) OR
(#Rack1_ON = 40))};
MO3 P{(#RouterBorder_ON = 1) AND (#Router_ON = 4) AND
(#Switch_ON = 13) AND ((#Rack1_ON = 20) OR
(#Rack1_ON = 30) OR (#Rack1_ON = 40))}
5.3.4 Resultados
A Tabela 5.14 apresenta um resumo dos resultados da avaliao de diferentes
conguraes, separados nos modos operacionais (MO1, MO2 e MO3). As mtri-
cas avaliadas foram disponibilidade (9s); downtime calculado em um perodo de
8760 (em 1 ano); custo de aquisio, AC (USD); custo operacional , OC(USD);
custo manuteno, MC (USD); receita, I (USD); perdas nanceiras, FL(USD); e
lucro, P(USD). Alm disso, o hotel tem 4 funcionrios para suporte tcnico dos
equipamentos.
Em termos de disponibilidade, C1 e C5 apresentam os mais altos resultados em
todos os modos operacionais, e MO3 tem a maior disponibilidade. Por exemplo,
80
5.3. ESTUDO DE CASO III
a disponibilidade em nmero de noves para C1 e C5 no MO3 foi 2,944 e 2,992,
respectivamente. C5 tem a maior disponibilidade, devido presena de chil ler e
cooling tower, e uma unidade de CRAC (em cold standby).
A Figura 5.7 uma comparao grca do downtime versus perda nanceira
para cada congurao nos modos operacionais. C4 e C8 produzem as maiores
perdas nanceiras em todos os modos operacionais. Isso devido aos aumentos
considerveis da temperatura na sala do data center, que se eleva a partir de 20,0

Celsius para 32,4

Celsius em apenas 1 hora, aps a falha de CRACs. A tempera-


tura aumenta continuamente, por isto, a anlise foi determinada em um perodo de
1 hora, em virtude de estar muito alta a partir de 1 hora. C4 e C8 so as congura-
es que tm os maiores impactos na disponibilidade, isso porque so as que sofrem
mais com a alta temperatura, por exemplo em MO1, o downtime aumenta 3,3 e
2,3 horas, respetivamente (comparado com C1). Os resultados indicam C5 como
uma interessante congurao a ser adotada, considerando custo e disponibilidade.
Configuraes
P
e
r
d
a
s

F
i
n
a
n
c
e
i
r
a
s
(
U
S
D
)
$2.142,63
$2.180,33
$2.232,06
$2.378,18
$2.391,98
$2.397,84
$2.425,13
$2.528,49
$2.569,15
$2.604,25
$2.650,50
$2.669,83
$2.678,95
$2.690,98
$2.697,52
$2.705,57
$2.788,09
$3.045,94
$3.046,60
$3.054,25
$3.167,95
$3.176,08
$3.383,38
$3.492,51
MO1
C1 C2 C3 C4 C5 C6 C7 C8
MO2
C1 C2 C3 C4 C5 C6 C7 C8
MO3
C1 C2 C3 C4 C5 C6 C7 C8
Figura 5.7 Resultado do Terceiro Estudo de Caso: Perdas Financeiras das Congura-
es em Cada Modo Operacional.
81
5.3. ESTUDO DE CASO III
T
a
b
e
l
a
5
.
1
4
R
e
s
u
m
o
d
o
s
R
e
s
u
l
t
a
d
o
s
d
a
s
C
o
n

g
u
r
a

e
s
.
C
o
n

g
u
r
a

o
M

O
D
i
s
p
o
n
i
b
i
l
i
d
a
d
e
(
9
s
)
D
o
w
n
t
i
m
e
(
h
)
A
C
(
U
S
D
)
O
C
(
U
S
D
)
M
C
(
U
S
D
)
I
(
U
S
D
)
F
L
(
U
S
D
)
P
f
(
U
S
D
)
C
1
9
9
,
8
7
1
7
(
2
,
8
9
)
1
1
,
2
4
2
9
7
.
5
9
3
,
8
6
2
9
2
.
8
7
5
,
7
4
8
3
0
.
4
6
9
,
6
0
2
.
0
7
0
,
5
9
3
,
4
3
2
.
6
9
7
,
5
2
1
.
2
4
0
,
4
6
9
,
8
3
C
2
9
9
,
8
5
5
1
(
2
,
8
4
)
1
2
,
6
9
2
8
7
.
5
9
3
,
8
6
2
9
2
.
8
2
7
,
0
5
8
2
0
.
4
2
0
,
9
1
2
.
0
7
0
,
5
9
5
,
1
3
3
.
0
4
6
,
6
0
1
.
2
5
0
,
1
7
4
,
2
2
C
3
9
9
,
8
3
9
1
(
2
,
7
9
)
1
4
,
0
9
2
7
7
.
5
9
3
,
8
6
2
9
2
.
7
8
0
,
0
7
8
1
0
.
3
7
3
,
9
3
2
.
0
7
0
,
2
6
2
,
9
7
3
.
3
8
3
,
3
8
1
.
2
5
9
,
8
8
9
,
0
4
C
4
M
O
1
9
9
,
8
3
3
9
(
2
,
7
8
)
1
4
,
5
2
2
6
7
.
5
9
3
,
8
6
2
9
2
.
7
6
4
,
8
5
8
0
0
.
3
5
8
,
7
1
2
.
0
7
0
,
1
5
5
,
3
3
3
.
4
9
2
,
5
1
1
.
2
6
9
,
7
9
6
,
6
2
C
5
9
9
,
8
9
3
9
(
2
,
9
7
)
9
,
3
0
3
2
2
.
5
9
3
,
8
6
2
9
2
.
9
4
0
,
6
6
8
5
5
.
5
3
4
,
5
2
2
.
0
7
1
,
3
9
8
,
5
1
2
.
2
3
2
,
0
6
1
.
2
1
5
,
8
6
3
,
9
9
C
6
9
9
,
8
7
6
1
(
2
,
9
1
)
1
0
,
8
5
3
1
2
.
5
9
3
,
8
6
2
9
2
.
8
8
8
,
7
5
8
4
5
.
4
8
2
,
6
1
2
.
0
7
1
,
0
3
1
,
4
3
2
.
6
0
4
,
2
5
1
.
2
2
5
,
5
4
8
,
8
2
C
7
9
9
,
8
7
2
6
(
2
,
8
9
)
1
1
,
1
6
3
0
2
.
5
9
3
,
8
6
2
9
2
.
8
7
8
,
3
3
8
3
5
.
4
7
2
.
1
9
2
.
0
7
0
,
9
5
7
,
7
5
2
.
6
7
8
,
9
5
1
.
2
3
5
,
4
8
5
,
5
6
C
8
9
9
,
8
6
7
4
(
2
,
8
8
)
1
1
,
6
1
2
9
2
.
5
9
3
,
8
6
2
9
2
.
8
6
3
,
1
1
8
2
5
.
4
5
6
,
9
7
2
.
0
7
0
,
8
5
0
,
1
0
2
.
7
8
8
,
0
9
1
.
2
4
5
,
3
9
8
,
1
4
C
1
9
9
,
8
8
4
6
(
2
,
9
4
)
1
0
,
1
0
2
9
7
.
5
9
3
,
8
6
2
9
2
.
9
1
3
,
7
3
8
3
0
.
5
0
7
,
5
9
2
.
0
7
1
,
2
0
8
,
0
9
2
.
4
2
5
,
1
3
1
.
2
4
0
,
7
0
0
,
5
0
C
2
9
9
,
8
7
1
3
(
2
,
8
9
)
1
1
,
2
7
2
8
7
.
5
9
3
,
8
6
2
9
2
.
8
7
4
,
6
2
8
2
0
.
4
6
8
,
4
8
2
.
0
7
0
,
9
3
1
,
4
9
2
.
7
0
5
,
5
7
1
.
2
5
0
,
4
6
3
,
0
1
C
3
9
6
,
8
5
4
7
(
2
,
8
4
)
1
2
,
7
2
2
7
7
.
5
9
3
,
8
6
2
9
2
.
8
2
5
,
9
8
8
1
0
.
4
1
9
,
8
4
2
.
0
7
0
,
5
8
7
,
5
9
3
.
0
5
4
,
2
5
1
.
2
6
0
,
1
6
7
,
7
5
C
4
O
M
2
9
6
,
8
4
8
9
(
2
,
8
2
)
1
3
,
2
3
2
6
7
.
5
9
3
,
8
6
2
9
2
.
8
0
8
,
9
9
8
0
0
.
4
0
2
,
8
5
2
.
0
7
0
,
4
6
7
,
4
3
3
.
1
7
6
,
0
8
1
.
2
7
0
,
0
6
4
,
5
8
C
5
9
9
,
8
9
6
3
(
2
,
9
8
)
9
,
0
8
3
2
2
.
5
9
3
,
8
6
2
9
2
.
9
4
7
,
8
8
8
5
5
.
5
4
1
,
7
4
2
.
0
7
1
,
4
4
9
,
5
4
2
.
1
8
0
,
3
3
1
.
2
1
5
,
9
0
7
,
8
0
C
6
9
9
,
8
8
1
9
(
2
,
9
4
)
9
,
9
9
3
1
2
.
5
9
3
,
8
6
2
9
2
.
9
1
7
,
5
4
8
4
5
.
5
1
1
,
4
0
2
.
0
7
1
,
2
3
5
,
0
0
2
.
3
9
7
,
8
4
1
.
2
2
5
,
7
2
3
,
6
0
C
7
9
9
,
8
7
7
8
(
2
,
9
1
)
1
0
,
7
0
3
0
2
.
5
9
3
,
8
6
2
9
2
.
8
9
3
,
6
5
8
3
5
.
4
8
7
,
5
1
2
.
0
7
1
,
0
6
6
,
0
4
2
.
5
6
9
,
1
5
1
.
2
3
5
,
5
7
8
,
5
3
C
8
9
9
,
8
7
2
0
(
2
,
8
9
)
1
1
,
2
1
2
9
2
.
5
9
3
,
8
6
2
9
2
.
8
7
6
,
6
5
8
2
5
.
4
7
0
,
5
1
2
.
0
7
0
,
9
4
5
,
8
8
2
.
6
9
0
,
9
8
1
.
2
4
5
,
4
7
5
,
3
6
C
1
9
9
,
8
8
6
2
(
2
,
9
4
)
9
,
9
6
2
9
7
.
5
9
3
,
8
6
2
9
2
.
9
1
8
,
3
6
8
3
0
.
5
1
2
,
2
2
2
.
0
7
1
,
2
4
0
,
7
0
2
.
3
9
1
,
9
8
1
.
2
4
0
,
7
2
8
,
5
7
C
2
9
9
,
8
7
3
0
(
2
,
8
9
)
1
1
,
1
2
2
8
7
.
5
9
3
,
8
6
2
9
2
.
8
7
9
,
6
0
8
2
0
.
4
7
3
,
4
6
2
.
0
7
0
,
9
6
6
,
7
4
2
.
6
6
9
,
8
3
1
.
2
5
0
,
4
9
3
,
2
8
C
3
9
6
,
8
5
5
1
(
2
,
8
4
)
1
2
,
6
9
2
7
7
.
5
9
3
,
8
6
2
9
2
.
8
2
7
,
1
4
8
1
0
.
4
2
1
,
0
0
2
.
0
7
0
,
5
9
5
,
7
8
3
.
0
4
5
,
9
4
1
.
2
6
0
,
1
7
4
,
7
8
C
4
O
M
3
9
6
,
8
4
9
3
(
2
,
8
2
)
1
3
,
2
0
2
6
7
.
5
9
3
,
8
6
2
9
2
.
8
1
0
,
1
2
8
0
0
.
4
0
3
,
9
8
2
.
0
7
0
,
4
7
5
,
4
5
3
.
1
6
7
,
9
5
1
.
2
7
0
,
0
7
1
,
4
7
C
5
9
9
,
8
9
8
1
(
2
,
9
9
)
8
,
9
2
3
2
2
.
5
9
3
,
8
6
2
9
2
.
9
5
3
,
1
4
8
5
5
.
5
4
7
,
0
0
2
.
0
7
1
,
4
8
6
,
7
2
2
.
1
4
2
,
6
3
1
.
2
1
5
,
9
3
9
,
7
2
C
6
9
9
,
8
8
3
9
(
2
,
9
5
)
9
,
9
0
3
1
2
.
5
9
3
,
8
6
2
9
2
.
9
2
0
,
2
8
8
4
5
.
5
1
4
,
1
4
2
.
0
7
1
,
2
5
4
,
4
0
2
.
3
7
8
,
1
8
1
.
2
2
5
,
7
4
0
,
2
6
C
7
9
9
,
8
7
9
7
(
2
,
9
2
)
1
0
,
5
3
3
0
2
.
5
9
3
,
8
6
2
9
2
.
8
9
9
,
3
2
8
3
5
.
4
9
3
,
1
8
2
.
0
7
1
,
1
0
6
,
1
4
2
.
5
2
8
,
4
9
1
.
2
3
5
,
6
1
2
,
9
7
C
8
9
9
,
8
7
3
9
(
2
,
8
9
)
1
1
,
0
4
2
9
2
.
5
9
3
.
8
6
2
9
2
.
8
8
2
,
3
0
8
2
5
.
4
7
6
,
1
6
2
.
0
7
0
,
9
8
5
,
8
1
2
.
6
5
0
,
5
0
1
.
2
4
5
,
5
0
9
,
6
5
A
b
r
e
v
i
a

e
s
:
M
O
-
M
o
d
o
O
p
e
r
a
c
i
o
n
a
l
;
A
C
-
C
u
s
t
o
A
q
u
i
s
i

o
;
O
C
-
C
u
s
t
o
O
p
e
r
a
c
i
o
n
a
l
;
E
C
-
C
u
s
t
o
c
o
m
f
u
n
c
i
o
n

r
i
o
;
M
C
-
C
u
s
t
o
c
o
m
m
a
n
u
t
e
n

o
;
I
-
R
e
c
e
i
t
a
;
F
L
-
P
e
r
d
a
s
F
i
n
a
n
c
e
i
r
a
s
;
P
f
-
L
u
c
r
o
.
82
5.4. CONSIDERAES FINAIS
Estes estudos de casos demonstraram que o modelo de SPN proposto, com
dependncia capaz de quanticar o impacto do sistema de refrigerao sobre a
disponibilidade do sistema de TI (e o inverso tambm verdadeiro). No geral,
os resultados obtidos no estudo de caso demostram um impacto signicativo na
disponibilidade do dispositivos de TI, aps a variao da temperatura. O modelo
SPN, com dependncia e o modelo de energia so concebidos por este trabalho
e servem como ferramenta de apoio para os projetista de data center para uma
melhor elaborao de um projeto, considerando aspecto da temperatura.
5.4 Consideraes Finais
Este captulo apresentou estudos de casos para avaliao do impacto da vari-
ao de temperatura na disponibilidade das infraestruturas de data center. Neste
captulo, cenrios foram apresentados e trs estudos de caso foram realizados.
O primeiro estudo, props oito conguraes de data center, sendo compostas
pelas infraestruturas de TI e refrigerao. A partir das conguraes foi obtido
o impacto do sistema de refrigerao sobre o sistema de TI. Assim, foi possvel
mostrar a relao de interdependncia entre os sistemas, bem como o impacto
na disponibilidade do sistema de TI. No segundo estudo, foram propostas trs
conguraes, as quais tiveram como objetivo apresentar o impacto que o sistema
de TI tem sobre o sistema de refrigerao, aps este impacto, a temperatura da
sala aumentou o que levou novamento a reduo de disponibilidade do sistema de
TI. O terceiro e ltimo estudo de caso tem com ideia apresentar os efeitos das
variao da temperatura no data center. Este efeitos foram realizados atravs do
impacto do sistema de refrigerao sobre o sistema de TI, sendo analisados com as
mtricas disponibilidade, downtime, AC, OC, MC, I, FL, P. Com isso, foi possvel
mensurar o impacto nanceiro para uma companhia hoteleira.
A partir desses estudos de caso possvel observar a utilizao dos modelos
propostos para avaliar infraestruturas de data center. Alm disso, os modelos so
genricos o suciente para avaliar diferentes sistemas, considerando aspecto de
variao da temperatura.
83
6
Concluso e Trabalhos Futuros
Diante do constante crescimento tecnolgico, a m de atender as demandas de
novas tecnologias, como cloud computing e e-commerce, tais tecnologias tm exigido
uma alta conabilidade e disponibilidade dos servios, em funo de seus usurios e
da prpria empresa, haja vista que equipamentos eletrnicos, sistemas de software,
hardware tendem a falhar, tornando-se indisponveis por tempo indeterminado.
Portanto, entre os meios que levam a indisponibilidade, est o efeito da variao
de temperatura ambiente.
Este trabalho prope modelos para avaliar o impacto da variao de tempera-
tura sobre a disponibilidade de arquiteturas de TI do data center. O modelo SPN
produziu avaliaes em duas perspectivas sobre o impacto do sistema de TI no
sistema de refrigerao, bem como o impacto do sistema de refrigerao sobre o
sistema de TI.
Para ilustrar a aplicabilidade dos modelos, trs estudos de casos foram realiza-
dos, destacando o grau de dependncia que existe entre o sistema de TI e o sistema
de refrigerao. O estudo de caso I mostrou o impacto do sistema de refrigerao
no sistema de TI, o estudo de caso II demonstrou o impacto do sistema de TI
no sistema de refrigerao, e o estudo de caso III apresentou o efeito da variao
de temperatura no data center, considerando mtricas de AC, MC, FL, disponi-
bilidade, downtime. Vale ressaltar que os modelos so genricos o suciente para
avaliar diferentes sistemas, considerando aspecto de variao da temperatura.
A anlise dos resultados obtidos estabelece o impacto considervel que a tem-
peratura ambiente do data center tem sobre a disponibilidade do sistema de TI. A
metodologia de anlise adotada incluiu o modelo de energia, o modelo de Arrhe-
nius, redes de Petri estocsticas, incorporando dependncia e o modelo RBD. No
futuro, pretendemos estender a metodologia para analisar o impacto da umidade
84
6.1. CONTRIBUIES
sobre a disponibilidade do data center de sistemas de TI.
Alm das contribuies mencionada, foi produzido o seguinte artigo:
1. Rafael Souza, Gustavo Callou, Kdna Camboim, Joo Ferreira and Paulo
Maciel. The Eects of Temperature Variation on Data Center IT Systems.
In: Proceedings of the 2013 IEEE International Conference on Systems, Man,
and Cybernetics (IEEE SMC 2013). Manchester, United Kingdom.
6.1 Contribuies
As contribuies deste trabalho permitiram contemplar o impacto da variao
de temperatura na sala de TI de um data center. Como resultado do trabalho
apresentado nesta dissertao, as seguintes contribuies podem ser destacadas:
Uma metodologia para apoiar avaliao do impacto da variao de tempe-
ratura sobre a disponibilidade do sistema de TI no data center.
O modelo de energia permitiu estimar a variao de temperatura ambiente
em dois aspectos: (i) impacto da temperatura externa dentro da sala de TI;
(ii) estimar o aumento de temperatura na sala, aps a quebra de um ou mais
CRACs na sala de TI. Alm disso, possvel estimar o consumo de energia
do data center ao longo de um perodo especicado.
A relao de interdependncia dos sistemas de data center foi possvel atra-
vs do modelo SPN, o qual permitiu avaliar o impacto do sistema de TI no
sistema de refrigerao, bem como o impacto do sistema de refrigerao no
sistema de TI. Esta relao de interdependncia foi uma pea chave para ilus-
trar a aplicabilidade do impacto da temperatura tem sobre a disponibilidade
do sistema de TI.
6.2 Restries e Trabalho Futuros
A longo da pesquisa e desenvolvimento deste trabalho, foram encontradas algu-
mas limitaes nos modelos propostos. Estas limitaes so apresentadas abaixo,
alm de representarem interessantes opes para trabalhos futuros.
85
6.2. RESTRIES E TRABALHO FUTUROS
A metodologia adotada no analisa o efeito da umidade na disponibilidade do
sistema de TI. Assim, como trabalhos futuros, pretende-se analisar o impacto
da umidade sobre a disponibilidade do data center.
Os modelos propostos no consideram o impacto da temperatura externa
no consumo de energia do sistema de refrigerao. Para tanto, destina-se
contemplar em trabalhos futuros o impacto da temperatura externa no COP
do chiller.
86
Referncias
[1] Anderson, J. and Wendt, J. (1995). Computational uid dynamics, volume 206.
McGraw-Hill Science.
[2] ANDERSON, J. D. (1995). Computational Fluid Dynamics: The Basics With
Applications. McGraw-Hill Science/Engineering/Math; 1 edition.
[3] Anderson, T e Lee, P. (1990). Fault Tolerance: Principles and Practice. New
York: Springer- Verlag, 2. ed.
[4] Arregoces, M. and Portolani, M. (2003.). Data center fundamentals. Funda-
mentals Series. Cisco.
[5] Arrhenius, S. (1884). Recherches sur la conductibilit galvanique des lectroly-
tes. P.A. Norstedt & Sner.
[6] ASHRAE (2004). Thermal Guidleines for Data Processing Environments,. 1st
Edition, ASHRAE, Atlanta.
[7] Avizienis, A., Laprie, J.-C., Randell, B., and Landwehr, C. (2004). Basic con-
cepts and taxonomy of dependable and secure computing. Dependable and Secure
Computing, IEEE Transactions on, 1(1), 11 33.
[8] Balbo, G. (2001). Introduction to stochastic petri nets.
[9] Beitelmal, A. and Patel, Chandrakant, D. (2007). Thermo uids provisioning
of a high performance high density data center. Distrib Paral lel Databases, 21,
227238.
[10] Borgnakke, C. and Sonntag, R. E. (2009). Fundamentals of thermodynamics;
7th ed., International student version. Wiley, Hoboken, NJ.
[11] Breen, T., Walsh, E., Punch, J., Shah, A., and Bash, C. (2010). From chip to
cooling tower data center modeling: Part 1 inuence of server inlet temperature
and temperature rise across cabinet. In Thermal and Thermomechanical Pheno-
mena in Electronic Systems (ITherm), 2010 12th IEEE Intersociety Conference
on, pages 1 10.
[12] Callou, G., Sousa, E., Maciel, P., Tavares, E., Silva, B., Figueirdo, J., Araujo,
C., Magnani, F., and Neves, F. (2011). A formal approach to the quantication
87
REFERNCIAS
of sustainability and dependability metrics on data center infrastructures. In
Proceedings of the 2011 Symposium on Theory of Modeling & Simulation: DEVS
Integrative M&S Symposium, TMS-DEVS 11, pages 274281, San Diego, CA,
USA. Society for Computer Simulation International.
[13] Callou, G., Maciel, P., Tutsch, D., and Araujo, J. (2012). Models for depen-
dability and sustainability analysis of data center cooling architectures. DSDV
2012.
[14] Callou, G., Maciel, P., Tutsch, D., Ferreira, J., Arajo, J., and Souza, R.
(2013). Estimating sustainability impact of high dependable data centers: a
comparative study between brazilian and us energy mixes. Computing, pages
134.
[15] Chandrakant, P. R., Rakant, D. P., Ratnesh, S., Cullen, E. B., and Abdlmo-
nem, B. (2002). Thermal considerations in cooling large scale high compute den-
sity data centers. In In ITherm 2002-Eighth Intersociety Conference on Thermal
and Thermomechanical Phenomena in Electronic Systems, pages 767776.
[16] Chen, J., Tan, R., Wang, Y., Xing, G., Wang, X., Wang, X., Punch, B., and
Colbry, D. (2012). A high-delity temperature distribution forecasting system
for data centers. The 33rd IEEE Real-Time Systems Symposium (RTSS).
[17] CISCO (2006). Cisco 12000 serie router. Available via the:
http://www.cisco.com/go/12000.
[18] CISCO (2009). Cisco catalyst 3750 series switches. Available via the:
http://www.cisco.com/en/US/products/hw/switches/ps5023/index.html.
[19] CISCO (2010). Cisco 7609-s router. Available via the:
http://www.cisco.com/go/7600.
[20] Desrochers, A. A. and Al-Jaar, R. Y. (1995). Applications of Petri Nets in
Manufacturing Systems: Modeling, Control, and Performance Analysis. ISBN
0-87942-295-5. IEEE Press.
[21] Ebeling, C. (2004). An Introduction to Reliability and Maintainability Engi-
neering. Waveland Press.
88
REFERNCIAS
[22] EMSD (2005). Code of practice for energy eciency of air-conditioning ins-
tallations. Technical report, Hong Kong: Electrical and Mechanical Services
Department (EMSD), the Government of the Hong Kong Special Administra-
tive Region.
[23] Ghosh, R., Sundaralingam, V., and Joshi, Y. (2012). Eect of rack server
population on temperatures in data centers. In Thermal and Thermomechani-
cal Phenomena in Electronic Systems (ITherm), 2012 13th IEEE Intersociety
Conference on, pages 30 37.
[24] Inc, T. (2010). Thermophysical conversion tool. thermophysical measurments
and instrumentation. [Online] TermTest Inc. http://www.thermtest.com.
[25] Laprie, J. C., Avizienis, A., and Kopetz, H. (1992). Dependability: Basic
Concepts and Terminology. ISBN:0387822968. Springer-Verlag New York, Inc.,
springer-verlag new york, inc. edition.
[26] Lpez, V. and Hamann, H. F. (2010). Measurement-based modeling for data
centers. In Thermal and Thermomechanical Phenomena in Electronic Systems
(ITherm), 2010 12th IEEE Intersociety Conference, pages 1 8.
[27] Lpez, V. and Hamann, H. F. (2011). Heat transfer modeling in data centers.
International Journal of Heat and Mass Transfer, 54, 5306 5318.
[28] Merlin, P. M. and Farber., D. J. (1976). Recoverability of communication pro-
tocols - implications of a theorical study. IEEE Transactions on Communications,
Cambridge, MA, USA.
[29] Molloy, M. K. (1982). Performance analysis using stochastic petri nets. IEEE
Trans. Comput., 31, 913917.
[30] Natkin, S. (1980). Les Rseaux de Petri Stochastiques et leur Application
a lEvaluation des Systemes Informatiques. Ph.D. thesis, Thse de Docteur
Inggneur, Conservatoire National des Arts Metier, Paris, France.
[31] Noe, J. D. and Nutt., G. J. (1976). Macro e-nets representation of paral lel
systems. IEEE Transactions on Computers.
[32] Packard, H. (2010). Hp proliant dl580 g5. Available via the:
www.hp.com/support/DL580G5.
89
REFERNCIAS
[33] Packard, H. (2013). Hp power advisor. Technical report.
[34] Pakbaznia, E., Ghasemazar, M., and Pedram, M. (2010). Temperature aware
dynamic resource provisioning in a power optimized data center. In Proceedings
of the Conference on Design, Automation and Test in Europe, pages 124129,
3001 Leuven, Belgium, Belgium. European Design and Automation Association.
[35] Patterson, D. (2002). A simple way to estimate the cost of downtime. In Proc.
16th Systems Administration Conf. LISA, pages pages 1858.
[36] Patterson, M. (2009). The eect of data center temperature on energy e-
ciency. In Thermal and Thermomechanical Phenomena in Electronic Systems.
ITHERM . 11th Intersociety Conference on, pages 11671174.
[37] Paulo, M., Kishor, S. T., Matias, R., and Kim, D. (2011). Dependability
Modeling, volume 1. IGI Global, Pennsylvania.
[38] Sahner, R., Trivedi, K., and Puliato, A. (1997). Performance and reliabi-
lity analysis of computer systems (an example-based approach using the sharpe
software. Reliability, IEEE Transactions on, 46(3), 441441.
[39] Sankar, S., Shaw, M., and Vaid, K. (2011). Impact of temperature on hard disk
drive reliability in large datacenters. In Dependable Systems Networks (DSN),
2011 IEEE/IFIP 41st International Conference on, pages 530 537.
[40] Semiconductor, O. (2012). Quality & reliability handbook, av. Available via
the: www.onsemi.com/publink/Collateral/HBD851-D.PDF.
[41] Shinde, S. L. and Jitendra, G. (1996). High thermal conductivity materials.
Number ISBN-10: 0-387-22021-6. New York, USA : Springer.
[42] TRIVEDI, K. (1994). Reliability analysis techniques explored through a com-
munication network example. in international workshop on computer-aided de-
sign, test, and evaluation for dependability.
[43] Trivedi, K. S. (1982). Probability and statistics with reliability, queuing, and
computer science applications. Prentice Hall.
[44] Vishay (2006). Vishay semiconductor. Available via the:
www.vishay.com/docs/80116/80116.pdf.
90
REFERNCIAS
[45] Wakerly, J. F. (2006). Supplementary material to accompany Digital Design
Principles and Practices. Number ISBN 0-13-186389-4. Pearson Education.
[46] Walsh, E., Breen, T., Punch, J., Shah, A., and Bash, C. (2010). From chip
to cooling tower data center modeling: Part ii inuence of chip temperature
control philosophy. In Thermal and Thermomechanical Phenomena in Electronic
Systems (ITherm), 2010 12th IEEE Intersociety Conference on, pages 1 7.
[47] Way, K. and Ming, J. Z. (2003). Optimal Reliability Modeling - Principles and
Applications, volume 1. Wiley.
[48] Wei, B., Lin, C., and Kong, X. (2011). Dependability modeling and analysis
for the virtual data center of cloud computing. In High Performance Computing
and Communications (HPCC), 2011 IEEE 13th International Conference on,
pages 784 789.
[49] Xie, M., Poh, K.-L., and Dai, Y.-S. (2004). Computing System Reliability:
Models and Analysis. Springer.
[50] Zeng, R., Jiang, Y., Lin, C., and Shen, X. (2012). Dependability analysis of
control center networks in smart grid using stochastic petri nets. Paral lel and
Distributed Systems, IEEE Transactions on, 23(9), 1721 1730.
[51] Zimmermann, A. (2012). Modeling and evaluation of stochastic petri nets
with timenet 4.1. In Performance Evaluation Methodologies and Tools (VALU-
ETOOLS), 2012 6th International Conference on, pages 5463.
[52] Zuberek, W. M. (1980). Timed petri nets and preliminary performance eva-
luation. In Proceedings of the 7th annual symposium on Computer Architecture,
ISCA 80, pages 8896, New York, NY, USA. ACM.
91