Você está na página 1de 9

System Configuration for Reliability and Availability Basics

Genana Nunes Rodrigues Captulo 11 - Livro; Capacity Planning for Web Services
Autores: Daniel Menasce & Virglio Almeida
1

Definio de Confiabilidade e Disponibilidade


Lembre-se da definio de confiabilidade (reliability):
Probability of failure-free operation of software system for a specified period of time in a specified environment

E de disponibilidade (availability)
Probability of a system being available when needed

Ups and Downs


Um sistema (ou seus componentes) podem variar entre dois modos operacionais: execuo (up) ou falha (down)
MTTF MTTR MTTF
execuo do sistema

up

down
n-sima falha MTBF

up
(n+1)-sima falha

Mtrica de Disponibilidade
MTTF - Mean-Time To Failure MTTR - Mean-Time to Repair MTBF - Mean-Time Between Failure Portanto:
MTBF = MTTF + MTTR Disponibilidade a frao do tempo em que o componente (ou sistema) est operacional A = up/total = up/(up + down) = MTTF/MTBF

Exerccio Rpido
Tende a ser especificada em funo do nmero de 9s. (99.999%)
Considerando que um site esteja escalonado para ter uma hora de downtime por semana, quantos 9s ter de disponibilidade por ano?
R: 52 horas por ano e portanto ~ 99.99% disponvel (segundo tabela (a ser corrigida de min p/ hora), pg. 421 no livro: Capacity Planning for Web Services

Maneiras de melhorar a disponibilidade do sistema


Reduzir a frequncia de falhas Reduzir o tempo do sistema recuperarse
Tempo para detectar falhas Tempo para diagnosticar a causa das falhas Tempo para determinar possveis solues para o problema Tempo para corrigir o problema

Outro Exerccio
Considere um web site composto de 2 web server, um servidor de aplicao e um de banco de dados. Suponha que dados histricos mostram que a mquina do servidor de aplicao re-iniciada a cada 20 dias em mdia. Assumindo que o administrador demora 10 min para reiniciar a mquina, pergunta-se:

Qual a disponibilidade do site? 99.965% Em quantos minutos precisa-se reduzir o MTTR para ser uma disponibilidade de 99.972% De 10 para 8 minutos E quantos minutos precisa-se aumentar o MTTF para se obter a mesma 99.972% De 28.800 para 35.704 min

Confiabilidade x Disponibilidade?
Veja no exemplo:
Considere um site de negociadores online que fique 1 minuto down a cada 4 horas, i.e. a cada 240 (4x60) minutos. A disponibilidade 239/240 = 99.583% (relativa alta disponibilidade) A confiabilidade: pode ser baixa se perodos down ocorrerem em tempos crticos em que o mercado est oscilando e clientes que negociar suas aes!

Confiabilidade de Sistemas baseados em componentes


Considere um sistema composto de componentes em srie, qual a confiabilidade desse sistema em funo da confiabilidade de seus componentes?

r1

r2

r3

rn

Componentes em Srie
Todos os n componentes devem estar em operao para que o sistema funcione. Assumindo que os n componentes falhem independentemente, qual a probabilidade de todos os n componentes estarem operacionais? (equivalente ao produto da probabilidade de eventos independentes):

RS = r1 x r2 x . . . x rn = ri
i=1

Exemplo
Um web site tem um servidor web (sw), um servidor de aplicao (sa) e um servidor de banco de dados (sbd) em srie. Assuma que suas confiabilidades so 0.9, 0.95 e 0.99 respectivamente. A gerncia do site deseja substituir o servidor de banco de dados por um outro altamente confivel (mas bastante caro), divulgado como confiabilidade de 0.999. essa uma deciso inteligente?
(para isso vc precisa comparar com alterao de outros servidores)

R: A troca pelo servidor web traria melhor ganho

Confiabilidade de Sistemas baseados em componentes


Perceba que:
maior o nmero de componentes em srie, menor a confiabilidade final Quanto menor a confiabilidade de cada componente em srie, mais rpido o decrscimo da confiabilidade do sistema

Componentes em Paralelo
Considere um sistema composto de componentes em paralelo, qual a confiabilidade desse sistema em funo da confiabilidade de seus componentes?
r1 r2 . . . rn

Confiabilidade de Sistemas baseados em componentes


Para o sistema falha, todos os n componentes devem falhar. Se apenas um deles funcionar, a operao realizada. Assumindo que os n componentes falhem independentemente, qual a probabilidade de todos os n componentes falharem:

RP = 1 - Pr[todos eles falharem] = 1- [(1- r1) x (1-r2) x . . . x (1-rn)] = 1- in= 1 (1-ri)

Confiabilidade de Sistemas baseados em componentes


Perceba que:
maior o nmero de componentes em paralelo, maior a confiabilidade final na prtica, um pequeno nmero de componentes em paralelo geralmente suficiente para um alto nvel de confiabilidade

Exemplo
Uma mquina de busca deseja atingir a confiabilidade de 99.999% utilizando um cluster de servidores web bem baratos e pouco confiveis. Cada um tem a confiabilidade de 85%. Quantos servidores devem ser usados no cluster?
(PS: ln 0.0001/ln 0.15 = 6.069)
R: 7 servidores no confiveis.

Exemplo
Um web site tem um modelo de arquitetura composto em 3 camadas: um servidor web, um servidor de aplicao e um servidor de banco de dados. Suas confiabilidades so

respectivamente: 0.99, 0.999 e 0.999. 60% das requisies usam apenas o servidor web. As 40% restantes usam a camada de aplicao. 84% dessas utilizam o servidor do banco de dados. Qual a disponibilidade do site?
R = 0.6x0.99 + 0.064x0.98901 + 0.336x0.988911 = 0.98957077

Você também pode gostar