Você está na página 1de 31

Tolerncia a Falhas: medidas

Redes e Sistemas Distribudos


Taisy Silva Weber
2003

Medidas
\ taxa de defeitos
\ curva da banheira
\ tempos mdios (mean times)
[ MTTF, MTBF, MTTR
[ exemplos de clculo de tempos mdios

\ confiabilidade
\ disponibilidade
\ cobertura
Taisy Weber

Barry Johnson,
cap. 1, livro texto Pradhan96

Comportamento ideal x real


\ ideal
t0

tempo de vida

sem a ocorrncia de qualquer defeito

\ real

reparo
defeito

t0

Taisy Weber

tempo de vida

O que medir?
tempo at o primeiro defeito
funcionamento
t0

tempo entre 2 defeitos


funcionamento

reparo

funcionamento
reparo

com que freqncia ocorrem defeitos?


qual o tempo entre um defeito e outro?
qual o tempo at o primeiro defeito?
qual o tempo gasto para reparar cada defeito?
quais as chances do sistema funcionar sem defeitos durante um
determinado perodo de tempo?
\ quais as chances do sistema estar funcionando em um
determinado instante?
\
\
\
\
\

Taisy Weber

Taxa de defeitos
] com que freqncia ocorrem defeitos?
\ taxa de defeitos

nmero esperado de defeitos em um


dado perodo de tempo (failure rate)

geralmente assumido valor constante


na verdade no constante
boa aproximao: curva da banheira

\ unidade:
defeitos por unidade de tempo

\ funo:
z(t) - hazard function, hazard rate ou taxa de defeitos
Taisy Weber

Curva da banheira
fases de mortalidade infantil e envelhecimento muito
pequenas comparadas ao perodo de vida til

taxa de defeitos
(defeitos por
unidade de
tempo)

fase de envelhecimento

perodo de vida til

mortalidade
infantil

taxa de defeitos
constante

tempo

vlido para hardware


Taisy Weber

Mortalidade infantil
\ alta taxa de defeitos que diminui rapidamente no
tempo
[ componentes fracos e mal fabricados
mortalidade infantil uma fase de curto perodo de durao

\ burn-in: remoo de componentes fracos


operao acelerada de componentes antes de coloc-los no
produto final
s entram em operao componentes que sobreviveram
mortalidade infantil
Taisy Weber

Envelhecimento
] taxa de defeitos aumenta rapidamente com o
tempo
[ devido ao desgaste fsico do componente

\ conhecendo o incio da fase de envelhecimento


possvel substituir o componente
[ sistema volta a operar na fase de vida til
envelhecimento tambm uma fase de
curto perodo de durao
ideal evit-la
Taisy Weber

Tempo de vida til


] taxa de defeitos constante
[ unidade: defeitos por hora
[ corresponde ao tempo de vida til
[ essa fase apresenta um servio mais previsvel em
relao a falhas

\ relao exponencial entre confiabilidade e tempo


[ usa taxa de defeitos constante
[ vlido para hardware
ser visto mais adiante

Taisy Weber

R(t) = e -t
9

Curva da banheira em software


\ software comporta-se diferente do hardware
melhor usar erros que falhas

[ erros so constantemente removidos


[ taxa de defeitos continua caindo com o tempo
[ confiabilidade aumenta com o tempo
exceto se forem efetuadas alteraes, adaptaes, mudana de
plataforma (sisop e hardware)

\ envelhecimento de software ?
[ obsolescncia dos programas
[ alteraes nas plataformas
Taisy Weber

10

Tempos mdios
tempo at o primeiro defeito
funcionamento
t0

tempo entre 2 defeitos


funcionamento

reparo

funcionamento
reparo

com que freqncia ocorrem defeitos? taxa de defeitos


qual o tempo entre um defeito e outro?
qual o tempo at o primeiro defeito?
qual o tempo gasto para reparar cada defeito?
quais as chances do sistema funcionar sem defeitos durante um
determinado perodo de tempo?
\ quais as chances do sistema estar funcionando em um
determinado instante?
\
\
\
\
\

Taisy Weber

11

Medidas
] MTTF

mean time to failure

\ tempo esperado at a primeira ocorrncia de


defeito

] MTTR

mean time to repair

\ tempo mdio para reparo do sistema

] MTBF

mean time between failures

\ tempo mdio entre defeitos do sistema


Taisy Weber

12

MTTF - mean time to failure


\ tempo esperado de operao do sistema antes da
ocorrncia do primeiro defeito
[ exemplo:
considera-se N sistemas idnticos colocados em operao a
partir do tempo t=0
mede-se o tempo de operao ti de cada um at apresentar
defeito
MTTF o tempo mdio de operao

MTTF =
i =1

Taisy Weber

ti
N

quanto maior a quantidade de


amostras N, mais prximo do
valor real ser o MTTF estimado
13

MTTF
tempo at defeito
t0

tempo at defeito

funcionamento

funcionamento

MTTF =
i =1

ti
N

tempo at defeito

funcionamento

para um nico sistema o


procedimento semelhante:
ti para a ser ti , o intervalo de
tempo em operao entre os
defeitos, e N o nmero de defeitos

ou MTTF = 1/
considerando R(t) = e -t
Taisy Weber

14

MTTF: Exemplo
t0 = 0

t1 = 6h

t2 = 32h

0,5h

t3 = 48h

1h

tempo at 1 defeito (t1) = 6 h

tempo at 3 defeito (t3) = 15 h

tempo at 2 defeito (t2) = 25,5 h

MTTF = (t1+ t2+ t3) / n defeitos


MTTF = 46,5 / 3 = 15,5 h
taxa de defeitos () = 1/MTTF = 0,064 def/h
Taisy Weber

15

MTTR - mean time to repair


] tempo mdio de reparo do sistema
\ difcil de estimar
[ geralmente usa-se injeo de falhas
[ injeta-se uma falha de cada vez e mede-se o tempo

\ nova constante
[ taxa de reparos
[ = nmero de reparos por hora

MTTR = 1

Taisy Weber

em sistemas de alta
disponibilidade,
importante diminuir o
tempo de reparo para
aumentar a
disponibilidade do
sistema
16

MTTR
Ri

tempo de reparo da falha i

nmero de falhas

t0

reparo
n

MTTR = Ri/n ou MTTR = 1/


i=1

reparo

sendo = taxa de reparo

quanto maior o nmero de amostras, melhor


Taisy Weber

17

MTTR: Exemplo
t0 = 0

t1 = 6h

t2 = 32h

t3 = 48h

1h

0,5h

tempo de reparo do 1 defeito (R1) = 0,5 h


tempo de reparo do 2 defeito (R2) = 1 h

MTTR = (R1+ R2) / n reparos


MTTR = 1,5 / 2
MTTR = 0,75 h
Taisy Weber

18

MTBF - mean time between failure


] MTBF = MTTF + MTTR
\ diferena numrica pequena em relao a MTTF
[ os tempos de operao so geralmente muito maiores
que os tempos de reparo
[ na prtica valores numricos muito aproximados (tanto
faz usar um como outro)

\ considera-se:
[ reparo coloca sistema em condies ideais de operao
se o MTBF for maior que o tempo at obsolescncia?
Taisy Weber

19

MTBF

t0

tempo entre 2 defeitos


funcionamento

funcionamento

t
funcionamento

MTBF = di/n ou MTBF = MTTF + MTTR


i=1

Taisy Weber

20

MTBF: Exemplo
t0 = 0

t1 = 6h

t2 = 32h

0,5h

t3 = 48h

1h

tempo entre o incio e o 1 defeito (d1) = 6 h


tempo entre 1 e 2 defeitos (d2) = 26 h
tempo entre 2 e 3 defeitos (d3) = 16h

MTBF = (d1+d2+d3)/n defeitos


MTBF = 48 / 3
MTBF = 16 h
Taisy Weber

21

Demais medidas
tempo at o primeiro defeito
funcionamento
t0

tempo entre 2 defeitos


funcionamento

reparo

funcionamento
reparo

com que freqncia ocorrem defeitos? taxa de defeitos


MTBF
qual o tempo entre um defeito e outro?
qual o tempo at o primeiro defeito? MTTF
qual o tempo gasto para reparar cada defeito? MTTR
quais as chances do sistema funcionar sem defeitos durante um
determinado perodo de tempo?
\ quais as chances do sistema estar funcionando em um
determinado instante?
\
\
\
\
\

Taisy Weber

22

Confiabilidade
probabilidade de que um sistema funcione corretamente
durante um intervalo de tempo [t0,t]

[ para um taxa de defeitos constante a confiabilidade


R(t) varia exponencialmente em funo do tempo
sistema na fase de vida til: taxa de defeitos constante

\ R(t) = e- t

exponential failure law

[ a mais usada relao entre confiabilidade e tempo


[ vlida principalmente para componentes eletrnicos
discutvel se vale para software:
conforme o software vai sendo usado, bugs vo sendo
descobertos e a confiabilidade do software aumenta
Taisy Weber

23

Confiabilidade:
distribuio de Weibull
\ se taxa de defeitos varia com o tempo
[ z(t) distribuio de Weibull
importante para modelagem de software onde a
confiabilidade pode inclusive aumentar com o tempo

[ z(t) = (t)-1

\ R(t) = e (t)
[ para =1
[ para >1
[ para <1
Taisy Weber

para >0 e >0


e so constantes que controlam a
variao de z(t) no tempo

z(t) = constante =
z(t) = aumenta com o tempo
z(t) = diminui com o tempo
24

Confiabilidade
\ para: =1 =0,1

taxa de defeitos constante

1
0,8

confiabilidade diminui com o tempo

0,6
0,4
0,2

19

17

15

13

11

0
tempo
Taxa de defeitos
Taisy Weber

Confiabilidade
25

Confiabilidade
taxa de defeitos diminui
com o tempo

\ para: =0,6 =0,1


1
0,8

confiabilidade diminui com o tempo


mas no to acentuadamente

0,6
0,4
0,2

19

17

15

13

11

0
tempo
Taxa de defeitos
Taisy Weber

Confiabilidade
26

Confiabilidade
taxa de defeitos aumenta
linearmente com o tempo

\ para: =2 =0,1
1,2
1

confiabilidade diminui com o tempo


acentuadamente

0,8
0,6
0,4
0,2

19

17

15

13

11

0
tempo
Taxa de defeitos
Taisy Weber

Confiabilidade
27

A(t):availability

Disponibilidade

[ probabilidade do sistema estar operacional no instante


t (disponvel para o trabalho til)
alternncia entre perodos de funcionamento e de reparo
A(t) = R(t) quando reparo tende a zero

[ lembrar que MTBF = MTTF + MTTR


intuitivamente

A(t) = top / (top+ treparo)


genericamente

top

tempo de operao normal

treparo

tempo de reparo

A(t) = MTTF / (MTTF + MTTR)


nessa relao, o significado de alta disponibilidade fica mais claro
diminuindo o tempo mdio de reparo, aumenta a disponibilidade
Taisy Weber

28

Cobertura
] cobertura de falhas

significado intuitivo

[ habilidade do sistema de realizar deteco,


confinamento, localizao, recuperao ...

geralmente se refere a habilidade de realizar recuperao de


falhas
extremamente difcil de calcular
significado matemtico:
geralmente assumido valor constante

probabilidade condicional que dada uma falha o sistema se


recupere
determinao: listar falhas possveis e falhas que o sistema
pode tolerar e calcular o percentual
muito usada tambm em experimentos de injeo de falhas
Taisy Weber

29

Problemas com medidas


] defeitos so eventos aleatrios
[ podem demorar muito para ocorrer, no ocorrer ou
ocorrer em um momento no apropriado

\ custo de avaliao experimental alto


[ necessria uma grande quantidade de amostras
[ necessrio tempo grande de avaliao

\ importante avaliar durante o projeto do sistema


\ injeo de falhas

Taisy Weber

30

Bibliografia para medidas


] captulo de livro
\ Johnson, Barry. An introduction to the design na analysis of the faulttolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New
Jersey, 1996

Taisy Weber

31

Você também pode gostar