Você está na página 1de 34

Tolerncia a Falhas

Carlos Oberdan Rolim


Cincia da Computao

Tcnicas para alcanar dependabilidade

Tcnicas e mtodos para alcanar a


dependabilidade desejada

Tolerncia a Falhas
Preveno e remoo de falhas no so suficientes quando
sistema exige alta confiabilidade ou alta disponibilidade;
Sistema deve ser construdo usando tcnicas de tolerncia a
falhas;

Tolerncia a Falhas
Duas classes de tcnicas de tolerncia a falhas:
Mascaramento:
Falhas no se manifestam como erros (so mascaradas na origem)
Deteco, localizao e reconfigurao.

Fases de Aplicao das tcnicas de


Tolerncia a Falhas

Primeira Fase: deteco de Erro


Falha primeiro se manifesta como um erro;
Antes da manifestao como erro, a falha est latente e no
pode ser detectada;
Ex. mecanismo de deteco: Duplicao e comparao.

Deteco: Duplicao e comparao

Segunda Fase: Confinamento


Da ocorrncia da falha, at o erro ser detectado, pode haver
espalhamento de dados invlidos;
O confinamento estabelece limites para a propagao do
dano;

Segunda Fase: Confinamento


Decises de projeto;
Sistemas, por natureza, no provem confinamento;
Durante o projeto devem ser previstas e implementadas
restries ao fluxo de informaes;
Estabelecer interfaces de verificao para deteco de erro.

Terceira Fase: Recuperao


Ocorre aps a deteco;
Troca do estado atual incorreto para um estado livre de
falhas;

Terceira Fase: Recuperao

Tcnicas de Recuperao

Terceira Fase: Recuperao

Recuperao por retorno e por avano

Quarta Fase: Tratamento


Localizar a origem da falha;
Localizar a falha de forma precisa;
Reparar a falha;
Recuperar o restante do sistema.

Quarta Fase: Tratamento


Localizar:
Localizao Grosseira e rpida: aplicada sobre um mdulo ou
subsistema;
Localizao Fina: onde o componente falho determinado

Para os dois tipos de localizao usado diagnstico.

Quarta Fase: Tratamento


Diagnstico: Teste de comparao entre resultados gerados
com resultados previstos:
Manual: executado por um operador local ou remoto;
Automtico: executado pelos componentes livres de falha do sistema.

Quarta Fase: Tratamento


Aps a localizao, a falha reparada atravs da remoo
do componente danificado, o reparo pode ser:
Manual
Automtico

Quarta Fase: Tratamento


Automtico:
Degradao Gradual: Reconfigurao para operao com menor
nmero de componentes;
Substituio: por outro componente disponvel no sistema. (usada em
sistemas com longos perdos de misso sem possibilidade de reparo
manual, sondas espaciais e satlites.

Mascaramento de Falhas
Garante resposta mesmo na presena de falhas;
A falha no se manifesta como erro;
Em caso de falhas permanentes, a localizao e o reparo da
falha so necessrios

Mecanismos para Mascarar Falhas

Redundncia
Redundncia para aumento de confiabilidade quase to
antiga como a histria dos computadores;
Todas as tcnicas de tolerncia a falhas envolvem alguma
forma de redundncia;
Na indstria nacional, o termo utilizado para designar um
sistema tolerante a falhas sistema redundante

Redundncia
Redundncia de Informaes;
Redundncia Temporal;
Redundncia de Hardware;
Redundncia de software;

Redundncia
Serve tanto para deteco de falhas quanto para
mascaramento;
O grau de redundncia diferente para cada caso;
Para mascarar falhas so necessrios mais componentes do que para
detectar falhas.

Redundncia de Informao
Bits ou sinais extras so armazenados ou transmitidos junto
ao dado;
Servem para deteo de erros ou mascaramento de falhas

Ex.:
Cdigos de paridade;
Checksums;
Cdigos de duplicao;
Cdigos cclicos.

Redundncia Temporal
Repete a computao no tempo;
Evita custos de Hardware;
Aumenta o tempo necessrio para realizar uma computao
Usada em sistemas onde o tempo no crtico;

Redundncia Temporal
Aplicaes usuais:
Deteco de falhas transitrias: repetindo a computao;
Deteco de falhas permanentes: repete-se a computao com dados
codificados e decodifica-se o resultado antes da comparao;

Redundncia de Hardware
Baseada da replicao de componentes fsicos:

Redundncia de Hardware Passiva


Os elementos redundantes so usados para mascarar
falhas;
Todos os elementos executam a mesma tarefa;
O resultado determinado por votao;
Ex:
TMR (triple modular redundancy) e NMR (redundncia modular com n
mdulos)

Redundncia de Hardware Passiva

Redundncia de Hardware Passiva


Solues para contornar a fragilidade do votador:
Construir o votador com componentes de alta confiabilidade;
Triplicar o votador;
Realizar a votao por software;

Redundncia de Hardware Passiva


TMR com votador Triplo

Redundncia de Hardware Passiva


TMR apresenta uma confiabilidade maior que um sistema de
um nico componente at a ocorrncia da primeira falha
permanente;
Depois perde a capacidade de mascarar falhas,
apresentando confiabilidade menor que um sistema de um
nico componente;

Redundncia de Hardware Passiva


Com o tempo, TMR apresenta uma confiabilidade pior do
que um sistema no redundante;
TMR ideal para perodos no longos de misso, suporta
apenas uma falha permanente
Ideal para falhas temporrias... Uma de cada vez...

Redundncia de Hardware Passiva

Confiabilidade de TMR

Redundncia de Hardware Passiva


NMR (Redundncia Modular Mltipla) a generalizao de
TMR
TMR um caso especial de NMR;
O computador de bordo do nibus espacial um exemplo de NMR, com
n igual a 4 e votao por software.