Você está na página 1de 10

Robustez em sistemas distribudos

Robustez
Um sistema distribudo pode sofrer de vrios tipos de falhas de hardware:
Falha de um enlace; Falha de instalao; e/ou Perda de uma mensagem;

Estas so as falhas mais comuns; Para garantir que o sistema seja robusto, precisamos detectar qualquer uma dessas falhas, reconfigurar o sistema de modo que a computao possa continuar e recuperar quando uma instalao ou um enlace for reparado;

Deteco de falhas
Em um ambiente sem memria compartilhada, em geral somos incapazes de diferenciar entre falha no enlace, falha na instalao e perda de mensagem; Normalmente, podemos detectar apenas que uma dessas falhas ocorreu. Quando uma falha tiver sido detectada, a ao apropriada precisa ser realizada;

Deteco de falhas
Observe que a ao apropriada depende da aplicao; Para detectar a falha de enlace e instalao, usamos um procedimento de confirmao inicial (handshaking); Suponha que as instalaes A e B tenham um enlace fsico direto entre elas; Em intervalos fixos, as instalaes enviam entre uma mensagem de estou ativa;

Deteco de falhas
Se a instalao A no receber a confirmao no intervalo pr-determinado, ela pode considerar que a instalao B falhou, que o enlace entre A e B falhou ou que a mensagem de B foi perdida; Em um novo intervalo de tempo mensagem de confirmao de A poder ser enviada novamente para a confirmao de B ou aguardar simplesmente a mensagem de Confirmao B;

Deteco de falhas
Observe que a instalao A pode ainda enviar a mensagem para B por uma outra rota, afim de detectar e identificar que tipo de falha ocorreu; Se A receber a confirmao por esta outra rota, sabe-se que a falha ocorreu no enlace direto entre eles, caso contrrio, a instalao B est com falha; O tempo de espera de confirmao dever ser configurado por A;

Deteco de falhas
No mecanismo de deteco proposto a Instalao A poder concluir:
A instalao B est parada; O enlace direto de A para B est interrompido; O caminho alternativo de A para B est interrompido; A mensagem foi perdida;

Contudo, a instalao A no pode determinar qual destes eventos ocorreu;

Reconfigurao
Aps a deteco da falha a instalao A dever iniciar um procedimento que permitir ao sistema reconfigurar-se e continuar seu modo de operao normal; Se o enlace entre A e B falhou, esta informao dever ser propogada para todas as outras instalaes, de modo que as diversas tabelas de roteamento possam ser atualizadas;

Reconfigurao
Se o sistema acredita que uma instalao falhou, ento cada instalao no sistema precisa ser notificada, para no tentarem mais usar os servios fornecidos por B; Em alguns casos h necessidade de haver um coordenador que se encarregue por reconfigurar os servios no sistema;

Recuperao da falha
Quando um enlace ou instalao que falhou reparado, ele precisa ser integrado ao sistema de forma controlada e tranquila; Suponha que um enlace entre A e B tenha falhado, quando ele for reparado, tanto A quanto B precisam ser notificados; Suponha que a instalao B tenha falhado. Quando ela se recuperar, ter de notificar a todas as outras que ela est ativa novamente;
A instalao B receber informao das outras instalaes para atualizar suas configuraes;

Você também pode gostar