Você está na página 1de 14

Tempo Mdio entre

Falhas: Explicao e
Padres

Por Wendy Torell


e Victor Avelar

Relatrio interno
N 78

Resumo executivo
Tempo mdio entre falhas (MTBF) um termo de confiabilidade usado sem muita preciso
em muitas indstrias e mesmo abusivamente em algumas. No decorrer dos anos, o sentido
original deste termo foi mudando e atualmente ele causa confuso e cinismo. Em grande
medida, o MTBF se baseia em hipteses e portanto, a definio de falha e o cuidado com este
tipo de detalhes so de suma importncia para uma interpretao correta. Este relatrio
explica as complexidades e a falta de compreenso relativas ao MTBF e os mtodos
disponveis para calcular o seu valor.

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

Introduo
O tempo mdio entre falhas (MTBF) tem sido utilizado durante mais de 60 anos como referncia para a
tomada de diferentes decises. Com o decorrer dos anos, foram desenvolvidos mais de 20 mtodos e
procedimentos de predio da vida til de produtos. Portanto, no de se estranhar que o MTBF seja um
tema de peso em eterno debate. H uma rea na qual isto particularmente notrio: o desenho de infraestruturas de misso crtica que contm equipamentos de TI e de telecomunicaes. Quando poucos
minutos de tempo de inatividade podem ter um impacto negativo no valor de mercado de uma empresa,
essencial poder contar com infra-estrutura fsica confivel de suporte para este ambiente de rede.
possvel que no se atinja a meta de confiabilidade da empresa se no houver uma slida compreenso
do MTBF. Este relatrio explica todos os aspectos do MTBF com exemplos para simplificar a complexidade
e esclarecer idias errneas.

O que uma Falha? Quais so as Hipteses?


Estas so perguntas que devem ser feitas na hora de analisar qualquer valor de MTBF. A anlise de
pouco valor quando no se responde estas perguntas. Freqentemente se fala de MTBF sem dar uma
definio de falha. Este hbito leva a erros e totalmente sem sentido. como fazer um anncio para
promover o rendimento de combustvel de um automvel falando de milhas por tanque sem definir a
capacidade do tanque em litros ou gales. Para terminar com esta ambigidade, poderia-se dizer que
existem duas definies bsicas de falha:
1)

A impossibilidade de um produto em todo o seu conjunto poder realizar a funo exigida.1

2)

A impossibilidade de qualquer componente individual poder realizar a funo exigida, sem estar
afetado o funcionamento do produto no conjunto.2

Os dois exemplos a seguir ilustram como um modo de falha especfico pode ou no ser classificado como
falha, conforme a definio escolhida.

Exemplo 1:
Quando um disco redundante falha em um sistema RAID , a falha no impede que o sistema RAID
desempenhe a funo exigida de proporcionar dados crticos em momento algum. No entanto, a falha do
disco impede que um componente do sistema de discos realize a funo exigida de proporcionar espao
de armazenamento. Portanto, segundo a definio 1 no se trata de uma falha, embora seja uma falha de
acordo com a definio 2.

1
2

IEC-50
IEC-50

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

Exemplo 2:
Quando o inversor de um sistema UPS falha e o sistema UPS entra em modo de bypass esttico, a falha
no impede que o sistema UPS realize a funo exigida, ou seja, que ele transmita energia para a carga
crtica. No entanto, a falha do inversor impede que um componente do sistema UPS realize a funo
exigida de proporcionar energia condicionada. Como no caso do exemplo anterior, trata -se de uma falha
somente de acordo com a segunda definio. Definir uma falha seria relativamente simples se existissem
somente duas definies. Infelizmente, quando a reputao de um produto est em jogo, o assunto
quase to complexo quanto o prprio MTBF. Na realidade, existem mais de duas definies de falha; de
fato, o nmero infinito. Conforme o tipo de produto, os fabricantes podem ter diferentes definies de
falha. Os fabricantes que se preocupam com a qualidade realizam um monitoramento de todos os modos
de falha para um bom controle dos processos e isto elimina defeitos dos produtos, entre outros benefcios.
Portanto, necessrio fazer outras perguntas para definir o conceito de falha com exatido.

O mau uso pelo cliente pode ser considerado como uma falha? possvel que os desenhistas tenham
deixado de considerar certos aspectos humanos no desenho e isso aumentaria as possibilidades do mau
uso do produto por parte dos usurios. Quedas da carga por parte de um tcnico do distribuidor so
consideradas como falhas? possvel que o desenho do produto em si aumente a probabilidade da
ocorrncia de falhas em um procedimento que j traz riscos? Quando um indicador LED de um
computador falha, isto considerado como uma falha mesmo se no afetar o funcionamento do
computador? O desgaste natural de um insumo consumvel, como uma bateria, considerado como uma
falha quando esse produto apresenta anomalias prematuramente? Danos ocorridos no transporte so
considerados como falhas? Estes danos podem ser resultado de um problema no desenho da
embalagem. Claramente, a importncia de definir uma falha deve ser claramente evidente e compreendida
antes de se tentar interpretar um valor de MTBF. Perguntas como estas constituem elementos bsicos
para tomadas de decises na rea de confiabilidade.

Dizem que os engenheiros nunca erram; eles s se baseiam em hipteses errneas. Pode-se dizer o
mesmo a respeito das pessoas que calculam valores de MTBF. As hipteses ajudam a simplificar o
processo de calcular o MTBF. Seria praticamente impossvel coletar os dados necessrios para calcular o
nmero exato. No entanto, todas as hipteses devem ser realistas. Todas as hipteses descritas neste
relatrio so utilizadas comumente para calcular o MTBF.

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

Definies de confiabilidade, disponibilidade, MTBF e


MTTR
O MTBF afeta tanto a confiabilidade como a disponibilidade. Antes de explicar os mtodos de calcular o
MTBF, importante ter uma slida compreenso destes conceitos. Freqentemente se desconhece ou
no se entende bem a diferena entre a confiabilidade e a disponibilidade. Muitas vezes a alta
disponibilidade e a alta confiabilidade vo juntas mas os termos no podem ser usados indistintamente.

Confiabilidade a capacidade que um sistema ou componente tem de desempenhar as funes


exigidas nas condies estabelecidas por um determinado perodo de tempo [IEEE 90].

Em outras palabras, a probabilidade de um sistema ou componente realizar funes de maneira


satisfatria durante o tempo de durao da misso especfca, sem apresentar anomalias. A misso de
uma aeronave ilustra este conceito perfeitamente. Quando uma aeronave decola para cumprir uma
misso, h uma meta clara: concluir o vo, conforme planejado, de modo seguro (sem falhas
catastrficas).

Disponibilidade o grau de funcionalidade e acessibilidade que o sistema ou componente


apresenta quando se requer a sua utilizao [IEEE 90].

A disponibilidade pode ser considerada como a probabilidade de o componente ou sistema estar em


condies de desempenhar a funo exigida em certas circunstncias e em um determinado momento.
Ela depende do grau de confiabilidade de um sistema e do tempo de recuperao aps a ocorrncia de
uma falha. Quando os sistemas funcionam por longos perodos ininterruptamente (como um centro de
dados que j tem 10 anos, por exemplo), as falhas so inevitveis. Muitas vezes a disponibilidade vem a
ser um fator de preocupao quando ocorre uma falha e a varivel crtica passa a ser a rapidez de
recuperao do sistema. No exemplo do centro de dados, a varivel mais crtica poder contar com um
desenho de sistema que seja confivel mas, quando ocorre uma falha, o fator mais importante vem a ser a
reativao e a entrada em funcionamento dos equipamentos de TI e os processos da empresa no prazo
mais rpido possvel para reduzir o tempo de inatividade ao mnimo.

O MTBF ou Tempo Mdio entre Falhas uma medida bsica da confiabilidade de um sistema. Em geral
ele medido em unidades de horas. Quanto mais alto o valor de MTBF, mais confivel ser o produto. A
equao 1 ilustra essa relao.

Confiabilidade = e

Tempo

MTBF

Equao 1

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

Um dos erros mais freqentes em relao ao MTBF pensar que ele equivale ao nmero de horas de
funcionamento previsto antes que o sistema falhe, ou seja, a vida operacional. No entanto, no to
infreqente ver valores de MTBF de 1 milho de horas e seria pouco realista pensar que o sistema pode
funcionar ininterruptamente por mais de 100 anos sem falhas. A razo pela qual estes nmeros costumam
ser to altos porque esto b aseados na taxa de falhas do produto ainda na sua vida til ou vida
normal e aceita-se que a taxa de falhas permanecer igual para sempre. No entanto, nesta etapa de vida,
o produto apresenta a mais baixa (mais constante) taxa de falhas. Na realidade, os modos de desgaste do
produto restringiriam a sua vida muito antes que o valor de MTBF. Portanto, no deve existir correlao
direta entre a vida operacional de um produto e a sua taxa de falhas ou MTBF. H casos de produtos que
tm um alto grau de confi abilidade (MTBF) e uma baixa expectativa de vida operacional. Tomemos como
exemplo os seres humanos:

Em uma amostra populacional h 500.000 seres humanos de 25 anos de idade.


Durante um ano coleta -se dados sobre falhas (mortes) nessa populao.
A vida operacional da populao de 500.000 por 1 ano = 500.000 pessoas/ano.
Ao longo do ano 625 pessoas falharam (morreram).
O nmero de falhas de 625 falhas / 500.000 pessoas/ano = 0,125% / ano.
O MTBF o inverso da taxa de falhas ou 1/ 0,00125 = 800 anos.
Embora os seres humanos de 25 anos apresentem altos valores de MTBF, a
expectativa de vida (vida operacional) muito mais curta e no h correlao.

Na verdade os seres humanos no apresentam taxas de falhas constantes. medida que as pessoas
envelhecem, h mais falhas (elas se desgastam). Portanto, a nica verdadeira maneira de calcular um
valor de MTBF que seja equivalente vida operacional esperar que toda a amostra populacional de
pessoas de 25 anos chegue ao fim de suas vidas. Deste modo, pode-se calcular a mdia destes tempos
de vida. A maioria estaria de acordo que o resultado seria aproximadamente entre 75 e 80 anos.

Ento, qual o MTBF de pessoas de 25 anos? 80 ou 800? Ambos! Como possvel que uma populao
tenha dois valores de MTBF to diferentes? Depende das hipteses!

Se o MTBF de 80 anos reflete a vida do produto (dos humanos, neste caso) com maior preciso, trata -se
do melhor mtodo? Claramente o mtodo mais intuitivo. No entanto, h muitas variveis que limitam os
aspectos prticos do uso deste mtodo com produtos comerciais como sistemas UPS. O tempo a maior
limitao. Para que fosse possvel, toda a amostra populacional teria que falhar e, no caso de muitos
produtos, estaramos nos referindo a 10 ou 15 anos. Alm disso, mesmo se fosse razovel esperar tanto
tempo para calcular o MTBF, seria difcil fazer o monitoramento destes produtos. De que maneira o

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

fabricante pode saber se os produtos ainda esto em uso se nunca se informou sobre a retirada dos
produtos?

Em ltimo lugar, mesmo se tudo isso fosse possvel, a tecnologia est em um processo de mudana to
rpido que o valor j no teria utilidade alguma quando se terminasse o clculo. Quem se interessa em
saber o valor do MTBF de um produto que j foi atualizado por vrias verses tecnolgicas posteriores?

O MTTR, o Tempo Mdio de Reparo (ou Recuperao), o tempo previsto at a recuperao do sistema
aps uma falha. Ele pode incluir o tempo que leva para diagnosticar o problema, o tempo at a chegada de
um assistente tcnico nas instalaes e o tempo que leva para reparar o sistema fisicamente. Como o
MTBF, o MTTR medido em unidades de horas. Conforme demonstrado na Equao 2, o MTTR afeta a
disponibilidade, mas no a confiabilidade. Quanto maior for o MTTR, pior ser o sistema. Para simplificar,
se um sistema leva mais tempo de recuperao aps uma falha, h menos disponibilidade. A seguinte
frmula mostra como a disponibilidade geral de um sistema afetada tanto pelo MTBF quanto pelo MTTR.
Na medida que sobe o MTBF, aumenta a disponibilidade. Quando o MTTR aumenta, diminui a
disponibilidade.

Disponibilidade =

MTBF
( MTBF + MTTR)

Equao 2

Para que as equaes 1 e 2 sejam vlidas, necessrio partir de uma hiptese bsica para analisar o
valor de MTBF de um sistema. diferena dos sistemas mecnicos, a maioria dos sistemas e letrnicos
no tm partes mveis. Conseqentemente, geralmente aceito que os componentes ou sistemas
eletrnicos apresentam taxas de falhas constantes durante sua vida til operacional. A figura 1, intitulada
curva em forma de banheira da taxa de falhas, ilustra a origem desta hiptese da taxa de falhas
constante, conforme mencionado. O "perodo de funcionamento normal" ou perodo de vida til" desta
curva a etapa em que o produto est em uso real no campo. Nesse ponto a qualidade do produto j
atingiu um nvel constante com relao a uma taxa de falhas constante no tempo. Nesta etapa as origens
das falhas podem incluir defeitos no-detectveis, fatores de baixa segurana em matria de desenho,
fatores de maior esforo aleatrio que previsto, fatores humanos e falhas naturais. Um longo perodo de
testagem de componentes por parte dos fabricantes, boa manuteno e substituio proativa das partes
desgastadas deveriam ajudar a evitar o tipo de curva de deteriorao rpida no "perodo de desgaste".
Estas noes apresentadas acima constituem um pouco do contexto dos conceitos e diferenas entre
confiabilidade e disponibilidade, que permitem fazer uma interpretao correta a respeito do valor de MTBF.
A seguinte seo analisa diferentes mtodos de predio do MTBF.

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

Figura 1 Curva em forma de banheira indicando a taxa de falhas constante


Perodo
inicial de
falhas

Perodo de
funcionamento
normal

Perodo
de
desgaste

Taxa
de
falhas

rea de taxa de falhas


constante
0

Tempo

Mtodos de Predio e Clculo do MTBF


Freqentemente os termos preciso e clculo so utilizados indistintamente, embora isso no seja
correto. Os mtodos de predio do MTBF servem para calcular o valor baseado exclusivamente em um
desenho do sistema e so realizados normalmente no incio do ciclo de vida do produto. Os mtodos de
predio so de utilidade quando no h dados concretos o u poucos, como no caso do nibus espacial
ou de novos desenhos de produtos. Quando no h dados concretos suficientes, no se deve utilizar
mtodos de predio. Em vez destes mtodos, deve-se utilizar mtodos que servem para calcular o MTBF
porque representam medies reais de falhas. Os mtodos que servem para calcular o MTBF do um
valor baseado em uma amostra de sistemas similares observados, que de modo geral so realizados
aps a instalao de uma grande quantidade de sistemas em ambientes reais. Os mtodos de clculo do
MTBF so os mais utilizados para valores de MTBF, especialmente porque esto baseados em produtos
verdadeiros em uso real.

Todos estes mtodos so de natureza estatstica e portanto fornecem somente uma aproximao do
verdadeiro valor de MTBF. Nenhum mtodo est padronizado na indstria toda. Portanto, fundamental
que o fabricante compreenda e escolha o melhor mtodo para o uso especfico. Os mtodos
apresentados a seguir, embora no representem uma lista completa, ilustram a ampla g ama de mtodos
para obter o valor de MTBF.

Mtodos de Predio de Confiabilidade


Os primeiros mtodos de predio de confiabilidade surgiram na dcada de 1940, criados por um cientista
alemo chamado Von Braun e um matemtico alemo, Eric Pieruschka. Enquanto procurava melhorar
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

vrios problemas de confiabilidade no foguete V-1, Pieruschka ajudou Von Braun a criar um modelo de
confiabilidade para o seu foguete que foi o primeiro modelo de confiabilidade moderno preditivo j
documentado. Mais tarde, com o crescimento da indstria nuclear, a NASA trouxe maior madureza ao
campo da anlise de confiabilidade. Na atualidade, h muitos mtodos de predio do MTBF.

MIL-HDBK 217
Publicado pelo exrcito dos Estados Unidos em 1965, o Manual Militar 217 foi redigido com o intuito de
proporcionar padres para calcular a confiabilidade de equipamentos e sistemas eletrnicos militares e
aumentar a confiabilidade dos equipamentos que estavam sendo projetados. Ele assenta as bases para
uma comparao da confiabilidade de dois ou mais desenhos similares. O Manual Militar 217 tambm
conhecido como Mil Standard 217 ou simplesmente como o 217. Segundo o 217, h duas formas de
predio de confiabilidade: predio com contagem de peas e predio atravs da anlise de esforos
nas peas.

A predio com contagem de peas costuma ser utilizada para predio de confiabilidade de um produto
na etapa inicial do ciclo de desenvolvimento com o intuito de obter um clculo de confiabilidade
aproximado com relao meta ou especificao de confiabilidade. Uma taxa de falhas calculada
contando os componentes similares de um produto (os capacitores, por exemplo) e colocando-os em
grupos, conforme os diferentes tipos de componentes (capacitores de filme, por exemplo). Em seguida, o
nmero de componentes de cada conjunto multiplicado por uma taxa de falhas genrica que se encontra
no manual 217. Por ltimo, as taxas de falhas dos diferentes conjuntos de componentes so somadas
dando a taxa de falha final. Por definio, este mtodo pressupe que todos os componentes esto
conectados em srie e requer que as taxas de falhas para componentes no-conectados em srie sejam
calculadas separadamente.

A predio atravs da anlise de esforo nas peas costuma ser utilizada muito mais tarde no ciclo de
desenvolvimento do produto, quando o desenho dos circuitos e o hardware j est praticamente pronto
para a entrada em produo. Ela similar ao mtodo com contagem de peas porque inclui a soma das
taxas de falhas. No entanto, neste mtodo, a taxa de falhas de cada um dos componentes calculada
separadamente conforme os graus de esforo especficos aos quais cada componente submetido
(umidade, temperatura, vibrao e voltagem, por exemplo). Para designar os graus de esforo adequados
para cada com ponente, o desenho do produto e o seu ambiente previsto devem ser muito bem
documentados. O mtodo de anlise de esforos costuma dar uma taxa de falhas mais baixa que o
mtodo com contagem de peas. Devido ao nvel de anlise exigido pelo mtodo, ele leva muito mais
tempo que os outros.

Atualmente, o mtodo 217 muito pouco usado. Em 1996, o exrcito dos Estados Unidos anunciou que
deveria se deixar de utilizar o MIL-HDBK-217 porque havia sido "comprovado que ele no era confivel e
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

que seu uso poderia resultar em predies de confiabilidade errneas e enganosas"3. O 217 foi
descartado por vrias razes - ligadas em sua maioria s grandes melhoras que ocorreram em termos da
confiabilidade dos componentes - a tal ponto que essa j no mais a principal causa de falha nos
produtos. As taxas de falhas apresentadas no 217 so mais conservadoras (mais altas) do que os
componentes eletrnicos atualmente no mercado. Uma investigao minuciosa das falhas em produtos
eletrnicos hoje revelaria que elas ocorrem mais freqentemente devido ao mau uso (falha humana),
controle de processos ou desenho do produto.

Telcordia
O modelo Telcordia de predio de confiabilidade teve sua origem na indstria das telecomunicaes e
sofreu uma srie de modificaes no decorrer d os anos. Em primeiro lugar, ele foi desenvolvido pela
Bellcore Communications Research com o nome de Bellcore como mtodo de calcular a confiabilidade de
equipamentos de telecomunicaes. Embora a Bellcore tenha se baseado originalmente no manual 217,
os s eus modelos de confiabilidade (equaes) foram modificados em 1985 para refletir as experincias
do seu equipamento de telecomunicaes no campo. A ltima verso da Bellcore foi a TR-332 N 6,
lanada em dezembro de 1997. Mais tarde nesse mesmo ano, a SAIC adquiriu a Bellcore e mudou o seu
nome para Telcordia. A ltima verso do Modelo Telcordia de Predio, o SR-332 N 1, foi publicada em
maio de 2001 e oferece uma variedade de mtodos de clculo, alm dos mtodos includos no 217. Na
atualidade, o mtodo Telcordia continua sendo utilizado como ferramenta de desenho de produtos nesta
indstria.

HRD5
O HRD5 o manual de dados de confiabilidade para componentes eletrnicos (Handbook for Reliability
Data for Electronic Components) utilizado em sistemas de te lecomunicaes. Ele foi desenvolvido pela
British Telecom e utilizado principalmente no Reino Unido. Este manual semelhante ao 217 mas no
abrange tantas variveis ambientais e fornece um modelo de predio de confiabilidade que abarca uma
maior variedade de componentes eletrnicos, inclusive os de telecomunicaes.

RBD (Diagrama de Blocos de Confiabilidade)


O diagrama de blocos de confiabilidade ou RBD uma ferramenta de clculo e desenho representativo
utilizada para criar modelos de confiabilidade e disponibilidade para sistemas. A estrutura de um diagrama
de blocos de confiabilidade define a interao lgica das falhas dentro de um sistema e no
necessariamente a conexo lgica ou fsica entre elas. Cada bloco pode representar as falhas em um
componente individual ou um subsistema ou outras falhas representativas. O diagrama pode representar
um sistema inteiro ou qualquer subconjunto ou combinao do sistema para o qual seja necessrio

Cushing, M., Krolewski, J., Stadterman, T., e Hum, B., 1996, "U.S. Army Reliability Standardization Improvement
Policy and Its Impact", IEEE Transactions on Components, Packaging, and Manufacturing Technology, Parte
A, Vol. 19, N 2, pp. 277-278
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

10

realizar uma anlise de falha, confiabilidade ou disponibilidade. Ele tambm pode ser utilizado como
ferramenta de anlise para demonstrar o funcionamento de cada elemento do sistema ou o modo em que
cada elemento pode afetar o funcionamento do sistema em seu conjunto.

Modelo de Markov
O uso dos modelos de Markov oferece a possibilidade de analisar sistemas complexos como arquiteturas
eltricas. Os modelos de Markov tambm so conhecidos como diagramas de espao de estados ou
diagramas de estado. O espao de estados definido como o conjunto de todos os estados em que o
sistema pode se encontrar. diferena dos diagramas de blocos, os diagramas de grficos de estados
do uma representao mais precisa do sistema. Os grficos de estados podem representar tanto
relaes entre falhas de componentes como tambm vrios e stados que os diagramas de blocos no
podem representar, como o estado de uma unidade UPS quando a bateria no funciona, por exemplo.
Alm do valor de MTBF, os modelos de Markov oferecem muitas outras medies de um sistema, como a
disponibilidade, o valor de MTTR e a probabilidade de estar em um estado determinado em um dado
momento, entre vrias outras.

FMEA / FMECA
A FMEA (anlise de modo de falhas e efeitos) um processo utilizado para analisar modos de falhas de
um produto. Esta informao utilizada posteriormente para determinar o impacto que cada falha teria no
produto e desta forma melhorar o desenho do produto. A anlise pode ir alm desta funo e designar um
grau de criticidade para cada modo de falha. Neste caso, ela chamada FMECA (anlise de modo de
falha, efeitos e criticidade). A FMEA realizada de baixo para cima. No caso de um sistema UPS, por
exemplo, a anlise comea no nvel de placas de circuitos e sobe at cobrir todo o sistema. Alm de seu
uso como ferramenta de desenho de produtos, ela pode ser utilizada para calcular a confiabilidade geral
do sistema. Existem casos em que difcil obter dados de probabilidade sobre os diferentes componentes
dos equipamentos para realizar os clculos, principalmente se os componentes tm diferentes estados ou
modos operacionais possveis.

rvore de falhas
A tcnica de anlise de rvore de falhas foi desenvolvida pela Bell Telephone Laboratories para avaliaes
de segurana do Sistema de controle de lanamento de msseis Minuteman. Mais tarde ela foi utilizada
para anlises de confiabilidade. As rvores de falhas podem ser teis para detalhar o rumo de eventos,
tanto em casos normais como em casos de falha, que desembocam no evento de falha ou evento
indesejado que est sendo investigado (de cim a para baixo) no nvel do componente. A confiabilidade
calculada atravs da converso de uma rvore de falhas terminada em um conjunto de equaes
correspondente. Isto se faz utilizando lgebra de eventos, tambm conhecida como lgebra booleana.

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

11

Como no caso da FMEA, pode haver certa dificuldade em obter os dados de probabilidade necessrios
para se fazer os clculos.

HALT
A tcnica de testes altamente acelerados (HALT) um mtodo usado para aumentar a confiabilidade geral
do desenho de um produto. Ela tambm utilizada para determinar quanto tempo um produto leva para
atingir o ponto de quebra ao submet -lo a esforos cuidadosamente medidos e controlados como
temperatura e vibrao. Utiliza-se um modelo matemtico para calcular quanto tempo real o produto levaria
em falhar no uso real no campo. Embora o mtodo HALT sirva para calcular o valor de MTBF, ele tem como
principal funo aumentar a confiabilidade do desenho do produto.

Mtodos para Calcular a Confiabilidade


Mtodo de predio baseado em elementos similares
Este mtodo representa um meio rpido para calcular a confiabilidade em base a dados histricos de
confiabilidade de um elemento similar. A efetividade deste mtodo depende principalmente da
semelhana entre o novo equipamento e o equipamento existente sobre o qual j h dados de campo
disponveis. Deve existir semelhanas entre os processos de fabricao, ambientes operacionais,
funes e desenho dos produtos. No caso de produtos que vo mudando no decorrer do tempo, este
mtodo de produo especialmente til porque ele aproveita a prvia experincia de campo. Contudo, as
diferenas devem ser investigadas com grande cuidado e includas na predio final.

Mtodo de Medio dos Dados de Campo


Este mtodo se baseia na experincia real de cam po dos produtos. Ele talvez seja o mtodo mais utilizado
pelos fabricantes porque faz parte do programa de controle de qualidade da fbrica. Estes programas
costumam ser chamados de Gerenciamento do Crescimento da Confiabilidade. Com o rastreamento da
taxa de falhas dos produtos em seu uso no campo, os fabricantes podem identificar e tentar resolver os
problemas rapidamente eliminando os defeitos dos produtos. Como o mtodo se baseia em falhas reais
no campo, ele abrange modos de falha que os mtodos de predio costumam excluir. O mtodo consiste
em fazer o seguimento de uma amostra populacional de novos produtos e coletar os dados relativos s
falhas. Aps a coleta destes dados, calculam -se os valores de MTBF e a taxa de falhas. A taxa de falhas o
percentual de uma populao de unidades previstas a falhar em um ano calendrio. Alm de usar estes
dados para controle de qualidade, eles tambm so utilizados para oferecer aos clientes e parceiros
informaes sobre a confiabilidade do produto e os processos de qualidade. Como so utilizados to
extensamente pelos fabricantes, eles servem como base de comparao de valores de MTBF. Estas
comparaes permitem que os usurios avaliem as relativas diferenas de confiabilidade entre produtos e
isto se traduz em uma ferramenta para a tomada de decises de compra ou especificaes. Como no
caso de qualquer comparao, as variveis crticas precisam ser as mesmas em todos os sistemas

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

12

comparados. Caso contrrio, provvel que se tomem decises erradas podendo resulta r em um impacto
econmico negativo. Para mais informao sobre a comparao de valores relativos de MTBF, consulte o
Relatrio Interno N 112 da APC, intitulado Comparaes Efetivas de Valores de MTBF para Infra-estrutura
de Centros de Dados.

Concluses
MTBF uma sigla muito usada atualmente na indstria de TI. Utilizam-se nmeros com soltura sem saber
o que eles realmente expressam. Embora o MTBF seja um indicador de confiabilidade, ele no representa
a previso de vida operacional de um produto. Na verdade, os valores de MTBF no tm o menor sentido
se no existirem uma definio de falha e hipteses ou se as hipteses forem irrealistas.

Referncias
1.

Pecht, M.G., Nash, F.R., Predicting the Reliability of Electronic Equipment, Proceedings of the IEEE,
Vol. 82, N 7, julho de 1994

2.

Leonard, C., MIL-HDBK-217: Its Time to Rethink It, Electronic Design, 24 de outubro de 1991

3.

http://www.markov-model.com

4.

MIL-HDBK-338B, Electronic Reliability Design Handbook , 1 de outubro de 1998

5.

IEEE 90 Institute of Electrical and Electronics Engineers, IEEE Standard Computer Dictionary: A
Compilation of IEEE Standard Computer Glossaries. New York, NY: 1990

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

13

Acerca dos autores


Wendy Torell uma especialista em disponibilidade e trabalha na APC em W. Kingston, Rhode Island.
Oferece assessoramento aos clientes relacionado com os enfoques cientficos sobre disponibilidade e
prticas de design para otimizar a disponibilidade dos ambientes dos centros de dados. Recebeu o
diploma de Bachelor em Engenharia Mecnica pelo Union College, em Schenectady, NY. Wendy tem uma
certificao da ASQ no campo da engenharia em confiabilidade.

Victor Avelar Especialista em Disponibilidade na APC. responsvel pelo assessoramento e anlise


sobre a disponibilidade para as arquiteturas eltricas e o desenho dos centros de dados dos clientes.
Victor se formou como Bacharel em Engenharia Mecnica no Rensselaer Polytechnic Institute em 1995 e
membro da ASHRAE e da American Society for Quality.

2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser usada, reproduzida, fotocopiada, transmitida
ou armazenada em qualquer sistema de recuperao, sem a utorizao escrita do proprietrio dos direitos autorais. www.apc.com
Rev 2004-0

14

Você também pode gostar