Você está na página 1de 16

Prepare-se contra

O DOWNTIME
Identifique os riscos e crie uma estratégia
PREVENTIVA E CORRETIVA.
Índice
1. Saiba o que é o downtime!........................................................................................ 4
2. Componentes da TI com maior risco de downtime.................................................. 5
Nível Operacional................................................................................................................. 5
Nível Tático............................................................................................................................ 5
Nível Estratégico................................................................................................................... 6
3. O que causa o downtime?.......................................................................................... 7
Falha humana ...................................................................................................................... 7
Falha na instalação/operação de um sistema................................................................... 8
Problema no ambiente......................................................................................................... 8
Fatores externos .................................................................................................................. 8
4. Como calcular o impacto do Downtime para o negócio?........................................ 9
5. Como evitar o Downtime?........................................................................................ 10
Monitoramento dos recursos de TI...................................................................................10
Conheça o NOC...................................................................................................................11
Tenha sempre um bom plano de contingência................................................................13
Considerações Gerais................................................................................................... 13
Conclusão...................................................................................................................... 14
Introdução
Empresas que buscam crescer no mercado investem cada vez mais em soluções tecnológicas que lhe ofereçam
diferenciais competitivos em relação a concorrência, seja este investimento em melhoria na produtividade, na criação de
novas ofertas ou uma inovação na forma de se relacionar com seus clientes.

Ao mesmo tempo que a tecnologia é fundamental para a inovação e competitividade, ela pode gerar uma alta dependência
do negócio em relação a sua infraestrutura de TI.

Em muitas empresas, a TI deixou de fazer parte apenas do nível operacional e tático, e passou a fazer parte do nível
estratégico, ou seja, os serviços oferecidos aos clientes dependem totalmente da tecnologia para serem entregues, e
sem ela, a empresa simplesmente deixa de funcionar.

Esta dependência reforça a importância de os recursos tecnológicos estarem sempre operando da forma adequada, e
aumentam os impactos para o negócio em casos de downtime.

Neste e-book, vamos entender melhor o conceito de downtime, quando ele ocorre, quais os impactos causados em uma
organização e qual a melhor forma de prevenção.

Boa leitura!
1. Saiba o que é o downtime!
O conceito de downtime é relativamente simples, basicamente é o tempo em
percentagem em que um determinado recurso ou serviço permanece indisponível.
Quando falamos em downtime na TI, este recurso pode ser desde o acesso à rede,
internet ou a inatividade de um equipamento ou sistema.

O downtime pode ocorrer de forma programada, para fins de manutenção ou


substituição de equipamentos, ou por falhas repentinas, neste caso, podendo
ocasionar perdas para empresa tanto financeiras quanto de produtividade.

Neste e-book, estaremos frisando o impacto do downtime em casos inesperados, já


que aqueles causados por manutenções são planejados e não causam um impacto
significativo para a empresa.

O downtime quando acontece de forma repentina pode ser devastador para o


negócio, caso não exista um bom plano de recuperação. Imagine um grande site de
varejo fora do ar em um dia de Black Friday. As perdas financeiras são incalculáveis,
os clientes vão para a concorrência e a imagem da empresa é prejudicada.

As causas de downtime em um ambiente de TI


podem ser as mais variadas. Vamos ver no próximo
capítulo quais componentes oferecem mais riscos
de parada e quais suas razões.

4
2. Componentes da TI com maior risco
de downtime.
Primeiramente vamos dividir os recursos de TI em 3 níveis hierárquicos dentro do
ambiente corporativo: operacional, tático e estratégico. Esta divisão é importante
para entender quando um downtime acontece, qual nível ele afeta e qual o impacto
desta parada para o negócio, fazendo com que os gestores de TI priorizem os
investimentos em monitoramento e planos de contingência.

Nível Operacional
Este é o primeiro nível de TI, que compõe os recursos utilizados pela organização
e diretamente pelos seus colaboradores nas suas funções diárias. Podemos citar
aqui os dispositivos que suportam a infraestrutura de T.I como servidores, switches,
impressoras, enfim, os recursos que garantem o funcionamento mínimo do sistema
como um todo.

Quando um recurso no nível operacional sofre alguma anomalia entrando em


downtime, ele afeta não apenas um usuário ou grupo de usuários, ele afeta
diretamente de um modo geral uma área do negócio ou de acordo com a dependência
de um serviço, pode deixar indisponível todo o serviço fim do negócio.

Um exemplo de downtime que pode prejudicar o negócio e é causado a nível


operacional, é quando um sistema de armazenamento que não possui redundância
falha.

5
Nível Tático
O nível tático é o segundo nível de TI, geralmente é composto pelas aplicações e bancos de dados da
organização e possui dependência do nível operacional, de forma consolidada, sendo identificado como
os serviços que amparam o serviço final da empresa. Neste nível o principal objetivo é ter uma visão
geral de um ou mais serviços que estão causando o downtime.

Quando um recurso neste nível entra em downtime, é identificado de imediato um impacto significativo
no negócio, podendo causar atraso nas operações diárias e ate mesmo perdas financeiras.

Um exemplo de downtime no nível tático é quando o ERP da empresa fica indisponível,


impossibilitando a movimentação de mercadorias. Muitas vezes, o prazo de entrega de um pedido
é afetado porque o setor financeiro não pode emitir as notas fiscais.

Nível Estratégico
O nível estratégico está ligado ao propósito da empresa. Este nível possui dependências nos níveis
operacional e tático. O nível estratégico serve como principal medidor de desempenho e tendência
do negócio. Essas medidas servem para os gestores, diretores e demais decisores acompanham
o desempenho do serviço fim do negócio.

O ambiente de TI responsável pelo nível estratégico está relacionado ao serviço final que a
empresa oferece aos seus clientes, como os serviços de Internet Banking oferecido pelos bancos,
um e-commerce, um aplicativo Web ou um serviço de streaming de áudio e vídeo na internet, por
exemplo.

O caso do e-commerce de varejo citado no parágrafo anterior é um exemplo claro de como o downtime
de um recurso no nível estratégico pode afetar um negócio.

6
Quer outro exemplo? O WhatsApp é
sem dúvida o aplicativo de mensagens
mais utilizado no mundo, e no Brasil
não é diferente. Porém, quando ele foi
bloqueado por aqui em maio de 2016 por
uma determinação judicial, em menos de
24 horas mais de 1 milhão de usuários
baixaram e instalaram um aplicativo
concorrente, que chegou a ficar com o site
congestionado por tantos acessos.

Apesar de ser um motivo um tanto incomum, esse bloqueio


ao WhatsApp não deixa de ser um downtime, já que o serviço
ficou indisponível por horas, afetando milhões de usuários.

7
3. O que causa o downtime?
O primeiro passo para prevenção é entender os motivos que levam um determinado
recurso ao downtime, só assim será possível tomar as ações necessárias para se
minimizar os riscos. De um modo geral, são 5 os principais motivos que causam
falhas inesperadas, lembrando que estamos desconsiderando as situações em que
o downtime é programado para manutenções, já que este já é planejado.

Falha humana
O líder em downtime é a falha humana. Como ocorrido em alguns casos, manutenções
executadas de forma errada ou até mesmo rotinas que acabam tendo imprevistos
podem causar a indisponibilidade do ambiente. Um bom exemplo foi o da Portugal
Telecom que ficou fora durante 48 horas no início de 2015 quando uma manutenção
em um sistema de armazenamento acarretou na parada de todo o serviço de
hosting. O analista responsável pela troca de um componente danificado acabou
trocando o componente errado.

Falha física em equipamentos e rede


Qualquer equipamento de TI como computadores, servidores ou ativos de rede
possuem componentes eletrônicos suscetíveis a falha. Esses componentes com o
tempo podem sofrer alguma anomalia durante seu funcionamento.

Outro problema comum está na instalação da rede física. Em alguns ambientes


devido as condições de temperatura e umidade, os cabos de rede podem se
deteriorar ou se danificar com mais facilidade.

8
Falha na instalação/operação de um sistema
Assim como os equipamentos, os sistemas podem sofrer alguma anomalia durante sua operação,
também é comum que os sistemas tenham atualizações automáticas fazendo com que fiquem
indisponíveis. Neste caso, estamos falando de sistemas em todos os níveis de negócio, desde os
sistemas operacionais, ERPs, softwares de segurança ou bancos de dados.

Problema no ambiente
O ambiente em que um recurso está instalado pode afetar diretamente o seu funcionamento. O
excesso de calor em um ambiente não adequado por exemplo pode superaquecer os processadores
e causar a parada de computadores e até mesmo servidores. Um ambiente muito úmido por exemplo,
pode danificar placas ou conectores de rede, inativando o acesso à internet e aos dados corporativos.

Principalmente em um Datacenter, o cuidado com a climatização e a disposição dos equipamentos,


o monitoramento é fundamental para aumentar a disponibilidade dos serviços e evitar o downtime.

Fatores externos
Estes fatores são aqueles que causam downtime e que a empresa não tem nenhuma influência direta
sobre eles. Dentre os fatores externos mais comuns estão os desastres, naturais ou não, quedas de
energia, ou até mesmo queda nos serviços das operadoras, como a falha nos links de internet por
rompimento de fibra óptica, por exemplo.

9
4. Como calcular o impacto do
Downtime para o negócio?
É difícil fazer um cálculo exato do impacto que o downtime pode afetar o negócio
quando ele acontece, mas é possível fazer algumas estimativas.
A primeira informação a ser levantada é saber qual nível hierárquico da empresa foi
afetado, e quais usuários e setores sofreram com a parada.
Se o serviço inativo for no nível operacional, pode-se calcular o custo/hora de cada
colaborador afetado e multiplicar pelo tempo em que o recurso ficou indisponível,
caso este usuário tenha ficado sem trabalhar devido ao downtime. Aqui também
deve-se calcular as horas que os analistas de TI levaram para corrigir o problema.
Caso tenha sido necessário a contratação de serviços de terceiros, este custo
também deve ser incluído no cálculo.
No nível tático o cálculo é semelhante, mas normalmente em proporções maiores.
Caso a empresa tenha tido algum prejuízo adicional, como o atraso na entrega de
mercadorias por exemplo, todos os custos devem ser calculados.
Quando o downtime acontece no nível estratégico, o impacto para o negócio pode
ser alto e todos os prejuízos precisam ser calculados. Neste caso, além de levar em
consideração a produtividade dos colaboradores, como nos demais níveis, deve-
se fazer uma estimativa de quanto a empresa deixou de faturar durante o período
de inatividade dos seus serviços, se a marca foi prejudicada, se as ações tiverem
impacto e outros fatores de fazem parte do meio onde essa empresa está inserida.
O impacto negativo quando o downtime afeta a imagem da empresa é algo incalculável
em termos financeiros, mas que também deve ser levado em consideração.

10
5. Como evitar o Downtime?
É importante que os gestores de TI tenham em mente que é impossível evitar 100%
o downtime, tendo em vista que alguns problemas são imprevisíveis, mas é possível
reduzir as chances de paradas ou minimizar o impacto para o negócio com um bom
serviço de monitoramento e planos de contingencia.

Monitoramento dos recursos de TI


O monitoramento é o primeiro grande passo para a prevenção contra o downtime dos
recursos de TI. Um serviço de monitoramento ativo é capaz de identificar anomalias
na operação dos ativos, seja a nível de hardware ou software, antecipando falhas
e tomando as devidas ações de correção antes da parada completa dos serviços.

Empresas que não realizam o monitoramento correto dos recursos de TI colocam


em risco os serviços oferecidos em todos os níveis da organização, especialmente
aqueles no nível estratégico, que podem resultar em um grande impacto negativo
para o negócio.

O maior benefício do monitoramento é a prevenção de incidentes. O serviço de


monitoramento consegue identificar características fora do padrão no funcionamento
dos equipamentos e sistemas e gerar alertas aos analistas de suporte, que poderão
fazer uma análise detalhada da situação, e tomar as ações necessárias para evitar
o downtime.

11
Conheça o NOC
NOC é a sigla em inglês para Centro de Operações de De um modo geral, o NOC utiliza softwares específicos de
Rede. Este serviço tem tido cada vez mais espaço nas monitoramento, e uma equipe especializada monitora os
empresas devido à importância que a TI tem ganhado alertas gerados nos ativos de TI, como servidores, roteadores,
nas operações estratégicas do negócio, que investe cada gateways, etc. Esse time atua de forma preventiva e proativa
vez mais em soluções tecnológicas para acompanhar a com o objetivo de manter o ambiente de TI estável, identificando
evolução do mercado e se manter competitiva. anomalias no funcionamento de qualquer ativo e antecipando
falhas na operação.
Esse investimento em tecnologia também gera uma
dependência do nível estratégico do negócio em relação ao Além de monitorar, o NOC pode ser responsável pelas
ambiente de TI, e por isso os serviços de monitoramento tem primeiras ações de correção dos incidentes, solucionando os
tido uma participação cada vez mais atuante para minimizar problemas de forma imediata, evitando o downtime. Quando
os riscos de downtime de algum ativo importante. a correção imediata não é possível, o próximo nível de suporte
é acionado pela própria equipe de monitoramento.

Este serviço também é responsável por fornecer informações


para as equipes de suporte de infraestrutura, gera relatórios de
desempenho, capacidade e disponibilidade dos ativos de TI.

12
Vantagens do NOC terceirizado
Manter um serviço de monitoramento ativo é fundamental principalmente em empresas que não querem
correr riscos de downtime nos seus serviços estratégicos. Esta já é uma prática bastante comum em
grandes corporações, e vem se tornando mais popular em pequenas e médias empresas, que precisam
garantir a disponibilidade dos seus sistemas e garantir agilidade na recuperação em caso de incidentes,
para se manterem competitivas no mercado.
Por outro lado, manter uma equipe ativa 24 horas por dia, sempre treinada
e capacitada pode gerar altos custos para o negócio e aumentar a carga
de trabalho para gestores de TI que passam a ter mais uma equipe para
gerir no seu dia a dia.
Uma opção cada vez mais utilizada é a terceirização do NOC. Este serviço
costuma ser oferecido por empresas especializadas, que possuem todos
os sistemas necessários para fazer o monitoramento ideal, além de já
possuir uma equipe sempre capacitada e com experiência na função.
Como eles atendem outros clientes, parte dos serviços é compartilhada
com outras empresas, reduzindo assim os custos de operação, tornando
os valores muito mais atrativos do que montar um NOC “dentro de casa”.
Outra vantagem do NOC terceirizado é que essas empresas já conhecem
todos os processos, criando assim padrões de funcionamento e de um
modo geral se baseiam em boas práticas de TI, como as recomendações
da biblioteca ITIL v3 ou eSCM-SP.
Mesmo sendo um NOC terceirizado, a empresa pode ter os mesmos
benefícios de um NOC interno, desde que o fornecedor tenha capacidade
e se faça um contrato que gere benefícios para ambas as partes. É possível contratar um serviço de
monitoramento proativo, onde o fornecedor toma ações de correção com alto nível de precisão e agilidade
em resposta a possíveis sinais de incidentes.

13
Em um NOC terceirizado, a empresa fornecedora dos serviços entrega todos os
relatórios necessários do ambiente de TI para que os gestores possam fazer uma
análise crítica e tomar decisões estratégicas para a continuidade do negócio.


Tenha sempre um bom plano de contingência
Nem em todos casos o monitoramento é capaz de evitar o downtime, principalmente
quando a causa está relacionada a fatores externos, como desastres ou serviços de
...a única forma de evitar terceiros que ficam inativos.
ou reduzir o downtime é Problemas como acidentes, furtos, incêndios ou simplesmente o link de uma
através de um bom plano operadora deixar de funcionar são causas que o monitoramento não pode prever,
de contingência, que seja aí a única forma de evitar ou reduzir o downtime é através de um bom plano de
contingencia, que seja acionado assim que o incidente aconteça.
acionado assim que o
Neste caso, o investimento em um bom plano de contingencia deve priorizar aqueles
incidente aconteça.”
fatores que causam um maior impacto negativo para o negócio. Por exemplo, se a
falta de internet é altamente prejudicial, a empresa deve ter outras opções de acesso
como links redundantes de outras operadoras, e de preferência que cheguem por
um meio diferente de comunicação, como o acesso via rádio.

Empresas que tem uma alta dependência da tecnologia chegam a fazer grandes
investimentos em ambientes conhecidos como “sites backup”. Estes ambientes
costumam ser uma réplica do datacenter principal da empresa instalada em um
local distante, muitas vezes outra cidade, que é atualizado em tempo real e entra
em operação caso o datacenter principal fique inativo por algum motivo.

Considerações Gerais
14
Considerações Gerais
O downtime na verdade é o sintoma para uma série de causas que geram a indisponibilidade dos recursos de TI. Em
algumas situações pode ser inofensivo, mas de acordo com o ativo ou o serviço afetado pode causar impactos significantes
para o andamento do negócio.

A melhor maneira de evitar o downtime é a prevenção, e a melhor maneira de se prevenir é com um monitoramento ativo
do ambiente.

Como vimos nos impactos causados pelo downtime de alguns serviços, o monitoramento do ambiente de TI garante
para o negócio redução nos custos operacionais de TI, previne incidentes, aumenta a segurança e ajuda os gestores a
dimensionarem melhor seus investimentos.

O monitoramento da TI ajuda na melhor utilização dos recursos tecnológicos, tornando os sistemas mais rápidos e
estáveis, garantindo também a aumento da produtividade em todas as esferas da organização.

15
A UNIREDE é Zabbix Premium Partner e principal parceira mundial da
Zabbix SIA. Há mais de 15 anos atua oferecendo serviços de Monitoramento,
Administração, Operação, Gestão Estratégica de TI e Treinamento,
proporcionando segurança e tranquilidade e possibilitando que você
mantenha o foco no core business de sua empresa. Fale com a Unirede e
saiba mais sobre o que podemos fazer por seu negócio.

Porto Alegre São Paulo Rio de Janeiro USA


Av. Princesa Isabel, 844 / 2º andar Av. Paulista, 807/2315, 23º Andar Av. Presidente Wilson 231, 9º Andar 201 South Biscayne Blvd
Santana | Porto Alegre - RS Bela Vista | São Paulo - SP Centro | Rio de Janeiro - RJ Suite 1200 | Miami, FL 33131
CEP 90620-000 | CEP 01311-100 CEP 20030-021 Fone: +1-786-471-8227
Fone: 51 3012.1920 Fone: 11 3522.9045 Fone: 21 3527.0531

Conheça a Unirede:

Você também pode gostar