Recuperação de Desastres TI

Um guia para modernizar a recuperao de desastres de TI
Como se preparar para os eventos "Cisne Negro" e reduzi-los em seu data center
NDICE:
INTRODUO: O que so os eventos "Cisne Negro" e o que eles tm a ver com seu data center? CAPTULO 1: Espere o inesperado CAPTULO 2: Comece com uma base inteligente e virtual CAPTULO 3: Mitos e verdades sobre a recuperao de desastres
CAPTULO 4: As dez principais prticas recomendadas da recuperao de desastres CONCLUSO: Um guia de incio rpido para recuperao de desastres APNDICE: Recuperao de desastres 101: Os conceitos bsicos
INTRODUO
1
O que so os eventos "Cisne Negro" e o que eles tm a ver com seu data center?
Voc conhece a VMware como a empresa de virtualizao lder de mercado dos ltimos 11 anos. Na prtica, de acordo com o Gartner, atualmente mais de 80% de todos os aplicativos virtualizados no mundo inteiro so executados em produtos VMware. Este ebook destaca a perspectiva da VMware quanto recuperao de desastres no data center. Mas vamos colocar a TI de lado por um momento. A teoria dos eventos "Cisne Negro" uma metfora que engloba o conceito de eventos surpresa que causam um grande impacto. Ela se refere a eventos inesperados de grandes magnitudes e consequncias e seus papis dominantes na histria. Tais eventos, considerados atpicos ao extremo, desempenham papis amplamente maiores do que as ocorrncias regulares. ou organizao pode se programar para os eventos negativos e, fazendo isso, fortalece sua capacidade de reagir, bem como de explorar os eventos positivos. Taleb afirma que as pessoas em geral e, especificamente, empresas so bastante vulnerveis aos perigosos eventos Cisne Negro e so expostas a altas perdas se no estiverem preparadas. Existe um paralelismo bvio entre a Teoria dos eventos Cisne Negro e a necessidade de preparao contra desastres para seus ativos essenciais de TI. A implantao da DR (Disaster Recovery, recuperao de desastres) automatizada a maneira de proteger a TI e a empresa contras eventos imprevisveis mesmo dos eventos Cisne Negro. Os captulos que se seguem explicam os conceitos bsicos da DR e a infraestrutura necessria. Eles tambm apresentam as realidades ocultas e prticas recomendadas de DR com dicas do mundo real.
O Cisne Negro, um livro escrito por Nassim Nicholas Taleb, explica que embora os eventos Cisne Negro sejam imprevisveis, uma pessoa
CAPTULO 1
Espere o inesperado
Esperamos que voc nunca precise ativar um plano de recuperao de desastres de TI. Nosso trabalho fornecer proteo automatizada se voc precisar.
O DATA CENTER SUA FORTALEZA. onde todos os componentes essenciais de TI (hardware, dados e software) residem. Voc o protege com as solues mais recentes prova de falhas e o torna confivel por meio de multiprocessamento redundante, plataformas altamente dimensionveis e redes pticas superrpidas. E ainda assim, ele no fica totalmente protegido contra as foras que esto alm do seu controle, como desastres naturais, eventos provocados pelo homem e procedimentos de segurana ou interrupo dos servios do parceiro em um site especfico. O tempo de inatividade e a perda de dados, mesmo que temporrios, podem ter impactos de longa durao nos negcios e contribuir para o fim do que poderia ser um negcio bem-sucedido: Perda de receita resultante da impossibilidade deseus clientes fazerem negcios com voc Diminuio da credibilidade no mercado e da confiana do cliente, gerando rotatividade Multas por SLAs violados com parceiros, fornecedores, distribuidores e franqueadores Custos pela recuperao e reparao de dados perdidos Custos legais para atender aos requisitos internos e externos de conformidade Como voc equilibra a equao entre risco e investimento da recuperao de desastres? O risco potencial maior do que o investimento? Vamos decompor esse risco para entender melhor: 43% das empresas que enfrentam desastres nunca reabriram, e 29% fecharam em dois anos.1 93% das empresas que perderam os respectivos data centers por 10 dias faliram no perodo de umano. 2 40% de todas as empresas que passam por um grande desastre sairo do mercado se no conseguirem ter acesso aos seus dados em at 24 horas. 3 CIOs e organizaes de TI devem considerar situaes nas quais operaes normais podem ser interrompidas e assim adotar/adaptar prticas e tecnologias que os permitam lidar com essa interrupo potencial proveniente de aes hostis e externas, bem como de falhas internas do sistema."
Top Predictions for IT Organizations and Users, 2011 and Beyond (Principais previses para organizaes de TI e usurios em 2011 e nos prximos anos)
Esses riscos so to altos quanto toda a sua empresa, e est em suas mos reduzi-los.
1 2 3
McGladrey and Pullen Administrao Nacional de Arquivos e Registros dos EUA Gartner, dezembro de 2009
"A DR a maneira usada pelo setor de TI para se preparar e combater os eventos Cisne Negro."
CAPTULO 2
3
Comece com uma base INTELIGENTE e VIRTUAL
Confivel g Repetvel g Recupervel
AT QUE AS SOLUES DE GERENCIAMENTO DE VIRTUALIZAO CONFIVEIS foram disponibilizadas vrios anos atrs, as solues de DR no atendiam totalmente aos requisitos de negcios devido aos seguintes fatores: Alto custo Complexidade Falta de confiabilidade Com as tradicionais solues manuais de DR, o alto custo veio com a necessidade de implantar um segundo site de failover com infraestrutura dedicada, licenas de software e equipe humana. A complexidade era alta, pois para garantir a recuperao de todos os servios de negcios, os planos de recuperao tinham que lidar com muitos componentes individuais e partes mveis: aplicativos, hosts, rede e armazenamento. A Falta de confiabilidade nesses procedimentos aumentou em consequncia da pouca automao e da inaptido de testar qualquer procedimento de recuperao. A certeza de muitas empresas de atender aos respectivos RPO (Recovery Point Objective, objetivo de ponto de recuperao) e RTO (Recovery Time Objective, objetivo de tempo de recuperao) era limitada no caso de um desastre. Os departamentos de TI hesitavam em expandir a proteo contra desastres, pois no tinham certeza se a qualidade da segurana valia realmente o que custava. A virtualizao fundamental e essencial para o sucesso do planejamento de DR. A virtualizao abstrai a complexidade de hardware e software, alm de permitir a padronizao de processos, tornando a tarefa de planejamento e automao dos procedimentos de recuperao muito mais confivel e suscetvel repetio.
Processo de recuperao fsica: 40 horas
Configurao Instalao Configurao Instalar o de hardware de SO do SO agente de backup
Processo de recuperao virtual: 4 horas
Incio da "recuperao automtica em um nica etapa"
Restaurao Ativao da VM da VM
Na verdade, em uma recente pesquisa da IDG, 70% dos clientes entrevistados melhoraram o processo de BC/ DR com a virtualizao.1 Uma infraestrutura virtual inteligente baseada em produtos VMware a base certa para a moderna soluo de DR. Altamente adaptvel e dimensionvel, ela otimizada para cargas de trabalho essenciais aos negcios com inteligncia integrada. A soluo de DR da VMware fornece: A maneira mais simples de replicar aplicativos em um site secundrio A maneira mais simples de configurar planos de recuperao e migrao Recuperao e migrao totalmente automatizadas e mais confiveis de sites
1
IDG Research, Benefits of Virtualizing Business Critical Applications (Benefcios de virtualizar aplicativos essenciais aos negcios), Maro de 2011
CAPTULO 2
continuao
DR econmica: com a rpida adoo da virtualizao e a evoluo da tecnologia de replicao, a DR est se tornando mais econmica. A virtualizao permite a consolidao da infraestrutura no site de failover. Opes mais baratas de replicao foram disponibilizadas mais amplamente, usando dispositivos de armazenamento menos sofisticados ou solues de software independentes. Com esses avanos, a DR pode proteger ativos de TI essenciais em grande escala, bem como sites menores e aplicativos de camada 2. DR automatizada: em ambientes virtuais, os usurios finais so poupados da complexidade de gerenciar cada etapa no processo de recuperao. Agora, uma soluo de DR pode executar e coordenar automaticamente todas as etapas necessrias para garantir o nvel desejado de proteo. Os manuais de administrao tradicionais no so mais "bons o suficiente" para gerenciar planos de recuperao e foram substitudos por planos de recuperao orientados por software.
A configurao de um plano de recuperao em um ambiente virtual to simples quanto selecionar RPOs eRTOs para cada servio de negcios. Recuperao e migrao confiveis de sites: com a virtualizao, as organizaes tm muito mais garantia de que podem atender aos respectivos RPOs e RTOs. A virtualizao permite que elas testem planos de recuperao frequentemente de uma maneira no interruptiva. Os processos manuais de recuperao foram substitudos pela recuperao automatizada, o que elimina o risco associado aos erros do usurio e garante a recuperao previsvel.
O grfico abaixo mostra como as organizaes com infraestruturas virtualizadas utilizam os recursos de DR juntamente com outros benefcios da virtualizao.
Como voc descreveria a utilizao dos seguintes recursos/funes de virtualizao pela sua organizao com mquinas virtuais baseadas no ambiente de produo? (Porcentagem de entrevistados, N=119)
Reinicializao automatizada de mquinas virtuais em caso de falha no hardware do servidor fsico Solues de backup e recuperao integradas plataforma de virtualizao Solues de recuperao do site das mquinas virtuais Migrao em tempo real de mquinas virtuais com base nas polticas de utilizao de CPU, memria e rede Migrao em tempo real de mquinas virtuais Migrao em tempo real do armazenamento associado a mquinas virtuais Implantao automatizada de servidores virtualizados com base nas polticas de utilizao de CPU, memria e rede Aplicao automatizada de polticas de ciclo de vida e recuperao de recursos de mquinas virtuais expiradas Atualmente, usamos este recurso/funo Implantao automatizada de mquinas virtuais com base polticas de consumo de energia No temosem planos de utilizar este recurso/funo
0 20
65% 60% 57% 54% 54% 51% 45% 39%

No sabe/No aplicvel
40
22% 24% 24% 31% 31% 34% 37% 35%
12% 14% 14% 11% 11% 11% 15% 21%
2% 3% 5% 4% 4% 3% 3% 5% 8%
100
Planejamos usar este recurso nos prximos 12/24 meses
35%
29%
60 80
28%
Fonte: White paper da ESG: Enterprise Strategy Group, 2011: Virtualization Management Critical to Achieving Scale and Efficiency (O gerenciamento da virtualizao essencial para a obteno de dimensionamento e eficincia)
CAPTULO 3
5
Mitos e verdades sobre a recuperao de desastres
A recuperao de desastres como uma aplice de seguro que voc pode testar sem ter um acidente.
MITO 1: a recuperao de desastres um recurso de luxo; cara e consome recursos. VERDADE: o VMware vCenter SRM (Site Recovery Manager) fornece a flexibilidade para definir cenrios de failover que atendem sua escolha de cobertura, velocidade e custo de recuperao. Por exemplo, embora um site de recuperao dedicado seja uma soluo robusta (e sim, mais cara), muitas vezes, suficiente ter uma abordagem bidirecional ativa na qual dois ou mais data centers sejam complementares, com capacidade suficiente para selecionar aplicativos essenciais. Portanto, nenhum recurso desperdiado e a continuidade de negcios mantida. Em geral, os clientes do SRM relatam consistentemente economias considerveis de dinheiro, recursos e tempo. Como isso feito na Challenger Limited A Challenger Limited gera contratos de anuidade e fornece produtos e servios de investimento. A organizao executa dois data centers colocalizados, oferecendo suporte a cerca de 500 equipes na Austrlia. Para atender aos requisitos de negcios de recuperao rpida e mnima perda de dados, a Challenger Limited implementou uma infraestrutura de cluster duplo da VMware que foi vinculada a dispositivos de armazenamento em rede em seus dois data centers colocalizados, a aproximadamente um tero do custo de um ambiente fsico de recuperao de desastre. O SRM permitiu que a organizao dispensasse a maioria das 50 fitas anteriormente usadas para o backup de dados, poupando a uma pessoa um dia por semana. Alm disso, a Challenger Limited automatizou centenas de etapas em seus processos de recuperao de desastres. Resultados para os negcios: Melhoria do RPO, de 24 horas para 90 minutos, e do RTO, de 24 horas para menos de quatro horas Reduo do nmero de pessoas necessrias (agora somente uma) para realizar a restaurao de sistemas Reduo de investimentos de capital para recuperao de desastres para um tero do custo de um ambiente fsico Eliminao da necessidade de adquirir 15 servidores fsicos em standby a um custo de US$200.000 MITO 2: o planejamento e o gerenciamento adequados de uma soluo de DR uma tarefa complexa que exige habilidades especiais e recursos caros. VERDADE: no com a VMware. A DR fsica pode ser complexa devido s infraestruturas em silo e sua duplicao, bem como aos problemas na sincronizao de configurao entre sites. A virtualizao encapsula servidores, sistema operacional e aplicativos, incluindo todos os dados de configurao, de modo que a complexidade consideravelmente reduzida. A virtualizao e a automao garantem que os planos de recuperao sejam simples, completos e possam ser executados de modo confivel pela equipe, sem a necessidade de habilidades especiais.
CAPTULO 3
Com o SRM, a configurao de um plano de recuperao automatizado fcil e pode ser feita em questo de minutos, e no em semanas, como exige a configurao de manuais de administrao. Como isso feito na Swedbank
continuao
A Swedbank uma das maiores instituies financeiras na Escandinvia e no Bltico, com 362 agncias na Sucia e 222 agncias na Estnia, Letnia e Litunia. O banco atende a 9,5 milhes de clientes privados e 534.000 clientes corporativos, com 18.000 funcionrios. Evitar a interrupo de servios essencial para a Swedbank. A Swedbank teve que atender aos objetivos de recuperao para seus aplicativos legados por meios tradicionais de backup e recuperao, que eram complexos e consumiam muito tempo. A Swedbank implantou o SRM para simplificar e automatizar o processo de recuperao, gerenciamento e teste dos planos de recuperao. Desde a implementao do SRM, a Swedbank testa seus recursos de DR pelo menos duas vezes por ano. Ela desliga um data center por completo, transferindo as cargas de trabalho para o data center ativo. Ela executa tudo no data center de backup por 24 horas e depois faz failover no data center original. Mart Nael, chefe de Infraestrutura de ncleo do grupo de TI da Swedbank declara "Nosso tempo de recuperao inferior a 30 minutos para cargas de trabalho essenciais e de menos de quatro horas para todo o data center". Resultados para os negcios: ROI positivo em um ano, resultado da conteno de custos com hardware Custos operacionais de TI reduzidos em 14%, anualmente 1.000 mquinas virtuais gerenciadas por dois funcionrios equivalentes a tempo integral Provisionamento de servidor 30 vezes mais rpido
O VMware Site Recovery Manager torna o gerenciamento e os testes dos nossos planos de recuperao to fceis quanto pressionar um boto."
KENNETH NEWBALL ADMINISTRADOR SNIOR DE RECUPERAO DE DESASTRES AHS-IS
MITO 3: Aps todo o planejamento, voc nunca sabese a recuperao ser bem-sucedida em um desastre real. VERDADE: um plano de recuperao no um plano completo sem testes. Na verdade, o plano de recuperao pode e deve ser testado com falhas suficientes, e testado novamente para garantir a validade. O SRM permite testes frequentes no interruptivos dos planos de recuperao. Como isso feito na Adventist Health System A AHS (Adventist Health System), uma organizao de assistncia mdica dos EUA, oferece suporte a 37 hospitais e casas de sade para aproximadamente quatro milhes de pacientes anualmente. O AHS-IS (AHS Information Services) atende a hospitais em nove Estados e emprega mais de 500 pessoas. Para garantir que o AHS-IS fornea uma excelente assistncia, a iniciativa "Misso Zero" visa fornecer os nveis mais altos de servio e mnimo tempo de inatividade para sistemas essenciais de assistncia mdica, como os aplicativos de registro mdico eletrnico e de grficos da Cerner. A adio do SRM sua infraestrutura da VMware permitiu que o AHS-IS simplificasse ainda mais as operaes automatizando o planejamento e os testes deDR. "O VMware SRM torna o gerenciamento e os testes dos nossos planos de recuperao to fceis
CAPTULO 3
7
quanto pressionar um boto. O fato de que podemos fazer testes quantas vezes desejarmos nos d um alto grau de confiana na capacidade de recuperao dos nossos sistemas", afirma Kenneth Newball, administrador snior de recuperao de desastres daAHS-IS.
continuao
"Alm dos nossos dez centros de desenvolvimento, tambm somos responsveis por garantir que os provedores em todo o Estado obtenham o suporte de que precisam para receber financiamento do governo federal", afirma Brian Brothers, gerente-administrador da rede. "Se nossos servios fossem interrompidos e no pudssemos garantir o reembolso dos fundos Medicaid, isso teria um severo impacto nos provedores e nas pessoas com deficincias de desenvolvimento a quem eles atendem. Alguns provedores teriam que fechar as portas. Na DODD, o SRM responsvel por uma ativao de DR confivel e verificvel que pode ser testada e auditada. A agncia testou sua soluo de recuperao de desastres duas vezes. O segundo teste envolveu 50 servidores de produo, cujos failovers foram bem-sucedidos no site remoto em aproximadamente 90 minutos. "Se algum dia enfrentarmos um desastre de verdade, nosso site de DR se tornar nosso site de produo. Esperamos estar com tudo funcionando em menos de duas horas", observa Kipp Bertke, gerente de TI da rea de Infraestrutura e operaes da Ohio Department of Developmental Disabilities. O site de recuperao de desastres da DODD no "inativo". Em vez disso, diariamente, o site de backup oferece suporte ativamente equipe de desenvolvimento de aplicativos. Resultados para os negcios: Um site de recuperao de desastres confivel que pode ser colocado em funcionamento em menos de duas horas Soluo de recuperao de desastres totalmente testada e ativa implementada para uma infraestrutura em nuvem gil e privada Sistemas on-line que fornecem servios de modo mais rpido e confivel
Resultados para os negcios: RTO reduzido em 75%, de 48 horas para menos de uma hora Eliminao do custo de transporte areo de uma equipe de sete pessoas para testar a DR remota Reduo de compras de hardware em 84,5%, de manuteno em 93,1% e de consumo de energia em 90%. MITO 4: a despesa com a DR um custo j incorrido, como um plano de proteo que provavelmente nunca ser usado. VERDADE: mesmo que o maior desastre nunca acontea, o plano de recuperao pode ser usado como um plano de migrao com etapas semelhantes, ajudando voc durante os tempos de inatividade planejados, como as migraes de site. Alm disso, o planejamento de DR ajuda a atender conformidade onde os planos de recuperao de desastres so exigidos. O resultado dos testes de recuperao provaa preparao contra desastres e a capacidade deatender aos RTOs. Como isso feito na Ohio Department of Developmental Disabilities A DODD (Ohio Department of Developmental Disabilities) executa um sistema de servios de suporte em todo o Estado para cerca de 80 mil pessoas com deficincias de desenvolvimento. Um desastre que causasse uma falha em todo o sistema teria um impacto humano bastante real.
CAPTULO 4
As dez principais prticas recomendadas da recuperao de desastres
Conforme apontadas pelos mais de 5.000 clientes do SRM da VMware 1. Virtualize. Ambientes virtuais so muito mais geis e 4. Defina metas executveis. A recuperao de
fceis de migrar. A virtualizao oculta a complexidade protegendo os componentes individuais e as partes mveis, simplificando assim o planejamento e o aumento da visibilidade no processo de DR. Ela tambm permite usar a replicao baseada em hypervisor, que muito mais flexvel e econmica que a replicao baseada em armazenamento. desastres automatizada pode ser bastante poderosa, mas no faz mgicas. Por exemplo, 100 mquinas virtuais contendo o Exchange, Oracle SQL e SAP no podem ter o failover executado nem podem ser iniciadas em 30 minutos. Defina seu RTO de modo realista. Para definir sua linha de base, faa um teste sob diferentes condies e veja o que consegue.
2. Automatize. No deixe que erros humanos se
coloquem no seu caminho. Use planos de recuperao automatizados, e no uma pilha de anotaes em um caderno. Com a automao adequada, um plano de recuperao pode ser executado em questo de minutos, e no em semanas. A automao poupa os usurios de terem que gerenciar muitas das etapas de recuperao e coordena automaticamente atividades, como pr-configurao de redes e mquinas virtuais, configurao da infraestrutura de recuperao e reinicializao de aplicativos.
5. Aja antecipadamente, se puder. Se voc possui
avisos, use-os! Aja antecipadamente para executar seu plano de DR totalmente testado antes que um desastre de verdade acontea, a fim de evitar um evento de DR completo. A confiana da TI um subproduto de um plano de DR bom e slido que foi testado. Tome como exemplos uma tempestade prevista, um possvel tsunami ou uma ameaa potencial de paralisao da rede.
6. Seja proativo ao se ver em risco. A maioria das
3. Verifique e teste. Teste seus planos de DR
frequentemente. Use testes no interruptivos de seus planos de recuperao e failback. Analise o relatrio detalhado com os resultados do teste, incluindo o RTO atingido. Com essas informaes, voc pode conseguir a garantia de que seu plano de proteo contra desastres atende aos objetivos da empresa. Ele tambm fornece o treinamento necessrio para a equipe e mostra todos os possveis problemas antecipadamente para que eles possam ser resolvidos.
paralisaes no causada por desastres reais, mas por procedimentos planejados que deram errado. Exemplos: upgrades de software ou rede, manuteno de dados, reparos de instalaes etc. Ao migrar antecipadamente os aplicativos essenciais, voc pode diminuir o risco e reduzir significativamente uma possibilidade de paralisao ou degradao de servio.
CAPTULO 4
7. Atribua responsabilidades. Atribua uma tarefa
continuao
especfica a todas as pessoas envolvidas no plano de DR. No espere que a equipe pertinente esteja sempre no site do desastre ou que ela esteja no controle imediatamente. Implemente a duplicao e a redundncia necessrias para pessoas, assim como faria com os computadores.
de recuperao de failback, configure a replicao inversa e saiba quanto acion-la. Defina o que considerar como o "fim" do desastre para que a empresa possa voltar ao normal.
9. Prepara-se para o failback. Crie e teste um plano
10. No jogue dinheiro fora com a DR. Utilize ativos
8. Mantenha os dados de recuperao atualizados

na medida do possvel. uma boa prtica preencher previamente o site de failover com os dados que no mudam com frequncia nem em grandes propores. Isso permitir que, no momento do failover, voc se concentre somente nos dados essenciais que mudam com frequncia e rapidamente, e tambm que voc atenda ao RTO com menos esforo.
de site de failover bsicos e baratos ou ainda o hardware readaptado que foi deixado de lado aps a virtualizao do seu data center principal. Considere sites de failover bidirecionais ou compartilhados, use mais softwares na nuvem (SaaS) e observe tambm os meios de DR no relacionados TI (UPS ou geradores de energia, reservas de combustvel, melhor proteo contra incndios etc.).
CONCLUSO
Um guia de incio rpido para recuperao de desastres
Ela pode ser feita. Ela deve ser feita. A VMware pode ajudar voc nessa tarefa.
Embora o data center seja essencial para sua capacidade de conduzir os negcios, os eventos que voc no pode controlar (ou mesmo aqueles no planejados) podem tornar os servios de TI indisponveis ou altamente limitados. Essa situao, embora seja rara, pode ser bastante prejudicial para a integridade da empresa, para sua credibilidade no mercado, bem como para a satisfao e lealdade dos clientes. Voc pode reduzir esse risco implementando uma soluo de DR para proteger os ativos essenciais de TI. Uma soluo de DR bem desenvolvida, criada em uma infraestrutura virtual inteligente, pode fornecer o RTO e RPO exigidos e, ao mesmo tempo, controlar os custos. Os planos de DR podem ser testados de maneira no interruptiva e beneficiar o departamento de TI em reas que vo alm das necessidades tpicas de TI. A infraestrutura de TI desempenha o papel mais crtico para a viabilidade e para o sucesso total de seus planos de DR. A infraestrutura virtualizada provou ser a plataforma mais confivel e econmica para DR, permitindo que voc abstraia as partes e os componentes mveis de seu data center, simplificando a arquitetura de replicao e exigindo menos recursos no geral. Ento como voc comea a jornada para proteger os ativos de TI? Use esta lista de incio rpido como guia: 1. Identifique seus aplicativos e dados mais importantes. Quais aplicativos geram receita diretamente, mantm a segurana ou so, de alguma forma, essenciais continuidade de negcios? Quais dados so absolutamente essenciais para os clientes? A contabilidade e as finanas internas ou a conformidade? 2. Se ainda no o fez, considere a virtualizao de seus principais aplicativos. Isso no apenas reduzir muito dos custos operacionais e de manuteno, removendo o custo operacional e a complexidade desnecessrios, mas tambm tornar seu ambiente mais adequado para um planejamento eficiente de DR. 3. Defina o RTO e o RPO pretendidos. Quais dados voc pode perder? Por quanto tempo? Quando voc deseja que seus aplicativos essenciais fiquem on-line novamente? Certifique-se de que suas metas sejam realistas. 4. Defina os disparadores para que a DR coloque todas as atividades planejadas em ao. Essa pode ser uma deciso de negcios baseada nos dados que voc est acessando, ou um evento tcnico que dispare automaticamente a DR. 5. Identifique quais opes de replicao, failover e failback de DR voc deseja implementar. A soluo resultante ser um comprometimento entre o nvel de proteo, velocidade de recuperao e custos. 6. Selecione o fornecedor da soluo. Fique atento aos vendedores que tentam vender hardware, sistema operacional ou outras opes limitadas especficas que no se ajustam adequadamente ao seu ambiente. Estude o nvel de experincia da sua equipe exigida para manter a soluo ou a quantidade de recursos que voc precisa alocar. Assegure-se de que pode testar a soluo sem esperar por um desastre de verdade. E, por fim, boa sorte. Esperamos que voc nunca enfrente um evento Cisne Negro e nunca precise usar a soluo de DR para se recuperar de um evento inesperado. Mas caso isso acontea, a VMware est aqui para garantir que voc esteja bem preparado. Para obter mais informaes sobre o VMware vCenter Site Recovery Manager ou sobre a verso de avaliao gratuita por 60 dias acesse o VMware SRM. Para obter detalhes e dicas sobre a implementao do SRM, bem como ideias sobre como fornecer proteo de dados, alta disponibilidade, continuidade de negcios e recuperao de desastres com a VMware, o convidamos a ler nosso blog.
10
APNDICE
11
Recuperao de desastres 101: Os conceitos bsicos
A RECUPERAO DE DESASTRES UMA PARTE ESSENCIAL da iniciativa de continuidade de negcios de uma empresa para garantir a disponibilidade dos processos de negcios integrais dependentes de TI e evitar qualquer efeito negativo de longo prazo das interrupes planejadas e no planejadas. A meta de DR restaurar servios essenciais de TI o mais rapidamente possvel e minimizar a interrupo nos negcios. Nada afeta mais a sua capacidade de recuperao do que a agilidade da TI e a infraestrutura de aplicativos. Assim como as medidas de proteo contra incndios devem ser tomadas em um edifcio antes que um incndio ocorra, e os itens de segurana de um carro so desenvolvidos para reduzir o impacto de uma batida, o design da infraestrutura de TI pode ser o sucesso ou o fracasso do seu programa de DR. INFRAESTRUTURA DE TI E APLICATIVOS A infraestrutura do data center contribui para a eficcia da soluo de DR. A infraestrutura pode tornar a DR bastante complexa, difcil de implementar e, s vezes, at mesmo impossvel; ou pode ajudar a tornar a TI confivel, verificvel e eficiente. A prxima seo explica como. Dois processos importantes para uma recuperao de desastres simples e confivel: FAILOVER O failover a capacidade de alternar para um servidor, sistema ou rede redundante ou em standby mediante a falha ou o desligamento de um ativo existente. O failover deve acontecer sem nenhum tipo de interveno humana nem aviso. FAILBACK O failback o processo de restaurar um sistema ou outro ativo que esteja em estado de failover de volta ao seu estado original. O failback eficaz retorna o sistema ao estado de operao em que ele estava antes da interrupo. Site principal Site de recuperao
Principais mtricas de planejamento e avaliao do sucesso dos procedimentos. RPO O RPO (Recovery Point Objective, objetivo de ponto de recuperao) o ponto no tempo no qual voc deve recuperar dados, conforme definido por sua organizao, geralmente chamado de "perda aceitvel" em uma situao de desastre. Ele permite que uma organizao defina uma janela de tempo antes de um desastre, quando os dados podem ser perdidos e so totalmente dependentes do tipo de replicao de dados usado. Quanto mais alta for a granularidade da replicao de dados, mais curto ser o RPO.
APNDICE
continuao
12
RTO Embora o RTO seja meramente uma mtrica tcnica, a deciso de acionar o failover comercial; e o RTO muitas vezes pode demorar mais do que a prpria DR. Seja ela iniciada por humanos ou por um disparador automtico, o tempo de espera para iniciar a DR tambm deve ser levado em considerao e includo no RTO. Na maioria das vezes, a replicao um elemento essencial de qualquer processo de DR, geralmente fornecida pela soluo de DR especfica que utilizada. REPLICAO No contexto de preparao para um failover, a replicao fornece redundncia intencionalmente arquitetada de seus recursos de TI: hardware, dados, software, rede ou todos eles juntos. Existem vrios fatores que determinam a intensidade e a quantidade de replicao necessria: tipos de servio a serem protegidos, importncia dos diferentes componentes, tecnologia e custo. CENRIOS DE RECUPERAO DE DESASTRE Vrios cenrios e tcnicas de DR esto disponveis para atender aos seus requisitos especficos e objetivos de custo. A arquitetura certa pode tornar os procedimentos de DR mais eficientes, econmicos e previsveis. Veja algumas configuraes normalmente usadas que voc pode escolher: Ativa/passiva: esse um cenrio de DR mais tradicional, onde um site de produo que executa aplicativos recuperado em um segundo site que fica ocioso at que o failover seja exigido. Nesse cenrio, voc est pagando por um site de DR que est ocioso na maior parte do tempo.
Ativa/ativa: use seu site de DR para cargas de trabalho no essenciais, quando voc no o estiver usando para DR. Configure-o para desligar ou suspender automaticamente o ambiente virtual como parte do processo de failover, de modo que seja possvel liberar com facilidade a capacidade de processamento para cargas de trabalho que esto sendo recuperadas. Bidirecional: fornea proteo de failover bidirecional para que seja possvel executar cargas de trabalho de produo ativa em ambos os sites e fazer failover em qualquer direo. A capacidade disponvel no outro site ser usada para executar os ambientes virtuais dos quais foi feito failover. Failover local: algumas cargas de trabalho precisam fazer failover dentro de um determinado "site" ou campus; por exemplo, quando ocorre uma falha de armazenamento ou quando a manuteno fora voc a transferir cargas de trabalho para outro laboratrio local. Sites de recuperao compartilhados: na implantao padro um para um, um nico data center protegido por um nico site de recuperao. Voc tambm pode optar por proteger vrios data centers usando um site de recuperao "compartilhado". Todos os sites protegidos ficam visveis e podem ser gerenciados nessa nica instncia da soluo de DR no site de recuperao compartilhado. Esse recurso ideal para empresas que tm vrios sites que precisam de proteo. Essa topologia pode ser implementada usando o recurso de site de recuperao compartilhado.
www.vmware.com/br

Recuperação de Desastres TI

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Recuperação de Desastres TI

Enviado por

Direitos autorais:

Formatos disponíveis

Um guia para modernizar a recuperao de desastres de TI

Processo de recuperao fsica: 40 horas

Configurao Instalao Configurao Instalar o de hardware de SO do SO agente de backup

Processo de recuperao virtual: 4 horas

Incio da "recuperao automtica em um nica etapa"

65% 60% 57% 54% 54% 51% 45% 39%

22% 24% 24% 31% 31% 34% 37% 35%

12% 14% 14% 11% 11% 11% 15% 21%

Planejamos usar este recurso nos prximos 12/24 meses

2. Automatize. No deixe que erros humanos se

5. Aja antecipadamente, se puder. Se voc possui

6. Seja proativo ao se ver em risco. A maioria das

3. Verifique e teste. Teste seus planos de DR

9. Prepara-se para o failback. Crie e teste um plano

10. No jogue dinheiro fora com a DR. Utilize ativos

8. Mantenha os dados de recuperao atualizados

Você também pode gostar