Você está na página 1de 7
Capacitacao profissional da equipe de manutencao e operacao de data center A maioria das interrupgées em data centers esta ligada ao erro humano. Por isso, 6 fundamental a qualificacao de profissionais para cumprir os objetivos de desempenho de longo prazo de um site. Um programa de treinamento abrangente pode garantir procedimentos de operagao e manutengao consistentes, sem prejudicar a disponibilidade da instalagao. Eduardo da Costa Sousa, engenheiro eletricista da Coordenacao de Gestao de Facilities - COGF da Dataprev maioria das interrupgdes em ata centers esta ligada a0 erro rumano. Por isso, é fundamental a quualificagio de profissionais qualificados para cumprir os objetivos de desempenho de longo prazo de um site. Um programa de treinamento abrangente pode garantir procedimentos de operacéo € manutengio consistentes, sem prejudicar a disponibilidade da instalasio. Data centers sio ambientes de missio critica, ow seja, abrigam cequipamentos e sistemas responsiveis pelo processamento e armazenamento de informagdes cruciais para a continuidade da operacio dos mais diversos tipos de negocios. Um data center & classificado, primordialmente, por suas caracteristicas de disponibilidade, confiabilidade e redundincia. Por se tratar de ambientes de missio critica, eles devem estar aptos a operat ininterruptamente [1] Devem contar com sistemas redundantes, eapazes de suprir a falta de seus sistemas principais em casos de falha ou parada por motivos conhecidos (manutengao preventiva ou testes programados) ‘ou desconhecidos (erros humanos ou falhas de operagio ou de equipamentos e sistemas). 'Na medida em que as atividades das empresas ¢ da sociedade passam a depender em escala crescente dos sistemas de informagio, as questdes de ddesempenho ¢ continuidade dos servigos de TI se tornam essenciais. Essa evolucio também se reflete no aumento continuo dos dispéndios com a infraestrutura fisica € operagies de TI dos data centers, 0 que coloca para os gestores sérios desafios de eficiéncia ¢ alocagio dos recursos [2] ‘Num ambiente de répida evolugio tecnolégica, 0 continuo aumento da dimensio e ‘complexidade da infraestrutura fisica impde requisitos de interoperabilidade ¢ escalabilidade importantes, visando garantir a disponibilidade do data center. Os data centers, plataformas de petréleo, navios ¢ avides podem parecer muito diferentes, mas todos sio sistemas robustos ¢ complexos sujeitos 2 grandes falhas. Eles tém varias camadas de protecdo, mas quando falham, é devido a muito mais do que um tinico elemento ou erro, No entanto, muitas vezes a culpa é atribuida apenas ao “erro humano”, nao mencionando a falta de procedimentos ¢ recursos adequados ou estruturas comprometidas que resultam de decises de gerenciamento precérias [3] INFRAESTRUTURA ure fans mecdnicae Faha de equipamenios de! Fana de grate S Fane dvida as condigoes ‘dmatcas Assim, nenhum investimento realizado na infraestrutura fisica de uum data center tera retomo se o fator humano for tratado sem a devida relevincia, com processos ¢ critérios mal definidos e documentados. Quanto mais preparada estiver a equipe de manutencio ¢ operagio do data center, menor seri o risco de indisponibilidade dos servigos de TI. ‘A melhor forma de evitar 0 mau uso da infraeserutura fisica de uma onganizagio e prevenir a ocorténcia GUIAS COM Fata de satoma UPS at ae Ee human de erros humanos é por meio dos processos de treinamento, capacitagio, conscientizagio € reciclagem das equipes envolvidas. Para garantir o nivel de disponibilidade exigido dos data centers atuais, todos os empregados e, onde pertinente, fornecedores ¢ prestadores de servigos, antes de iniciarem suas fungées, devem receber treinamento sobre comportamento em ambientes de missio critica [4] fae OMe VESTN eee EMPRETEC. Gee Lame] com clientes satisfeitos, Secon © Uptime Institute € mundialmente reconhecido pela criagio e administracio dos rigorosos Tier Standards & Certifications [5] [6], que permitem que data centers alcancem a disponibilidade méxima fenguanto atenuam o isco de ‘manutengio e operagio de suas instalagdes. Além disso, o Uptime Institute disponibiliza para os membros de sua rede o AIR - Abnormal Incident Reports. Trata-se de um banco de dados com informacdes sobre mais de 5000 incidentes ¢ erros ocorridos nas Ultimas duas décadas em data centers de todo 0 mundo [7 ‘A anilise do banco de dados do Uptime Insitute revela que a maior parte das interrupgées de data centers estd diretamente ligada a0 erro humano, 0 que inclu falhas do operador, mas, 0 mais importante, reflete decisdes de gestio em relacio a pessoal, formagio, manutengao € rigor geral da operacio. O mimero certo de profissionais qualificados & crucial para cumprir os objetivos de desempenko de longo prazo. Sem 0 mimero adequado de funcionérios qualificados, organizados corretamente, um data center no posst (8 recursos para ser bem-sucedido [8] # |JEAPRETEC. 5001 HH www.empre Depois de obter 0 pessoal correto, uma abordagem abrangente para manutencio do data center é uum requisito indispensdvel para cumprir o objetivo de tempo operante. Um programa de manutengio eficaz engloba um plano de manuten¢io preventiva, cada vez mais rigoroso, politicas de gestio do ambiente, sistema de gestio de manutengio para monitorar servicos ¢ acordos de nivel de servigo, além de um programa de treinamento abrangente. A medida que © objetivo de desempenho aumenta, 05 requisitos de documentacio, complexidade e detalhe para cada uum desses itens também aumentam. Nio obstante, como todo rio, 0s profissionais de data center tém necessidade de manter sua empregabilidade. Assim, as empresas de TI tém de oferecer instruments para os individuos gerirem suas carreiras e © autodesenvolvimento. [sso obriga os gestores de TH a se adaptarem a novas condigdes de relacionamento, uma vez que os profissionais de manutengio e operacio esto corporagio. O desenvolvimento profissional passa a ser mais do que © atendimento a necessidades de curto prazo, mas uma forma de manter o data center pronto para novos desafios. Diante do exposto, os data centers podem apresentar falhas complexas, stibito, inesperado, irreversivel e nio periédico que pode causar uma alteragio dristica e até a indisponibilidade de todo o sistema. Por serem ambientes de missio critica e com baixa tolerincia a0 risco, deve-se atentar para os requisitos de sustentabilidade operacional, visando garantir a disponibilidade por meio da formacio de uma equipe de manutengio e operagio de alto desempenho, capaz de identificar riscos e impulsionar a melhoria continua contra a exposicio a falhas complexas ¢ erros humanos. Desenvolvimento Avaliacao do cenério atual Conforme pesquisa realizada, com base em artigos e estudos de casos sobre o tema manutencio € operacdo de data centers, verficou-se que a maior parte das interrupgdes de sites std diretamente ligada a0 erro rumano, que inclui, além das fallas de operacio, decisdes equivocadas de .gestio em relacio a composicao da ‘equipe de manutengio e operagio de data centers. A quantidade correta de profissionais qualificados ¢ crucial para cumprir os objetivos de disponibilidade do site, pois sem uma equipe de alto desempenho, organizada corretamente, um data center no possui os recursos para ser bem-sucedido. Basicamente, o ero humano é identificado como a causa-raiz em 60% a 80% dos eventos de indisponibilidade em data centers [9] Falhas em sistemas ou componentes da infraestrutura fisica de um data center ainda merecem atencio, mas 0 rigorosos requisitos de projeto € construgio, bem como 0 adequado comissionamento das instalagdes, ‘operacio tranquila do site. Assim, considerando 0s rigorosos requisitos de redundincia e confiabilidade cexigidos pelo mercado, deve-se focar nas melhores priticas de manutengio ‘ocorréncia de erro humano e garantir a disponibilidade do data center. Existe uma grande quantidade de dados puiblicos disponiveis sobre as causas das interrupgSes e incidentes de data centers. Conforme pesquisa realizada pela Emerson (Vertiv) € representada pela figura 1, a maioria dos incidentes de data centers, aproximadamente 88%, € causada por falhas humanas e mecainicas {10}. Os dados da rede do Uptime Institute fornecem resultados semelhantes [11]. Isso significa que © treinamento e a qualificagio da equipe de manutengio e operagio desempenham um papel importante no gerenciamento das instalacdes de uum data center. De acordo com 0 Uptime Institute conforme demonstrado na figura 2, a formagio da equipe de manuten¢io e operagio (niimero apropriado de pessoal) é insuficiente em apenas 7% dos dat centers avaliados no mundo. No entanto, as qualificagdes desses profissionais sio insuficientes no dobro do miimero de sites © forma como o data center anizado é ainda mais ineficaz [12]. Embora esses jercentuais nio sejam levados, a composigio ¢ qualificagio da equipe de manutengio e operacio afetam todo o gerenciamento do data center. As deficiéncias de pessoal al atividades de manutencio, planejamento, coordenacio e gerenciamento de capacidade da infraestrutura fisica de um. Os resultados apresentados sio baseados no banco de dados do Uptime Institute. Trata-se de uma referéncia importante no mercado, pois conta com informagdes sobre mais de 5000 incidentes e erros covorridos nas tltimay duuas décadas ‘em data centers de todo © mundo, De acordo com o banco de dados do Uptime Institute os efeitos das deficigncias de pessoal aparecem mais frequentemente nas operagbes do data center. Conforme apresentado na figura 3, a causa-aiz de 39% dos incidentes de data centers refere-se a problemas operacionais [12]. As causas podem ser ee unmceiso ——Orpanzagn Fig. 2 - Percentual de data centers com problem: ‘organizacao). Adaptado pelo autor a partir da referéncia [12] atribuidas a0 erro humano decorrente diga, falta de conhecimento sobre da um sistema ou falta de procedim: adequado. A composicio da equipe de manutengio e operacio com pessoal correto e qualificado pode potencialmente impedir muitos desses tipos de incidentes. ee athe) OT Cee a eR cM ET Mel mua emer oe operacionais (pessoal, qualificacao © Conforme refletido na figura 4, que mostra o percentual de incidentes evitados em data centers, com base no banco de dados do Uptime Institute, 0 valor de ter pessoal qualificado no site € muito importante [12] Assim, a redundincia de cequipamentos € a categoria com maior relevincia individual, comespondendo a 384%. No entanto, a existencia de uma cequipe de manutengie adequada e a presenca de téenicos qualificados no loca, aque detectaram problemas antes de se tomarem incidentes, totalizaram 42% [12] Andlise critica dos dados coletados Moitas empresas estimam suas necessidades de pessoal para composigio da equipe de manutengio e operagio do data center com base em eritérios tipicos de gerenciamento de edificios comerciais. Em um ambiente de missio critica, como um dat subestimar suas necessidades de pessoal é um risco que leva & escassez de cobertura em casos de cemergéncia. As necessidades de pessoal devem ser baseadas no perfil de toletincia 20 risco € no orgamento da empresa. Assim, deve-se criar um cronograma que implante a forca de trabalho em uma configuragio ideal para execucio da manutengio dos componentes da infraestrutura fisica € para atuacdo em situagdes de ancia, visando garantir a idade do data center [13]. Da mesma forma, a retencio de profissionais qualificados € essencial Recrutar individuos talentosos com ‘conhecimentos técnicos ¢ especificos & extremamente desafiador. Os membros de uma equipe de manutengio e operagio de alto desempenho devem ser cuidadosamente selecionados, niio como operar ¢ manté-lo com seguranga, bem como 0 que fazer quando as coisas nio funcionam como esperado [15]. necessirio um programa de capacitacio que efetivamente fomeca ‘um treinamento adequado, visando aumentar 0 nivel de especializagio de todos os membros da equipe de manutenco ¢ operacio. + Nivel 1: Qualificagao para operagdes bisicas supervisionadas + Nivel 2: Qualificasio para operagées de rotina de manuten¢io + Nivel 3: Qualificagio para ‘operagdes avangadas de manutengio + Nivel 4: Conhecimentos especializados ‘A razio mais comum para existéncia de programas de treinamento ineficientes refere-se a0 Basicamente, uma empresa de data center deve estar preparada para fazer tum investimento significativo nas seguintes reas: + Pessoal: uma equipe de manuten¢io € operacao de alto desempenho deve ser composta por técnicos qualificados e profissionais com conhecimentos especializados em sistemas mecanicos, elétricos ¢ de controle. + Tieinamento: ¢ imperativo que se invista na capacitagio dos profissionais para manté-los trabalhando com 0 maximo de eficiéncia, + Sistemas de gerenciamento: um software de gerenciamento da infraestrutura fisica de data center (CIM, BMS, Scada, etc.), Fig. 3 - Causa-raiz de incidentes em data centers. ‘Adaptado pelo autor a partir da referéncia (12) apenas com a tradicional anilise curricular, mas também mediante avaliagio de suas habilidades técnicas, administrativas e de comunicagio. Todas essas habilidades io cruciais nas operagdes criticas das instalagdes. No entanto, identificar e selecionar pessoal qualificado sio apenas o primeiro passo [14] Depois de encontrar pessoas ‘qualificadas para contratar, é importante fornecer-thes ‘oportunidades adequadas de suporte, treinamento e desenvolvimento de careira, Criar um ambiente positivo melhora significativamente as taxas de retencio dos fancionaios. Uma equipe devidamente treinada entende como funciona toda a infraestratura de um data center, baixo ou nenhum investimento destinado para desenvolvimento desse tipo de programa na maioria das empresas. O que a maioria dos gerentes nio percebe, porém, & que 0 custo € 0 esforgo gastos no desenvolvimento de um programa de capacitagio adequado so mais do que compensados pelo menor custo de manutengio € maior tempo de disponibilidade do data center (16 Contribuigao para o mercado de data center Muitos gestores de data centers nio entendem 0 que é preciso para desenvolver um programa adequado para capacitagio da equipe de ‘manutengio e operacio. Fig. 4 - Percentual de incidentes evitados por categoria. ‘Adaptado pelo autor a partir da referéncia [12] corretamente implementado € mantido, pode, a0 longo do tempo, fomecer um valioso banco de dados de informagies para os procedimentos de manutencio e operagio. + Desenvolvimento de procedimentos padronizados: deverse documentar os procedimentos para todas as atividades criticas, visando garantir um desempenho consistente da equipe de manutengio € operagao do site + Processo de melhoria continua: deve-se aproveitar continuamente os pontos fortes de todos esses Componentes para obter os resultados esperados e estabelecer as melhores priticas Um programa de capacitagio acequado para equipes de manutengio © operacio de data centers deve cenvolver, no minimo, os seguintesitens: 1) Getenciamento de pessoal + Composigio da equipe: ‘quantitativo 2s. requisitos + Recrutamento: andlise curricular 2s qualificagio técnica * Contratagio e retencio + Progressio de carreira 2) Programa de treinamento + Cortificagio profissional + Testes € simulagdes + Sistemas de gerenciamento 3) Documentagio + Projeto conforme construido, + Banco de dados de ativos fisicos + Plano de manutencao preventiva + Cronograma de manutengio + Regras de trabalho + Seguranga do trabalho ¢ saiide ocupacional + Listas de verificagao de rotina 4) Procedimentos padronizados + Requisigées de mudanga + Instrugdes operacionais + Procedimentos de operayio padrio + Procedimentos de emergéncia 5) Plano de contingéncia + Plano de comunicagio + Plano de escalonamento, + Registro tratamento de incidentes + Ligées aprendidas 6) Gerenciamento da manutengio + Ordens de servico + Manutencio preventiva + Manutencio corretiva + Manutencio preditiva + Lista de sobressalentes 7) Gestao da infraestrutura + Gestio de energia + Gestio de ativos + Gestio da capacidade + Previsio de crescimento 8) Normas ¢ padrées Conclusées A disponibilidade de longo prazo de um data center nao é garantida somente pela complexidade, robustez ¢ redundincia de sua infraestrutura fisica, O comportamento da equipe de manutengio e operagio tem impacto sobre a capacidade de um data center de cumprir seus objetivos de tempo operante em longo prazo. Assim, 0 tempo operante de um data center a combinacio resultante da topologia da infraestrutura fisica e dos comportamentos da sua equipe de manutencio e operasao. A gestio de um data center compreende uma grande variedade de atividades, incluindo a manutencio de todos os equipamentos ¢ sistemas, 6 treinamento da equipe de manutengio e operacio, além do gerenciamento da capacidade da infraestrutura fsica (energia, climatizagio ¢ espaco). Essas atividades tgm um requisito em comum: a necessidade de profissionais qualificados. Portanto, a capacitacao dos profissionais, que atuam na manutengao € operagao, serve de ferramenta para ajudar os proprietirios a maximizarem 0 investimento na infraestrutura fisica do data center. Toma'se necessiria a formacio de uma equipe de alto desempenho com profissionais qualificados para gestio, manutengio € operacio do data center, visando garantir a sua disponibilidade por meio da sustentabilidade operacional do site. rT © iia ce (1) Mazin, Paulo Sergio. Data Centers Engenharia: Ifacraara Fisica, Sto Paulo: PM Books, 2016. [2] Vers, Manoel Datacenter: Componente Cental da Infacirature de T. Rio de Janciro: Braspor, 2008, [3] Kudsieek, |; Coming, A. Examining and Leaning fom Complex Sytem: Fires, Disponivel em: hits? ptimeinstitate.com/examining-and-learing-from- iss P. Ctr de Crago Digital ~ Cant 2 ¢ Manse. Rio de Janeiro: Editors Modema, 2008, [5] Data CenterSite Infastuctare Tier Standard Topology Uptume Institute, 2014, (6) Data CenterSite Infrastrutere Ter Standard: Operational Sustainability. Uptime Institute, 2014. [7] Van Loo, R. Fiere Doco’t Keep Business Hours: 247 Coverage Disponivel em: hteps//joumnal.uptimeinsttute.com/24x% coverage [8] Kirby, R. Sustaining Operational Effectiveness for the Long, ‘Term. Disponivel em: hrtps:/Aaptimeinstitute-com/research- publcatons/ssct/ustainingoperational-eflectvenesembitepaper [9] Boston, D. How to Mininize Human Emo, Peeent Data Center Dosmtine. Disponivel en: hep: facitesnet. com! clatacenters/atcle/How-to-Minimnize- Human-Error Prevent Data-Center-Dovmtine Facilites Management-Data-Centes- Feature 14223, [10] Cos of datacenter oxtages. Emerson Network, 2016. Disponivel em: hup://www.emersonnetworkpower.com/en= US/Resources/Market/Data-Center/Latest-Thinking/ Ponemon/ Pages/2016-Cost-of-Data-Center- Outages- Report. aspx. [11] Weckworth, J. Data Center Oxtages, Incidents, and Industry Transparency. Disponivel em: hitps:// journal. uptimeinstitute.com/data-center-outagesincidents: industry-transparency/. [12] Van Loo, R. Proper Data Center Safin is Key to Reliable Operations. Disponivel em: hups:// journal.uptimeinstiute.com/data-center-staffing/. Acesso em: 18/06/2017. [13] Wooley, B. Tip 10 Makes jn Data Cater Operations. Disponivel em: http://wwv-schneiderlectics/en/download/ document/APC_VAVR-SRNGFT_EN/. Acesso em: 18/06/2017, [14] Burgess, S. Top 14 Considerations for Addvesing Data Contr Facilities Management Risks. Disponivel em: https:// uptimeinstitute.com/top-considerationsforaddressing-data- centerfacilties- managementrisks. Acesso em: 18/06/20) [15] Davis, R. DateeDriven Approach to Reduces Failures Disponivel em: https://journal-uptimeinstitute.com/data- driven-approach-reduce-failures/. Acesso em: 18/06/2017. [16] Clark, J. Staffing Your Dara Center. Disponivel em: hetp:/! ‘www. datacenterioumal.comy/staffing-your-data-center/Acesso fem: 18/06/2017. EL s'¥ S:

Você também pode gostar