Escolar Documentos
Profissional Documentos
Cultura Documentos
Antonio Muniz
2022
Fundamentos de Engenharia da Confiabilidade
Antonio Muniz
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
2
Sumário
Referências…………… ........................................................................................................25
3
Capítulo 1. Pilares das práticas SRE
O artigo de 2016 do Google destaca que as práticas SRE e DevOps “não são dois
métodos concorrentes para desenvolvimento e operações de software, mas sim amigos
íntimos projetados para quebrar as barreiras organizacionais e oferecer um software
melhor mais rapidamente.”
4
• Padronização e automação são dois componentes importantes do modelo de
SRE. Os engenheiros de confiabilidade de sites devem sempre procurar uma
maneira de aprimorar e automatizar as tarefas operacionais.
5
• O SLI é uma métrica definida sobre aspectos específicos dos níveis de serviços
oferecidos. Os principais indicadores incluem latência de solicitação,
disponibilidade, taxa de erro e capacidade do sistema. Um SLO é baseado no
intervalo ou valor desejado para um nível de serviço com base no SLI.
6
só pode gastar no máximo 50% do tempo trabalhando nas operações. O tempo
deve ser monitorado para assegurar que essa porcentagem não seja
ultrapassada.
DevOps x SRE
Existe uma grande dúvida sobre a diferença entre DevOps e SRE. Segundo a Red
Hat, a metodologia DevOps é uma abordagem de cultura, automação e design de
plataforma que tem como objetivo agregar mais valor aos negócios e aumentar a
capacidade de resposta às mudanças por meio de entregas de serviços rápidas e de alta
7
qualidade. A SRE pode ser considerada uma forma de implementar a metodologia
DevOps:
8
• As plataformas de aplicações modernas baseadas em tecnologia de containers,
Kubernetes e microsserviços são essenciais para as práticas de DevOps, pois
ajudam a entregar serviços de software seguros e inovadores.
1. Observabilidade
o Engenharia do Caos.
https://www.linkedin.com/video/live/urn:li:ugcPost:6851479131322929152/.
9
3. Incidentes e causa raiz
‒ AIOps, MLOps.
‒ Otimizar utilização;
10
Capítulo 2. Por que SRE é mandatório para a transformação digital?
1. TSB Bank
11
2. Welsh NHS
3. Meltdown e Spectre
12
4. WannaCry
5. Cloudbleed
6. Bitcoin Unlimited
7. British Airways
Pela sexta vez em um ano, a British Airways enfrentou uma enorme falha global
de TI que levou a companhia aérea a cancelar todos os voos de Heathrow e Gatwick, em
maio de 2017.
13
A falha de TI afetou mais de mil voos, além do Call Center, do site e do aplicativo
para dispositivos móveis. De acordo com a União GMB, a falha poderia ter sido evitada
se a empresa não tivesse demitido centenas de seus funcionários de TI em 2016.
8. Nest
A Nest disse que a falha foi causada por uma atualização de firmware, além de
problemas como filtros de ar antigos ou caldeiras incompatíveis. Desde então, lançou
uma atualização de software 4.0.1, que diz ter resolvido o problema para 99,5% dos
clientes afetados.
9. HSBC
10. Glitch
14
sentença de um preso, dependendo do bom ou mau comportamento, tenha tido um
erro. A ferramenta foi introduzida em 2002. Estima-se que, em média, os prisioneiros
foram libertados com 49 dias de antecedência.
15
Essa nova abordagem justifica-se porque temos clientes cada vez mais
exigentes. Aliás, nós também queremos serviços melhores e confiáveis, conforme a
tabela abaixo:
16
Capítulo 3. Relação do SRE e DevOps com Business Agility
17
trazer resultado para o negócio. No final o que você tem é apenas um time
ágil, mas não a organização.
• Vamos alinhar algo: a agilidade foi criada para gerar mais resultado para o
negócio, e isso, em alguns momentos, acredito que o mercado esqueça.
• Ah, sem contar que isso que falei acima é somente na TI, os outros setores da
organização nem sabem o que é ágil, ou seja, você tem um Silo Ágil, parabéns.
• A TI fala que está organizada, que é ágil, mas que o PO ou clientes não
conseguem entender o que eles fazem e ficam tentando atrapalhar a sprint,
neste caso está claro que não há um alinhamento sobre o objetivo estratégico
que estão buscando, concluindo que o cliente não foi envolvido no
planejamento.
• Então vem a grande pergunta: como fazer com que uma organização alcance
agilidade em todos os níveis, não somente na TI?
18
• Estou falando de Business Agility, ou, Agilidade Organizacional.
19
Existe uma ligação direta entre agilidade e SRE desde os primórdios do
Manifesto Ágil. A figura abaixo destaca a evolução do movimento ágil, para que fique
claro como dependemos de SRE para escalar essas práticas para toda a organização.
20
• 2ª Onda – Em 2007/10 o mercado entendeu que houve uma ampliação das
necessidades de agilidade em vários times, que estavam criando o mesmo
produto ou atuando de forma integrada e com dependências. Foi onde surgiu
a visão da escala de agilidade e apareceram os primeiros frameworks para
escalar o ágil, SAFe, Nexus, Kanban (sim, também escala muito bem), Less etc.
Dentre as práticas do Business Agility que tem relação direta com SRE, destaco
abaixo os pilares que precisam ser trabalhados conjuntamente nessas duas iniciativas
nas organizações:
21
Fonte: Muniz et al., 2021
As práticas SRE também são indicadas pelo Gartner, uma das maiores
referências em tendências para tecnologia e gestão. Existem diversos relatórios do
Gartner relacionando SRE com agilidade e destaco na figura abaixo a importância da
cultura colaborativa e automação.
22
Fonte: Gartner Inc, 2017
23
Confira no site abaixo como a mudança de estrutura do modelo tradicional para
a cultura SRE depende de lideranças inspiradoras que acreditem no poder da autonomia
com times que equilibrem liberdade com responsabilidade:
https://www.liderproexpert.com.br/webnario.
24
Referências
BUSINESS Agility: agilidade em toda organização. Sambatech, Nova Lima, 11 jan. 2021.
Disponível em: https://sambatech.com/blog/enredos-da-samba/business-agility/.
Acesso em: 24 jan. 2022.
INTRODUÇÃO às aplicações nativas em nuvem. Red Hat, 20 jun. 2018. Disponível em:
https://www.redhat.com/pt-br/topics/cloud-native-apps. Acesso em: 24 jan. 2022.
O QUE é SRE (engenharia de confiabilidade de sites)?. Red Hat, 4 mai. 2020. Disponível
em: https://www.redhat.com/pt-br/topics/devops/what-is-sre. Acesso em: 24 jan.
2022.
25