Escolar Documentos
Profissional Documentos
Cultura Documentos
2
5.3. Armazenamento e confiabilidade ............................................................................. 87
3
13.1. O que é o Amazon OpenSearch Service?.......................................................... 160
14.1. Serviços da AWS para Data Warehouse Moderno / Big Data (Parte 1)
......................................................................................................................................................... 168
14.2. Serviços da AWS para Data Warehouse Moderno / Big Data (Parte 2)
......................................................................................................................................................... 171
14.3. Serviços da AWS para Data Warehouse Moderno / Big Data (Parte 3)
......................................................................................................................................................... 176
4
1
Capítulo 1. AWS Data Platform
1.1. O que é uma plataforma de dados?
Dados
Apesar da palavra dados ser muito utilizada para se referir a
informações, estes dois conceitos possuem diferentes significados em TI.
Então, o que são dados?
Um dado pode ser uma letra, um número, uma palavra, bem como
conjuntos de números e vocábulos desorganizados, o qual não transmite
nenhuma informação ou conhecimento. Por exemplo, veja a tabela abaixo:
Informação
Quando os dados são estruturados, organizados, processados,
contextualizados ou interpretados, há a geração de informação.
6
Suponha-se que os dados expostos anteriormente sejam
organizados de modo a possuírem um significado concreto, como podemos
ver a seguir:
Conhecimento
O conhecimento é gerado através da habilidade em analisar as
informações encontradas. Em outras palavras, o conhecimento acontece
quando as informações são integradas e processadas, sendo que, através da
análise do todo, podem ser encontradas determinadas conclusões.
Por exemplo, qual a conclusão que pode ser tirada através da análise
das informações presentes na tabela anterior?
7
Pirâmide do conhecimento
A pirâmide do conhecimento é uma hierarquia de conceitos muito
utilizada na análise de dados.
Fonte: https://professorluizroberto.com.
Conceitos básicos
Uma plataforma de dados é um conjunto integrado de tecnologias
que atendem coletivamente às necessidades de dados de ponta a ponta de
uma organização. Permite a aquisição, armazenamento, preparação, entrega
e governança de seus dados, bem como uma camada de segurança para
usuários e aplicativos. É uma solução completa para ingerir, processar,
analisar e apresentar os dados gerados pelos sistemas, processos e
infraestruturas da organização digital moderna.
8
A Inteligência de Negócios combina análise de negócios, mineração
de dados, visualização de dados, ferramentas e infraestrutura de dados e
práticas recomendadas para ajudar as organizações a tomar mais decisões
orientadas por dados. Na prática, você sabe que tem inteligência de
negócios moderna quando tem uma visão abrangente dos dados de sua
organização e usa esses dados para impulsionar mudanças, eliminar
ineficiências e adaptar-se rapidamente às mudanças de mercado ou de
fornecimento.
Fonte: www.tableau.com.
9
Podemos concluir que as plataformas de dados são essenciais para
entender, governar e acessar os dados da sua organização. No final, tudo se
resume ao que você deseja fazer com seus dados e como deseja fazê-lo. Seja
para criar uma plataforma de dados do cliente ou uma plataforma de big
data, as plataformas de dados podem desbloquear o potencial e a receita
(valor) que seus dados estão ocultando.
10
Data Marts (DMs), que podem não funcionar juntos de forma eficaz e limitar
a capacidade de dimensionamento. Uma plataforma de dados integra as
capacidades dessas soluções e traz todos os dados em um só lugar, onde
podem ser protegidos, compartilhados e usados de forma mais eficaz.
11
Data Warehowse Data Mart
12
Um data warehouse tem grandes Um data mart tem dimensões
dimensões e integra dados de um menores e os dados são integrados a
grande número de fontes, o que partir de um número menor de
pode causar risco de falha. origens, portanto, há menos risco de
falha.
13
Por causa do crescimento extraordinário nesses três vetores,
qualquer plataforma de dados que possa acompanhar as demandas
organizacionais atuais, pode ser considerada uma plataforma de big data.
14
Plataformas de Dados em Nuvem (CDP)
É um termo genérico para plataformas de dados inteiramente
construídas com tecnologias de computação em nuvem e armazenamentos
de dados. Pode consistir em armazenamento de objetos, bancos de dados
NoSQL (bancos de dados não relacionais) e bancos de dados relacionais
gerenciados, Data Warehouses, clusters Spark, Notebooks Analytics, filas de
mensagens e Middleware que os unem. Podem abranger Plataformas de
Dados de Nuvem (CDP) e Plataformas de Dados Corporativos (EDP), por
exemplo, plataformas de Planejamento de Recursos Empresariais
(Enterprise Resource Planning – ERP), de gerenciamento de cadeia de
suprimento (Supply Chain Management), de Gestão de Relacionamento com
o Cliente (Customer Relationship Management – CRM) e de finanças.
15
de protocolos, plataformas, arquiteturas, ambientes e sistemas operacionais
não interfiram no processo.
16
1.4. Elementos e características das plataformas de dados modernas
Construir uma plataforma de dados moderna requer a adoção de
uma Arquitetura de Dados Moderna (Modern Data Architecture – MDA), que
especifica como os dados serão coletados, limpos, armazenados,
transformados, processados e disponibilizados aos consumidores.
Fonte: https://www.weka.io.
17
• Poder da nuvem híbrida.
• Análise de autoatendimento.
18
REST: princípios/regras/restrições que quando seguidas permitem a
criação de um projeto com interfaces bem definidas, para que as aplicações
se comuniquem (REpresentational State Transfer – Transferência de Estado
Representacional).
19
Metadados, ou Metainformação, são dados sobre outros dados. O
prefixo “Meta” vem do grego e significa “além de”. Assim, Metadados são
informações que acrescem aos dados e que têm como objetivo informar-nos
sobre eles para tornar mais fácil a sua organização.
Fonte: https://www.opservices.com.br.
20
recriados do zero, se necessário (IaC – Infrastructure as a Code, ou
Infraestrutura como código). O segundo tipo de automação garante que
pipelines de dados, espaços de trabalho, notebooks e funções sejam criados
a partir de um modelo padrão, sempre que integrar uma nova fonte de dados.
21
1.5. Como escolher a melhor plataforma de dados?
Você precisa ser capaz de trabalhar com quaisquer dados em sua
organização, independentemente da fonte, formato ou escala de tempo,
você deseja poder fazer qualquer pergunta e obter insights úteis e
aplicáveis.
• Local vs Nuvem.
• Escalabilidade.
• Flexibilidade.
• Usabilidade/amplitude.
• Segurança/conformidade.
• Inteligência/automação.
22
Flexibilidade: a flexibilidade é essencial. Atualmente, a plataforma
que está avaliando, pode atender a vários grupos e casos de uso? É
relativamente simples adicionar novas funções e casos de uso à plataforma?
Existe um ecossistema robusto de aplicativos e complementos que podem
suportar novas funções?
23
segurança) e da estratégia de dados (obter, armazenar, proteger, gerenciar,
analisar e compartilhar dados).
24
Dada a quantidade de soluções disponíveis no mercado, a escolha
por uma delas pode ser um desafio. Entretanto, vale lembrar que uma
plataforma de dados pode fazer uso de uma ou mais soluções. Se a
plataforma de dados que você está buscando atende aos requisitos
apresentados, muito provavelmente você está no caminho certo para fazer
a escolha e a aquisição da melhor solução aderente às necessidades do
negócio.
25
2
Capítulo 2. Serviços de armazenamento
2.1. Amazon Simple Storage Services (S3)
O que é o Amazon Simple Storage Services S3?
O Amazon Simple Storage Service (Amazon S3) é um serviço de
armazenamento de objetos que oferece escalabilidade, disponibilidade de
dados, segurança e performance. Clientes de todos os tamanhos e setores
podem usar o Amazon S3 para armazenar e proteger qualquer volume de
dados para uma variedade de casos de uso, como data lakes, sites,
aplicações móveis, backup e restauração, arquivamento, aplicações
corporativas, dispositivos IoT e análises de big data.
27
• Arquivamento de vários tipos de dados com o menor custo.
• Sites estáticos.
Fonte: https://docs.aws.amazon.com.
• S3 Intelligent-Tiering.
• S3 Standard.
28
• S3 Glacier Instant Retrieval.
• S3 Outposts.
S3 Intelligent-Tiering
Recomendada para o armazenamento de dados com padrões de
acesso desconhecidos, diferentes ou imprevisíveis. Projetada para otimizar
os custos de armazenamento ao mover automaticamente os dados para o
nível de acesso mais econômico, sem impacto na performance ou
sobrecarga operacional. Oferece economia de custo automático ao mover
dados em um nível granular de objeto entre níveis de acesso quando há
alteração nos padrões de acesso. Taxas de monitoramento e automação por
objeto são aplicáveis.
29
a movimentação automática. Objetos menores que 128 KB são sempre
armazenados no nível “acesso frequente”.
S3 Standard
É a classe de armazenamento padrão. Recomendada para o
armazenamento de dados acessados com frequência (mais de uma vez por
mês) com acesso de milissegundos (performance de acesso). Se você não
especificar a classe de armazenamento ao fazer upload de um objeto, o
Amazon S3 atribuirá a classe S3 Standard.
30
esses objetos (por GB), portanto, eles são mais adequados para dados
acessados com pouca frequência. Ideal para o armazenamento de backups,
dados mais antigos (dados históricos, dados expurgados).
31
à perda da zona de disponibilidade. Use se você puder recriar os dados em
caso de falha da zona de disponibilidade.
32
Fonte: https://docs.aws.amazon.com.
Segurança no Amazon S3
Faça uso do recurso de criptografia de dados (server-side
encryption). Implemente políticas de armazenamento. Imponha o uso de
criptografia de dados em trânsito (SSL). Considere utilizar soluções AWS
para proteger os dados (AWS Macie). Implemente um monitoramento
usando ferramentas de monitoramento da AWS (AWS CloudWatch). Habilite
o registro em log de acesso ao servidor do Amazon S3.
33
retém a atividade da conta relacionada às ações em sua infraestrutura AWS,
dando a você controle sobre armazenamento, análise e ações de correção.
34
• S3 Glacier Flexible Retrieval.
35
ou fizer a transição de um objeto para outra classe de armazenamento antes
do período mínimo de 90 dias, será cobrado pelos 90 dias. Durabilidade
projetada para 99,999999999% de resiliência de objetos em várias zonas de
disponibilidade.
36
São muito sutis as diferenças entre as três classes de
armazenamento S3 Glacier, onde, em alguns momentos, podemos observar
uma sobreposição de recursos e funcionalidades. Para a escolha mais
aderente às necessidades do negócio, considere avaliar a frequência com
que os dados precisam ser acessados, a duração mínima do armazenamento
e, principalmente, os custos com o armazenamento em si, os custos para as
taxas de recuperação e o tempo de recuperação.
37
2.3. Amazon Elastic Block Store
O que é o Amazon Elastic Block Store (EBS)?
É um serviço de armazenamento em blocos fácil de usar, escalável e
de alta performance. Projetado para oferecer volumes de armazenamento
(discos) para o Amazon Elastic Compute Cloud (Amazon EC2, servidores
virtuais na AWS). Volumes do EBS se comportam como dispositivos de bloco
brutos e não formatados. Você pode montar esses volumes como
dispositivos em suas instâncias.
Casos de uso
Recomendado para dados que devem ser rapidamente acessíveis e
requerem persistência no longo prazo. São especialmente adequados ao uso
como armazenamento principal para sistemas de arquivos, bancos de dados
ou para todas as aplicações que necessitem de atualizações granulares e
acesso ao armazenamento em nível de bloco bruto e não formatado.
38
Snapshot (instantâneo) é o registro estado de um sistema, aplicação
ou arquivos em um determinado ponto no tempo. Cria-se uma imagem (uma
fotografia – daí a origem do nome) do estado dos dados em um momento
específico, a fim de estabelecer um ponto de restauração caso haja algum
tipo de falha ou erro. Snapshots não são cópias de backup, são registros de
status de um dispositivo ou sistema em um determinado instante, com a
função de organizar a restauração em caso de falha.
39
Fonte: https://docs.aws.amazon.com.
• Baseados em SSD (Solid State Drive): SSD de uso geral (gp2 e gp3),
SSD de IOPS provisionados (io1 e io2).
40
transferência máxima por volume: 1,000 MB/s (gp3) e 250 MB/s
(gps2).
41
não IOPS. Ideais para cargas de trabalho (workloads) grandes,
sequenciais, cold data ou acesso infrequente aos dados. Ideal para
cenários nos quais o menor custo de armazenamento é importante.
Snapshot
É possível fazer “backup” dos dados nos volumes do Amazon EBS
para o Amazon S3 criando snapshots point-in-time. Snapshots são
“backups” incrementais, o que significa que somente os blocos no
dispositivo que tiverem mudado depois do snapshot mais recente serão
salvos. Minimiza o tempo necessário para criar o snapshot e economiza em
custos de armazenamento ao não duplicar os dados. Cada snapshot contém
todas as informações necessárias para restaurar seus dados, desde o
momento em que o snapshot foi tirado, até um volume novo do EBS.
Snapshots podem ser criptografados.
42
que mudaram após o Snap A ser tirado. Os outros 6 GiB de dados
inalterados, que já estão copiados e armazenados no Snap A, são
referenciados pelo Snap B, em vez de novamente copiados. Isso é
indicado pela seta tracejada.
43
Fonte: https://docs.aws.amazon.com.
Segurança
A segurança é uma responsabilidade compartilhada entre a AWS e
você.
44
Segue abaixo um diagrama que resume as responsabilidades da
nuvem e as responsabilidades na nuvem.
Fonte: https://aws.amazon.com.
45
automaticamente à medida que você adiciona e remove arquivos. O serviço
gerencia toda a infraestrutura de armazenamento de arquivos para você, de
modo a evitar a complexidade de implantar, corrigir e manter configurações
complexas de sistemas de arquivos.
46
• Modo padrão de desempenho de uso geral é ideal para casos de uso
sensíveis à latência, como ambientes de servidores web, sistemas de
gerenciamento de conteúdo, diretórios iniciais e serviços gerais de
arquivos.
47
disponibilidade de uma região da AWS. Em caso de falha na infraestrutura
de uma zona de disponibilidade, as aplicações, os dados, recursos ou
serviços continuarão disponíveis e acessíveis.
Fonte: https://docs.aws.amazon.com.
48
Figura 13 – Arquitetura de referência Amazon EFS.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
Backup
Há duas opções disponíveis para proteger seus dados ao fazer
backup dos seus sistemas de arquivos do EFS.
49
Amazon EFS. Projetado para simplificar a criação, migração,
restauração e exclusão de backups. Permite configurar e auditar os
recursos dos quais deseja fazer backup, automatizar a programação
de backup, definir políticas de retenção, gerar relatórios e monitorar
todas as atividades recentes de backup e restauração.
Segurança
A segurança é uma responsabilidade compartilhada entre a AWS e
você.
50
O Amazon Elastic Block Store (EFS), em resumo, são os volumes ou
discos que são usados pelas instâncias EC2 (Microsoft Windows não
suportado). São volumes ou discos utilizados para o armazenamento de
dados.
51
O FSx for Windows File Server fornece servidores de arquivos do
Microsoft Windows totalmente gerenciados, baseadas em um sistema
totalmente nativo de arquivos do Windows. Tem suporte nativo para
recursos do sistema de arquivos Windows e para o protocolo SMB (Server
Message Block) padrão do setor, para acessar o armazenamento de arquivos
em uma rede.
52
compartilhados rico em recursos, rápido e flexível, amplamente acessível em
instâncias de computação Linux, Windows e macOS executadas na AWS ou
no local.
Fonte: https://docs.aws.amazon.com.
53
Figura 16 – Arquitetura de referência Amazon FSx for Windows File Server
(Multi-AZ).
Fonte: https://docs.aws.amazon.com.
Figura 17 – Arquitetura de referência Amazon FSx for Windows File Server (duas
regiões AWS).
Fonte: https://docs.aws.amazon.com.
Backup
Além de replicar automaticamente os dados do sistema de arquivos
para garantir alta durabilidade, o Amazon FSx oferece algumas opções para
proteger ainda mais os dados armazenados em seus sistemas de arquivos.
Os backups nativos do Amazon FSx suportam suas necessidades de
retenção e conformidade de backup dentro do Amazon FSx. Os backups do
54
AWS Backup de seus sistemas de arquivos Amazon FSx fazem parte de uma
solução de backup centralizada e automatizada.
Segurança
A segurança é uma responsabilidade compartilhada entre a AWS e
você.
55
conformidade. Adicionalmente, fazer testes periódicos de recuperação de
dados.
56
Figura 18 – AWS Snowball.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
57
download. Ou você pode transferir de forma programática usando chamadas
da API REST do Amazon S3 com o adaptador do Amazon S3 para download,
para Snowball. O Snowball é seu próprio contêiner de envio e a tela muda
para mostrar o rótulo de remessa quando o Snowball está pronto para ser
enviado.
O AWS Snowmobile
O AWS Snowmobile é um serviço de transferência na escala de
exabytes, usado para movimentar quantidades de dados extremamente
grandes para a AWS. Você pode transferir até 100 PB por Snowmobile, um
contêiner de transporte reforçado com 45 pés de comprimento puxado por
um caminhão semirreboque. Depois de uma avaliação inicial, um
Snowmobile é transportado até o datacenter e configurado pelo pessoal da
AWS para que você possa acessá-lo como um destino de armazenamento na
rede.
58
dados, o Snowmobile será conduzido de volta à AWS, onde os dados serão
importados para o Amazon S3.
Fonte: https://docs.aws.amazon.com.
59
3
Capítulo 3. IaaS para bancos de dados
3.1. Conceitos básicos e cenários
Conceitos básicos e cenários
Todo aplicativo precisa de um local para armazenar dados de
usuários, dados de dispositivos ou dados do próprio aplicativo. Os bancos de
dados são importantes sistemas de back-end usados para armazenar,
gerenciar, atualizar e analisar dados para todos os tipos de aplicativos, desde
pequenos sistemas de back-office até aplicativos da Web móveis e de
consumo em escala global.
61
Figura 21 – Gestão dos itens de infraestrutura.
Fonte: https://wcs.zone.
Cenários
IaaS para bancos de dados podem ser implementados em ambientes
virtuais que possua uma ou mais instâncias EC2 na AWS, onde esteja
instalado um dos vários sistemas de gerenciamento de bancos de dados
disponíveis. É possível implementar ambientes redundantes, tolerantes às
falhas e com alta disponibilidade pelo uso de pelo menos duas ou mais
instâncias, EC2 com banco de dados, por exemplo, em cluster. O mesmo
62
pode ser feito pelo uso do recurso de replicação de dados entre duas ou mais
instâncias de bancos de dados.
63
continuidade dos negócios e a recuperação de desastres. Propicia mais
agilidade nas mudanças tecnológicas.
Desvantagens
Fonte: https://docs.aws.amazon.com.
64
fundamentais para o sucesso das organizações nesta jornada da
transformação digital.
65
4
Capítulo 4. Amazon RDS
4.1. O que é o Amazon RDS?
O Amazon Relational Database Service (Amazon RDS) é um serviço
que facilita a configuração, a operação e escalabilidade de um banco de
dados relacional na nuvem AWS. Ele fornece capacidade econômica e
redimensionável para um banco de dados relacional padrão do setor e
gerencia tarefas comuns de administração de banco de dados. É um serviço
de banco de dados gerenciado onde a AWS é responsável pela maioria das
tarefas de gerenciamento.
67
Failover em computação significa tolerância a falhas, disponibilidade
contínua e alta disponibilidade. Quando um sistema, servidor ou outro
componente de hardware ou software fica indisponível, um componente
secundário assume operações sem que haja interrupção nos serviços. Para
esta transferência de operações, quando um componente falha, dá-se o
nome de failover.
Fonte: https://docs.aws.amazon.com.
68
Figura 24 – Arquitetura de referência do Amazon RDS Multi-AZ com três
instâncias em espera (RDS Standby Replica) servindo tráfego de leitura.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
69
4.2. Instâncias de bancos de dados
Instâncias de bancos de dados
No Amazon RDS, é um ambiente de banco de dados isolado em
execução na nuvem. É o bloco de criação básico do Amazon RDS. Uma
instância de banco de dados pode conter vários bancos de dados criados por
usuários e pode ser acessada usando as mesmas ferramentas e aplicativos
do cliente que você usa para acessar uma instância de banco de dados
autônoma. São simples de serem criadas e modificadas com as ferramentas
da linha de comando da Amazon AWS, as operações da API do Amazon RDS
ou o AWS Management Console.
70
db1.123456789012.us-east-1.rds.amazonaws.com, onde 123456789012 é
o identificador fixo de uma região específica da conta. Ao criar uma instância
de banco de dados, alguns mecanismos de banco de dados exigem que um
nome de banco de dados seja especificado. O nome do banco de dados
depende do mecanismo do banco de dados.
71
Figura 26 – Exemplo de visualização das instâncias e dos bancos de dados do
Amazon RDS pelo uso da solução AWS Explorer.
72
ser suportada por todas as versões do MySQL e do PostgreSQL, e não ser
suportada para Oracle e SQL Server.
73
Figura 27 – Exemplos de configurações para os tipos de classes de instâncias
padrão do Amazon RDS.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
74
• Micro, small, medium, large, 2xlarge.
Fonte: https://docs.aws.amazon.com.
75
recomendações fornecem orientações de práticas recomendadas,
analisando a configuração, o uso e os dados de performance da instância de
banco de dados.
76
• Use a criptografia do Amazon RDS para proteger suas instâncias de
banco de dados e snapshots.
77
• Se o seu aplicativo cliente estiver armazenando em cache os dados
do sistema de nome de domínio (DNS – Domain Name System) de
suas instâncias de banco de dados, defina um valor de tempo de vida
(TTL – Time to Live) de menos de 30 segundos. O endereço IP de
uma instância de banco de dados pode mudar após um failover.
78
recuperar seu banco de dados em qualquer ponto no tempo durante o
período de retenção do backup.
79
o da janela de backup, ele continuará após a janela encerrar até que esteja
concluído. A janela de backup não pode se sobrepor à janela de manutenção
semanal para a instância do banco de dados.
Replicação
O Amazon RDS usa a funcionalidade de replicação integrada nos
mecanismos de banco de dados MariaDB, MySQL, Oracle, PostgreSQL e
Microsoft SQL Server para criar um tipo especial de instância de banco de
dados, chamada de réplica de leitura, a partir de uma instância de banco de
dados de origem. A instância de banco de dados de origem se torna a
instância de banco de dados primária. As atualizações feitas à instância de
banco de dados primária são copiadas de forma assíncrona na réplica de
leitura.
80
Figura 30 – Arquitetura de referência demonstrando o processo de replicação
dos dados do Amazon RDS entre zonas de disponibilidades de uma região da
AWS.
Fonte: https://docs.aws.amazon.com.
81
5
Capítulo 5. Amazon Aurora
5.1. O que é o Amazon Aurora?
O Amazon Aurora (Aurora) é um mecanismo de banco de dados
relacional gerenciado, compatível com o MySQL e o PostgreSQL, criado para
a nuvem, que combina performance e a disponibilidade de bancos de dados
empresariais tradicionais com a simplicidade e a economia de bancos de
dados de código aberto. Faz parte do serviço de banco de dados gerenciado
Amazon Relational Database Service (Amazon RDS).
83
pode aumentar até o tamanho máximo de 128 TB. O Aurora também
automatiza e padroniza a clusterização (criação, configuração e utilização
de clusters) e a replicação de bancos de dados que, normalmente, são os
aspectos mais desafiantes da configuração e da administração de bancos de
dados. Os backups são gerenciados pelo AWS Backup.
84
Figura 31 – Arquitetura de referência de ambiente altamente disponível com
Amazon Aurora.
Fonte: https://docs.aws.amazon.com.
85
• Otimizado para memória (Memory optimized).
Fonte: https://docs.aws.amazon.com.
86
Em resumo, há variação no número de núcleos, quantidade de
vCPUs, memória, tipo de armazenamento, largura de banda dedicada do EBS
(Mbps) e performance de rede (Gbps).
Fonte: https://docs.aws.amazon.com.
87
Como os dados são replicados automaticamente nas Zonas de
disponibilidade, seus dados são resilientes, havendo menos possibilidade de
perda de dados. Essa replicação também garante que o banco de dados
esteja disponível durante um failover. Ele faz isso porque as cópias de dados
já existem nas outras zonas de disponibilidade e continuam atendendo a
solicitações de dados para as instâncias de banco de dados no cluster de
banco de dados. A quantidade de replicação independe do número de
instâncias de banco de dados no cluster.
88
performance. Quando os dados do Aurora são removidos, o espaço alocado
para esses dados é liberado.
Confiabilidade
O Aurora foi projetado para ser confiável, durável e tolerante a falhas.
É possível arquitetar o cluster de banco de dados do Aurora para aumentar
a disponibilidade por meio de ações, como adicionar réplicas do Aurora e
instalá-las em zonas de disponibilidade diferentes. Além disso, o Aurora
inclui vários recursos automáticos que fazem dele uma solução de banco de
dados confiável.
89
Confiabilidade – Aquecimento de cache possível de recuperar
O Aurora “aquece” o cache do grupo de buffer quando um banco de
dados é iniciado após ter sido desligado ou reiniciado mediante uma falha.
Aurora pré-carrega o grupo de buffer com as páginas para consultas comuns
conhecidas, que são armazenadas em um cache de páginas na memória.
Isso gera um ganho de desempenho, eliminando a necessidade de “aquecer”
o grupo de buffer do uso normal do banco de dados.
90
regulares) em threads paralelos, de maneira que o banco de dados seja
aberto e fique disponível imediatamente após a falha.
91
atividades de API, monitoramento, validação de conformidade e isolamento
de rede. Adicionalmente, fazer testes periódicos de recuperação de dados.
92
Latência quer dizer a quantidade de atraso (o tempo) que uma
solicitação leva para ser transferida de um ponto para outro e é medida por
milissegundos (ms).
93
armazenamento na nuvem (endpoint de comunicação com o
armazenamento S3).
94
entanto, o serviço é restaurado normalmente em menos de 120 segundos e
muitas vezes em menos de 60 segundos. Para aumentar a disponibilidade
do seu cluster de banco de dados, é recomendado criar pelo menos uma ou
mais réplicas do Aurora em duas ou mais Zonas de disponibilidade
diferentes.
Fonte: https://docs.aws.amazon.com.
95
O Amazon Aurora é uma excelente solução de banco de dados
gerenciado, fácil de administrar, altamente escalável, disponível, tolerante
às falhas, rápido, confiável, seguro e com baixo custo em relação aos
ambientes tradicionais. Por possuir mecanismos de recuperação
automáticos, talvez seja um dos serviços do Amazon RDS mais resiliente na
AWS.
96
6
Capítulo 6. Amazon DynamoDB
6.1. O que é o Amazon DynamoDB
O Amazon DynamoDB é um serviço de banco de dados NoSQL
(chave-valor) totalmente gerenciado, que fornece uma performance rápida
e previsível com escalabilidade integrada. NoSQL é um termo usado para
descrever os sistemas de bancos de dados não relacionais altamente
disponíveis, dimensionáveis e otimizados para alta performance. Bancos de
dados NoSQL fornecem esquemas flexíveis para a criação de aplicativos
modernos.
Fonte: https://aws.amazon.com.
98
Bancos de dados NoSQL são amplamente reconhecidos por sua
facilidade de desenvolvimento, funcionalidade e desempenho em escala.
Você não precisa se preocupar com provisionamento, instalação e
configuração de hardware, replicação, correção de software nem
escalabilidade de cluster. Ao começar a trabalhar com o Amazon DynamoDB,
você encontrará muitas similaridades, mas também muitas diferenças. Se
você é um desenvolvedor de aplicativos, talvez tenha alguma experiência no
uso do sistema de gerenciamento de banco de dados relacional (RDBMS –
Relational Database Management System) e da linguagem de consulta
estruturada (SQL - Structured Query Language).
99
Figura 36 – Exemplo de uma tabela em um banco de dados NoSQL contendo
dados.
Fonte: https://aws.amazon.com.
100
Fonte: https://aws.amazon.com.
101
Figura 38 – Exemplo de comandos SQL para a criação de uma tabela em um
banco de dados relacional.
Fonte: https://docs.aws.amazon.com.
102
usar o AWS Management Console para monitorar a utilização de recursos e
as métricas de performance.
103
gerenciado, o DynamoDB permite que você transfira os encargos de
operação e escalabilidade de um banco de dados distribuído.
Fonte: https://pt.stackoverflow.com.
104
Figura 40 – Exemplo de uma arquitetura de referência de aplicação moderna
que faz uso do DynamoDB e outros serviços AWS.
Fonte: https://docs.aws.amazon.com.
105
em discos de estado sólido (SSDs) e automaticamente replicados entre
várias zonas de disponibilidade em uma região da AWS, o que oferece alta
durabilidade de dados e disponibilidade integradas.
Melhores práticas
As seguintes práticas recomendadas podem ajudar a antecipar e
evitar incidentes de segurança no Amazon DynamoDB:
106
• Se estiver usando criptografia, use o AWS CloudTrail para monitorar
e auditar o uso das chaves do KMS gerenciadas pela AWS.
107
7
Capítulo 7. Amazon DocumentDB
7.1. O que é o Amazon DocumentDB?
O Amazon DocumentDB é um serviço de banco de dados NoSQL
(chave-valor), rápido, confiável e totalmente gerenciado. O Amazon
DocumentDB facilita a configuração, a operação e a escalabilidade de
bancos de dados compatíveis com o MongoDB na nuvem. Com ele, é possível
executar o mesmo código de aplicativo e usar os mesmos drivers e
ferramentas usados com o MongoDB. Como um banco de dados de
documentos, o Amazon DocumentDB pode armazenar, consultar e indexar
dados em formato JSON (formato de arquivo padrão aberto).
109
Diferentes tipos de documentos podem ser armazenados no mesmo
banco de dados de documentos, atendendo, assim, ao requisito de
processamento de dados semelhantes em formatos diferentes. É possível
criar índices de campo único, compostos e de várias chaves para melhorar o
desempenho dos padrões de consulta. Os clientes podem usar o AWS
Database Migration Service (DMS) para migrar facilmente bancos de dados
não relacionais do MongoDB on-premises ou do Amazon Elastic Compute
Cloud (EC2) para o Amazon DocumentDB, sem praticamente nenhum tempo
de inatividade.
Uma instância pode conter vários bancos de dados que podem ser
criados e modificados pelo uso do AWS Management Console ou da AWS
CLI. A popularidade dos bancos de dados de documentos cresceu porque
eles permitem que você mantenha a persistência dos dados em um banco
de dados, usando o mesmo formato de modelo de documento usado no
código do aplicativo. Os bancos de dados de documentos fornecem APIs
poderosas e intuitivas para desenvolvimento flexível e ágil.
110
Figura 41 – Imagem de uma tabela do SQL Server (banco de dados relacional).
Fonte: http://www.macoratti.net.
Fonte: https://docs.aws.amazon.com.
111
desenvolvimento rápido, que é o ideal para soluções de Big Data em tempo
real.
112
O AWS Key Management Service (KMS) facilita a criação e o
gerenciamento de chaves criptográficas e o controle do seu uso em uma
ampla variedade de serviços da AWS e em seus aplicativos.
Fonte: https://docs.aws.amazon.com.
113
desenvolvedores possam tirar o melhor proveito e criar aplicações cada vez
mais modernas, rápidas e resilientes.
114
Amazon DocumentDB executa backup contínuo dos dados com retenção de
1 a 35 dias.
Melhores práticas
As diretrizes operacionais básicas a seguir devem ser seguidas por
todos ao trabalhar com o Amazon DocumentDB.
115
• Escolha uma configuração de preferência de leitura das aplicações
que maximize a escalabilidade de leitura.
116
O Amazon DocumentDB é uma solução muito prática para o
armazenamento de perfis de usuários online para gerar recomendações para
estes usuários. Outro caso de uso é para aplicações de big data em tempo
real. Ao usar bancos de dados de documentos, uma empresa pode
armazenar e gerenciar dados operacionais de qualquer origem e,
simultaneamente, alimentar os dados para o mecanismo de BI escolhido
para análise.
117
8
Capítulo 8. Amazon ElastiCache
8.1. O que é o Amazon ElastiCache?
O Amazon ElastiCache é um serviço da Web que facilita a
configuração, o gerenciamento e escalabilidade de um armazenamento de
dados distribuído em memória ou de um ambiente de cache na nuvem. É um
serviço totalmente gerenciado e fornece uma solução de armazenamento
em cache econômica, de alta performance (latência de microssegundos) e
escalável. Ajuda a remover a complexidade associada à implantação e ao
gerenciamento de um ambiente de cache distribuído.
Casos de uso
O AWS ElastiCache é particularmente ideal para casos de uso, como:
119
• Atualização e gerenciamento de tabelas de classificação na indústria
de jogos.
120
comparação com bancos de dados, cujos dados são, de modo geral,
completos e duráveis.
121
aplicativos, conjuntos de dados muito grandes devem ser acessados em
tempo real em clusters de máquinas que podem abranger centenas de nós.
Devido à velocidade do hardware subjacente, manipular esses dados em um
armazenamento baseado em disco é um gargalo significativo para esses
aplicativos.
Fonte: https://docs.aws.amazon.com.
122
Figura 45 – Arquitetura de referência do Amazon ElastiCache acessando dados
em um banco de dados relacional (Amazon RDS), em um banco de dados não
relacional (Amazon DynamoDB) e objetos no Amazon S3.
Fonte: https://docs.aws.amazon.com.
123
cache. Ao criar um cluster, especifique o mecanismo e a versão para que
todos os nós usem. A capacidade de computação e memória de uma
instância de um cluster é determinada de acordo com sua classe de
instância ou de nó.
Fonte: https://docs.aws.amazon.com.
124
Figura 47 – Arquitetura de referência de um cluster ElastiCache for Memcached.
Fonte: https://docs.aws.amazon.com.
125
Escolha o Redis, se:
• Você quer usar fluxos Redis, uma estrutura de dados de log que
permite aos produtores anexarem novos itens em tempo real.
• Você precisa dividir seus dados entre dois e 500 grupos de nós
(somente no modo de cluster).
126
Uma função hash é um algoritmo para criptografia que mapeia dados
de comprimento variável para dados de comprimento fixo. Ocorre uma
transformação do dado (como um arquivo, senha ou informações) em um
conjunto alfanumérico com comprimento fixo de caracteres. Os valores
retornados por uma função hash são chamados valores hash, códigos hash,
somas hash (hash sums), checksums ou simplesmente hashes. Funções
hash aceleram consultas a tabelas ou bancos de dados por meio da detecção
de registros duplicados em um arquivo grande. A criptografia hash é
utilizada para resumir dados, verificar integridade de arquivos e garantir a
segurança de senhas dentro de um servidor.
127
9
Capítulo 9. Amazon Keyspaces
9.1. O que é o Amazon Keyspaces?
O Amazon Keyspaces (for Apache Cassandra) é um serviço de banco
de dados compatível com Apache Cassandra, escalável, altamente
disponível e gerenciado. Com o Amazon Keyspaces, você não precisa
provisionar, corrigir ou gerenciar servidores e não precisa instalar, manter ou
operar software. É um produto sem servidor e você paga apenas pelos
recursos usados e o serviço dimensiona automaticamente a escala das
tabelas, para mais ou para menos, em resposta ao tráfego de aplicativos.
129
Com o Amazon Keyspaces, você pode executar suas cargas de
trabalho existentes do Cassandra na AWS usando o mesmo código de
aplicativo Cassandra e ferramentas de desenvolvedor que você usa hoje.
Fonte: https://docs.aws.amazon.com.
130
gerenciado. É um serviço que oferece desempenho em escala, segurança,
alta disponibilidade, proteção contra falhas e perda de dados.
131
Figura 49 – Diagrama de um cluster Apache Cassandra.
Fonte: https://docs.aws.amazon.com.
132
em que aprende mais sobre os padrões de tráfego da sua carga de trabalho,
ou se você espera ter uma grande intermitência de tráfego, como, por
exemplo, de um grande evento que você prevê que gerará muito tráfego de
tabela.
Fonte: https://docs.aws.amazon.com.
A forma como você modela seus dados para seu business case é
fundamental para alcançar o desempenho ideal do Amazon Keyspaces, uma
vez que um modelo de dados ruim pode prejudicar significativamente o
desempenho. A Recuperação Point-in-time (Point-In-Time Recovery – PITR)
ajuda a proteger as tabelas do Amazon Keyspaces contra operações
133
acidentais de gravação ou exclusão, fornecendo backups contínuos dos
dados da tabela com retenção de até 35 dias. Você pode restaurar uma
tabela do Amazon Keyspaces para um ponto no tempo usando a console ou
Cassandra Query Language (CQL).
134
10
Capítulo 10. Amazon Neptune
10.1. O que é o Amazon Neptune?
O Amazon Neptune é um serviço de banco de dados de grafos, rápido
e confiável, totalmente gerenciado, que facilita a criação e a execução de
aplicativos que trabalham com conjuntos de dados altamente conectados.
O núcleo do Neptune é um mecanismo de banco de dados de grafos com
projeto específico e alta performance. Esse mecanismo é otimizado para
armazenar bilhões de relacionamentos e consultar grafos com latência de
milissegundos.
136
predicados e também de arestas, e os vértices também são chamados de
nós. Nos chamados grafos de propriedades, vértices e arestas também
podem ter propriedades adicionais associadas a eles.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
137
Figura 53 – Exemplo de grafos.
Fonte: https://docs.aws.amazon.com.
• Grafos de conhecimento.
• Grafos de identidade.
• Grafos de fraude.
• Redes sociais.
• Instruções de condução.
• Logística.
• Pesquisa científica.
• Regras regulatórias.
138
10.2. Principais recursos e componentes
Principais recursos e componentes do Amazon Neptune
O Neptune é altamente disponível, com réplicas de leitura,
recuperação point-in-time, backup contínuo para o Amazon S3 e replicação
entre zonas de disponibilidade. Neptune fornece recursos de segurança de
dados, com suporte à criptografia em repouso e em trânsito. O Neptune é
totalmente gerenciado, portanto você não precisa mais se preocupar com
tarefas de gerenciamento de banco de dados, como provisionamento de
hardware, aplicação de patches no software, instalação, configuração ou
backups.
139
disponibilidade. Um volume de cluster consiste em cópias dos dados
em várias zonas de disponibilidade em uma única região da AWS.
Como os dados são replicados automaticamente nas zonas de
disponibilidade, eles são resilientes.
Fonte: https://docs.aws.amazon.com.
140
configuração ou backups. Você pode usar o Neptune para criar aplicativos
sofisticados, aplicativos de grafos interativos que podem consultar bilhões
de relacionamentos em milissegundos. O Neptune foi criado para oferecer
disponibilidade superior a 99,99%.
141
snapshot de banco de dados final manualmente, não poderá restaurar a
instância de banco de dados para seu estado final posteriormente. Os
snapshots manuais não são excluídos quando o cluster é excluído.
142
11
Capítulo 11. Amazon Quantum Ledger Database (QLDB)
11.1. O que é o Amazon Quantum Ledger Database (QLDB)?
O Quantum Ledger Database (QLDB) é um banco de dados NoSQL
(Semi-SQL e Semi-NoSQL) que fornece um log de transações imutável,
transparente e verificável criptograficamente pertencente a uma autoridade
central. Por ser um banco de dados NoSQL, ele tem a capacidade de
armazenar muitos dados semiestruturados usando um modelo de dados
orientado a documentos. Além disso, ele usa SQL como estrutura de dados
(tabelas e linhas) e uma linguagem chamada PartiQL.
144
Com o QLDB, o histórico de alterações em seus dados é imutável —
ele não pode ser alterado, atualizado ou excluído. Usando criptografia, você
pode verificar facilmente se não houve alterações não intencionais nos
dados do aplicativo. O QLDB usa um log transacional imutável, também
conhecido como diário. O diário é “append-only” (permite somente escrita
incremental) e é composto por um conjunto de blocos sequenciados e
encadeados por hash, que contêm seus dados confirmados.
Casos de uso:
Fonte: https://docs.aws.amazon.com.
145
Se você já está familiarizado com o blockchain, pode concluir por
definição que o QLDB está um pouco relacionado a ele. O QLDB oferece
todos os principais recursos de um banco de dados blockchain, incluindo
imutabilidade, transparência e log de transações criptograficamente
verificável. No entanto, há a diferença mais importante entre QLDB e o
blockchain: o QLDB é um legder centralizado, enquanto blockchain é um
ledger distribuído.
146
Figura 56 – Diagrama de apoio para a escolha do banco de dados.
Fonte: https://docs.aws.amazon.com.
147
altamente improvável de falha simultânea de armazenamento para várias
zonas de disponibilidade.
148
Segurança da nuvem: a AWS é responsável pela proteção da
infraestrutura que executa produtos da AWS na Nuvem AWS.
149
12
Capítulo 12. Amazon Timestream
12.1. O que é o Amazon Timestream?
O Amazon Timestream é um banco de dados de séries temporais
rápido, escalável, totalmente gerenciado e desenvolvido especificamente
para facilitar o armazenamento e a análise de trilhões de pontos de dados
de séries temporais por dia.
151
Casos de uso:
152
usando as configurações de análise de carimbo de data/hora padrão ou um
formato personalizado que você especifica, incluindo o fuso horário.
153
Figura 57 – Conceitos chaves do Amazon Timestream.
Fonte: https://docs.aws.amazon.com.
154
Figura 58 – Arquitetura de referência do Amazon Timestream.
Fonte: https://docs.aws.amazon.com.
155
Durabilidade: garante a durabilidade de seus dados ao replicar
automaticamente seus dados de memória e armazenamento magnético em
diferentes zonas de disponibilidade, em uma única região da AWS. Todos os
seus dados são gravados no disco antes de confirmar que sua solicitação de
gravação foi concluída.
156
Sempre criptografado: garante que seus dados de séries temporais
sejam sempre criptografados, seja em repouso ou em trânsito. O Amazon
Timestream também permite especificar uma chave gerenciada pelo cliente
(CMK) do AWS KMS para criptografar dados no armazenamento magnético.
157
Segurança para o Amazon Timestream
A segurança é uma responsabilidade compartilhada entre a AWS e
você, a saber:
158
13
Capítulo 13. Amazon OpenSearch Service
13.1. O que é o Amazon OpenSearch Service?
O Amazon OpenSearch Service, o sucessor do Amazon Elasticsearch
Service, é um serviço gerenciado que facilita a implantação, a operação e o
dimensionamento de clusters do OpenSearch na nuvem da AWS. O
OpenSearch é um conhecido mecanismo de pesquisa e análise com código
totalmente aberto para casos de uso, como monitoramento, análise de logs,
monitoramento de aplicações em tempo real e análise de fluxos de cliques.
O OpenSearch Service (AWS) oferece suporte ao OpenSearch (on-premises)
e ao antigo Elasticsearch OSS (on-premises, versão mais antiga).
160
seguintes serviços: CloudWatch, CloudTrail, Kinesis, S3, IAM, Lambda,
DynamoDB, QuickSight, entre outros.
Fonte: https://docs.aws.amazon.com.
Fonte: https://docs.aws.amazon.com.
161
1. Domínio do OpenSearch Service.
2. Servidor proxy.
3. Aplicações diversas.
162
ativamente, consulta com menos frequência e para os quais não precisa da
mesma performance, o UltraWarm oferece custos significativamente mais
baixos por GB de dados. Como os índices de alta atividade são somente
leitura, a menos que você os retorne ao armazenamento de atividade muito
alta, o UltraWarm é o mais adequado para dados imutáveis, como logs.
163
acesso a outros serviços da AWS. Você pode usar grupos de identidades e
grupos de usuários separadamente ou em conjunto.
164
comunicam de maneira assíncrona com os assinantes produzindo e
enviando mensagens para um tópico, que é um canal de comunicação e um
ponto de acesso lógico. Os clientes podem se inscrever no tópico SNS e
receber mensagens publicadas usando um tipo de endpoint compatível,
como Amazon Kinesis Data Firehose, AWS Lambda, HTTP, e-mail,
notificações push móveis e mensagens de texto móveis (SMS).
165
Figura 61 – Arquitetura de referência do Amazon OpenSearch.
Fonte: https://docs.aws.amazon.com.
166
14
Capítulo 14. Introdução à Data Analytics na AWS
14.1. Serviços da AWS para Data Warehouse Moderno / Big Data (parte 1)
AWS Glue, AWS Data Pipeline, Amazon Redshift e Amazon EMR
Introdução à Data Analytics na AWS
Devido ao grande volume de informações que as empresas
processam, é necessário recorrer a soluções analíticas para melhorar a
tomada de decisões. Os trabalhos em análise de dados estão aumentando,
pois, as organizações que usam dados tomam melhores decisões
operacionais e melhoram o gerenciamento de riscos, para alcançar um
crescimento lucrativo e sustentável.
168
A palavra fintech é uma abreviação para Financial Technology
(Tecnologia Financeira, em português). Ela é usada para se referir a startups
ou empresas que desenvolvem produtos financeiros totalmente digitais, nas
quais o uso da tecnologia é o principal diferencial em relação às empresas
tradicionais do setor.
169
Data Science é um termo abrangente para as técnicas utilizadas ao tentar
extrair insights de dados não estruturados e estruturados.
Fonte: https://docs.aws.amazon.com.
170
Figura 63 – Arquitetura de referência AWS – Data Lake.
Fonte: https://docs.aws.amazon.com.
14.2. Serviços da AWS para Data Warehouse Moderno / Big Data (Parte 2)
A AWS fornece uma ampla plataforma de serviços gerenciados para
ajudá-lo a criar, proteger e dimensionar aplicativos de big data de ponta a
ponta com rapidez e facilidade. Independentemente de seus aplicativos
exigirem streaming em tempo real ou processamento de dados em lote, a
AWS fornece a infraestrutura e as ferramentas para lidar com seu próximo
projeto de big data. Não há hardware para adquirir, nem infraestrutura para
manter e dimensionar, apenas o que você precisa para coletar, armazenar,
processar e analisar big data. A AWS tem um ecossistema de soluções
171
analíticas projetadas especificamente para lidar com essa quantidade
crescente de dados e fornecer insights sobre seus negócios.
AWS Glue
O AWS Glue é um serviço web de integração de dados (processo de
preparar e combinar os dados para análise) sem servidor, que facilita
descobrir, preparar e combinar dados para análise (ETL), machine learning e
desenvolvimento de aplicações. O AWS Glue oferece todos os recursos
necessários para a integração dos dados, e, assim, é possível começar a
analisar seus dados e usá-los em minutos, em vez de meses.
172
Figura 64 – Diagrama para exemplificar as etapas de ETL.
Fonte: https://www.astera.com.
Fonte: https://docs.aws.amazon.com.
173
Amazon Redshift
O Amazon Redshift é o data warehouse em nuvem da AWS. Com ele,
é simples e econômico analisar todos os dados com ferramentas SQL padrão
e as ferramentas de Business Intelligence (BI) existentes. Ele permite
realizar consultas analíticas complexas em terabytes ou petabytes de dados
estruturados e semiestruturados, usando a otimização sofisticada de
consultas, o armazenamento colunar em armazenamento de alta
performance e a execução de consultas maciçamente paralelas. A maioria
dos resultados é disponibilizada em segundos.
Fonte: https://docs.aws.amazon.com.
174
Amazon EMR
Amazon EMR é a plataforma de big data em nuvem líder do setor
para processar grandes quantidades de dados usando ferramentas de
código aberto (Apache Spark, Apache Hive, Apache HBase, Apache Flink,
Apache Hudi e Presto). Facilita a configuração, operação e escala de seus
ambientes de big data, automatizando tarefas demoradas como
provisionamento de capacidade e ajuste de clusters.
Fonte: https://docs.aws.amazon.com.
175
surgem e ficam desatualizadas muito rapidamente. Portanto, pode ser muito
difícil acompanhar o ritmo e escolher as ferramentas certas. A maioria das
soluções de arquitetura de big data usa várias ferramentas da AWS para
criar uma solução completa. Essa abordagem ajuda a atender aos rigorosos
requisitos de negócios da maneira mais otimizada em termos de custo,
desempenho e resiliência possível. O resultado é uma arquitetura de big
data flexível que pode ser dimensionada junto com seus negócios.
14.3. Serviços da AWS para Data Warehouse Moderno / Big Data (parte 3)
AWS Lake Formation, Amazon Kinesis, Amazon Managed Streaming for
Apache Kafka (Amazon MSK) e Amazon QuickSight
AWS Lake Formation
O AWS Lake Formation é um serviço que facilita a configuração de
um data lake seguro em questão de dias. O Data lake é um repositório
centralizado, selecionado e seguro, que armazena todos os seus dados,
tanto no formato original quanto preparados para análise. Ele permite que
você integre os silos de dados e combine diferentes tipos de análise para
obter insights e usá-los como orientação para tomar decisões de negócios
mais adequadas.
Fonte: https://docs.aws.amazon.com.
176
Amazon Kinesis
O Amazon Kinesis facilita a coleta, o processamento e a análise de
dados de transmissão em tempo real para que você possa obter insights
oportunos e responder rapidamente. O Amazon Kinesis oferece recursos
essenciais para processar dados de transmissão de forma econômica em
qualquer escala, além da flexibilidade para escolher as ferramentas mais
adequadas aos requisitos de sua aplicação. Com o Amazon Kinesis, você
pode ingerir dados em tempo real, como vídeo, áudio, logs de aplicações,
fluxos de cliques dos sites e dados de telemetria de IoT para machine
learning, análise e outras aplicações.
Fonte: https://docs.aws.amazon.com.
177
Amazon Managed Streaming for Apache Kafka (Amazon MSK)
É um serviço totalmente gerenciado que facilita a construção e a
execução de aplicações que usam o Apache Kafka para processar dados de
transmissão. O Apache Kafka é uma plataforma de código aberto para
construção de aplicações e pipelines de dados de transmissão em tempo
real. Com o Amazon MSK, você pode usar as APIs do Apache Kafka para
preencher data lakes, transmitir alterações de e para os bancos de dados, e
potencializar aplicações de análise e machine learning.
Fonte: https://docs.aws.amazon.com.
Amazon QuickSight
É um serviço de Business Intelligence (BI) na nuvem que é rápido e
facilita o fornecimento de insights a todas as pessoas de sua organização. O
QuickSight permite que você crie e publique painéis interativos
(dashboards) que podem ser acessados em navegadores ou dispositivos
móveis. Você pode incorporar painéis nas aplicações e fornecer aos clientes
análises avançadas por autoatendimento. O QuickSight escala facilmente
178
para dezenas de milhares de usuários sem nenhum software para instalar,
servidores para implantar nem infraestrutura para gerenciar.
Fonte: https://docs.aws.amazon.com.
179
15
Capítulo 15. Introdução à IA e Machine Learning na AWS
15.1. Introdução à IA e Machine Learning na AWS
Inteligência Artificial (IA) se refere amplamente a qualquer
comportamento semelhante ao humano, apresentado por uma máquina ou
sistema. Na forma mais básica da IA, os computadores são programados
para “imitar” o comportamento humano usando dados extensivos de
exemplos anteriores de comportamento similar. Eles podem variar desde
reconhecer diferenças entre um gato e um pássaro até realizar atividades
complexas em uma fábrica.
• Resolução de problemas.
• Visão e Robótica.
181
Em termos mais simples, a Inteligência Artificial (IA) refere-se a
sistemas ou máquinas que imitam a inteligência humana para executar
tarefas e podem se aprimorar iterativamente com base nas informações que
coletam. Exemplos: chatbots e o Watson (IBM).
Fonte: https://www.oracle.com.
182
incluem machine learning e aprendizado profundo. No entanto, existem
diferenças. Por exemplo, o machine learning é centrado na criação de
sistemas que aprendam ou melhorem seu desempenho com base nos dados
que eles consomem. É importante notar que, embora todo machine learning
seja IA, nem toda IA é machine learning.
183
O propósito dos avanços da Inteligência Artificial não é o de
substituir o ser humano. O objetivo é inverso a esse. A intenção é a de que o
homem atue junto à máquina, ganhando agilidade e escalabilidade. Assim,
podemos oferecer mais qualidade de vida e eficiência para a vida das
pessoas.
184
Referências
AHMED, Nemath. What’s A Data Platform Anyway? Towards Data Science,
[S. l.], 2021. Disponível em: https://towardsdatascience.com/whats-a-data-
platform-anyway-37773d9aef47. Acesso em: 14 mar. 2022.
AWS. Amazon Elastic Block Store (EBS). [S. l.], c2022. Disponível em:
https://aws.amazon.com/pt/ebs/?nc1=h_ls. Acesso em: 14 mar. 2022.
AWS. Amazon Relational Database Service (RDS). [S. l.], c2022. Disponível
em: https://aws.amazon.com/pt/rds/. Acesso em: 14 mar. 2022.
AWS. Bancos de dados na nuvem da AWS. Amazon Web Services, [S. l.],
c2022. Disponível em: https://aws.amazon.com/pt/products/databases/.
Acesso em: 14 mar. 2022.
185
AWS. Documentação do Amazon Machine Learning. [S. l.], c2022.
Disponível em https://docs.aws.amazon.com/pt_br/machine-learning/.
Acesso em: 14 mar. 2022.
BIG Data Analytics Options on AWS. Amazon Web Services, [S. l.], c2022.
Disponível em: https://docs.aws.amazon.com/pt_br/whitepapers/latest/big-
data-analytics-options/welcome.html. Acesso em: 14 mar. 2022.
DATA lake. Amazon Web Services, [S. l.], c2022. Disponível em:
https://docs.aws.amazon.com/pt_br/wellarchitected/latest/analytics-
lens/data-lake.html. Acesso em: 14 mar. 2022.
DATA lakes e análises na AWS. Amazon Web Services, [S. l.], c2022.
Disponível em: https://aws.amazon.com/pt/big-data/datalakes-and-
analytics/?nc=sn&loc=0. Acesso em: 14 mar. 2022.
MARKO, Kurt. Amazon FSx vs. EFS: Compare the AWS file services.
TechTarget, [S. l.], 2019. Disponível em:
186
https://searchaws.techtarget.com/tip/Amazon-FSx-vs-EFS-Compare-the-
AWS-file-services. Acesso em: 14 mar. 2022.
O QUE é inteligência artificial – IA? Oracle, [S. l.], c2022. Disponível em:
https://www.oracle.com/br/artificial-intelligence/what-is-ai/. Acesso em: 14
mar. 2022.
O QUE é o Amazon Aurora? Amazon Web Services, [S. l.], c2022. Disponível
em:
https://docs.aws.amazon.com/pt_br/AmazonRDS/latest/AuroraUserGuide/C
HAP_AuroraOverview.html. Acesso em: 14 mar. 2022.
O QUE é o Amazon ElastiCache for Redis? Amazon Web Services, [S. l.],
c2022. Disponível em:
https://docs.aws.amazon.com/pt_br/AmazonElastiCache/latest/red-
ug/WhatIs.html. Acesso em: 14 mar. 2022.
187
O QUE é o Amazon Keyspaces (para Apache Cassandra)? Amazon Web
Services, [S. l.], c2022. Disponível em:
https://docs.aws.amazon.com/pt_br/keyspaces/latest/devguide/what-is-
keyspaces.html. Acesso em: 14 mar. 2022.
O QUE é o Amazon Neptune? Amazon Web Services, [S. l.], c2022. Disponível
em:
https://docs.aws.amazon.com/pt_br/neptune/latest/userguide/intro.html.
Acesso em: 14 mar. 2022.
O QUE é o Amazon QLDB? Amazon Web Services, [S. l.], c2022. Disponível
em:
O QUE é o Amazon S3? Amazon Web Services, [S. l.], c2022. Disponível em:
https://docs.aws.amazon.com/pt_br/AmazonS3/latest/userguide/Welcome.
html
RECURSOS do Amazon RDS. Amazon Web Services, [S. l.], c2022. Disponível
em: https://aws.amazon.com/pt/rds/resources/. Acesso em: 14 mar. 2022.
RECURSOS do Amazon S3. Amazon Web Services, [S. l.], c2022. Disponível
em: https://aws.amazon.com/pt/s3/features/. Acesso em: 14 mar. 2022.
188
SIMBORG, Mark. What is a Data Platform? Volt Active Data, Bedford, MA,
2021. Disponível em: https://www.voltdb.com/blog/2021/04/what-is-a-data-
platform/. Acesso em: 14 mar. 2022.
WHAT is a Data Platform? Snowflake, San Mateo, CA, c2022. Disponível em:
https://www.snowflake.com/trending/data-platforms. Acesso em: 14 mar.
2022.
189