Você está na página 1de 2

- Armazenamento de dados:

1 - S3 > Utilizado para criação de DataLake/Bucket, pode-ser armazenar qualquer


tipo de arquivo/dados como csv por exemlo.

2- RDS > Utilizado para criar instancias de bancos de dados relacionais como por
exemplo PostgreSQL e Mysql, podendo ser acesso pelo DBaver posteiormente, idela
quando se quer inserir linhas e atualizar linhas.

3- Redshift > Utilizado com foco em análise de dados, muito otimizado para ler
dados com o comando SELECT, ideal para quando o objetivo é fazer muito mais SELECT
do que INSERT/UPDATE, funciona como um banco de dados relacional convencional, ele
trabalhao com clusters de escabilidade horizontal sendo possivel distribuir o
armazenamento/processamento em diversas márquinas, para escalar ele basta adicionar
varias máquinas pequenas ou poucas grandes, pode-se criar quantos clusters for
necessário, mas terá que pagar por isso, se atentar ao limite do cartão de crédito.

4- DynamoDB > É um banco de dados NoSQL,pode-se guardar documentos ou dados tipo


dicionário ou comumente conhecido como chave/valor, antes de salvar os dados em um
banco desse tipo, é importante saber como vamos fazer a query para extráir um bom
desenpenho.

- Ingestão, Processamento e Análise


0- EC2 > Serviço de servidor virtual, é possivel rodar diversos sistemas
operacionais, por exemplo um linux rodando na nuvem, é possivel subir uma máquina
virtual, nela podemos operar, por exemplo criar uma api que consulta nossos dados
na RDS e distribui para quem estiver a chamando, observação, não é ideal para
armazenar dados, ele é apenas uma camada para computação em nuvem, se a instancia
dele for finalizada todos os dados presentes lá serão perdidos. EC2 é apenas para
poder de computação com memória e cpu.

1- AWS Database Migration Service(DMS) > Utilizado copiar dados de um banco de


dados para outro, por exemplo para pegar um banco de dados postgres e jogar em um
DataLake na S3. Básicamente ele se conecta ao um banco de dados e replica os dados
para outro banco de dados em tempo real. Tudo é gerenciado automáticamente pelo
DMS.

2- AWS Lambda > Um dos serviços mais importantes e mais utilizados. Serviço de
computação sem necessáriamente ter um servidor, com Lambda é possivel executar um
código para praticamente qualquer tipo de aplicação back-end, não necessida de
administrador. Basta fazer upload do código como arquivo zip ou contêiner, e o
Lambda alocara os recursos de maneira autómática. Imagine um script que demora 30
segudos para executar, e deve ser executado todos os dias, nesse caso é necessário
criar um servidor remoto com EC2 por exemplo para essa execução acontecer, a Lambda
fará a execução e cobrará apenas por seu tempo de execução utilizado. Bastar
escrever um código python de ingestão de dados de uma API e adicionar um Trigger
com CloudWath Events para que o mesmo seja executado uma vez ao dia por exemplo.

3- Amazon EMR > Utilizado para executar processamento de BIG DATA, pode-se rodar
diversas ferramentas de código aberto como apache Spark, Hive e Presto. O EMR
facilita a configuração e o escalonamento desses ambientes, funciona como diversas
instancias EC2, mas todas elas gerenciadas automaticamente

4- AWS Glue Jobs > Funciona como a AWS Lambda, mas para BIG DATA com as diversas
ferramentas de código aberto como apache Spark, Hive e Presto. É um serviço de Big
Data sem servidor. Os valore são pago por tamanho de capacidade de máquina e tempo
de execução. Usado para fazer o ETL extração, transformação e carregamento. Subirá
um serviço sem necessáriamente ter um cluster(máquina virtual)
5- Kinesis Data Streams > Serviço que faz a ingestão de dados ou processamento de
dados em tempo real(Data Streams). Pode capturar continuamente gigabytes de dados
por segundo de centenas de milhares de origens como clickstreams de sites, streams
de eventos de banco de dados, transações financeiras, feeds de mídia social, logs
de TI e eventos de rastreamento de local. Os dados coletados são disponilizados em
milissegundos para possibilitar casos de uso de análise em tempo real, como painéis
em tempo real, detecção de anomalis em tempo real, definição de preço dinâmica e
outros.

6- Kinesis Data Firehose > Serviço para carregar de forma confiável dados de
streaming em data lakes na S3, datastores e serviços de análises. Ele pode
capturar, transformar e entregar dados de streaming para os serviços da Amazon S3,
Amazon Redshift e Amazon Elasticsearch. Também é possivel separar em lotes,
compactar, transformar e criptografar streams de dados antes de carregá-los, isso
minimiza o volume de armazenamento usado e aumenta a segurança.

7- Athena > Utilizado para fazer consultas SQL no S3, facilita a análise de dados
no S3. Não é necessário um servidor, não necessitá de infraestrutura, o valor
cobrado é apenas pela consulta executada, 5 dolares por terabyte.

8- SageMaker > Utilizado na ciencia de dados, preparar, criar, treinar e implantar


modelos de machine learning (ML) de alta qualidade rapidamente.

- Outros:

1- Amazon CloudWatch > Utilizado para monitar as aplicações, monitorar uso de cpu
do banco de dados, uso de memória de uma função lambda, salvar logos de funções
lambdas no CloudWatch, a partir desses logs mandar alertas de e-mails em caso de
erros por exemplo.

2- Amazom Cloudformation > Infraestrutura como código. Utilizado para uma coleção
de recursos AWS, ajuda a organizar as soluções criadas na núvem, é uma peça
fundamental para replicar configurações entre ambientes de desenvolvimento,
homologação e produção dos clientes, mas também pode ser utilizado para replicar
soluções reutilizáveis entre diversos clientes.

3- CLI > Abre um terminal que permite gerenciar serviços na AWS vi código, por
exemplo criar um bucket no S3.

4- Boto3 > Pacote Python que permite gerenciar serviços na AWS vi código, por
exemplo criar um bucket no S3.

Você também pode gostar