Escolar Documentos
Profissional Documentos
Cultura Documentos
Claudia Charro
Arquiteta de Soluções
AWS
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Warehouse e Data Lake:
Do modelo tradicional ao moderno
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Warehouse Tradicional
Dados relacionais
Business Intelligence
Investimento inicial
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Um Approach Melhor: Pesquise Todos os seus dados
Inclua todos os dados nas queries para melhorar os resultados
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lakes Extendem o Approach Tradicional
Business
Intelligence
Machine
Learning
Dados relacionais e não-relacionais
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tradicionalmente, Analytics parecia-se com isso
• Escala de TBs–PBs
• Esquema on-write
• Escala de TBs–EBs
CSV
ORC
JSON
Data lake com Amazon S3 e AWS Glue
Your data
Amazon RDS
On premises data
Streaming data
Evolução e Modernização Gradativa
da Arquitetura
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
BI Clásico com processamento batch
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources
Amazon
QuickSight
Outros
Sistemas
Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3
Sistemas
Ingestão
Apache Flume
Apache Sqoop Analistas de Dados
Data Warehouse
Amazon Redshift
Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Apache Sqoop Analistas de Dados
Data Warehouse
Amazon Redshift
Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Apache Sqoop Analistas de Dados
Web logs /
cookies Data Warehouse
Amazon Redshift
Captura de Processamento em
Eventos tempo real Plataformas de
Amazon Kinesis EMR Spark Streaming engajamento
Dispositivos Near-Zero Latency
conectados Amazon DynamoDB
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift
Rápido Simples Custo-benefício
$
Entrega resultados rápidos Crie e comece a usar um Sem custos custos iniciais,
para todos os tipos de data warehouse em minutos começe pequeno, e pague o
workloads que utilizar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Query
Amazon
...
Redshift Spectrum
1 2 3 4 N
Computação com
escalabilidade horizontal
AWS Glue
Amazon S3 Catálogo de
Storage de objetos Dados
em escala de
Exabytes
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift está disponível Globalmente
Ireland
Frankfurt
London
US East – N Virginia
US East – Ohio
US West – Oregon Beijing
US West – N California Mumbai
AWS GovCloud (US) Sao Paulo Seoul
Canada – Central, Montreal Singapore
Sydney
Tokyo
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Parceiros Selecionados Amazon Redshift
Data Integration Business Intelligence Systems Integrators
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Aceleração para Queries rápidas
Via Expressa para Queries rápidas
Como funciona:
• Machine learning prevê o
tempo de execução das
Analytics e
BI / Ferramentas e queries
Dashboards
Amazon
Redshift Machine Learning • Queries rápidas são roteadas
Classifier para uma fila expressa
• Recursos dinamicamente
dedicados para servir um
burst de queries curtas
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Caching de Resultados
Queries repetidas em menos de 1 segundo
Como funciona:
1 Queries vão para o nó lider
Analytics and
BI / Dashboard tools
Se o cache contém o resultado da
2
query, o valor é retornado
Amazon
Redshift
Result Se o resultado não está no cache, ele
3
RESULTS CACHE
cacheado
Caching libera recursos no cluster, melhorando
a performance de todas as queries
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Ingestão de Arquivos Parquet e ORC (Novo)
• Parquet • TXT
• Avro • ORC
• Json • CSV
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Algumas dicas para trabalhar com Spectrum
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Casos de Clientes
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon.com tem a visão de ser
a empresa com mais foco no
cliente do mundo, em que
pessoas podem encontrar o
que quiserem e comprar online
Challenge:
Carregar alto volume de e
queries/extrações todos os dias
(Amazon.com, Amazon Prime, Amazon
Music, Amazon Alexa, Amazon Video,
and Twitch).
Solution:
• Data lake no S3
• Usa Redshift para análises baseadas
em SQL por usuários de negócio,
EMR e Machine Learning
Amazon.com Data Lake e Analytics
• DynamoDB capturando
todas as transações da
Amazon.com
Desafio:
Recebem informações de diversos canais e
instituções (mobile, desktop, ATM).
Informações são correlacionadas para gerar
um score de risco em menos de 1 segundo.
Solução:
• Redshift
• Data Lake no S3.
Caso público:
https://aws.amazon.com/pt/solutions/case-
studies/diebold-gas/
S3 bucket Amazon
EMR Transformação
Amazon Kinesis Parquet
Firehose
Machine
Learning
S3 bucket
Amazon
EMR
https://www.youtube.com/watch?v=7HXTEewn5bE
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Comece com o Amazon Redshift
Mais informações:
https://aws.amazon.com/redshift/
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Obrigada!
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.