Data Warehouse Com Amazon

Construindo um Data Warehouse
moderno com Amazon Redshift
Claudia Charro
Arquiteta de Soluções
AWS
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
• Data Warehouse e Data Lake: Do modelo tradicional ao

moderno
• Como funciona o Amazon Redshift
• Casos de Clientes
Data Warehouse e Data Lake:
Do modelo tradicional ao moderno
Data Warehouse Tradicional
Dados relacionais
Business Intelligence
Terabytes a petabytes de escala
Schema definido antes da carga
Data Warehouse Relatórios Operacionais
Investimento inicial
OLTP ERP CRM LOB
Um Approach Melhor: Pesquise Todos os seus dados
Inclua todos os dados nas queries para melhorar os resultados
Data warehouse tradicional Data warehouse moderno
Analise o que é carregado Analise todos os dados no

no seu data warehouse seu
data warehouse e data lake
Evolução das plataformas tecnológicas de análise de
dados
Appliances de Clusters Clusters EMR Cloud DWH Clusterless
Data warehouse Hadoop desacoplados Redshift
1985 2006 2009 2012 Today

Athena Glue
Este modelo pode levar a “Dados Obscuros”
Volume de Dados Dados

All DataGerados
Analyzed Data
Dados Analisados
Dados
Obscuros não
disponíveis
para análise
1990 2000 2010 2020

Sources:
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Data Lakes Extendem o Approach Tradicional
Business
Intelligence
Machine
Learning
Dados relacionais e não-relacionais
Escala de Terabytes a exabytes

DW Big data
Interactive Real-time
Queries processing
Catalog Schema definido durante a análise
Vários engines analíticos para gerar insights

1001100001001010111
0010101011100101010
0001011111011010
0011110010110010110
0100011000010
Data warehouse Data lake
Desenhado para baixo custo de storage e análise
OLTP ERP CRM LOB Devices Web Sensors Social
Tradicionalmente, Analytics parecia-se com isso
Business Intelligence • Dados relacionais
• Escala de TBs–PBs
• Esquema on-write
• Relatórios operacionais e ad hoc

Data Warehouse
• Investimentos iniciais
OLTP ERP CRM LOB

Data Lake amplia a abordagem tradicional
Business Intelligence Big Data processing,

real-time, Machine Learning
• Dados relacionais e não-relacionais
• Escala de TBs–EBs
• Diversidade de engines de análise

Data Warehouse Data Lake
• Baixo custo de storage e processamento
OLTP ERP CRM LOB Devices Web Sensors Social

Armazene os dados em diversos formatos
CSV
ORC
Grok • Arquivos texto como CSV

Amazon S3
• Colunares como Apache Parquet e Apache ORC
Amazon Glacier
Avro • Logstash como Grok
AWS Glue
• JSON (simple, nested), AVRO
Parquet
• E mais…
JSON
Data lake com Amazon S3 e AWS Glue
Your data
Web app data AWS GLUE ETL
Amazon RDS
Other databases AMAZON

QUICKSIGHT
On premises data
Streaming data
Evolução e Modernização Gradativa
da Arquitetura
BI Clásico com processamento batch
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources
Amazon
QuickSight
ERP Sist1 ETL Banco Relacional

Solução de ETL Tradicional
Outros
Sistemas
Speed (Processamento em Real-time)

Evoluindo o cenário atual – Processamento Batch com EMR
sources
Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3
Sistemas
Ingestão
Apache Flume
Apache Sqoop Analistas de Dados
Data Warehouse
Amazon Redshift

Evolução – Novas capacidades analíticas para novos usuários (IA e ML)
sources
Amazon
QuickSight
ERP Sist1 AWS DMS
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Data Warehouse
Amazon Redshift

Cenário Futuro – Incluindo Processamento em Tempo Real com IA e ML
sources
Amazon
QuickSight
ERP Sist1 AWS DMS
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Web logs /
cookies Data Warehouse
Amazon Redshift
Captura de Processamento em
Eventos tempo real Plataformas de
Amazon Kinesis EMR Spark Streaming engajamento
Dispositivos Near-Zero Latency
conectados Amazon DynamoDB
Captura de Processamento Automação / Eventos

Eventos de eventos
Apache Kafka AWS Lambda Amazon AI Real-time Dashboards
Midias sociais
Services Amazon ElasticSearch
Como funciona o Amazon Redshift
Amazon Redshift
Rápido Simples Custo-benefício
$
Entrega resultados rápidos Crie e comece a usar um Sem custos custos iniciais,
para todos os tipos de data warehouse em minutos começe pequeno, e pague o
workloads que utilizar
Escalável Integrado Seguro
Gigabytes a petabytes, Integrado com data lakes no Audite tudo, criptografe os

a exabytes Amazon S3, serviços AWS, e dados de ponta a ponta,
ferramentas de terceiros certificação e compliance
extensivo
Redshift Spectrum
Extenda o data warehouse para o seu data lake no Amazon S3
Escale computação e storage separadamente

Redshift Spectrum
query engine Cruze dados entre o Amazon Redshift e Amazon S3
Amazon Redshift SQL pesquisa exabytes de dados

no Amazon S3
Amazon Amazon S3
Redshift data data lake Formatos: Parquet, ORC, Grok, Avro, & CSV
Pague somente de acordo com a quantidade de

dados processados
Query
Arquitetura do SELECT COUNT(*)

FROM S3.EXT_TABLE
GROUP BY …
Amazon Redshift JDBC/ODBC
Amazon
Redshift
Amazon
...
Redshift Spectrum
1 2 3 4 N
Computação com
escalabilidade horizontal
AWS Glue
Amazon S3 Catálogo de
Storage de objetos Dados
em escala de
Exabytes
Amazon Redshift está disponível Globalmente
Ireland
Frankfurt
London
US East – N Virginia
US East – Ohio
US West – Oregon Beijing
US West – N California Mumbai
AWS GovCloud (US) Sao Paulo Seoul
Canada – Central, Montreal Singapore
Sydney
Tokyo
Parceiros Selecionados Amazon Redshift
Data Integration Business Intelligence Systems Integrators
Aceleração para Queries rápidas
Via Expressa para Queries rápidas
Como funciona:
• Machine learning prevê o
tempo de execução das
Analytics e
BI / Ferramentas e queries
Dashboards
Amazon
Redshift Machine Learning • Queries rápidas são roteadas
Classifier para uma fila expressa
• Recursos dinamicamente
dedicados para servir um
burst de queries curtas
Caching de Resultados
Queries repetidas em menos de 1 segundo
Como funciona:
1 Queries vão para o nó lider
Analytics and
BI / Dashboard tools
Se o cache contém o resultado da
2
query, o valor é retornado
Amazon
Redshift
Result Se o resultado não está no cache, ele
3
RESULTS CACHE
é então executado, e o resultado é

QUERY_ID RESULT
QUERY_ID RESULT cache
cacheado
Caching libera recursos no cluster, melhorando
a performance de todas as queries
Ingestão de Arquivos Parquet e ORC (Novo)
• Parquet • TXT
• Avro • ORC
• Json • CSV
Algumas dicas para trabalhar com Spectrum
1. Use Amazon Redshift Spectrum para melhorar workloads “scan-

intensive” e com muita concorrência.
2. Use múltiplos clusters on-demand do Amazon Redshift clusters

para escalar concorrência.
3. Use arquivos Apache Parquet para melhor performance e menor

custo.
Casos de Clientes
Amazon.com tem a visão de ser
a empresa com mais foco no
cliente do mundo, em que
pessoas podem encontrar o
que quiserem e comprar online
Challenge:
Carregar alto volume de e
queries/extrações todos os dias
(Amazon.com, Amazon Prime, Amazon
Music, Amazon Alexa, Amazon Video,
and Twitch).
Solution:
• Data lake no S3
• Usa Redshift para análises baseadas
em SQL por usuários de negócio,
EMR e Machine Learning
Amazon.com Data Lake e Analytics
• DynamoDB capturando
todas as transações da
Amazon.com
• Dados do DynamoDB, RDS

DynamoDB QuickSight
PostgreSQL e Kinesis
alimentam o data lake no
Catálogo
Redshift S3
PostgreSQL S3 AWS Glue Athena • Glue usado como catálogo

de meta dados
EMR
Machine • Redshift usado para queries

Kinesis Learning baseadas em SQL e EMR
para machine learning e
processamento big data
• Usuários usam QuickSight

para visualizações
Líder mundial na área de automação bancária
e comércio conectado. Atuam na área de
online fraud detection.
Desafio:
Recebem informações de diversos canais e
instituções (mobile, desktop, ATM).
Informações são correlacionadas para gerar
um score de risco em menos de 1 segundo.
Solução:
• Redshift
• Data Lake no S3.
Caso público:
https://aws.amazon.com/pt/solutions/case-
studies/diebold-gas/
Vídeo “This is my architecture”:

https://www.youtube.com/watch?v=7HXTEewn
5bE
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Diebold Nixdorf
Amazon Amazon Kinesis Amazon Amazon

EC2 Analytics Redshift* EC2
Mongo DB
API
ETL
S3 bucket Amazon
EMR Transformação
Amazon Kinesis Parquet
Firehose
Machine
Learning
S3 bucket
Amazon
EMR
https://www.youtube.com/watch?v=7HXTEewn5bE
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Comece com o Amazon Redshift
Mais informações:
https://aws.amazon.com/redshift/
Experimente o Amazon Redshift:

https://aws.amazon.com/redshift/free-trial/
Amazon
Redshift Leia os blog posts sobre o Amazon Redshift:
https://aws.amazon.com/redshift/blog-posts/
Obrigada!

Data Warehouse Com Amazon

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Warehouse Com Amazon

Enviado por

Direitos autorais:

Formatos disponíveis

Construindo um Data Warehouse

moderno com Amazon Redshift

• Data Warehouse e Data Lake: Do modelo tradicional ao

Terabytes a petabytes de escala

Schema definido antes da carga

Data Warehouse Relatórios Operacionais

OLTP ERP CRM LOB

Data warehouse tradicional Data warehouse moderno

Analise o que é carregado Analise todos os dados no

1985 2006 2009 2012 Today

Volume de Dados Dados

1990 2000 2010 2020

Escala de Terabytes a exabytes

Catalog Schema definido durante a análise

Vários engines analíticos para gerar insights

Data warehouse Data lake

Desenhado para baixo custo de storage e análise

OLTP ERP CRM LOB Devices Web Sensors Social

Business Intelligence • Dados relacionais

• Relatórios operacionais e ad hoc

OLTP ERP CRM LOB

Business Intelligence Big Data processing,

• Dados relacionais e não-relacionais

• Diversidade de engines de análise

OLTP ERP CRM LOB Devices Web Sensors Social

Grok • Arquivos texto como CSV

Web app data AWS GLUE ETL

Other databases AMAZON

ERP Sist1 ETL Banco Relacional

Speed (Processamento em Real-time)

Speed (Processamento em Real-time)

Speed (Processamento em Real-time)

Captura de Processamento Automação / Eventos

Escalável Integrado Seguro

Gigabytes a petabytes, Integrado com data lakes no Audite tudo, criptografe os

Escale computação e storage separadamente

Amazon Redshift SQL pesquisa exabytes de dados

Pague somente de acordo com a quantidade de

Arquitetura do SELECT COUNT(*)

é então executado, e o resultado é

QUERY_ID RESULT cache

1. Use Amazon Redshift Spectrum para melhorar workloads “scan-

2. Use múltiplos clusters on-demand do Amazon Redshift clusters

3. Use arquivos Apache Parquet para melhor performance e menor

• Dados do DynamoDB, RDS

PostgreSQL S3 AWS Glue Athena • Glue usado como catálogo

Machine • Redshift usado para queries

• Usuários usam QuickSight

Vídeo “This is my architecture”:

Amazon Amazon Kinesis Amazon Amazon

Experimente o Amazon Redshift:

Você também pode gostar