Você está na página 1de 34

Construindo um Data Warehouse

moderno com Amazon Redshift

Claudia Charro
Arquiteta de Soluções
AWS

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda

• Data Warehouse e Data Lake: Do modelo tradicional ao


moderno
• Como funciona o Amazon Redshift
• Casos de Clientes

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Warehouse e Data Lake:
Do modelo tradicional ao moderno

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Warehouse Tradicional

Dados relacionais
Business Intelligence

Terabytes a petabytes de escala

Schema definido antes da carga

Data Warehouse Relatórios Operacionais

Investimento inicial

OLTP ERP CRM LOB

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Um Approach Melhor: Pesquise Todos os seus dados
Inclua todos os dados nas queries para melhorar os resultados

Data warehouse tradicional Data warehouse moderno

Analise o que é carregado Analise todos os dados no


no seu data warehouse seu
data warehouse e data lake
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Evolução das plataformas tecnológicas de análise de
dados
Appliances de Clusters Clusters EMR Cloud DWH Clusterless
Data warehouse Hadoop desacoplados Redshift

1985 2006 2009 2012 Today


Athena Glue
Este modelo pode levar a “Dados Obscuros”

Volume de Dados Dados


All DataGerados
Analyzed Data
Dados Analisados
Dados
Obscuros não
disponíveis
para análise

1990 2000 2010 2020


Sources:
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lakes Extendem o Approach Tradicional

Business
Intelligence
Machine
Learning
Dados relacionais e não-relacionais

Escala de Terabytes a exabytes


DW Big data
Interactive Real-time
Queries processing

Catalog Schema definido durante a análise

Vários engines analíticos para gerar insights


1001100001001010111
0010101011100101010
0001011111011010
0011110010110010110
0100011000010

Data warehouse Data lake

Desenhado para baixo custo de storage e análise

OLTP ERP CRM LOB Devices Web Sensors Social

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tradicionalmente, Analytics parecia-se com isso

Business Intelligence • Dados relacionais

• Escala de TBs–PBs

• Esquema on-write

• Relatórios operacionais e ad hoc


Data Warehouse
• Investimentos iniciais

OLTP ERP CRM LOB


Data Lake amplia a abordagem tradicional

Business Intelligence Big Data processing,


real-time, Machine Learning

• Dados relacionais e não-relacionais

• Escala de TBs–EBs

• Diversidade de engines de análise


Data Warehouse Data Lake
• Baixo custo de storage e processamento

OLTP ERP CRM LOB Devices Web Sensors Social


Armazene os dados em diversos formatos

CSV

ORC

Grok • Arquivos texto como CSV


Amazon S3
• Colunares como Apache Parquet e Apache ORC
Amazon Glacier
Avro • Logstash como Grok
AWS Glue
• JSON (simple, nested), AVRO
Parquet
• E mais…

JSON
Data lake com Amazon S3 e AWS Glue
Your data

Web app data AWS GLUE ETL

Amazon RDS

Other databases AMAZON


QUICKSIGHT

On premises data

Streaming data
Evolução e Modernização Gradativa
da Arquitetura

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
BI Clásico com processamento batch
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources

Amazon
QuickSight

ERP Sist1 ETL Banco Relacional


Solução de ETL Tradicional

Outros
Sistemas

Speed (Processamento em Real-time)


Evoluindo o cenário atual – Processamento Batch com EMR
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources

Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3
Sistemas
Ingestão
Apache Flume
Apache Sqoop Analistas de Dados

Data Warehouse
Amazon Redshift

Speed (Processamento em Real-time)


Evolução – Novas capacidades analíticas para novos usuários (IA e ML)
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources

Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Apache Sqoop Analistas de Dados

Data Warehouse
Amazon Redshift

Speed (Processamento em Real-time)


Cenário Futuro – Incluindo Processamento em Tempo Real com IA e ML
Data Ingestão Scale (Processamento em Batch) Camada de entrega
Usuários de negócio
sources

Amazon
QuickSight
Ingestão de ETL/Processamento Queries Interativas
Databases Amazon EMR Amazon Athena
ERP Sist1 AWS DMS
Staged Data EMR com Presto
Raw Data (Data Lake)
(Data Lake) Amazon S3 Cientistas de Dados
Outros Amazon S3 Advanced Analytics Deep Learning
Sistemas Amazon EMR AI Frameworks Modelagem analítica/AI
Ingestão Amazon EMR
Apache Flume
Apache Sqoop Analistas de Dados

Web logs /
cookies Data Warehouse
Amazon Redshift
Captura de Processamento em
Eventos tempo real Plataformas de
Amazon Kinesis EMR Spark Streaming engajamento
Dispositivos Near-Zero Latency
conectados Amazon DynamoDB

Captura de Processamento Automação / Eventos


Eventos de eventos
Apache Kafka AWS Lambda Amazon AI Real-time Dashboards
Midias sociais
Services Amazon ElasticSearch
Speed (Processamento em Real-time)
Como funciona o Amazon Redshift

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift
Rápido Simples Custo-benefício

$
Entrega resultados rápidos Crie e comece a usar um Sem custos custos iniciais,
para todos os tipos de data warehouse em minutos começe pequeno, e pague o
workloads que utilizar

Escalável Integrado Seguro

Gigabytes a petabytes, Integrado com data lakes no Audite tudo, criptografe os


a exabytes Amazon S3, serviços AWS, e dados de ponta a ponta,
ferramentas de terceiros certificação e compliance
extensivo
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Redshift Spectrum
Extenda o data warehouse para o seu data lake no Amazon S3

Escale computação e storage separadamente


Redshift Spectrum
query engine Cruze dados entre o Amazon Redshift e Amazon S3

Amazon Redshift SQL pesquisa exabytes de dados


no Amazon S3
Amazon Amazon S3
Redshift data data lake Formatos: Parquet, ORC, Grok, Avro, & CSV

Pague somente de acordo com a quantidade de


dados processados

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Query

Arquitetura do SELECT COUNT(*)


FROM S3.EXT_TABLE
GROUP BY …
Amazon Redshift JDBC/ODBC
Amazon
Redshift

Amazon
...
Redshift Spectrum
1 2 3 4 N
Computação com
escalabilidade horizontal
AWS Glue
Amazon S3 Catálogo de
Storage de objetos Dados
em escala de
Exabytes
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift está disponível Globalmente

Ireland
Frankfurt
London

US East – N Virginia
US East – Ohio
US West – Oregon Beijing
US West – N California Mumbai
AWS GovCloud (US) Sao Paulo Seoul
Canada – Central, Montreal Singapore
Sydney
Tokyo

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Parceiros Selecionados Amazon Redshift
Data Integration Business Intelligence Systems Integrators

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Aceleração para Queries rápidas
Via Expressa para Queries rápidas
Como funciona:
• Machine learning prevê o
tempo de execução das
Analytics e
BI / Ferramentas e queries
Dashboards
Amazon
Redshift Machine Learning • Queries rápidas são roteadas
Classifier para uma fila expressa

• Recursos dinamicamente
dedicados para servir um
burst de queries curtas

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Caching de Resultados
Queries repetidas em menos de 1 segundo

Como funciona:
1 Queries vão para o nó lider
Analytics and
BI / Dashboard tools
Se o cache contém o resultado da
2
query, o valor é retornado
Amazon
Redshift
Result Se o resultado não está no cache, ele
3
RESULTS CACHE

é então executado, e o resultado é


QUERY_ID RESULT

QUERY_ID RESULT cache

cacheado
Caching libera recursos no cluster, melhorando
a performance de todas as queries

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Ingestão de Arquivos Parquet e ORC (Novo)

• Parquet • TXT
• Avro • ORC
• Json • CSV

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Algumas dicas para trabalhar com Spectrum

1. Use Amazon Redshift Spectrum para melhorar workloads “scan-


intensive” e com muita concorrência.

2. Use múltiplos clusters on-demand do Amazon Redshift clusters


para escalar concorrência.

3. Use arquivos Apache Parquet para melhor performance e menor


custo.

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Casos de Clientes

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon.com tem a visão de ser
a empresa com mais foco no
cliente do mundo, em que
pessoas podem encontrar o
que quiserem e comprar online

Challenge:
Carregar alto volume de e
queries/extrações todos os dias
(Amazon.com, Amazon Prime, Amazon
Music, Amazon Alexa, Amazon Video,
and Twitch).
Solution:
• Data lake no S3
• Usa Redshift para análises baseadas
em SQL por usuários de negócio,
EMR e Machine Learning
Amazon.com Data Lake e Analytics

• DynamoDB capturando
todas as transações da
Amazon.com

• Dados do DynamoDB, RDS


DynamoDB QuickSight
PostgreSQL e Kinesis
alimentam o data lake no
Catálogo
Redshift S3

PostgreSQL S3 AWS Glue Athena • Glue usado como catálogo


de meta dados
EMR

Machine • Redshift usado para queries


Kinesis Learning baseadas em SQL e EMR
para machine learning e
processamento big data

• Usuários usam QuickSight


para visualizações
Líder mundial na área de automação bancária
e comércio conectado. Atuam na área de
online fraud detection.

Desafio:
Recebem informações de diversos canais e
instituções (mobile, desktop, ATM).
Informações são correlacionadas para gerar
um score de risco em menos de 1 segundo.

Solução:
• Redshift
• Data Lake no S3.

Caso público:
https://aws.amazon.com/pt/solutions/case-
studies/diebold-gas/

Vídeo “This is my architecture”:


https://www.youtube.com/watch?v=7HXTEewn
5bE
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Diebold Nixdorf

Amazon Amazon Kinesis Amazon Amazon


EC2 Analytics Redshift* EC2
Mongo DB
API
ETL

S3 bucket Amazon
EMR Transformação
Amazon Kinesis Parquet
Firehose

Machine
Learning
S3 bucket
Amazon
EMR

https://www.youtube.com/watch?v=7HXTEewn5bE
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Comece com o Amazon Redshift

Mais informações:
https://aws.amazon.com/redshift/

Experimente o Amazon Redshift:


https://aws.amazon.com/redshift/free-trial/
Amazon
Redshift Leia os blog posts sobre o Amazon Redshift:
https://aws.amazon.com/redshift/blog-posts/

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Obrigada!

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Você também pode gostar