GEN - Modern Analytics Architecture PT Dam - Oct 2019

A produção de
uma arquitetura
analítica moderna
A PRODUÇÃO DE UMA ARQUITETURA ANALÍTICA MODERNA
Os dados são indispensáveis atualmente
No mundo de hoje, dados e análises são indispensáveis para as organizações.

Quem conseguir gerar um valor empresarial com seus dados terá uma performance
melhor do que seus concorrentes. Uma pesquisa da Aberdeen mostrou que as
organizações que implementaram uma plataforma de análise de dados moderna
com data lake superaram empresas similares em 9% no crescimento orgânico
das receitas. Essas organizações foram capazes de realizar novos tipos de análise,
como machine learning sobre fontes de dados (por exemplo, arquivos de log,
dados de sequências de cliques, mídias sociais e dispositivos conectados à internet
armazenados no data lake).
As análises modernas de data lake ajudam as organizações a:
• identificar e atuar sobre as oportunidades mais rápido;

• ampliar os negócios mais rapidamente;
• atrair e reter mais clientes;
• aumentar a produtividade;
• manter dispositivos de forma proativa;
• tomar decisões mais bem-informadas.
analytics
2
O que impede você de ter os dados de que precisa?

As organizações repetem o tempo todo que desejam extrair mais valor de
seus dados, mas têm dificuldade para capturar, armazenar e analisar todos
os dados gerados no moderno mundo dos negócios digitais. O volume de
dados está crescendo exponencialmente, vindo de novas fontes cada vez
mais diversificadas, e esses dados precisam ser acessados e analisados com
segurança por muitos aplicativos e pessoas em períodos cada vez mais curtos.
O tamanho, a complexidade e as fontes variadas dos dados significam que as
tecnologias e abordagens que funcionavam no passado não funcionam mais.
À medida que a quantidade de dados aumenta, eles são armazenados pelos

clientes em diferentes locais, dificultando a realização de análises. Os clientes
querem facilitar o processo colocando todos os seus dados em um único
repositório, ou seja, um data lake. As organizações precisam armazenar dados
com segurança, em qualquer escala e a baixo custo, usando formatos de dados
padronizados escolhidos por elas. As organizações querem a flexibilidade de
analisar os dados de várias maneiras, usando um amplo conjunto de mecanismos
analíticos para garantir que suas necessidades sejam atendidas nos casos atuais
e futuros em que se usa análise. Elas também precisam ir além dos insights, do
relatório operacional com dados históricos à capacidade de realizar análises em
tempo real e machine learning para prever com precisão os resultados futuros.
analytics
3
O desafio com as infraestruturas

de dados atuais
Quase todas as organizações criaram data warehouses para fazer relatórios

e análises. Elas usam dados de várias fontes, incluindo seus sistemas de
processamento de transações e outros bancos de dados. Muitas organizações
também criaram estruturas Hadoop para analisar o chamado big data ou dados
que não se encaixam bem em data warehouses altamente estruturados. Criar
e manter um data warehouse e uma estrutura de big data é complicado e caro.
Desafios comuns do data warehouse

Os sistemas tradicionais de data warehousing criam uma série de problemas
e demandas:
• as despesas iniciais com software e hardware ficam na casa dos milhões

de dólares;
• o planejamento e a aquisição levam meses;
• a configuração é complicada;
• os processos de implementação e implantação demandam tempo;
• é preciso definir modelos de dados e ingestão de dados;
• uma equipe de administradores de data warehouse deve ser contratada;
• a execução rápida das consultas e a proteção contra perda de dados devem
ser mantidas;
• apenas dados altamente normalizados são necessários para análises importantes;
• muitos dados (dados escuros) ficam armazenamentos em muitos silos de dados;
• os dados escuros nunca chegam a um data warehouse para análise;
• dificuldade para escalar.
analytics
4
Com um volume de dados maior ou na intenção de disponibilizar análises e relatórios

para mais usuários, é preciso escolher entre aceitar uma performance mais lenta
nas consultas ou investir tempo e trabalho em um caro processo de atualização.
Algumas equipes de TI chegam a desestimular o aumento de dados ou a adição
de consultas para manter os acordos de nível de serviço existentes. Para atenuar
isso, as organizações geralmente configuram vários data marts. Eles contêm cópias
de um subconjunto dos dados no data warehouse. Consultas especializadas e de
longo prazo não afetam a performance e os SLA (ou acordos de nível de serviço)
das operações comerciais e tomadas de decisão importantes. Isso complica
a infraestrutura de dados e análises e aumenta a dependência das organizações
em relação aos fornecedores escolhidos para data warehouse e data mart.
Um mecanismo analítico diferente necessário para novas

variedades de dados
Os depósitos de dados tradicionais também não são eficazes para lidar com
diversos dados semiestruturados e não estruturados provenientes de sequências
de cliques, logs, mídias sociais, sensores IoT e outras fontes de dados modernas.
Esses tipos de dados não se encaixam bem nos modelos de dados estruturados
e normalizados. É necessário utilizar um mecanismo analítico diferente, capaz de
processar esses novos tipos de dados, como uma plataforma Hadoop para big
data. Isso complica muito a estratégia de dados, onde os dados são armazenados,
quem pode acessá-los e qual mecanismo analítico funciona melhor para um
determinado tipo de dado.
Atrasos em carregamento de dados em lote

O carregamento de dados em lote é um desafio. As tarefas de extração,
transformação e carregamento (ETL) geralmente são executados durante a noite,
quando a carga de análise no data warehouse é mínima. As tarefas noturnas de
ETL não são ideais para organizações globais que precisam de acesso aos dados
24 horas por dia, sete dias por semana. Essas tarefas também não servem para
usuários que precisam de respostas imediatas. No mundo moderno, em que se
preza pela rapidez, esperar até amanhã pode ser tarde demais.
analytics
5
Compatibilidade limitada com a análise moderna

Os data warehouse tradicionais não são compatíveis (ou são, mas de forma limitada)
com machine learning ou carga de trabalho preditiva. Dessa forma, tornam-se
incompatíveis com os casos de uso modernos, como análises e aplicativos em tempo
real ou preditivos que precisam de machine learning avançado.
A proteção de dados requer soluções alternativas

A segurança e a privacidade dos dados também são um problema. Setores
como os de assistência médica e serviços financeiros, que trabalham com
dados altamente confidenciais, requerem que os data warehouses estejam em
conformidade com as normas ISO, HIPAA, FedRAMP e outras. A lei europeia
de proteção de dados (chamado de GDPR, sigla em inglês para General Data
Protection Rules) aumenta ainda mais a carga sobre TI para garantir que os
dados confidenciais do cliente sejam criptografados em todos os estados,
estejam eles em repouso ou em movimento. Algumas dessas normas também
exigem que as organizações atuem rapidamente para recuperar, atualizar ou
excluir um registro. Os data warehouse tradicionais geralmente exigem que as
organizações implementem soluções alternativas caras e que deixam os dados
confidenciais fora do alcance dos analistas.
A complexidade dos sistemas de big data

As plataformas de big data tiveram problemas semelhantes, agravados por
volume e variedade de dados, algoritmos complexos necessários para executar
análises e falta de trabalhadores qualificados. Além disso, a análise de dados
em sistemas de data warehouse e big data é complexa e consome tempo.
analytics
6
Armazenamento de dados ideal
À medida que a quantidade de dados se acumula, as organizações armazenam esses

dados em diferentes silos, dificultando a realização das análises. As organizações
querem facilitar o processo colocando todos os seus dados em um único repositório,
ou seja, um data lake. Elas precisam armazenar dados com segurança, em grande
escala e a baixo custo, usando formatos de dados padronizados escolhidos por elas.
E desejam a flexibilidade de analisar os dados de várias maneiras, usando um amplo
conjunto de mecanismos analíticos, para garantir que suas necessidades sejam
atendidas nos casos atuais e futuros em que se use análise.
O que é um data lake?

Um data lake é um repositório centralizado que permite armazenar todos os
dados estruturados e não estruturados em qualquer escala. É possível armazenar
seus dados da forma como se encontram, sem que seja necessário primeiro
transformar ou estruturar os dados e executar diferentes tipos de análise – de
painéis e visualizações a processamento de big data, análises em tempo real e
machine learning para orientar melhor as decisões. Os dados necessários para a
tomada de decisões agora podem ser processados, limpos e carregados do data
lake para o data warehouse.
A necessidade de um data warehouse e um data lake

Dependendo dos requisitos, uma organização típica vai requerer um data
warehouse e um data lake, pois eles atendem diferentes necessidades e casos
de uso. À medida que as organizações com data warehouse entendem os
benefícios dos data lakes, elas passam a incluí-los a fim de habilitar diversos
recursos de consulta, casos de uso de ciência de dados e recursos avançados
para descobrir novos modelos de informações. Gartner chamou essa evolução
de soluções de gerenciamento de dados para análise, ou DMSA, na sigla em
inglês para “data management solution for analytics”.
analytics
7
Características Data warehouse Data Lake
Não relacional e relacional

Relacional de sistemas
de dispositivos IoT, sites,
transacionais, bancos de dados
Dados aplicativos móveis, mídias
operacionais e aplicativos
sociais e aplicativos
de área de negócios.
corporativos.
Projetado antes da
Gravado no momento da
Esquema implementação do data
análise (esquema on-read).
warehouse (esquema on-write).
Os resultados das consultas

Os mais rápidos resultados
estão ficando mais rápidos
Preço/performance das consultas usando um
usando um armazenamento
armazenamento mais caro.
de baixo custo.
Dados altamente
Dados que podem ou
organizados que servem
Qualidade dos dados não ter sido organizados
como fonte central
(isto é, dados brutos).
de inteligência.
Cientistas de dados,
desenvolvedores de dados
Usuários Analistas comerciais e analistas comerciais
(usando dados previamente
organizados).
Machine learning, análise

Relatórios em massa,
Análise preditiva, detecção de dados
BI e visualizações.
e criação de perfil.
analytics
8
Crie um pipeline de análise
Antes que possam ser analisados, os dados precisam ser coletados, processados
e armazenados. Isso pode ser visualizado como um pipeline analítico que
extrai dados de sistemas de origem, processa os dados e os coloca em locais
de armazenamentos onde podem ser analisados. Os pipelines de análise são
projetados para manipular grandes volumes de dados de entrada de fontes
diversas, como bancos de dados, aplicativos e dispositivos.
1. Coletar dados.
2. Processar dados.
3. Armazenar dados.
4. Analisar e visualizar dados.
5. Prever resultados futuros (novo, não mostrado na figura).
Como exemplo, veja a Figura 1, a seguir.
Figura 1: Pipeline de análise
analytics
9
Coletar dados
Considere os diferentes tipos de dados: dados transacionais, dados de log, dados
de streaming e dados da internet das coisas (IoT). Cada tipo de dado pode ser
armazenado em locais mais adequados para os dados e seu uso. Alguns locais de
armazenamento de dados são otimizados para dados transacionais ou relacionais
e outros para dados não relacionais ou não estruturados. A melhor estratégia
é usar um banco de dados mais adequado aos dados e aos aplicativos que
produzem ou consomem os dados.
• Dados transacionais: dados de transações como compras em comércio

eletrônico e transações financeiras são normalmente armazenados em
um sistema gerenciador de banco de dados relacional (SGBDR) ou NoSQL.
A escolha da solução de banco de dados depende do caso de uso e das
características do aplicativo. A solução SGBDR é própria para o registro de
transações e para os casos em que a transação demande a atualização de
várias linhas na tabela. O banco de dados NoSQL é próprio para dados que
não são bem-estruturados em vista de um esquema definido ou para um
esquema que é alterado frequentemente.
• Dados de log: a captura confiável de logs gerados pelo sistema ajudará você
a solucionar problemas, fazer auditorias e análises usando as informações
armazenadas nos logs. Um data lake é uma solução de armazenamento
muito usada para dados de log usados em análise.
• Dados de streaming: aplicativos web, dispositivos móveis e muitos aplicativos

e serviços de software podem gerar quantidades surpreendentes de dados
de streaming (às vezes, terabytes por hora) que precisam ser coletados,
armazenados e processados. Esses dados são variados, geralmente descritos
como dados semiestruturados ou não estruturados.
• Dados da IoT: os dispositivos e sensores no mundo todo estão continuamente

enviando mensagens. Assim, as organizações têm uma necessidade cada vez
maior de capturar esses dados e extrair informações deles.
analytics
10
Processar dados
O processo de coleta reúne ou extrai dados de fontes de dados, transforma os
dados e os armazena em outro local, como outro banco de dados, um data lake ou
um serviço analítico (data warehouse), onde podem ser processados ou analisados.
Dados em lote e em tempo real

Existem dois tipos de fluxos de trabalho de processamento: em lote e em
tempo real.
O carregamento de dados em lote ainda é bastante difundido. As tarefas em

lote noturnas extraem dados de um sistema, transformam em um formato
pronto para análise e os carregam em um destino. Isso gera atrasos antes
que os dados estejam disponíveis para quem precisa deles.
O processamento em tempo real transforma os dados internamente na memória

enquanto eles ainda estão em trânsito, antes do armazenamento. Essas tecnologias
de streaming permitem que os dados sejam ingeridos em escala enorme e em
tempo real, possibilitando fazer análises quase instantaneamente.
• Extração, transformação e carregamento (ETL): o ETL é o processo

usado para extrair dados de várias fontes, transformando os dados para
se ajustarem a um esquema de destino definido (esquema on-write)
e carregando os dados em um armazenamento de dados de destino.
Normalmente o ETL é um processo contínuo com um fluxo de trabalho
bem-definido que ocorre em momentos específicos (por exemplo, durante
a noite). A configuração e execução de processos ETL pode ser uma tarefa
tediosa; algumas tarefas de ETL podem levar horas.
• Extração, carregamento e transformação (ELT): o processo ELT é uma

variante do processo ETL em que os dados extraídos são carregados no
sistema de destino antes que a transformação seja feita. O esquema
será definido quando os dados forem lidos ou usados(esquema on-read).
Normalmente o ELT funcionará bem quando o sistema de destino for
suficientemente forte para manipular transformações e quando se desejar
explorar os dados de forma não consistente com um esquema predefinido.
analytics
11
• Processamento em tempo real: os serviços de streaming de dados em

tempo real permitem que você colete, processe, analise e forneça dados
contínuos de streaming em escala hábil para seus aplicativos e suas soluções
analíticas em tempo real. O diferencial aqui é que os dados estão disponíveis
para análise de forma imediata, sem esperar que uma tarefa noturna em
lote de ETL seja concluída. Os desenvolvedores podem criar facilmente
aplicativos em tempo real e aproveitar os serviços totalmente gerenciados,
seguros, altamente disponíveis, duráveis e escaláveis. É possível processar
dados de streaming de forma sequencial e incremental registro por registro
ou em intervalos de tempo variáveis e usar os dados processados para fazer
várias análises, incluindo correlações, agregações, filtragem e amostragem.
Armazenar dados
É possível armazenar seus dados em um data lake ou em uma ferramenta analítica,
como um data warehouse.
Um data lake é um repositório centralizado para todos os dados, estruturados

e não estruturados. Em um data lake o esquema não é definido, permitindo
análises adicionais, como de big data, pesquisa de texto completo, análises em
tempo real e machine learning. As organizações estão usando cada vez mais os
data lakes como um repositório central para todos os dados, que assim podem
ser usados cadeia abaixo por aplicativos e ferramentas de análise.
Um data warehouse utiliza um esquema predefinido otimizado para análise;

os dados sofrem uma organização prévia de grande porte e servem como
uma fonte única de inteligência advinda de muitas outras fontes de dados.
• Data lake: os data lakes têm a escala, a agilidade e a flexibilidade necessárias

para combinar diferentes tipos de dados e abordagens analíticas para se
chegar a insights mais profundos, de uma forma que os silos de dados e os
data warehouses tradicionais não conseguem. Eles dão às organizações a
flexibilidade de usar uma ampla variedade de serviços de análise e machine
learning, com fácil acesso a todos os dados relevantes, sem comprometer
a segurança ou a governança.
analytics
12
• Data warehouse: um data warehouse é um repositório central de

informações provenientes de uma ou mais fontes de dados (ou de seu
data lake) em que os dados passam por uma transformação, uma limpeza
e uma eliminação de duplicações para se encaixar em um modelo de
dados predefinido. Ele é especialmente projetado para análise de dados,
o que envolve a leitura de grandes quantidades de dados para entender
as relações e as tendências entre eles. Um banco de dados é usado para
capturar e armazenar dados, como registrar os detalhes de uma transação.
Usando data warehouses, é possível fazer análises rápidas em grandes
volumes de dados e descobrir padrões ocultos nos dados usando as
ferramentas de BI. Os cientistas de dados consultam os data warehouses
para fazer análises off-line e detectar tendências. Usuários de toda a
organização utilizam os dados usando consultas SQL ad hoc, relatórios
periódicos e painéis de controle para tomar decisões importantes.
• Data mart: um data mart é uma forma simples de data warehouse focada
em uma área funcional ou em um assunto específico. Ele contém cópias de
um subconjunto de dados no data warehouse. Por exemplo, podem existir
data marts específicos para cada setor em sua organização ou data marts
segmentados por regiões. É possível montar data marts de um grande data
warehouse, armazenamento operacional ou de forma híbrida. Os data marts
são fáceis de projetar, construir e administrar. No entanto, como estão focados
em áreas funcionais específicas, a consulta em diferentes áreas funcionais
pode ser mais complicada, por causa da distribuição de dados.
Analisar dados
Libere o valor real dos dados

Um pipeline analítico moderno pode utilizar várias ferramentas para liberar
o valor oculto nos dados. Não há solução que agrade a gregos e troianos.
Qualquer ferramenta de análise deve poder acessar e processar dados da
mesma fonte, seu data lake.
analytics
13
Acesse o data warehouse e o data lake com facilidade

Os dados podem ser copiados do data lake para o data warehouse para que
se ajustem a um modelo de dados estruturado e normalizado que utilize um
mecanismo de consulta de alta performance. Ao mesmo tempo, alguns casos
de uso requerem uma análise de dados não estruturados de acordo com os
dados normalizados no data warehouse. Nesses casos, para se ter insights em
tempo hábil, é muito importante ampliar as consultas ao data warehouse para
que incluam dados que estão no data warehouse e no data lake, sem o atraso
da transformação e da movimentação de dados.
Outras ferramentas de análise de big data devem ser capazes de acessar os

mesmos dados no data lake. Isso permite que todos na organização, desde
os usuários comerciais até os cientistas de dados, confiem nos dados e nos
resultados de suas análises.
• Análise interativa: normalmente a análise interativa usa ferramentas

comuns de consulta SQL para acessar e analisar dados. Os usuários
finais querem resultados rápidos e a possibilidade de modificar consultas
rapidamente e repeti-las.
• Data warehousing: o data warehousing permite executar consultas

analíticas complexas em grandes volumes de dados (petabytes) usando
um mecanismo de consulta otimizado para análise de alta performance.
• Análise de data lake: está surgindo uma nova geração de data warehouse
que amplia as consultas do data warehouse ao data lake, para processar
dados estruturados ou não estruturados no data warehouse e no data lake,
chegando até os exabytes sem mover dados.
• Análise de big data: o processamento de big data usa as estruturas

Hadoop e Spark para processar grandes quantidades de dados.
• Análise operacional: a análise operacional enfoca a melhoria das

operações existentes e usa dados como monitoramento de aplicativos,
logs e dados de sequências de cliques.
analytics
14
• Inteligência empresarial (BI): o software de BI é um aplicativo fácil

de usar que recupera, analisa, transforma e relata dados para auxiliar
empresas na tomada de decisão. As ferramentas de BI geralmente leem
dados armazenados em um serviço de análise, como um data warehouse
ou um sistema de análise de big data. Essas ferramentas criam relatórios,
painéis e visualizações e permitem que os usuários conheçam melhor dados
específicos para fins específicos (ad hoc). Os resultados dão às organizações
o poder de acelerar e melhorar o processo de tomada de decisões, aumentar
a eficiência operacional, identificar novas oportunidades e um possível foco
de receita, identificar tendências de mercado e relatar KPIs.
Aplicar o machine learning

À medida que as organizações geram, armazenam e analisam quantidades
cada vez maiores de dados, surge a necessidade de usar esses vastos conjuntos
de dados de forma automatizada para fomentar resultados comerciais. Cada
vez mais, elas confiam no machine learning para automatizar tarefas, oferecer
serviços personalizados para usuários finais e clientes e aumentar a eficiência
das operações através da análise de dados. O machine learning muitas vezes
parece mais difícil do que deveria, porque o processo de construir e treinar
modelos e sua implantação na produção é complicado e lento.
Processo de machine learning

Primeiro, é preciso coletar e preparar os dados de treinamento para descobrir
quais elementos do seu conjunto de dados são importantes. Então, você precisa
selecionar qual algoritmo e estrutura usar. Após decidir a abordagem, é preciso
ensinar ao modelo como fazer previsões por treinamento, o que requer muito
cálculo. Depois, o modelo deve ser ajustado para fornecer as melhores previsões
possíveis– em geral, um trabalho tedioso e manual. Depois de desenvolver um
modelo totalmente treinado, é preciso integrá-lo ao aplicativo e implantar esse
aplicativo na infraestrutura que será ampliada. Tudo isso exige muita especialização,
acesso a grandes quantidades de capacidade de computação, armazenamento
e tempo para experimentar e otimizar todas as partes do processo.
analytics
15
Configuração fácil do machine learning

Serviços de machine learning: os serviços de ML permitem que desenvolvedores
e cientistas de dados construam, treinem e implantem de maneira rápida e fácil
modelos de machine learning em qualquer escala. A complexidade que dificulta
a implementação bem-sucedida de machine learning em casos e áreas de uso,
como a execução de modelos para detecção de fraudes em tempo real, a análise
virtual dos impactos biológicos de possíveis drogas e a previsão de resultados no
beisebol, é removida com o uso de ferramentas de BI.
• Serviços de inteligência artificial (AI): os serviços de AI fornecem

inteligência para seus aplicativos e fluxos de trabalho. É possível integrá-
los facilmente a seus aplicativos para casos de uso comuns, como
recomendações personalizadas, modernização de contact center, melhoria
de proteção e segurança e maior envolvimento do cliente.
• Estruturas de machine learning: as estruturas de ML permitem

experimentar e personalizar algoritmos de machine learning. Elas fornecem
aos profissionais e pesquisadores de machine learning a infraestrutura e as
ferramentas necessárias para acelerar a aprendizagem profunda na nuvem,
na escala que desejarem.
analytics
16
Data lakes: o caminho

para as futuras inovações
Data lakes estão se tornando tendência

Os data lakes na nuvem estão se tornando a estratégia predominante para muitas
organizações, pois oferecerem maior flexibilidade na maneira como os dados
são manipulados e disponibilizados para os tomadores de decisão. Um data lake
pode armazenar dados brutos e processados em qualquer formato, que podem
ser transferidos e transformados posteriormente, conforme as necessidades dos
aplicativos e dos usuários finais. A ideia por trás do conceito é que as análises ou as
questões a serem aplicadas aos dados podem ainda não ter sido identificadas, por
isso, manter os dados em um ambiente de fácil acesso permite que eles estejam
abertos para inovações futuras.
Evite silos de dados no nível empresarial

No entanto, como acontece com os grandes projetos de dados empresariais, o
conceito precisa ser vendido para as corporações. Os data lakes absorvem dados de
várias fontes e armazenam tudo em um só lugar, com todos os requisitos necessários
para integração e segurança. Eles são uma resposta ao eterno problema dos silos de
dados, uma tentativa de contornar esses variados e fragmentados ambientes e se
chegar, por fim, a um só local de dados. O data lake também reduz a necessidade
de processar ou integrar imediatamente os vários formatos de dados que compõem
o big data.
Para saber mais, consulte Data Lakes and Analytics on AWS.
analytics
17
SOBRE A AWS
Há 13 anos, a Amazon Web Services é a plataforma em nuvem mais abrangente e adotada
do mundo. A AWS oferece mais de 165 serviços completos para computação, armazenamento,
banco de dados, redes, análises, robótica, machine learning e inteligência artificial (AI), internet
das coisas (IoT), dispositivos móveis, segurança, hibridização, realidade virtual e aumentada (VR
e AR), mídia e desenvolvimento, implantação e gerenciamento de aplicativos em 61 zonas de
disponibilidade (AZ) em 20 regiões geográficas que abrangem EUA, Austrália, Brasil, Canadá,
China, França, Alemanha, Índia, Irlanda, Japão, Coréia, Cingapura, Suécia e Reino Unido. Milhões
de clientes, inclusive as startups que mais crescem, as maiores corporações e os principais órgãos
governamentais, confiam na AWS para viabilizar suas infraestruturas, agilizá-las e reduzir custos.
Para saber mais sobre a AWS, consulte https://aws.amazon.com.
analytics © 2019, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.
18

GEN - Modern Analytics Architecture PT Dam - Oct 2019

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

GEN - Modern Analytics Architecture PT Dam - Oct 2019

Enviado por

Direitos autorais:

Formatos disponíveis

A produção de

Os dados são indispensáveis atualmente

No mundo de hoje, dados e análises são indispensáveis para as organizações.

As análises modernas de data lake ajudam as organizações a:

• identificar e atuar sobre as oportunidades mais rápido;

O que impede você de ter os dados de que precisa?

À medida que a quantidade de dados aumenta, eles são armazenados pelos

O desafio com as infraestruturas

Quase todas as organizações criaram data warehouses para fazer relatórios

Desafios comuns do data warehouse

• as despesas iniciais com software e hardware ficam na casa dos milhões

Com um volume de dados maior ou na intenção de disponibilizar análises e relatórios

Um mecanismo analítico diferente necessário para novas

Atrasos em carregamento de dados em lote

Compatibilidade limitada com a análise moderna

A proteção de dados requer soluções alternativas

A complexidade dos sistemas de big data

Armazenamento de dados ideal

À medida que a quantidade de dados se acumula, as organizações armazenam esses

O que é um data lake?

A necessidade de um data warehouse e um data lake

Características Data warehouse Data Lake

Não relacional e relacional

Os resultados das consultas

Machine learning, análise

Crie um pipeline de análise

Como exemplo, veja a Figura 1, a seguir.

Figura 1: Pipeline de análise

• Dados transacionais: dados de transações como compras em comércio

• Dados de streaming: aplicativos web, dispositivos móveis e muitos aplicativos

• Dados da IoT: os dispositivos e sensores no mundo todo estão continuamente

Dados em lote e em tempo real

O carregamento de dados em lote ainda é bastante difundido. As tarefas em

O processamento em tempo real transforma os dados internamente na memória

• Extração, transformação e carregamento (ETL): o ETL é o processo

• Extração, carregamento e transformação (ELT): o processo ELT é uma

• Processamento em tempo real: os serviços de streaming de dados em

Um data lake é um repositório centralizado para todos os dados, estruturados

Um data warehouse utiliza um esquema predefinido otimizado para análise;

• Data lake: os data lakes têm a escala, a agilidade e a flexibilidade necessárias

• Data warehouse: um data warehouse é um repositório central de

Libere o valor real dos dados

Acesse o data warehouse e o data lake com facilidade

Outras ferramentas de análise de big data devem ser capazes de acessar os

• Análise interativa: normalmente a análise interativa usa ferramentas

• Data warehousing: o data warehousing permite executar consultas

• Análise de big data: o processamento de big data usa as estruturas

• Análise operacional: a análise operacional enfoca a melhoria das

• Inteligência empresarial (BI): o software de BI é um aplicativo fácil

Aplicar o machine learning

Processo de machine learning

Configuração fácil do machine learning

• Serviços de inteligência artificial (AI): os serviços de AI fornecem

• Estruturas de machine learning: as estruturas de ML permitem

Data lakes: o caminho

Data lakes estão se tornando tendência

Evite silos de dados no nível empresarial

Para saber mais, consulte Data Lakes and Analytics on AWS.

Você também pode gostar