Você está na página 1de 21

Oliveira Mário César De / tec.infomario@gmail.

com

Big Data Essentials


Mindset de Big Data
O que é um Datalake e sua importância na mudança do mindset no
tratamento de dados?
2
Oliveira Mário César De / tec.infomario@gmail.com

Objetivos da aula

Entender o que é um Data Lake;

Entender a diferença entre Data Warehouse e Data Lake;

Entender o porquê do Data Lake ser tão importante para o


Mindset de Big Data.
3

O que é um Data Lake?


Oliveira Mário César De / tec.infomario@gmail.com
4

WAREHOUSE
DATA
DATA LAKE
Oliveira Mário César De / tec.infomario@gmail.com
5
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake

✔ Pense no Data Lake como um reservatório de água em estado natural, em


oposição a prateleiras de garrafas d’água purificadas e prontas para serem
consumidas;
✔ É possível manipular a água do reservatório de formas diferentes, que não
resultam somente no processo de purificação, engarrafamento e consumo. Foi
essa a metáfora usada por James Dixon, CTO da empresa Pentaho, para
descrever o conceito de Data Lake em 2010;
✔ O Data Lake é um conceito e não uma tecnologia!
✔ São necessárias diversas tecnologias para criar um Data Lake, como por
exemplo, ferramentas para coletar, importar e processar dados para
armazenamento ou uso posterior;
6
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake

As informações presentes em um Data Lake tem origens diversas:

✔ Dados relacionais e não-relacionais, vindos de aplicações corporativas,


dispositivos de IoT (Internet das Coisas), aplicativos móveis, redes sociais,
websites etc;

✔ Os dados são preservados em seu formato de origem e processados de


acordo com a demanda, o que reduz o esforço de estruturar dados que podem
não se converter em vantagens competitivas para o negócio;
7
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake

✔ Preservar os dados em seu formato de origem, chamado de schema-on-read,


é uma das principais diferenças entre o Data Lake e o Data Warehouse;

✔ Schema é uma descrição lógica do banco de dados;

✔ No Data Lake isso não é feito, até que os dados precisem ser utilizados, só então
eles são formatados e processados;

✔ No Data Warehouse, entretanto, essa descrição é feita quando os dados são


salvos (schema-on-write), isso significa que é necessário saber de antemão para
que eles sejam utilizados.
8
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake

✔ Repositório central;
✔ Todos os tipos de dados;
✔ Dados brutos;
✔ Escalável – Infraestrutura que permite crescimento;
✔ Flexibilidade – Facilmente modificável, automatizado;
✔ Pronto para uso e fácil de encontrar;
✔ Baixo custo.
9
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake e Lei de Moore

Desde 2000, tem acontecido grandes mudanças nas capacidades de


processamento, armazenamento e custos de hardware para estas atividades. A
Lei de Moore constatou que:

✔ As capacidades de processamento aumentaram cerca de 10.000 vezes, desde


2000. Isso implica que a capacidade de analisar mais dados eficientemente
aumentou;
✔ O custo de armazenamento também caiu bastante considerávelmente. Desde
2000, o custo de armazenamento baixou mais de 1000 vezes.
10
Data Warehouse x Data Lake
Oliveira Mário César De / tec.infomario@gmail.com
11
Oliveira Mário César De / tec.infomario@gmail.com

Benefícios do Data Lake

O Data Lake pode armazenar dados de diferentes formatos,


Flexibilidade
Flexibilidade estruturados ou não. Isso não acontece em data warehouses, por
exemplo, onde eles estão divididos em colunas ou linhas.

O volume de dados disponível e a possibilidade de usar


Analise
Analise
avançada algoritmos de deep learning, permite análises avançadas que
avançada
auxiliam decisões de negócios em tempo real.

O Data Lake torna as informações disponíveis para toda a


Compartilha-
Compartilha- organização, o que ajuda na tomada de decisões à qualquer
mento
mentodos
dos
dados nível. Isso diminui o tempo que seria gasto com solicitações entre
dados
setores e agiliza projetos.
12
Oliveira Mário César De / tec.infomario@gmail.com

Data Lake x Data swamps

✔ O uso de data lakes, apresenta vários benefícios para negócios, mas é


preciso ter cuidado para não transformá-los nos chamados data swamps;
✔ Características de que você está criando um data swamps:
✔ Você acumula dados de forma desorganizada, o que os tornam difíceis de
encontrar e usar;
✔ Você não sabe quais dados estão armazenados e quais informações
sensíveis podem ser compartilhadas indiscriminadamente;
✔ Uma solução para evitar o data swamps, é o uso de metadados (informações
sobre os dados armazenados) para fins de organização, além de manter
diferentes níveis de governança para as informações.
13
Oliveira Mário César De / tec.infomario@gmail.com

Tecnologias para implementar Data Lake

HDFS, Pig, Flume, Kakfa, Sqoop, Hive, Hbase, MapReduce,


Hadoop
Hadoopon
onpremises
premises
Spark, Notebook Zeppelin, Jupyter Notebook, etc;

Amazon S3, DynamoDB, Kinesis Streams, Kinesis Firehouse,


AWS
AWSData
DataLake
Lake
Direct Connect, etc;

Azure Data Lake Store (ADLS), Azure Data Lake Analytics,


Azure
AzureData
DataLake
Lake HDInsight, etc;

Cloud Storage, Cloud Dataproc, Cloud Dataprep, Cloud


Google
GoogleData
DataLake
Lake Dataflow, Cloud Pub/Sub, Cloud Datalab, Cloud Big Query,
Cloud Big Table, Cloud Spanner, etc;
14
Arquitetura genérica de um Data Lake
Oliveira Mário César De / tec.infomario@gmail.com
16
Oliveira Mário César De / tec.infomario@gmail.com

Desafios de criar Data Lakes on-premise

✔ Complexidade da construção de pipelines de dados – Gerenciar a


infraestrutura de hardware e servidores, orquestrar tarefas de ETL em lote e lidar
com interrupções e tempo de inatividade;
✔ Custos de manutenção – Além do investimento inicial necessário para comprar
servidores e equipamentos de armazenamento, há custos operacionais e de
gerenciamento contínuos ao operar um Data Lake no local, manifestando-se
principalmente em custos de engenharia e TI;
✔ Escalabilidade – Se você quiser ampliar seu data lake para oferecer suporte a
mais usuários ou dados maiores, será necessário adicionar e configurar
manualmente os servidores. Você precisa ficar de olho na utilização de recursos,
e qualquer servidor adicional cria custos adicionais de manutenção e operação.
17
Oliveira Mário César De / tec.infomario@gmail.com

Vantagens de mover seu Data Lake para nuvem

✔ Concentre-se no valor comercial, não na infraestrutura;

✔ Menores custos de engenharia de dados;

✔ Use os serviços gerenciados para aumentar a escala. O provedor de nuvem


pode gerenciar o dimensionamento para você. Alguns serviços de nuvem de
dados, como Amazon S3 e Athena, fornecem escalonamento totalmente
transparente;

✔ Infraestrutura ágil;

✔ Tecnologias atualizadas;

✔ Confiabilidade e disponibilidade.
18
Oliveira Mário César De / tec.infomario@gmail.com

Desvantagens de um Data Lake na nuvem

✔ A principal desvantagem de mover seu Data Lake para a nuvem, são os custos
de armazenamento;

✔ Na nuvem, você paga pelo armazenamento por hora;

✔ Provedores como a Amazon, oferecem várias opções para armazenar seus


dados com custos variáveis por hora, portanto, é possível otimizar, mas a
verdade é que a loja se tornará uma despesa contínua e crescente, dados os
volumes de dados em expansão.
19
Oliveira Mário César De / tec.infomario@gmail.com

Desvantagens de um Data Lake na nuvem

✔ Em termos de "preço de etiqueta" associado ao armazenamento, sempre será


mais econômico comprar um armazenamento local uma vez e armazenar seus
dados lá (embora isso não seja o caso, se considerarmos o custo total de
propriedade, incluindo engenharia e custos de TI);

✔ Muitas organizações gerenciando enormes volumes de dados, estão explorando


estratégias de nuvem híbrida, para permitir que elas mantenham algum
armazenamento no local, mantendo outros dados, normalmente exigindo uma
análise mais frequente na nuvem.
20
Oliveira Mário César De / tec.infomario@gmail.com

Considerações finais

✔ Data Lake é uma nova mudança de paradigma (novo Mindset) para a


arquitetura de Big Data;

✔ O Data Lake atende a todos os tipos de dados, armazena dados em sua forma
bruta (raw data), atende ao espectro de usuários e permite insights mais
rápidos;

✔ A meticulosa catalogação e governança de dados é a chave para a


implementação bem-sucedida do Data Lake;

✔ As plataformas em nuvem oferecem soluções de ponta para a implementação


da arquitetura do Data Lake, de maneira econômica e escalonável.
21
Oliveira Mário César De / tec.infomario@gmail.com

Review

1 Entender o que é um Data Lake

Entender a diferença entre Data


2 Warehouse e Data Lake

Entender Data Lake no contexto


3 do Mindset de Big Data
22

Fim
Oliveira Mário César De / tec.infomario@gmail.com

Você também pode gostar