Você está na página 1de 3

O ecossistema de Big Data

Para Couto et al. (2019), o conceito de data lake surgiu justamente no contexto de big data. Na
prática, trata-se de um repositório para o processamento de gigantescos volumes de dados. Em outras
palavras, um data lake se caracteriza como um local que armazena grandes datasets (ou conjuntos de dados)
no seu formato nativo (original e sem alterações): os chamados dados brutos.

Os dados estão em formato nativo ou bruto significa que eles ainda não passaram por qualquer tipo
de processamento, análise ou manipulação, ou seja, não foram destinados para uma função específica, nem
sofreram alterações. Nesse formato, é provável que alguns dados adicionados ao data lake não sejam de boa
qualidade.

Além disso, os dados contidos em um data lake não são excluídos: tudo é retido e permanece
armazenado. Dessa forma, quando necessário, o cientista de dados pode realizar novas análises e reutilizar os
dados para diferentes propósitos quantas vezes forem necessárias.

Esses repositórios de dados brutos precisam ser gerenciados continuamente, passando por
manutenções constantes, para que os dados continuem íntegros e possam ser utilizados em momentos
oportunos. Para Vermeulen (2018), data lakes sem manutenção são chamados de data swamps (em
português, pântanos de dados) e não devem ser temidos, mas devem ser domados (ou seja, gerenciados).
Caso contrário, esses dados acabam se deteriorando e tornam-se inacessíveis, agregando pouco ou nenhum
valor aos seus usuários.

É importante lembrar que data lake é um conceito, isto é, uma estratégia para armazenamento
massivo de dados, e não uma ferramenta exclusiva. Portanto, podem ser necessárias junções de diversas
tecnologias e ferramentas para se criar um data lake. Algumas das principais empresas de tecnologia fornecem
serviços de construção desses repositórios. Exemplos são a Amazon, com o AWS Lake Formation, e o Google,
que possui um serviço semelhante na sua plataforma de cloud computing, denominada Google Cloud Platform
(GCP). O serviço de cloud storage da plataforma pode ser utilizado como um componente destinado ao data
lake, na tratativa de dados não estruturados. Para dados estruturados, o GCP fornece algumas ferramentas
como CloudSQL, Spanner, BigTable e BigQuery. A Microsoft também oferece uma possibilidade: o seu serviço
em nuvem chamado de Azure permite a criação de data lakes.

A estrutura do Azure Data Lake está dividida em três partes essenciais: HDInsight, Data Lake Analytics
e Azure Data Lake Store:
Data lake e data warehouse
Muitas pessoas confundem os conceitos de data lake e data warehouse, pensando que são a mesma
coisa ou que têm funções muito semelhantes, mas na verdade eles possuem diferenças bastante significativas.
Tanto o data lake quanto o data warehouse são repositórios e armazenam grandes conjuntos de dados —talvez
essa seja a única coisa que há em comum entre os dois conceitos. Porém, enquanto os dados são brutos no
data lake, no data warehouse eles já passaram por filtros, foram analisados, processados e têm uma
finalidade. Veja no Quadro 1 algumas das principais diferenças entre data lake e data warehouse.
Ferramentas do ecossistema de Big Data
Cada camada que forma o ecossistema de big data possui tecnologias que a suportam. Uma dessas
ferramentas é o Apache Hadoop. Trata-se de uma estrutura de software extremamente poderosa, sendo
responsável por armazenar grandes conjuntos de dados. Além disso, tem um grande poder de processamento,
projetado para ambientes de computação distribuída.

Muitas pessoas acreditam equivocadamente que o Hadoop seja o big data em si, mas na verdade ele
embasa todo um ecossistema para tratamento de big data. Ele é projetado para trabalhar em cluster
(arquitetura computacional com a capacidade de interligar computadores para trabalharem em conjunto). A
sua estrutura é formada por um sistema de armazenamento chamado de Hadoop Distributed File System (HDFS)
e por um sistema de processamento denominado MapReduce. Além disso, há o Common, que traz as
bibliotecas mais utilizadas, e o Yarn, para o gerenciamento dos processos do cluster.

Você também pode gostar