Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Aprenda um pouco mais sobre data lakes e data swamps neste artigo fácil de seguir,
porém rico em informações.
O conceito de data lake existe há poucos anos. Inicialmente, ele atraiu um pouco de controvérsia e foi
rotulado como uma moda da área de marketing. O termo data lake não fazia parte de nenhuma arquitetura
tradicional de armazenamento de dados; portanto, foi usado livremente por fornecedores para se referir
a muitas coisas diferentes.
A terminologia de armazenamento de dados, como fluxos, conjuntos, reservatórios e nuvens, é muito
usada na ciência de dados. Inevitavelmente, as pessoas começaram a criar paralelos com o ecossistema
aquático natural. Por isso, agora temos data lakes e data swamps.
As analogias são ótimas para explicar conceitos, mas sempre existe o risco de levá-las longe demais,
até elas falharem. Elas também tornam a terminologia confusa para quem é novo no campo e não sabe
o que todos os termos realmente significam. À medida que o conceito de data lake foi lentamente aceito,
no entanto, apareceram tentativas de definir uma arquitetura para formalizar os conceitos.
Dito isso, vou explicar esses conceitos utilizando mais uma analogia. A barra lateral mostra as definições
padrão da terminologia, a analogia que vem depois explica tudo em termos conceituais. Minha analogia se
baseia em fazer um sanduíche (em minha defesa, estou escrevendo este texto antes do almoço e estou
com fome). Começo a analogia no supermercado, em que a maioria das pessoas compra os ingredientes
do sanduíche.
Algumas definições
Data lake: Um data lake é um repositório de armazenamento que contém uma enorme
quantia de dados brutos ou refinados em um formato nativo, para acesso sob demanda. Às
vezes, o termo é associado ao armazenamento de objetos do Apache Hadoop. No entanto,
cada vez mais, cientistas de dados usam o termo data lake para descrever qualquer
conjunto de dados grande com exigências de dados e esquema indefinidas. Os analistas
definem esses parâmetros somente no momento de consultar os dados.
Data swamp: Um data swamp é um data lake criado de maneira incorreta, documentado
inadequadamente ou com manutenção ruim. Essas deficiências comprometem a
capacidade de recuperar dados; os usuários não conseguem analisar e explorar os dados
de forma eficiente. Embora os dados existam, o data swamp não consegue recuperá-los
sem metadados contextuais.
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 2 de 7
ibm.com/developerWorks/ developerWorks®
De forma semelhante, os auditores precisam acessar os dados brutos para verificar se não houve
contaminação dos dados no processo de preparação de dados em virtude da transcrição, limpeza,
formatação e normalização. Ao contrário dos mantimentos na lanchonete, os dados podem ser copiados
e clonados. Portanto, para conformidade e auditoria, o armazenamento dos dados brutos é possível.
Originalmente, data lake referia-se ao reservatório de dados que continha dados brutos, além de dados não
estruturados, tais como texto, imagens, áudio e vídeo. Entretanto, como mencionado, os fornecedores têm
outras definições de data lake.
Dando continuidade à analogia, imagine um consumidor meticuloso que desconfia das origens e do
frescor dos ingredientes que estão nos recipientes do balcão de sanduíches. O consumidor também pode
querer colocar no sanduíche legumes ou carnes que não estão disponíveis na lanchonete. A lanchonete
certamente não permitirá que clientes entrem atrás do balcão para preparar seus próprios sanduíches.
Logo, a única opção do consumidor é ir ao supermercado, comprar mantimentos e preparar o sanduíche na
sua cozinha. Muitas vezes, analistas e cientistas de dados profissionais querem acesso aos dados brutos,
não dados resumidos, agregados e preparados que estão armazenados no data warehouse: eles referem
obter os dados mais recentes da fonte a fim de assegurar sua validade e sua relevância. Talvez também
queiram ver as velocidades de chegada dos dados, que poderiam ser mascaradas durante o processo de
preparação. Se desejarem ver outros dados não considerados no data warehouse, os analistas precisarão
acessar diretamente os bancos de dados brutos. Em vez de acessar diretamente os dados na fonte,
um data lake mantém clones dos bancos de dados brutos para tais necessidades de acesso e para a
simulação de uma nova análise de dados.
Às vezes, uma pessoa que prepara sanduíches gourmet pode insistir em obter ingredientes frescos
diretamente da fazenda, não do supermercado. Nesse caso, a pessoa precisa replicar as funções do
comprador de mantimentos do supermercado, o que é análogo aos dados em tempo real de um dispositivo
de Internet das Coisas (Internet of Things, ou IoT), por exemplo. Assim, o data lake precisa realizar também
as funções de extração, transformação e carregamento (extract, transform, load, ou ETL) para tais fluxos de
dados em tempo real.
Por fim, imagine uma lanchonete decadente. Os recipientes no balcão não têm etiquetas. Os legumes e
carnes estão misturados a esmo. Nem mesmo o funcionário sabe exatamente qual tipo de carne está no
último recipiente. Os clientes podem ir embora porque não sabem com certeza qual tipo de sanduíche vão
receber. Isso é análogo a um data swamp, que é um data lake com manutenção inadequada. Os dados
são como uma carne desconhecida; ninguém consegue confirmar os antecedentes de alguns deles. Dados
bons estão inacessíveis porque o data swamp não documenta adequadamente (ou, pior, documenta
incorretamente) as etiquetas dos metadados ou alguns dos dados estão em um formato que as ferramentas
integradas não conseguem ler ou não podem ser recuperados em uma consulta.
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 3 de 7
developerWorks® ibm.com/developerWorks/
• Como plataforma para integrar dados em tempo real de sistemas operacionais ou transacionais e,
cada vez mais, dados de sensores de dispositivos de IoT
Os dados agregados e resumidos que o data warehouse fornece são suficientes para a maioria dos
usuários de BI. Os usuários de um data lake podem ser auditores, analistas especializados e cientistas de
dados (que são uma minoria). Quais são outros motivos atraentes para uma empresa decidir criar um data
lake? Por conseguinte, vale a pena examinar as diferenças entre um data lake e um data warehouse.
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 4 de 7
ibm.com/developerWorks/ developerWorks®
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 5 de 7
developerWorks® ibm.com/developerWorks/
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 6 de 7
ibm.com/developerWorks/ developerWorks®
Tópicos relacionados
• Mergulhe na análise de dados e no data lake
• Soluções de data lake da IBM Analytics
Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 7 de 7