Você está na página 1de 7

Como os dados se tornam conhecimento, Parte 2:

data lakes e data swamps


Vinay R. Rao 7 de março de 2018

Aprenda um pouco mais sobre data lakes e data swamps neste artigo fácil de seguir,
porém rico em informações.

O conceito de data lake existe há poucos anos. Inicialmente, ele atraiu um pouco de controvérsia e foi
rotulado como uma moda da área de marketing. O termo data lake não fazia parte de nenhuma arquitetura
tradicional de armazenamento de dados; portanto, foi usado livremente por fornecedores para se referir
a muitas coisas diferentes.
A terminologia de armazenamento de dados, como fluxos, conjuntos, reservatórios e nuvens, é muito
usada na ciência de dados. Inevitavelmente, as pessoas começaram a criar paralelos com o ecossistema
aquático natural. Por isso, agora temos data lakes e data swamps.
As analogias são ótimas para explicar conceitos, mas sempre existe o risco de levá-las longe demais,
até elas falharem. Elas também tornam a terminologia confusa para quem é novo no campo e não sabe
o que todos os termos realmente significam. À medida que o conceito de data lake foi lentamente aceito,
no entanto, apareceram tentativas de definir uma arquitetura para formalizar os conceitos.
Dito isso, vou explicar esses conceitos utilizando mais uma analogia. A barra lateral mostra as definições
padrão da terminologia, a analogia que vem depois explica tudo em termos conceituais. Minha analogia se
baseia em fazer um sanduíche (em minha defesa, estou escrevendo este texto antes do almoço e estou
com fome). Começo a analogia no supermercado, em que a maioria das pessoas compra os ingredientes
do sanduíche.

Algumas definições

Data warehouse: Um data warehouse é uma arquitetura de armazenamento criada para


conter dados extraídos de várias fontes de dados, inclusive armazenamentos de dados
operacionais e transacionais e data marts departamentais dentro de uma empresa. O data
warehouse combina dados em uma forma resumida agregada que é adequada para análise
de dados na empresa e relatórios adaptados às necessidades de negócios.

Data lake: Um data lake é um repositório de armazenamento que contém uma enorme
quantia de dados brutos ou refinados em um formato nativo, para acesso sob demanda. Às
vezes, o termo é associado ao armazenamento de objetos do Apache Hadoop. No entanto,
cada vez mais, cientistas de dados usam o termo data lake para descrever qualquer
conjunto de dados grande com exigências de dados e esquema indefinidas. Os analistas
definem esses parâmetros somente no momento de consultar os dados.

© Copyright IBM Corporation 2018 Marcas


Como os dados se tornam conhecimento, Parte 2: Data lakes e data swamps registradas
Página 1 de 7
developerWorks® ibm.com/developerWorks/

Data swamp: Um data swamp é um data lake criado de maneira incorreta, documentado
inadequadamente ou com manutenção ruim. Essas deficiências comprometem a
capacidade de recuperar dados; os usuários não conseguem analisar e explorar os dados
de forma eficiente. Embora os dados existam, o data swamp não consegue recuperá-los
sem metadados contextuais.

Uma analogia simples


Um supermercado tem corredores e prateleiras em que os funcionários classificam e guardam os mantimentos
ordenadamente, por categoria. É fácil selecionar e comprar os mantimentos desejados. O supermercado é
análogo a um banco de dados que armazena ativos de dados em linhas e colunas de tabelas, para uma
recuperação fácil.
Os mantimentos estocados vêm de várias fontes e fornecedores, chegam em momentos distintos e têm
datas de validade diferentes. De forma semelhante, os dados podem vir de várias fontes de dados em
momentos distintos. Os dados também podem envelhecer, assim como os mantimentos. Assim como os
muitos ingredientes do supermercado que podem ser usados para fazer um sanduíche, as informações
são uma coleção de dados catalogados em um contexto específico. Em outras palavras, o sanduíche é
análogo às informações.
Os legumes e verduras inteiros são análogos aos dados não estruturados e os legumes e verduras
fatiados e picados são análogos aos dados estruturados. (Para essa analogia funcionar, suponho que
legumes inteiros são não estruturados.)
Agora, suponha que a lanchonete do seu bairro seleciona e compra mantimentos nesse supermercado,
limpa, lava e corta esses mantimentos para usar nos sanduíches e os armazena separadamente – assim
como limpamos, estruturamos e normalizamos os dados antes de usá-los em uma análise.
Quando quer comer um sanduíche, você vai até a lanchonete. A lanchonete também pode ter diferentes
balcões onde é possível conseguir um sanduíche, wrap ou salada – análogos aos data marts e data
warehouses. Assim como um balcão é um subconjunto da lanchonete, o data mart é um subconjunto do
data warehouse. Um data mart corresponde a um departamento individual, enquanto um data warehouse
corresponde à empresa inteira.
Na lanchonete, você examina o menu e decide qual tipo de sanduíche deseja; depois, faz o pedido.
O funcionário utiliza o mesmo processo repetitivo para preparar cada sanduíche. Na verdade, é possível
encontrar alguns sanduíches já prontos e embalados para consumo imediato. A lanchonete é análoga
ao menu de ferramentas de inteligência de dados (business intelligence, ou BI) integradas ao data
warehouse. A análise de dados também usa processos repetitivos para gerar relatórios e fornecer alguns
relatórios padrão aos usuários para consumo imediato.
A maioria das pessoas prefere personalizar seus sanduíches, pedindo alterações nas quantidades de
ingredientes, mudando a guarnição ou omitindo alguns ingredientes. Da mesma forma, com ferramentas
de BI, é possível personalizar relatórios ao selecionar dados específicos. Assim como pode criar seu
próprio sanduíche especificando os ingredientes ao funcionário da lanchonete, você também pode criar
relatórios personalizados de análise de dados ao especificar os dados e algoritmos no menu de BI.
Agora, imagine que você é um inspetor da vigilância sanitária e deseja ter certeza de que nenhum
mantimento usado para preparar os sanduíches estava contaminado. Além disso, você quer ter certeza
de que o processo utilizado no preparo dos alimentos, incluindo lavar, limpar e cortar, foi feito de forma
uniforme e em condições sanitárias. Nesse caso, precisaria auditar os processos usados no preparo dos
alimentos e inspecionar periodicamente a área de preparo dos alimentos.

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 2 de 7
ibm.com/developerWorks/ developerWorks®

De forma semelhante, os auditores precisam acessar os dados brutos para verificar se não houve
contaminação dos dados no processo de preparação de dados em virtude da transcrição, limpeza,
formatação e normalização. Ao contrário dos mantimentos na lanchonete, os dados podem ser copiados
e clonados. Portanto, para conformidade e auditoria, o armazenamento dos dados brutos é possível.
Originalmente, data lake referia-se ao reservatório de dados que continha dados brutos, além de dados não
estruturados, tais como texto, imagens, áudio e vídeo. Entretanto, como mencionado, os fornecedores têm
outras definições de data lake.
Dando continuidade à analogia, imagine um consumidor meticuloso que desconfia das origens e do
frescor dos ingredientes que estão nos recipientes do balcão de sanduíches. O consumidor também pode
querer colocar no sanduíche legumes ou carnes que não estão disponíveis na lanchonete. A lanchonete
certamente não permitirá que clientes entrem atrás do balcão para preparar seus próprios sanduíches.
Logo, a única opção do consumidor é ir ao supermercado, comprar mantimentos e preparar o sanduíche na
sua cozinha. Muitas vezes, analistas e cientistas de dados profissionais querem acesso aos dados brutos,
não dados resumidos, agregados e preparados que estão armazenados no data warehouse: eles referem
obter os dados mais recentes da fonte a fim de assegurar sua validade e sua relevância. Talvez também
queiram ver as velocidades de chegada dos dados, que poderiam ser mascaradas durante o processo de
preparação. Se desejarem ver outros dados não considerados no data warehouse, os analistas precisarão
acessar diretamente os bancos de dados brutos. Em vez de acessar diretamente os dados na fonte,
um data lake mantém clones dos bancos de dados brutos para tais necessidades de acesso e para a
simulação de uma nova análise de dados.
Às vezes, uma pessoa que prepara sanduíches gourmet pode insistir em obter ingredientes frescos
diretamente da fazenda, não do supermercado. Nesse caso, a pessoa precisa replicar as funções do
comprador de mantimentos do supermercado, o que é análogo aos dados em tempo real de um dispositivo
de Internet das Coisas (Internet of Things, ou IoT), por exemplo. Assim, o data lake precisa realizar também
as funções de extração, transformação e carregamento (extract, transform, load, ou ETL) para tais fluxos de
dados em tempo real.
Por fim, imagine uma lanchonete decadente. Os recipientes no balcão não têm etiquetas. Os legumes e
carnes estão misturados a esmo. Nem mesmo o funcionário sabe exatamente qual tipo de carne está no
último recipiente. Os clientes podem ir embora porque não sabem com certeza qual tipo de sanduíche vão
receber. Isso é análogo a um data swamp, que é um data lake com manutenção inadequada. Os dados
são como uma carne desconhecida; ninguém consegue confirmar os antecedentes de alguns deles. Dados
bons estão inacessíveis porque o data swamp não documenta adequadamente (ou, pior, documenta
incorretamente) as etiquetas dos metadados ou alguns dos dados estão em um formato que as ferramentas
integradas não conseguem ler ou não podem ser recuperados em uma consulta.

Por que precisamos de data lakes, na verdade?


Agora, você sabe que precisamos de data lakes por vários motivos:
• Como repositório de dados brutos para fins de conformidade e auditoria (por exemplo, gravações de
áudio e vídeo, digitalizações de documentos e arquivos de texto e log)
• Como plataforma para cientistas e analistas de dados acessarem dados estruturados e não
estruturados para fins de validação, assim como para simulação de novos modelos de análise
de dados

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 3 de 7
developerWorks® ibm.com/developerWorks/

• Como plataforma para integrar dados em tempo real de sistemas operacionais ou transacionais e,
cada vez mais, dados de sensores de dispositivos de IoT
Os dados agregados e resumidos que o data warehouse fornece são suficientes para a maioria dos
usuários de BI. Os usuários de um data lake podem ser auditores, analistas especializados e cientistas de
dados (que são uma minoria). Quais são outros motivos atraentes para uma empresa decidir criar um data
lake? Por conseguinte, vale a pena examinar as diferenças entre um data lake e um data warehouse.

Qual é a diferença entre um data warehouse e um data lake?


Os data warehouses são uma tecnologia madura e segura, com uma arquitetura formal. Eles armazenam
dados totalmente processados e estruturados, sujeitos a processos de governança de dados. Os data
warehouses combinam dados em uma forma resumida agregada para uso em toda a empresa e escrevem
metadados e definições de esquemas enquanto fazem as operações de gravação de dados. Em geral,
os data warehouses têm configurações fixas; eles são extremamente estruturados e, portanto, menos
flexíveis e ágeis. Há um custo associado ao processamento de todos os dados antes do armazenamento –
e o armazenamento de volumes grandes é relativamente mais caro.
Por outro lado, os data lakes são uma tecnologia mais recente e têm arquiteturas em evolução. Os data
lakes armazenam dados brutos em qualquer forma – estruturados e não estruturados – e em qualquer
formato, inclusive texto, áudio, vídeo e imagens. Conforme a definição, um data lake não está sujeito
à governança de dados. Todavia, os especialistas concordam que o bom gerenciamento dos dados é
essencial para impedir que um data lake se transforme em um data swamp. Os data lakes criam esquemas
durante as operações de leitura de dados. Os data lakes são menos estruturados e mais flexíveis; eles
oferecem uma agilidade melhor do que os data warehouses. Nenhum processamento é necessário até a
recuperação dos dados. Além disso, os data lakes foram criados para utilizar um armazenamento barato.
Apesar das vantagens, os data lakes precisam melhorar em termos de segurança, governança e
gerenciamento. Entretanto, há um elefante na sala que é um fator convincente.
Fatores como aprendizado de máquina e aprendizado profundo
Um dos motivos menos discutidos – mas, provavelmente, o mais convincente – para adotar os data lakes
é a crescente adoção de tecnologias de aprendizado de máquina e aprendizado profundo para mineração
e análise de dados. A auditoria de software é um domínio maduro para a busca e a análise de dados
tradicionais; porém, ela está em sua infância no que se refere às tecnologias de aprendizado de máquina e
aprendizado profundo usadas para mineração e análise de dados.
A transcrição de fala, o reconhecimento de caracteres ópticos, o reconhecimento de imagem e vídeo, etc.
utilizam tecnologias de aprendizado de máquina ou aprendizado profundo rotineiramente. Os cientistas
de dados precisam acessar os dados brutos não estruturados para treinar esses sistemas a fim de fazer
validação de sistemas e assegurar uma trilha de auditoria. Similarmente, o aprendizado profundo realiza
tarefas como mineração de dados para encontrar padrões e relacionamentos entre dados dimensionais e
de séries temporais.
Outra aplicação do aprendizado profundo é extrair dados anteriormente inacessíveis que uma consulta
não consegue recuperar. Esses dados, chamados de dark data, são o assunto do próximo segmento desta
série. O advento do aprendizado de máquina e do aprendizado profundo em aplicações de mineração e
análise de dados é um motivo muito convincente para migrar para arquiteturas de data lake.

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 4 de 7
ibm.com/developerWorks/ developerWorks®

Os benefícios dos data lakes


Os data lakes têm vários benefícios:
• Fácil coleta e ingestão de dados: Todas as fontes de dados de uma empresa alimentam o
data lake. Portanto, o data lake se torna um ponto de acesso integrado a dados estruturados e
não estruturados armazenados em servidores locais ou na nuvem. Toda a coleção de dados não
isolada fica facilmente disponível para a ingestão por ferramentas de análise de dados. Além
disso, o data lake pode armazenar dados em vários formatos, como texto, áudio, vídeo e imagens,
em diferentes formatos de arquivos. Essa flexibilidade simplifica a integração de armazenamentos
de dados legados.
• Suporte para fontes de dados em tempo real: Os data lakes oferecem suporte a funções de ETL
para fluxos de dados em tempo real e alta velocidade, o que permite a convergência de dados de
sensor de dispositivos de IoT com outras fontes de dados dentro do data lake.
• Preparação de dados mais rápida: Os analistas e cientistas de dados não precisam perder tempo
acessando várias fontes diretamente e podem buscar, encontrar e acessar dados de modo muito
mais fácil, acelerando o processo de preparação e reutilização de dados. Os data lakes também
monitoram e confirmam a linhagem dos dados, o que ajuda a assegurar que os dados sejam
confiáveis e produzam BI imediata para a tomada de decisões orientada por dados.
• Escalabilidade e agilidade melhores: Os data lakes podem tirar proveito de sistemas de arquivos
distribuídos para armazenamento; consequentemente, são altamente escaláveis. O uso de
tecnologias de software livre também reduz os custos de armazenamento. Os data lakes têm uma
estrutura menos rígida e, portanto, oferecem inerentemente uma flexibilidade maior, que resulta em
agilidade maior. Os cientistas de dados podem criar ambientes de simulação dentro do data lake
para desenvolver e testar novos modelos de análise de dados.
• Análise de dados avançada com inteligência artificial: Graças ao acesso a dados brutos,
à capacidade de criar ambientes de simulação e à flexibilidade para reconfigurar, os data lakes
são uma plataforma eficiente para desenvolver e usar rapidamente modelos avançados de análise
de dados. Ele são ideais para o uso de aprendizado de máquina e aprendizado profundo a fim
de realizar tarefas como mineração e análise de dados, assim como para a extração de dados
não estruturados.
A evolução dos data lakes
A evolução dos data lakes é mais uma convergência de tecnologias do que uma evolução. Os data
warehouses foram um avanço evolutivo em relação aos seus predecessores, os bancos de dados
relacionais. Porém, não podemos dizer o mesmo sobre data lakes e data warehouses.
Os data lakes reúnem diversas tecnologias, incluindo data warehousing, tecnologias de fluxo de dados em
tempo real e alta velocidade, mineração de dados, aprendizado profundo e armazenamento distribuído,
entre outras. Entretanto, existe uma sensação de que os data lakes têm um grupo limitado de usuários entre
cientistas ou analistas de dados profissionais. Outro equívoco comum é vincular o conceito de data lake a
uma tecnologia habilitadora específica, como o Hadoop.
O conceito de data lake tem um potencial muito maior do que qualquer outra tecnologia subjacente e está
em processo de evolução contínua à medida que os fornecedores agregam recursos e funcionalidades.
As possíveis áreas de crescimento incluem:

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 5 de 7
developerWorks® ibm.com/developerWorks/

• Padronização arquitetural e interoperabilidade


• Governança, gerenciamento e curadoria de dados
• Segurança holística de dados
Como acontece com a maioria das tecnologias em evolução, a competição entre fornecedores e fatores
de negócios promove inovações. É somente uma questão de tempo até os data lakes conquistarem a
aceitação generalizada em meio ao panteão de tecnologias de armazenamento de dados.
A aplicação dos data lakes
Os data lakes são indicados para determinadas aplicações por causa de alguns recursos. Esta seção
examina dois deles.
Assistência médica e ciências biológicas
Os data lakes podem ajudar a resolver problemas de interoperabilidade em prontuários eletrônicos dos
pacientes (PEP). A intenção da exigência federal para uso de PEPs nos Estados Unidos foi oferecer aos
médicos a capacidade de acessar os prontuários médicos dos pacientes em diferentes sistemas, assim como
facilitar a transição dos cuidados com pacientes entre provedores. Na prática, muitos desses registros – tanto
sinistros de seguro quanto dados clínicos – não são interoperáveis ou não estão na forma de dados legíveis
por máquina. Os data lakes armazenam registros em qualquer formato até a recuperação. Portanto, os
prontuários de pacientes também podem incluir anotações manuais dos médicos, exames por imagem, etc.
Os data lakes também têm a capacidade de extrair e armazenar dados de fluxos de dados em tempo real,
resultantes do uso crescente de telemetria de dispositivos médicos e IoT na assistência médica.
Serviços bancários e finanças
O setor de serviços bancários e finanças normalmente lida com várias fontes de dados. Também lida
com dados de transações em alta velocidade, desde mercados de ações até cartões de crédito, e outras
transações bancárias. As instituições bancárias e financeiras armazenam rotineiramente documentos
legais e de outra natureza para exigências regulamentares de conformidade e auditoria. Os data lakes
são ideais para o armazenamento desses formatos de dados mistos e para armazenar dados legados
digitalmente para uma fácil recuperação. Eles funcionam como uma plataforma ágil para a ingestão de
vários fluxos de dados para uso intenso de análise de dados nessa vertical da indústria.
Indo em frente
Quando criados e implementados adequadamente, os data lakes são uma maneira eficiente de armazenar
grandes volumes de dados em múltiplos formatos sem precisar de silos. Eles diminuem o tempo e o custo
da ingestão e da transformação de dados e, portanto, disponibilizam os dados imediatamente para os
usuários. Também permitem o uso de armazenamento distribuído de menor custo. Os data lakes ainda
precisam amadurecer em termos de arquitetura. No momento, existe uma falta de padronização entre as
ofertas dos fornecedores. Os data lakes ainda estão evoluindo e agregando novas funcionalidades a fim
de melhorar os recursos para controle de acesso, segurança, gerenciamento de dados, curadoria, etc.
O advento das tecnologias de aprendizado de máquina e aprendizado profundo para mineração e análise
de dados introduziu a necessidade de uma plataforma que ofereça acesso fácil a dados brutos para treinar
esses sistemas, para validação de sistemas e para assegurar uma trilha de auditoria. Os data lakes são
uma resposta elegante a essa necessidade. O aprendizado profundo também possibilita o acesso a dados
legados ingeridos anteriormente em data lakes, que não podem ser acessados por meio de mecanismos
de consulta padrão. Os chamados “dark data” são o tema da Parte 3 desta série.

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 6 de 7
ibm.com/developerWorks/ developerWorks®

Tópicos relacionados
• Mergulhe na análise de dados e no data lake
• Soluções de data lake da IBM Analytics

© Copyright IBM Corporation 2018


(www.ibm.com/legal/copytrade.shtml)
Marcas registradas
(www.ibm.com/developerworks/ibm/trademarks/)

Como os dados se tornam conhecimento, Parte 2: data lakes e data swamps Página 7 de 7

Você também pode gostar