Você está na página 1de 21

Data Mesh

A revolução da gestão de
dados
Índice
01
Uma mudança de
02
O inimigo da escala
03
Data Lakes e Swamps
04
O desenho do Data
paradigma (pg. 3) (pg. 5) (pg. 6) Mesh (pg. 9)

05
A arquitetura da Data
06
Case de adoção ao
07
A Starburst (pg. 18)
Clique no número para
navegar até a sessão.

Mesh (pg. 15) Data Mesh (pg. 16)

2
Uma mudança de
paradigma
O investimento em dados, análises e inovação de IA aumentaram muito em todas as
áreas, mas isso não rendeu os resultados que as empresas esperavam.
Enquanto isso, o volume, a variedade e as fontes de dados continuam escalando
para níveis imprevisíveis. As empresas agora têm grupos independentes de
pessoas gerando dados nas mais diversas plataformas, e as equipes de Business
Intelligence e Data Science que buscam extrair valor desses dados precisam de
acesso à todos esses conjuntos de dados.
A resposta tradicional a tais problemas de escala e complexidade tem sido buscar
plataformas mais robustas para análise. Mas infelizmente, as novas soluções
muitas vezes introduzem novos problemas.


Você acaba nesta armadilha contínua de tentar Zhamak Dehghani
encontrar sua próxima plataforma de big data, nunca Diretora de tecnologias
da ThoughtWorks North
se materializando em arquitetura, e nunca realmente America
vendo valor no final”

3
Essa espiral de ineficiência e insatisfação entre grandes empresas deu origem ao
Data Mesh, uma nova e mais holística abordagem para gerenciar escala dentro de
negócios globais.
O conceito Data Mesh é uma quebra de paradigma que exige mudança
organizacional, tecnológica e arquitetônica.
A lógica inerente do Data Mesh, combinada com o sucesso de várias empresas que
o colocaram em prática, sugerem que ele tem o potencial de ajudar as
organizações a alcançar o tipo de resultados esperados desde o início da Era do Big
Data.
Considerando que as plataformas de dados atuais são amplamente centralizadas e
monolíticas, construídas em torno de pipelines complexos que alimentam dados em
um único ponto sem levar em conta a qualidade e eficiência, o Data Mesh incentiva
o cultivo de diferentes conjuntos de dados como produtos distribuídos e orientados
em torno de domínios.
Cada um desses conjuntos de dados específicos de domínio tem seus próprios
engenheiros incorporados e proprietários de produtos que são responsáveis por
gerenciar seus dados e sua disponibilização para outras equipes. Ele é construído
em um nível de propriedade e responsabilidade de dados ausentes em abordagens
anteriores.

4
O inimigo da escala
A era moderna do gerenciamento de dados começou com o Data Warehouse, que A hipocrisia surge porque o Data Warehouse, como
Daniel Abadi, Professor Darnell-Kanal de Ciência da Computação na University of plataforma centralizada, é dominada pela
Maryland College Park, aponta como uma das ideias mais hipócritas do planeta. coordenação humana. Você não pode ter
Esses Data Warehouses são normalmente construídos usando softwares escaláveis centralização e paralelização, então o Warehouse
que permitem que milhares de máquinas operem em paralelo com comunicação e limita o próprio software que implanta.
coordenação mínimas – este é fundamental porque a coordenação, como observa
Abadi, é o inimigo de escala – uma vez que os “nós” são obrigados a falar uns com os
outros antes de completar o trabalho, tornando-os mais lentos e não escaláveis.


“Executar queries nos dados do Data Warehouse é incrivelmente rápido e escalável. Daniel Abadi
Todo o resto é lento e não escalável. Qual o motivo de tantos projetos de Data Cientista de Dados &
Professor Darnell-Kanal
Warehouses? Como especialistas em escalabilidade podem continuar dizendo aos de Ciência da
seus clientes para implantarem seu software em ambientes tão inescaláveis?” Computação na
University of Maryland,
College Park

5
Data Lakes & Swamps
As deficiências do data warehouse eventualmente geraram o conceito de data lake,
originalmente criado por James Dixon, ex-diretor de tecnologia da Pentahoo, em
2010:


Se você pensar em um datamart como um depósito James Dixon
de água engarrafada – limpo e estruturado para Ex-diretor de tecnologia
fácil consumo – o data lake é um grande corpo de da Pentahoo

água em um estado mais natural. Os dados fluem


de uma fonte para preencher o lago, e vários
usuários do lago podem examinar, mergulhar ou
coletar amostras.”

A ideia, como Dehghani explicou em sua palestra no Datanova 2021, foi extrair os
dados dos sistemas operacionais, carregá-los em formato semiestruturado, de
forma bruta, e então deixar para outros fazerem qualquer limpeza, transformação ou
criação de data warehouses para acesso SQL

6
Refined data

Real-time store

Cloud
Bigtable

Pipelines
Cloud ML
Spanner
Sources Stream processing

Cloud Cloud ML (prediction)


Pub/Sub Dataflow
Cloud
Sensors Bigtable
Arquitetura de ML (training)

dados Data lake


Cloud
Data marts
Datalab
multi-modal na On-premises
Cloud
Storage
Datawarehouse
Cloud ML
nuvem Engine BigQuery
Batch
“Terceira geração agora”
Transfer Data mining and Hive, Spark, etc
User activity Appliance exploration
Cloud
Transfer Cloud Dataproc
Service Datalab
Cloud
OLTP Cloud Storage
gsutil
Dataprep

Operational Pipeline Analytical Datawarehouse


Data Plane Apps Lakeshore Marts

7 Zhamak Dehghani : @zhamakd : 2021


A desvantagem dessa abordagem é que a responsabilidade pelos dados fica
ofuscada. À medida que a quantidade de dados e o tamanho de uma empresa
aumentam, os diferentes grupos dentro da empresa perdem a noção de quem
possui e cuida dos dados. Todos continuam a operar como se os dados que fluem
para o lago chegassem de forma limpa e clara. Na realidade, porém, eles acabam
com um pântano de dados, porque ninguém se apropriou desses conjuntos de
dados e seu impacto e sentido da correnteza. O que temos é o gerenciamento de
dados de passar a responsabilidade.
Isso nos leva ao mais recente conceito, que pretende combinar os melhores
recursos de data lakes e data warehouses em um modelo de nuvem. Essa nova
arquitetura de dados multimodal consiste em um plano operacional, um meio de
obter os dados desses sistemas de origem e colocá-los na nuvem e, em seguida,
na análise e modelagem downstream. Embora represente uma melhoria
arquitetônica real em relação ao warehouse tradicional e ao data lake, ele existe em
um ecossistema de dados cada vez mais complexo e superlotado de soluções.
A indústria de Big Data e IA continua inovando, mas ainda vemos todos esses
modos de falha em escala com desafios ainda maiores e mais complexos.
O Data Mesh trabalha para superar esses modos de falha, primeiro pedindo às
empresas que repensem sua organização, premissas arquitetônicas e tecnológicas
sobre o melhor maneiras de gerenciar dados. Considere a ideia de que ele deve ser
centralizado para ser útil como um dos princípios do gerenciamento de dados. Em
teoria, isso é atraente, mas na prática, cria problemas organizacionais. “Quando
você centraliza os dados para que sejam útil”, diz Dehghani, “então você centraliza
as pessoas e a tecnologia, com isso perde-se a origem e o significado dos dados
onde foram gerados”.

8
O desenho do Data Mesh
O Data Mesh é ideal para organizações que lidam A nova abordagem possui quatro princípios
com: fundamentais:
• Mudança constante na topologia de seu cenário de
dados
• Proliferação de fontes de dados e consumidores
• Diversidade nas necessidades de transformação e
01. Propriedade de dados
processamento de dados orientada por domínio
• A necessidade de responder rapidamente às
O Data Mesh exige uma mudança do modelo
mudanças relacionadas aos dados
centralizado para uma nova versão orientada ao
Se você tiver mudanças contínuas e complexidade domínio dos conjuntos de dados. Em vez de canalizar
em seus landscape de dados, juntamente com uma dados de vários domínios para uma plataforma
proliferação de fontes e consumidores, e você está monolítica, e afastando-a dos proprietários originais,
insatisfeito com os investimentos em dados & IA os especialistas de domínio que melhor conhecem os
versus os resultados alcançados, vale a pena dados permanecem no controle.
considerar uma abordagem de Data Mesh.

9
Considere um aplicativo de streaming de música. O armazenamento físico ainda pode ser centralizado
Tradicionalmente, os dados relevantes para músicas na nuvem, mas pode consistir em buckets, cada um
e álbuns, streams, taxas de reprodução de podcast, pertencente ao domínio relevante, operando como
recomendações ou o comportamento e as um nó autônomo em uma malha interconectada.
preferências do usuário seguiriam do media player Essa abordagem permite dimensionar fontes de
para uma plataforma centralizada. Quando um novo dados, número de casos de uso e/ou diversidade de
recurso ou funcionalidade é introduzido, toda a modelos de acesso aos dados, pois você faz isso
plataforma de dados monolítica deve se adaptar aumentando os “nós” do mesh, ao invés de revisar
para tornar esse novo conjunto de dados disponível alguma plataforma centralizada monolítica.
para consumo por diferentes equipes. Este torna-se
“A maneira certa de escalar o processo de dados é
um grande obstáculo à escalabilidade.
particioná-los. E a maneira certa de escalar o
Agora imagine a equipe construindo o media player esforço humano na manutenção de conjuntos de
possuindo seu conjunto de dados, enquanto a equipe dados também é particionar os dados.“
que acompanha o comportamento do usuário e
Daniel Abadi
preferências gerencia seu conjunto de dados. Em vez
de empurrar o domínio dos dados através de um Cientista de Dados & Professor Darnell-Kanal de Ciência da
Computação na University of Maryland, College Park
pipeline e em um armazenamento central, passando
sobre a propriedade, cada grupo torna-se
responsável por gerenciar, armazenar e ler seus
próprios conjuntos de dados em um modelo fácil de
consumir

10
02. Dados como produto

A criação dos conjuntos de dados orientados ao Esses conjuntos de dados orientados ao produto
domínio não elimina a necessidade de limpar, devem ser:
preparar, agregar e adicionar os dados. A diferença
1 – Detectável
é que esses processos são gerenciados
internamente, dentro de cada domínio. Os proprietários do domínio precisam garantir que
seu produto seja fácil de encontrar, através de um
Um medo dessa abordagem orientada ao domínio é
registro, catálogo de dados ou qualquer outra forma.
que ela levará a novos silos de dados, na medida que
diferentes grupos adotam tecnologias diferentes 2 – Endereçável
para atingir esses objetivos internos. O segundo
Nomenclaturas comuns devem ser usadas para
princípio do Data Mesh exige uma mudança de
tornar os dados acessíveis, especialmente porque
pensamento em relação aos dados como produto,
diferentes domínios podem adotar diferentes
contra esse efeito do silo. Uma vez que uma
formatos de dados.
organização considera seus conjuntos de dados
como produtos que precisam ser valiosos para todos 3 – Confiável
usuários internos, de analistas a cientistas de dados,
qualquer tipo de efeito do silo seria reconhecido Os produtos de dados precisam ser verdadeiros e
como uma falha - um produto que ninguém pode precisos, com objetivos de nível de serviço definidos
acessar ou usar. e monitorados.

11
4 – Autodescritivo diferentes modos de acesso para satisfazer as “[Devemos] permitir que
ferramentas nativas dos cientistas, analistas ou as equipes desenvolvam
Engenheiros de dados e cientistas de dados
outros grupos de usuários finais. expertise em conjuntos de
devem ser capazes de descobrir, entender e
dados específicos e
consumir conjuntos de dados facilmente. Voltando ao exemplo do reprodutor de mídia de
capacitá-los a assumir a
streaming, um domínio crítico seria a reprodução de
5 – Interoperável propriedade total e
músicas ou eventos de reprodução - quais músicas
completa desses dados.
Os usuários devem ser capazes de correlacionar foram reproduzidas por quais usuários, quando,
Eles reúnem conjuntos de
dados entre domínios e ingressar, filtrar, agregar, com que frequência, onde, etc. Vários grupos dentro
dados relevantes para sua
etc.; aplicar padrões de governança global para da organização desejarão acessar esses dados. Os
competência principal,
interoperabilidade e comunicação são essenciais. proprietários de domínio podem começar a atender
realizam as extrações,
a essas necessidades fornecendo dois conjuntos de
6 – Seguro transformações e tornam
dados diferentes. Eles poderiam oferecer eventos
os dados acessíveis não
Política de controle de acesso global por meio de de play em tempo real expostos em fluxos e também
apenas para suas próprias
SSO e acesso baseado em função de controle os agregar, para salvar em um armazenamento de
necessidades, mas
garantirá o acesso seguro aos conjuntos de dados. objetos.
entregam como um
Essa mudança de pensamento em direção aos Aqui consideramos um player de streaming de produto acabado que
conjuntos de dados orientados ao domínio como música, que gera uma variedade de dados também pode ser
produtos exige alterações organizacionais, relacionados aos artistas, preferências, perfis de acessado por outras
incluindo novos papéis, como proprietários de usuários, streams de podcasts, dados demográficos equipes dentro da
produtos de dados e desenvolvedores de produtos dos ouvintes, etc. Cada um desses grupos é organização.”
de dados. Há uma inversão do modelo de servir segmentado para que os dados relevantes de sejam
Daniel Abadi
dados orientados à tecnologia para orientados ao de propriedade dos artistas, podcasts e dos
domínio, e isso significa que os proprietários dos usuários. Cada equipe é responsável por facilitar a Cientista de Dados & Professor
Darnell-Kanal de Ciência da
dados precisam fornecer os mesmos dados em detecção, acesso e compreensão dos seus dados Computação na University of
dentro da organização. Maryland College Park

12
03. Infraestrutura de autoatendimento
como plataforma

A distribuição de propriedade e arquitetura requer A infraestrutura precisa ser de autoatendimento e


um novo tipo de infraestrutura que se afasta do generalizada, para que não inclua nenhuma
paradigma de obter tudo em um só lugar para uma característica específica do domínio que possa
unidade de arquitetura que pode incluir dados, o torná-la menos utilizável para outro domínio. A lista
código que os processa e os atende e a de recursos é extensa mas, em última análise, essa
infraestrutura que executa e o protege. infraestrutura de autoatendimento deve facilitar para
um grupo criar um novo produto de dados e
Pedir a cada grupo de domínio para construir e
disponibilizá-lo para as equipes de ciência de dados
projetar essa infraestrutura seria ineficiente. Em vez
e BI da empresa.
disso, uma equipe central de infraestrutura de dados
deve possuir e fornecer a tecnologia que os domínios
precisam para seus produtos de dados.

13
04. Governança Computacional
Federada

Como uma organização controla os dados nesse


novo ambiente? O Data Mesh implementa um modelo
federado no qual os proprietários de produtos de
dados concordam com incentivos e regras aplicáveis
local e globalmente para garantir a
interoperabilidade de seus produtos de dados,
juntamente com políticas que governam questões
sobre controle de acesso, gerenciamento de schema
e muito mais. Assim, embora os conjuntos de dados
existam como domínios independentes, eles são
unificados por políticas acordadas.

14
A arquitetura do
Data Mesh
Em um nível alto, a nova arquitetura se parece com Isso destaca a necessidade de soluções que
isso: funcionem como camadas de abstração e acessem
dados em diferentes lugares. Tecnologias como
As novas equipes de produtos de dados que
Presto, Trino e Starburst são efetivamente
gerenciam os diferentes domínios terão diferentes
agnósticas em relação à(s) fonte(s) de dados e,
níveis de conhecimento técnico. Eles podem ter
portanto, abriram novas possibilidades. As equipes
suas próprias ferramentas de gerenciamento de
podem apontar esses sistemas para vários conjuntos
dados preferidas.
de dados simultaneamente e consultar dados de
Alguns preferem trabalhar com Spark ou Hadoop. forma escalável onde eles residem usando técnicas
Outros preferem sistemas de banco de dados como de processamento paralelo de última geração.
MySQL ou Oracle, ou podem preferir trabalhar com
O sucesso a longo prazo do Data Mesh depende de
dados brutos em um sistema de arquivos. Apesar da
soluções que podem consultar vários conjuntos de
introdução do pensamento orientado ao produto, a
dados simultaneamente e mitigar o risco de dados
abordagem Data Mesh ainda pode resultar em uma
em silos. Um exemplo é o gigante europeu de
mistura de conjuntos de dados organizados em
comércio eletrônico Zalando SE.
diferentes formatos e isolados em sistemas
totalmente diferentes.

15
+
A Zalando SE é a plataforma online líder na Europa para Com o Data Mesh para infraestrutura de autoatendimento,
moda e estilo de vida. Tomar decisões de negócios Zalando deu a suas equipes as ferramentas para criar e
inteligentes e baseadas em análises é essencial para o manter seus próprios buckets de armazenamento no S3,
sucesso da empresa. Quando Zalando decidiu fazer a tudo dentro da camada de infraestrutura central do data
transição de data warehouses legados para um data lake lake da AWS. Quando as equipes de business intelligence
na nuvem, a empresa mudou a maneira como gerenciava ou ciência de dados precisam acessar diferentes
e acessava seus dados distribuídos, adotando a conjuntos de dados, elas trabalham por meio de uma
abordagem Data Mesh de transferir a propriedade do camada de abstração que consiste em duas partes
conjunto de dados para especialistas de domínio. principais:
A equipe de infraestrutura da Zalando teve que gerenciar • Starburst para consultas distribuídas de alto
milhares de conjuntos de dados totalizando 15 PBs. desempenho
Quando tudo isso estava sendo canalizado por meio de um
• Spark para transformação de dados e ciência de dados
pipeline central, não havia propriedade sobre os dados e a
qualidade sofria. A nova abordagem centrada no domínio A Starburst ofereceu à Zalando uma maneira unificada de
da empresa foi a única maneira de garantir a qualidade e catalogar, acessar e unir seus conjuntos de dados
garantir que os dados permanecessem acessíveis e distribuídos com alto desempenho usando uma interface
disponíveis em escala, de acordo com Max Schultze, SQL padrão.
gerente de engenharia de dados da Zalando SE.

16
+


“Mesmo que estejamos descentralizando a propriedade ao responsabilizar as pessoas pelos dados que elas Max Schultze
armazenam por conta própria em sua parte do sistema… isso não implica necessariamente que descentralizamos a Gerente de Engenharia
de Dados na Zalando
infraestrutura”, diz Schultze. “Agora estamos na situação em que temos armazenamento descentralizado, mas ainda
temos infraestrutura centralizada. E embora tenhamos propriedade descentralizada, ainda temos uma camada de
governança central que nos permite unir todas essas coisas.”

Sem a Starburst, a Zalando teria ficado com uma Os usuários finais ou consumidores de produtos de
coleção de produtos de conjuntos de dados dados trabalham por meio de uma interface SQL
distribuídos. Catalogar, acessar e juntar esses padrão e familiar que abstrai a infraestrutura de
produtos distribuídos teria sido muito complexo e back-end e a distribuição de dados. Dessa forma, a
demorado. A Starburst ofereceu às equipes de BI e Starburst garante que o Data Mesh seja eficaz para
Ciência de Dados da empresa uma maneira única e todos os grupos envolvidos, desde os proprietários
de alto desempenho para catalogar, acessar e juntar de domínios de produtos de dados até os
diferentes conjuntos de dados distribuídos. consumidores de dados.

17
Starburst e o paradigma
do Data Mesh
O mundo do big data e da IA está repleto de palavras Ao fornecer uma camada de abstração que permite
da moda, e estamos relutantes em promover mais às equipes de Business Intelligence e Data Science
um. No entanto, o conceito Data Mesh é consultar um ou vários conjuntos de dados em um
fundamentalmente uma das abordagens mais ecossistema de fontes e plataformas de dados em
atraentes, pois combina um profundo entendimento rápido crescimento, a Starburst funciona como uma
das necessidades técnicas de gerenciamento de força unificadora dentro da topologia Data Mesh,
dados com as complexidades organizacionais de permitindo que empresas como a Zalando extraiam
colocar essas soluções para funcionar em grandes mais valor de seus dados distribuídos e, em última
organizações globais. análise, gerar insights transformadores para os
negócios.
O Data Mesh defende mudanças tecnológicas e
organizacionais do tipo que as empresas precisam
para se tornarem verdadeiramente empresas
orientadas por dados nos próximos anos.

18
Como podemos ajudar
As empresas que adotam uma arquitetura Data Mesh Com Starburst e Trino, as equipes podem reduzir o
devem ter um mecanismo de análise capaz de custo total de seus investimentos em infraestrutura
federar essas diferentes fontes de dados. Starburst é e análise, evitar o aprisionamento de fornecedores e
a ferramenta de análise para a arquitetura Data usar as ferramentas existentes que funcionam para
Mesh, fornecendo um único ponto de acesso a dados seus negócios para que possam se concentrar em
distribuídos e capacitando a análise de permitir insights mais rápidos. A tecnologia aberta
autoatendimento para cada um dos domínios de da Trino significa que a integração com outras
negócios. tecnologias abertas, como catálogos de dados e
ferramentas de descoberta de dados, é mais simples
Com a Starburst, não é necessário manter a ideia de
e reduz o custo total de propriedade da plataforma
uma única fonte de verdade (single source of truth).
de dados de autoatendimento.
Os dados são mantidos pelos proprietários do
domínio, mas facilmente acessíveis em tempo real
em toda a sua organização.
A Starburst é construído no Trino de código aberto,
um mecanismo distribuído que pode executar
consultas SQL em dados armazenados em uma
variedade de bancos de dados e sistemas de
arquivos.

19
Hoje, a Digiage é o
único parceiro oficial
da Starburst na Se você está adotando uma arquitetura Data Mesh,
queremos estar lá para ajudar.

América Latina. Entre em contato para mais informações.

20
Contato
+55 (19) 3368-2186 falecomagente@digiage.com.br digiage.com.br

Você também pode gostar