Ciência e Engenharia de Dados para Negócios

Ciência e Engenharia de dados para Negócios
-Data warehouse: sistema de armazenamento digital que conecta grandes volumes de dados de diferentes fontes.
-SQL & schema: SQL é uma linguagem de programação para armazenar e processar informações em um banco de
dados relacional; Os Schemas são uma coleção de objetos dentro de um determinado database (banco de dados).
-ETL: Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias
fontes em um grande repositório central.
-BI: conjunto de estratégias e técnicas empregadas pelas empresas com o propósito de analisar dados e melhorar a
tomada de decisão baseada em informações concretas.
-Hadoop & MapReduce: O Hadoop é uma estrutura de código aberto que serve para lidar com todos os
componentes do armazenamento e do processamento de quantidades enormes de dados; O MapReduce é um
modelo de programação utilizado para processar e analisar dados distribuídos em um cluster Hadoop. Ele divide as
tarefas em duas etapas principais: mapeamento (map) e redução (reduce).
-AWS (Amazon) / Azure (Microsoft Azure)/ GCP (Google Cloud Platform): são os três principais provedores de
serviços de computação em nuvem atualmente.
-NoSQL: termo que se refere a bancos de dados não relacionais. Eles são projetados para armazenar e recuperar
dados de maneira diferente dos bancos de dados relacionais tradicionais. São adequados para lidar com grandes
volumes de dados variados, como dados não estruturados, semiformatados ou em formato de documento, além de
dados estruturados.
-Data lake & big data EDA: um Data Lake é um repositório de dados não estruturados em sua forma bruta (dados
não processados e não estruturados), enquanto a EDA em Big Data é uma abordagem para analisar e visualizar esses
dados complexos, visando obter insights e entender seus padrões e características
-Dashboard: interface gráfica que apresenta informações consolidadas e visualmente atrativas em um único local,
permitindo a visualização rápida e fácil do desempenho, métricas e dados relevantes de um sistema, processo,
aplicativo ou negócio.
-Overfit / underfit: Overfit ocorre quando um modelo é excessivamente complexo ou possui um número excessivo
de parâmetros em relação à quantidade de dados disponíveis para treinamento. O underfitting ocorre quando um
modelo é muito simples para capturar a complexidade dos dados de treinamento. Isso geralmente acontece quando
o modelo é subajustado aos dados, não conseguindo capturar os padrões e relações importantes presentes nos
dados de treinamento.
-Machine learning & deep learning: O Machine learning é um campo da inteligência artificial que se refere ao
desenvolvimento de algoritmos e técnicas que permitem que os computadores aprendam a partir dos dados
disponíveis, sem serem explicitamente programados. Deep learning é uma área especializada do machine learning
que se concentra no treinamento de redes neurais artificiais profundas.
-NLP & LLM: NLP (Processamento de Linguagem Natural) refere-se ao campo da inteligência artificial que lida com a
interação entre humanos e computadores usando linguagem natural. O NLP tem como objetivo capacitar os
computadores a entender, interpretar e gerar texto ou fala da mesma maneira que os seres humanos; LLM (Large
Language Model) é um tipo específico de modelo de processamento de linguagem natural que foi treinado em uma
grande quantidade de texto para aprender a entender e gerar linguagem natural.
-Generative models: Modelos generativos são algoritmos de aprendizado de máquina projetados para gerar novos
dados com base em um conjunto existente de dados de treinamento.
Problema de negócio -> Problema Matemático -> Problema computacional: um problema de negócio é um desafio
que surge em uma organização ou contexto empresarial e requer solução, ao enfrentá-lo, muitas vezes é possível
representá-lo como um problema matemático. Assim, uma vez que o problema tenha sido formulado
matematicamente, ele pode ser resolvido por meio de algoritmos e técnicas computacionais.
Dados x informação:
a) Dados: referem-se a fatos brutos, como valores numéricos, palavras, imagens ou qualquer outro tipo de
descrição. Os dados não têm necessariamente significado em si mesmos e podem ser desorganizados ou
incompletos.
Exemplo: lista de números aleatórios.
b) Informação: é o resultado do processamento e organização dos dados, de modo a torná-los úteis e significativos.
A informação é o conhecimento extraído dos dados. (produto final que resulta do processamento e análise de
dados)
Dados & informação & conhecimento:
1) A medida que escalamos a pirâmide mais valor conseguimos extrair dos dados.
2) O objetivo dos analistas e dos cientistas de dados é escalar a pirâmide via análises: exploração dos dados e/ou
algoritmos de machine learning.
Aprendizagem e predição: Ciência de dados e engenharia de dados sob o ponto de vista:

a) Da atuação no ciclo de vida dos dados (data lifecycle):
 Categoria de dados:
a) Estruturados: são aqueles que seguem um formato predefinido. Eles são organizados em um esquema ou formato
tabular, geralmente em bancos de dados relacionais ou planilhas, onde cada coluna representa um atributo e cada
linha contém uma instância de dados. Dados são muito organizados e facilitam a análise e a extração de
informações.
Ex.: registros de vendas, informações de clientes em uma base de dados, registros de transações financeiras, dados
de cadastro e etc.
b) Semi-estruturados: possuem uma estrutura parcialmente definida. Eles não se encaixam perfeitamente em um
esquema fixo como os dados estruturados, mas possuem alguma forma de organização. Os dados são rotulados com
tags ou chaves, permitindo uma estrutura hierárquica. Podem ter campos opcionais, repetidos ou ausentes,
tornando-os mais flexíveis do que os dados estruturados.
Ex.: eventos de navegação, páginas web, dados em arquivos XML, HTML, JSON.
c) Não-estruturados: são informações que não possuem uma estrutura específica e não são facilmente organizados
em categorias predefinidas. Eles são mais difíceis de analisar e processar automaticamente, pois não têm um
esquema fixo.
-Para extrair conhecimento útil de dados não-estruturados, técnicas de processamento de linguagem natural (NLP),
reconhecimento de padrões, aprendizado de máquina e outros métodos são aplicados.
Ex.: texto, áudio e vídeo, documentos em formato PDF, imagens, e-mails, posts em redes sociais, páginas da web.
 Schema X Schemalles:
a) Schema:
-Tabular (organizar).
-RDBMS (sistema de gerenciamento) requer conformação dos dados antes da escrita, ou seja, os “tipos” dos objetos
precisam ser previamente adaptados.
b) Schemaless:
-Não tabular.
-Não há um schema pré-definido.
-A aplicação é definida no código da aplicação.
-Mais flexível para inclusão de novos campos.
Bancos de dados relacionais tradicionais são bem definidos, usando um esquema para descrever cada elemento
funcional, incluindo tabelas, exibições de linhas, índices e relacionamentos. Exercendo um alto grau de controle, o
banco de dados o administrador pode melhorar o desempenho e impedir a captura de dados de baixa qualidade,
incompletos ou malformados. Em um banco de dados SQL, o esquema é aplicado pelo Relational Database
Management System (RDBMS) sempre que os dados são gravados no disco.
-Para funcionar, os dados precisam ser formatados e moldados para caber na estrutura da tabela.
- Um banco de dados sem esquema, não possui essas restrições iniciais, mapeando para uma forma mais ‘natural’ de
base de dados.
- Quaisquer dados, formatados ou não, podem ser armazenados em um tipo de banco de dados NoSQL não tabular.
b) Dos perfis profissionais (pessoas) e equipes:
I) Cientista de dados:
-Perspicácia comercial + intuição; Explorador + inquisitivo;
a) Atribuições: construção e validação de modelos; Comunicação de resultados.
b) Competências técnicas: Estatística + matemática; Computação + ferramentas; Programação.
-Domain knowledge: conhecimento especializado em uma área especifica ou campo de atuação.
-Story telling: A ideia é transformar dados complexos e abstratos em histórias compreensíveis e interessantes,
permitindo que as pessoas assimilem informações de maneira mais efetiva e tomem decisões informadas.
c) No dia-a-dia:
-Entender o trabalho do engenheiro de dados e do ML engineer; Interação com a equipe; Encontrar a melhor
solução para a fluidez do processo fim-a-fim.
II) Engenheiro de dados:

-Computação + Ferramentas; Engenharia de software; Matemática + estatística.
-Perfil “builder” e consciente quanto aos custos; fundamentado em projetos.
a) Atribuições:
-Infra: HW (hardware – componentes físicos de um sistema de computador ou rede)/SW (software);
-Arquitetura;
-Implementação em produção.
b) Competências técnicas:
-Escolher, montar e manter configurações de HW/SW;
-Banco de dados;
-Escabilidade e segurança;
-Integrações com outros sistemas, downstream.
c) No dia-a-dia:
-Entender o trabalho do cientista de dados e do ML engineer; Interação com a equipe; Encontrar a melhor solução
para a fluidez do processo fim-a-fim.
-Características comuns à ambos: sempre aprendendo (lifelong learning) e zoom-in/zoom-out (referem-se a técnicas
de análise e visualização de dados que envolvem a ampliação ou redução do nível de detalhe ou escala dos dados).
III) Engenheiro de ML:

a) Atribuições: Sistemas em produção; Qualidade das predições; Saúde do pipeline.
b) Competências técnicas:
-Desenhar e otimizar o pipeline;
-Olhar crítico sobre a qualidade dos resultados gerados;
-Integrações com outros sistemas, downstream.
c) No dia-a-dia:
-Entender o trabalho do cientista de dados e do engenheiro de dados; Interação com a equipe; Encontrar a melhor
solução para a fluidez do processo fim-a-fim.
c) Das entregas:
a) Cientista de dados e Engenheiro de ML:

I) Formações: estatística, matemática, ciência da computação, física, química, geofísica, engenharia, administração e
economia.
II) Experiência profissional: analista de negócios, desenvolvedores, acadêmico.
*Onde: bancos, seguradoas, corretoras, varejistas, telecomunicação, serviços online.
III) Comportamental: inventivo, incansável e inquisitivo.
a) Engenheiro de dados e Engenheiro de ML:

I) Formações: ciência da computação, engenharia, estatística e matemática.
II) Experiência profissional: desenvolvedores / devOps, administradores de sistema e banco de dados.
*Onde: bancos, seguradoas, corretoras, varejistas, telecomunicação, serviços online.
III) Comportamental: disciplinado, organizado e calmo (sob stress), lifelong learning.
I) DS (Data Science): Ciência de Dados refere-se ao campo que se concentra em extrair insights e conhecimentos
valiosos a partir de conjuntos de dados
II) AI (Artificial Intelligence): campo amplo que envolve a criação de sistemas e máquinas que podem realizar tarefas
que normalmente requerem inteligência humana.
III) ML (Machine Learning): subárea da Inteligência Artificial que se concentra no desenvolvimento de algoritmos e
modelos que permitem que os computadores aprendam com os dados.
IV) DL (Deep Learning – Aprendizado profundo): subárea do Aprendizado de Máquina que se baseia em redes
neurais artificiais com múltiplas camadas para extrair representações complexas e abstratas dos dados.
Diferença sistemas ML e não ML: a diferença fundamental entre sistemas de ML e sistemas não-ML é que o ML
permite que os sistemas aprendam e melhorem com base em dados, enquanto os sistemas não-ML são
programados explicitamente para executar tarefas específicas.
Ciência de dados:
Ciência de dados Vs BI:

a) Ciência de dados: concentra-se em extrair insights e conhecimentos de conjuntos de dados complexos, usando
técnicas estatísticas e algoritmos de aprendizado de máquina para resolver problemas e fazer previsões.
-Lida com dados não estruturados e semiestruturados e requer habilidades técnicas avançadas.
b) Business Intelligence (BI): foca na coleta, organização e visualização de dados para facilitar a análise e geração de
relatórios.
-Lida principalmente com dados estruturados e usa análises básicas para fornecer informações rápidas para a
tomada de decisões diárias.
- Em resumo, Business Intelligence foca na análise retrospectiva dos dados para responder perguntas específicas
sobre o desempenho empresarial, enquanto Data Science vai além ao utilizar métodos científicos e técnicas
avançadas para explorar dados, descobrir padrões e relações, e prever resultados futuros.
Problemas em ML:
Problemas supervisionados ou não-supervisionados:

a) Supervisionados: o objetivo é treinar um modelo usando um conjunto de dados rotulados. Os dados de
treinamento consistem em pares de entrada e saída desejada que é conhecida.
Problema supervisionado -> Regressão ou classificação:

aI) Regressão: envolvem a previsão de um valor numérico contínuo com base em variáveis de entrada.
Ex.: prever o preço de uma casa com base em características como área, número de quartos, etc.; ou prever a receita
de uma empresa com base em fatores como gastos em publicidade, localização, etc. Nesses casos, a saída desejada é
um valor numérico.
a.II) Classificação: envolvem a categorização de instâncias em categorias diferentes.

Ex.: identificar se um e-mail é spam ou não, classificar imagens em categorias específicas, como cães e gatos, ou
prever se um cliente fará churn. Nesses casos, a saída desejada é uma classe ou categoria específica.
Ex.: predição de risco de churn, modelo de inadimplência para cobrança, predição de convulsões epiléticas e
predição de andamentos de processos no tribunal. – todos requerem dados históricos, rotulados.
b) Não-supervisionados: o objetivo é extrair informações úteis e padrões a partir dos dados não rotulados. Não há
saídas desejadas associadas aos dados de treinamento. O modelo é treinado para encontrar estruturas,
agrupamentos ou padrões nos dados.
b.I) clusterização: modelo agrupa os dados em clusters com base em suas similaridades.
Ex.: agrupar clientes com base em seus comportamentos de compra.
b.II) Redução de dimensionalidade: modelo reduz a quantidade de variáveis ou dimensões dos dados, mantendo as
informações mais relevantes.
b.III) Associação: o modelo identifica relações ou padrões frequentes entre os itens de um conjunto de dados.
Ex.: identificar quais produtos são frequentemente comprados juntos em uma loja.
Ex.: clusterização de clientes, extração de tópicos, sistema de recomendação para academia (com base apenas no
histórico de interações), manutenção preditiva/preventiva de falhas (tem que detectar padrões, mas não requer
rótulos), classificação de rotas de marketing geo-referenciado (pode ser supervisionado ou não supervisionado),
modelagem de funil de conversão, predição de severidades de falhas (pode ser supervisionado ou não
supervisionado).
- Em alguns casos, é possível usar uma combinação de técnicas supervisionadas e não-supervisionadas para abordar
um problema específico.
Dilema Bias Variance: consideração fundamental na construção de modelos preditivos, envolvendo a busca de um
equilíbrio adequado entre a simplicidade e a flexibilidade do modelo, a fim de alcançar o melhor desempenho na
generalização para novos dados.
- Refere-se ao desafio de encontrar um equilíbrio entre o viés e a variância em um modelo preditivo.
- Um modelo muito simples terá alto viés e baixa variância, enquanto um modelo muito complexo terá baixo viés e
alta variância. O objetivo é encontrar o nível de complexidade que minimize a soma do erro de viés e o erro de
variância, resultando em um modelo com melhor desempenho geral
a) Viés alto:
-Pouca atenção aos dados;
-Modelo simples ou premissas simplificadoras;
-Erros altos no treinamento;
-Poucas features;
b) Variância alta:
-Muita atenção aos dados (não generaliza);
-Overfitting (sobreajuste): o modelo "decora" os exemplos de treinamento em vez de aprender a generalizar a partir
deles.
-Erros mais altos nos testes do que no treinamento;
-Tentativas seguidas de minizar erros.
c) Objetivo:
-Sweet-spot: refere-se a encontrar um equilíbrio entre a complexidade do modelo e sua capacidade de
generalização.
-Complexidade no ponto “certo”;
-Técnicas: regularização.
Estratégias de validação:
a) Divisão treino/validação: processo de dividir um conjunto de dados em dois subconjuntos: treinamento e
validação. O conjunto de treinamento é usado para treinar o modelo de aprendizado de máquina, enquanto o
conjunto de validação é usado para avaliar seu desempenho durante o treinamento e ajustar os hiperparâmetros.
b) Validação cruzada: técnica usada para avaliar o desempenho de modelos de aprendizado de máquina. Consiste
em dividir o conjunto de dados em várias partes, treinar o modelo em parte dos dados e avaliá-lo nas demais partes.
Isso é feito várias vezes para obter uma estimativa mais confiável do desempenho do modelo.
b.I) Holdout ou train-test-split: consiste em dividir o conjunto de dados em um conjunto de treinamento, usado para
ajustar o modelo, e um conjunto de teste, usado para avaliar o desempenho do modelo em dados não vistos
anteriormente. A separação permite estimar o quão bem o modelo generaliza para situações reais, evitando que ele
se adapte excessivamente aos dados de treinamento.
b.2) K-fold: consiste em dividir o conjunto de dados em K partes iguais, treinar e testar o modelo K vezes, usando
uma parte diferente como teste em cada iteração. Isso fornece uma estimativa mais robusta do desempenho do
modelo em dados não vistos, reduzindo a dependência de uma única divisão de treinamento/teste. No final, é
calculada uma média das métricas de desempenho obtidas em cada interação.
b.3) Statified K-fold: a diferença em relação ao K-fold tradicional é que o Statified K-fold mantém a distribuição de
classes em cada conjunto. Isso é útil quando há classes desequilibradas nos dados, garantindo que cada conjunto
tenha uma proporção similar de amostras de cada classe.
Separando os dados:
Validando o modelo:
Objetivo: quanto menor o valor, melhor o modelo:
Métricas para regressão:

a) Erro quadrático médio (RMSE) e sua raiz: mede a média dos erros quadráticos entre os valores reais e os valores
previstos pelo modelo. Ele é útil para penalizar erros maiores. Quanto menor o RMSE, melhor a performance do
modelo.
b) Coeficiente de determinação (R²):indica a proporção da variabilidade total do alvo que é explicada pelo modelo
de regressão. Ele varia de 0 a 1, sendo que valores mais próximos de 1 indicam que o modelo explica uma maior
quantidade da variabilidade do alvo. Quanto maior o R², melhor a performance do modelo.
Métricas para classificação:

-Matriz de confusão: organizada em formato de tabela, com as linhas representando as classes reais e as colunas
representando as classes previstas pelo modelo.
-É composta por 4 elementos principais: verdadeiro positivo, falso positivo, verdadeiro negativo e falso negativo.
I) Métricas para avaliar o desempenho do modelo:

a) precisão (ou acurácia): proporção de observações corretamente classificadas em relação ao total de observações.
b) sensibilidade (ou recall): proporção de observações positivas corretamente classificadas em relação ao total de
observações positivas reais.
c) especificidade: proporção de observações negativas corretamente classificadas em relação ao total de
observações negativas reais.
d) taxa de falsos positivos: proporção de observações negativas erroneamente classificadas como positivas em
relação ao total de observações negativas reais.
Engenharia de dados: desenvolvimento, implementação e manutenção de sistemas e processos que recebem dados
brutos e produzem dados consistentes e de alta qualidade.
-É a interseção de segurança, gerenciamento de dados, DataOps, arquitetura, orquestração e engenharia de
software.
Cronologia:
Parte 1: 1980 a 2000:
a) Tecnologias: data warehouse (DW), SQL e modelagem racional.
b) Equipes e perfis: analista de ETL e engenheiro de DW/BI.
c) Contexto: sistemas on-premises (modelo de computação em que os aplicativos, servidores e infraestrutura estão
localizados nas instalações físicas de uma empresa ou organização) e internet comercial começando.
-Infra-estrutura de alto custo e monolítica (arquitetura de sistema em que todas as funcionalidades estão integradas
em um único aplicativo, sem separação clara entre os componentes.).
Parte 2: início da década de 2000:

a) Tecnologias: HW proprietário -> comoditizado; Monolítico -> descentralizado; GFS, hadoop, NoSQL; object
strorage (armazenamento de objetos).
b) Contexto: dot-com boom e bust; Yahoo, Google e Amazon.
-Infra-estrutura como um serviço (cloud pública).
Parte 3: restante da década de 2000 e década de 2010:

a) Tecnologias: batch -> real time; hive, dremel, hbase, storm, Cassandra, spark;; yarn, hdfs.
b) Equipes e perfis: engenheiro de dados.
c) Contexto: tradicionais Ms, Oracle, IBM; big data, com alto overhead operacional.
-Cloud pública adoção crescente.
Parte 4: década de 2020:

a) Tecnologias: componentes elementares -> gestão; ferramentas para gestão do ciclo de vida dos dados; para
compliance GDPR, LGPD; para Discovery; ferramentas de governança em geral.
b) Equipes e perfis: engenheiro de dados e engenheiro de machine learning.
c) Contexto: ecossistema de ferramentas, empresas explodiu.
-Cloud pública adoção consagrada e foco no propósito de negócio.
Engenharia de dados:
I) Competências técnicas: segurança, gestão de dados, dataOps, arquitetura de dados, engenharia de software.
Precisar saber programar? SIM. SQL, python, bash, outros: Java, scala, R.
II) Maturidade da empresa com relação aos dados e papel do DE:

1. Nível básico:
-Fase inicial, sem arquitetura consolidadas com demandas ad hoc. DE generalista.
-Mapear demandas em arquiteturas com componentes reutilizáveis e de prateleira, obter buy-in para investimentos,
comunicação, fundações, montar equipe robusta de dados.
2. Nível intermediário:
-Processos formais de dados, sistemas e arquiteturas em operação. DE especialista.
-Foco na escalabilidade, devOps e dataOps, evolução para modelagem preditivas (ML).
3. Nível avançado:
-Liderando com dados (data-driven), pipelines automatizados e self-service, processos dominam. DE’s especializados
e foco na gestão e controle, ferramentas que abstraem detalhes internos.
-Sempre revisitar premissas, complancência-> ausência de monitoramento -> ineficiência.
III) Competências não técnicas: comunicação e colaboração com áreas de negócios, zoom out entendimento amplo,
agile, devOps, dataOps, custos e aprendizagem contínua.
IV) Engenheiro de dados:

a) Tipo A (abstrato):
-Abstração dos componentes;
-Foco nos produtos de prateleira.
-Inclui a arquitetura de dados, integração de dados, modelagem de dados, otimização de desempenho e segurança.
b) Tipo B (build):
-Desenvolve os componentes que serão utilizados.
-Construção e implementação de componentes de software e infraestrutura, bem como à execução de processos de
ETL ou à construção de pipelines de dados.
V) Trabalhando em equipe o DE atende:

a) produtores de dados: engenheiros de SW, arquiteto de dados e demais produtores.
b) consumidores de dados: analistas de dados, cientistas de dados e engenheiros de ML.
-Gerente de projetos: agile, scrum & waterfall, suporte -> priorização de entregas, planejamento de sprints,
standups.
-Gerente de produtos: formatar a entrega como produto.
DE & lideranças:
-CEO;
-CIO, CTO, CDO, CAO e CAIO.
Arquiteturas:
Sistemas distribuídos:
I) Conceitos
-Escalabilidade: capacidade de um sistema lidar com o aumento da carga de trabalho, mantendo o desempenho e a
capacidade de resposta. Pode ser vertical (adicionando recursos a uma única máquina) ou horizontal (adicionando
mais máquinas).
-Elasticidade: capacidade de um sistema se adaptar automaticamente às mudanças na carga de trabalho,
aumentando ou diminuindo seus recursos conforme necessário. Geralmente aplicada em ambientes de nuvem.
-Disponibilidade: capacidade de um sistema estar acessível e operacional quando necessário, minimizando o tempo
de inatividade não planejado e garantindo o acesso contínuo aos serviços oferecido
-Confiabilidade: capacidade de um sistema funcionar corretamente, sem falhas, por um determinado período de
tempo, mesmo quando ocorrem falhas em seus componentes individuais.
II) Acomplamento entre serviços:

a) Tightly coupled (acoplamento estreito): Existe uma dependência forte e direta entre os serviços ou componentes
de um sistema. Alterações feitas em um serviço podem afetar outros serviços relacionados, exigindo ajustes e
modificações adicionais.
b) Loose coupling (acoplamento fraco): Os serviços ou componentes de um sistema são independentes e têm baixa
dependência uns dos outros. Alterações em um serviço não afetam diretamente outros serviços, pois eles são
projetados para se comunicarem por meio de interfaces bem definidas e padronizadas.
-O acoplamento fraco permite maior flexibilidade, escalabilidade e facilidade de manutenção em um sistema.
Monolith & Microservices:

a) Monolito: estilo arquitetônico em que todo o aplicativo é desenvolvido como um único componente, tornando-o
simples, mas pode se tornar complexo à medida que cresce.
b) Microsserviços: abordagem em que o aplicativo é dividido em serviços independentes que se comunicam entre si,
permitindo escalabilidade e flexibilidade, mas adicionando complexidade devido à distribuição.
III) Acessos:
a) Single: refere-se a um sistema ou aplicativo projetado para ser utilizado por um único usuário ou entidade de cada
vez.
b) Multi-tenant: refere-se a um sistema ou aplicativo projetado para ser compartilhado por vários usuários ou
entidades simultaneamente.
-É comumente usado em aplicativos baseados na web, serviços em nuvem e plataformas de software como serviço
(SaaS).
Tipos de arquitetura:
a) Data warehouse: sistema centralizado de armazenamento de dados para análise de negócios. Usa a abordagem
ETL para extrair, transformar e carregar os dados.
b) Data Warehouse com ELT: similar ao DW, mas as etapas de extração, transformação e carregamento ocorrem
diretamente no data warehouse.
c) Lambda: Combina processamento em lote e processamento em tempo real para análise de dados. Tem dois
caminhos separados para processamento.
d) Kappa: Uma simplificação da arquitetura Lambda, eliminando o caminho de processamento em lote. Todos os
dados são processados em tempo real.

Ciência e Engenharia de Dados para Negócios - Docx L Resumo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciência e Engenharia de Dados para Negócios - Docx L Resumo

Enviado por

Direitos autorais:

Formatos disponíveis

Aprendizagem e predição: Ciência de dados e engenharia de dados sob o ponto de vista:

b) Dos perfis profissionais (pessoas) e equipes:

II) Engenheiro de dados:

III) Engenheiro de ML:

a) Cientista de dados e Engenheiro de ML:

a) Engenheiro de dados e Engenheiro de ML:

Ciência de dados Vs BI:

Problemas supervisionados ou não-supervisionados:

Problema supervisionado -> Regressão ou classificação:

a.II) Classificação: envolvem a categorização de instâncias em categorias diferentes.

Métricas para regressão:

Métricas para classificação:

I) Métricas para avaliar o desempenho do modelo:

Parte 2: início da década de 2000:

Parte 3: restante da década de 2000 e década de 2010:

Parte 4: década de 2020:

II) Maturidade da empresa com relação aos dados e papel do DE:

IV) Engenheiro de dados:

V) Trabalhando em equipe o DE atende:

II) Acomplamento entre serviços:

Monolith & Microservices:

Você também pode gostar