Você está na página 1de 14

Armazenamento de dados transacional versus analítico

Processamento transacional on-line (OLTP)


 Os dados são armazenados em uma transação por vez.

Processamento analítico on-line (OLAP)


 Os dados são periodicamente carregados, agregados e armazenados em um cubo.

Cargas de trabalho transacionais


Os dados transacionais são informações que rastreiam as interações relacionadas ás atividades
de uma organização.

 Atomicidade – cada transação é tratada como uma entidade independente que resulta em
um sucesso completo ou falha completa.

 Consistência – as transações só podem conduzir os dados do banco de dados de um


estado válido para outro estado válido.

 Isolamento- a execução concorrente de transações deixa o banco de dados no mesmo


estado.

 Durabilidade – Assim que a transação tiver sido confirmada, permanecerá assim.

Cargas de trabalho analíticas


As cargas de trabalhos analíticas são usadas para análise de dados e tomada de
decisões.
 Resumos
Tendências
Informações comerciais

Processamento de dados
O Processamento de dados é a conversão de dados brutos em informações relevantes por
meio de um processo.

 Processamento em lotes: os elementos de dados são reunidos em um grupo. Então, o


grupo inteiro é processado em um momento futuro como um lote.
Todas as entradas  Diariamente trabalho em loteTodas as Saídas

 Processamento de Streaming: cada novo dado é processado quando chega.


Entrada1  carregamento do sistema

Entrada2  carregamento do sistema

Explorar funções e responsabilidades no mundo dos dados

Administrador de Banco de dados


 Gerenciamento de banco de dados
 Segurança de dados de implementos
 Backups
 Acesso do usuário
 Desempenho de monitores

Ferramentas comuns

 Azure Data Studio – Interface Gráfica para gerenciar serviços de dados no local e
baseado na nuvem.
Funciona no Windows, no macOS e no Linux.
 SQL Server Management Studio – Interface gráfica para gerenciar serviços de dados no
local e baseados na Nuvem.
Funciona no Windows
Ferramenta de administração de banco de dados abrangente.
 Portal/CLI do Azure- Ferramenta para gerenciamento e provisionamento de serviços de
dados do azure.
Manual e automação de scripts usando o Azure Resource Manager ou criação de
scripts em interface de linha de comando.

Engenheiro de dados
 Pipelines e processos de dados
 Armazenamento de ingestão de dados
 Preparar dados para análise
 Preparar dados para processamento de análise

Ferramentas comuns

 Azure Synapse Studio – Portal do Azure integrado para gerenciar o Azure Synapse
Ingestão de dados (Azure Data Factory)
Gerenciamento de ativos do Azure Synapse (Pool de SQL/Pool do Spark).
 SQL Server Management Studio – Interface gráfica para gerenciar serviços de dados no
local e baseados na Nuvem.
Funciona no Windows
Ferramenta de administração de banco de dados abrangente.
 Portal/CLI do Azure- Ferramenta para gerenciamento e provisionamento de serviços de
dados do azure.
Manual e automação de scripts usando o Azure Resource Manager ou criação de
scripts em interface de linha de comando.

Analista de dados
 Oferece insights sobre os dados
 Geração de relatórios visuais
 Modelagem de dados para análise
 Combina dados para visualização e análise

Ferramentas comuns

 Power BI Desktop – Ferramenta de visualização de dados


Modele e visualize dados
Gerenciamento de ativos do Azure Synapse (Pool de SQL/Pool do Spark).
 Power BI Portal/ serviços de Power BI – Criação e gerenciamento de relatórios do Power
BI
Criação de painéis do Power BI
Compartilhe relatórios/conjuntos de dados.
 Power BI Report Builder – Ferramenta de visualização de dados para relatórios
paginados
Modele e visualize relatórios paginados.

Identificar casos de uso do banco de dados relacional


- IoT: Embora sejam normalmente considerados como não relacionais, os dados de dispositivos
IoT poderiam ser estruturados e consistentes.

- Processamento de transação on-line: Por exemplo, sistemas de pedidos que realizam muitas
atualizações transacionais pequenas.

- Data warehousing: Grandes quantidades de dados podem ser importadas de várias fontes e
estruturas para permitir consultas de alto desempenho.

Índices
 Otimiza consultas de pesquisa para recuperação mais rápida de dados.
 Reduz a quantidade de páginas de dados que precisam ser lidas para recuperar os dados
em um Declaração SQL.
 Os dados são recuperados unindo as tabelas em uma consulta.

Exibição
Uma exibição é uma tabela virtual com base no conjunto de resultados de
uma consulta
 As Exibições são criadas para simplificar a consulta
 Combine dados relacionados em uma exibição de painel simples.
Entidades
Uma entidade é uma representação de um item que pode ser físico (Cliente, produto)
ou virtual (Pedido).
As entidades são conectadas por relação que permitem a interação.
Por exemplo: Um cliente pode fazer um pedido de um produto.

Normalização
Os dados são normalizados para:
 Reduzir armazenamento
 Evitar duplicação de dados
 Melhorar a qualidade dos dados
Relações
Em um esquema de banco de dados normalizado:
 As chaves primárias e estrangeiras são usadas para definir relacionamentos.
 Não há nenhuma duplicação de dados (a não ser os valores chave no 3° forma
normal 3NF).
 Os dados são recuperados unindo as tabelas em uma consulta.

Explorar os conceitos dos dados não relacionais.


Coleções não relacionais podem ter
 Várias entidades na mesma coleção ou contêiner com diferentes campos.
 Têm um esquema diferente não tabular.
 São frequentemente definidos por identificar cada campo com o nome que ele
representa.

Identificar casos de uso do banco de dados não relacional


IoT e telemática: Com frequência exigem ingerir grandes quantidades de dados em
frequentes explosões de atividades, os dados são semiestruturados ou estruturados,
com frequência exigem processamento em tempo real.
Varejo e marketing: Cenários comuns para dados distribuídos globalmente,
armazenamento de documentos.
Jogos: Estatísticas de jogo, integração com mídias sociais, quadros de líderes,
aplicativos de baixa latência.
Web e móvel: Normalmente usado com análises de cliques na web, aplicativos
modernos incluindo bots.
Tipos de dados não relacionais
O que são dados semiestruturados?
A estrutura de dados é definida dentro dos dados reais por campos. O formato/ tipos
de arquivos incluem:
JSON 
AVRO  Baseado em linha, criado pelo apache, cada registro contém um cabeçalho
que descreve a estrutura dos dados no registro. Compactar dados e minimizar os
requisitos de armazenamento e largura de banda de rede.
ORC  Organiza os dados em Colunas, foi desenvolvido para melhorar operações de
leitura e gravação no apache.
Parquet  Formato de dados colunar, criado por cardeira e twiter e esses é um
arquivo que contém grupos de linhas, os dados de cada coluna são armazenados
juntos no mesmo grupo de linha e cada grupo de linha contém um ou mais blocos
dados.
Armazena e Processadas dados aninhados de forma eficiente. Suporta esquema de
compressão e codificação.

O que são dados não estruturados?


 Não contém campos naturalmente (ex: vídeos, áudio, streaming de mídia,
documentos)
 Usado com frequência para extrair organização de dados e categorizar ou
identificar “estruturas”
 Frequentemente usado em combinação com recursos de Machine Learning ou
Serviços Cognitivos para “extrair dados” usando:
- Análise de Texto
- Análise de sentimento com APis cognitivas
- API de Visão

O que é NoSQL?
Termo solto para descrever não relacional
 Repositório de chave – valor
- Um armazenamento de chave – valor é o tipo mais simples (e geralmente mais
rápido) de banco de dados NoSQL para inserção e consulta de dados. Cada item
de dados em um armazenamento de valor – chave tem dois elementos, uma
chave e um valor.
- O foco de um armazenamento de valor- chave é a capacidade de ler e gravar
dados muitos rapidamente. Os recursos de pesquisa são secundários. Um
armazenamento de valor – chave é uma excelente opção para ingestão de dados,
quando um grande volume de dados chega como um fluxo contínuo e deve ser
armazenado imediatamente.
- O armazenamento de Tabelas do Azure é um exemplo de armazenamento de
chave – valor. O cosmo DB também implementa um armazenamento de chave-
valor usando a Tabela de APIs.

 Baseado em documento
 Bancos de dados de família de colunas
- Cosmo DB do suporte com a API do Cassandra
 Bancos de dados de grafo
- Armazena entidades centradas ao redor de relacionamento
- Permite que aplicativos realizem consultas percorrendo uma rede de nós e
bordas.

A jornada dos dados

 Ingestão de dados
O processo de obtenção e importação de dados para uso imediato ou
armazenamento em um banco de dados.

 Processamento de dados
Pega os dados em sua forma bruta, limpa-os e converte-os em um formato mais
significativos.
ETL – Extrair, Transformar e Carregar
ELT – Extrair, Carregar e Transformar

 Visualização de dados
Consulte os dados e crie representações gráficas de informações e dados.
Um modelo de negócio pode conter uma enorme quantidade de informações – há
técnicas para analisar e entender as informações em seus modelos
- Relatórios
- Business Intelligence (BI)
- Visualização de dados
Explorar a análise de dados
 Descritiva
- Ajuda a responder perguntas sobre o que aconteceu, lendo em dados históricos.
Ex: Inclui a relação de relatórios para fornecer a relação das Vendas e dados
financeiros de uma organização.
 Diagnóstica
- Me ajuda a responder as perguntas sobre porque as coisas aconteceram.
 Preditiva
- Me ajuda a responder as coisas que acontecerão no futuro, como base em
dados históricos ela nos dará Insights e determinará coisas que provavelmente
coisas que irão se repetir.
 Prescritiva
- Responder respostas que a tomada de decisão para atingir uma meta.
 Cognitiva
- Extrair as inferências de dados e padrões existente e com base tomar uma
decisão.
Ciclo de feedback

Explorar serviços de dados relacionais no Azure


O que são serviços de dados do Azure?
Eles se enquadram em categoria como PaaS (Plataforma como serviço)

SQL Server em Máquinas Virtuais do Azure IaaS (Infraestrutura como serviço)


 Não me preocupo mais como o Hardware
Quando será útil na minha empresa?
 Será adequada, quando as migrações e aplicativos terão que utilizar recursos do
sistema operacional.

Instância Gerenciada de SQL do Azure PaaS (Plataforma como serviço)


As instâncias gerenciadas de SQL do Azure permitem que você provisione previamente
os recursos computacionais e implemente várias instâncias gerenciadas individuais até
seu nível computacional provisionado previamente.
 Backups automáticos, correção de software, monitoramento de banco de dados e
outras tarefas administrativas.
 Quase 100% de compatibilidade com SQL Server local.
 Compatível com outros serviços do Azure.
Instância única
 Um Instância do SQL Server, vários bancos de dados.
Pool de Instâncias
 Várias Instâncias compartilham os mesmos recursos.

Banco de dados SQL do Azure PaaS (Plataforma como serviço)


O banco de dados SQL do Azure é uma oferta PaaS onde os usuários criam um servidor
de banco de dados gerenciado na nuvem e, em seguida, implementa os bancos de
dados em servidor.
 Opção de baixo custo com administração mínima
 Melhor para novos projetos na nuvem com design de aplicativo flexível
 Compatível com sistemas de cargas variáveis – faça dimensionamento vertical e
horizontal rapidamente sem reiniciar.
Banco de dados Individual
 Crie e execute um servidor de banco de dados na nuvem e acesse o banco de
dados por meio do servidor.
Pool Elástico
 Vários bancos de dados compartilham os mesmos recursos, como memória,
armazenamento e capacidade de processamento.

Instância Gerenciada de SQL do Azure ou o Banco de dados SQL


do Azure
Instância Gerenciada de SQL do Azure
Instância única
 área de superfície do SQL Server (grande maioria)
 Suporte nativo á rede virtual
 Serviço totalmente gerenciado
Pool de instâncias
 Pré - provisiona os recursos de computação para migração
 Permite uma migração econômica
 Capacidade de hospedar instância menores (2Vcore)
 Atualmente, em versão prévia pública.
Banco de dados SQL do Azure
Banco de dados único
 Armazenamento em hiperescala (Até 100 TB)
 Computação sem servidor
 Serviço totalmente gerenciado
Pool elástico
 Compartilhamento de recursos entre vários bancos de dados para otimizar preço
 Gerenciamento de desempenho simplificado para vários bancos de dados
 Serviço totalmente gerenciado

PostgreSQL, MySQL, MariaDB

PostgreSQL
O banco de dados do Azure para PostgreSQL é um serviço de banco de dados
relacional na nuvem da Microsoft baseado no mecanismo de banco de dados
PostgreSQL Community Edition.
MySQL
O banco de dados do Azure para MySQL é uma implementação de PaaS do MySQL na
nuvem do Azure baseado na Community Edition do MySQL.
MariaDB
O banco de dados do Azure para MariaDB é uma implementação do sistema de
gerenciamento de banco de dados MariaDB adaptado para execução no azure. Baseia-
se na Community Edition do MariaDB.

Benefícios do Banco de dados do Azure para PostgreSQL,


MySQL, MariaDB.
Banco de dados de comunidade totalmente gerenciado:
 Aproveite um serviço totalmente gerenciado e, ao mesmo tempo, use
as ferramentas e linguagens que você já conhece.

Alta Disponibilidade integrada para mentor TCO:


 Garanta que seus dados estejam sempre disponíveis, sem custos
adicionais.
Desempenho e escala inteligentes:
 Melhore o desempenho com inteligência Integrada e até 16 TB de
armazenamento e 20 mil IOPs.

Segurança e conformidade líderes no setor:


 Proteja os dados com recursos de segurança avançada, incluindo a
Proteção Avançada contra Ameaças.

Integração com ecossistema do Azure:


 Crie aplicativos mais rápido com os serviços do Azure e preserve a sua
inovação com o Azure IP Advantage.

Explorar o provisionamento e a implantação de serviços de


bancos de dados relacionais no Azure
Configurar serviços de dados relacionais
Básico
 Assinatura
 Grupos de recursos
 Instância gerenciada/ nome do servidor
 Nome do banco de dados
 Logon do Administrador
 Senha
 Região
 Opt-in- for pools
 Computação + Armazenamento
Conectividade de rede
 Acesso público v.s. privado
 Regras de Firewall/VNet
 Tipo de conexão (MI)
Configurações adicionais
 Fonte de dados
 Ordenação do servidor
 Ordenação do banco de dados
 Fuso horário
 Aceitar a Segurança de Dados Avançada
Marcas (DB)

Analisar e Criar
 Termos e Privacidade

Conectividade dentro do Azure


Política de redirecionamento
 Um aplicativo estabelece uma conexão com o banco de dados SQL do Azure
através do gateway
 Todas as solicitações após a primeira irão diretamente para o banco de dados
 Se a conectividade ao banco de dados falhar, o aplicativo terá que reconectar-se
por meio do gateway
 O aplicativo pode ser direcionado a uma cópia diferente do banco de dados
executando em outro servidor cluster.

Conectividade de fora do Azure


Política de Proxy
 Um aplicativo estabelece uma conexão com o banco de dados SQL do Azure por
meio do gateway
 Todas as solicitações passam pelo gateway
 O aplicativo pode ser direcionado a uma cópia diferente do banco de dados
executando em outro servidor no cluster.

Consultar dados relacionais no Azure


 O SQL é uma linguagem padrão usada com bancos de dados relacionais.
 Os padrões do SQL são mantidos pela ANSI e pela ISO.
 Os Sistemas RBDMS proprietários têm suas próprias extensões do SQL, como
T_SQL, PL / SQL, pgSQL.
Usar instruções DML
Instrução / Descrição
SELECT: Seleciona / ler linhas de uma tabela
INSERT: Inserir novas linhas em uma tabela
UPDATE: Excluir/ Atualizar linhas existentes em uma tabela
DELETE: Excluir linhas existente em uma tabela

Usar Instruções DDL


Instrução/ Descrição
CREATE: Criar um objeto no banco de dados, como uma tabela ou uma exibição
ALTER: modifica a estrutura de um objeto. Por exemplo, alterar uma tabela para
adicionar uma nova coluna.
DROP: Remove um objeto do banco de dados
RENAME: renomeia um objeto existente.

Ferramentas de consulta
 Portal do Azure
 SQL Management Studio
 Ferramentas de dados do SQL Server
 Azure Data Studio
 SQLCMD
 CLI do Azure/Cloud Shell

Explorar serviços de dados não relacionais no Azure


Chave Valor
(ID do cliente) (Dados do Cliente)
Armazenamento de arquivos do Azure
Armazenamento de Arquivos cria compartilhamento de arquivo na nuvem e oferece a
capacidade de acessar esses compartilhamentos de qualquer lugar com uma conexão á
internet.
 Usa o Server Message Block 3.0(SMB) para compartilhar arquivos
 Compartilhe até 100 TB de dados em uma conta de armazenamento
 Serviço totalmente gerenciado – os dados são aplicados localmente e é
criptografado em REST.

O que é o Azure Cosmo DB?


O Azure cosmo DB é um sistema de gerenciamento de banco de dados NoSQL de
vários modelos.
 O Cosmo DB gerencia os dados como um conjunto particionado de documentos
 Acesso em tempo real com latência de leitura e gravação rápida
 Aproveita as capacidades de escalonamento e armazenamento do Azure

Os campos em um documento são colocados entre as chaves e cada campo tem um


prefixo com o seu nome

Provisionar o Cosmos DB
API  SQL Tabela de API’S  Mongo DB  Cassandra  Gremlin

Explorar o provisionamento e a implantação de serviços de dados não relacionais no


Azure

Gerenciar armazenamentos de dados não relacionais no Azure


O que é o Azure DATA FACTORY?
O Azure Data Factory é descrito como um serviço de integração de dados.
 Recupera dados de mais de uma fonte de dados e os converte
 Filtra ruídos para manter os dados interessantes
 O trabalho é definido como uma operação de pipeline – é executado
continuamente á medida que os dados são recebidos

O que é o Azure Data Lake Storage?


O Azure Data Lake Storage é um repositório de dados para seu data warehouse
moderno.
 Organiza os dados em diretório para acesso aprimorado aos arquivos
 Compatível com permissões POSIX e RBAC
 Compatível com o Sistema de Arquivos Distribuído Hadoop
O que é o Azure Databricks?
O Azure Databricks é uma plataforma baseada no Apache Spark que oferece
processamento e streaming de big data.
 Simplifica o provisionamento e a colaboração de soluções de análise baseadas no
Apache Spark
 Utiliza a capacidades de segurança do Azure.
 Integra-se a uma variedade de serviços de plataforma de dados do Azure e Power
BI.

O que é o Azure Analysis Services?


O Azure Analysis Services cria modelos de tabelas para dar suporte a consultas OLAP
(processamento analítico online). Ele pode combinar dados de várias fontes, incluindo
o Banco de dados SQL do Azure, o Azure Synapse Analytics, o Azure Data Lake Store , o
Azure Cosmo DB e outros

O que é o Azure HDInsight?


O Azure HDInsight são serviços de processamento de big data que permite utilizar
bibliotecas open-source em uma plataforma, em um ambiente Azure.

Você também pode gostar