Escolar Documentos
Profissional Documentos
Cultura Documentos
CONFIGURAÇÕES INICIAIS
Prof. Victor Sales Silva
victorssbh@hotmail.com
1
Apresentação
OU
1 2
4 5 6 7 8 9
11 12 13 14 15 16
18 19 20 21 22 23
25 26 27 28 29 30
OUTUBRO
Domingo Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira Sábado
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
Introdução e configurações iniciais
30 31
Criação de recursos em nuvem
NOVEMBRO
Domingo Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira Sábado
1 2 3 4 5
6 7 8 9 10 11 12
Técnicas de normalização /
Atualização e tratamento de dados
13 14 15 16 17 18 19
Criação de processos Batch
20 21 22 23 24 25 26
Criação de processos Streaming
27 28 29 30
DEZEMBRO
Domingo Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira Sábado
1 2 3
4 5 6 7 8 9 10
Catalogação de dados /
Validação de fluxo de dados
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
ÚLTIMOS TEMPOS.
Figura 2: Número de interações nas plataformas citadas no intervalo de 1 minuto em algum momento do ano de 2021
ETL ETL
Staging Area Data Warehouse
Data Mart
Visualização Variedade
Veracidade: Meus dados são verídicos? Confiáveis? São
relevantes?
Visualização: Quando exibo os meus dados, eles fazem
sentido? Ao visualizar o conjunto de informações, consigo tomar
alguma decisão?
Veracidade Valor
Variabilidade: Com a variedade de informações que possuo,
quantas interpretações/entendimentos posso inferir baseado no
conjunto?
BATCH
STREAMING
(REAL TIME)
Orquestração
ELT
Enterprise Data
Warehouse
Query
Dados Camada de
armazenamento /
Periodicidade análise
Horas para dias
Lote Lote Lote Lote Lote Lote Lote Lote
Processamento batch
Data Sources
– CARGA INCREMENTAL:
São utilizadas técnicas para coletas de informações que não foram previamente
•
carregadas para ambientes analíticos. Normalmente, essa metodologia é utilizada
para carga histórica de informações que não sofrem alterações no decorrer do
tempo.
– CARGA COMPLETA:
• Nessa metodologia, os dados são carregados sempre que o processo é executado,
sobrescrevendo dados já existentes ou, se for um novo objeto, dando novas visões.
Esse processo normalmente é aplicado em ambientes com grande atualização de
dados e que não tenham mecanismos simples de identificar a alteração de itens.
ETL
Verifica o último Insere os novos
registro inserido registros na
pela data ou pelo ID camada de
sequencial armazenamento
ETL
Lê todos os
registros da
planilha
Se a tabela/arquivo já existir, todo o
seu conteúdo é apagado e os dados
são inseridos. Se a tabela/arquivo não
existir, cria e adiciona os registros
lidos
Query
Dados Camada de
armazenamento /
Periodicidade análise
Milissegundos a
Contínua segundos
Processamento Streaming
Data Sources
– LOGS:
• Os eventos nos sistemas geram dados que podem ser coletadas no instante que são
criados e analisados por ferramentas que tenha baixa latência e capacidade de
processamento de dados em larga escala. Altamente empregada em ambientes de e-
commerce, sistemas bancários, informações de redes sociais, serviços geoespaciais e
outras coisas mais.
– PUB/SUB (MENSAGERIA):
• O mecanismo de mensagens, conhecido como PUB/SUB, cria tópicos que recebem e
“escutam” chamadas de serviços e envia para seus “assinantes”, que realização ações
de acordo com a configuração definida. É uma técnica amplamente empregada em
aplicações IoT (Internet of Things), mas pode ser utilizada em vários outros
segmentos.
ELT
Insere os registros
no sistema analítico
Cadastros Buscas
Publisher A Publisher B
Mensagem 1 Mensagem 2
Tópico A Tópico B
Pub|Sub
Subscriber A Subscriber B
variable tags {
default = {
Aluno = "Insira seu nome completo"
Disciplina = "Preparação e Catalogação de Dados"
Matrícula = "Coloque seu número de matrícula"
Email = "@sga.pucminas.br"
Professor = "Victor Sales Silva"
}
}
variable localizacao {
description = "Localização geográfica dos recursos Azure"
default = "mude para a região disponível para uso da máquina
Standard_B2ms"
}
variable gruporecursos_aula {
description = "Grupo de recursos utilizados durante as aulas"
default = "resourcegroup_aulas"
}
variable contaarmazenamento {
description = "Conta de armazenamento dos dados usados
durante as aulas"
default = "storageaccountXXXXXX" # Substituir o XXXXXX pelo
código de matrícula
}
91
REFERÊNCIAS BIBLIOGRÁFICAS
• FORBES. “20 fatos sobre a internet que você (provavelmente) não sabe".
Disponível em: <20 fatos sobre a internet que você (provavelmente) não sabe
- Forbes Brasil>. Acesso em 16 mai. 2021.