Módulo 1 - Conhecendo o Big Data

Módulo 1 – Conhecendo o Big Data
Unidade 1: Compreendendo o Big Data

O Big Data é um termo utilizado para descrever a explosão do volume
de dados produzidos no espaço cibernético. Esses grandes conjuntos
de dados são complexos demais para serem processados pelos
métodos tradicionais de processamento de dados. Sendo assim, é
necessário utilizar tecnologias avançadas para armazenamento,
processamento e análise de dados, criando condições para lidar com
a complexidade e a escalabilidade
No contexto do setor público brasileiro, o Big Data é considerado um

instrumento para melhorar a eficiência dos serviços públicos, tomar
decisões baseadas em dados e desenvolver soluções para problemas
complexos. Explorar o poder transformador do Big Data no setor
público é um requisito-chave para a modernização da governança e
transformação digital do setor
No entanto, essa não é a única característica que define o Big Data.

Inicialmente, ele foi definido pelos 3Vs: volume, velocidade e
variedade dos dados. Com o avanço das tecnologias, dois outros
atributos se tornaram igualmente importantes: veracidade e valor.
Portanto os 5Vs do Big Data são: volume, velocidade, variedade,
veracidade e valor.
Unidade 2: Eventos Geradores de Big Data

A popularização das plataformas Facebook, Twitter, Instagram e
LinkedIn trouxe consigo espaços virtuais para interação entre os
usuários. Essas interações geram um grande volume de dados, que
variam de semiestruturados a não estruturados. Quando esses dados
são analisados de maneira contextualizada, revelam padrões e
insights valiosos.
Os dados gerados nas mídias e redes sociais, que fazem parte do Big
Data, têm um potencial significativo no monitoramento das redes e
podem ser aproveitados como ferramentas poderosas na gestão
pública. É importante ressaltar que a análise desses dados deve ser
realizada com transparência, respeitando a privacidade dos usuários
e seguindo as normas e legislações vigentes.
A computação em nuvem também pode ser um evento gerador de

dados em Big Data devido à sua natureza escalável e distribuída.
2.3 Bancos de Dados
O banco de dados é uma coleção estruturada de dados armazenados

digitalmente e gerenciados por um Sistema de Gerenciamento de
Banco de Dados (SGBD). O gerenciamento de dados foca na criação,
armazenamento e recuperação adequada desses dados. Em um
projeto de banco de dados é essencial entender a diferença entre
dados, informação e conhecimento.
O SGBD gerencia a estrutura do banco de dados e controla o acesso
aos dados armazenados. Ele atua como uma interface entre o banco
de dados e os usuários finais ou programas, permitindo a
recuperação, atualização e gerenciamento dos dados. O SGBD facilita
a gestão e controle do banco de dados, permitindo uma série de ações
administrativas, como monitoramento de desempenho, ajuste e
backups.
À medida que os sistemas de registro se tornam mais automatizados
e interconectados, os dados se tornam parte do ecossistema do Big
Data. O crescimento exponencial de dispositivos conectados à
Internet das Coisas (IoT) contribui para o grande volume de dados
disponíveis no Big Data.
Sendo assim, os bancos de dados fazem parte dos eventos geradores
de Big Data, principalmente se esses dados forem gerados em tempo
real.
1.2.1 O que é Qualidade de Dados?
A qualidade dos dados está relacionada com o grau de adequação,

confiabilidade e precisão das informações contidas em um conjunto
de dados. Essa qualidade é essencial para a tomada de decisão e para
o sucesso dos projetos orientados por dados
Dentro do conceito de banco de dados, encontram-se os sistemas
datacêntricos, que são projetados e construídos em torno de dados.
Esses sistemas posicionam os dados no centro do design e são
desenvolvidos para gerenciar e processar grandes quantidades de
dados. Os sistemas datacêntricos ajudam as organizações a obterem
insights valiosos, aproveitando grandes volumes de dados em tempo
real. No entanto, esses sistemas apresentam desafios relacionados

com a privacidade, segurança de dados e integração com sistemas
externos à organização.
O SGBD é responsável por gerenciar a estrutura do banco de dados e
controlar o acesso aos dados armazenados. À medida que os sistemas
de registro se tornam mais automatizados e interconectados, os
dados se tornam parte do ecossistema do Big Data. O crescimento
exponencial de dispositivos conectados à Internet das Coisas (IoT)
contribui para o grande volume de dados disponíveis no Big Data.
Data Lakes são repositórios centralizados de dados que armazenam
grandes volumes de dados brutos, estruturados, semiestruturados e
não estruturados. Eles permitem a integração de dados de diversas
fontes sem a necessidade de transformação prévia.
Por outro lado, o Data Warehouse é um repositório central que
armazena grandes quantidades de dados históricos e atualizados de
diferentes fontes dentro de uma organização. É usado para análises e
tomada de decisões estratégicas, seguindo uma arquitetura
dimensional com dados organizados em fatos e dimensões.

Enquanto o Data Lake oferece mais flexibilidade de armazenamento,
o Data Warehouse é mais focado em análises e tem uma estrutura
mais organizada.
Unidade 3: Princípios FAIR na Gestão de Dados no

Serviço Público
Os princípios FAIR (Findable, Accessible, Interoperable, Reusable) são

diretrizes que visam promover a usabilidade, compartilhamento e
reutilização de dados de forma eficiente e eficaz. Esses princípios
foram desenvolvidos para enfrentar os desafios de encontrar, acessar
e integrar dados em um contexto de dados cada vez mais distribuídos
e diversos.
Os princípios FAIR, representados pelos termos Findable
(encontrável), Accessible (acessível), Interoperable (interoperável) e
Reusable (reutilizável), quando aplicados à gestão de dados,
melhoram a qualidade dos dados, através de um conjunto de diretrizes
para tornar os dados mais acessíveis e úteis. Esses princípios são
distribuídos em quatro categorias.
É importante ressaltar que os princípios FAIR não se aplicam apenas
aos dados em si, mas também devem ser incorporados aos algoritmos,
ferramentas e fluxos de trabalho relacionados a esses dados. A
aplicação desses princípios beneficia os objetos de pesquisa digital,

garantindo transparência, reprodutibilidade e reutilização ao tornar
os componentes do processo de pesquisa acessíveis (WILKINSON et
al., 2016).
—--------------------------------------------
A análise de conectividade é uma técnica que busca identificar grupos

ou clusters de dados com base nas relações e proximidade entre eles.
Esses modelos são estruturados levando em consideração a
proximidade dos dados no espaço em que estão inseridos. Dessa
forma, os dados que estão mais próximos no espaço apresentam
maior similaridade entre si, em contraste com aqueles que estão
distantes.
O modelo de análise de conectividade é comumente
aplicado no Big Data para agrupar grandes conjuntos
de dados em clusters menores e mais gerenciáveis,
facilitando a identificação de padrões e insights
valiosos.
Os modelos de centróide são um tipo de algoritmo de clustering em que
a similaridade entre os pontos de dados é definida pela proximidade
desses pontos aos centróides (centro geométricos) dos clusters. Esses
modelos visam identificar centróides que sejam representativos dos
clusters e buscam encontrar o número ideal de clusters para o conjunto
de dados.
Diferentemente dos modelos de conectividade baseados em
vizinhança, os modelos de centróide exigem a definição prévia do
número de clusters desejado para se executar o algoritmo, o que pode
ser um desafio. A escolha inicial aleatória dos centróides também pode
afetar os resultados. É importante avaliar a qualidade dos clusters
gerados por esses modelos e ajustar o número de clusters de acordo
com os objetivos desejados.
Os modelos de distribuição são utilizados para calcular a probabilidade
de um elemento pertencer a um grupo ou não. Eles formam
agrupamentos com base na probabilidade de que todos os pontos em
um cluster tenham sido gerados por uma determinada distribuição de
probabilidade.
Alguns modelos de distribuição, como o modelo de mistura de
gaussianas, usam a distância como medida de similaridade e a
probabilidade para atribuir pontos a diferentes clusters. É essencial
definir um limiar de precisão para determinar o número de clusters
necessários e como os pontos são atribuídos a eles.
Os modelos de densidade são ferramentas utilizadas para analisar e

entender a distribuição de probabilidade de uma variável aleatória.
Esses modelos são úteis em várias áreas, tais como estatística, física,
engenharia, economia, entre outras.
O uso dos modelos de densidade começa com a coleta de dados. Com
isso, é possível plotar um histograma para entender a distribuição
desses dados. Na sequência, pode-se ajustar o modelo de densidade
para realizar previsões ou inferências sobre a variável aleatória em
questão.
Esses modelos são úteis para comparação de diferentes distribuições
de probabilidade. Por exemplo, o modelo de densidade pode ser
ajustado para cada grupo de dados e, assim, comparar as distribuições
para identificar diferenças entre eles.
O processo de transformação de dados, é conhecido

como ETL (Extract, Transformation and Load),
significa Extrair, Transformar e Carregar. É uma
metodologia que automatiza as tarefas relacionadas
com a transformação de dados para um formato
adequado para análise e, na sequência, possibilita
carregá-los em um sistema de armazenamento de
dados (tais como Data Lake, Data Warehouse ou banco
de dados NoSQL) (ROSS; KIMBALL, 2013).
No contexto do ETL, insere-se o processo de curadoria de dados de

várias fontes, a fim de consolidar os dados formatados em um banco
de dados unificado e, com isso, conduzir o carregamento dos dados
transformados em um novo ambiente (MANOK KUKREJA, 2021). A
transformação digital é fator chave na integração de dados de
múltiplas fontes, tornando as técnicas de limpeza de dados e correção
de erros questões essenciais para assegurar a qualidade dos dados
(LENZERINI, 2002).
As diferenças entre ETL (Extrair, Transformar e Carregar) e ELT

(Extrair, Carregar e Transformar) estão relacionadas principalmente
com o fluxo de dados e o armazenamento de dados durante o processo
de integração de dados.
Algoritmos para leigos - John Paul Mueller e Luca Massaron
Programação em Python 3 - Mark Summerfield
SQL - Curso Prático - Celso Henrique Poderoso de Oliveira Sistemas de Banco
de Dados - 6a Edição - Elmasri e Navathe
HTML & CSS - Projete e construa sites - Jon Duckett
Estatística Prática para Cientistas de Dados - Peter Bruce & Andrew Bruce
Introdução à Ciência de Dados - Mineração de Dados e Big Data - Fernando
Amara

Módulo 1 - Conhecendo o Big Data

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Módulo 1 - Conhecendo o Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

Módulo 1 – Conhecendo o Big Data

Unidade 1: Compreendendo o Big Data

No contexto do setor público brasileiro, o Big Data é considerado um

No entanto, essa não é a única característica que define o Big Data.

Unidade 2: Eventos Geradores de Big Data

LinkedIn trouxe consigo espaços virtuais para interação entre os

usuários. Essas interações geram um grande volume de dados, que

variam de semiestruturados a não estruturados. Quando esses dados

são analisados de maneira contextualizada, revelam padrões e

Data, têm um potencial significativo no monitoramento das redes e

podem ser aproveitados como ferramentas poderosas na gestão

pública. É importante ressaltar que a análise desses dados deve ser

realizada com transparência, respeitando a privacidade dos usuários

e seguindo as normas e legislações vigentes.

A computação em nuvem também pode ser um evento gerador de

2.3 Bancos de Dados

O banco de dados é uma coleção estruturada de dados armazenados

O SGBD gerencia a estrutura do banco de dados e controla o acesso

de dados e os usuários finais ou programas, permitindo a

recuperação, atualização e gerenciamento dos dados. O SGBD facilita

a gestão e controle do banco de dados, permitindo uma série de ações

administrativas, como monitoramento de desempenho, ajuste e

e interconectados, os dados se tornam parte do ecossistema do Big

Data. O crescimento exponencial de dispositivos conectados à

Internet das Coisas (IoT) contribui para o grande volume de dados

disponíveis no Big Data.

Sendo assim, os bancos de dados fazem parte dos eventos geradores

de Big Data, principalmente se esses dados forem gerados em tempo

1.2.1 O que é Qualidade de Dados?

A qualidade dos dados está relacionada com o grau de adequação,

Dentro do conceito de banco de dados, encontram-se os sistemas

datacêntricos, que são projetados e construídos em torno de dados.

Esses sistemas posicionam os dados no centro do design e são

desenvolvidos para gerenciar e processar grandes quantidades de

dados. Os sistemas datacêntricos ajudam as organizações a obterem

insights valiosos, aproveitando grandes volumes de dados em tempo

real. No entanto, esses sistemas apresentam desafios relacionados

O SGBD é responsável por gerenciar a estrutura do banco de dados e

controlar o acesso aos dados armazenados. À medida que os sistemas

de registro se tornam mais automatizados e interconectados, os

dados se tornam parte do ecossistema do Big Data. O crescimento

exponencial de dispositivos conectados à Internet das Coisas (IoT)

contribui para o grande volume de dados disponíveis no Big Data.

Data Lakes são repositórios centralizados de dados que armazenam

grandes volumes de dados brutos, estruturados, semiestruturados e

não estruturados. Eles permitem a integração de dados de diversas

fontes sem a necessidade de transformação prévia.

Por outro lado, o Data Warehouse é um repositório central que

armazena grandes quantidades de dados históricos e atualizados de

diferentes fontes dentro de uma organização. É usado para análises e

tomada de decisões estratégicas, seguindo uma arquitetura

dimensional com dados organizados em fatos e dimensões.

o Data Warehouse é mais focado em análises e tem uma estrutura

Unidade 3: Princípios FAIR na Gestão de Dados no

Os princípios FAIR (Findable, Accessible, Interoperable, Reusable) são

Os princípios FAIR, representados pelos termos Findable

(encontrável), Accessible (acessível), Interoperable (interoperável) e

Reusable (reutilizável), quando aplicados à gestão de dados,

melhoram a qualidade dos dados, através de um conjunto de diretrizes

para tornar os dados mais acessíveis e úteis. Esses princípios são

distribuídos em quatro categorias.

É importante ressaltar que os princípios FAIR não se aplicam apenas

ferramentas e fluxos de trabalho relacionados a esses dados. A