Você está na página 1de 9

Módulo 1 – Conhecendo o Big Data

Unidade 1: Compreendendo o Big Data


O Big Data é um termo utilizado para descrever a explosão do volume
de dados produzidos no espaço cibernético. Esses grandes conjuntos
de dados são complexos demais para serem processados pelos
métodos tradicionais de processamento de dados. Sendo assim, é
necessário utilizar tecnologias avançadas para armazenamento,
processamento e análise de dados, criando condições para lidar com
a complexidade e a escalabilidade

No contexto do setor público brasileiro, o Big Data é considerado um


instrumento para melhorar a eficiência dos serviços públicos, tomar
decisões baseadas em dados e desenvolver soluções para problemas
complexos. Explorar o poder transformador do Big Data no setor
público é um requisito-chave para a modernização da governança e
transformação digital do setor

No entanto, essa não é a única característica que define o Big Data.


Inicialmente, ele foi definido pelos 3Vs: volume, velocidade e
variedade dos dados. Com o avanço das tecnologias, dois outros
atributos se tornaram igualmente importantes: veracidade e valor.
Portanto os 5Vs do Big Data são: volume, velocidade, variedade,
veracidade e valor.

Unidade 2: Eventos Geradores de Big Data


A popularização das plataformas Facebook, Twitter, Instagram e

LinkedIn trouxe consigo espaços virtuais para interação entre os

usuários. Essas interações geram um grande volume de dados, que

variam de semiestruturados a não estruturados. Quando esses dados

são analisados de maneira contextualizada, revelam padrões e

insights valiosos.
Os dados gerados nas mídias e redes sociais, que fazem parte do Big

Data, têm um potencial significativo no monitoramento das redes e

podem ser aproveitados como ferramentas poderosas na gestão

pública. É importante ressaltar que a análise desses dados deve ser

realizada com transparência, respeitando a privacidade dos usuários

e seguindo as normas e legislações vigentes.

A computação em nuvem também pode ser um evento gerador de


dados em Big Data devido à sua natureza escalável e distribuída.

2.3 Bancos de Dados

O banco de dados é uma coleção estruturada de dados armazenados


digitalmente e gerenciados por um Sistema de Gerenciamento de
Banco de Dados (SGBD). O gerenciamento de dados foca na criação,
armazenamento e recuperação adequada desses dados. Em um
projeto de banco de dados é essencial entender a diferença entre
dados, informação e conhecimento.

O SGBD gerencia a estrutura do banco de dados e controla o acesso

aos dados armazenados. Ele atua como uma interface entre o banco

de dados e os usuários finais ou programas, permitindo a

recuperação, atualização e gerenciamento dos dados. O SGBD facilita

a gestão e controle do banco de dados, permitindo uma série de ações

administrativas, como monitoramento de desempenho, ajuste e

backups.
À medida que os sistemas de registro se tornam mais automatizados

e interconectados, os dados se tornam parte do ecossistema do Big

Data. O crescimento exponencial de dispositivos conectados à

Internet das Coisas (IoT) contribui para o grande volume de dados

disponíveis no Big Data.

Sendo assim, os bancos de dados fazem parte dos eventos geradores

de Big Data, principalmente se esses dados forem gerados em tempo

real.

1.2.1 O que é Qualidade de Dados?

A qualidade dos dados está relacionada com o grau de adequação,


confiabilidade e precisão das informações contidas em um conjunto
de dados. Essa qualidade é essencial para a tomada de decisão e para
o sucesso dos projetos orientados por dados

Dentro do conceito de banco de dados, encontram-se os sistemas

datacêntricos, que são projetados e construídos em torno de dados.

Esses sistemas posicionam os dados no centro do design e são

desenvolvidos para gerenciar e processar grandes quantidades de

dados. Os sistemas datacêntricos ajudam as organizações a obterem

insights valiosos, aproveitando grandes volumes de dados em tempo

real. No entanto, esses sistemas apresentam desafios relacionados


com a privacidade, segurança de dados e integração com sistemas

externos à organização.

O SGBD é responsável por gerenciar a estrutura do banco de dados e

controlar o acesso aos dados armazenados. À medida que os sistemas

de registro se tornam mais automatizados e interconectados, os

dados se tornam parte do ecossistema do Big Data. O crescimento

exponencial de dispositivos conectados à Internet das Coisas (IoT)

contribui para o grande volume de dados disponíveis no Big Data.

Data Lakes são repositórios centralizados de dados que armazenam

grandes volumes de dados brutos, estruturados, semiestruturados e

não estruturados. Eles permitem a integração de dados de diversas

fontes sem a necessidade de transformação prévia.

Por outro lado, o Data Warehouse é um repositório central que

armazena grandes quantidades de dados históricos e atualizados de

diferentes fontes dentro de uma organização. É usado para análises e

tomada de decisões estratégicas, seguindo uma arquitetura

dimensional com dados organizados em fatos e dimensões.


Enquanto o Data Lake oferece mais flexibilidade de armazenamento,

o Data Warehouse é mais focado em análises e tem uma estrutura

mais organizada.

Unidade 3: Princípios FAIR na Gestão de Dados no


Serviço Público

Os princípios FAIR (Findable, Accessible, Interoperable, Reusable) são


diretrizes que visam promover a usabilidade, compartilhamento e
reutilização de dados de forma eficiente e eficaz. Esses princípios
foram desenvolvidos para enfrentar os desafios de encontrar, acessar
e integrar dados em um contexto de dados cada vez mais distribuídos
e diversos.

Os princípios FAIR, representados pelos termos Findable

(encontrável), Accessible (acessível), Interoperable (interoperável) e

Reusable (reutilizável), quando aplicados à gestão de dados,

melhoram a qualidade dos dados, através de um conjunto de diretrizes

para tornar os dados mais acessíveis e úteis. Esses princípios são

distribuídos em quatro categorias.

É importante ressaltar que os princípios FAIR não se aplicam apenas

aos dados em si, mas também devem ser incorporados aos algoritmos,

ferramentas e fluxos de trabalho relacionados a esses dados. A

aplicação desses princípios beneficia os objetos de pesquisa digital,


garantindo transparência, reprodutibilidade e reutilização ao tornar

os componentes do processo de pesquisa acessíveis (WILKINSON et

al., 2016).

—--------------------------------------------

A análise de conectividade é uma técnica que busca identificar grupos


ou clusters de dados com base nas relações e proximidade entre eles.
Esses modelos são estruturados levando em consideração a
proximidade dos dados no espaço em que estão inseridos. Dessa
forma, os dados que estão mais próximos no espaço apresentam
maior similaridade entre si, em contraste com aqueles que estão
distantes.
O modelo de análise de conectividade é comumente
aplicado no Big Data para agrupar grandes conjuntos
de dados em clusters menores e mais gerenciáveis,
facilitando a identificação de padrões e insights
valiosos.
Os modelos de centróide são um tipo de algoritmo de clustering em que
a similaridade entre os pontos de dados é definida pela proximidade
desses pontos aos centróides (centro geométricos) dos clusters. Esses
modelos visam identificar centróides que sejam representativos dos
clusters e buscam encontrar o número ideal de clusters para o conjunto
de dados.
Diferentemente dos modelos de conectividade baseados em
vizinhança, os modelos de centróide exigem a definição prévia do
número de clusters desejado para se executar o algoritmo, o que pode
ser um desafio. A escolha inicial aleatória dos centróides também pode
afetar os resultados. É importante avaliar a qualidade dos clusters
gerados por esses modelos e ajustar o número de clusters de acordo
com os objetivos desejados.
Os modelos de distribuição são utilizados para calcular a probabilidade

de um elemento pertencer a um grupo ou não. Eles formam

agrupamentos com base na probabilidade de que todos os pontos em

um cluster tenham sido gerados por uma determinada distribuição de

probabilidade.

Alguns modelos de distribuição, como o modelo de mistura de

gaussianas, usam a distância como medida de similaridade e a

probabilidade para atribuir pontos a diferentes clusters. É essencial

definir um limiar de precisão para determinar o número de clusters

necessários e como os pontos são atribuídos a eles.

Os modelos de densidade são ferramentas utilizadas para analisar e


entender a distribuição de probabilidade de uma variável aleatória.
Esses modelos são úteis em várias áreas, tais como estatística, física,
engenharia, economia, entre outras.

O uso dos modelos de densidade começa com a coleta de dados. Com

isso, é possível plotar um histograma para entender a distribuição

desses dados. Na sequência, pode-se ajustar o modelo de densidade

para realizar previsões ou inferências sobre a variável aleatória em

questão.
Esses modelos são úteis para comparação de diferentes distribuições

de probabilidade. Por exemplo, o modelo de densidade pode ser

ajustado para cada grupo de dados e, assim, comparar as distribuições

para identificar diferenças entre eles.

O processo de transformação de dados, é conhecido


como ETL (Extract, Transformation and Load),
significa Extrair, Transformar e Carregar. É uma
metodologia que automatiza as tarefas relacionadas
com a transformação de dados para um formato
adequado para análise e, na sequência, possibilita
carregá-los em um sistema de armazenamento de
dados (tais como Data Lake, Data Warehouse ou banco
de dados NoSQL) (ROSS; KIMBALL, 2013).

No contexto do ETL, insere-se o processo de curadoria de dados de


várias fontes, a fim de consolidar os dados formatados em um banco
de dados unificado e, com isso, conduzir o carregamento dos dados
transformados em um novo ambiente (MANOK KUKREJA, 2021). A
transformação digital é fator chave na integração de dados de
múltiplas fontes, tornando as técnicas de limpeza de dados e correção
de erros questões essenciais para assegurar a qualidade dos dados
(LENZERINI, 2002).

As diferenças entre ETL (Extrair, Transformar e Carregar) e ELT


(Extrair, Carregar e Transformar) estão relacionadas principalmente
com o fluxo de dados e o armazenamento de dados durante o processo
de integração de dados.
Algoritmos para leigos - John Paul Mueller e Luca Massaron
Programação em Python 3 - Mark Summerfield
SQL - Curso Prático - Celso Henrique Poderoso de Oliveira Sistemas de Banco
de Dados - 6a Edição - Elmasri e Navathe
HTML & CSS - Projete e construa sites - Jon Duckett
Estatística Prática para Cientistas de Dados - Peter Bruce & Andrew Bruce
Introdução à Ciência de Dados - Mineração de Dados e Big Data - Fernando
Amara

Você também pode gostar