Você está na página 1de 37

UNIDADE: BIG DATA

1
AULA 01 – CIÊNCIA DE DADOS
Prof. Roberson Alves
AGENDA
✓Ciência de Dados
✓Big Data
✓NoSQL
✓Gestão de Dados
2
FERRAMENTAS QUE UTILIZAREMOS

3
CIÊNCIA DOS DADOS
• Em busca por uma definição formal sobre Ciência dos Dados,
encontramos diversos trabalhos na literatura
– Embora muito se discuta sobre a composição das atividades de Ciência dos Dados, o seu
conceito ainda não é algo fundamentalmente estabelecido

• Para Zhu e Xiong (2015), há quatro vertentes (perspectivas) que buscam


caracterizar Ciência dos Dados

Ciência que Ciência que


estuda dados estuda dados de
científicos negócio

Ciência dos
Dados
Integração de áreas: Resolução de problemas
Estatística, Ciência da por meio da extração de
Informação e Tecnologia conhecimento a partir
da Informação dos dados
4
CIÊNCIA DOS DADOS
• Embora não haja consenso sobre a definição, encontramos
como elemento comum em todas as propostas um processo de
manipulação, processamento e análise de dados, que visa a
descoberta de novos conhecimentos.

• Para Alex Dehktyar (2016),


– Ciência dos dados é uma disciplina que permite tratar o ciclo
de trabalho com os dados, considerando atividades que
compreendem desde a aquisição dos dados, passando pela
análise dos dados, até o processo de apresentação dos dados
e obtenção de novos conhecimentos.

5
CIÊNCIA DOS DADOS - PROCESSO

6
Cortesia: Alex Dehktyar
O CONCEITO DE DADO X INFORMAÇÃO X CONHECIMENTO
1. Dados: Fluxos de fatos coletados (brutos) que representam eventos
do domínio. Qualquer evento que possa ser armazenado em
formato digital, incluindo texto, números, imagens, vídeo ou filmes,
áudio, software, algoritmos, equações, animações, modelos,
simulações, etc.
2. Informação: Conjuntos de dados significativos e úteis a seres
humanos em processos como o de tomada de decisões;

3. Conhecimento: Informações inter-relacionadas não estruturadas de


regras que direcionam as tomadas de decisões.
Fonte: CORRÊA, 2011 – Adaptado Laudon, 2013

7
O CONCEITO DE DADO X INFORMAÇÃO X
CONHECIMENTO

8
QUAIS SÃO OS DADOS?
Coleções de registros ou medições que fornecem
um registro de evidências do evento observado
“... qualquer informação que possa ser
armazenada em formato digital, incluindo texto,
números, imagens, vídeo ou filmes, áudio,
software, algoritmos, equações, animações,
modelos, simulações, etc. “

Atributos gerais da informação:


•Digital;
•Heterogênea;
•Contextualizada;
9
•Valiosa.
O CONCEITO DE DADO X INFORMAÇÃO X CONHECIMENTO

Pergunta:

Os dados climáticos coletados


por estações metrológicas
numa região é dado ou
informação?

10
BIG WORLD
BIG PROBLEMS
BIG DATA
Image: NASA C98-2815 11
8
12
13
BIG DATA: V’S
▪O Big Data deve ser expresso, a partir da
definição dos seus V’s:
▪Volume
▪Velocidade
▪Variedade
▪Valor
▪Veracidade 14
O QUE É BIG DATA?
✓ É uma aplicação computacional de Ciência dos Dados que tem por
objetivo analisar e extrair sistematicamente informações de grandes
volumes de conjuntos de dados, para os quais técnicas
computacionais tradicionais não são adequadas. Os desafios para
gestão dos dados são classificados em 5V’s (Chen et al., 2012, Kwon et
al., 2014).
✓ Big data é um grande volume de
dados, alta velocidade e alta
variedade de ativos de informação
que demandam formas inovadoras e
econômicas de processamento de
informações para melhor insight e
tomada de decisões.” (“Gartner IT
Glossary, n.d.”)
15
BIG DATA: TAMANHO DA WEB

16
BIG DATA: DESAFIOS
▪ Usar dados para tomar decisões (objetivo principal)
▪ Dados -> Informações -> Conhecimento -> Decisões
▪ “Self-service” dos dados para atingir esse objetivo
▪ Usuário define qual dado é relevante
▪ Dados “frescos” são tão importantes quanto o volume.
▪ Dados em tempo real
▪ 90% dos dados são antigos e com pouco valor
▪ Dados personalizados
▪ Dados genéricos -> facilmente copiados
▪ Sistemas de recomendação
17
CAUSAS QUE TORNAM OS DADOS COMPLEXOS

● Linguagem
de consulta

● Tamanho ● Dispersão

● Estrutura ● Taxa de
crescimento

18
ETAPAS PARA CRIAÇÃO DE BIG DATA
Questões tratadas:
Dispersão Estrutura Tamanho e taxa Linguagem de
de crescimento consulta e
detalhes
Análise
Fontes Extrai Consulta/
Transforma
externas Relatório
carrega Consultas
atualiza
bds
operacionais

Etapas:

Fontes de Dados ETL Centralização Análise

19
BIG DATA: FONTES DE DADOS
▪ Formatos:
▪ Estruturadas (BD relacionais)
▪ Semi-estruturados (JSON, XML,…)
▪ Não-estruturados (e-mails, mensagens, PDFs. …)
▪ Dados ambíguos
▪ Tipos, nomes, precisão, sistema métrico, ...
▪ Camadas de hierarquia
▪ Falta de metadados
20
BIG DATA

É necessário uma solução altamente flexível, que acomode facilmente


qualquer novo tipo de dado (não-estruturado e semi-estruturado) e que
não seja corrompida por mudanças na estrutura de conteúdo.
NoSQL fornece um modelo de dados sem esquema muito mais flexível
que mapeia melhor a organização de dados de uma aplicação e simplifica
a interação entre a aplicação e o banco de dados, resultando em menos 21
código para escrever, depurar e manter.
VÉRTICE DOS DADOS
10% de todos
32 bilhões de os dados serão 21% dos mais valiosos
coisas vão estar gerados por dados serão gerados
conectadas a sistemas por sistemas
internet embarcados embarcados

Dados de telemetria - semi-estruturados e contínuos - representam um desafio para


bancos de dados relacionais, que exigem um esquema fixo e dados estruturados.

Empresas inovadoras estão utilizando tecnologia NoSQL para dimensionar o acesso


simultâneo de dados para milhões de dispositivos e sistemas conectados,
armazenar bilhões de pontos de dados e atender aos requisitos de infra-estrutura e
operações de missão crítica de performance.

22
NOSQL: O QUE SIGNIFICA?
▪ NoSQL é um termo genérico que define bancos de dados
não-relacionais.

▪ A tecnologia NoSQL foi iniciada por companhias líderes da


Internet - incluindo Google, Facebook, Amazon e LinkedIn -
para superar as limitações (45 anos de uso da tecnologia) de
banco de dados relacional para aplicações web
modernas(2008).

23
NOSQL: BANCO NÃO-RELACIONAIS
Características em Características em singulares:
comum: ➢ certos sistemas promovem
✓ tais como serem livres ➢o particionamento e a
de esquema; replicação dos dados
✓ promoverem alta ➢sistemas baseados em
disponibilidade; e armazenamento chave-valor
➢sistemas orientados a
✓maior escalabilidade
documentos
➢sistemas orientados a coluna
➢sistemas baseados em grafos
24
POR QUE NOSQL?
▪ Hoje as empresas estão adotando NoSQL para um
número crescente de aplicações/casos de uso.
▪ A escolha que é impulsionada por quatro
megatendências inter-relacionadas:
▪ Big Users
▪ Big Data
▪ Internet das coisas
▪ Cloud Computing
▪ Ciência de Dados
25
CLASSIFICAÇÃO NOSQL
Key - Value Column

Key Value
123435 Joao da Silva

334545 Name=Fernando, age=29

Graph Document

26
DBRANKING

http://db-engines.com/en/ranking
27
GESTÃO DE DADOS
Planejar

Analisar Coletar

Integrar Assegurar

Descobrir Descrever

Preservar
28
PORQUE A GESTÃO DE DADOS?
1. Para capturar, armazenar, proteger e garantir a integridade
dos ativos de dados;
2. Garantir a utilização adequada dos dados e informações;
3. Maximizar o uso eficaz dos dados e agregar valor aos
ativos da informação.
Fonte: DAMA International, The DAMA Guide to the Data Managemen Body of
Knowledge

29
GESTÃO DE DADOS
“Gestão de Dados é a disciplina responsável por definir,
planejar, implantar e executar: estratégias, procedimentos
e práticas necessárias para gerenciar de forma efetiva os
recursos de dados e informações das organizações
incluindo planos para sua definição, padronização,
organização, proteção e utilização.”
Fonte: DAMA-DMBOK

A Gestão de Dados é um conceito bastante amplo, ela


atua nos níveis: Operacional, Gerencial (Tática) e
Estratégico.

30
DESAFIOS: “THE LONG TAIL” DA GESTÃO DOS DADOS

“A maioria dos bytes


estão no topo, mas na
Repositórios Especializados medida em que aumenta a
VOLUME

variabilidade dos dados


diminui o volume.” – Jim
Gray, Microsoft research
Dados órfãos

VARIEDADES DE DADOS Fonte: DataONE

31
DESAFIOS: DADOS ÓRFÃOS
• INFORMAÇÃO QUE SE TORNOU IRRECUPERÁVEL POR ESTAR LOCALIZADA EM
DISPOSITIVOS NÃO MAIS ACESSÍVEIS, COMO NOTEBOOKS, E QUE NUNCA FORAM
TRANSFERIDAS PARA SERVIDORES COMPUTACIONAIS;
• INFORMAÇÕES PERDIDAS APÓS O DESLIGAMENTO DE PESQUISADORES/FUNCIONÁRIOS DA
INSTITUIÇÃO;
• DADOS DE PESQUISADORES NÃO ASSOCIADOS A NENHUMA REDE DE DADOS.

?
? ?

32
GESTÃO DE DADOS: PROCESSO
Planejar

Analisar Coletar

Integrar Assegurar

Descobrir Descrever

Preservar
33
GESTÃO DE DADOS: PROCESSO
• Planejar: adotar ferramentas para planejar a gestão de
dados;
• Assegurar: empregar controle de qualidade aos
dados(QA e QC);
• Descrever: porque, quem, o quê, quando, onde e como;
• Preservar: plano para preservar os dados a curto e longo
prazo;
• Descobrir: estratégias para a localização e aquisição de
dados potencialmente úteis;
• Integrar/publicar: disponibilizar os dados em diferentes
repositórios para novas análises e investigações;
• Análise: utilizar os dados para análises que atendam os
34
objetivos do projeto.
PLANEJAR A GESTÃO DOS DADOS
• Ferramentas para planejar a gestão dos dados

https://dmptool.org/ https://dmponline.dcc.ac.uk/

35
PLANEJAR A GESTÃO DOS DADOS

https://www.kaggle.com/

36
1) EXERCÍCIO - DESAFIO
1) Gere um dataset envolvendo dados de seu interesse.
Cadastre o dataset no Kaggle configurando os dados
básicos do dataset. Preencha também os metadados do
dataset no Kaggle.

2) Para esse dataset, utilize um arquivo CSV, com pelo


menos 5 atributos;

3) Deixei o dataset como privado.

37

Você também pode gostar