Escolar Documentos
Profissional Documentos
Cultura Documentos
Ronaldo S. Mello
2018/2
Roteiro
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Dados E
Dados SE
complexos
Dados ÑE
Por Quê “Big Data”?
• Panorama dos dados digitais no Brasil1
2014: 212 Exabytes (Eb)
2020: 1.6 Zettabytes (Zb) (previsão)
Previsão no mundo: 40 Zb serão gerados até 2020
1 Pb = 210 Tb
Kb Mb Gb Tb Pb Eb Zb 1 Eb = 210 Pb
1 Zb = 210 Eb
1
Fonte: www.EMC.com
Big Data – Definições
• Falta de consenso (foco) para explicar o
conceito...
(1) “Big Data é um grande conjunto de dados armazenados”
1 Não apenas para a comunidade de BD, mas outras comunidades da Computação como IA,
Computação Distribuída, Algoritmos e Complexidade, Redes, ...
Roteiro
8 Vs
Vulnerabilidade
Visualização
Variabilidade
5 Vs
Veracidade
Valor
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade
...
...
Deep Web
Natureza dos Dados na Web
• Dados Não-Estruturados
− dados de mídias não-textuais
− metadados podem estar disponíveis junto
aos arquivos de dados
− exemplos:
imagens
áudios
vídeos
...
Natureza dos Dados na Web
• Dados Semiestruturados
− dados com alguma estrutura (textual)
explícita
• parte não-estruturada composta por diferentes
mídias (texto, imagem, ...)
− exemplos:
páginas HTML de modo geral
documentos (e-mails, XML, ...)
...
Dados Semiestruturados
Pesquisa em Dados na Web
• Tornar a Web um imenso BD! (Utopia ?!)
− esquematização dos dados (propriedades, valores e
restrições)
− consultas declarativas (p.ex., estilo SQL)
• Para se alcançar este difícil objetivo...
− descobrir onde estão os dados de interesse
− extrair os dados de interesse
− catalogar (esquematizar) e/ou indexar e/ou prover visões
estruturadas
8 Vs
Vulnerabilidade
Visualização
Variabilidade
Veracidade
• Desafio: lidar com variações nos 3 Vs, ou seja, picos de alto e baixo
volume,Valor
variedade e velocidade (situações não-determinísticas)
• Objetivo: garantir3 que
Vs o desempenho no processamento de Big Data não
seja comprometido com tais variações
Velocidade
• Desejável: desenvolver soluções que garantam elasticidade no
tratamento de Big Data, como a adoção de serviços nas nuvens
Variedade
• Exemplo: Amazon elastic cloud computing - serviços em diferentes níveis
Volume
(de infraestrutura a gerenciadores de dados com modelos flexíveis)
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade
8 Vs
Vulnerabilidade
Visualização
Variabilidade
8 Vs
Vulnerabilidade
Visualização
Variabilidade
• Desafio: manter Big Data livre de ataques e falhas durante a sua
manipulação
• Objetivo: garantir Big Data sempre seguro
Veracidade
• Desejável: desenvolver técnicas de segurança eficientes para dados
• Exemplos:
Valortécnicas de recovery e criptografia adaptadas à Big Data
3 Vs
“in May 2016, a hacker called Peace posted data on the dark web to sell,
Velocidade
which allegedly included information on 167 million LinkedIn accounts
and ... Variedade
360 million emails and passwords for MySpace users.“ (LinkedIn
Vulnerability)
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade
8 Vs
Vulnerabilidade
• Desafio: lidar com Big Data atual
Visualização
• Objetivo: evitar o processamento de Big Data obsoletos, muito antigos,
Variabilidade
irrelevantes (até quando devo manter o meu Big Data?)
• Desejável: desenvolver técnicas de gerenciamento temporal de Big Data,
visando manter apenas dados relevantes atuais e não sobrecarregar as
capacidades
Veracidade de processamento devido a questões de volume e
velocidade
Valor
• Exemplo: análise de transações de clientes até no máximo X anos atrás...
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade
• Desafio: 8 Vs
lidar com a resistência à navegação (exaustiva) em um grande
Vulnerabilidade
volume de dados Big Data para obter alguma informação relevante
Visualização
• Objetivo: evitar fontes de dados fracamente informativas que induzam o
usuário ou aplicação a buscas exaustivas em outros dados relacionados
Variabilidade
• Desejável: desenvolver técnicas para geração de streaming de dados
mais informativos, desenvolver técnicas de integração de dados que
enriqueçam
Veracidadedados com mais conteúdo informativo, ...
• Exemplo: busca por informações diversas de um cliente em múltiplas
Valor
fontes de dados para determinar o seu perfil (evitar!)
3 Vs
Velocidade
Variedade
Volume
Roteiro
Ronaldo S. Mello
2018/2