Você está na página 1de 66

UFSC-CTC-INE-PPGCC

INE 410131 – Gerencia de Dados para Big Data

Parte 2 – Introdução à Big Data

Ronaldo S. Mello
2018/2
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

1. Sistemas de Arquivos 7. Miscelânea (Modelos de dados para propósitos específcos:


2. Modelo Hierárquico BD Geográfco, Biológico, Multmídia, ...)
3. Modelo de Rede 8. Modelos de dados para Web (BDs semiestruturados, XML)
4. Modelo Relacional 9. Modelos de dados para Big Data (NoSQL, NewSQL,
5. Modelo Orientado a Objetos in-Memory, ...)
6. Modelo Objeto-Relacional
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Definição e manipulação de registros simples e fixos


• Gerenciamento apenas de baixo nível dos dados (armazenamento físico)
• Métodos de acesso limitados
• Gerenciamento de integridade e segurança a cargo do aplicação
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• + Gerenciamento de integridade, concorrência e segurança


• Métodos de acesso limitados
• Modelos de dados limitados (hierarquias, redes complexas de registros, ...)
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Linguagens de consulta (flexibilidade de acesso)


• Sólida base formal (teoria de conjuntos – provê otimização de consultas)
• Modelo de dados simples e menos limitado (sem hierarquias, sem
manipulação individual de registros)
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Modelos de dados complexos (estrutura complexa)


• Invocação de operações complexas e customizadas
(métodos) em consultas
Evolução dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Modelos de dados específicos para as necessidades de


determinadas aplicações (dados geográficos, dados
biológicos, dados multimídia, ...)
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Gerenciamento de dados com alta heterogeneidade


(não-estruturados, semiestruturados e estruturados)
• Modelos de dados flexíveis
Timeline dos Modelos de BD
Big Data

Web
Misc
OR
OO
Rel
Rede
Hier
S. Arq
... 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

• Gerenciamento de dados muito volumosos


• Modelos de dados mais simples
• Métodos de acesso limitados
(minimizar overhead de gerenciamento de dados e maximizar a escalabilidade e
disponibilidade)
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
Definição de Big Data
Definição de Big Data
Definição de Big Data
Por Quê “Big Data”?
• Modificação no uso e no tratamento da
informação neste início de século XXI
 Novo modelo social
o Muita interação virtual
 Novo modelo econômico
o Muito comércio eletrônico
 Novo modelo tecnológico
o Muitas aplicações
(e aplicativos) Web
Por Quê “Big Data”?
 Novo modelo social Tudo isso gera e
o Muita interação virtual disponibiliza um
 Novo modelo econômico volume massivo de
o Muito comércio eletrônico
dados dos mais
variados tipos!
 Novo modelo tecnológico
o Muitas aplicações
(e aplicativos) Web

Dados E

Dados SE
complexos

Dados ÑE
Por Quê “Big Data”?
• Panorama dos dados digitais no Brasil1
 2014: 212 Exabytes (Eb)
 2020: 1.6 Zettabytes (Zb) (previsão)
Previsão no mundo: 40 Zb serão gerados até 2020

1 Pb = 210 Tb
Kb Mb Gb Tb Pb Eb Zb 1 Eb = 210 Pb
1 Zb = 210 Eb

1
Fonte: www.EMC.com
Big Data – Definições
• Falta de consenso (foco) para explicar o
conceito...
(1) “Big Data é um grande conjunto de dados armazenados”

“Big Data é similar a small data, mas com tamanho maior,


(2)
ou seja, data sets com tamanho em termos de Tb ou mais”

(3) “Big Data é a quantidade enorme de informações nos


servidores de bancos de dados”

(4) “Big Data é o imenso volume de dados – estruturados e não


estruturados – que impactam os negócios no dia a dia”
Big Data – Definições
• Mais definições...
“Big Data requer um conjunto de técnicas e tecnologias
com novas formas de integração de dados para reveler
(5)
insights a partir de data sets que são diversos,
complexos e em escala massiva”

“Big Data se refere geralmente a métodos analíticos


(6) avançados que extraem valor dos dados e não estão
limitados a dados com um tamanho ou representação
particular”
Big Data – Definições
• Mais definições...
“Big Data são dados que excedem a capacidade de
(7)
processamento dos SGBDs convencionais”

“Big Data são data sets tão grandes ou complexos que os


(8) softwares de processamento de dados tradicionais são
inadequados para lidar com eles”
Big Data – Definições
• A partir de tudo isso...
 Big Data seria uma nova ferramenta, tecnologia
ou metodologia de gerenciamento de dados?
o Pode ser encarado como tudo isso quando se pensa
em alguns motivos que culminaram com o surgimento
deste conceito, como hardwares mais robustos,
proliferação de dispositivos móveis e aplicativos para
eles, a profusão de dados na Internet em múltiplas
fontes de dados (páginas Web, BDs, ...) que ainda são
pouquíssimo analisados (1% em 2014)...
Big Data – “Meu Ponto de Vista”
Um buzzword que sinaliza um alerta para a
comunidade de BD1 (“um movimento”) no sentido de
rever e aprimorar seus SGBDs e outras soluções
associadas à gerência de dados, como aquelas
voltadas à BI (DWs, Data Mining, ...), à descoberta e
à integração de dados, visando atender novas
demandas e desafios no tratamento de um universo
cada vez maior de dados disponíveis em
praticamente todos os domínios de aplicação

1 Não apenas para a comunidade de BD, mas outras comunidades da Computação como IA,
Computação Distribuída, Algoritmos e Complexidade, Redes, ...
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
“X”s Vs da Big Data
• Características (e ao mesmo tempo desafios)
de dados Big Data
• Requisitos a serem considerados para um
framework de gerenciamento de dados Big
Data
• Evolução dos Vs (não há consenso!)
 3 Vs (requisitos fundamentais – common
framework ou core)
 5 Vs (requisitos muito importantes) o quão relevante
é cada um destes
 8 Vs (requisitos relevantes) requisitos depende
da intenção da
 10 Vs (requisitos a lembrar) aplicação...
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vs
Vulnerabilidade
Visualização
Variabilidade

5 Vs
Veracidade
Valor
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vsa massiva quantidade de dados e informações


• Desafio: lidar com
Vulnerabilidade
que nos cercam hoje
Visualização
• Objetivo: processar grandes volumes de dados para uma dada
tarefa no menor tempo possível
Variabilidade
• Desejável: soluções eficientes em termos de storage (p. ex.: data
centers na5 nuvem),
Vs HW e SW robustos para garantir melhor
processamento paralelo e soluções escaláveis para volumes de
Veracidade
dados variados
• Valor
Exemplo: Walmart - mais de 2.5 Pb de dados de transações de
usuários são
3 Vscoletados por hora
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade
• Desafio: lidar com a natureza (logs de transações, textos do
Twitter, vídeos de câmeras de monitoramento, ...) e
8 Vs(dentro de uma mesma natureza) dos dados –
heterogeneidade
Vulnerabilidade
herança dos desafios do gerenciamento de dados na Web
Visualização
• Objetivo: processar dados necessários para uma dada tarefa
independente da sua representação
Variabilidade
• Desejável: soluções eficientes para crawling, extração, limpeza,
5 Vsde similaridade e integração de dados
determinação
• Exemplo: Twitter – posts sobre determinado assunto podem ter
Veracidade
uma infinidade de textos e hashtags possíveis
Valor
3 Vs
Velocidade
Variedade
Volume
Por quê o interesse por dados na
Web?
• Web: maior fonte de dados públicos em
diversos domínios
− páginas HTML, BDs, ...
• Dados úteis para consumo humano
− busca por informação em domínios específicos
− complementação / cruzamento / integração / ...
de dados, ...
• Desafios
− alta heterogeneidade de representação
− inexistência de esquema
− carência de mecanismos eficientes de busca
Natureza dos Dados na Web
• Dados Estruturados
− informação com padronização de
apresentação
− atributos explícitos ou não
− exemplos:
 Web tables
 Web lists
 Web records
 Deep Web
 ...
Web Tables
Web Lists
Web Records

...
...
Deep Web
Natureza dos Dados na Web
• Dados Não-Estruturados
− dados de mídias não-textuais
− metadados podem estar disponíveis junto
aos arquivos de dados
− exemplos:
 imagens
 áudios
 vídeos
 ...
Natureza dos Dados na Web
• Dados Semiestruturados
− dados com alguma estrutura (textual)
explícita
• parte não-estruturada composta por diferentes
mídias (texto, imagem, ...)
− exemplos:
 páginas HTML de modo geral
 documentos (e-mails, XML, ...)
 ...
Dados Semiestruturados
Pesquisa em Dados na Web
• Tornar a Web um imenso BD! (Utopia ?!)
− esquematização dos dados (propriedades, valores e
restrições)
− consultas declarativas (p.ex., estilo SQL)
• Para se alcançar este difícil objetivo...
− descobrir onde estão os dados de interesse
− extrair os dados de interesse
− catalogar (esquematizar) e/ou indexar e/ou prover visões
estruturadas

• Tecnologias para se alcançar esse objetivo


− Dicionários, ontologias, bases de conhecimento, machine
learning, reconhecimento de padrões, robôs (focused crawlers),
...
Dados Semiestruturados
• Foco de muitas pesquisas na área de
gerenciamento de dados na Web
− grande parte das “entidades” na Web tem
natureza semiestruturada e está descrita em
uma página ou em parte dela
• “Padrão” de facto para dados SEs: XML
− formato capaz de representar dados SEs
extraídos da Web
 dados com representação heterogênea
 dados com representação autodescritiva
 dados com estrutura parcial
“X”s Vs da Big Data
10 Vs
• Viscosidade
Desafio: lidar com a geração de Big Data em alta velocidade - alta
taxa de fluxo de dados no sistema (fast data)
Volatilidade
• Objetivo: processar dados necessários para uma dada tarefa
independente da sua taxa8 Vsde recebimento
• Vulnerabilidade
Desejável: soluções para a melhoria de canais de transmissão
(redes de fibra ótica, uso de satélites, emissores de sinais de alta
Visualização
capacidade) e soluções inteligentes para processamento em tempo
real Variabilidade
• Exemplo: Walmart – lida com mais de 1 milhão de transações de
5 Vs
clientes por hora
Veracidade
Valor
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
• Desafio: considerar o valor agregado ao dado (benefício para a sociedade
e/ou benefício econômico), que geralmente diz respeito ao: (i) seu uso
analítico; (ii) sua habilidade de ser útil na geração de novos
produtos/serviços 10 Vs
Viscosidade ou nos seus aprimoramentos (Big Data Analytics)
• Objetivo: realizar operações analíticas eficientes sobre dados com
Volatilidade
potencial para relevar informação relevante para a tomada de decisões
• Desejável: (i) uso analítico: descoberta de insights relevantes escondidos
em dados custosos de 8 Vs
processar em relação a técnicas tradicionais da
Vulnerabilidade
Mineração de Dados, que se aplica a dados mais homogêneos, como
Visualização
registros de BDRs; (ii) geração de novos produtos/serviços: habilidade de
correlação de dados para oferecer soluções com melhor qualidade
Variabilidade
• Exemplo: predição de desastres naturais em uma região com base na
análise e correlação de dados climáticos, sísmicos, ...
5 Vs
Veracidade
Valor
3 Vs
Velocidade
Variedade
Volume
• Desafio: considerar a qualidade dos dados
“X”s Vs da Big Data
• Objetivo: avaliar o grau de confiança (ou de incerteza) de um conjunto de
dados e eliminar dados com baixo grau de confiança (data cleaning)
• Desejável: 10 técnicas
desenvolver Vs para verificar se amostras de dados
Viscosidade
fazem sentido (mantém um padrão de coerência em termos de conteúdo?
estãoVolatilidade
completos em sua grande maioria?), a reputação da procedência
dos dados (existe verificação de integridade dos dados gerados naquela
8 Vs de integridade estão corretas?), ...
fonte de dados? As regras
Vulnerabilidade
• Exemplos: (i) detecção de avaliações mal intencionadas (fake reviews)
Visualização
em sites de avaliação de produtos por apresentarem comentários que não
fazem sentido, por estarem muito fora do padrão; (ii) Google Flu Trends
Variabilidade
estimou 2x mais casos de influenza do que o reportado oficialmente pelo
CDC (Centers for 5Disease
Vs Control and Prevention) – fonte de dados não
confiável! :-(
Veracidade
Valor
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vs
Vulnerabilidade
Visualização
Variabilidade

Veracidade
• Desafio: lidar com variações nos 3 Vs, ou seja, picos de alto e baixo
volume,Valor
variedade e velocidade (situações não-determinísticas)
• Objetivo: garantir3 que
Vs o desempenho no processamento de Big Data não
seja comprometido com tais variações
Velocidade
• Desejável: desenvolver soluções que garantam elasticidade no
tratamento de Big Data, como a adoção de serviços nas nuvens
Variedade
• Exemplo: Amazon elastic cloud computing - serviços em diferentes níveis
Volume
(de infraestrutura a gerenciadores de dados com modelos flexíveis)
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vs
Vulnerabilidade
Visualização
Variabilidade

• Desafio: lidar com a complexidade de visualizar Big Data volumosos,


variados e recebidos em alta velocidade
Veracidade
• Objetivo: garantir que os dados sejam visualizados e bem compreendidos
Valor
pelos usuários e tomadores de decisão
3 Vs
• Desejável: desenvolver técnicas de visualização científica adequados
ao seu Big Data (gráficos, grafos, browsers, ...)
Velocidade
• Exemplo: Zoomdata – aplicação para Big Data visual analytics
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vs
Vulnerabilidade
Visualização
Variabilidade
• Desafio: manter Big Data livre de ataques e falhas durante a sua
manipulação
• Objetivo: garantir Big Data sempre seguro
Veracidade
• Desejável: desenvolver técnicas de segurança eficientes para dados
• Exemplos:
Valortécnicas de recovery e criptografia adaptadas à Big Data
3 Vs
“in May 2016, a hacker called Peace posted data on the dark web to sell,
Velocidade
which allegedly included information on 167 million LinkedIn accounts
and ... Variedade
360 million emails and passwords for MySpace users.“ (LinkedIn
Vulnerability)
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

8 Vs
Vulnerabilidade
• Desafio: lidar com Big Data atual
Visualização
• Objetivo: evitar o processamento de Big Data obsoletos, muito antigos,
Variabilidade
irrelevantes (até quando devo manter o meu Big Data?)
• Desejável: desenvolver técnicas de gerenciamento temporal de Big Data,
visando manter apenas dados relevantes atuais e não sobrecarregar as
capacidades
Veracidade de processamento devido a questões de volume e
velocidade
Valor
• Exemplo: análise de transações de clientes até no máximo X anos atrás...
3 Vs
Velocidade
Variedade
Volume
“X”s Vs da Big Data
10 Vs
Viscosidade
Volatilidade

• Desafio: 8 Vs
lidar com a resistência à navegação (exaustiva) em um grande
Vulnerabilidade
volume de dados Big Data para obter alguma informação relevante
Visualização
• Objetivo: evitar fontes de dados fracamente informativas que induzam o
usuário ou aplicação a buscas exaustivas em outros dados relacionados
Variabilidade
• Desejável: desenvolver técnicas para geração de streaming de dados
mais informativos, desenvolver técnicas de integração de dados que
enriqueçam
Veracidadedados com mais conteúdo informativo, ...
• Exemplo: busca por informações diversas de um cliente em múltiplas
Valor
fontes de dados para determinar o seu perfil (evitar!)
3 Vs
Velocidade
Variedade
Volume
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
Principais Domínios de Aplicação
• Difícil listar todos os múltiplos domínios
de aplicação que lidam com Big Data!
• Alguns exemplos
 Social Networks
 Science
 Internet of Things (IoT)
 E-Commerce
 Healthcare
Social Networks
• Dados de várias
naturezas
 Posts (textos),
imagens, vídeos,
localizações,
marketing, ...
• Complexa rede
de
relacionamentos
 Amizade, grupos,
eventos, ...
• Muitos acessos e
atualizações
Social Networks – Algumas Info
• Facebook
 > 1 bilhão de usuários
 > 1.15 bilhão de acessos por dia através de dispositivos
móveis
 > 4 bilhões de likes e > 300 milhões de fotos por dia
• Twitter
 > 300 milhões de usuários
 > 500 milhões de tweets são enviados por dia (2014)
• LinkedIn
 > 500 milhões de usuários
 ~ 3 milhões de ofertas de emprego ativas por dia
 > 9 milhões de novos conteúdos gerados por semana
Big Data in Science
• Aplicações em várias áreas do conhecimento
 Área ativa de aplicação de Big Data (eScience) devido à
incapacidade anterior da tecnologia computacional para
capturar, organizar e analisar dados científicos
• Exemplos na Física
 CERN (European Organization for Nuclear Research), na
Suiça, possui aceleradores de partículas que executam
eventos de colisão de partículas que geram em torno de 15
Pb de dados. Nem todos esses dados são aproveitados em
análises devido à alta velocidade de geração
 Astronomia: telescópios atuais produzem 13 Tb de dados
de imagens de faixas do céu para comparação e estudo de
características como matéria negra e propriedades da
gravidade
Big Data in Science
• Exemplos na Biologia
 European Bioinformatics Institute (EBI) na Inglaterra
mantém atualmente 20 Pb de dados e backups sobre
genes, proteínas e pequenas moléculas em suas
pesquisas sobre regulamentação de genes e evolução
genética de micro-organismos marinhos
 US National Center for Biotechnology Information (US
NCBI) possui sequenciadores automatizados de genomas
que lidam diariamente com dados na faixa de Tb
 Exemplo: um genoma humano ocupa em torno de 150 Gb
 O NCBI recebe em torno de 9 milhões de consultas online por
ano
Internet of Things (IoT)
• Movimento tecnológico que visa conectar
dispositivos eletrônicos (qualquer “coisa” eletrônica) à
Internet e permitir que tais dispositivos coletem e
troquem dados entre si
Internet of Things (IoT)
• Objetivo: integração do mundo físico com sistemas
computacionais visando melhor eficiência e precisão em
inúmeras tarefas com intervenção humana reduzida
• Aplicações:
 smart grid (consumo eficiente
de energia – Exemplo: controle
de hidroelétricas)
 smart houses (controle de
tarefas domésticas – Exemplos:
iluminação, ar condicionado,
segurança, eletrodomésticos)
 smart cities (monitoramento e
controle de dispositivos em
locais públicos visando
melhorias – Exemplos: irrigação
de jardins, iluminação pública,
linhas de metrô)
Internet of Things (IoT)
• Principais desafios
 Monitoramento, análise e controle de múltiplos
sensores que geram dados de natureza diversa
(realtime streaming data analytics)
o Quanto maior a área urbana maior o seu Big Data...
 Dados devem ser precisos e confiáveis!
• Estima-se que 50 bilhões de dispositivos
estarão conectados à Internet em 2020
e-Commerce
• Grandes acervos de produtos
 Dados multimídia (fotos, texto
descritivo, registros com
atributos, avaliações, ...)
• Grande volume de
transações
• Análise de vendas e
recomendação de novos
produtos
 Considera perfil do usuário e
de usuários similares,
similaridade de produtos,
avaliações dos produtos, ...
e-Commerce
• Exemplo: Amazon.com
 Comércio eletrônico
 Serviços para Computação nas Nuvens
 Alguns números
o Mais de 650 milhões de visitas ao seu Website por ano
o > 130 milhões de consumidores por mês
o Consumidores de mais de 170 países
o Transações de vendas no Natal 2016: > 1 bilhão de
itens
Healthcare
• Principais Objetivos
 Análise preventiva do quadro clínico das pessoas visando
evitar problemas de saúde
 Busca de cura para doenças
 Predição de epidemias (exemplo: Google Flu Trends)
• Problemática cada vez mais relevante
 Crescimento da população mundial
 Pessoas estão vivendo mais
Big Data in Healthcare
• Suporte a Sistemas de Apoio a Diagnósticos
 Médicos podem realizar análises complexas com base no
cruzamento de dados de pacientes provenientes de múltiplas
fontes, em grande volume e com múltiplos formatos
o Cadastros em BDs convencionais
o Sensores de monitoramento (muitas vezes contínuo) do quadro clínico
 Fixos (dispositivos conectados a pacientes internados)
 Móveis (dispositivos fitness, medidores de glicose, calorias, ...)
o Imagens (tomografias, ...)
o Redes sociais para Healthcare (exemplo: ACOR – rede nos EUA com >
100 mil pacientes organizados em grupos de prevenção do câncer)
o Aplicativos que analisam áudios com falas de pacientes e sugerem
sintomas como depressão e derrame
o Cruzamento com dados de pacientes com sintomas similares, incluindo
dados genéticos (exemplo: iniciativa da Pittsburgh Health Data Alliance)
Big Data in Healthcare
• Desafio: Modelagem preditiva e eficiente de todos as
múltiplas naturezas de dados (aspectos) associados a
um paciente
• Exemplo de iniciativa: IBM Watson Health System
 Plataforma de Big Data Healthcare Analytics
 Parceria IBM-Apple
 iPhone e Apple Watch podem enviar dados para a
plataforma realizar atividades analíticas
 Plataforma escalável para milhões de pacientes
Roteiro

1. Timeline dos Modelos de BD


2. Definição de Big Data
3. Os “X”s Vs da Big Data
4. Alguns Domínios de Aplicação
5. Considerações Finais
Considerações Finais
• Big Data – o que é ?
• Buzzword que remete a um revival dos grandes
problemas de gerenciamento de dados
(modelagem, acesso eficiente, integração,
indexação, similaridade, ...), que devem ser
revistos para lidar com a magnitude dos x’s Vs
• Desafios: captura, armazenamento, análise, organização e
integração, compartilhamento, visualização, consulta,
atualização e privacidade dos dados
• Uma nova dinâmica para fluxos informacionais
para interação entre sociedade, governos e
serviços em geral
Considerações Finais
• Big Data – benefícios
• Seu gerenciamento garante maior
disponibilidade de dados & informações úteis
para consumo humano
• O interesse neste assunto tem impulsionado a
pesquisa & desenvolvimento de novas soluções
• Computação nas nuvens
• Tecnologias para otimização de seu processamento,
como Hadoop, HDFS, BDs NoSQL e outros tipos,
Analytics, ...
Considerações Finais
• Big Data – principais desafios hoje
 Lidar com os Vs: Variedade, Valor, Veracidade
o Envolvem análise semântica dos dados para
identificar dados similares em diferentes formatos,
o valor agregado semanticamente relevante, e o
grau de incerteza do dado conforme a semântica
da aplicação
o No caso do Valor, envolve uma adaptação das
técnicas de Data Mining para lidar, de forma
eficiente, principalmente com os 3 Vs
UFSC-CTC-INE-PPGCC
INE 410131 – Gerencia de Dados para Big Data

Parte 2 – Introdução à Big Data

Ronaldo S. Mello
2018/2

Você também pode gostar