Você está na página 1de 67

BIG

DATA
SIRLON DINIZ DE CARVALHO DR

sirlondiniz@gmail.com

Sirlon Diniz de Carvalho, MSc.


Tem experincia de mercado nas reas de Sistemas de Informao,
Engenharia da Computao, Administrao por Processos e Gesto da Qualidade,
com nfase em Mapeamento de Processos, Inteligncia nos Negcios (Business
Intelligence - BI) e Teleinformtica. Atuao como analista de sistemas e consultor
independente para diversas empresas, principalmente nos temas: Anlise e
Desenvolvimento, Sistemas Tutores Inteligentes, Segurana da Informao,
Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt
e Lean Black Belt - liderou e participou de vrios projetos Six Sigma. Com os
conhecimentos obtidos em Administrao por Processos, j atuou em vrios
projetos na rea de tecnologia, melhoria da qualidade em empresa do ramo
educacional, entre outros. Atua na rea acadmica h mais de 14 anos como
docente na graduao e ps-graduao, alm de ter exercido atividades de gesto
de cursos de graduao e ps-graduao. Atualmente servidor pblico federal do
Instituto Federal de Gois.

BIBLIOGRAFIA
Mayer-Schnberger, Viktor; Kenneth, Cukier. Big Data: como extrair
volume, variedade, velocidade e valor da avalanche de informao
cotidiana. Rio de Janeiro: Elsevier, 2013.
Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media
Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33.
Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH
(2011) Big data: the next frontier for innovation, competition, and
productivity. McKinsey Global Institute. Disponvel em http://
www.mckinsey.com/insights/mgi/research/technology_and_innovation/
big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01.
Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997.
Barbieri, Carlos. BI Business Intelligence Modelagem & Tecnologia.
Rio de Janeiro: Editora Axel Books, 2001.
Serra, L., A Essncia do Business Intelligence, Berkeley Brasil, 2002.
Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling (Second Edition)", Wiley, 2002.
3

Contedo da apresentao
Dos Sistemas Transacionais ao Big Data
Sistemas Transacionais e sua estrutura de
Dados;
C o n c e i t o d e B a n c o s d e D a d o s
Relacionais;
Dos Dados Transacionais ao Data
Warehouse (DW);
Alm dos Dados Transacionais e do DW:
e-mails, informaes de trfego de rede,
redes sociais etc.;
O Big Data e a Business Intelligence;
O agora em Big Data: aplicaes e
estudos de Casos;
A impreciso dos dados (confuso):
nfase no todo e no no detalhe.

Big Data: Volume, Variedade, Velocidade e


Valor
Os Vs do Big Data
Aceitando a Confuso: estudos de caso;
A causalidade: sem saber o porqu,
apenas o qu;

A Dataficao: quantificao, tabulao e


anlise;
Alm dos dados estruturados: o valor dos
dados no estruturados;
Valor dos dados: anlise de custo e benefcio;
Dados: reutilizao, recombinao, expanso
e depreciao;
A cadeia de valor do Big Data: Informao,
Especialista de Dados, Pessoas e Empresas
com mente Big Data;
Riscos do Big Data: Privacidade e Punies
preditivas;
Big Data e normas de regulao.

Projetos de Big Data


Ferramentas de Big Data;
Dados no estruturados e o NOSQL;
Projeto de Big Data: ganham os pequenos ou
os grandes;

Tipos de Aplicaes: Sistemas Transacionais/Operacionais

USlizado para aplicaes operacionais


Aplicaes cr6cas OLTP
Execuo do negcio
Sistemas de controle de estoque
Sistemas bancrios
Sistemas Financeiros
Operaes de manipulao de dados (insert, update, delete),
normalmente on-line e em nvel detalhado.
Sistemas de controle de vendas de mercadorias etc.
5

Banco de Dados Transacionais

Como armazenar dados


Textos
Sistemas de Gerenciamento de Arquivos
Planilhas eletrnicas
Sistemas de Gerenciamento de Bancos de Dados
o SGBD Relacional
o SGBD Orientado a Objetos etc.
6

Modelagem dos dados de aplicaes transacionais

Para armazenar necessrio modelar ou projetar o BD


Normalizao
Porque normalizar
1, 2, 3 e 4 FN
Exemplo de normalizao
Exerccio modelagem

Modelagem dos dados de aplicaes transacionais

Empresa informaSzada: novas demandas

Novas Demandas de T.I.


Relatrios gerenciais: clientes por bairro, estado civil etc.
Anlise complexa questes impossveis de se prever
Mais demandas para o departamento de T.I.
Case supermercado produtos por grupo
Mas resumo no contradiz normalizao?
Ambiente de negcio em mudana constante
Dados heterogneos e inconsistentes

Problemas com a modelagem transacional

Alto volume de dados e necessidade de resposta rpida


Dados so volteis: clientes mudam, casam, estudam etc.
Enm:
Os modelos de dados tradicionais acabam sendo
muito complexos e di3ceis de ser entendidos pelo
usurio. Alm disso, Joins de ml;plas tabelas,
frequentemente grandes, so demorados e
consomem muitos recursos do sistema.

10

Dvidas e quesSonamentos surgem

Conhecemos o negcio? Entendemos o processo, mas somos


incapazes de analisar situaes mais complexas
Valor da Tecnologia versus valor da Informao
O que est sendo feito com a memria da organizao
Relatrios no atendem Gerncia
Como resolver esse problema?

11

Com Aplicaes de Tomada de Deciso

USlizadas para anlise do negcio


Sistemas de Apoio Deciso - SAD
Exige conhecimento do negcio
Vital para desenvolvimento de estratgias
Extraem informaes necessrias para a tomada de deciso,
u6lizando consultas complexas sobre grandes volumes de dados
(por exemplo, determinar a taxa de crescimento do faturamento
nos l6mos 5 anos)
Podem usar sistemas transacionais como fontes de dados
12

BI Conceito

Business Intelligence (BI)


Refere-se coleta, organizao, anlise, compar;lhamento e
monitoramento de informaes para suporte gesto de negcios.
Contempla:
Data Warehouse (DW)
Data Mining (DM)
Customer Rela6onship
Management(CRM)
OLAP

13

Nascimento do Data Warehouse (DW)

Data Warehouse um conjunto de dados:


orientados a um assunto
integrados
no-volteis
variveis com o tempo
usado no apoio a decises gerenciais

William H. Inmon
Pai do Data Warehousing

14

Data Warehouse: texto para leitura

CaractersScas de um DW
Orientado a assuntos: vendas de produtos a diferentes 6pos de clientes,
atendimentos e diagns6cos de pacientes, rendimento de estudantes.

Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de


dados precisam ser acomodadas em um nico esquema para prover uma
viso unicada e consistente da informao.

No volSl: os dados de uma data warehouse no so modicados como em


sistemas transacionais (exceto para correes), mas somente carregados e
acessados para leituras, com atualizaes apenas peridicas.

15

Comparao entre dados transacionais e DW


Operacionais

Data Warehouse

Orientados aplicao

Orientados a assuntos

Preciso Instantnea

Snapshots

Atualizveis

Somente para leitura

Volteis

Histricos

Dispersos em aplicaes

Integrados no DW

Acesso frequente

Acesso espordico

Acesso a quantidade reduzida

Acesso a grande volume

80
70
60
50
40

Transacional

30

DW

20
10
0
0

10
16

O Data Warehouse

Anal, o que o DW?


Um novo modelo de Dados
Uma nova estrutura de armazenamento
Infraestrutura diferente
Acesso diferenciado
Grandes quan6dades de dados

17

E nos departamentos: Data Mart

Data Mart
Subconjunto dos dados corpora6vos
Informaes especcas para um grupo de usurios
Esquemas no normalizados
Data Warehouse
Corporativo

Data Mart de
Marketing

Data Mart de
Finanas

Data Mart
de Vendas

18

Data Mart - Aplicao

Aplicaes de Data Mart


Uso departamental
Locais remotos (liais, lojas etc.)
Acesso externo (fornecedores, clientes etc.)
Estals6ca/Minerao (segmentao de mercado, previso
oramentria, gerenciamento de campanhas etc.)

19

Problemas com Origens dos Dados

Problemas com Sistemas Legados


Modelagem inexistente
Programadores no pertencem mais equipe
Sistemas proprietrios no possibilitam acesso
Domnio de tecnologia obsoleta: cobol, adabas etc.
Dados dependentes da aplicao: dincil dissociar
Equipe transacional no coesa com B.I.

20

Conceito de ETL: Extrao

Desao da Extrao
Somente a extrao dos dados leva cerca de 60% das horas
de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU,
2007).
A maior parte do esforo exigido no desenvolvimento de um
DW consumido neste momento e no incomum que oitenta
por cento de todo esforo seja empregado no processo de ETL,
(INMON, 1997 apud ABREU, 2007)
A extrao afetada pelo ambiente

21

Dados Externos


Dados Externos referem-se a dados essenciais
para a tomada de deciso, mas que no fazem parte dos
dados originados dos sistemas transacionais.
Exemplos de Dados Externos: cotao de moeda estrangeira,
situaes de catstrofe, cenrio de mercado etc.
Fonte de Dados Externos: revistas especializadas, jornais, ndices
governamentais etc.

22

Os Metadados: Conceito

Essencialmente Metadados refere-se a um dicionrio


de dados, ou seja, dados que mantm informaes sobre
outros dados
Para cada atributo no DW, h uma entrada no dicionrio
Dados so consultados e atualizados com base nos metadados
Permite conhecer e entender a estrutura dos dados
Em BD transacional a semn6ca est na aplicao

23

OLAP: Online analyScal processing

Tipos de Ferramentas
MOLAP: Mul6dimensional OLAP
ROLAP: Rela6onal OLAP
HOLAP: Hybrid OLAP
DOLAP: Desktop OLAP

24

Ferramentas OLAP

Dados
Operaciona
is

Warehouse

Data
Mart
Ferramentas OLAP

Dados
Externos

Cuidados com solues integradas DW e OLAP


25

Ferramentas Minerao de Dados

Matemtica

Heurstica

Estatstica

Inteligncia
Artificial

Diferenas entre
- OLAP
- Data Mining

Machine Learning
Business Application
Data Mining

26

Nova Fonte de Recursos para a empresa

Questes 6cas
A Informao como a6vo da empresa: novo conceito
Possibilidade de vendas de informao
E as novas fontes de informao?
Para onde vamos? Big Data?

27

O Big Data Agora

Denio
Existem vrias, mas segundo Mayer-Schnberger,
Big data se refere a trabalhos em grande escala que no podem
ser feitos em escala menor, para extrair novas ideias e criar novas
formas de valor de maneiras que alterem os mercados, as
organizaes, a relao entre os cidados e governos etc.

Origem do nome Big Data
Cincias como astronomia e genmica

28

O Big Data Agora

Caso H1N1
CDCs (Centro de Controle de Preveno de Doenas):
Dependia de resultado de exames e informaes do mdicos
Cenrio defasado em 01 ou 02 semanas
Google:
usou dados de 50 milhes de termos de busca comuns
(histrico de 2003 a 2008)
450 milhes de modelos matem6cos
Combinao de 45 termos, num modelo materm6co
Encontrou correlao entre previso e nmeros ociais
Em tempo real
Sem teste de saliva, sem atraso
29

O Big Data Agora

Caso Forecast (Oren Etzioni)


Passagens antecipadas com preo maior?
Como saber se comprar antecipadamente melhor?
Coletou 12000 preos em 41 dias
Criou uma startup
Passou para 200 bilhes de registros
Vendeu para Microsow por US$ 110 milhes
Qual a matria-prima do negcio?

Revoluo nos dados, no nas mquinas!
30

O Big Data Agora

Caso Sloan Digital Sky Survey


Incio no ano 2000 (Novo Mxico)
Em 2 semanas o telescpio coletou mais dados que em toda a
histria da astronomia
Em 2010 eram 140 terabytes
Uma sucessora, a Large Synop6c Survey Telescope (Chile), prevista
para 2016: coletar isso em 5 dias

31

O Big Data Agora

Projeto Genoma Humano


Criado em 1990 nos EUA, com previso para 15 anos
2003: cien6stas precisaram de uma dcada para sequenciar 3
bilhes de pares-base
Hoje: faz-se em um nico dia

32

O Big Data Agora

Empresas de Internet
Google: processa 24 petabyte/dia
Facebook
Recebe mais de 10 milhes de fotos/hora
Cur6r e comentar: 3 bilhes/dia
Trilha digital construda
Youtube
800 milhes de usurios
> 1 hora de vdeo criada por segundo
Twi}er (2012): 400 milhes/dia
33

O Big Data Agora

Quanto h de informao?
Existem vrios estudos
Mar6n Hilbert, da Annenberg School for Communica6on and
Journalism, CA, EUA, apresentou um
Considerando Livros, imagens, e-mails, fotograas, msica,
vdeo (analgico e digital), videogames, ligaes
telefnicas, cartas e sistemas de navegao para carros,
alm de televiso e rdio
Resultado: em 2007 es6mou-se 300 hexabytes (um bilho
de GB)
O suciente para
Se impresso, cobrir os EUA com 52 camadas
Em CD-ROMs empilhados: 5 pilhas at a lua
34

O Big Data Agora

Big Data
Inteligncia Ar6cial?
Aprendizado de mquina?
Ensinar um computador a pensar?
Na verdade est mais para aplicao de matem;ca a enormes
quan;dades de dados visando prever probabilidades!

35

A impreciso dos Dados

Usar todos os dados (N1=1Tudo)


Amplia a viso, o que no era possvel antes
Fontes diversicadas
Dados normalizados e no normalizados
SQL j no suciente
No se pode abrir mo das conquistas
H ferramentas que resolvem o problema?
Como ca o especialista?
O conhecimento do negcio relevante?
E os sistemas legados?

36

Os 'Vs' do Big Data

3 ou 5 Vs
Volume: grande, crescimento
exponencial e s vezes
subu6lizados
Velocidade: tratamento dos dados
(obteno, gravao, atualizao
etc.) deve ser rpido - muitas vezes
em tempo real
Variedade: diversidade de
informaes (Estruturados - Bancos
de Dados, DWs, No Estruturados -
documentos, imagens, udios,
vdeos etc.)
37

Os 'Vs' do Big Data

3 ou 5 Vs
Veracidade: dados conveis, garan6r o mximo possvel a
consistncia dos dados?
Valor: os resultados devem trazer benencios signica6vos e que
compensem o inves6mento?

38

A confuso (inexaSdo) dos Dados

N1=1Tudo Usar todos os dados disponveis


H custos
Aumento da quan6dade leva inexa6do
Solues com menor volume permi6a tratar outliers
Buscou-se trat-los como problemas
Em big data necessrio aprender a conviver com inexa6do
Pra6camente impossvel trat-los como em amostragens
Historicamente o homem evoluiu ao medir (preciso)
Em big data impreciso (confuso) visto de forma posi6va
Como entender melhor tudo isso?

39

A confuso (inexaSdo) dos Dados

Case vinhedo
Medir a temperatura com um nico sensor
o Tem que ser preciso
o No permite confuso
Medir a temperatura com um sensor a cada 100 parreiras
o Pode-se usar sensores mais baratos (no tendenciosos)
o Alguns podem apresentar confuso
o Mas a soma mais abrangente
o Mudar de uma medida por minuto
para 10 ou 100/segundo
o Volume versus perda
40

A confuso (inexaSdo) dos Dados

Ento em big data


Dados no totalmente incorretos
2 + 2 = 3,9 pode?
Pretere-se um pouco da preciso em favor de uma tendncia
Big data mais probabils6co que exato
Case algoritmos de xadrez
o Poucas modicaes
o Regras conhecidas
o Como melhoraram
o Jogadas nais: 6 peas mapeados
o N1=todo para: mais de 1 TB
41

A confuso (inexaSdo) dos Dados

Case linguagem natural


Anlise grama6cal MS Word (2000): Michele Banko e Eric Brill
buscavam melhorar o resultado
Melhorar os algoritmos ou aumentar dados?
1 milho de palavras comum (corpus texto)
10 milhes, 100 milhes, 1 bilho?
O mais simples com 500 mil saiu de 75% para 95% acerto
Google em 2006 usava 1 trilho
Em 2012: 60 idiomas, 14 por voz
Algoritmo pouco inteligente: modelos simples
Modelos simples com muitos dados so melhores
que modelos mais elaborados com menos dados,
disse Peter Norvig

42

A confuso (inexaSdo) dos Dados

Mais sobre confuso


Existe porque a tecnologia no perfeita
Dep. Americano de Estals6cas Trabalhistas faz ndice de preo
ao consumidor (Federal Reserve usa para clculo inao)
o Custo: US$ 250 milhes/ano
o Dados organizados, mas defasados em funo do tempo
o Crise 2008 no foi prevista com tanta preciso
Alberto Cavallo e Roberto Rigobon(MIT): alterna6va confusa
o 500 mil preos da Internet + big data: previu deao 2
meses antes que o governo (2008)
o MIT originou a PriceStats: bancos e outros usam

The image cannot be displayed. Your computer may not have enough
memory to open the image, or the image may have been corrupted. Restart
your computer, and then open the file again. If the red x still appears, you
may have to delete the image and then insert it again.

o The Economist usa: no cona completamente


nos clculos de alguns pases (Argen6na, p.e.)
43

Aceitando a causalidade

Mais sobre confuso


Flickr: 6 bilhes de imagens e 75 milhes de usurios (2011)
o usou big data para rotular imagens
Maior escala: exato perde importncia
o cone do Twi}er ou Cur6r do Face
o Gmail condensa minutos, horas, dias etc.
o Flexibilidade para BDs tradicionais (campos diferentes)
SQL no suciente: surge NOSQL
Google criou MapReduce: modelo de programao (framework)
Hadoop: rival Open Source Projeto Apache em Java (Distribudo)
o Visa usou para segmentar 70 milhes transaes
o Reduziu de um ms para 13 minutos
44

A causalidade

Sem saber o porqu apenas o qu


Ser humano sente a necessidade de entender a causa
Cr6cas a modelos caixas pretas
Importncia para modelos simblicos e estals6cos
Questes loscas sobre causalidade ( tudo causal?)
Daniel Kahneman professor de psicologia de Princeton e
ganhador do Nobel de Economia de 2002
Ser humano: 2 6pos de raciocnio (rpido ou reexivo)
Rpido para sobrevivncia no passado
Implica em ver causalidades inexistentes
cultural mas o paradigma um problema em big data
Correlao fcil, causalidade dincil
45

Datacao

QuanScao, Tabulao e Anlise


Case Ma}hew Fontaine Maury
o Ocial da Marinha americana (1839)
o Big data moda an6ga: carta nu6ca
Case Shigeomi Koshimizu
o Ins6tuto Avanado de Tecnologia (Japo)
o Forma que a pessoa se senta quan6cada e tabulada
o Resultado: cdigo digital nico com at 98% de acerto
o Pode-se aplicar em segurana, cansao etc.

46

Datacao

QuanScao, Tabulao e Anlise


Dado: origem do grego e pode signicar fato
Datacar: coleta de dados e disposio em formato quan6cado
de modo que possa ser tabulado e analisado
Nmeros Romanos versus arbicos
Itlia no sculo XIV: balano e origem da contabilidade
Datacao de imagem de texto do Google
Geoprocessamento: datacao de um lugar (la6tude/longitude)
GPS teve origem em 1978 e aberto para uso no militar em 1980
Datacao dos smartphones:
o Publicidade direcionada
o Biometria
Grco social
47

Alm dos dados estruturados

O valor dos dados no estruturados


Digitalizao versus datacao
Luis Von Ahn (2000) criou Captcha: problemas com spambots
Yahoo implementou Captcha (Teste Completamente
Automa6zado para Separar Computadores e Humanos)
E o ReCaptcha, o que tem de diferente?
Movimento e cliques de mouse
Contedo do Twi}er: entender sen6mentos e manifestaes
Contedo do face: entender preferncias de imagens, sons,
vdeos etc.
Quando as palavras se tornam dados: literatura e
estals6ca
Custo de armazenagem jus6ca manuteno dos dados
48

Alm dos dados estruturados

NOSQL
Criado por Carlo Strozzi em 1998: BD relacional cdigo aberto
mas sem SQL
Dis6nto do modelo relacional: o termo noRel caria melhor
Ressurgiu em 2009: Rackspace evento sobre BD Open Source e
Distribudos
Termo se refere a diferentes sistemas de BDs no estruturados
Buscam performance superior e de alta escalabilidade
Facilidade para distribuio horizontal: mais dados mais
servidores
Todas informaes agrupadas no mesmo registro
Mais tolerantes a erros
Ideal para BDs Transacionais?
49

Valor dos Dados

Anlise Custo e Benetcio


Logs6ca abastecimento carro eltrico: problema para empresa e
motoristas
IBM e big data: previso local abastecimento e construo postos
Mas os carros j no possuem computador de bordo?
Apenas parte dos dados coletados so usados
Empresas inovadoras procuram valor oculto nos dados
Na era big data custo e benencio pode estar na reu6lizao
bsica, fuso de Bancos de Dados ou novas descobertas
Muitos dados se perdem ou so subu6lizados
O valor est no que possvel extrair
Valor dos dados a soma das possibilidades
50

Extraindo o mximo dos Dados

ReuSlizao e recombinao
Reu6lizao: dados de uso primrio u6lizados para outros ns
o Dados das buscas: corretor ortogrco
o Amazon extraiu preferncia de usurios da AOL
o Reconhecimento de voz: Google versus Nuance
o SWIFT: prever PIB a par6r de transferncias internacionais
o Operadora de Celular: dados de localizao annimos
Recombinao: combinar fontes de dados diferentes
Uso de Celular e Cncer (Dinamarca): 3,8 milhes de dados
Zillow (Ramo imobilirio): informaes de
imveis + preos + mapas para prever
valores
51

Extraindo o mximo dos Dados

Expanso e depreciao
Expanso: dados adequados a vrios usos
o Cmeras: segurana e uxo de clientes
o Street View: fotos, dados de GPS (autopiloto), nomes de redes
WiFi (especula-se que at dados) dois pelo preo de um
Depreciao: perda de u6lidade com o tempo
o Desao de separar dados teis ou manter todos
o NSA mantem dados do maior nmero possvel
Uso exaus6vo dos dados
Case corretor: Yahoo pensou, Google agiu (veio de graa)
Treinamento de voz: aprendizado recursivo
Gostamos de aprender com bancos de dados
enormes e barulhentos funcionrio Google
52

Cadeia de Valor do Big Data

Informao
Dados da empresa auxiliam na denio do seu valor contbil
Bancos e a Terceirizao de cartes: qual o custo?
Mastercard analisa 65 bilhes de transaes de 1,5 bilho de
clientes em 210 pases e at vende informaes
Capaz de descobrir: encher tanque 16h, gastar de US$ 35,00 a
US$ 50,00 na prxima hora (em mercearia ou restaurante)
Sensores sem o em nibus pblico para prever quebras
o Diminuiu o custo em at 10%
o Possibilitou a subs6tuio de uma pea com 450
mil Km (antes era com 320 ou 400 mil): economia
de mais de US$ 1 mil/veculo
Origem da informao irrelevante: mdia e dados
53

Cadeia de Valor do Big Data

Especialista de Dados
Ganha bem, trabalha duro e entrega o diamante para o dono
Ideias e habilidades so acessrios: o valor recai sobre os dados
Valor migrou: conhecimento ideia dados
Morte do especialista?
Pioneiros tem origem externa ao seu domnio: especialista em
anlise de dados, IA, matem6ca, estals6ca etc.
Piada Microsow: a qualidade das tradues aumenta sempre que
um linguista deixa a equipe
Grupo Google capaz de traduzir para idiomas
que no dominam

54

Cadeia de Valor do Big Data

Pessoas e Empresas com mente Big Data


Novo perl: menos especialista, mais generalista
Setor de videogames fatura mais/ano que Hollywood/mundo
Usam big data para entender o jogador (vendas de itens)
Intermedirios que agrupam e vendem dados
Big data pouco 6l para empresas de porte mdio: vantagens de
escala para grandes e custo e inovao para pequenas
Big data obriga mdias a se tornarem grandes ou pequenas
Veem oportunidades antes dos outros: mesmo sem dados
Cria6vo e observador: no se limita ao que
exequvel, mas ao que possvel
Em expanso e com muitas oportunidades
55

Riscos do Big Data

Privacidade e Punies PrediSvas


Dados podem se tornar instrumento de opresso
Como saber de obje6vos que sequer existem
Case Street View: casa ofuscada
Consen6mento individual, opo de excluso e anonimizao
perderam ecincia
Aplica6vos de smartphones: solicitam autorizao localizao
NSA em Fort Williams: inves6mento de US$ 1,2 bilhes
Coleta dados o tempo todo, do maior nmero possvel
So capazes de inves6gar assim que iden6cam o suspeito
Comportamento de compra pode iden6car uma pessoa

56

Riscos do Big Data

Privacidade e Punies PrediSvas


Cases de Anonimato quebrado
o Buscas AOL e pesquisa do New York Time
o Prmio Nelix disponibilizou 100 milhes de registros de 500
mil usurios e US$ 1 milho a quem melhorasse
recomendaes: resultado, iden6caram clientes
o Nelix e Pesquisadores da Universidade do Texas:
classicao 6 lmes obscuros (de 500 mais vistos) - possvel
iden6car cliente com 84% preciso (de posse da data da
classicao, sobe para 99%)
Memphis, no Tennessee: big data aplicado na diminuio de
crimes, prevendo aes (Blue CRUSH)
Pode-se punir predi6vamente?
57

Big Data: Normas e Regulao

Regulao
rea nova, ainda no h regulao especca
Como inves6gar? Quem capaz?
Algoritmistas, a nova prosso?
o Algoritmistas externos e internos
Governos tambm devem ser regulados?
Big data altera autocontrole da sociedade?
Para onde vamos?

58

Ferramentas Big Data

Ferramentas de Big Data


H ferramenta ou soluo especca para Big Data?
Big Data: estruturas de indexao de dados e de visualizao
Estrutura de indexao de dados
o Agrupa dados estruturados e no estruturados
o somente a composio dos dados (isso lembra algo?)
Componente de visualizao de dados: um ou vrios
o IBM Cognos, QlikView, SAP Business Objects, Datameer,
splunk, Oragle Business Intelligence entre outros
(lembra algo tambm?)

59

Ferramentas Big Data

Ferramentas de Big Data


Simplicando o NOSQL (Not Only SQL)

Estruturados

No Estruturados

60

Ferramentas Big Data

NOSQL versus BD Relacional


NOSQL no relacional (no estruturado)
NOSQL possui sua linguagem de consulta
Relembrando conceito dos BDs relacionais
O que se ganha com o NOSQL
aplicvel a todos os casos?
Transacional tem propriedades ACID (Atomicity, Consistency,
Isola6on, Durability)
Relacional: indispensvel onde h necessidade de preciso e
consistncia de referncias
Soluo: u6lizar NOSQL conjuntamente com um relacional

61

Ferramentas Big Data

Consultas SQL em uma tabela


SELECT Lista_atributos FROM Tabela WHERE Condio
Exemplos de consultas com funes de agregao
SELECT COUNT(*) FROM CLIENTE
SELECT COUNT(*) FROM CLIENTE WHERE sexo=feminino
SELECT nome FROM CLIENTE WHERE codigo not in (SELECT
codigo FROM FONE)
SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT
avg(salario) FROM CLIENTE WHERE SEXO=MASCULINO)

62

Ferramentas Big Data

Tipos de armazenamento NOSQL


Key/Value Store o mais comum (uma chave, um valor), suporta
mais carga, muita escalabilidade
o Ferramentas: Berkeley DB, Tokyo Cabinet, Kyoto Cabinet,
Project Voldermort, MemcacheDB, SimpleBD, Redis, Riak,
entre outros
Wide Columns Store tem inspirao no BigTable (Google), suporta
vrias linhas, colunas e at subcolunas
o Ferramentas: Hbase (Apache), Cassandra entre outros
Document Store baseados em documentos XML e JSON
o Ferramentas: MongoDB, CouchDB (Apache)
entre outros

63

Ferramentas Big Data

Tipos de armazenamento NOSQL


Graph Store mais complexo pois guarda objetos
o Ferramentas: Neo4J , InfoGrid e HyperGraphDB
Column Oriented Store so bancos de dados relacionais com
caracters6cas NOSQL. Dados armazenados em colunas
o Ferramentas: MonetDB, LucidDB, Infobright e
Ingres/Vectorwise
Cases:
SimpleDB u6lizado pela Amazon
Hbase ligado ao Hadoop
MongoDB u6lizado por: Disney,
MTV Networks entre outros
64

Ferramentas Big Data

Exemplos de NOSQL no MongoDB


MongoDB: orientado a documentos, escalvel, livre de esquema,
de alto desempenho e cdigo aberto escrito em C++
Dados dispostos em colees - estrutura JSON (JavaScript Object
Nota6on). Exemplo:
pessoa{ name: Marcos Paulo, nick: Marquinhos, age: 30, phone:
{mobile: 99998888, residencial:444433333}}

Registros exveis: quando for necessrio, altere


Ideal para leituras de grandes volumes no estruturados
Exemplos de consultas:

65

Projeto de Big Data

Por onde comear


Planejamento estratgico da empresa
Denio do escopo do projeto e demais artefatos
No desenvolvimento:
o Base de dados interna transacionais
o Base de dados informacionais
o Flat les imprescindveis para o negcio
o Dados externos acessveis
o Dados que precisam ser adquiridos
o Dados de mquina relevantes para o negcio
o Ferramentas de indexao de dados
o Ferramentas de visualizao de dados
66

BIG DATA
SIRLON DINIZ DE CARVALHO DR

sirlondiniz@gmail.com


67