Você está na página 1de 67
BIG D ATA S IRLON D INIZ DE C ARVALHO – D R sirlondiniz@gmail.com 1
BIG D ATA
BIG D ATA

SIRLON D INIZ DE C ARVALHO – D R

sirlondiniz@gmail.com

Sirlon Diniz de Carvalho, MSc .
Sirlon Diniz de Carvalho, MSc .
Sirlon Diniz de Carvalho, MSc .

Tem experiência de mercado nas áreas de Sistemas de Informação, Engenharia da Computação, Administração por Processos e Gestão da Qualidade, com ênfase em Mapeamento de Processos, Inteligência nos Negócios (Business Intelligence - BI) e Teleinformática. Atuação como analista de sistemas e consultor independente para diversas empresas, principalmente nos temas: Análise e Desenvolvimento, Sistemas Tutores Inteligentes, Segurança da Informação, Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt e Lean Black Belt - liderou e participou de vários projetos Six Sigma. Com os conhecimentos obtidos em Administração por Processos, já atuou em vários projetos na área de tecnologia, melhoria da qualidade em empresa do ramo educacional, entre outros. Atua na área acadêmica há mais de 14 anos como docente na graduação e pós-graduação, além de ter exercido atividades de gestão de cursos de graduação e pós-graduação. Atualmente é servidor público federal do Instituto Federal de Goiás.

•   •   •   •   •   •   •   B

BIBLIOGRAFIA

•   •   •   •   •   B IBLIOGRAFIA Mayer- Schönberger, Viktor; Kenneth,

Mayer-Schönberger, Viktor; Kenneth, Cukier. Big Data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013.

Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33.

Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH (2011) Big data: the next frontier for innovation, competition, and productivity. McKinsey Global Institute. Disponível em http:// www.mckinsey.com/insights/mgi/research/technology_and_innovation/ big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01.

Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997.

Barbieri, Carlos. BI – Business Intelligence – Modelagem & Tecnologia. Rio de Janeiro: Editora Axel Books, 2001.

Serra, L., A Essência do Business Intelligence, Berkeley Brasil, 2002.

Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", Wiley, 2002.

Conteúdo da apresentação
Conteúdo da apresentação
Conteúdo da apresentação Dos Sistemas Transacionais ao Big Data •   Sistemas Transacionais e sua estrutura

Dos Sistemas Transacionais ao Big Data Sistemas Transacionais e sua estrutura de

A Dataficação: quantificação, tabulação e análise; Além dos dados estruturados: o valor dos dados não estruturados; Valor dos dados: análise de custo e benefício; Dados: reutilização, recombinação, expansão e depreciação; A cadeia de valor do Big Data: Informação, Especialista de Dados, Pessoas e Empresas com mente Big Data; Riscos do Big Data: Privacidade e Punições preditivas; Big Data e normas de regulação.

Dados; • Conceito de Bancos de Dados

 

Relacionais;

 

Dos Dados Transacionais ao Data Warehouse (DW); • Além dos Dados Transacionais e do DW:

e-mails, informações de tráfego de rede, redes sociais etc.; • O Big Data e a Business Intelligence;

O agora em Big Data: aplicações e estudos de Casos; A imprecisão dos dados (confusão):

ênfase no todo e não no detalhe.

 
 

Projetos de Big Data Ferramentas de Big Data; Dados não estruturados e o NOSQL; Projeto de Big Data: ganham os pequenos ou os grandes;

Big Data: Volume, Variedade, Velocidade e Valor Os V’s do Big Data

 

Aceitando a Confusão: estudos de caso; A causalidade: sem saber o “porquê”, apenas “o quê”;

 

Tipos de Aplicações: Sistemas Transacionais/Operacionais
Tipos de Aplicações: Sistemas Transacionais/Operacionais
Tipos de Aplicações: Sistemas Transacionais/Operacionais

USlizado para aplicações operacionais

Aplicações crí6cas – OLTP

Execução do negócio

Sistemas de controle de estoque

Sistemas bancários

Sistemas Financeiros

Operações de manipulação de dados (insert, update, delete), normalmente on-line e em nível detalhado.

Sistemas de controle de vendas de mercadorias etc.

update, delete), normalmente on-line e em nível detalhado. •   Sistemas de controle de vendas de
Banco de Dados Transacionais
Banco de Dados Transacionais
Banco de Dados Transacionais

Como armazenar dados

Textos

de Dados Transacionais Como armazenar dados •   Textos •   Sistemas de Gerenciamento de Arquivos

Sistemas de Gerenciamento de Arquivos

Planilhas eletrônicas

Sistemas de Gerenciamento de Bancos de Dados

o SGBD Relacional

o SGBD Orientado a Objetos etc.

•   Sistemas de Gerenciamento de Bancos de Dados o   SGBD Relacional o   SGBD
Modelagem dos dados de aplicações transacionais
Modelagem dos dados de aplicações transacionais
Modelagem dos dados de aplicações transacionais

Para armazenar é necessário modelar ou projetar o BD

Normalização

modelar ou projetar o BD •   Normalização •   Porque normalizar •   1ª ,

Porque normalizar

, 2ª , 3ª e 4 ª FN

Exemplo de normalização

Exercício modelagem

Modelagem dos dados de aplicações transacionais
Modelagem dos dados de aplicações transacionais
Empresa informaSzada: novas demandas
Empresa informaSzada: novas demandas
Empresa informaSzada: novas demandas

Novas Demandas de T.I. Relatórios gerenciais: clientes por bairro, estado civil etc. Análise complexa — questões impossíveis de se prever Mais demandas para o departamento de T.I. Case supermercado – produtos por grupo Mas resumo não contradiz normalização? Ambiente de negócio em mudança constante Dados heterogêneos e inconsistentes

normalização? •   Ambiente de negócio em mudança constante •   Dados heterogêneos e inconsistentes 9
Problemas com a modelagem transacional
Problemas com a modelagem transacional
Problemas com a modelagem transacional

Alto volume de dados e necessidade de resposta rápida

Dados são voláteis: clientes mudam, casam, estudam etc.

Enfim:

Os modelos de dados tradicionais acabam sendo muito complexos e di3ceis de ser entendidos pelo usuário. Além disso, Joins de múl;plas tabelas, frequentemente grandes, são demorados e consomem muitos recursos do sistema.

disso, Joins de múl;plas tabelas, frequentemente grandes, são demorados e consomem muitos recursos do sistema. 10
Dúvidas e quesSonamentos surgem
Dúvidas e quesSonamentos surgem
Dúvidas e quesSonamentos surgem

Conhecemos o negócio? Entendemos o processo, mas somos

incapazes de analisar situações mais complexas

Valor da Tecnologia versus valor da Informação

•   Valor da Tecnologia versus valor da Informação •   O que está sendo feito

O que está sendo feito com a memória da organização

Relatórios não atendem à Gerência

Como resolver esse problema?

com a memória da organização •   Relatórios não atendem à Gerência •   Como resolver
Com Aplicações de Tomada de Decisão
Com Aplicações de Tomada de Decisão
Com Aplicações de Tomada de Decisão USlizadas para análise do negócio •   Sistemas de Apoio
Com Aplicações de Tomada de Decisão USlizadas para análise do negócio •   Sistemas de Apoio

USlizadas para análise do negócio

Sistemas de Apoio à Decisão - SAD

Exige conhecimento do negócio

Vital para desenvolvimento de estratégias

Extraem informações necessárias para a tomada de decisão, u6lizando consultas complexas sobre grandes volumes de dados (por exemplo, determinar a taxa de crescimento do faturamento nos úl6mos 5 anos)

Podem usar sistemas transacionais como fontes de dados

BI – Conceito
BI – Conceito
BI – Conceito

Business Intelligence (BI) “Refere-se à coleta, organização, análise, compar;lhamento e monitoramento de informações para suporte à gestão de negócios.”

Contempla:

Data Warehouse (DW)

Data Mining (DM)

Customer Rela6onship Management(CRM)

OLAP

•   Data Warehouse (DW) •   Data Mining (DM) •   Customer Rela6onship Management(CRM) •
Nascimento do Data Warehouse (DW)
Nascimento do Data Warehouse (DW)
Nascimento do Data Warehouse (DW)

“Data Warehouse é um conjunto de dados:

orientados a um assunto integrados não-voláteis variáveis com o tempo usado no apoio a decisões gerenciais”

William H. Inmon Pai do Data Warehousing

com o tempo •   usado no apoio a decisões gerenciais” William H. Inmon “ Pai
Data Warehouse : texto para leitura CaracterísScas de um DW
Data Warehouse : texto para leitura
CaracterísScas de um DW
Data Warehouse : texto para leitura CaracterísScas de um DW •   Orientado a assuntos :

Orientado a assuntos : vendas de produtos a diferentes 6pos de clientes, atendimentos e diagnós6cos de pacientes, rendimento de estudantes.

Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de dados precisam ser acomodadas em um único esquema para prover uma visão unificada e consistente da informação.

Não voláSl: os dados de uma data warehouse não são modificados como em sistemas transacionais (exceto para correções), mas somente carregados e acessados para leituras, com atualizações apenas periódicas.

(exceto para correções), mas somente carregados e acessados para leituras, com atualizações apenas periódicas. 15
Comparação entre dados transacionais e DW
Comparação entre dados transacionais e DW
Comparação entre dados transacionais e DW

Operacionais

Data Warehouse

Orientados à aplicação

Orientados a assuntos

Precisão Instantânea

Snapshots

Atualizáveis

Somente para leitura

Voláteis

Históricos

Dispersos em aplicações

Integrados no DW

Acesso frequente

Acesso esporádico

Acesso a quantidade reduzida

Acesso a grande volume

80

70

60

50

40

30

20

10

0

Acesso a quantidade reduzida Acesso a grande volume 80 70 60 50 40 30 20 10

0

1

2

3

4

5

6

7

8

9

10

TransacionalAcesso a quantidade reduzida Acesso a grande volume 80 70 60 50 40 30 20 10

DWAcesso a quantidade reduzida Acesso a grande volume 80 70 60 50 40 30 20 10

O Data Warehouse
O Data Warehouse
O Data Warehouse
Afinal, o que é o DW?
Afinal, o que é o DW?

Um novo modelo de Dados

Uma nova estrutura de armazenamento

Infraestrutura diferente

Acesso diferenciado

Grandes quan6dades de dados

de armazenamento •   Infraestrutura diferente •   Acesso diferenciado •   Grandes quan6dades de dados
E nos departamentos: Data Mart
E nos departamentos: Data Mart
E nos departamentos: Data Mart

Data Mart Subconjunto dos dados corpora6vos

Informações específicas para um grupo de usuários

Esquemas não normalizados

Data Warehouse Corporativo Data Mart de Marketing Data Mart de Finanças Data Mart de Vendas
Data Warehouse
Corporativo
Data Mart de
Marketing
Data Mart de
Finanças
Data Mart
de Vendas
não normalizados Data Warehouse Corporativo Data Mart de Marketing Data Mart de Finanças Data Mart de
não normalizados Data Warehouse Corporativo Data Mart de Marketing Data Mart de Finanças Data Mart de
não normalizados Data Warehouse Corporativo Data Mart de Marketing Data Mart de Finanças Data Mart de
Data Mart - Aplicação
Data Mart - Aplicação
Data Mart - Aplicação

Aplicações de Data Mart

§Uso departamental

§Locais remotos (filiais, lojas etc.)

departamental §   Locais remotos (filiais, lojas etc.) §   Acesso externo (fornecedores, clientes etc.) §

§Acesso externo (fornecedores, clientes etc.)

§Estals6ca/Mineração (segmentação de mercado, previsão

§   Estals6ca/Mineração (segmentação de mercado, previsão orçamentária, gerenciamento de campanhas etc.) 19

orçamentária, gerenciamento de campanhas etc.)

Problemas com Origens dos Dados
Problemas com Origens dos Dados
Problemas com Origens dos Dados Problemas com Sistemas Legados •   Modelagem inexistente •   Programadores
Problemas com Origens dos Dados Problemas com Sistemas Legados •   Modelagem inexistente •   Programadores

Problemas com Sistemas Legados

com Origens dos Dados Problemas com Sistemas Legados •   Modelagem inexistente •   Programadores
com Origens dos Dados Problemas com Sistemas Legados •   Modelagem inexistente •   Programadores
com Origens dos Dados Problemas com Sistemas Legados •   Modelagem inexistente •   Programadores

Modelagem inexistente Programadores não pertencem mais à equipe Sistemas proprietários não possibilitam acesso Domínio de tecnologia obsoleta: cobol , adabas etc. Dados dependentes da aplicação: dincil dissociar Equipe transacional não coesa com B.I.

etc. •   Dados dependentes da aplicação: dincil dissociar •   Equipe transacional não coesa com
etc. •   Dados dependentes da aplicação: dincil dissociar •   Equipe transacional não coesa com
etc. •   Dados dependentes da aplicação: dincil dissociar •   Equipe transacional não coesa com
etc. •   Dados dependentes da aplicação: dincil dissociar •   Equipe transacional não coesa com
Conceito de ETL: Extração
Conceito de ETL: Extração
Conceito de ETL: Extração

Desafio da Extração

Ø Somente a extração dos dados leva cerca de 60% das horas de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU,

2007).”

Ø “A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste momento e não é incomum que oitenta por cento de todo esforço seja empregado no processo de ETL, (INMON, 1997 apud ABREU, 2007)”

Ø A extração é afetada pelo ambiente

seja empregado no processo de ETL, (INMON, 1997 apud ABREU, 2007)” Ø   A extração é
Dados Externos
Dados Externos
Dados Externos

Dados Externos referem-se a dados essenciais para a tomada de decisão, mas que não fazem parte dos dados originados dos sistemas transacionais.”

§Exemplos de Dados Externos: cotação de moeda estrangeira,

situações de catástrofe, cenário de mercado etc.

§Fonte de Dados Externos: revistas especializadas, jornais, índices

governamentais etc.

de mercado etc. §   Fonte de Dados Externos : revistas especializadas, jornais, índices governamentais etc.
de mercado etc. §   Fonte de Dados Externos : revistas especializadas, jornais, índices governamentais etc.
de mercado etc. §   Fonte de Dados Externos : revistas especializadas, jornais, índices governamentais etc.
de mercado etc. §   Fonte de Dados Externos : revistas especializadas, jornais, índices governamentais etc.
Os Metadados: Conceito
Os Metadados: Conceito
Os Metadados: Conceito

“Essencialmente Metadados refere-se a um dicionário de dados, ou seja, dados que mantém informações sobre outros dados”

§Para cada atributo no DW, há uma entrada no dicionário

§Dados são consultados e atualizados com base nos metadados

§Permite conhecer e entender a estrutura dos dados

§Em BD transacional a semân6ca está na aplicação

§   Permite conhecer e entender a estrutura dos dados §   Em BD transacional a
OLAP: Online analyScal processing
OLAP: Online analyScal processing
OLAP: Online analyScal processing Tipos de Ferramentas §   MOLAP: Mul6dimensional OLAP §   ROLAP: Rela6onal
OLAP: Online analyScal processing Tipos de Ferramentas §   MOLAP: Mul6dimensional OLAP §   ROLAP: Rela6onal
OLAP: Online analyScal processing Tipos de Ferramentas §   MOLAP: Mul6dimensional OLAP §   ROLAP: Rela6onal

Tipos de Ferramentas §MOLAP: Mul6dimensional OLAP §ROLAP: Rela6onal OLAP §HOLAP: Hybrid OLAP §DOLAP: Desktop OLAP

MOLAP: Mul6dimensional OLAP §   ROLAP: Rela6onal OLAP §   HOLAP: Hybrid OLAP §   DOLAP:
MOLAP: Mul6dimensional OLAP §   ROLAP: Rela6onal OLAP §   HOLAP: Hybrid OLAP §   DOLAP:
Ferramentas OLAP
Ferramentas OLAP
Ferramentas OLAP
Dados Operaciona is
Dados
Operaciona
is
Dados Externos
Dados
Externos
Ferramentas OLAP Dados Operaciona is Dados Externos Warehouse Data Mart Ferramentas OLAP Cuidados com soluções

Warehouse

Data

Mart

Ferramentas OLAP
Ferramentas OLAP
Cuidados com soluções integradas – DW e OLAP
Cuidados com soluções integradas – DW e OLAP
Ferramentas Mineração de Dados
Ferramentas Mineração de Dados
Ferramentas Mineração de Dados
Matemática Heurística Estatística Inteligência Artificial Machine Learning Business Application Data Mining
Matemática
Heurística
Estatística
Inteligência
Artificial
Machine Learning
Business Application
Data Mining

Diferenças entre - OLAP - Data Mining

Artificial Machine Learning Business Application Data Mining Diferenças entre -   OLAP -   Data Mining
Nova Fonte de Recursos para a empresa
Nova Fonte de Recursos para a empresa
Nova Fonte de Recursos para a empresa §   Questões é6cas §   A Informação como

§Questões é6cas

Fonte de Recursos para a empresa §   Questões é6cas §   A Informação como a6vo

§A Informação como a6vo da empresa: novo conceito

§Possibilidade de vendas de informação

§E as novas fontes de informação?

§Para onde vamos? Big Data?

Possibilidade de vendas de informação §   E as novas fontes de informação? §   Para
O Big Data Agora
O Big Data Agora
O Big Data Agora

Definição

Existem várias, mas segundo Mayer- Schönberger,

“Big data se refere a trabalhos em grande escala que não podem ser feitos em escala menor, para extrair novas ideias e criar novas formas de valor de maneiras que alterem os mercados, as organizações, a relação entre os cidadãos e governos etc.”

Origem do nome Big Data

Ciências como astronomia e genômica

a relação entre os cidadãos e governos etc.” Origem do nome Big Data Ciências como astronomia
O Big Data Agora
O Big Data Agora
O Big Data Agora

Caso H1N1

CDCs (Centro de Controle de Prevenção de Doenças):

üDependia de resultado de exames e informações do médicos

üCenário defasado em 01 ou 02 semanas

Google:

üusou dados de 50 milhões de termos de busca comuns (histórico de 2003 a 2008)

ü450 milhões de modelos matemá6cos

üCombinação de 45 termos, num modelo matermá6co

üEncontrou correlação entre previsão e números oficiais

üEm tempo real

üSem teste de saliva, sem atraso

correlação entre previsão e números oficiais ü   Em tempo real ü   Sem teste de
O Big Data Agora
O Big Data Agora
O Big Data Agora

Caso Forecast (Oren Etzioni) Passagens antecipadas com preço maior? Como saber se comprar antecipadamente é melhor? Coletou 12000 preços em 41 dias Criou uma startup Passou para 200 bilhões de registros Vendeu para Microsow por US$ 110 milhões

Qual a matéria-prima do negócio?

Revolução nos dados, não nas máquinas!

Vendeu para Microsow por US$ 110 milhões Qual a matéria-prima do negócio? Revolução nos dados, não
O Big Data Agora
O Big Data Agora
O Big Data Agora

Caso Sloan Digital Sky Survey

Início no ano 2000 (Novo México)

Em 2 semanas o telescópio coletou mais dados que em toda a história da astronomia

Em 2010 eram 140 terabytes

Uma sucessora, a Large Synop6c Survey Telescope (Chile), prevista para 2016: coletará isso em 5 dias

•   Uma sucessora, a Large Synop6c Survey Telescope (Chile), prevista para 2016: coletará isso em
O Big Data Agora
O Big Data Agora
O Big Data Agora

Projeto Genoma Humano

Criado em 1990 nos EUA, com previsão para 15 anos

2003: cien6stas precisaram de uma década para sequenciar 3 bilhões de pares-base

Hoje: faz-se em um único dia

cien6stas precisaram de uma década para sequenciar 3 bilhões de pares-base •   Hoje: faz-se em
O Big Data Agora
O Big Data Agora
O Big Data Agora

Empresas de Internet

Google: processa 24 petabyte/dia Facebook üRecebe mais de 10 milhões de fotos/hora üCur6r e comentar: 3 bilhões/dia üTrilha digital é construída Youtube ü800 milhões de usuários ü> 1 hora de vídeo criada por segundo Twi}er (2012): 400 milhões/dia

milhões de usuários ü   > 1 hora de vídeo criada por segundo •   Twi}er
milhões de usuários ü   > 1 hora de vídeo criada por segundo •   Twi}er
milhões de usuários ü   > 1 hora de vídeo criada por segundo •   Twi}er
O Big Data Agora
O Big Data Agora
O Big Data Agora

Quanto há de informação?

Existem vários estudos

Mar6n Hilbert, da Annenberg School for Communica6on and Journalism, CA, EUA, apresentou um

üConsiderando Livros, imagens, e-mails, fotografias, música, vídeo (analógico e digital), videogames, ligações telefônicas, cartas e sistemas de navegação para carros, além de televisão e rádio

üResultado: em 2007 es6mou-se 300 hexabytes (um bilhão de GB)

O suficiente para

üSe impresso, cobrir os EUA com 52 camadas

üEm CD-ROMs empilhados: 5 pilhas até a lua

O suficiente para ü   Se impresso, cobrir os EUA com 52 camadas ü   Em
O Big Data Agora
O Big Data Agora
O Big Data Agora

Big Data

Inteligência Ar6ficial?

Aprendizado de máquina?

Ensinar um computador a pensar?

Na verdade está mais para aplicação de matemá;ca a enormes quan;dades de dados visando prever probabilidades!

Na verdade está mais para aplicação de matemá;ca a enormes quan;dades de dados visando prever probabilidades!
A imprecisão dos Dados
A imprecisão dos Dados
A imprecisão dos Dados

Usar todos os dados (N1=1Tudo) Amplia a visão, o que não era possível antes Fontes diversificadas Dados normalizados e não normalizados SQL já não é suficiente Não se pode abrir mão das conquistas Há ferramentas que resolvem o problema? Como fica o especialista? O conhecimento do negócio é relevante? E os sistemas legados?

  Como fica o especialista? •   O conhecimento do negócio é relevante? •   E
Os 'Vs' do Big Data
Os 'Vs' do Big Data
Os 'Vs' do Big Data

3 ou 5 Vs

Volume : grande, crescimento exponencial e às vezes

subu6lizados

: grande, crescimento exponencial e às vezes subu6lizados •   Velocidade : tratamento dos dados (obtenção,

Velocidade : tratamento dos dados (obtenção, gravação, atualização etc.) deve ser rápido - muitas vezes em tempo real

Variedade : diversidade de informações (Estruturados - Bancos de Dados, DWs , Não Estruturados - documentos, imagens, áudios, vídeos etc.)

Os 'Vs' do Big Data
Os 'Vs' do Big Data
Os 'Vs' do Big Data

3 ou 5 Vs

Veracidade : dados confiáveis, garan6r o máximo possível a consistência dos dados?

Valor : os resultados devem trazer benencios significa6vos e que compensem o inves6mento?

dos dados? •   Valor : os resultados devem trazer benencios significa6vos e que compensem o
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados

N1=1Tudo è Usar todos os dados disponíveis Há custos Aumento da quan6dade leva à inexa6dão Soluções com menor volume permi6a tratar outliers Buscou-se tratá-los como problemas Em big data é necessário aprender a conviver com inexa6dão Pra6camente impossível tratá-los como em amostragens Historicamente o homem evoluiu ao medir (precisão) Em big data imprecisão (confusão) é visto de forma posi6va Como entender melhor tudo isso?

•   Em big data imprecisão (confusão) é visto de forma posi6va •   Como entender
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados

Case vinhedo

Medir a temperatura com um único sensor

o Tem que ser preciso

o Não permite confusão

Medir a temperatura com um sensor a cada 100 parreiras

o Pode-se usar sensores mais baratos (não tendenciosos)

o Alguns podem apresentar confusão

o Mas a soma é mais abrangente

o Mudar de uma medida por minuto para 10 ou 100/segundo

o Volume versus perda

a soma é mais abrangente o   Mudar de uma medida por minuto para 10 ou
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados

Então em big data Dados não totalmente incorretos 2 + 2 = 3,9 pode? Pretere-se um pouco da precisão em favor de uma tendência Big data é mais probabilís6co que exato Case algoritmos de xadrez o Poucas modificações o Regras conhecidas o Como melhoraram o Jogadas finais: 6 peças mapeados o N1=todo para: mais de 1 TB

conhecidas o   Como melhoraram o   Jogadas finais: 6 peças mapeados o   N1=todo para:
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados

Case linguagem natural

Análise grama6cal MS Word (2000): Michele Banko e Eric Brill buscavam melhorar o resultado

Melhorar os algoritmos ou aumentar dados?

1 milhão de palavras é comum (corpus texto)

10 milhões, 100 milhões, 1 bilhão?

O mais simples com 500 mil saiu de 75% para 95% acerto

Google em 2006 usava 1 trilhão

E m 2012: 60 idiomas, 14 por voz

Algoritmo pouco inteligente: modelos simples

“Modelos simples com muitos dados são melhores que modelos mais elaborados com menos dados”, disse Peter Norvig

“Modelos simples com muitos dados são melhores que modelos mais elaborados com menos dados”, disse Peter
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados
A confusão (inexaSdão) dos Dados

Mais sobre confusão

Existe porque a tecnologia não é perfeita

Dep. Americano de Estals6cas Trabalhistas faz índice de preço ao consumidor (Federal Reserve usa para cálculo inflação)

o Custo: US$ 250 milhões/ano

o Dados organizados, mas defasados em função do tempo

o Crise 2008 não foi prevista com tanta precisão

Alberto Cavallo e Roberto Rigobon (MIT): alterna6va confusa

o 500 mil preços da Internet + big data: previu deflação 2 meses antes que o governo (2008)

o MIT originou a PriceStats: bancos e outros usam

o The Economist usa: não confia completamente nos cálculos de alguns países (Argen6na, p.e.)

The image cannot be displayed. Your computer may not have enough memory to open the

The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again.

Aceitando a causalidade
Aceitando a causalidade
Aceitando a causalidade

Mais sobre confusão Flickr : 6 bilhões de imagens e 75 milhões de usuários (2011) o usou big data para rotular imagens Maior escala: exato perde importância o Ícone do Twi}er ou Cur6r do Face o Gmail condensa minutos, horas, dias etc. o Flexibilidade para BDs tradicionais (campos diferentes) SQL não é suficiente: surge NOSQL Google criou MapReduce: modelo de programação (framework) Hadoop : rival Open Source Projeto Apache em Java (Distribuído) o Visa usou para segmentar 70 milhões transações o Reduziu de um mês para 13 minutos

(Distribuído) o   Visa usou para segmentar 70 milhões transações o   Reduziu de um mês
A causalidade
A causalidade
A causalidade

Sem saber o “porquê” apenas “o quê”

Ser humano sente a necessidade de entender a causa

Crí6cas a modelos caixas pretas

Importância para modelos simbólicos e estals6cos

Questões filosóficas sobre causalidade (é tudo causal?)

Daniel Kahneman professor de psicologia de Princeton e ganhador do Nobel de Economia de 2002

Ser humano: 2 6pos de raciocínio (rápido ou reflexivo)

Rápido para sobrevivência no passado

Implica em ver causalidades inexistentes

É cultural mas o paradigma é um problema em big data

Correlação é fácil, causalidade é dincil

  É cultural mas o paradigma é um problema em big data •   Correlação é
Dataficação
Dataficação
Dataficação

QuanSficação, Tabulação e Análise Case Ma}hew Fontaine Maury o Oficial da Marinha americana (1839) o Big data à moda an6ga: carta náu6ca

(1839) o   Big data à moda an6ga: carta náu6ca •   Case Shigeomi Koshimizu o

Case Shigeomi Koshimizu o Ins6tuto Avançado de Tecnologia (Japão) o Forma que a pessoa se senta é quan6ficada e tabulada o Resultado: código digital único com até 98% de acerto o Pode-se aplicar em segurança, cansaço etc.

o   Resultado: código digital único com até 98% de acerto o   Pode-se aplicar em
Dataficação
Dataficação
Dataficação

QuanSficação, Tabulação e Análise

Dado: origem do grego e pode significar fato

Dataficar: coleta de dados e disposição em formato quan6ficado de modo que possa ser tabulado e analisado

Números Romanos versus arábicos

Itália no século XIV: balanço e origem da contabilidade

Dataficação de imagem de texto do Google

Geoprocessamento: dataficação de um lugar (la6tude/longitude)

GPS teve origem em 1978 e aberto para uso não militar em 1980

Dataficação dos smartphones:

militar em 1980 •   Dataficação dos smartphones : o   Publicidade direcionada o   Biometria

o Publicidade direcionada

o Biometria

Gráfico social

Além dos dados estruturados
Além dos dados estruturados
Além dos dados estruturados

O valor dos dados não estruturados

Digitalização versus dataficação

Luis Von Ahn (2000) criou Captcha: problemas com spambots

Yahoo implementou Captcha (Teste Completamente Automa6zado para Separar Computadores e Humanos)

E o ReCaptcha, o que tem de diferente?

Movimento e cliques de mouse

Conteúdo do Twi}er : entender sen6mentos e manifestações

Conteúdo do face: entender preferências de imagens, sons, vídeos etc.

Quando as palavras se tornam dados: literatura e

•   Quando as palavras se tornam dados: literatura e estals6ca •   Custo de armazenagem

estals6ca

Custo de armazenagem jus6fica manutenção dos dados

Além dos dados estruturados
Além dos dados estruturados
Além dos dados estruturados

NOSQL

Criado por Carlo Strozzi em 1998: BD relacional código aberto mas sem SQL

Dis6nto do modelo relacional: o termo noRel ficaria melhor

Ressurgiu em 2009: Rackspace evento sobre BD Open Source e Distribuídos

Termo se refere a diferentes sistemas de BDs não estruturados

Buscam performance superior e de alta escalabilidade

Facilidade para distribuição horizontal: mais dados mais servidores

Todas informações agrupadas no mesmo registro

Mais tolerantes a erros

Ideal para BDs Transacionais?

informações agrupadas no mesmo registro •   Mais tolerantes a erros •   Ideal para BDs
Valor dos Dados
Valor dos Dados
Valor dos Dados

Análise Custo e Benetcio

Logís6ca abastecimento carro elétrico: problema para empresa e motoristas

IBM e big data: previsão local abastecimento e construção postos

Mas os carros já não possuem computador de bordo?

Apenas parte dos dados coletados são usados

Empresas inovadoras procuram valor oculto nos dados

Na era big data custo e benencio pode estar na reu6lização básica, fusão de Bancos de Dados ou novas descobertas

Muitos dados se perdem ou são subu6lizados

O valor está no que é possível extrair

Valor dos dados é a soma das possibilidades

subu6lizados •   O valor está no que é possível extrair •   Valor dos dados
Extraindo o máximo dos Dados
Extraindo o máximo dos Dados
Extraindo o máximo dos Dados

ReuSlização e recombinação

Reu6lização: dados de uso primário u6lizados para outros fins

o Dados das buscas: corretor ortográfico

o Amazon extraiu preferência de usuários da AOL

o Reconhecimento de voz: Google versus Nuance

o SWIFT: prever PIB a par6r de transferências internacionais

o Operadora de Celular: dados de localização anônimos

Recombinação: combinar fontes de dados diferentes

Uso de Celular e Câncer (Dinamarca): 3,8 milhões de dados

51
51

Zillow (Ramo imobiliário): informações de imóveis + preços + mapas para prever valores

Extraindo o máximo dos Dados
Extraindo o máximo dos Dados
Extraindo o máximo dos Dados

Expansão e depreciação

Expansão: dados adequados a vários usos

o Câmeras: segurança e fluxo de clientes

o Street View : fotos, dados de GPS ( autopiloto ), nomes de redes WiFi (especula-se que até dados) – dois pelo preço de um

Depreciação: perda de u6lidade com o tempo

o Desafio de separar dados úteis ou manter todos

o NSA mantem dados do maior número possível

Uso exaus6vo dos dados

Case corretor: Yahoo pensou, Google agiu (veio de graça)

Treinamento de voz: aprendizado recursivo

“Gostamos de aprender com bancos de dados enormes e ‘barulhentos’” funcionário Google

aprendizado recursivo “Gostamos de aprender com bancos de dados enormes e ‘barulhentos’” funcionário Google 52
Cadeia de Valor do Big Data
Cadeia de Valor do Big Data
Cadeia de Valor do Big Data

Informação

Dados da empresa auxiliam na definição do seu valor contábil

Bancos e a Terceirização de cartões: qual o custo?

Mastercard analisa 65 bilhões de transações de 1,5 bilhão de clientes em 210 países e até vende informações

É Capaz de descobrir: encher tanque 16h, gastar de US$ 35,00 a US$ 50,00 na próxima hora (em mercearia ou restaurante)

Sensores sem fio em ônibus público para prever quebras

o Diminuiu o custo em até 10%

o Possibilitou a subs6tuição de uma peça com 450 mil Km (antes era com 320 ou 400 mil): economia de mais de US$ 1 mil/veículo

com 320 ou 400 mil): economia de mais de US$ 1 mil/veículo •   Origem da

Origem da informação é irrelevante: mídia e dados

Cadeia de Valor do Big Data
Cadeia de Valor do Big Data
Cadeia de Valor do Big Data

Especialista de Dados

Ganha bem, trabalha duro e entrega o diamante para o dono

Ideias e habilidades são acessórios: o valor recai sobre os dados

Valor migrou: conhecimento è ideia è dados

Morte do especialista?

Pioneiros tem origem externa ao seu domínio: especialista em análise de dados, IA, matemá6ca, estals6ca etc.

Piada Microsow: “a qualidade das traduções aumenta sempre que um linguista deixa a equipe”

Grupo Google é capaz de traduzir para idiomas que não dominam

sempre que um linguista deixa a equipe” •   Grupo Google é capaz de traduzir para
Cadeia de Valor do Big Data
Cadeia de Valor do Big Data
Cadeia de Valor do Big Data

Pessoas e Empresas com mente Big Data

Novo perfil: menos especialista, mais generalista

Setor de videogames fatura mais/ano que Hollywood/mundo

Usam big data para entender o jogador (vendas de itens)

Intermediários que agrupam e vendem dados

Big data pouco ú6l para empresas de porte médio: vantagens de escala para grandes e custo e inovação para pequenas

Big data obriga médias a se tornarem grandes ou pequenas

Veem oportunidades antes dos outros: mesmo sem dados

Cria6vo e observador: não se limita ao que é exequível, mas ao que é possível

Em expansão e com muitas oportunidades

não se limita ao que é exequível, mas ao que é possível •   Em expansão
Riscos do Big Data
Riscos do Big Data
Riscos do Big Data

Privacidade e Punições PrediSvas

Dados podem se tornar instrumento de opressão

Como saber de obje6vos que sequer existem

Case Street View : casa ofuscada

Consen6mento individual, opção de exclusão e anonimização perderam eficiência

Aplica6vos de smartphones: solicitam autorização à localização

NSA em Fort Williams: inves6mento de US$ 1,2 bilhões

Coleta dados o tempo todo, do maior número possível

São capazes de inves6gar assim que iden6ficam o suspeito

Comportamento de compra pode iden6ficar uma pessoa

capazes de inves6gar assim que iden6ficam o suspeito •   Comportamento de compra pode iden6ficar uma
Riscos do Big Data
Riscos do Big Data
Riscos do Big Data

Privacidade e Punições PrediSvas

Cases de Anonimato quebrado

o Buscas AOL e pesquisa do New York Time

o Prêmio Neãlix disponibilizou 100 milhões de registros de 500 mil usuários e US$ 1 milhão a quem melhorasse recomendações: resultado, iden6ficaram clientes

o Neãlix e Pesquisadores da Universidade do Texas:

classificação 6 filmes obscuros (de 500 mais vistos) - possível iden6ficar cliente com 84% precisão (de posse da data da classificação, sobe para 99%)

Memphis, no Tennessee: big data aplicado na diminuição de crimes, prevendo ações (Blue CRUSH)

Pode-se punir predi6vamente?

big data aplicado na diminuição de crimes, prevendo ações (Blue CRUSH) •   Pode-se punir predi6vamente
Big Data: Normas e Regulação
Big Data: Normas e Regulação
Big Data: Normas e Regulação

Regulação Área nova, ainda não há regulação específica Como inves6gar? Quem é capaz? Algoritmistas , a nova profissão? o Algoritmistas externos e internos Governos também devem ser regulados? Big data altera autocontrole da sociedade? Para onde vamos?

Governos também devem ser regulados? •   Big data altera autocontrole da sociedade? •   Para
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Ferramentas de Big Data

Há ferramenta ou solução específica para Big Data?

Big Data: estruturas de indexação de dados e de visualização

Estrutura de indexação de dados

o Agrupa dados estruturados e não estruturados

o É somente a composição dos dados (isso lembra algo?)

Componente de visualização de dados: um ou vários

o IBM Cognos , QlikView, SAP Business Objects, Datameer, splunk , Oragle Business Intelligence entre outros (lembra algo também?)

, SAP Business Objects , Datameer , splunk , Oragle Business Intelligence entre outros (lembra algo
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Ferramentas de Big Data Simplificando o NOSQL ( Not Only SQL)

Estruturados

Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados

Não Estruturados

Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Big Data Ferramentas de Big Data •   Simplificando o NOSQL ( Not Only SQL) Estruturados
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

NOSQL versus BD Relacional

NOSQL é não relacional (não estruturado)

NOSQL possui sua linguagem de consulta

Relembrando conceito dos BDs relacionais

O que se ganha com o NOSQL

É aplicável a todos os casos?

Transacional tem propriedades ACID (Atomicity, Consistency, Isola6on, Durability)

Relacional: indispensável onde há necessidade de precisão e consistência de referências

Solução: u6lizar NOSQL conjuntamente com um relacional

de precisão e consistência de referências •   Solução: u6lizar NOSQL conjuntamente com um relacional 61
de precisão e consistência de referências •   Solução: u6lizar NOSQL conjuntamente com um relacional 61
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Consultas SQL em uma tabela

S ELECT Lista_atributos FROM Tabela WHERE Condição

Exemplos de consultas com funções de agregação

SELECT COUNT(*) FROM CLIENTE

SELECT COUNT(*) FROM CLIENTE WHERE sexo =’feminino

SELECT nome FROM CLIENTE WHERE codigo not in (SELECT codigo FROM FONE)

SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT avg(salario) FROM CLIENTE WHERE SEXO=’MASCULINO’)

SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT avg(salario) FROM CLIENTE WHERE SEXO=’MASCULINO’) 62
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Tipos de armazenamento NOSQL

Key/ Value Store é o mais comum (uma chave, um valor), suporta mais carga, muita escalabilidade

o Ferramentas: Berkeley DB, Tokyo Cabinet, Kyoto Cabinet, Project Voldermort , MemcacheDB, SimpleBD , Redis , Riak, entre outros

Wide Columns Store tem inspiração no BigTable (Google), suporta várias linhas, colunas e até subcolunas

o Ferramentas: Hbase (Apache), Cassandra entre outros

Document Store baseados em documentos XML e JSON

o Ferramentas: MongoDB , CouchDB (Apache) entre outros

  Document Store baseados em documentos XML e JSON o   Ferramentas: MongoDB , CouchDB (Apache)
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Tipos de armazenamento NOSQL

Graph Store é mais complexo pois guarda objetos

o Ferramentas: Neo4J , InfoGrid e HyperGraphDB

Column Oriented Store são bancos de dados relacionais com caracterís6cas NOSQL . Dados armazenados em colunas

o Ferramentas: MonetDB, LucidDB , Infobright e Ingres / Vectorwise

Cases:

SimpleDB é u6lizado pela Amazon

H b ase é ligado ao Hadoop

MongoDB é u6lizado por: Disney, MTV Networks entre outros

Amazon •   H b ase é ligado ao Hadoop •   MongoDB é u6lizado por:
Ferramentas Big Data
Ferramentas Big Data
Ferramentas Big Data

Exemplos de NOSQL no MongoDB

MongoDB: orientado a documentos, escalável, livre de esquema, de alto desempenho e código aberto escrito em C++

Dados dispostos em coleções - estrutura JSON (JavaScript Object Nota6on). Exemplo :

pessoa{ name: “Marcos Paulo”, nick: “Marquinhos”, age: 30, phone:

{mobile: 99998888, residencial:444433333}}

Registros flexíveis: quando for necessário, altere

Ideal para leituras de grandes volumes não estruturados

Exemplos de consultas:

necessário, altere •   Ideal para leituras de grandes volumes não estruturados •   Exemplos de
necessário, altere •   Ideal para leituras de grandes volumes não estruturados •   Exemplos de
necessário, altere •   Ideal para leituras de grandes volumes não estruturados •   Exemplos de
necessário, altere •   Ideal para leituras de grandes volumes não estruturados •   Exemplos de
Projeto de Big Data
Projeto de Big Data
Projeto de Big Data

Por onde começar Planejamento estratégico da empresa Definição do escopo do projeto e demais artefatos No desenvolvimento:

o Base de dados interna transacionais o Base de dados informacionais o Flat files imprescindíveis para o negócio o Dados externos acessíveis o Dados que precisam ser adquiridos o Dados de máquina relevantes para o negócio o Ferramentas de indexação de dados o Ferramentas de visualização de dados

relevantes para o negócio o   Ferramentas de indexação de dados o   Ferramentas de visualização
BIG D ATA S IRLON D INIZ DE C ARVALHO – D R sirlondiniz@gmail.com 67
BIG D ATA S IRLON D INIZ DE C ARVALHO – D R sirlondiniz@gmail.com 67
BIG D ATA
BIG D ATA

SIRLON D INIZ DE C ARVALHO – D R

sirlondiniz@gmail.com