Você está na página 1de 6

Esse tal de Big Data....

__________________________________________________________________.

1

__________________________________________________________________________________
E esse tal de Big Data ?
Hoje todas as pessoas que converso e que sabem que atuamos com Business Intelligence na Cetax
Consultoria, me perguntam:
E esse Big Data hein Marco? Eu vi at na Veja... est todo mundo falando disso.
Vi que o Cientista de Dados a profisso do futuro, Eu quero ser Cientista de Dados.
Sempre penso muito antes de responder qualquer questo que foi colocada a mim, por isso vamos falar
um pouco sobre tudo que cerca o assunto antes de grandes definies.
Para quem nunca viu, abaixo est uma pesquisa feita no Google Trends (www.google.com/trends).
O termo pesquisado nos EUA desde sempre, mas em 2011 houve uma exploso de pesquisas tanto aqui,
quanto l na terra do Tio Sam.

Aqui no Brasil vemos um crescimento constante a partir de 2012 e um pico em Maio/2013, exatamente
quando a Veja publicou uma matria sobre Big Data, no concordo com tudo que estava escrito na
matria, mas isso fica para um post a parte.


Publicao da Veja
com Big Data na capa

Esse tal de Big Data....
__________________________________________________________________.

2

__________________________________________________________________________________
Outro grfico interessante que coloquei abaixo uma comparao entre as pesquisas sobre Big Data x
Business Intelligence, essa pesquisa Global. Podemos ver que o termo Business Intelligence reinou
absoluto at o comeo desse ano, onde o Big Data ultrapassou o termo.

No grfico abaixo uma comparao entre data warehouse x business Intelligence x big data.
Em 2006, Business Intelligence passou Data Warehouse e em 2013, Big Data passou Business
Intelligence.


Esse tal de Big Data....
__________________________________________________________________.

3

__________________________________________________________________________________
1) Big Data = Grandes Dados ou Grandes Volumes de
Dados ?
Alguns DBAs e programadores que conheo migraram seus currculos instantaneamente de Especialistas
em Bancos de Dados para Especialistas em Big Data afinal de contas trabalhavam com bancos de dados
de alguns Terabytes (TBs) e teoricamente isso Big Data.
Na verdade no simplesmente o volume de dados que define o Big Data, o conceito calcado em um
pilar de 3 itens, algumas pessoas falam em 4, mas vamos aos 3 principais:

Volume Volume dos Dados: Passamos a falar muito rpido de Gigabytes para Terabytes e agora
estamos falando de Petabytes e outros volumes que no vou saber colocar aqui de cabea para vocs.
Hoje so contabilizados em mdia 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de
2.834 Exabytes (que so milhes de Gigabytes) a previso que em 2020 se gerem anualmente 40.026
Exabytes de informaes.
Velocity Velocidade: Hoje para alguns negcios, 1 minuto pode ser muito tempo, deteco de
fraudes, liberaes de pagamentos, anlises de dados mdicos ou qualquer outra informao sensvel a
tempo.
A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latncia em D-1,
ou seja, carregamos o dia anterior. Ainda acreditamos que essa soluo se aplique a muitos negcios,
porm, para algumas anlises, quanto mais prximo do tempo real, maior pode ser o incremento de
negcio.
Variety Variedade: Big Data tambm poderia ser considerado como Any Data (qualquer dado),
hoje temos capacidade de capturar e analisar dados estruturados e no estruturados, texto, sensores,
navegao Web, udio, vdeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.

Esse tal de Big Data....
__________________________________________________________________.

4

__________________________________________________________________________________
Uma nova srie de ferramentas est se tornando parte dos projetos, so as ferramentas de machine data,
dados de mquina, quase qualquer aparelho eletrnico hoje em dia tem uma estrutura de dados ou
programao, o ponto que nem todos podem ser acessados (ainda..).

2) Qual o volume de dados gerado diariamente ?
O Facebook armazena, acessa e analisa mais de 50 petabytes de informaes geradas pelos usurios, a
cada ms so gerados mais de 700 milhes de minutos por ms.
A cada minuto so feitos uploads de 48 horas de vdeos no Youtube, ou seja, nunca ningum conseguir
assistir todos os vdeos do Youtube.
Diariamente mais de 500 milhes de mensagens so enviadas pelo Twitter, com uma mdia de 5700 TPS
(Twittes per Second ou Mensagens por Segundo), o recorde de 143.199 TPS.
O Google processa diariamente mais de 3 bilhes de pesquisas em todo o mundo, sendo desse total 15%
totalmente inditas. Seu "motor" de pesquisa rastreia 20 bilhes de sites diariamente, armazenando 100
petabytes de informao.
Sem contar todas as informaes que as companhias geram diariamente, sejam elas estruturadas ou no.

3) O que so informaes estruturas e no estruturadas ?
Consideramos:
Informaes estruturadas - aquelas que possuem algum padro ou formato que pode ser usado
na sua leitura e extrao dos dados. Dados de bancos de dados, sistemas legados, arquivos texto
(sejam csv, txt ou XML).
Informaes no estruturadas no possuem um formato padronizado para leitura, podem ser
arquivos Word, Pginas de Internet/Intranet, Vdeos, udios, entre outros.


4) Quais ferramentas ? no est fcil escolher..
Ok, j sabemos o que o termo, temos uma ideia do que ele faz, mas qual ferramenta devo escolher?
No quero desanimar ningum, mas olhando abaixo devem ter mais de umas 100 marcas diferentes em
categorias de softwares diferentes tambm.

Esse tal de Big Data....
__________________________________________________________________.

5

__________________________________________________________________________________

Deixei os Twitters dos responsveis pela figura (Matt Turck e Shivon Zilis) que tiveram tempo e coragem
para montar o grfico acima.
Em Maio/2013 fiz 2 cursos em Chicago-USA no TDWI (www.tdwi.org) com o Professor Krish Krishnan
(@datagenius), realmente foram muito bom, um curso bem completo sobre Big Data e outro especfico e
mais focado no Hadoop.
Gostamos muito do Hadoop, nos parece ser uma sute muito completa e estamos colocando nossas fichas
nele, mas claro, no colocamos todas as fichas na mesma aposta, a no ser que eu tenha certeza para
mandar o All-In como fazemos no pquer.
Como essa aposta no pquer e tenho um quadro com cerca de 100 tecnologias diferentes, apostamos
uma quantidade de fichas no Hadoop, mas guardamos fichas para mais apostas.
Existem muitas ferramentas, muitos fabricantes, muitas a definies a acontecer, as perguntas que nos
fazem:
Mas qual devo estudar?

Esse tal de Big Data....
__________________________________________________________________.

6

__________________________________________________________________________________
Qual a melhor do mercado?
Qual a mais usada?
Todo esse mercado ainda muito recente, estamos falando de produtos comerciais que tem 2 ou 3 anos
no mximo. Muitas definies esto acontecendo nesse momento.
Sabemos que o mercado americano gera a maior parte das tendncias de tecnologia mundialmente e pelo
que vimos, nem eles ainda tem uma ferramenta ou uma soluo principal, ainda est tudo muito
fragmentado.

5) E o meu Data Warehouse, o que acontecer ?
Ainda segundo o Professor Krish Krishnan, os dados oriundos do Big Data sero complementares ao Data
Warehouse existente, visto que ainda existiro sistemas legados com dados estruturados e bancos de
dados, da maneira que fazemos BI hoje.
O grande desafio ser integrar os dados das estratgias de BI com as de Big Data, analisar separadamente
as informaes no complexo, medir Tweets, Likes do Facebook ou qualquer outro dado no estruturado
individualmente.
Passar a ser um grande desafio quando cruzarmos esses dados com Notas Fiscais, Pedidos, Entregas, etc.

Agradecimentos
Pessoal, agradeo por conseguirem chegar at aqui!
Mais artigos esto chegando:
Gerenciamento de Projetos de BI.
Cientista de Dados.
Hadoop
Obrigado,
Marco Garcia
mgarcia@cetax.com.br
http://cetax.com.br

Você também pode gostar