Você está na página 1de 65

O grande livro

de Big Data
Um guia prtico para tirar o
seu primeiro projeto de Big Data
do papel.

Contedo
Introduo
Parte A: Como se preparar

3
4

O que voc precisa saber


Por que a maioria das empresas implementa
projetos de Big Data
Por que os projetos de Big Data falham
Como fazer o seu projeto de Big Data funcionar

Escolha do projeto certo


Como seria o projeto certo
Considere o impacto
Projetos tticos de Big Data: Alguns exemplos
A jornada bsica do Big Data

12
13
15
17
19

Parte B: Sua estratgia

6
7
10

24
25
27

Defina as necessidades de dados


Quais so os dados que voc precisa?
Cinco consideraes essenciais em relao aos dados

29
30
33

2 | O grande livro de Big Data da Informatica

36

Sua equipe
Cinco lies essenciais para a criao da equipe
Implemente a governana de dados
As habilidades que voc tem e aquelas de que precisa

37
38
42
45

Suas ferramentas
Noes bsicas sobre as ferramentas de Big Data

47
48

Seus processos
Os oito Big Data

52
53

Sua arquitetura
Primeiros passos: Sua rea restrita
A arquitetura ideal do Big Data

56
57
59

Seu plano de projeto


Seu plano de projeto

60
61

Seguindo em frente

63

Prximos passos

64

Sobre a Informatica

65

23

Defina as suas metas


As metas de negcios
Metas de TI

Dica: Clique para acessar a seo

Parte C: Sua cadeia de suprimentos de


Big Data descomplicada

Como
ser
grande

Poucas tendncias tecnolgicas foram


to comentadas quanto o Big Data.

Este livro tem o objetivo de desfazer


essa confuso.

E, ao mesmo tempo, poucas tendncias


tecnolgicas ofereceram s empresas
tanto potencial de transformao. Desde
que o software comeou a envolver
processos de negcios completos, na
virada do sculo, uma coisa ficou clara:
os dados mudam o modo como
trabalhamos.

O segredo blindar a sua estratgia


e execut-la de forma pragmtica.
Este livro servir como um guia
prtico na sua jornada, esteja voc
comeando uma iniciativa especfica
e ttica ou planejando um esforo
mais estrutural para toda a empresa.

claro que, com grandes expectativas,


tambm vm grandes desiluses.
E, no caso do Big Data, com certeza
j vimos bons conselhos e informaes
erradas difundidos na mesma medida.
Infelizmente, como este admirvel
mundo novo de dados infinitos ainda
bem recente, todo esse barulho deixou
muita gente confusa.
3 | O grande livro de Big Data da Informatica

Vamos nos aprofundar.

Parte A:
Como se
preparar
O livro est divido em trs partes.
Nesta primeira parte, tentaremos aprimorar a sua
viso para que voc possa escolher o projeto certo.
Voltar para Contedo

4 | O grande livro de Big Data da Informatica

<

O que voc
precisa saber

14

12

Antes de falarmos sobre as especificidades


do seu prprio projeto, veja algumas questes
que a maioria dos profissionais que esto
trabalhando com Big Data gostaria de ter
ficado sabendo antes de comearem seus
projetos.

10

O que voc
precisa saber

Por que a maioria das organizaes


implementa projetos de Big Data
Quando as empresas
decidem que vo se
dedicar ao Big Data,
omotivo geralmente
um dos descritos a
seguir.

 o tentar melhorar suas anlises,


A
as empresas percebem que,
para isso, precisaro analisar
uma quantidade de dados
significativamente maior.
Geralmente, uma unidade de
negcio (por exemplo, marketing)
comea essas iniciativas.

O processo torna evidente que
possvel envolver os produtos em
uma camada de servios,
fornecendo uma anlise (quase
sempre em tempo real) capaz de
ajudar os clientes a usar os
produtos de maneira mais
eficiente e infalvel.

6 | O grande livro de Big Data da Informatica

 s empresas querem fazer as


A
coisas de maneira mais rpida,
melhor e mais barata usando o
Big Data para comunicar todas
as decises relacionadas a uma
unidade de negcio ou a um
processo especfico.

Percebem
que o Big Data
essencial para todas as unidades
de negcio da organizao e
tentam estabelecer as bases para
uma viso centralizada em
dados, em todo o seu universo.
E las sabem que precisam
comear um projeto de Big Data
antes que seja tarde demais,
mas ainda no sabem realmente
oque fazer. O objetivo aprender
e experimentar.

Todos esses aspectos so timos


motivos para se interessar por
Big Data. Mas, se quiser garantir
que os seus projetos resistam ao
teste do tempo (e da anlise
multidepartamental), voc ter
que ser muito claro sobre qual
desses motivos melhor representa
o seu interesse.

O que voc
precisa saber

Por que os projetos de


Big Data falham
1

Uma pesquisa descobriu que


55% de todos os projetos de Big
Data no so concludos e muitos
outros ficam aqum dos objetivos.
Embora essa taxa de desistncia
no seja atpica em um estgio
to inicial de uma tendncia de
tecnologia, seria insensato no
aprender as lies que esses
projetos podem ensinar.
Vamos analisar os quatro
principais motivos para o
fracasso de projetos de Big Data.

1
Metas vagas
O motivo de falha mais citado
na pesquisa foi o escopo
impreciso do projeto. Muitas
empresas tm como meta projetos
ambguos,(ambguos demais, vale
ressaltar), com objetivos no muito
claros, e que falham quando elas
precisam fazer escolhas difceis
sobre o que ou no importante.

Se envolver com Big Data s


para ter um projeto de Big Data
a receita para o desastre.
As complexidades desses projetos
exigem um compromisso firme com
a obteno de um determinado
resultado. Sem a certeza das
metas, isso no possvel.

1.

7 | O grande livro de Big Data da Informatica

www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384

O que voc
precisa saber

Por que os projetos de


Big Data falham
2

Expectativas mal administradas


Todo o entusiasmo em torno do Big
Data gera algumas expectativas
muito perigosas sobre o que
o projeto pode proporcionar.
Por mais que seja tentador fazer
promessas a curto prazo,
importante manter uma viso
realista do que se pode esperar
do projeto, quanto tempo isso vai
levar e a quantidade de esforos
necessrios para chegar l.

Atrasos e demoras nos projetos


Quando a expectativa de
impacto e insights muito alta,
voc se pega navegando em
terabytes de annimos e
desconhecidos procura de
ouro. Quando a expectativa de
resultados no realista, voc
acaba buscando prazos e
oramentos que no so justos.

8 | O grande livro de Big Data da Informatica

Apesar dessa disciplina ser


bem nova para as empresas,
no novidade que a maioria
dos projetos de Big Data acaba
custando caro ou demorando
muito. Normalmente, isso
resultado de uma mistura de
expectativas mal administradas
e de vises inadequadas sobre
como construir uma arquitetura
dimensionvel.

Quando raros e caros


desenvolvedores de Hadoop Java
so contratados e encarregados
de implementaes gigantescas
com codificao manual, as
empresas logo percebem que
impossvel sair do ambiente de
rea restrita sem erros. Como
resultado, os projetos de Big Data
acabam definhando como um
experimento cientfico e nunca
saem do laboratrio.

O que voc
precisa saber

Por que os projetos de


Big Data falham
4
Incapacidade de dimensionar
J difcil encontrar cinco
timos desenvolvedores Hadoop
Java. Mas, quando os projetos
aumentam e precisam se ajustar
a 30 desenvolvedores Java em
um nico ano, as coisas podem
chegar ao limite. O pior no
o custo da oportunidade
de clusters Hadoop no usados;
o custo da oportunidade e do
tempo perdidos.

Muito frequentemente, as empresas


buscam a convenincia do curto
prazo em vez da sustentabilidade
a longo prazo. Embora seja
precipitado de nossa parte sugerir
que sempre possvel evitar
a troca de um pelo outro, nunca
demais enfatizar a importncia
da viso de longo prazo. Para que
os seus dados sejam protegidos
e gerenciados adequadamente,
voc precisa sempre supervisionar
as implicaes de longo prazo
do seu projeto.

9 | O grande livro de Big Data da Informatica

Os quatro motivos do fracasso


do Big Data so preocupantes
emuito comuns. Por isso, vamos
falar sobre como possvel
evit-los e construir uma
implementao duradoura.

O que voc
precisa saber

Como fazer o seu projeto de


Big Data funcionar
Como a maioria dos projetos de
Big Data falha por falta de
clareza e devido incapacidade
de demonstrar a funcionalidade
da iniciativa, voc mesmo deve
se responsabilizar por isso para
trazer foco e comprovao ao
seu projeto. Seguem trs dicas
teis para garantir que o seu
projeto j comece dando certo
econtinue em operao.

Defina objetivos claros e


administre as expectativas

Defina as mtricas que


comprovam o valor do projeto

Se voc no sabe qual deve ser


a meta do seu projeto, pense nos
objetivos que definiu para a
infraestrutura de dados existente.

Mtricas claramente definidas


e que se ajustem aos objetivos
podem evitar uma grande
quantidade de problemas.
Ao definir metas realistas que
podem ser medidas, todos ao
seu redor conseguiro ver o
progresso que voc est obtendo.

Se a sua organizao j precisa


de dados para determinados
processos de negcios (como
deteco de fraudes ou anlise
de mercado), pense em como
o Big Data pode melhorar
ou valorizar esses processos.
Em vez de abordar um problema
totalmente novo, voc deve ter
como alvo melhorar um processo
ou projeto j existente.
Sem um foco claro e um valor
perceptvel aos usurios de
negcios, o projeto estar
condenado ao fracasso.

10 | O grande livro de Big Data da Informatica

O mais importante: eles sabero


que voc tem como objetivo o
longo prazo. Pergunte a si
mesmo como voc pode medir
oimpacto do seu projeto no
contexto das suas metas.

Isso crucial, pois os usurios de


negcios precisaro de ajuda
para racionalizar compromissos
de curto prazo, e as metas
mensurveis ajudam a provar
que voc est proporcionando
mais valor do que eles imaginam.

O que voc
precisa saber

Como fazer o seu projeto de


Big Data funcionar
3
Seja estratgico sobre
ferramentas e codificao manual
Evite a tentao de codificar tudo
manualmente diretamente no
Hadoop. Lembre-se de que o
objetivo aqui no construir uma
implementao de trabalho
manual a partir do zero; o
objetivo entregar o valor do
BigData para a sua organizao.
Em vez de tentar codificar
manualmente cada integrao,
limpar cada conjunto de dados
e codificar manualmente todas
as anlises, voc deve analisar
ferramentas e automao para
ajudar a acelerar esses processos.

O mais importante no cair na


armadilha de desperdiar talentos
de desenvolvimento de Java, raros
e caros, em aspectos que no
podem ser dimensionados ou
transferidos para outros
funcionrios. A sua funo tomar
decises estratgicas sobre a
implantao de recursos escassos,
de forma a atingir seus objetivos.
Adote ferramentas que possam
aumentar a produtividade da
equipe de desenvolvimento por
meio do aproveitamento das
habilidades e do conhecimento
da qualidade dos seus dados de
ETL existentes e de especialistas
em Business Intelligence,
enquanto libera os especialistas
em Java para trabalhar na lgica
especfica para a qual no h
ferramentas disponveis.

11 | O grande livro de Big Data da Informatica

Alm disso, como as tecnologias


do tipo Hadoop evoluem a cada
dia, vale a pena considerar uma
camada de abstrao que possa
lhe proteger das constantes
mudanas nas especificaes
das tecnologias subjacentes.
Acima de tudo, lembre-se de que
as habilidades necessrias so
escassas, mas as ferramentas
esto sempre disponveis.

Escolha do
projeto certo
Sob a perspectiva dos desafios que voc
enfrentar, vamos analisar agora o que voc
deve fazer para escolher o projeto certo para
asua organizao.

Escolha do
projeto certo

Como seria o projeto certo


Se a sua organizao est
ansiosa por mudanas e j
aceitou que ser preciso ter uma
estrutura abrangente de
governana de dados para
melhorar a forma como eles
trabalham, provavelmente voc
poder ignorar esta seo.
Por outro lado, se voc est
pensando em um projeto ttico
e especfico, que pode ser
adaptado posteriormente para
a empresa como um todo,
continue lendo.

Valor demonstrvel

Patrocnio

O projeto certo aquele em que o


valor compartilhado de maneira
igual entre a TI e a unidade de
negcio que voc est tentando
ajudar. Isso significa proporcionar
um valor claro para um
departamento, uma unidade de
negcio ou um grupo, de forma
que eles possam ver.

Os executivos que aderirem


sua viso sero essenciais para
o sucesso do projeto. Os projetos
de Big Data precisam de
defensores e patrocinadores em
altos cargos, que estejam
dispostos a defender o trabalho
que voc est fazendo.

O projeto certo tem estes quatro


componentes.

13 | O grande livro de Big Data da Informatica

Portanto, se voc sabe que


pode construir anlises
excelentes para a logstica,
mas o nico executivo que aderiu
foi o gerente de fbrica, pense
novamente. Se o marketing o
seu defensor, trabalhe para
apoiar os requisitos de anlise
de marketing. No d para
forar ningum a mudar. Siga a
influncia e extraia o mximo de
valor possvel.

Escolha do
projeto certo

Como seria o projeto certo


3

Um efeito de jogo de boliche


A importncia estratgica do seu
primeiro projeto ttico vital.
Alm de provar, sem sombra de
dvida, que o Big Data pode
ajudar a unidade de negcio
que voc est apoiando, bom
se certificar de que o valor possa
ser comunicado facilmente para
a empresa em geral.

Habilidades transferveis
Depois de ter demonstrado o
valor do Big Data para o seu
departamento de marketing, por
exemplo, ser mais fcil conquistar
a adeso das equipes de logstica
que talvez estejam reticentes.

Portanto, ao escolher o seu


primeiro projeto, faa isso de
maneira estratgica.

14 | O grande livro de Big Data da Informatica

Como dissemos no ltimo ponto,


preciso que o valor do seu primeiro
projeto ajude a convencer os
outros departamentos da empresa.
Para isso, preciso se certificar
de que voc pode aprender as
habilidades, as capacidades e as
lies certas do seu primeiro
projeto. Mais enfaticamente,
preciso garantir que tudo isso
seja documentado para que voc
possa transferir conhecimento para
o prximo projeto. Lembre-se, se a
sua meta o sucesso, ento voc
j est se preparando para futuros
projetos.

Portanto, prepare-se para


dimensionar, de modo que voc
possa lidar com mais projetos no
futuro. No se trata apenas de
dimensionar o seu cluster. Tratase de dimensionar habilidades
eoperaes. Voc vai precisar
encontrar mais especialistas de
Java/Hadoop ou encontrar
maneiras de extrair mais dos
recursos que j tem.

Escolha do
projeto certo

Considere o impacto
Quando for escolher qual ser
oseu prximo projeto, voc
tambm ter que pensar em como
isso afetar a organizao.
H trs aspectos gerais que
devem influenciar a sua deciso de
buscar o projeto certo de Big Data.

1
Custo e interrupo
No nvel mais bsico, o custo do
projeto se baseia no tempo e no
dinheiro que sero necessrios
para torn-lo realidade. Na
verdade, preciso considerar
tambm a possvel interrupo
que isso causar.

Outras vezes, est relacionada


com a tecnologia e as habilidades
ou seja, quando voc precisa
integrar novas tecnologias
infraestrutura existente e
reorganizar ou atualizar as
capacidades para fazer isso.

s vezes, a interrupo
processual por exemplo,
quando as unidades de negcio
so usadas para armazenar os
dados e no se sentem vontade
em abrir mo do controle deles
para uma estrutura centralizada
de governana de dados.

Seja qual for o caso, voc deve


prever, reconhecer e certificar-se
de que quer minimizar a
interrupo ou informar por que
isso importante.

15 | O grande livro de Big Data da Informatica

Escolha do
projeto certo

Considere o impacto
2

Cronograma de benefcios e
impacto
Ao considerar o incio de
diferentes projetos, a tendncia
que voc se volte aos que
podem oferecer o mximo de
impacto e melhoria aos negcios.
Mas tambm importante
considerar a natureza do
impacto nos negcios. O projeto
proporcionar a maior parte do
valor no curto ou no longo prazo?

Recursos e restries
Mais importante: quando os
usurios de negcios vero os
resultados nos negcios? Por
exemplo, voc poderia introduzir
o gerenciamento de dados
mestres no data warehouse e
melhorar radicalmente a eficincia
de Business Intelligence. Mas esse
valor s ser sentido quando os
analistas de negcios perceberem
que no precisaro limpar os
dados financeiros novamente.

16 | O grande livro de Big Data da Informatica

Tendo em conta a anlise dos


dois ltimos fatores, considere
os recursos sua disposio.
Ns abordaremos isso com
mais detalhes posteriormente.
Por enquanto, basta lembrar
que, naturalmente, voc quer
que o seu projeto oferea mais
retorno do que o dinheiro
investido.

Atingir essa meta funciona nos


dois sentidos. Por um lado, voc
tem como meta o mximo
impacto nos negcios. Mas
tambm preciso ser estratgico
na hora de gastar o oramento.
Embora seja tentador construir
uma equipe de cientistas de
dados similar equipe do
Google, h realmente recursos
suficientes para tanto? Fazer
escolhas inteligentes sobre as
ferramentas e o nmero de
funcionrios ser fundamental
para o sucesso do seu projeto.

Escolha do
projeto certo

Projetos tticos de Big Data:


Alguns exemplos
H uma grande variedade
de aplicativos para Big Data.
Por mais emocionante que seja,
isso tambm se torna um pouco
assustador para as pessoas que
no tm certeza quanto ao
projeto certo para comear. Aqui
est uma lista de projetos tticos
de Big Data que vimos nossos
clientes empreenderem.

Financeiro
Anlise de
risco e portflio
Recomendaes
de investimento

Fabricao
Se voc ainda no tem certeza
sobre qual projeto deve ser
iniciado primeiro pela
organizao, considere os
seguintes exemplos para ter uma
ideia melhor do que o Big Data
pode oferecer para a sua empresa.

17 | O grande livro de Big Data da Informatica

Programas de
veculos
conectados
Manuteno
preditiva

Varejo

Mdia

Envolvimento
de clientes
proativos
Servios baseados
em localizao

Rastreamento
de comportamento
em jogo
Opes de vendas
cruzadas e
adicionais

Assistncia mdica

Setor pblico

Previses de
resultados de
pacientes
Custo total do
tratamento
Descoberta de
medicamentos

Seguro sade
Intercmbios
Otimizao
tributria
Deteco de
fraudes

Escolha do
projeto certo

Projetos tticos de Big Data:


Alguns exemplos
O que alguns de nossos clientes
buscam
Confira o modo como alguns de
nossos clientes descrevem seus
esforos especficos. Este o tipo
de foco que voc deve buscar.

U
 ma grande empresa de
tecnologia no Vale do Silcio
tem como objetivo economizar
mais de US$ 10 milhes em
custos do data warehouse que
no para de crescer utilizando
uma combinao de Hadoop
e uma tecnologia tradicional
de data warehouse para
diminuir o crescimento do
custo total por terabyte.
U
 m grande fabricante na rea
de transportes est buscando
reduzir a taxa de consumo de
combustvel de seus veculos
em 1% ao longo dos prximos
10 anos. Ele tambm pretende
reduzir as emisses txicas de
carbono aumentando os
perodos de manuteno em
10% e melhorando a
quilometragem em 1%.

18 | O grande livro de Big Data da Informatica

U
 m fabricante envolvido com
locomotivas pretende liberar
uma milha adicional por hora
em rotas dirias para que seus
clientes possam economizar
at US$ 200 milhes por ano.
U
 ma empresa global de
servios de pagamentos est
tentando aumentar os negcios
digitais em 30% atravs do
aumento da personalizao
do cliente, tudo parte de uma
estratgia de Big Data
denominada otimizao
omni-channel de varejo.
Essas so algumas grandes
vitrias para qualquer equipe
de Big Data.

Escolha do
projeto certo

A jornada bsica do Big Data


Se voc estiver pronto para
construir as bases para uma
abordagem de Big Data para
toda a empresa, os trs passos
seguintes sero essenciais para
a sua jornada.
Na verdade, mesmo que esteja
planejando apenas alguns
projetos tticos de Big Data,
necessrio considerar estes trs
passos. Cada um essencial
para a integridade fundamental
da organizao centrada em
dados. Na verdade, para obter
o mximo custo/benefcio, siga
estas etapas na ordem.

1
Otimizao do data warehouse
Isso implica optar pelo
armazenamento e
processamento de dados na
plataforma mais econmica.
Muitas vezes, isso comea com
a retirada de dados brutos ou
pouco usados e de cargas de
trabalho de ETL do hardware
caro de data warehouse.

19 | O grande livro de Big Data da Informatica

O objetivo evitar atualizaes


onerosas do seu data warehouse
e comear a usar hardware
eestruturas de computao
distribuda mais econmicos,
como o Hadoop, para que voc
esteja preparado para lidar com
o volume, a variedade e a
velocidade do Big Data.

Escolha do
projeto certo

A jornada bsica
do Big Data
2

Um lago de dados gerenciados


Um lago de dados gerenciados
um local nico para gerenciar
a oferta e a demanda de todos
os seus dados. A palavra-chave
aqui gerenciar. O objetivo
converter a confuso
multiestruturada em informaes
confiveis e seguras, adequadas
sua finalidade.

Inteligncia operacional
em tempo real
Isso significa criar um lago
de dados que refine, governe
e domine os dados. Porm,
preciso ter uma viso antecipada
muito boa para chegar l, pois
necessrio incorporar polticas de
governana de dados e processos
estratgicos rigorosos. Sem eles,
o lago corre o risco de se
transformar basicamente em
um pntano de dados.

Aqui, voc cria as tecnologias


(interfaces de envolvimento,
aplicativos que consomem muitos
dados e anlises) necessrias
para acessar, analisar e entregar
todos os dados. Os aplicativos
criados aqui devem ser fceis de
usar e entregar as informaes
que os usurios precisam.
Pode ser uma interface para os
representantes de atendimento
ao cliente que monitoram o
comportamento dos clientes
atravs de vrios canais e
identificam aqueles com maior
probabilidade de rotatividade
nas prximas duas semanas.

20 | O grande livro de Big Data da Informatica

Escolha do
projeto certo

Uma jornada de trs passos


Como j dissemos, para obter
a melhor relao custo/benefcio,
recomendamos seguir trs passos,
na ordem apresentada.
Otimizao do data warehouse
Reduza os custos de
infraestrutura e reforce
a arquitetura da empresa.

21 | O grande livro de Big Data da Informatica

Lago de dados gerenciados


Crie um nico local para
gerenciar a demanda
e a oferta de dados.

Anlise em tempo real


Entregue aplicativos avanados
que forneam as informaes
de que as pessoas precisam.

Escolha do
projeto certo

A jornada bsica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais
At mesmo projetos bsicos
devem ser especficos sobre o que
esto tentando construir. Embora
a especificidade aqui talvez no
seja relacionada aos custos e ao
tempo economizados, ela se
aplica aos limites do que est
sendo exatamente construdo.
Considere os seguintes exemplos
de projetos de infraestrutura de
Big Data dos nossos clientes.

U
 ma organizao global que
conduz centenas de milhes
de transaes financeiras em
centenas de pases construiu
um hub de dados de toda a
empresa. O objetivo fazer
aanlise do Big Data e
identificar as principais
macrotendncias e padres
na interao com os clientes.
U
 ma grande empresa de
tecnologia construiu uma
anlise em nuvem de toda
a empresa para reduzir o tempo
de introduo no mercado de
produtos orientados por dados,
incluindo novos conjuntos de
dados em anlises a serem
usadas nas unidades de
negcio.

22 | O grande livro de Big Data da Informatica

U
 ma organizao de
consultoria financeira global
criou uma infraestrutura lgica
de data warehouse para
garantir a disponibilizao de
informaes consistentes em
todas as plataformas padro
(incluindo Hadoop, bancos de
dados operacionais e data
warehouses tradicionais) que
esto sendo usadas pela
organizao.
Em resumo: Grandes jogadas
causam grandes impactos, mas
exigem as bases certas.

Parte B:
Sua estratgia
Agora vamos ser prticos e analisar
os requisitos especficos para o seu
prximo (ou primeiro) projeto de Big Data.

Voltar para Contedo

23 | O grande livro de Big Data da Informatica

<

598
55mph

Defina as
suas metas

276m
70mph

101m
75mph

Pegue o lpis. Como j dissemos, a causa


nmero um de falhas em projetos de Big Data
a falta de objetivos claros. Agora, precisamos
garantir que o projeto que voc tem em mente
no se perca em ambiguidades.
501m
69mph

411m
67mph

136m
72mph

Defina as suas
metas

As metas de negcios
Vamos comear com os
negcios, porque esses
objetivos devero ter
precedncia sobre as
metas de TI se voc
quiser total apoio para
o seu projeto.

Seja o mais especfico possvel


ao estabelecer as metas de
negcios a serem alcanadas
pelo projeto. E lembre-se de
estabelecer metas cujo impacto
seja mensurvel.
Por exemplo, no caso da interface
de servio ao cliente que prev
a rotatividade de clientes, as metas
para esse projeto no devem ser
listadas de forma vaga, como, por
exemplo, melhorar a experincia
do cliente.

25 | O grande livro de Big Data da Informatica

Quanto mais claras forem suas


metas, maiores sero suas
chances de atingi-las. Uma meta
superfocada vale mais que cinco
metas vagas.

Defina as suas
metas

As metas de negcios
Liste, em ordem de importncia, as metas do seu
projeto de Big Data que digam respeito aos
negcios e aos usurios de negcios. Fique
vontade para inserir menos ou mais metas.
Por exemplo, reduzir a rotatividade de clientes

Qual deve ser a durao do


seu projeto de Big Data?

Defina intervalos de tempo mnimo e mximo para


cada meta a ser alcanada.
Por exemplo, de trs a seis meses

Ns trabalhamos com clientes


que entregaram projetos tticos
em menos de trs meses.
E trabalhamos com clientes que
passaram trs anos produzindo
programas bsicos.

Agora, para cada meta, escreva uma medida de


sucesso que possa ser usada para determinar se a
meta foi alcanada. Idealmente, essas medidas
devem ser mtricas disponveis ou seus respectivos
clculos.
Por exemplo, reduzir a taxa de rotatividade mdia
mensal em X%

26 | O grande livro de Big Data da Informatica

Seu projeto de Big Data deve


demorar o tempo que for
necessrio para que seja
plenamente efetivo. Em nossa
experincia, o mbito do projeto
determina o horizonte de tempo.

Para projetos mais longos, lembrese de ter como objetivo demonstrar


o valor do projeto a cada seis
meses. Se adotar uma abordagem
gil, recomendvel mostrar as
diferentes fases e marcos como
projetos menores.
Uma coisa certa: voc no deve
tentar adivinhar esse prazo. Estime o
tempo de entrega com base em sua
experincia e na experincia de
outras pessoas que tenham
realizado anteriormente projetos
semelhantes. Se no souber para
quem pedir orientao, voc sempre
poder entrar em contato conosco.

Defina as suas
metas

Metas de TI
Agora vamos analisar as metas
de TI relacionadas ao seu projeto.

Liste, em ordem de importncia, as metas do seu


projeto de Big Data que digam respeito TI.
Fique vontade para inserir menos ou mais metas.
(Lembre-se: se o objetivo do seu
Por exemplo, estabelecer processos para coleta,
projeto for melhorar as condies limpeza, criao de dados mestres e armazenamento
de trabalho ou agiliz-lo, ser
de dados de clientes globais em tempo real, dados
bem difcil sensibilizar os usurios de utilizao de cartes de crdito, dados de grfico
de negcios. Por isso, as metas de sociais e indicadores de taxa de rotatividade
TI devem ser comunicadas junto
com as metas que os usurios de
negcios esto esperando.)

Pare, colabore e escute


Escrevemos este livro para que
voc possa iniciar seu projeto de
Big Data, no importando se voc
trabalha na rea de negcios ou
em TI. Em ambos os casos, no use
adivinhaes para suas metas.
Se precisar de orientaes
especficas sobre quais metas
escolher, procure um parceiro com
a experincia necessria e comece
a trabalhar em colaborao agora.
O sucesso do seu projeto depende
de colaboraes estratgicas.

27 | O grande livro de Big Data da Informatica

Defina as suas
metas

Metas de TI
Defina intervalos de tempo mnimo e mximo para
cada meta a ser alcanada.
Por exemplo, de dois a quatro meses

28 | O grande livro de Big Data da Informatica

Agora, para cada meta, escreva uma medida de


sucesso que possa ser usada para determinar se
a meta foi atingida. Idealmente, essas medidas devem
ser mtricas disponveis ou seus respectivos clculos.
Por exemplo, a taxa de previso de rotatividade
exata de X%

Defina as
necessidades
de dados
Agora que j definimos as metas especficas dos
seus esforos de Big Data, vamos direto ao ncleo
do projeto: os dados em si. Seja qual for o projeto,
voc ter que pensar de maneira estratgica sobre
quais informaes so necessrias, quais conjuntos
de dados atendem a essa necessidade, como obter
esses dados e como us-los.

Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Primeiro, vamos analisar
a finalidade mais bsica do
seu projeto de Big Data: as
informaes que voc est
tentando fornecer organizao.
Responda s seguintes perguntas
o mais especificamente possvel.

Para atingir as metas de negcios descritas


anteriormente, o que os usurios de negcios precisam
saber para tomar uma deciso fundamentada?
Por exemplo, quais dos clientes mais valiosos so
suscetveis rotatividade e quais comportamentos
se correlacionam rotatividade

30 | O grande livro de Big Data da Informatica

Para proporcionar esse conhecimento, quais dados


podem ser usados?
Por exemplo, o histrico de compras do cliente, os
dados de reviso, a taxa de compras, a taxa de
desistncia, a taxa de rejeio, a qualidade do
atendimento ao cliente

Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Quais sistemas de origem contm esses conjuntos
de dados?
Por exemplo, registros de atendimento ao cliente,
mtricas de desempenho do produto, banco de
dados de atividade do cliente, gerenciamento de
dados mestres de clientes

31 | O grande livro de Big Data da Informatica

Alm dos dados j mencionados, h outras


informaes que podem proporcionar contexto ou
valor adicional s suas anlises?
Por exemplo, dados de pesquisa de atendimento
ao cliente, anlise de concorrentes, dados
meteorolgicos, dados sociais

Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Entre os conjuntos de dados que no posso acessar
atualmente, quais deles podem conter dados
contextuais adicionais?
Por exemplo, dados sociais de terceiros, dados de
mercado de terceiros, dados meteorolgicos

A busca por dados obscuros


Ao considerar os conjuntos de
dados aos quais voc no tem
acesso, no se limite aos dados
externos sua organizao.
O Gartner descobriu que a
maioria das empresas usa apenas
15% dos seus dados . A Appfluent,
uma empresa que faz anlise
estatstica sobre a utilizao de
data warehouse, descobriu que
entre 30% a 70% dos dados de
um data warehouse esto inativos.
2

O restante fica escondido em silos


de difcil alcance e localizao,
cujos custos de utilizao so
altos, em arquivos legados e em
repositrios de dados. Isso no
seria um problema se voc j no
estivesse pagando para
armazenar todos esses dados.
Ao procurar os dados de que
precisa, vale a pena comear por
aqueles que a sua organizao
j tem.
2.

32 | O grande livro de Big Data da Informatica

 ite do Gartner: www.gartner.com/technology/topics/


S
big-data.jsp

Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
Aps esboar os dados que vai
procurar, voc ter uma viso mais
clara dos desafios especficos do
Big Data. Em especial, h cinco
elementos-chave que devem ser
considerados antes de avanar
muito, pois eles determinaro
o que precisar ser feito para
cada conjunto de dados, bem
como para o conjunto de dados
de Big Data.

1
Prepare-se para o volume
Voc ter que se preparar para
lidar com a enormidade dos
dados que sero necessrios.
Usando dimenses, classifique
os dados com base nos seus
respectivos valores (por exemplo,
transaes de clientes), uso
(frequncia de acesso), tamanho
(gigabytes, terabytes),
complexidade (dados de
mquinas, dados relacionais,
vdeo etc.) e quem tem permisso
para acess-los (apenas seus
especialistas de dados ou qualquer
usurio ocasional de negcios).

33 | O grande livro de Big Data da Informatica

Um inventrio completo
e organizado dos seus dados
ajudar a determinar como
gerenciar tudo isso. Avalie
sua capacidade atual de
armazenamento e
processamento e procure as
formas mais econmicas e
eficientes de torn-la
dimensionvel.

Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
2

Responsabilize-se pela variedade


O aspecto mais desafiador do
Big Data a grande variedade
de formatos e estruturas que voc
ter que conciliar em suas
anlises. Ser preciso integrar
vrias fontes se quiser incluir
novos tipos e estruturas de dados
(sociais, sensores, vdeo) s
fontes com as quais voc j est
acostumado (relacionais,
mainframes legados).

Administre a velocidade
Tentar codificar manualmente
cada integrao to
complicado que poderia
consumir todo o tempo e os
recursos disponveis. Aproveite
ao mximo as ferramentas de
integrao e qualidade de dados
disponveis para acelerar o
processo para tarefas mais
importantes.

34 | O grande livro de Big Data da Informatica

A combinao dos dados de


streaming em tempo real e dos
seus dados histricos geralmente
aumenta a capacidade de
previso da anlise. Assim,
alguns dos dados que voc
deseja s podero ser teis se
estiverem constantemente fluindo
nos sistemas.

Na verdade, a maioria das


anlises em tempo real precisa se
basear em dados de streaming
muitas vezes, a partir de
diferentes fontes, em diferentes
formatos. Prepare seu projeto
com uma tecnologia analtica de
streaming e uma infraestrutura
lgica para gerenciar todos os
dados.

Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
4

Garanta a veracidade
No importa o grau de
importncia de suas anlises,
elas no valero nada se as
pessoas no puderem confiar
razoavelmente nos dados que
conseguirem. Quanto mais
dados voc analisar, mais
importante ser manter um alto
nvel de qualidade dos dados.

Pense na conformidade
Para que os dados sejam
adequados finalidade, voc
precisa conhecer essa finalidade.
Se um especialista de dados
estiver procurando padres em
dados agregados do cliente,
a preparao necessria ser
mnima. Por outro lado, os dados
de relatrios financeiros e da
cadeia de suprimentos devero
ser altamente editados, limpos
e certificados para obter preciso
e conformidade.

Os vrios conjuntos de dados com


os quais voc lidar viro com
diferentes condies e requisitos de
segurana. Para cada conjunto de
dados, preciso considerar o que
ser necessrio para torn-los
annimos com base em polticas
de segurana.

Quantidades imensas de dados


iro se proliferar por toda
a empresa em centenas de
repositrios de dados. Entenda
onde os dados confidenciais
Crie categorias baseadas na
residem e lembre-se de protegquantidade de preparao
los na fonte por meio de
necessria, o que abrange desde criptografia e, em seguida,
dados brutos at um repositrio
controle quem tem acesso a eles.
de dados mestres altamente
editado, contendo dados limpos,
confiveis e fidedignos.
35 | O grande livro de Big Data da Informatica

Alm do arquivamento seguro e


inteligente de dados confidenciais,
faa o mascaramento dos dados
com regras predefinidas sempre
que migr-los ou inseri-los nos
ambientes de desenvolvimento
e teste.
Aplique essas cinco consideraes
a cada conjunto de dados que
administrar e, assim, voc estar
preparado mais realistamente
para o grande desafio relacionado
aos dados.

Parte C:
Sua cadeia de
suprimentos
simples de Big Data
Os mtodos tradicionais de Business Intelligence e data
warehouse no dimensionveis o suficiente para atender s
necessidades das iniciativas de Big Data. Agora, veremos como
voc pode dimensionar a equipe, os processos e a infraestrutura.
Voltar para Contedo

36 | O grande livro de Big Data da Informatica

<

Sua
equipe
Sua equipe de Big Data representa o seu maior
desafio e a sua maior oportunidade. Voc
precisa de um bom equilbrio entre pessoas que
entendem as metas de negcios e pessoas que
podem executar suas exigncias tcnicas.

Sua
equipe

Cinco lies essenciais para


a criao de equipes
A maioria das
organizaes subestima
o nvel de habilidade
necessrio aplicao
bem-sucedida de uma
nova tecnologia como
o Hadoop.

As estruturas de dados
distribudos so muito difceis de
gerenciar. Das habilidades Java
necessrias para desenvolver em
Hadoop s novas habilidades
em cincias de dados a serem
contratadas, ser necessrio
obter muitas novas habilidades
para que o projeto realmente
3
decole.

Quando comear a montar sua


equipe, lembre-se de incorporar
as seguintes lies estratgia
de contratao.

Hadoop, Python e NoSQL lideram o grupo para tarefas


de Big Data", InfoWorld, 5 de maio de 2014: www.infoworld.com/t/
it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884

3.

38 | O grande livro de Big Data da Informatica

Sua
equipe

Cinco lies essenciais para


a criao de equipes
1

Use as habilidades dos


profissionais que voc contratou
Um dos maiores erros que as
empresas cometem quando
contratam especialistas de dados
e analistas quantitativos pedir
que faam o trabalho pesado.
Quando os seus recursos mais
qualificados gastam todo o
tempo em integraes de dados
que exigem codificao manual
e na limpeza de dados, voc no
s os deixa frustrados, como
tambm no aproveita as
habilidades que foram to
difceis de encontrar.

Pense estrategicamente sobre


a composio da equipe
Concentre as habilidades raras
em tarefas que realmente
precisam delas. Voc no quer
que os seus melhores profissionais
peam demisso e certamente
no quer que eles percam tempo
com um trabalho que pode muito
bem ser feito com ferramentas.

Se tudo der certo, o projeto


crescer em escopo e recursos.
Pense de maneira estratgica
agora e poupe-se da difcil
conscientizao de que voc no
pode executar determinados
processos com a rapidez
necessria porque h um nmero
limitado de pessoas com as
habilidades necessrias, at
mesmo no Vale do Silcio.
Se o seu projeto crescer em
escopo, quais so as competncias
que voc pode razoavelmente
esperar encontrar a tempo de
atender s suas necessidades? Por
exemplo, especialistas de dados
so infinitamente mais difceis de
encontrar, treinar e contratar do
4
que desenvolvedores.

O equilbrio da sua equipe


fundamental. Voc est
procurando a combinao certa
de experincia em gerenciamento
de dados conquistada com
trabalho duro e do entusiasmo
para aprender novas ferramentas.
Alm disso, preciso encontrar
o equilbrio entre pessoas com
habilidades tcnicas e aquelas
com a experincia de domnio
necessria para construir os
modelos certos.

Big Datas High-Priests of Algorithms (Big Data - Os bispos dos


algoritmos), Wall Street Journal, 8 de agosto de 2014:
http://online.wsj.com/articles/academic-researchers-findlucrative-work-as-big-data-scientists-1407543088

4.

39 | O grande livro de Big Data da Informatica

Sua
equipe

Cinco lies essenciais para


a criao de equipes
3

Alinhe as metas do seu projeto


no incio e depois as comunique

Um dos erros mais comuns que


as empresas cometem ao
contratar uma nova equipe
esquecer de comunicar as
verdadeiras metas do projeto.
Da primeira entrevista at o
trabalho em si, preciso ficar
claro o que voc est tentando
oferecer aos usurios de
negcios. Potencialize o apoio
dos executivos para divulgar a
misso e compartilhar histrias
de sucesso, bem como
problemas.

Quando a sua equipe aumenta,


a necessidade de gerenci-la
tambm aumenta
Sem um controle firme do valor
comercial do seu projeto, os
novos contratados correm o risco
de achar que s precisam pensar
nas metas de TI do projeto.

40 | O grande livro de Big Data da Informatica

Diferentemente de uma nova


tecnologia que pode ser
implantada, implementada e
integrada de forma objetiva,
o novo pessoal precisa se
acostumar ao local de trabalho,
ao trabalho que esto fazendo
e s razes por que esto
fazendo esse trabalho. No
importa se voc ou outra
pessoa: algum precisa abraar
o desafio do gerenciamento que
uma nova equipe exige.

Elementos como cultura


e coerncia no podem ser
subestimados. Pense muito e com
calma sobre como integrar as
novas contrataes em seus
processos. Talvez voc no
consiga trein-los para as
habilidades, mas com certeza
pode ajud-los a serem melhores
integrantes da equipe.

Sua
equipe

Cinco lies essenciais


para a criao de equipes

A importncia de ser
estratgico

5
Sua equipe no pode
ficar parada
As tecnologias de Big Data esto
surgindo todos os dias. E as que
j existem esto evoluindo
rapidamente. Este um momento
bastante emocionante para
as empresas que so corajosas
o suficiente para adotar as
prticas recomendadas
anteriormente. Mas representa
tambm o desafio definitivo de
comear antes dos concorrentes.

As habilidades da equipe
precisam evoluir com a mesma
velocidade das mudanas que
esto ocorrendo no mundo.
A boa notcia que o que mais
motiva os melhores profissionais
o desafio de chegar primeiro.
O desafio est em oferecer
o treinamento e o debate
necessrios para continuar
aumentando as habilidades
dessas pessoas e as suas
prprias.

Uma escolha importante que voc


far vrias vezes a possibilidade
de criar seus recursos usando
ferramentas automatizadas
ou integraes manuais.
A codificao manual lhe oferece
um controle completo e preciso
sobre o que voc est construindo.
Muitas vezes, isso inestimvel
e necessrio; por exemplo, quando
voc escreve um script complexo
para extrair metadados de uma
forma que ainda no possvel.
As ferramentas, por outro lado,
oferecem mais agilidade
e a capacidade de repetir o mesmo
processo de forma sustentvel.
Para tarefas como a integrao
e a qualidade dos dados, isso
essencial, porque significa que voc
no est forando os seus analistas
e especialistas superinteligentes
para fazer o trabalho pesado.
Seja realista sobre os seus
recursos. Se no pode montar uma
equipe to grande e genial como
a do Google, no desperdice seus
escassos recursos tentando.

41 | O grande livro de Big Data da Informatica

Sua
equipe

Implemente a governana de dados


Se (e quando) estiver montando um
trabalho de Big Data mais bsico,
coloque em prtica a estrutura
processual para governana de
dados. Na verdade, mesmo que
o seu projeto de Big Data tenha
como meta entregar valor para um
nico departamento, considere
a criao de uma pequena equipe
de governana de dados para poder
aprender a lidar com os desafios
exclusivos desse tipo de grupo.

Essencialmente, a equipe de
governana de dados o quadro
formal de executivos responsvel
por supervisionar a abordagem
de dados da empresa. Mas
tambm deve incluir responsveis
pelo gerenciamento de
dados pessoas de
departamentos especficos que
tenham a tarefa de gerenciar os
dados provenientes de uma
unidade de negcio especfica.
De fato, alguns de nossos
clientes atribuem funes de
responsabilidade pelo
gerenciamento de dados com
base no domnio de dados. Isso
significa que uma pessoa fica
responsvel pelos dados de
produtos, enquanto outra fica
responsvel pelos dados de
clientes e assim por diante.

42 | O grande livro de Big Data da Informatica

Sua
equipe

Implemente a governana de dados


Tenha como meta criar processos
capazes de garantir que a sua
estrutura de governana de dados
seja mais uma ajuda do que uma
dificuldade. Trabalhe ativamente
para assegurar que isso no
se transformar em sobrecarga
burocrtica para tanto, garanta
que todos estejam empenhados
em atingir os mesmos objetivos,
e nos mesmos prazos.
Sua estrutura de governana de
dados deve conter estas cinco
caractersticas.

Interfuncional

Comunicativa

Um conselho de governana
de dados formado por pessoas
diferentes com funes
semelhantes ser ineficaz.
O objetivo criar um conselho que
possa representar as opinies e as
necessidades exclusivas de cada
unidade de negcios que o seu
projeto de Big Data dever apoiar.

Sem uma boa comunicao entre


as funes, os departamentos
e os domnios, o projeto pode
se perder na burocracia e nos
mal-entendidos. Isso acontece
com mais frequncia do que
se imagina. Certifique-se de que
todas as preocupaes sejam
resolvidas ou tratadas
adequadamente.

43 | O grande livro de Big Data da Informatica

Sua
equipe

Implemente a governana de dados


3

Eficiente

Comprometida

Centralizada

O seu processo interfuncional no


deve ser uma barreira. Ser preciso
ter bastante agilidade para que
o projeto de Big Data tenha xito.
Portanto, crie regras de relatrios
de automao e exceo sempre
que possvel e adote ferramentas
de colaborao para manter
os canais de comunicao abertos
e adequados.

Lembre-se de comunicar com


eficincia as metas principais do
seu projeto e certifique-se de que
todos os envolvidos na estrutura
de governana de dados estejam
comprometidos com essas metas.
Metas em comum ajudam a guiar
o seu pensamento de governana
e as suas decises.

O maior desafio de uma estrutura


de governana de dados
quando voc precisa priorizar
as metas de uma unidade de
negcios sobre as outras que
esto sendo representadas no
conselho. Garanta que as suas
decises contemplem o benefcio
a longo prazo de todo o conselho,
mesmo que isso signifique
benefcios de curto prazo para
uma nica unidade de negcio.

44 | O grande livro de Big Data da Informatica

Sua
equipe

As habilidades que voc tem


e aquelas de que precisa
Hora de pegar o lpis novamente.
Agora que voc conhece as vrias
ciladas e oportunidades subjetivas
que a nova equipe apresentar,
vamos analisar como essa
equipe na realidade.

A pgina a seguir lista funes


de Big Data com base em cargos
para os quais j vimos nossos
clientes contratarem.
Considerando o pessoal
realmente disponvel e a durao
esperada para o projeto
(conforme inserido na seo
iniciada na pgina 24), liste
quantas pessoas voc precisa
contratar.

45 | O grande livro de Big Data da Informatica

Sua
equipe

A funo

Especialista de dados

Algum j
pode executar
essa funo?
ou

Eu preciso
contratar algum
para essa funo

Com base na
quantidade de tempo
disponvel, eu preciso
contratar X pessoas

ou

Especialista em domnios
Analista de negcios
Analista de dados
Engenheiro de dados

A necessidade de um
pensamento integrado

Administrador de banco de dados


Arquiteto corporativo
Arquiteto de soluo de negcios
Arquiteto de dados
Responsvel pelo gerenciamento de dados
Desenvolvedor de ETL (integrao de dados)
Desenvolvedor de aplicativos
Desenvolvedor de painis de controle
Modelador de estatsticas
Outro
Outro
Outro
Outro
Outro
46 | O grande livro de Big Data da Informatica

Quando sair em busca de novos


integrantes para a equipe, no se
limite a pessoas com as qualificaes
adequadas. No se engane:
encontrar pessoas com as
qualificaes adequadas j um
desafio em si. Mas voc tambm
precisa buscar pessoas que tenham
vontade de sintetizar as metas de
negcios e as capacidades tcnicas.
Cada vez mais, ouvimos de clientes
sobre como importante que
as pessoas que se unem aos seus
projetos de Big Data possam ser
capazes de entender a realidade
dos negcios e trabalhar com uma
cincia de dados complexos. Esse
tipo de pensamento integrado
importantssimo e difcil de encontrar.
Vale a pena investir em treinamento.

10356
98276

Suas
ferramentas

41523

10392
60303

Como j discutimos vrias vezes, as ferramentas


utilizadas desempenham uma funo estratgica
na execuo do seu projeto de Big Data. Nesta
seo, vamos analisar as ferramentas que voc
tem e aquelas de que precisa.

18456

63002

15234

45623

Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Em nossa experincia, as seguintes
ferramentas so essenciais para a
arquitetura necessria aos projetos
de Big Data (discutiremos
a arquitetura em mais detalhes
posteriormente). Claro que as suas
metas e os seus recursos devem
determinar a combinao das
tecnologias necessrias ao seu
projeto especfico.
Veja esta lista de ferramentas
e coloque um para as
mais importantes e mais
estrategicamente relevantes
ao seu projeto especfico.

Ingesto de dados
O processo de consumir os
dados necessrios de forma
adequada, eficiente e metdica.
Carga de lotes
Voc acessa todos os tipos
de dados de que precisa
e dimensiona com eficincia
o desempenho da carga de
lotes nos repositrios de dados?
Captura de dados de mudanas
Voc captura as alteraes
feitas nos dados dos sistemas
de origem sem afet-los?

48 | O grande livro de Big Data da Informatica

Fluxo de dados
Voc coleta dados de forma
confivel em tempo real e os
transmite nos repositrios de
dados?
Arquivamento
Voc arquiva e compacta
dados que no so usados
com frequncia, garantindo
fcil acesso aos dados
arquivados, se necessrio?

Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas
e coloque um para as
mais importantes e mais
estrategicamente relevantes
ao seu projeto especfico.

Gerenciamento de dados
Todas as polticas, processos
e prticas necessrias para
gerenciar adequadamente
a eficcia, a preciso,
a confiabilidade e a
disponibilidade dos dados.
Integrao de dados
Voc consegue preparar
e consolidar vrias estruturas
e fontes em um conjunto de
dados consistente para anlise?
Qualidade de dados
Voc consegue, de forma
confivel, limpar os dados,
deduplicar e remover os erros?

49 | O grande livro de Big Data da Informatica

Segurana de dados
Voc descobre e protege os
dados em todos os repositrios
de dados, atribuindo para isso
regras sobre uso, acesso
e permisses?

Estrutura distribuda de dados


Voc usa tecnologias como
o Hadoop para dimensionar
de forma econmica suas
necessidades de armazenamento
e processamento?

Mquina virtual de dados


Voc consegue criar uma
camada de abstrao para
os dados que combine
vagamente o processamento
de dados no ambiente de
implantao subjacente?

Data warehouse
Voc tem uma tecnologia
de data warehouse que possa
lidar com os requisitos
de desempenho, uso e
dimensionamento para anlises
e integraes de Big Data com
infraestruturas Hadoop?

Gerenciamento de dados mestres


Voc armazena uma verso
consolidada, completa
e fidedigna da verdade para
vrios domnios de dados?

Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas
e coloque um para as
mais importantes e mais
estrategicamente relevantes
ao seu projeto especfico.

Entrega de dados
Processo de envio dos dados
necessrios aos sistemas
e aplicativos que precisam deles.

Hub de integrao de dados


Voc disponibiliza dados usando
uma abordagem como o modelo
de publicao e assinatura para
evitar a proliferao de
integraes ponto a ponto?

Carga de lotes
Voc dimensiona com eficincia
a carga de lotes de dados entre
os sistemas de origem, anlise e
back-end operacionais?

Visualizao de dados
Voc entrega dados dos seus
sistemas sem sobrecarreg-los?

Fluxo de dados em tempo real


Voc oferece fluxo de dados
em tempo real para sistemas
de aplicativos, anlises e
back-end que precisam disso?

Processamento baseado
em eventos
Voc capaz de detectar,
analisar e reagir a ameaas,
oportunidades e outros eventos
crticos de negcios em tempo
real?

50 | O grande livro de Big Data da Informatica

Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas
e coloque um para as
mais importantes e mais
estrategicamente relevantes
ao seu projeto especfico.

Anlise
As ferramentas e os processos
que transformam dados brutos
em insights, padres, previses
e clculos sobre o domnio que
voc est analisando.
Visualizao
Voc pode apresentar dados
e resultados de maneira
a facilitar a compreenso
e o entendimento?
Anlise avanada
Voc consegue aplicar
algoritmos analticos avanados
aos seus conjuntos de dados
para fazer clculos complexos?

51 | O grande livro de Big Data da Informatica

Aprendizado de mquina
Voc consegue aplicar
sofisticados algoritmos de
aprendizado de mquina para
identificar padres e fazer
previses em um nvel para
o qual no tem a largura de
banda manual compatvel?

Entre essas ferramentas


e tecnologias, algumas ferramentas
como a integrao de dados,
a qualidade de dados e o
gerenciamento de dados mestres
so to essenciais sua jornada
de Big Data que realmente no vale
a pena recri-las. O prazo e os
recursos necessrios criao
dessas ferramentas com suas
prprias mos no vale as
preciosas habilidades e horas de
trabalho do seu projeto de Big Data.
Lembre-se das metas do seu
projeto; elas no incluem criar
tudo de maneira personalizada.

Seus
processos
Vamos nos aprofundar nos processos reais de
que voc precisar para lidar com o Big Data.
Seus processos especficos sero exclusivos
para suas metas e necessidades, mas esta seo
pode dar uma viso geral sobre o que esperar
e o que voc aprender.

Seus
processos

Os oito Big Data


Por experincia, podemos dizer
que as metodologias geis so
uma excelente abordagem para
projetos de Big Data. Elas
garantem que voc gerencie
as expectativas, aprenda com os
erros e faa a iterao do caminho
para os melhores processos.
Mesmo assim, a abordagem do
projeto depende inteiramente
de voc e da sua situao.
De qualquer maneira, os oito
passos a seguir se mostraro
essenciais cadeia de
suprimentos do Big Data. No
importa como voc cuide disso.
Voc e a sua equipe devem
estabelecer processos eficazes
para estas etapas.

Acessar os dados

Integrar os dados

Seu primeiro desafio ser adquirir


todos os dados de que precisa.
Em alguns casos, isso implicar
a captura de dados de streaming
e, em outros, significar extrair
dados de um banco de dados.
Configure processos gerenciveis
e que possam ser repetidos para
garantir o armazenamento desses
processos de acordo com o uso
que far deles.

O desafio mais complexo do Big


Data envolve a variedade de
estruturas e formatos de dados.
Para que a sua anlise seja
conduzida de forma sustentvel,
voc precisar configurar um
processo de integrao
e normalizao de todos esses
dados. Idealmente, isso deve
usar um processamento que seja
o menos manual possvel.

53 | O grande livro de Big Data da Informatica

Seus
processos

Os oito Big Data


3

Limpar os dados

Criar dados mestres

Proteger os dados

Para que a sua anlise seja


confivel, preciso garantir
a limpeza dos dados a fim
de eliminar duplicaes, erros,
imprecises e dados incompletos.
O processo deve garantir que
analistas e especialistas mais
qualificados no fiquem o tempo
todo fazendo o trabalho errado.

Uma forma de manter uma fonte


confivel de dados limpos
e integrados estabelecer um
processo de criao de dados
mestres. O objetivo criar uma
coleo avanada de dados
consolidados, organizada por
domnio (como produtos, clientes
etc.) e repleta de insights de Big
Data, e que, assim, possa
alimentar todos os outros sistemas.

Aqui, voc estabelecer dois


processos bsicos. O primeiro
ser sobre como definir as regras
e as prticas de segurana que
cada conjunto de dados exige.
O segundo ser sobre como
detectar dados confidenciais e
mascar-los de forma persistente
ou dinmica para garantir que
essas regras e prticas
recomendadas sejam aplicadas
de maneira consistente.

54 | O grande livro de Big Data da Informatica

Seus
processos

Os oito Big Data


6
Analisar os dados
O processo de anlise depender
dos analistas, das ferramentas
de anlise e das necessidades
relacionadas s metas.
A mentalidade de descoberta
iterativa e melhoria contnua
desempenhar um papel crucial
nesse caso, pois esse processo
dever ficar melhor, mais rpido,
mais barato e mais dimensionvel
ao longo do tempo e com uma
experincia maior.

7
Analisar as necessidades
de negcios
Esta etapa crtica, mas quase
sempre esquecida.
Configure um processo claro
para a anlise das necessidades
dos negcios, mesmo quando
estiver analisando os dados. Isso
muito importante porque, caso
voc desacelere o ritmos dos
negcios, poder isolar seus
esforos e minimizar o impacto
nos prprios negcios.

55 | O grande livro de Big Data da Informatica

8
Operacionalizar o insight
Como j discutimos no incio
deste livro, o impacto do seu
projeto de Big Data nos negcios
precisa ser sentido. Crie
pipelines automatizados para as
respostas que voc encontrar
e os entregue aos usurios de
negcios que mais precisam
deles. Por exemplo, os dados
sobre os clientes com maior
probabilidade de rotatividade
devem ser disponibilizados aos
agentes de atendimento ao
cliente por meio de um painel de
controle. Lembre-se de incorporar
um ciclo de feedback tambm,
assim poder ver como o insight
recebido.

A importncia
da documentao
Tenha como meta dominar esses
oito passos e o seu projeto de Big
Data avanar na direo certa.
O objetivo estabelecer processos
claros, repetveis, dimensionveis
e com melhorias contnuas. Para
isso, a documentao desses
processos e as melhorias contnuas
so vitais para a equipe.
As habilidades, os recursos e as
lies do seu projeto de Big Data
devem ser transferveis e
comunicadas com frequncia.

92

93

Sua
arquitetura

362

40

264

654

Para que a cadeia187


de suprimentos de Big Data 468
seja enxuta e eficaz, preciso garantir que
a arquitetura seja slida e construda de maneira
estratgica. Nesta seo, vamos discutir como
deve ser uma arquitetura de Big Data ideal e como
implant-la a sua em uma abordagem em fases.

78
157

62

61
50

Sua
arquitetura

Primeiros passos: Sua rea restrita


Para comear a criar
a arquitetura do seu
projeto de Big Data,
o ponto de partida mais
lgico a criao de
um ambiente de
desenvolvimento em
uma rea restrita, na
qual voc possa usar
dados de teste para
garantir a viabilidade
da arquitetura. Ao fazer
isso, lembre-se de levar
em considerao as
seguintes lies.

Comece pequeno

Tamanho importante

Comeando com uma rea restrita


bem definida sobre a qual tenha
total controle, voc conseguir
fazer a interao do caminho
para uma implementao mais
bem-sucedida. Comece
a trabalhar o mais rapidamente
possvel e a documentar as lies
aprendidas em cada iterao.

A principal diferena entre a rea


restrita e a implementao real
o ambiente de produo, que
ser muito maior. Isso exigir
um tratamento automatizado para
ingerir, integrar, limpar e distribuir
a sada. Portanto, ser preciso ter
uma estrutura muito mais robusta,
alm de componentes e processos
comprovada e verdadeiramente
confiveis e flexveis em um
ambiente de produo dinmico.

57 | O grande livro de Big Data da Informatica

Sua
arquitetura

Primeiros passos: Sua rea restrita


Faa o mascaramento antes
de testar
Quando as organizaes usam
dados de teste, elas geralmente
usam uma variante dos dados
de produo dinmicos para
garantir que os formatos e as
estruturas representem o ambiente
dinmico. Infelizmente, se esses
dados no forem mascarados
de forma adequada, os dados
confidenciais podero ficar
expostos em um ambiente de teste
totalmente inseguro.

No se perca na traduo
Uma das fontes mais comuns de
atrasos e desvios oramentrios
onerosos dos projetos de Big Data
decorre do fato de que os erros
de codificao manual (que se
perderam na rea restrita) voltam
a assombrar a equipe quando
a arquitetura ativada. Assim, se
voc codificar manualmente partes
significativas da arquitetura,
espere o refatoramento de vrios
cdigos para atender aos
requisitos no nvel de produo
e administre as expectativas
adequadamente. Como
alternativa, use ferramentas de
produtividade e automao para
evitar a necessidade de refatorar
o cdigo e os erros.

58 | O grande livro de Big Data da Informatica

Sua
arquitetura

A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendao para criar
a arquitetura ideal de tecnologia
e processos de Big Data.

Fontes de dados

Ingesto de dados

Bancos de dados relacionais


Mainframe
Documentos e e-mails
Mdia social, dados de
terceiros e arquivos de log
Sensor de mquina
Nuvem pblica
Nuvem privada

Carga de lotes

Captura de
dados de
alteraes
Streaming
de dados
Arquivamento

59 | O grande livro de Big Data da Informatica

Gerenciamento de dados

Entrega de dados

Integrao de dados
Qualidade de dados
Mquina virtual de dados
Segurana de dados
Gerenciamento de dados
mestres
Armazenamento
dimensionvel
(por exemplo, Hadoop)
Data warehouse

Carga de lotes

Hub de
integrao
de dados
Virtualizao
de dados
Processamento
em tempo real
e baseado
em eventos

Aplicativos




Visualizao
Aplicativos mveis
Anlise
Business Intelligence
Painis em tempo real

Seu plano
de projeto
Agora, ns j analisamos todos os aspectos
da sua jornada de Big Data. O prximo passo
usar este plano de projeto como um guia
estrutural para gerenciar um projeto de Big
Data, do lanamento implementao.

Seu plano
de projeto

Seu plano de projeto


Use este modelo de
plano de projeto como
uma estrutura para
documentar os detalhes
e os diferentes elementos
do seu projeto de Big
Data. Depois, use
o documento compilado
como uma maneira
de obter a adeso
necessria do restante
da sua organizao.
Ele tambm ser til
quando voc abordar
parceiros externos.

Estgio 1: A estratgia

Estgio 2: Os dados

Identificar as metas de TI e de negcios

Identificar as informaes necessrias

Definir as medidas de sucesso

Identificar os dados e as origens para entreg-los

61 | O grande livro de Big Data da Informatica

Seu plano
de projeto

Seu plano de projeto


Estgio 3: A cadeia de suprimentos
As pessoas
oo Avaliar as habilidades
necessrias
oo Avaliar as habilidades
existentes
O processo
oo Acessar os dados
oo Integrar os dados
oo Limpar os dados
oo Criar dados mestres
oo Proteger os dados
oo Analisar os dados
oo Analisar as necessidades
de negcios

As ferramentas
oo Computao distribuda
(por exemplo, Hadoop)
oo Qualidade de dados
oo Integrao de dados
oo Gerenciamento de dados
mestres
oo Mascaramento de dados
oo Visualizao
oo Anlise de streaming
oo Anlise
oo Aprendizado de mquina

62 | O grande livro de Big Data da Informatica

Estgio 4: Operacionalizar o insight


Desenvolver painis
Automatizar processos para entrega de dados
Definir um processo de feedback

Seguindo
em frente

Use as listas de verificao,


os princpios e as diretrizes que
descrevemos neste livro para trazer
o potencial do Big Data para
a sua organizao. Seja qual for
o tamanho do seu projeto, agora
temos certeza de que voc estar
melhor equipado para lidar com
os vrios desafios deste projeto.

De muitas maneiras, seu primeiro


projeto de Big Data ser
inesquecvel. A partir dos erros que
podero ocorrer para criar uma
equipe , voc estar pronto para
uma jornada de imenso valor
estratgico para a sua empresa.

Ao navegar e evitar as muitas


ciladas que discutimos, e se mantiver
Lembre-se: seja estratgico em
um forte compromisso com a sua
relao aos seus recursos e mantenha
viso desse projeto, voc ser capaz
um foco preciso no desenvolvimento
de processos e habilidades que sejam de mudar a forma como
a organizao funciona.
transferveis, dimensionveis
e estejam em constante
Isso vai ser o mximo!
aperfeioamento. Se voc mantiver
uma viso de longo prazo ao realizar
esse projeto, poder preparar
a sua organizao para anlises
aprimoradas e decises mais
fundamentadas por um longo tempo.
63 | O grande livro de Big Data da Informatica

Prximos passos
Pronto para comear a colocar
em prtica o que aprendeu?

Se voc um desenvolvedor da
Informatica, poder ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e servios de Big Data colocaro voc
no caminho certo.

64 | O grande livro de Big Data da Informatica

Sobre
a Informatica
Ajudamos as empresas a gerenciar dados
para que elas possam extrair deles um valor
de negcios mensurvel. E estamos ajudando
algumas das maiores empresas do mundo a
encontrar os erros mais comuns de gerenciamento
de dados para que alcancem o sucesso em
projetos repetveis e dimensionveis de Big Data.
Vamos conversar.

IN18-1014-2730