Você está na página 1de 65

O grande livro

de Big Data
Um guia prtico para tirar o
seu primeiro projeto de Big Data
do papel.
Contedo
Parte C: Sua cadeia de suprimentos de
Introduo 3 36
Big Data descomplicada

Parte A: Como se preparar 4 Sua equipe 37


Cinco lies essenciais para a criao da equipe 38
O que voc precisa saber 5 Implemente a governana de dados 42
Por que a maioria das empresas implementa As habilidades que voc tem e aquelas de que precisa 45
projetos de Big Data 6
Por que os projetos de Big Data falham 7 Suas ferramentas 47
Como fazer o seu projeto de Big Data funcionar 10 Noes bsicas sobre as ferramentas de Big Data 48

Escolha do projeto certo 12 Seus processos 52


Como seria o projeto certo 13 Os oito Big Data 53
Considere o impacto 15
Projetos tticos de Big Data: Alguns exemplos 17 Sua arquitetura 56
A jornada bsica do Big Data 19 Primeiros passos: Sua rea restrita 57
A arquitetura ideal do Big Data 59
Parte B: Sua estratgia 23
Seu plano de projeto 60
Defina as suas metas 24 Seu plano de projeto 61
As metas de negcios 25
Metas de TI 27 Seguindo em frente 63

Defina as necessidades de dados 29 Prximos passos 64


Quais so os dados que voc precisa? 30
Cinco consideraes essenciais em relao aos dados 33 Sobre a Informatica 65

Dica: Clique para acessar a seo

2 | O grande livro de Big Data da Informatica


Como Poucas tendncias tecnolgicas foram
to comentadas quanto o Big Data.
Este livro tem o objetivo de desfazer
essa confuso.

ser E, ao mesmo tempo, poucas tendncias


tecnolgicas ofereceram s empresas
O segredo blindar a sua estratgia
e execut-la de forma pragmtica.

grande
tanto potencial de transformao. Desde Este livro servir como um guia
que o software comeou a envolver prtico na sua jornada, esteja voc
processos de negcios completos, na comeando uma iniciativa especfica
virada do sculo, uma coisa ficou clara: e ttica ou planejando um esforo
os dados mudam o modo como mais estrutural para toda a empresa.
trabalhamos.
Vamos nos aprofundar.
claro que, com grandes expectativas,
tambm vm grandes desiluses.
E, no caso do Big Data, com certeza
j vimos bons conselhos e informaes
erradas difundidos na mesma medida.
Infelizmente, como este admirvel
mundo novo de dados infinitos ainda
bem recente, todo esse barulho deixou
muita gente confusa.
3 | O grande livro de Big Data da Informatica
Parte A:
Como se
preparar
O livro est divido em trs partes.
Nesta primeira parte, tentaremos aprimorar a sua
viso para que voc possa escolher o projeto certo.

Voltar para Contedo <

4 | O grande livro de Big Data da Informatica


O que voc 14

precisa saber 12

Antes de falarmos sobre as especificidades 10


do seu prprio projeto, veja algumas questes
que a maioria dos profissionais que esto
trabalhando com Big Data gostaria de ter
ficado sabendo antes de comearem seus 8

projetos.

2
O que voc
precisa saber

Por que a maioria das organizaes


implementa projetos de Big Data
Quando as empresas  o tentar melhorar suas anlises,
A  s empresas querem fazer as
A Todos esses aspectos so timos
as empresas percebem que, coisas de maneira mais rpida, motivos para se interessar por
decidem que vo se para isso, precisaro analisar melhor e mais barata usando o Big Data. Mas, se quiser garantir
dedicar ao Big Data, uma quantidade de dados Big Data para comunicar todas que os seus projetos resistam ao
omotivo geralmente significativamente maior. as decises relacionadas a uma teste do tempo (e da anlise
um dos descritos a Geralmente, uma unidade de unidade de negcio ou a um multidepartamental), voc ter
negcio (por exemplo, marketing) processo especfico. que ser muito claro sobre qual
seguir. comea essas iniciativas. desses motivos melhor representa
 
Percebem que o Big Data o seu interesse.
O processo torna evidente que essencial para todas as unidades
possvel envolver os produtos em de negcio da organizao e
uma camada de servios, tentam estabelecer as bases para
fornecendo uma anlise (quase uma viso centralizada em
sempre em tempo real) capaz de dados, em todo o seu universo.
ajudar os clientes a usar os
produtos de maneira mais E las sabem que precisam
eficiente e infalvel. comear um projeto de Big Data
antes que seja tarde demais,
mas ainda no sabem realmente
oque fazer. O objetivo aprender
e experimentar.

6 | O grande livro de Big Data da Informatica


O que voc
precisa saber

Por que os projetos de


Big Data falham
1
Uma pesquisa descobriu que 1
55% de todos os projetos de Big
Data no so concludos e muitos Metas vagas
outros ficam aqum dos objetivos.
Embora essa taxa de desistncia O motivo de falha mais citado Se envolver com Big Data s
no seja atpica em um estgio na pesquisa foi o escopo para ter um projeto de Big Data
to inicial de uma tendncia de impreciso do projeto. Muitas a receita para o desastre.
tecnologia, seria insensato no empresas tm como meta projetos As complexidades desses projetos
aprender as lies que esses ambguos,(ambguos demais, vale exigem um compromisso firme com
projetos podem ensinar. ressaltar), com objetivos no muito a obteno de um determinado
claros, e que falham quando elas resultado. Sem a certeza das
Vamos analisar os quatro precisam fazer escolhas difceis metas, isso no possvel.
principais motivos para o sobre o que ou no importante.
fracasso de projetos de Big Data.

1.
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
7 | O grande livro de Big Data da Informatica
O que voc
precisa saber

Por que os projetos de


Big Data falham
2 3

Expectativas mal administradas Atrasos e demoras nos projetos

Todo o entusiasmo em torno do Big Quando a expectativa de Apesar dessa disciplina ser Quando raros e caros
Data gera algumas expectativas impacto e insights muito alta, bem nova para as empresas, desenvolvedores de Hadoop Java
muito perigosas sobre o que voc se pega navegando em no novidade que a maioria so contratados e encarregados
o projeto pode proporcionar. terabytes de annimos e dos projetos de Big Data acaba de implementaes gigantescas
Por mais que seja tentador fazer desconhecidos procura de custando caro ou demorando com codificao manual, as
promessas a curto prazo, ouro. Quando a expectativa de muito. Normalmente, isso empresas logo percebem que
importante manter uma viso resultados no realista, voc resultado de uma mistura de impossvel sair do ambiente de
realista do que se pode esperar acaba buscando prazos e expectativas mal administradas rea restrita sem erros. Como
do projeto, quanto tempo isso vai oramentos que no so justos. e de vises inadequadas sobre resultado, os projetos de Big Data
levar e a quantidade de esforos como construir uma arquitetura acabam definhando como um
necessrios para chegar l. dimensionvel. experimento cientfico e nunca
saem do laboratrio.

8 | O grande livro de Big Data da Informatica


O que voc
precisa saber

Por que os projetos de


Big Data falham
4

Incapacidade de dimensionar

J difcil encontrar cinco Muito frequentemente, as empresas Os quatro motivos do fracasso


timos desenvolvedores Hadoop buscam a convenincia do curto do Big Data so preocupantes
Java. Mas, quando os projetos prazo em vez da sustentabilidade emuito comuns. Por isso, vamos
aumentam e precisam se ajustar a longo prazo. Embora seja falar sobre como possvel
a 30 desenvolvedores Java em precipitado de nossa parte sugerir evit-los e construir uma
um nico ano, as coisas podem que sempre possvel evitar implementao duradoura.
chegar ao limite. O pior no a troca de um pelo outro, nunca
o custo da oportunidade demais enfatizar a importncia
de clusters Hadoop no usados; da viso de longo prazo. Para que
o custo da oportunidade e do os seus dados sejam protegidos
tempo perdidos. e gerenciados adequadamente,
voc precisa sempre supervisionar
as implicaes de longo prazo
do seu projeto.

9 | O grande livro de Big Data da Informatica


O que voc
precisa saber

Como fazer o seu projeto de


Big Data funcionar
Como a maioria dos projetos de 1 2
Big Data falha por falta de
clareza e devido incapacidade Defina objetivos claros e Defina as mtricas que
de demonstrar a funcionalidade administre as expectativas comprovam o valor do projeto
da iniciativa, voc mesmo deve
se responsabilizar por isso para Se voc no sabe qual deve ser Mtricas claramente definidas Isso crucial, pois os usurios de
a meta do seu projeto, pense nos e que se ajustem aos objetivos negcios precisaro de ajuda
trazer foco e comprovao ao
objetivos que definiu para a podem evitar uma grande para racionalizar compromissos
seu projeto. Seguem trs dicas
infraestrutura de dados existente. quantidade de problemas. de curto prazo, e as metas
teis para garantir que o seu
projeto j comece dando certo Se a sua organizao j precisa Ao definir metas realistas que mensurveis ajudam a provar
econtinue em operao. de dados para determinados podem ser medidas, todos ao que voc est proporcionando
processos de negcios (como seu redor conseguiro ver o mais valor do que eles imaginam.
deteco de fraudes ou anlise progresso que voc est obtendo.
de mercado), pense em como
o Big Data pode melhorar O mais importante: eles sabero
ou valorizar esses processos. que voc tem como objetivo o
Em vez de abordar um problema longo prazo. Pergunte a si
totalmente novo, voc deve ter mesmo como voc pode medir
como alvo melhorar um processo oimpacto do seu projeto no
ou projeto j existente. contexto das suas metas.
Sem um foco claro e um valor
perceptvel aos usurios de
negcios, o projeto estar
condenado ao fracasso.

10 | O grande livro de Big Data da Informatica


O que voc
precisa saber

Como fazer o seu projeto de


Big Data funcionar
3

Seja estratgico sobre


ferramentas e codificao manual

Evite a tentao de codificar tudo O mais importante no cair na Alm disso, como as tecnologias
manualmente diretamente no armadilha de desperdiar talentos do tipo Hadoop evoluem a cada
Hadoop. Lembre-se de que o de desenvolvimento de Java, raros dia, vale a pena considerar uma
objetivo aqui no construir uma e caros, em aspectos que no camada de abstrao que possa
implementao de trabalho podem ser dimensionados ou lhe proteger das constantes
manual a partir do zero; o transferidos para outros mudanas nas especificaes
objetivo entregar o valor do funcionrios. A sua funo tomar das tecnologias subjacentes.
BigData para a sua organizao. decises estratgicas sobre a
implantao de recursos escassos, Acima de tudo, lembre-se de que
de forma a atingir seus objetivos. as habilidades necessrias so
Em vez de tentar codificar
manualmente cada integrao, escassas, mas as ferramentas
Adote ferramentas que possam
limpar cada conjunto de dados esto sempre disponveis.
aumentar a produtividade da
e codificar manualmente todas
equipe de desenvolvimento por
as anlises, voc deve analisar
meio do aproveitamento das
ferramentas e automao para
habilidades e do conhecimento
ajudar a acelerar esses processos.
da qualidade dos seus dados de
ETL existentes e de especialistas
em Business Intelligence,
enquanto libera os especialistas
em Java para trabalhar na lgica
especfica para a qual no h
ferramentas disponveis.
11 | O grande livro de Big Data da Informatica
Escolha do
projeto certo
Sob a perspectiva dos desafios que voc
enfrentar, vamos analisar agora o que voc
deve fazer para escolher o projeto certo para
asua organizao.
Escolha do
projeto certo

Como seria o projeto certo

Se a sua organizao est 1 2


ansiosa por mudanas e j
aceitou que ser preciso ter uma Valor demonstrvel Patrocnio
estrutura abrangente de
governana de dados para O projeto certo aquele em que o Os executivos que aderirem Portanto, se voc sabe que
melhorar a forma como eles valor compartilhado de maneira sua viso sero essenciais para pode construir anlises
trabalham, provavelmente voc igual entre a TI e a unidade de o sucesso do projeto. Os projetos excelentes para a logstica,
poder ignorar esta seo. negcio que voc est tentando de Big Data precisam de mas o nico executivo que aderiu
ajudar. Isso significa proporcionar defensores e patrocinadores em foi o gerente de fbrica, pense
Por outro lado, se voc est um valor claro para um altos cargos, que estejam novamente. Se o marketing o
pensando em um projeto ttico departamento, uma unidade de dispostos a defender o trabalho seu defensor, trabalhe para
e especfico, que pode ser negcio ou um grupo, de forma que voc est fazendo. apoiar os requisitos de anlise
adaptado posteriormente para que eles possam ver. de marketing. No d para
a empresa como um todo, forar ningum a mudar. Siga a
continue lendo. influncia e extraia o mximo de
valor possvel.
O projeto certo tem estes quatro
componentes.

13 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Como seria o projeto certo

3 4

Um efeito de jogo de boliche Habilidades transferveis

A importncia estratgica do seu Depois de ter demonstrado o Como dissemos no ltimo ponto, Portanto, prepare-se para
primeiro projeto ttico vital. valor do Big Data para o seu preciso que o valor do seu primeiro dimensionar, de modo que voc
Alm de provar, sem sombra de departamento de marketing, por projeto ajude a convencer os possa lidar com mais projetos no
dvida, que o Big Data pode exemplo, ser mais fcil conquistar outros departamentos da empresa. futuro. No se trata apenas de
ajudar a unidade de negcio a adeso das equipes de logstica Para isso, preciso se certificar dimensionar o seu cluster. Trata-
que voc est apoiando, bom que talvez estejam reticentes. de que voc pode aprender as se de dimensionar habilidades
se certificar de que o valor possa habilidades, as capacidades e as eoperaes. Voc vai precisar
ser comunicado facilmente para lies certas do seu primeiro encontrar mais especialistas de
a empresa em geral. projeto. Mais enfaticamente, Java/Hadoop ou encontrar
preciso garantir que tudo isso maneiras de extrair mais dos
Portanto, ao escolher o seu seja documentado para que voc recursos que j tem.
primeiro projeto, faa isso de possa transferir conhecimento para
maneira estratgica. o prximo projeto. Lembre-se, se a
sua meta o sucesso, ento voc
j est se preparando para futuros
projetos.

14 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Considere o impacto

Quando for escolher qual ser 1


oseu prximo projeto, voc
tambm ter que pensar em como Custo e interrupo
isso afetar a organizao.
H trs aspectos gerais que No nvel mais bsico, o custo do Outras vezes, est relacionada
devem influenciar a sua deciso de projeto se baseia no tempo e no com a tecnologia e as habilidades
buscar o projeto certo de Big Data. dinheiro que sero necessrios ou seja, quando voc precisa
para torn-lo realidade. Na integrar novas tecnologias
verdade, preciso considerar infraestrutura existente e
tambm a possvel interrupo reorganizar ou atualizar as
que isso causar. capacidades para fazer isso.

s vezes, a interrupo Seja qual for o caso, voc deve


processual por exemplo, prever, reconhecer e certificar-se
quando as unidades de negcio de que quer minimizar a
so usadas para armazenar os interrupo ou informar por que
dados e no se sentem vontade isso importante.
em abrir mo do controle deles
para uma estrutura centralizada
de governana de dados.

15 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Considere o impacto

2 3

Cronograma de benefcios e Recursos e restries


impacto
Mais importante: quando os Tendo em conta a anlise dos Atingir essa meta funciona nos
Ao considerar o incio de usurios de negcios vero os dois ltimos fatores, considere dois sentidos. Por um lado, voc
diferentes projetos, a tendncia resultados nos negcios? Por os recursos sua disposio. tem como meta o mximo
que voc se volte aos que exemplo, voc poderia introduzir Ns abordaremos isso com impacto nos negcios. Mas
podem oferecer o mximo de o gerenciamento de dados mais detalhes posteriormente. tambm preciso ser estratgico
impacto e melhoria aos negcios. mestres no data warehouse e Por enquanto, basta lembrar na hora de gastar o oramento.
Mas tambm importante melhorar radicalmente a eficincia que, naturalmente, voc quer Embora seja tentador construir
considerar a natureza do de Business Intelligence. Mas esse que o seu projeto oferea mais uma equipe de cientistas de
impacto nos negcios. O projeto valor s ser sentido quando os retorno do que o dinheiro dados similar equipe do
proporcionar a maior parte do analistas de negcios perceberem investido. Google, h realmente recursos
valor no curto ou no longo prazo? que no precisaro limpar os suficientes para tanto? Fazer
dados financeiros novamente. escolhas inteligentes sobre as
ferramentas e o nmero de
funcionrios ser fundamental
para o sucesso do seu projeto.

16 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Projetos tticos de Big Data:


Alguns exemplos
H uma grande variedade
Financeiro Varejo Mdia
de aplicativos para Big Data.
Por mais emocionante que seja,
Anlise de Envolvimento Rastreamento
isso tambm se torna um pouco
risco e portflio de clientes de comportamento
assustador para as pessoas que
Recomendaes proativos em jogo
no tm certeza quanto ao
de investimento Servios baseados Opes de vendas
projeto certo para comear. Aqui
em localizao cruzadas e
est uma lista de projetos tticos
adicionais
de Big Data que vimos nossos
clientes empreenderem.
Fabricao Assistncia mdica Setor pblico
Se voc ainda no tem certeza
sobre qual projeto deve ser Programas de Previses de Seguro sade
iniciado primeiro pela veculos resultados de Intercmbios
organizao, considere os conectados pacientes Otimizao
seguintes exemplos para ter uma Manuteno Custo total do tributria
ideia melhor do que o Big Data preditiva tratamento Deteco de
pode oferecer para a sua empresa. Descoberta de fraudes
medicamentos

17 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Projetos tticos de Big Data:


Alguns exemplos
O que alguns de nossos clientes U
 ma grande empresa de U
 m fabricante envolvido com
buscam tecnologia no Vale do Silcio locomotivas pretende liberar
tem como objetivo economizar uma milha adicional por hora
Confira o modo como alguns de mais de US$ 10 milhes em em rotas dirias para que seus
nossos clientes descrevem seus custos do data warehouse que clientes possam economizar
esforos especficos. Este o tipo no para de crescer utilizando at US$ 200 milhes por ano.
de foco que voc deve buscar. uma combinao de Hadoop
e uma tecnologia tradicional U
 ma empresa global de
de data warehouse para servios de pagamentos est
diminuir o crescimento do tentando aumentar os negcios
custo total por terabyte. digitais em 30% atravs do
aumento da personalizao
U
 m grande fabricante na rea do cliente, tudo parte de uma
de transportes est buscando estratgia de Big Data
reduzir a taxa de consumo de denominada otimizao
combustvel de seus veculos omni-channel de varejo.
em 1% ao longo dos prximos
10 anos. Ele tambm pretende Essas so algumas grandes
reduzir as emisses txicas de vitrias para qualquer equipe
carbono aumentando os de Big Data.
perodos de manuteno em
10% e melhorando a
quilometragem em 1%.

18 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada bsica do Big Data

Se voc estiver pronto para 1


construir as bases para uma
abordagem de Big Data para Otimizao do data warehouse
toda a empresa, os trs passos
seguintes sero essenciais para Isso implica optar pelo O objetivo evitar atualizaes
a sua jornada. armazenamento e onerosas do seu data warehouse
processamento de dados na e comear a usar hardware
Na verdade, mesmo que esteja plataforma mais econmica. eestruturas de computao
planejando apenas alguns Muitas vezes, isso comea com distribuda mais econmicos,
projetos tticos de Big Data, a retirada de dados brutos ou como o Hadoop, para que voc
necessrio considerar estes trs pouco usados e de cargas de esteja preparado para lidar com
passos. Cada um essencial trabalho de ETL do hardware o volume, a variedade e a
para a integridade fundamental caro de data warehouse. velocidade do Big Data.
da organizao centrada em
dados. Na verdade, para obter
o mximo custo/benefcio, siga
estas etapas na ordem.

19 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada bsica
do Big Data
2 3

Um lago de dados gerenciados Inteligncia operacional


em tempo real
Um lago de dados gerenciados Isso significa criar um lago
um local nico para gerenciar de dados que refine, governe Aqui, voc cria as tecnologias
a oferta e a demanda de todos e domine os dados. Porm, (interfaces de envolvimento,
os seus dados. A palavra-chave preciso ter uma viso antecipada aplicativos que consomem muitos
aqui gerenciar. O objetivo muito boa para chegar l, pois dados e anlises) necessrias
converter a confuso necessrio incorporar polticas de para acessar, analisar e entregar
multiestruturada em informaes governana de dados e processos todos os dados. Os aplicativos
confiveis e seguras, adequadas estratgicos rigorosos. Sem eles, criados aqui devem ser fceis de
sua finalidade. o lago corre o risco de se usar e entregar as informaes
transformar basicamente em que os usurios precisam.
um pntano de dados.
Pode ser uma interface para os
representantes de atendimento
ao cliente que monitoram o
comportamento dos clientes
atravs de vrios canais e
identificam aqueles com maior
probabilidade de rotatividade
nas prximas duas semanas.

20 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

Uma jornada de trs passos

Como j dissemos, para obter


a melhor relao custo/benefcio,
recomendamos seguir trs passos,
na ordem apresentada.

Otimizao do data warehouse Lago de dados gerenciados Anlise em tempo real

Reduza os custos de Crie um nico local para Entregue aplicativos avanados


infraestrutura e reforce gerenciar a demanda que forneam as informaes
a arquitetura da empresa. e a oferta de dados. de que as pessoas precisam.

21 | O grande livro de Big Data da Informatica


Escolha do
projeto certo

A jornada bsica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais

At mesmo projetos bsicos U


 ma organizao global que U
 ma organizao de
devem ser especficos sobre o que conduz centenas de milhes consultoria financeira global
esto tentando construir. Embora de transaes financeiras em criou uma infraestrutura lgica
a especificidade aqui talvez no centenas de pases construiu de data warehouse para
seja relacionada aos custos e ao um hub de dados de toda a garantir a disponibilizao de
tempo economizados, ela se empresa. O objetivo fazer informaes consistentes em
aplica aos limites do que est aanlise do Big Data e todas as plataformas padro
sendo exatamente construdo. identificar as principais (incluindo Hadoop, bancos de
Considere os seguintes exemplos macrotendncias e padres dados operacionais e data
de projetos de infraestrutura de na interao com os clientes. warehouses tradicionais) que
Big Data dos nossos clientes. esto sendo usadas pela
U
 ma grande empresa de organizao.
tecnologia construiu uma
anlise em nuvem de toda Em resumo: Grandes jogadas
a empresa para reduzir o tempo causam grandes impactos, mas
de introduo no mercado de exigem as bases certas.
produtos orientados por dados,
incluindo novos conjuntos de
dados em anlises a serem
usadas nas unidades de
negcio.
22 | O grande livro de Big Data da Informatica
Parte B:
Sua estratgia
Agora vamos ser prticos e analisar
os requisitos especficos para o seu
prximo (ou primeiro) projeto de Big Data.

Voltar para Contedo <

23 | O grande livro de Big Data da Informatica


598
55mph

Defina as
276m
70mph

suas metas
101m
75mph

Pegue o lpis. Como j dissemos, a causa


nmero um de falhas em projetos de Big Data
a falta de objetivos claros. Agora, precisamos
garantir que o projeto que voc tem em mente
no se perca em ambiguidades.

501m
69mph

411m
67mph

136m
72mph
Defina as suas
metas

As metas de negcios

Vamos comear com os Seja o mais especfico possvel Quanto mais claras forem suas
ao estabelecer as metas de metas, maiores sero suas
negcios, porque esses negcios a serem alcanadas chances de atingi-las. Uma meta
objetivos devero ter pelo projeto. E lembre-se de superfocada vale mais que cinco
precedncia sobre as estabelecer metas cujo impacto metas vagas.
metas de TI se voc seja mensurvel.

quiser total apoio para Por exemplo, no caso da interface


o seu projeto. de servio ao cliente que prev
a rotatividade de clientes, as metas
para esse projeto no devem ser
listadas de forma vaga, como, por
exemplo, melhorar a experincia
do cliente.

25 | O grande livro de Big Data da Informatica


Defina as suas
metas

As metas de negcios Qual deve ser a durao do


seu projeto de Big Data?

Seu projeto de Big Data deve


Liste, em ordem de importncia, as metas do seu Defina intervalos de tempo mnimo e mximo para demorar o tempo que for
necessrio para que seja
projeto de Big Data que digam respeito aos cada meta a ser alcanada. plenamente efetivo. Em nossa
negcios e aos usurios de negcios. Fique Por exemplo, de trs a seis meses experincia, o mbito do projeto
vontade para inserir menos ou mais metas. determina o horizonte de tempo.

Por exemplo, reduzir a rotatividade de clientes Ns trabalhamos com clientes


que entregaram projetos tticos
em menos de trs meses.
E trabalhamos com clientes que
passaram trs anos produzindo
programas bsicos.

Para projetos mais longos, lembre-


se de ter como objetivo demonstrar
Agora, para cada meta, escreva uma medida de o valor do projeto a cada seis
sucesso que possa ser usada para determinar se a meses. Se adotar uma abordagem
gil, recomendvel mostrar as
meta foi alcanada. Idealmente, essas medidas diferentes fases e marcos como
devem ser mtricas disponveis ou seus respectivos projetos menores.
clculos.
Uma coisa certa: voc no deve
Por exemplo, reduzir a taxa de rotatividade mdia tentar adivinhar esse prazo. Estime o
mensal em X% tempo de entrega com base em sua
experincia e na experincia de
outras pessoas que tenham
realizado anteriormente projetos
semelhantes. Se no souber para
quem pedir orientao, voc sempre
poder entrar em contato conosco.

26 | O grande livro de Big Data da Informatica


Defina as suas
metas

Metas de TI

Agora vamos analisar as metas Liste, em ordem de importncia, as metas do seu


Pare, colabore e escute
de TI relacionadas ao seu projeto. projeto de Big Data que digam respeito TI.
Fique vontade para inserir menos ou mais metas.
Escrevemos este livro para que
(Lembre-se: se o objetivo do seu Por exemplo, estabelecer processos para coleta, voc possa iniciar seu projeto de
projeto for melhorar as condies limpeza, criao de dados mestres e armazenamento Big Data, no importando se voc
de trabalho ou agiliz-lo, ser de dados de clientes globais em tempo real, dados trabalha na rea de negcios ou
em TI. Em ambos os casos, no use
bem difcil sensibilizar os usurios de utilizao de cartes de crdito, dados de grfico adivinhaes para suas metas.
de negcios. Por isso, as metas de sociais e indicadores de taxa de rotatividade Se precisar de orientaes
TI devem ser comunicadas junto especficas sobre quais metas
escolher, procure um parceiro com
com as metas que os usurios de a experincia necessria e comece
negcios esto esperando.) a trabalhar em colaborao agora.

O sucesso do seu projeto depende


de colaboraes estratgicas.

27 | O grande livro de Big Data da Informatica


Defina as suas
metas

Metas de TI

Defina intervalos de tempo mnimo e mximo para Agora, para cada meta, escreva uma medida de
cada meta a ser alcanada. sucesso que possa ser usada para determinar se
Por exemplo, de dois a quatro meses a meta foi atingida. Idealmente, essas medidas devem
ser mtricas disponveis ou seus respectivos clculos.
Por exemplo, a taxa de previso de rotatividade
exata de X%

28 | O grande livro de Big Data da Informatica


Defina as
necessidades
de dados
Agora que j definimos as metas especficas dos
seus esforos de Big Data, vamos direto ao ncleo
do projeto: os dados em si. Seja qual for o projeto,
voc ter que pensar de maneira estratgica sobre
quais informaes so necessrias, quais conjuntos
de dados atendem a essa necessidade, como obter
esses dados e como us-los.
Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Primeiro, vamos analisar Para atingir as metas de negcios descritas Para proporcionar esse conhecimento, quais dados
a finalidade mais bsica do anteriormente, o que os usurios de negcios precisam podem ser usados?
seu projeto de Big Data: as saber para tomar uma deciso fundamentada? Por exemplo, o histrico de compras do cliente, os
informaes que voc est Por exemplo, quais dos clientes mais valiosos so dados de reviso, a taxa de compras, a taxa de
tentando fornecer organizao. suscetveis rotatividade e quais comportamentos desistncia, a taxa de rejeio, a qualidade do
Responda s seguintes perguntas se correlacionam rotatividade atendimento ao cliente
o mais especificamente possvel.

30 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Quais sistemas de origem contm esses conjuntos Alm dos dados j mencionados, h outras
de dados? informaes que podem proporcionar contexto ou
Por exemplo, registros de atendimento ao cliente, valor adicional s suas anlises?
mtricas de desempenho do produto, banco de Por exemplo, dados de pesquisa de atendimento
dados de atividade do cliente, gerenciamento de ao cliente, anlise de concorrentes, dados
dados mestres de clientes meteorolgicos, dados sociais

31 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Quais so os dados
que voc precisa?
Entre os conjuntos de dados que no posso acessar
A busca por dados obscuros
atualmente, quais deles podem conter dados
contextuais adicionais?
Ao considerar os conjuntos de
Por exemplo, dados sociais de terceiros, dados de dados aos quais voc no tem
mercado de terceiros, dados meteorolgicos acesso, no se limite aos dados
externos sua organizao.
O Gartner descobriu que a
maioria das empresas usa apenas
15% dos seus dados . A Appfluent,
2

uma empresa que faz anlise


estatstica sobre a utilizao de
data warehouse, descobriu que
entre 30% a 70% dos dados de
um data warehouse esto inativos.

O restante fica escondido em silos


de difcil alcance e localizao,
cujos custos de utilizao so
altos, em arquivos legados e em
repositrios de dados. Isso no
seria um problema se voc j no
estivesse pagando para
armazenar todos esses dados.

Ao procurar os dados de que


precisa, vale a pena comear por
aqueles que a sua organizao
j tem.

2.
 ite do Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | O grande livro de Big Data da Informatica
Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
Aps esboar os dados que vai 1
procurar, voc ter uma viso mais
clara dos desafios especficos do Prepare-se para o volume
Big Data. Em especial, h cinco
elementos-chave que devem ser Voc ter que se preparar para Um inventrio completo
considerados antes de avanar lidar com a enormidade dos e organizado dos seus dados
muito, pois eles determinaro dados que sero necessrios. ajudar a determinar como
o que precisar ser feito para Usando dimenses, classifique gerenciar tudo isso. Avalie
cada conjunto de dados, bem os dados com base nos seus sua capacidade atual de
como para o conjunto de dados respectivos valores (por exemplo, armazenamento e
de Big Data. transaes de clientes), uso processamento e procure as
(frequncia de acesso), tamanho formas mais econmicas e
(gigabytes, terabytes), eficientes de torn-la
complexidade (dados de dimensionvel.
mquinas, dados relacionais,
vdeo etc.) e quem tem permisso
para acess-los (apenas seus
especialistas de dados ou qualquer
usurio ocasional de negcios).

33 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
2 3

Responsabilize-se pela variedade Administre a velocidade

O aspecto mais desafiador do Tentar codificar manualmente A combinao dos dados de Na verdade, a maioria das
Big Data a grande variedade cada integrao to streaming em tempo real e dos anlises em tempo real precisa se
de formatos e estruturas que voc complicado que poderia seus dados histricos geralmente basear em dados de streaming
ter que conciliar em suas consumir todo o tempo e os aumenta a capacidade de muitas vezes, a partir de
anlises. Ser preciso integrar recursos disponveis. Aproveite previso da anlise. Assim, diferentes fontes, em diferentes
vrias fontes se quiser incluir ao mximo as ferramentas de alguns dos dados que voc formatos. Prepare seu projeto
novos tipos e estruturas de dados integrao e qualidade de dados deseja s podero ser teis se com uma tecnologia analtica de
(sociais, sensores, vdeo) s disponveis para acelerar o estiverem constantemente fluindo streaming e uma infraestrutura
fontes com as quais voc j est processo para tarefas mais nos sistemas. lgica para gerenciar todos os
acostumado (relacionais, importantes. dados.
mainframes legados).

34 | O grande livro de Big Data da Informatica


Defina as necessidades
de dados

Cinco consideraes essenciais


em relao aos dados
4 5

Garanta a veracidade Pense na conformidade

No importa o grau de Para que os dados sejam Os vrios conjuntos de dados com Alm do arquivamento seguro e
importncia de suas anlises, adequados finalidade, voc os quais voc lidar viro com inteligente de dados confidenciais,
elas no valero nada se as precisa conhecer essa finalidade. diferentes condies e requisitos de faa o mascaramento dos dados
pessoas no puderem confiar Se um especialista de dados segurana. Para cada conjunto de com regras predefinidas sempre
razoavelmente nos dados que estiver procurando padres em dados, preciso considerar o que que migr-los ou inseri-los nos
conseguirem. Quanto mais dados agregados do cliente, ser necessrio para torn-los ambientes de desenvolvimento
dados voc analisar, mais a preparao necessria ser annimos com base em polticas e teste.
importante ser manter um alto mnima. Por outro lado, os dados de segurana.
nvel de qualidade dos dados. de relatrios financeiros e da Aplique essas cinco consideraes
cadeia de suprimentos devero Quantidades imensas de dados a cada conjunto de dados que
ser altamente editados, limpos iro se proliferar por toda administrar e, assim, voc estar
e certificados para obter preciso
a empresa em centenas de preparado mais realistamente
e conformidade. repositrios de dados. Entenda para o grande desafio relacionado
onde os dados confidenciais aos dados.
Crie categorias baseadas na residem e lembre-se de proteg-
quantidade de preparao los na fonte por meio de
necessria, o que abrange desde criptografia e, em seguida,
dados brutos at um repositrio controle quem tem acesso a eles.
de dados mestres altamente
editado, contendo dados limpos,
confiveis e fidedignos.

35 | O grande livro de Big Data da Informatica


Parte C:
Sua cadeia de
suprimentos
simples de Big Data
Os mtodos tradicionais de Business Intelligence e data
warehouse no dimensionveis o suficiente para atender s
necessidades das iniciativas de Big Data. Agora, veremos como
voc pode dimensionar a equipe, os processos e a infraestrutura.

Voltar para Contedo <

36 | O grande livro de Big Data da Informatica


Sua
equipe
Sua equipe de Big Data representa o seu maior
desafio e a sua maior oportunidade. Voc
precisa de um bom equilbrio entre pessoas que
entendem as metas de negcios e pessoas que
podem executar suas exigncias tcnicas.
Sua
equipe

Cinco lies essenciais para


a criao de equipes
A maioria das As estruturas de dados Quando comear a montar sua
distribudos so muito difceis de equipe, lembre-se de incorporar
organizaes subestima gerenciar. Das habilidades Java as seguintes lies estratgia
o nvel de habilidade necessrias para desenvolver em de contratao.
necessrio aplicao Hadoop s novas habilidades
bem-sucedida de uma em cincias de dados a serem
contratadas, ser necessrio
nova tecnologia como obter muitas novas habilidades
o Hadoop. para que o projeto realmente
3
decole.

Hadoop, Python e NoSQL lideram o grupo para tarefas


3.

de Big Data", InfoWorld, 5 de maio de 2014: www.infoworld.com/t/


38 | O grande livro de Big Data da Informatica it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884
Sua
equipe

Cinco lies essenciais para


a criao de equipes
1 2

Use as habilidades dos Pense estrategicamente sobre


profissionais que voc contratou a composio da equipe

Um dos maiores erros que as Concentre as habilidades raras Se tudo der certo, o projeto O equilbrio da sua equipe
empresas cometem quando em tarefas que realmente crescer em escopo e recursos. fundamental. Voc est
contratam especialistas de dados precisam delas. Voc no quer Pense de maneira estratgica procurando a combinao certa
e analistas quantitativos pedir que os seus melhores profissionais agora e poupe-se da difcil de experincia em gerenciamento
que faam o trabalho pesado. peam demisso e certamente conscientizao de que voc no de dados conquistada com
Quando os seus recursos mais no quer que eles percam tempo pode executar determinados trabalho duro e do entusiasmo
qualificados gastam todo o com um trabalho que pode muito processos com a rapidez para aprender novas ferramentas.
tempo em integraes de dados bem ser feito com ferramentas. necessria porque h um nmero Alm disso, preciso encontrar
que exigem codificao manual limitado de pessoas com as o equilbrio entre pessoas com
e na limpeza de dados, voc no habilidades necessrias, at habilidades tcnicas e aquelas
s os deixa frustrados, como mesmo no Vale do Silcio. com a experincia de domnio
tambm no aproveita as necessria para construir os
habilidades que foram to Se o seu projeto crescer em modelos certos.
difceis de encontrar. escopo, quais so as competncias
que voc pode razoavelmente
esperar encontrar a tempo de
atender s suas necessidades? Por
exemplo, especialistas de dados
so infinitamente mais difceis de
encontrar, treinar e contratar do
4
que desenvolvedores.
Big Datas High-Priests of Algorithms (Big Data - Os bispos dos
4.

algoritmos), Wall Street Journal, 8 de agosto de 2014:


39 | O grande livro de Big Data da Informatica http://online.wsj.com/articles/academic-researchers-find-
lucrative-work-as-big-data-scientists-1407543088
Sua
equipe

Cinco lies essenciais para


a criao de equipes
3 4

Alinhe as metas do seu projeto Quando a sua equipe aumenta,


no incio e depois as comunique a necessidade de gerenci-la
tambm aumenta

Um dos erros mais comuns que Sem um controle firme do valor Diferentemente de uma nova Elementos como cultura
as empresas cometem ao comercial do seu projeto, os tecnologia que pode ser e coerncia no podem ser
contratar uma nova equipe novos contratados correm o risco implantada, implementada e subestimados. Pense muito e com
esquecer de comunicar as de achar que s precisam pensar integrada de forma objetiva, calma sobre como integrar as
verdadeiras metas do projeto. nas metas de TI do projeto. o novo pessoal precisa se novas contrataes em seus
Da primeira entrevista at o acostumar ao local de trabalho, processos. Talvez voc no
trabalho em si, preciso ficar ao trabalho que esto fazendo consiga trein-los para as
claro o que voc est tentando e s razes por que esto habilidades, mas com certeza
oferecer aos usurios de fazendo esse trabalho. No pode ajud-los a serem melhores
negcios. Potencialize o apoio importa se voc ou outra integrantes da equipe.
dos executivos para divulgar a pessoa: algum precisa abraar
misso e compartilhar histrias o desafio do gerenciamento que
de sucesso, bem como uma nova equipe exige.
problemas.

40 | O grande livro de Big Data da Informatica


Sua
equipe

Cinco lies essenciais


para a criao de equipes A importncia de ser
estratgico
5
Uma escolha importante que voc
Sua equipe no pode far vrias vezes a possibilidade
ficar parada de criar seus recursos usando
ferramentas automatizadas
ou integraes manuais.
As tecnologias de Big Data esto As habilidades da equipe
A codificao manual lhe oferece
surgindo todos os dias. E as que precisam evoluir com a mesma um controle completo e preciso
j existem esto evoluindo velocidade das mudanas que sobre o que voc est construindo.
rapidamente. Este um momento esto ocorrendo no mundo. Muitas vezes, isso inestimvel
e necessrio; por exemplo, quando
bastante emocionante para A boa notcia que o que mais voc escreve um script complexo
as empresas que so corajosas motiva os melhores profissionais para extrair metadados de uma
o suficiente para adotar as o desafio de chegar primeiro. forma que ainda no possvel.

prticas recomendadas O desafio est em oferecer As ferramentas, por outro lado,


anteriormente. Mas representa o treinamento e o debate oferecem mais agilidade
e a capacidade de repetir o mesmo
tambm o desafio definitivo de necessrios para continuar processo de forma sustentvel.
comear antes dos concorrentes. aumentando as habilidades Para tarefas como a integrao
dessas pessoas e as suas e a qualidade dos dados, isso
essencial, porque significa que voc
prprias. no est forando os seus analistas
e especialistas superinteligentes
para fazer o trabalho pesado.

Seja realista sobre os seus


recursos. Se no pode montar uma
equipe to grande e genial como
a do Google, no desperdice seus
escassos recursos tentando.

41 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governana de dados

Se (e quando) estiver montando um Essencialmente, a equipe de


trabalho de Big Data mais bsico, governana de dados o quadro
coloque em prtica a estrutura formal de executivos responsvel
processual para governana de por supervisionar a abordagem
dados. Na verdade, mesmo que de dados da empresa. Mas
o seu projeto de Big Data tenha tambm deve incluir responsveis
como meta entregar valor para um pelo gerenciamento de
nico departamento, considere dados pessoas de
a criao de uma pequena equipe departamentos especficos que
de governana de dados para poder tenham a tarefa de gerenciar os
aprender a lidar com os desafios dados provenientes de uma
exclusivos desse tipo de grupo. unidade de negcio especfica.

De fato, alguns de nossos


clientes atribuem funes de
responsabilidade pelo
gerenciamento de dados com
base no domnio de dados. Isso
significa que uma pessoa fica
responsvel pelos dados de
produtos, enquanto outra fica
responsvel pelos dados de
clientes e assim por diante.

42 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governana de dados

Tenha como meta criar processos 1 2


capazes de garantir que a sua
estrutura de governana de dados Interfuncional Comunicativa
seja mais uma ajuda do que uma
dificuldade. Trabalhe ativamente Um conselho de governana Sem uma boa comunicao entre
para assegurar que isso no de dados formado por pessoas as funes, os departamentos
se transformar em sobrecarga diferentes com funes e os domnios, o projeto pode
burocrtica para tanto, garanta semelhantes ser ineficaz. se perder na burocracia e nos
que todos estejam empenhados O objetivo criar um conselho que mal-entendidos. Isso acontece
em atingir os mesmos objetivos, possa representar as opinies e as com mais frequncia do que
e nos mesmos prazos. necessidades exclusivas de cada se imagina. Certifique-se de que
unidade de negcios que o seu todas as preocupaes sejam
Sua estrutura de governana de projeto de Big Data dever apoiar. resolvidas ou tratadas
dados deve conter estas cinco adequadamente.
caractersticas.

43 | O grande livro de Big Data da Informatica


Sua
equipe

Implemente a governana de dados

3 4 5

Eficiente Comprometida Centralizada

O seu processo interfuncional no Lembre-se de comunicar com O maior desafio de uma estrutura
deve ser uma barreira. Ser preciso eficincia as metas principais do de governana de dados
ter bastante agilidade para que seu projeto e certifique-se de que quando voc precisa priorizar
o projeto de Big Data tenha xito. todos os envolvidos na estrutura as metas de uma unidade de
Portanto, crie regras de relatrios de governana de dados estejam negcios sobre as outras que
de automao e exceo sempre comprometidos com essas metas. esto sendo representadas no
que possvel e adote ferramentas Metas em comum ajudam a guiar conselho. Garanta que as suas
de colaborao para manter o seu pensamento de governana decises contemplem o benefcio
os canais de comunicao abertos e as suas decises. a longo prazo de todo o conselho,
e adequados. mesmo que isso signifique
benefcios de curto prazo para
uma nica unidade de negcio.

44 | O grande livro de Big Data da Informatica


Sua
equipe

As habilidades que voc tem


e aquelas de que precisa
Hora de pegar o lpis novamente. A pgina a seguir lista funes
Agora que voc conhece as vrias de Big Data com base em cargos
ciladas e oportunidades subjetivas para os quais j vimos nossos
que a nova equipe apresentar, clientes contratarem.
vamos analisar como essa Considerando o pessoal
equipe na realidade. realmente disponvel e a durao
esperada para o projeto
(conforme inserido na seo
iniciada na pgina 24), liste
quantas pessoas voc precisa
contratar.

45 | O grande livro de Big Data da Informatica


Sua
equipe

A funo Algum j Eu preciso Com base na


pode executar contratar algum quantidade de tempo
essa funo? para essa funo disponvel, eu preciso
contratar X pessoas
Especialista de dados ou ou

Especialista em domnios

Analista de negcios

Analista de dados
A necessidade de um
Engenheiro de dados pensamento integrado
Administrador de banco de dados
Quando sair em busca de novos
Arquiteto corporativo
integrantes para a equipe, no se
Arquiteto de soluo de negcios limite a pessoas com as qualificaes
adequadas. No se engane:
Arquiteto de dados encontrar pessoas com as
qualificaes adequadas j um
Responsvel pelo gerenciamento de dados
desafio em si. Mas voc tambm
Desenvolvedor de ETL (integrao de dados) precisa buscar pessoas que tenham
vontade de sintetizar as metas de
Desenvolvedor de aplicativos negcios e as capacidades tcnicas.
Desenvolvedor de painis de controle
Cada vez mais, ouvimos de clientes
Modelador de estatsticas sobre como importante que
as pessoas que se unem aos seus
Outro projetos de Big Data possam ser
capazes de entender a realidade
Outro
dos negcios e trabalhar com uma
Outro cincia de dados complexos. Esse
tipo de pensamento integrado
Outro importantssimo e difcil de encontrar.
Vale a pena investir em treinamento.
Outro

46 | O grande livro de Big Data da Informatica


10356

98276

Suas 41523

ferramentas 60303
10392

Como j discutimos vrias vezes, as ferramentas


utilizadas desempenham uma funo estratgica
na execuo do seu projeto de Big Data. Nesta
seo, vamos analisar as ferramentas que voc 15234
tem e aquelas de que precisa.

45623
18456

63002
Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Em nossa experincia, as seguintes Ingesto de dados Fluxo de dados
ferramentas so essenciais para a Voc coleta dados de forma
arquitetura necessria aos projetos O processo de consumir os confivel em tempo real e os
de Big Data (discutiremos dados necessrios de forma transmite nos repositrios de
a arquitetura em mais detalhes adequada, eficiente e metdica. dados?
posteriormente). Claro que as suas
metas e os seus recursos devem Carga de lotes Arquivamento
determinar a combinao das Voc acessa todos os tipos Voc arquiva e compacta
tecnologias necessrias ao seu de dados de que precisa dados que no so usados
projeto especfico. e dimensiona com eficincia com frequncia, garantindo
o desempenho da carga de fcil acesso aos dados
Veja esta lista de ferramentas lotes nos repositrios de dados? arquivados, se necessrio?
e coloque um para as
mais importantes e mais Captura de dados de mudanas
estrategicamente relevantes Voc captura as alteraes
ao seu projeto especfico. feitas nos dados dos sistemas
de origem sem afet-los?

48 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Gerenciamento de dados Segurana de dados Estrutura distribuda de dados
e coloque um para as Voc descobre e protege os Voc usa tecnologias como
mais importantes e mais Todas as polticas, processos dados em todos os repositrios o Hadoop para dimensionar
estrategicamente relevantes e prticas necessrias para de dados, atribuindo para isso de forma econmica suas
ao seu projeto especfico. gerenciar adequadamente regras sobre uso, acesso necessidades de armazenamento
a eficcia, a preciso, e permisses? e processamento?
a confiabilidade e a
disponibilidade dos dados. Mquina virtual de dados Data warehouse
Voc consegue criar uma Voc tem uma tecnologia
Integrao de dados camada de abstrao para de data warehouse que possa
Voc consegue preparar os dados que combine lidar com os requisitos
e consolidar vrias estruturas vagamente o processamento de desempenho, uso e
e fontes em um conjunto de de dados no ambiente de dimensionamento para anlises
dados consistente para anlise? implantao subjacente? e integraes de Big Data com
infraestruturas Hadoop?
Qualidade de dados Gerenciamento de dados mestres
Voc consegue, de forma Voc armazena uma verso
confivel, limpar os dados, consolidada, completa
deduplicar e remover os erros? e fidedigna da verdade para
vrios domnios de dados?

49 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Entrega de dados Hub de integrao de dados
e coloque um para as Voc disponibiliza dados usando
mais importantes e mais Processo de envio dos dados uma abordagem como o modelo
estrategicamente relevantes necessrios aos sistemas de publicao e assinatura para
ao seu projeto especfico. e aplicativos que precisam deles. evitar a proliferao de
integraes ponto a ponto?
Carga de lotes
Voc dimensiona com eficincia Visualizao de dados
a carga de lotes de dados entre Voc entrega dados dos seus
os sistemas de origem, anlise e sistemas sem sobrecarreg-los?
back-end operacionais?
Processamento baseado
Fluxo de dados em tempo real em eventos
Voc oferece fluxo de dados Voc capaz de detectar,
em tempo real para sistemas analisar e reagir a ameaas,
de aplicativos, anlises e oportunidades e outros eventos
back-end que precisam disso? crticos de negcios em tempo
real?

50 | O grande livro de Big Data da Informatica


Suas
ferramentas

Noes bsicas sobre


as ferramentas de Big Data
Veja esta lista de ferramentas Anlise Aprendizado de mquina Entre essas ferramentas
e coloque um para as Voc consegue aplicar e tecnologias, algumas ferramentas
mais importantes e mais As ferramentas e os processos sofisticados algoritmos de como a integrao de dados,
estrategicamente relevantes que transformam dados brutos aprendizado de mquina para a qualidade de dados e o
ao seu projeto especfico. em insights, padres, previses identificar padres e fazer gerenciamento de dados mestres
e clculos sobre o domnio que previses em um nvel para so to essenciais sua jornada
voc est analisando. o qual no tem a largura de de Big Data que realmente no vale
banda manual compatvel? a pena recri-las. O prazo e os
Visualizao recursos necessrios criao
Voc pode apresentar dados dessas ferramentas com suas
e resultados de maneira prprias mos no vale as
a facilitar a compreenso preciosas habilidades e horas de
e o entendimento? trabalho do seu projeto de Big Data.

Anlise avanada Lembre-se das metas do seu


Voc consegue aplicar projeto; elas no incluem criar
algoritmos analticos avanados tudo de maneira personalizada.
aos seus conjuntos de dados
para fazer clculos complexos?

51 | O grande livro de Big Data da Informatica


Seus
processos
Vamos nos aprofundar nos processos reais de
que voc precisar para lidar com o Big Data.
Seus processos especficos sero exclusivos
para suas metas e necessidades, mas esta seo
pode dar uma viso geral sobre o que esperar
e o que voc aprender.
Seus
processos

Os oito Big Data

Por experincia, podemos dizer 1 2


que as metodologias geis so
uma excelente abordagem para Acessar os dados Integrar os dados
projetos de Big Data. Elas
garantem que voc gerencie Seu primeiro desafio ser adquirir O desafio mais complexo do Big
as expectativas, aprenda com os todos os dados de que precisa. Data envolve a variedade de
erros e faa a iterao do caminho Em alguns casos, isso implicar estruturas e formatos de dados.
para os melhores processos. a captura de dados de streaming Para que a sua anlise seja
Mesmo assim, a abordagem do e, em outros, significar extrair conduzida de forma sustentvel,
projeto depende inteiramente dados de um banco de dados. voc precisar configurar um
de voc e da sua situao. Configure processos gerenciveis processo de integrao
e que possam ser repetidos para e normalizao de todos esses
De qualquer maneira, os oito garantir o armazenamento desses dados. Idealmente, isso deve
passos a seguir se mostraro processos de acordo com o uso usar um processamento que seja
essenciais cadeia de que far deles. o menos manual possvel.
suprimentos do Big Data. No
importa como voc cuide disso.
Voc e a sua equipe devem
estabelecer processos eficazes
para estas etapas.

53 | O grande livro de Big Data da Informatica


Seus
processos

Os oito Big Data

3 4 5

Limpar os dados Criar dados mestres Proteger os dados

Para que a sua anlise seja Uma forma de manter uma fonte Aqui, voc estabelecer dois
confivel, preciso garantir confivel de dados limpos processos bsicos. O primeiro
a limpeza dos dados a fim e integrados estabelecer um ser sobre como definir as regras
de eliminar duplicaes, erros, processo de criao de dados e as prticas de segurana que
imprecises e dados incompletos. mestres. O objetivo criar uma cada conjunto de dados exige.
O processo deve garantir que coleo avanada de dados O segundo ser sobre como
analistas e especialistas mais consolidados, organizada por detectar dados confidenciais e
qualificados no fiquem o tempo domnio (como produtos, clientes mascar-los de forma persistente
todo fazendo o trabalho errado. etc.) e repleta de insights de Big ou dinmica para garantir que
Data, e que, assim, possa essas regras e prticas
alimentar todos os outros sistemas. recomendadas sejam aplicadas
de maneira consistente.

54 | O grande livro de Big Data da Informatica


Seus
processos

Os oito Big Data

6 7 8

Analisar os dados Analisar as necessidades Operacionalizar o insight A importncia


de negcios da documentao
O processo de anlise depender Como j discutimos no incio
dos analistas, das ferramentas Esta etapa crtica, mas quase deste livro, o impacto do seu Tenha como meta dominar esses
de anlise e das necessidades sempre esquecida. projeto de Big Data nos negcios oito passos e o seu projeto de Big
Data avanar na direo certa.
relacionadas s metas. Configure um processo claro precisa ser sentido. Crie O objetivo estabelecer processos
A mentalidade de descoberta para a anlise das necessidades pipelines automatizados para as claros, repetveis, dimensionveis
iterativa e melhoria contnua dos negcios, mesmo quando respostas que voc encontrar e com melhorias contnuas. Para
isso, a documentao desses
desempenhar um papel crucial estiver analisando os dados. Isso e os entregue aos usurios de processos e as melhorias contnuas
nesse caso, pois esse processo muito importante porque, caso negcios que mais precisam so vitais para a equipe.
dever ficar melhor, mais rpido, voc desacelere o ritmos dos deles. Por exemplo, os dados
As habilidades, os recursos e as
mais barato e mais dimensionvel negcios, poder isolar seus sobre os clientes com maior lies do seu projeto de Big Data
ao longo do tempo e com uma esforos e minimizar o impacto probabilidade de rotatividade devem ser transferveis e
experincia maior. nos prprios negcios. devem ser disponibilizados aos comunicadas com frequncia.

agentes de atendimento ao
cliente por meio de um painel de
controle. Lembre-se de incorporar
um ciclo de feedback tambm,
assim poder ver como o insight
recebido.

55 | O grande livro de Big Data da Informatica


92

93
362

Sua
40

264
654

arquitetura
Para que a cadeia187de suprimentos de Big Data 468
78
seja enxuta e eficaz, preciso garantir que
a arquitetura seja slida e construda de maneira 157
estratgica. Nesta seo, vamos discutir como
deve ser uma arquitetura de Big Data ideal e como
implant-la a sua em uma abordagem em fases.

62

61

50
Sua
arquitetura

Primeiros passos: Sua rea restrita

Para comear a criar Comece pequeno Tamanho importante

a arquitetura do seu Comeando com uma rea restrita A principal diferena entre a rea
projeto de Big Data, bem definida sobre a qual tenha restrita e a implementao real
o ponto de partida mais total controle, voc conseguir o ambiente de produo, que
lgico a criao de fazer a interao do caminho ser muito maior. Isso exigir
para uma implementao mais um tratamento automatizado para
um ambiente de bem-sucedida. Comece ingerir, integrar, limpar e distribuir
desenvolvimento em a trabalhar o mais rapidamente a sada. Portanto, ser preciso ter
uma rea restrita, na possvel e a documentar as lies uma estrutura muito mais robusta,
qual voc possa usar aprendidas em cada iterao. alm de componentes e processos
comprovada e verdadeiramente
dados de teste para confiveis e flexveis em um
garantir a viabilidade ambiente de produo dinmico.
da arquitetura. Ao fazer
isso, lembre-se de levar
em considerao as
seguintes lies.

57 | O grande livro de Big Data da Informatica


Sua
arquitetura

Primeiros passos: Sua rea restrita

Faa o mascaramento antes No se perca na traduo


de testar
Uma das fontes mais comuns de
Quando as organizaes usam atrasos e desvios oramentrios
dados de teste, elas geralmente onerosos dos projetos de Big Data
usam uma variante dos dados decorre do fato de que os erros
de produo dinmicos para de codificao manual (que se
garantir que os formatos e as perderam na rea restrita) voltam
estruturas representem o ambiente a assombrar a equipe quando
dinmico. Infelizmente, se esses a arquitetura ativada. Assim, se
dados no forem mascarados voc codificar manualmente partes
de forma adequada, os dados significativas da arquitetura,
confidenciais podero ficar espere o refatoramento de vrios
expostos em um ambiente de teste cdigos para atender aos
totalmente inseguro. requisitos no nvel de produo
e administre as expectativas
adequadamente. Como
alternativa, use ferramentas de
produtividade e automao para
evitar a necessidade de refatorar
o cdigo e os erros.

58 | O grande livro de Big Data da Informatica


Sua
arquitetura

A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendao para criar
a arquitetura ideal de tecnologia
e processos de Big Data.

Fontes de dados Ingesto de dados Gerenciamento de dados Entrega de dados Aplicativos

Bancos de dados relacionais Carga de lotes Integrao de dados Carga de lotes Visualizao
Mainframe Qualidade de dados Aplicativos mveis
Documentos e e-mails Captura de Mquina virtual de dados Hub de Anlise
dados de integrao
Mdia social, dados de Segurana de dados Business Intelligence
alteraes de dados
terceiros e arquivos de log Gerenciamento de dados Painis em tempo real
Sensor de mquina mestres
Nuvem pblica Streaming Armazenamento Virtualizao
Nuvem privada de dados dimensionvel de dados
(por exemplo, Hadoop)
Arquivamento Data warehouse Processamento
em tempo real
e baseado
em eventos

59 | O grande livro de Big Data da Informatica


Seu plano
de projeto
Agora, ns j analisamos todos os aspectos
da sua jornada de Big Data. O prximo passo
usar este plano de projeto como um guia
estrutural para gerenciar um projeto de Big
Data, do lanamento implementao.
Seu plano
de projeto

Seu plano de projeto

Use este modelo de Estgio 1: A estratgia Estgio 2: Os dados


plano de projeto como
uma estrutura para Identificar as metas de TI e de negcios Identificar as informaes necessrias

documentar os detalhes Definir as medidas de sucesso Identificar os dados e as origens para entreg-los
e os diferentes elementos
do seu projeto de Big
Data. Depois, use
o documento compilado
como uma maneira
de obter a adeso
necessria do restante
da sua organizao.
Ele tambm ser til
quando voc abordar
parceiros externos.

61 | O grande livro de Big Data da Informatica


Seu plano
de projeto

Seu plano de projeto

Estgio 3: A cadeia de suprimentos Estgio 4: Operacionalizar o insight

As pessoas As ferramentas Desenvolver painis


oo Avaliar as habilidades oo Computao distribuda

necessrias (por exemplo, Hadoop) Automatizar processos para entrega de dados


oo Avaliar as habilidades oo Qualidade de dados

existentes oo Integrao de dados Definir um processo de feedback


oo Gerenciamento de dados

O processo mestres
oo Acessar os dados oo Mascaramento de dados

oo Integrar os dados oo Visualizao

oo Limpar os dados oo Anlise de streaming

oo Criar dados mestres oo Anlise

oo Proteger os dados oo Aprendizado de mquina

oo Analisar os dados

oo Analisar as necessidades

de negcios

62 | O grande livro de Big Data da Informatica


Seguindo
Use as listas de verificao, De muitas maneiras, seu primeiro
os princpios e as diretrizes que projeto de Big Data ser
descrevemos neste livro para trazer inesquecvel. A partir dos erros que

em frente
o potencial do Big Data para podero ocorrer para criar uma
a sua organizao. Seja qual for equipe , voc estar pronto para
o tamanho do seu projeto, agora uma jornada de imenso valor
temos certeza de que voc estar
estratgico para a sua empresa.
melhor equipado para lidar com
os vrios desafios deste projeto.
Ao navegar e evitar as muitas
ciladas que discutimos, e se mantiver
Lembre-se: seja estratgico em
um forte compromisso com a sua
relao aos seus recursos e mantenha
viso desse projeto, voc ser capaz
um foco preciso no desenvolvimento
de processos e habilidades que sejam de mudar a forma como
transferveis, dimensionveis a organizao funciona.
e estejam em constante
aperfeioamento. Se voc mantiver Isso vai ser o mximo!
uma viso de longo prazo ao realizar
esse projeto, poder preparar
a sua organizao para anlises
aprimoradas e decises mais
fundamentadas por um longo tempo.
63 | O grande livro de Big Data da Informatica
Prximos passos
Pronto para comear a colocar
em prtica o que aprendeu?

Se voc um desenvolvedor da
Informatica, poder ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e servios de Big Data colocaro voc
no caminho certo.

64 | O grande livro de Big Data da Informatica


Sobre
a Informatica
Ajudamos as empresas a gerenciar dados
para que elas possam extrair deles um valor
de negcios mensurvel. E estamos ajudando
algumas das maiores empresas do mundo a
encontrar os erros mais comuns de gerenciamento
de dados para que alcancem o sucesso em
projetos repetveis e dimensionveis de Big Data.

Vamos conversar.

IN18-1014-2730

Você também pode gostar