de Big Data
Um guia prtico para tirar o
seu primeiro projeto de Big Data
do papel.
Contedo
Parte C: Sua cadeia de suprimentos de
Introduo 3 36
Big Data descomplicada
grande
tanto potencial de transformao. Desde Este livro servir como um guia
que o software comeou a envolver prtico na sua jornada, esteja voc
processos de negcios completos, na comeando uma iniciativa especfica
virada do sculo, uma coisa ficou clara: e ttica ou planejando um esforo
os dados mudam o modo como mais estrutural para toda a empresa.
trabalhamos.
Vamos nos aprofundar.
claro que, com grandes expectativas,
tambm vm grandes desiluses.
E, no caso do Big Data, com certeza
j vimos bons conselhos e informaes
erradas difundidos na mesma medida.
Infelizmente, como este admirvel
mundo novo de dados infinitos ainda
bem recente, todo esse barulho deixou
muita gente confusa.
3 | O grande livro de Big Data da Informatica
Parte A:
Como se
preparar
O livro est divido em trs partes.
Nesta primeira parte, tentaremos aprimorar a sua
viso para que voc possa escolher o projeto certo.
precisa saber 12
projetos.
2
O que voc
precisa saber
1.
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
7 | O grande livro de Big Data da Informatica
O que voc
precisa saber
Todo o entusiasmo em torno do Big Quando a expectativa de Apesar dessa disciplina ser Quando raros e caros
Data gera algumas expectativas impacto e insights muito alta, bem nova para as empresas, desenvolvedores de Hadoop Java
muito perigosas sobre o que voc se pega navegando em no novidade que a maioria so contratados e encarregados
o projeto pode proporcionar. terabytes de annimos e dos projetos de Big Data acaba de implementaes gigantescas
Por mais que seja tentador fazer desconhecidos procura de custando caro ou demorando com codificao manual, as
promessas a curto prazo, ouro. Quando a expectativa de muito. Normalmente, isso empresas logo percebem que
importante manter uma viso resultados no realista, voc resultado de uma mistura de impossvel sair do ambiente de
realista do que se pode esperar acaba buscando prazos e expectativas mal administradas rea restrita sem erros. Como
do projeto, quanto tempo isso vai oramentos que no so justos. e de vises inadequadas sobre resultado, os projetos de Big Data
levar e a quantidade de esforos como construir uma arquitetura acabam definhando como um
necessrios para chegar l. dimensionvel. experimento cientfico e nunca
saem do laboratrio.
Incapacidade de dimensionar
Evite a tentao de codificar tudo O mais importante no cair na Alm disso, como as tecnologias
manualmente diretamente no armadilha de desperdiar talentos do tipo Hadoop evoluem a cada
Hadoop. Lembre-se de que o de desenvolvimento de Java, raros dia, vale a pena considerar uma
objetivo aqui no construir uma e caros, em aspectos que no camada de abstrao que possa
implementao de trabalho podem ser dimensionados ou lhe proteger das constantes
manual a partir do zero; o transferidos para outros mudanas nas especificaes
objetivo entregar o valor do funcionrios. A sua funo tomar das tecnologias subjacentes.
BigData para a sua organizao. decises estratgicas sobre a
implantao de recursos escassos, Acima de tudo, lembre-se de que
de forma a atingir seus objetivos. as habilidades necessrias so
Em vez de tentar codificar
manualmente cada integrao, escassas, mas as ferramentas
Adote ferramentas que possam
limpar cada conjunto de dados esto sempre disponveis.
aumentar a produtividade da
e codificar manualmente todas
equipe de desenvolvimento por
as anlises, voc deve analisar
meio do aproveitamento das
ferramentas e automao para
habilidades e do conhecimento
ajudar a acelerar esses processos.
da qualidade dos seus dados de
ETL existentes e de especialistas
em Business Intelligence,
enquanto libera os especialistas
em Java para trabalhar na lgica
especfica para a qual no h
ferramentas disponveis.
11 | O grande livro de Big Data da Informatica
Escolha do
projeto certo
Sob a perspectiva dos desafios que voc
enfrentar, vamos analisar agora o que voc
deve fazer para escolher o projeto certo para
asua organizao.
Escolha do
projeto certo
3 4
A importncia estratgica do seu Depois de ter demonstrado o Como dissemos no ltimo ponto, Portanto, prepare-se para
primeiro projeto ttico vital. valor do Big Data para o seu preciso que o valor do seu primeiro dimensionar, de modo que voc
Alm de provar, sem sombra de departamento de marketing, por projeto ajude a convencer os possa lidar com mais projetos no
dvida, que o Big Data pode exemplo, ser mais fcil conquistar outros departamentos da empresa. futuro. No se trata apenas de
ajudar a unidade de negcio a adeso das equipes de logstica Para isso, preciso se certificar dimensionar o seu cluster. Trata-
que voc est apoiando, bom que talvez estejam reticentes. de que voc pode aprender as se de dimensionar habilidades
se certificar de que o valor possa habilidades, as capacidades e as eoperaes. Voc vai precisar
ser comunicado facilmente para lies certas do seu primeiro encontrar mais especialistas de
a empresa em geral. projeto. Mais enfaticamente, Java/Hadoop ou encontrar
preciso garantir que tudo isso maneiras de extrair mais dos
Portanto, ao escolher o seu seja documentado para que voc recursos que j tem.
primeiro projeto, faa isso de possa transferir conhecimento para
maneira estratgica. o prximo projeto. Lembre-se, se a
sua meta o sucesso, ento voc
j est se preparando para futuros
projetos.
Considere o impacto
Considere o impacto
2 3
A jornada bsica
do Big Data
2 3
A jornada bsica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais
Defina as
276m
70mph
suas metas
101m
75mph
501m
69mph
411m
67mph
136m
72mph
Defina as suas
metas
As metas de negcios
Vamos comear com os Seja o mais especfico possvel Quanto mais claras forem suas
ao estabelecer as metas de metas, maiores sero suas
negcios, porque esses negcios a serem alcanadas chances de atingi-las. Uma meta
objetivos devero ter pelo projeto. E lembre-se de superfocada vale mais que cinco
precedncia sobre as estabelecer metas cujo impacto metas vagas.
metas de TI se voc seja mensurvel.
Metas de TI
Metas de TI
Defina intervalos de tempo mnimo e mximo para Agora, para cada meta, escreva uma medida de
cada meta a ser alcanada. sucesso que possa ser usada para determinar se
Por exemplo, de dois a quatro meses a meta foi atingida. Idealmente, essas medidas devem
ser mtricas disponveis ou seus respectivos clculos.
Por exemplo, a taxa de previso de rotatividade
exata de X%
Quais so os dados
que voc precisa?
Primeiro, vamos analisar Para atingir as metas de negcios descritas Para proporcionar esse conhecimento, quais dados
a finalidade mais bsica do anteriormente, o que os usurios de negcios precisam podem ser usados?
seu projeto de Big Data: as saber para tomar uma deciso fundamentada? Por exemplo, o histrico de compras do cliente, os
informaes que voc est Por exemplo, quais dos clientes mais valiosos so dados de reviso, a taxa de compras, a taxa de
tentando fornecer organizao. suscetveis rotatividade e quais comportamentos desistncia, a taxa de rejeio, a qualidade do
Responda s seguintes perguntas se correlacionam rotatividade atendimento ao cliente
o mais especificamente possvel.
Quais so os dados
que voc precisa?
Quais sistemas de origem contm esses conjuntos Alm dos dados j mencionados, h outras
de dados? informaes que podem proporcionar contexto ou
Por exemplo, registros de atendimento ao cliente, valor adicional s suas anlises?
mtricas de desempenho do produto, banco de Por exemplo, dados de pesquisa de atendimento
dados de atividade do cliente, gerenciamento de ao cliente, anlise de concorrentes, dados
dados mestres de clientes meteorolgicos, dados sociais
Quais so os dados
que voc precisa?
Entre os conjuntos de dados que no posso acessar
A busca por dados obscuros
atualmente, quais deles podem conter dados
contextuais adicionais?
Ao considerar os conjuntos de
Por exemplo, dados sociais de terceiros, dados de dados aos quais voc no tem
mercado de terceiros, dados meteorolgicos acesso, no se limite aos dados
externos sua organizao.
O Gartner descobriu que a
maioria das empresas usa apenas
15% dos seus dados . A Appfluent,
2
2.
ite do Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | O grande livro de Big Data da Informatica
Defina as necessidades
de dados
O aspecto mais desafiador do Tentar codificar manualmente A combinao dos dados de Na verdade, a maioria das
Big Data a grande variedade cada integrao to streaming em tempo real e dos anlises em tempo real precisa se
de formatos e estruturas que voc complicado que poderia seus dados histricos geralmente basear em dados de streaming
ter que conciliar em suas consumir todo o tempo e os aumenta a capacidade de muitas vezes, a partir de
anlises. Ser preciso integrar recursos disponveis. Aproveite previso da anlise. Assim, diferentes fontes, em diferentes
vrias fontes se quiser incluir ao mximo as ferramentas de alguns dos dados que voc formatos. Prepare seu projeto
novos tipos e estruturas de dados integrao e qualidade de dados deseja s podero ser teis se com uma tecnologia analtica de
(sociais, sensores, vdeo) s disponveis para acelerar o estiverem constantemente fluindo streaming e uma infraestrutura
fontes com as quais voc j est processo para tarefas mais nos sistemas. lgica para gerenciar todos os
acostumado (relacionais, importantes. dados.
mainframes legados).
No importa o grau de Para que os dados sejam Os vrios conjuntos de dados com Alm do arquivamento seguro e
importncia de suas anlises, adequados finalidade, voc os quais voc lidar viro com inteligente de dados confidenciais,
elas no valero nada se as precisa conhecer essa finalidade. diferentes condies e requisitos de faa o mascaramento dos dados
pessoas no puderem confiar Se um especialista de dados segurana. Para cada conjunto de com regras predefinidas sempre
razoavelmente nos dados que estiver procurando padres em dados, preciso considerar o que que migr-los ou inseri-los nos
conseguirem. Quanto mais dados agregados do cliente, ser necessrio para torn-los ambientes de desenvolvimento
dados voc analisar, mais a preparao necessria ser annimos com base em polticas e teste.
importante ser manter um alto mnima. Por outro lado, os dados de segurana.
nvel de qualidade dos dados. de relatrios financeiros e da Aplique essas cinco consideraes
cadeia de suprimentos devero Quantidades imensas de dados a cada conjunto de dados que
ser altamente editados, limpos iro se proliferar por toda administrar e, assim, voc estar
e certificados para obter preciso a empresa em centenas de preparado mais realistamente
e conformidade. repositrios de dados. Entenda para o grande desafio relacionado
onde os dados confidenciais aos dados.
Crie categorias baseadas na residem e lembre-se de proteg-
quantidade de preparao los na fonte por meio de
necessria, o que abrange desde criptografia e, em seguida,
dados brutos at um repositrio controle quem tem acesso a eles.
de dados mestres altamente
editado, contendo dados limpos,
confiveis e fidedignos.
Um dos maiores erros que as Concentre as habilidades raras Se tudo der certo, o projeto O equilbrio da sua equipe
empresas cometem quando em tarefas que realmente crescer em escopo e recursos. fundamental. Voc est
contratam especialistas de dados precisam delas. Voc no quer Pense de maneira estratgica procurando a combinao certa
e analistas quantitativos pedir que os seus melhores profissionais agora e poupe-se da difcil de experincia em gerenciamento
que faam o trabalho pesado. peam demisso e certamente conscientizao de que voc no de dados conquistada com
Quando os seus recursos mais no quer que eles percam tempo pode executar determinados trabalho duro e do entusiasmo
qualificados gastam todo o com um trabalho que pode muito processos com a rapidez para aprender novas ferramentas.
tempo em integraes de dados bem ser feito com ferramentas. necessria porque h um nmero Alm disso, preciso encontrar
que exigem codificao manual limitado de pessoas com as o equilbrio entre pessoas com
e na limpeza de dados, voc no habilidades necessrias, at habilidades tcnicas e aquelas
s os deixa frustrados, como mesmo no Vale do Silcio. com a experincia de domnio
tambm no aproveita as necessria para construir os
habilidades que foram to Se o seu projeto crescer em modelos certos.
difceis de encontrar. escopo, quais so as competncias
que voc pode razoavelmente
esperar encontrar a tempo de
atender s suas necessidades? Por
exemplo, especialistas de dados
so infinitamente mais difceis de
encontrar, treinar e contratar do
4
que desenvolvedores.
Big Datas High-Priests of Algorithms (Big Data - Os bispos dos
4.
Um dos erros mais comuns que Sem um controle firme do valor Diferentemente de uma nova Elementos como cultura
as empresas cometem ao comercial do seu projeto, os tecnologia que pode ser e coerncia no podem ser
contratar uma nova equipe novos contratados correm o risco implantada, implementada e subestimados. Pense muito e com
esquecer de comunicar as de achar que s precisam pensar integrada de forma objetiva, calma sobre como integrar as
verdadeiras metas do projeto. nas metas de TI do projeto. o novo pessoal precisa se novas contrataes em seus
Da primeira entrevista at o acostumar ao local de trabalho, processos. Talvez voc no
trabalho em si, preciso ficar ao trabalho que esto fazendo consiga trein-los para as
claro o que voc est tentando e s razes por que esto habilidades, mas com certeza
oferecer aos usurios de fazendo esse trabalho. No pode ajud-los a serem melhores
negcios. Potencialize o apoio importa se voc ou outra integrantes da equipe.
dos executivos para divulgar a pessoa: algum precisa abraar
misso e compartilhar histrias o desafio do gerenciamento que
de sucesso, bem como uma nova equipe exige.
problemas.
3 4 5
O seu processo interfuncional no Lembre-se de comunicar com O maior desafio de uma estrutura
deve ser uma barreira. Ser preciso eficincia as metas principais do de governana de dados
ter bastante agilidade para que seu projeto e certifique-se de que quando voc precisa priorizar
o projeto de Big Data tenha xito. todos os envolvidos na estrutura as metas de uma unidade de
Portanto, crie regras de relatrios de governana de dados estejam negcios sobre as outras que
de automao e exceo sempre comprometidos com essas metas. esto sendo representadas no
que possvel e adote ferramentas Metas em comum ajudam a guiar conselho. Garanta que as suas
de colaborao para manter o seu pensamento de governana decises contemplem o benefcio
os canais de comunicao abertos e as suas decises. a longo prazo de todo o conselho,
e adequados. mesmo que isso signifique
benefcios de curto prazo para
uma nica unidade de negcio.
Especialista em domnios
Analista de negcios
Analista de dados
A necessidade de um
Engenheiro de dados pensamento integrado
Administrador de banco de dados
Quando sair em busca de novos
Arquiteto corporativo
integrantes para a equipe, no se
Arquiteto de soluo de negcios limite a pessoas com as qualificaes
adequadas. No se engane:
Arquiteto de dados encontrar pessoas com as
qualificaes adequadas j um
Responsvel pelo gerenciamento de dados
desafio em si. Mas voc tambm
Desenvolvedor de ETL (integrao de dados) precisa buscar pessoas que tenham
vontade de sintetizar as metas de
Desenvolvedor de aplicativos negcios e as capacidades tcnicas.
Desenvolvedor de painis de controle
Cada vez mais, ouvimos de clientes
Modelador de estatsticas sobre como importante que
as pessoas que se unem aos seus
Outro projetos de Big Data possam ser
capazes de entender a realidade
Outro
dos negcios e trabalhar com uma
Outro cincia de dados complexos. Esse
tipo de pensamento integrado
Outro importantssimo e difcil de encontrar.
Vale a pena investir em treinamento.
Outro
98276
Suas 41523
ferramentas 60303
10392
45623
18456
63002
Suas
ferramentas
3 4 5
Para que a sua anlise seja Uma forma de manter uma fonte Aqui, voc estabelecer dois
confivel, preciso garantir confivel de dados limpos processos bsicos. O primeiro
a limpeza dos dados a fim e integrados estabelecer um ser sobre como definir as regras
de eliminar duplicaes, erros, processo de criao de dados e as prticas de segurana que
imprecises e dados incompletos. mestres. O objetivo criar uma cada conjunto de dados exige.
O processo deve garantir que coleo avanada de dados O segundo ser sobre como
analistas e especialistas mais consolidados, organizada por detectar dados confidenciais e
qualificados no fiquem o tempo domnio (como produtos, clientes mascar-los de forma persistente
todo fazendo o trabalho errado. etc.) e repleta de insights de Big ou dinmica para garantir que
Data, e que, assim, possa essas regras e prticas
alimentar todos os outros sistemas. recomendadas sejam aplicadas
de maneira consistente.
6 7 8
93
362
Sua
40
264
654
arquitetura
Para que a cadeia187de suprimentos de Big Data 468
78
seja enxuta e eficaz, preciso garantir que
a arquitetura seja slida e construda de maneira 157
estratgica. Nesta seo, vamos discutir como
deve ser uma arquitetura de Big Data ideal e como
implant-la a sua em uma abordagem em fases.
62
61
50
Sua
arquitetura
A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendao para criar
a arquitetura ideal de tecnologia
e processos de Big Data.
Bancos de dados relacionais Carga de lotes Integrao de dados Carga de lotes Visualizao
Mainframe Qualidade de dados Aplicativos mveis
Documentos e e-mails Captura de Mquina virtual de dados Hub de Anlise
dados de integrao
Mdia social, dados de Segurana de dados Business Intelligence
alteraes de dados
terceiros e arquivos de log Gerenciamento de dados Painis em tempo real
Sensor de mquina mestres
Nuvem pblica Streaming Armazenamento Virtualizao
Nuvem privada de dados dimensionvel de dados
(por exemplo, Hadoop)
Arquivamento Data warehouse Processamento
em tempo real
e baseado
em eventos
documentar os detalhes
Definir as medidas de sucesso Identificar os dados e as origens para entreg-los
e os diferentes elementos
do seu projeto de Big
Data. Depois, use
o documento compilado
como uma maneira
de obter a adeso
necessria do restante
da sua organizao.
Ele tambm ser til
quando voc abordar
parceiros externos.
O processo mestres
oo Acessar os dados oo Mascaramento de dados
oo Analisar os dados
oo Analisar as necessidades
de negcios
em frente
o potencial do Big Data para podero ocorrer para criar uma
a sua organizao. Seja qual for equipe , voc estar pronto para
o tamanho do seu projeto, agora uma jornada de imenso valor
temos certeza de que voc estar
estratgico para a sua empresa.
melhor equipado para lidar com
os vrios desafios deste projeto.
Ao navegar e evitar as muitas
ciladas que discutimos, e se mantiver
Lembre-se: seja estratgico em
um forte compromisso com a sua
relao aos seus recursos e mantenha
viso desse projeto, voc ser capaz
um foco preciso no desenvolvimento
de processos e habilidades que sejam de mudar a forma como
transferveis, dimensionveis a organizao funciona.
e estejam em constante
aperfeioamento. Se voc mantiver Isso vai ser o mximo!
uma viso de longo prazo ao realizar
esse projeto, poder preparar
a sua organizao para anlises
aprimoradas e decises mais
fundamentadas por um longo tempo.
63 | O grande livro de Big Data da Informatica
Prximos passos
Pronto para comear a colocar
em prtica o que aprendeu?
Se voc um desenvolvedor da
Informatica, poder ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e servios de Big Data colocaro voc
no caminho certo.
Vamos conversar.
IN18-1014-2730