Escolar Documentos
Profissional Documentos
Cultura Documentos
O Grande Livro de Big Data
O Grande Livro de Big Data
de Big Data
Um guia prtico para tirar o
seu primeiro projeto de Big Data
do papel.
Contedo
Introduo
Parte A: Como se preparar
3
4
12
13
15
17
19
6
7
10
24
25
27
29
30
33
36
Sua equipe
Cinco lies essenciais para a criao da equipe
Implemente a governana de dados
As habilidades que voc tem e aquelas de que precisa
37
38
42
45
Suas ferramentas
Noes bsicas sobre as ferramentas de Big Data
47
48
Seus processos
Os oito Big Data
52
53
Sua arquitetura
Primeiros passos: Sua rea restrita
A arquitetura ideal do Big Data
56
57
59
60
61
Seguindo em frente
63
Prximos passos
64
Sobre a Informatica
65
23
Como
ser
grande
Parte A:
Como se
preparar
O livro est divido em trs partes.
Nesta primeira parte, tentaremos aprimorar a sua
viso para que voc possa escolher o projeto certo.
Voltar para Contedo
<
O que voc
precisa saber
14
12
10
O que voc
precisa saber
O que voc
precisa saber
1
Metas vagas
O motivo de falha mais citado
na pesquisa foi o escopo
impreciso do projeto. Muitas
empresas tm como meta projetos
ambguos,(ambguos demais, vale
ressaltar), com objetivos no muito
claros, e que falham quando elas
precisam fazer escolhas difceis
sobre o que ou no importante.
1.
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
O que voc
precisa saber
O que voc
precisa saber
O que voc
precisa saber
O que voc
precisa saber
Escolha do
projeto certo
Sob a perspectiva dos desafios que voc
enfrentar, vamos analisar agora o que voc
deve fazer para escolher o projeto certo para
asua organizao.
Escolha do
projeto certo
Valor demonstrvel
Patrocnio
Escolha do
projeto certo
Habilidades transferveis
Depois de ter demonstrado o
valor do Big Data para o seu
departamento de marketing, por
exemplo, ser mais fcil conquistar
a adeso das equipes de logstica
que talvez estejam reticentes.
Escolha do
projeto certo
Considere o impacto
Quando for escolher qual ser
oseu prximo projeto, voc
tambm ter que pensar em como
isso afetar a organizao.
H trs aspectos gerais que
devem influenciar a sua deciso de
buscar o projeto certo de Big Data.
1
Custo e interrupo
No nvel mais bsico, o custo do
projeto se baseia no tempo e no
dinheiro que sero necessrios
para torn-lo realidade. Na
verdade, preciso considerar
tambm a possvel interrupo
que isso causar.
s vezes, a interrupo
processual por exemplo,
quando as unidades de negcio
so usadas para armazenar os
dados e no se sentem vontade
em abrir mo do controle deles
para uma estrutura centralizada
de governana de dados.
Escolha do
projeto certo
Considere o impacto
2
Cronograma de benefcios e
impacto
Ao considerar o incio de
diferentes projetos, a tendncia
que voc se volte aos que
podem oferecer o mximo de
impacto e melhoria aos negcios.
Mas tambm importante
considerar a natureza do
impacto nos negcios. O projeto
proporcionar a maior parte do
valor no curto ou no longo prazo?
Recursos e restries
Mais importante: quando os
usurios de negcios vero os
resultados nos negcios? Por
exemplo, voc poderia introduzir
o gerenciamento de dados
mestres no data warehouse e
melhorar radicalmente a eficincia
de Business Intelligence. Mas esse
valor s ser sentido quando os
analistas de negcios perceberem
que no precisaro limpar os
dados financeiros novamente.
Escolha do
projeto certo
Financeiro
Anlise de
risco e portflio
Recomendaes
de investimento
Fabricao
Se voc ainda no tem certeza
sobre qual projeto deve ser
iniciado primeiro pela
organizao, considere os
seguintes exemplos para ter uma
ideia melhor do que o Big Data
pode oferecer para a sua empresa.
Programas de
veculos
conectados
Manuteno
preditiva
Varejo
Mdia
Envolvimento
de clientes
proativos
Servios baseados
em localizao
Rastreamento
de comportamento
em jogo
Opes de vendas
cruzadas e
adicionais
Assistncia mdica
Setor pblico
Previses de
resultados de
pacientes
Custo total do
tratamento
Descoberta de
medicamentos
Seguro sade
Intercmbios
Otimizao
tributria
Deteco de
fraudes
Escolha do
projeto certo
U
ma grande empresa de
tecnologia no Vale do Silcio
tem como objetivo economizar
mais de US$ 10 milhes em
custos do data warehouse que
no para de crescer utilizando
uma combinao de Hadoop
e uma tecnologia tradicional
de data warehouse para
diminuir o crescimento do
custo total por terabyte.
U
m grande fabricante na rea
de transportes est buscando
reduzir a taxa de consumo de
combustvel de seus veculos
em 1% ao longo dos prximos
10 anos. Ele tambm pretende
reduzir as emisses txicas de
carbono aumentando os
perodos de manuteno em
10% e melhorando a
quilometragem em 1%.
U
m fabricante envolvido com
locomotivas pretende liberar
uma milha adicional por hora
em rotas dirias para que seus
clientes possam economizar
at US$ 200 milhes por ano.
U
ma empresa global de
servios de pagamentos est
tentando aumentar os negcios
digitais em 30% atravs do
aumento da personalizao
do cliente, tudo parte de uma
estratgia de Big Data
denominada otimizao
omni-channel de varejo.
Essas so algumas grandes
vitrias para qualquer equipe
de Big Data.
Escolha do
projeto certo
1
Otimizao do data warehouse
Isso implica optar pelo
armazenamento e
processamento de dados na
plataforma mais econmica.
Muitas vezes, isso comea com
a retirada de dados brutos ou
pouco usados e de cargas de
trabalho de ETL do hardware
caro de data warehouse.
Escolha do
projeto certo
A jornada bsica
do Big Data
2
Inteligncia operacional
em tempo real
Isso significa criar um lago
de dados que refine, governe
e domine os dados. Porm,
preciso ter uma viso antecipada
muito boa para chegar l, pois
necessrio incorporar polticas de
governana de dados e processos
estratgicos rigorosos. Sem eles,
o lago corre o risco de se
transformar basicamente em
um pntano de dados.
Escolha do
projeto certo
Escolha do
projeto certo
A jornada bsica
do Big Data
Como nossos clientes definem
seus objetivos fundamentais
At mesmo projetos bsicos
devem ser especficos sobre o que
esto tentando construir. Embora
a especificidade aqui talvez no
seja relacionada aos custos e ao
tempo economizados, ela se
aplica aos limites do que est
sendo exatamente construdo.
Considere os seguintes exemplos
de projetos de infraestrutura de
Big Data dos nossos clientes.
U
ma organizao global que
conduz centenas de milhes
de transaes financeiras em
centenas de pases construiu
um hub de dados de toda a
empresa. O objetivo fazer
aanlise do Big Data e
identificar as principais
macrotendncias e padres
na interao com os clientes.
U
ma grande empresa de
tecnologia construiu uma
anlise em nuvem de toda
a empresa para reduzir o tempo
de introduo no mercado de
produtos orientados por dados,
incluindo novos conjuntos de
dados em anlises a serem
usadas nas unidades de
negcio.
U
ma organizao de
consultoria financeira global
criou uma infraestrutura lgica
de data warehouse para
garantir a disponibilizao de
informaes consistentes em
todas as plataformas padro
(incluindo Hadoop, bancos de
dados operacionais e data
warehouses tradicionais) que
esto sendo usadas pela
organizao.
Em resumo: Grandes jogadas
causam grandes impactos, mas
exigem as bases certas.
Parte B:
Sua estratgia
Agora vamos ser prticos e analisar
os requisitos especficos para o seu
prximo (ou primeiro) projeto de Big Data.
<
598
55mph
Defina as
suas metas
276m
70mph
101m
75mph
411m
67mph
136m
72mph
Defina as suas
metas
As metas de negcios
Vamos comear com os
negcios, porque esses
objetivos devero ter
precedncia sobre as
metas de TI se voc
quiser total apoio para
o seu projeto.
Defina as suas
metas
As metas de negcios
Liste, em ordem de importncia, as metas do seu
projeto de Big Data que digam respeito aos
negcios e aos usurios de negcios. Fique
vontade para inserir menos ou mais metas.
Por exemplo, reduzir a rotatividade de clientes
Defina as suas
metas
Metas de TI
Agora vamos analisar as metas
de TI relacionadas ao seu projeto.
Defina as suas
metas
Metas de TI
Defina intervalos de tempo mnimo e mximo para
cada meta a ser alcanada.
Por exemplo, de dois a quatro meses
Defina as
necessidades
de dados
Agora que j definimos as metas especficas dos
seus esforos de Big Data, vamos direto ao ncleo
do projeto: os dados em si. Seja qual for o projeto,
voc ter que pensar de maneira estratgica sobre
quais informaes so necessrias, quais conjuntos
de dados atendem a essa necessidade, como obter
esses dados e como us-los.
Defina as necessidades
de dados
Quais so os dados
que voc precisa?
Primeiro, vamos analisar
a finalidade mais bsica do
seu projeto de Big Data: as
informaes que voc est
tentando fornecer organizao.
Responda s seguintes perguntas
o mais especificamente possvel.
Defina as necessidades
de dados
Quais so os dados
que voc precisa?
Quais sistemas de origem contm esses conjuntos
de dados?
Por exemplo, registros de atendimento ao cliente,
mtricas de desempenho do produto, banco de
dados de atividade do cliente, gerenciamento de
dados mestres de clientes
Defina as necessidades
de dados
Quais so os dados
que voc precisa?
Entre os conjuntos de dados que no posso acessar
atualmente, quais deles podem conter dados
contextuais adicionais?
Por exemplo, dados sociais de terceiros, dados de
mercado de terceiros, dados meteorolgicos
Defina as necessidades
de dados
1
Prepare-se para o volume
Voc ter que se preparar para
lidar com a enormidade dos
dados que sero necessrios.
Usando dimenses, classifique
os dados com base nos seus
respectivos valores (por exemplo,
transaes de clientes), uso
(frequncia de acesso), tamanho
(gigabytes, terabytes),
complexidade (dados de
mquinas, dados relacionais,
vdeo etc.) e quem tem permisso
para acess-los (apenas seus
especialistas de dados ou qualquer
usurio ocasional de negcios).
Um inventrio completo
e organizado dos seus dados
ajudar a determinar como
gerenciar tudo isso. Avalie
sua capacidade atual de
armazenamento e
processamento e procure as
formas mais econmicas e
eficientes de torn-la
dimensionvel.
Defina as necessidades
de dados
Administre a velocidade
Tentar codificar manualmente
cada integrao to
complicado que poderia
consumir todo o tempo e os
recursos disponveis. Aproveite
ao mximo as ferramentas de
integrao e qualidade de dados
disponveis para acelerar o
processo para tarefas mais
importantes.
Defina as necessidades
de dados
Garanta a veracidade
No importa o grau de
importncia de suas anlises,
elas no valero nada se as
pessoas no puderem confiar
razoavelmente nos dados que
conseguirem. Quanto mais
dados voc analisar, mais
importante ser manter um alto
nvel de qualidade dos dados.
Pense na conformidade
Para que os dados sejam
adequados finalidade, voc
precisa conhecer essa finalidade.
Se um especialista de dados
estiver procurando padres em
dados agregados do cliente,
a preparao necessria ser
mnima. Por outro lado, os dados
de relatrios financeiros e da
cadeia de suprimentos devero
ser altamente editados, limpos
e certificados para obter preciso
e conformidade.
Parte C:
Sua cadeia de
suprimentos
simples de Big Data
Os mtodos tradicionais de Business Intelligence e data
warehouse no dimensionveis o suficiente para atender s
necessidades das iniciativas de Big Data. Agora, veremos como
voc pode dimensionar a equipe, os processos e a infraestrutura.
Voltar para Contedo
<
Sua
equipe
Sua equipe de Big Data representa o seu maior
desafio e a sua maior oportunidade. Voc
precisa de um bom equilbrio entre pessoas que
entendem as metas de negcios e pessoas que
podem executar suas exigncias tcnicas.
Sua
equipe
As estruturas de dados
distribudos so muito difceis de
gerenciar. Das habilidades Java
necessrias para desenvolver em
Hadoop s novas habilidades
em cincias de dados a serem
contratadas, ser necessrio
obter muitas novas habilidades
para que o projeto realmente
3
decole.
3.
Sua
equipe
4.
Sua
equipe
Sua
equipe
A importncia de ser
estratgico
5
Sua equipe no pode
ficar parada
As tecnologias de Big Data esto
surgindo todos os dias. E as que
j existem esto evoluindo
rapidamente. Este um momento
bastante emocionante para
as empresas que so corajosas
o suficiente para adotar as
prticas recomendadas
anteriormente. Mas representa
tambm o desafio definitivo de
comear antes dos concorrentes.
As habilidades da equipe
precisam evoluir com a mesma
velocidade das mudanas que
esto ocorrendo no mundo.
A boa notcia que o que mais
motiva os melhores profissionais
o desafio de chegar primeiro.
O desafio est em oferecer
o treinamento e o debate
necessrios para continuar
aumentando as habilidades
dessas pessoas e as suas
prprias.
Sua
equipe
Essencialmente, a equipe de
governana de dados o quadro
formal de executivos responsvel
por supervisionar a abordagem
de dados da empresa. Mas
tambm deve incluir responsveis
pelo gerenciamento de
dados pessoas de
departamentos especficos que
tenham a tarefa de gerenciar os
dados provenientes de uma
unidade de negcio especfica.
De fato, alguns de nossos
clientes atribuem funes de
responsabilidade pelo
gerenciamento de dados com
base no domnio de dados. Isso
significa que uma pessoa fica
responsvel pelos dados de
produtos, enquanto outra fica
responsvel pelos dados de
clientes e assim por diante.
Sua
equipe
Interfuncional
Comunicativa
Um conselho de governana
de dados formado por pessoas
diferentes com funes
semelhantes ser ineficaz.
O objetivo criar um conselho que
possa representar as opinies e as
necessidades exclusivas de cada
unidade de negcios que o seu
projeto de Big Data dever apoiar.
Sua
equipe
Eficiente
Comprometida
Centralizada
Sua
equipe
Sua
equipe
A funo
Especialista de dados
Algum j
pode executar
essa funo?
ou
Eu preciso
contratar algum
para essa funo
Com base na
quantidade de tempo
disponvel, eu preciso
contratar X pessoas
ou
Especialista em domnios
Analista de negcios
Analista de dados
Engenheiro de dados
A necessidade de um
pensamento integrado
10356
98276
Suas
ferramentas
41523
10392
60303
18456
63002
15234
45623
Suas
ferramentas
Ingesto de dados
O processo de consumir os
dados necessrios de forma
adequada, eficiente e metdica.
Carga de lotes
Voc acessa todos os tipos
de dados de que precisa
e dimensiona com eficincia
o desempenho da carga de
lotes nos repositrios de dados?
Captura de dados de mudanas
Voc captura as alteraes
feitas nos dados dos sistemas
de origem sem afet-los?
Fluxo de dados
Voc coleta dados de forma
confivel em tempo real e os
transmite nos repositrios de
dados?
Arquivamento
Voc arquiva e compacta
dados que no so usados
com frequncia, garantindo
fcil acesso aos dados
arquivados, se necessrio?
Suas
ferramentas
Gerenciamento de dados
Todas as polticas, processos
e prticas necessrias para
gerenciar adequadamente
a eficcia, a preciso,
a confiabilidade e a
disponibilidade dos dados.
Integrao de dados
Voc consegue preparar
e consolidar vrias estruturas
e fontes em um conjunto de
dados consistente para anlise?
Qualidade de dados
Voc consegue, de forma
confivel, limpar os dados,
deduplicar e remover os erros?
Segurana de dados
Voc descobre e protege os
dados em todos os repositrios
de dados, atribuindo para isso
regras sobre uso, acesso
e permisses?
Data warehouse
Voc tem uma tecnologia
de data warehouse que possa
lidar com os requisitos
de desempenho, uso e
dimensionamento para anlises
e integraes de Big Data com
infraestruturas Hadoop?
Suas
ferramentas
Entrega de dados
Processo de envio dos dados
necessrios aos sistemas
e aplicativos que precisam deles.
Carga de lotes
Voc dimensiona com eficincia
a carga de lotes de dados entre
os sistemas de origem, anlise e
back-end operacionais?
Visualizao de dados
Voc entrega dados dos seus
sistemas sem sobrecarreg-los?
Processamento baseado
em eventos
Voc capaz de detectar,
analisar e reagir a ameaas,
oportunidades e outros eventos
crticos de negcios em tempo
real?
Suas
ferramentas
Anlise
As ferramentas e os processos
que transformam dados brutos
em insights, padres, previses
e clculos sobre o domnio que
voc est analisando.
Visualizao
Voc pode apresentar dados
e resultados de maneira
a facilitar a compreenso
e o entendimento?
Anlise avanada
Voc consegue aplicar
algoritmos analticos avanados
aos seus conjuntos de dados
para fazer clculos complexos?
Aprendizado de mquina
Voc consegue aplicar
sofisticados algoritmos de
aprendizado de mquina para
identificar padres e fazer
previses em um nvel para
o qual no tem a largura de
banda manual compatvel?
Seus
processos
Vamos nos aprofundar nos processos reais de
que voc precisar para lidar com o Big Data.
Seus processos especficos sero exclusivos
para suas metas e necessidades, mas esta seo
pode dar uma viso geral sobre o que esperar
e o que voc aprender.
Seus
processos
Acessar os dados
Integrar os dados
Seus
processos
Limpar os dados
Proteger os dados
Seus
processos
7
Analisar as necessidades
de negcios
Esta etapa crtica, mas quase
sempre esquecida.
Configure um processo claro
para a anlise das necessidades
dos negcios, mesmo quando
estiver analisando os dados. Isso
muito importante porque, caso
voc desacelere o ritmos dos
negcios, poder isolar seus
esforos e minimizar o impacto
nos prprios negcios.
8
Operacionalizar o insight
Como j discutimos no incio
deste livro, o impacto do seu
projeto de Big Data nos negcios
precisa ser sentido. Crie
pipelines automatizados para as
respostas que voc encontrar
e os entregue aos usurios de
negcios que mais precisam
deles. Por exemplo, os dados
sobre os clientes com maior
probabilidade de rotatividade
devem ser disponibilizados aos
agentes de atendimento ao
cliente por meio de um painel de
controle. Lembre-se de incorporar
um ciclo de feedback tambm,
assim poder ver como o insight
recebido.
A importncia
da documentao
Tenha como meta dominar esses
oito passos e o seu projeto de Big
Data avanar na direo certa.
O objetivo estabelecer processos
claros, repetveis, dimensionveis
e com melhorias contnuas. Para
isso, a documentao desses
processos e as melhorias contnuas
so vitais para a equipe.
As habilidades, os recursos e as
lies do seu projeto de Big Data
devem ser transferveis e
comunicadas com frequncia.
92
93
Sua
arquitetura
362
40
264
654
78
157
62
61
50
Sua
arquitetura
Comece pequeno
Tamanho importante
Sua
arquitetura
No se perca na traduo
Uma das fontes mais comuns de
atrasos e desvios oramentrios
onerosos dos projetos de Big Data
decorre do fato de que os erros
de codificao manual (que se
perderam na rea restrita) voltam
a assombrar a equipe quando
a arquitetura ativada. Assim, se
voc codificar manualmente partes
significativas da arquitetura,
espere o refatoramento de vrios
cdigos para atender aos
requisitos no nvel de produo
e administre as expectativas
adequadamente. Como
alternativa, use ferramentas de
produtividade e automao para
evitar a necessidade de refatorar
o cdigo e os erros.
Sua
arquitetura
A arquitetura ideal
do Big Data
O diagrama a seguir representa
nossa recomendao para criar
a arquitetura ideal de tecnologia
e processos de Big Data.
Fontes de dados
Ingesto de dados
Carga de lotes
Captura de
dados de
alteraes
Streaming
de dados
Arquivamento
Gerenciamento de dados
Entrega de dados
Integrao de dados
Qualidade de dados
Mquina virtual de dados
Segurana de dados
Gerenciamento de dados
mestres
Armazenamento
dimensionvel
(por exemplo, Hadoop)
Data warehouse
Carga de lotes
Hub de
integrao
de dados
Virtualizao
de dados
Processamento
em tempo real
e baseado
em eventos
Aplicativos
Visualizao
Aplicativos mveis
Anlise
Business Intelligence
Painis em tempo real
Seu plano
de projeto
Agora, ns j analisamos todos os aspectos
da sua jornada de Big Data. O prximo passo
usar este plano de projeto como um guia
estrutural para gerenciar um projeto de Big
Data, do lanamento implementao.
Seu plano
de projeto
Estgio 1: A estratgia
Estgio 2: Os dados
Seu plano
de projeto
As ferramentas
oo Computao distribuda
(por exemplo, Hadoop)
oo Qualidade de dados
oo Integrao de dados
oo Gerenciamento de dados
mestres
oo Mascaramento de dados
oo Visualizao
oo Anlise de streaming
oo Anlise
oo Aprendizado de mquina
Seguindo
em frente
Prximos passos
Pronto para comear a colocar
em prtica o que aprendeu?
Se voc um desenvolvedor da
Informatica, poder ser um
desenvolvedor de Hadoop.
Nossos testes de software, conectores
e servios de Big Data colocaro voc
no caminho certo.
Sobre
a Informatica
Ajudamos as empresas a gerenciar dados
para que elas possam extrair deles um valor
de negcios mensurvel. E estamos ajudando
algumas das maiores empresas do mundo a
encontrar os erros mais comuns de gerenciamento
de dados para que alcancem o sucesso em
projetos repetveis e dimensionveis de Big Data.
Vamos conversar.
IN18-1014-2730