Você está na página 1de 112

Franco Humberto / francohumberto@hotmail.

com

Big Data Essentials


Mindset de Big Data
Quebrando paradigmas, em relação ao tratamento de dados.
2
Objetivos da aula
Franco Humberto / francohumberto@hotmail.com

Entender o poder do Big Data;

Entender quais são os objetivos do Big Data;

Entender a cultura Data Driven;

Entender do que é composto o Mindset de Big Data.

3
3
O poder do Big Data – Por que temos acesso a
tantos produtos “gratuitos” na Internet?
Franco Humberto / francohumberto@hotmail.com

✔ “Na Internet, quando o serviço


é de graça, o produto é você!”

✔ Os dados que você fornece é


o preço que você paga!
4
Dados x Informação x Conhecimento
Franco Humberto / francohumberto@hotmail.com

OOdado
dadoééaamatéria-prima
matéria-primado
doBig Data; ;
BigData

Dadossão
Dados sãofatos coletadoseenormalmente
fatoscoletados normalmentearmazenados;
armazenados;

AAinformação
informaçãoééoodado analisadoeecom
dadoanalisado comalgum significado. .
algumsignificado

O conhecimento é a informação interpretada, entendida e com


uma finalidade.
5
Dados x Informação x Conhecimento
Franco Humberto / francohumberto@hotmail.com

É importante manter a capacidade de endividar


Sabedoria
acima de 60%.

Conhecimento Se a Capacidade Mensal de Endividamento


> 60% Então Crédito = Sim

Informação Capacidade Mensal de Endividamento =


100* (Renda Mensal – Despesas Mensais)

Dados Renda Mensal – Despesas Mensais


6
Dados x Informação x Conhecimento
Franco Humberto / francohumberto@hotmail.com

Um Boeing 787 produz meio terabytes de dados, durante um voo:

✔ Os dados são coletados, por meio de sensores


espalhados na aeronave;
✔ Existem sensores nos flaps da aeronave;
✔ Os flaps ajudam na sustentação da aeronave e no
processo de pouso;

✔ Um flap emite sinais de vibração: isso é um dado;


✔ Sinais são gerados durante o pouso da aeronave:
isso é informação;
✔ É natural um flap vibrar durante o pouso: isso é
conhecimento.
7 Franco Humberto / francohumberto@hotmail.com
8
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com

Big Data é um termo utilizado para


designar uma coleção de dados
grande (em uma escala, acima de
terabytes) e complexa (gerada por
diversas fontes), que possui desafios de
armazenamento e processamento,
usando ferramentas tradicionais de
gerenciamento de dados.
9
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com
10

Mas essa seria a melhor definição?


Franco Humberto / francohumberto@hotmail.com
11
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com

✔ Essencialmente, o termo Big Data significa conjuntos de dados que


são grandes demais para os sistemas tradicionais de
processamento e, portanto, exigem novas tecnologias para
processá-los;
✔ Big Data não é tecnologia!
✔ Big Data não é Hadoop!
✔ Big Data é uma mudança de mindset. Envolve novas e antigas
tecnologias, mas a grande transformação é a revolução nos negócios
que pode potencialmente provocar na organização;
12
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com

✔ O aspecto mais complicado do Big Data é, na verdade, sua falta de


estrutura, embora seu nome enfatize seu tamanho;
✔ “O termo Big Data é genérico para dados que não podem ser contidos
em repositórios usuais; refere-se a dados volumosos demais para caber
em um único servidor; não estruturados demais para se adequar a um
único banco de dados, organizados em linhas e colunas; ou fluídos
demais para se armazenar em um data warehouse estático” (Thomas
H. Davenport, Autor best-seller da Havard, 2014);
13
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com

✔ De acordo com estudos realizados, o mundo usou mais de 2,8 zetabytes


de dados (2,8 trilhões de gigabytes) em 2012;
✔ O que mais importa não é o volume total de dados (“Tamanho não é
documento”);
✔ O mais importante do Big Data é conseguir analisá-los para convertê-
los em conhecimento, inovação e valor!
✔ O estudo mencionado anteriormente, sugere que apenas 0,5% dos 2,8
zetabytes de dados são analisados de alguma forma;
14
O que é Big Data?
Franco Humberto / francohumberto@hotmail.com

✔ O termo Big Data é relativo! “O Big Data de hoje é o Small Data de


amanhã”;
✔ É importante destacar que a cada dia que passa, armazenar e
processar dados está cada vez mais barato, e isso é um fato muito
importante na mudança do mindset para trabalhar com esse “novo
petróleo”! A nuvem permite escalar meu hardware facilmente à custos
cada vez menores.
15
O Big Data e o Analytics Tradicional
Franco Humberto / francohumberto@hotmail.com
16

Cultura do Big Data?


Franco Humberto / francohumberto@hotmail.com
17
O poder dos dados
Franco Humberto / francohumberto@hotmail.com

O poder do Big Data está sempre sendo destacado na mídia;

Está relacionado fortemente com: Negócios, Marketing e Tecnologia adaptativa.

Os dados tem como origem o mundo digital: Atividades físicas


(compartilhamento de fotos, conversas em redes sociais, sites de
relacionamento, etc) →mundo digital;

O mundo digital permite registrar / rastrear atividades com facilidade e


possui ferramentas / interfaces para coleta de dados.
18
Cultura Data Driven
Franco Humberto / francohumberto@hotmail.com

✔ Cultura data driven, consiste basicamente


em tomar decisões embasadas em dados;
✔ Muitas empresas se baseiam em ações sem
fundamentos e acabam perdendo grandes
oportunidades;
✔ Cultura data driven, ou cultura orientada
por dados, existe quando uma empresa
organiza seus processos e métricas com
base em dados reais.
19
Cultura Data Driven - Amazon
Franco Humberto / francohumberto@hotmail.com

Um exemplo significativo de empresa que utiliza muito bem a sua cultura data
driven é a Amazon. Esta empresa a utiliza para:

Oferecer ao usuário uma experiência


significativa, por meio de algoritmos de
recomendação, que são construídos a
partir da análise comportamental dos
clientes, visando oferecer os produtos que
mais se encaixam no perfil dos clientes.
20
Cultura Data Driven - Amazon
Franco Humberto / francohumberto@hotmail.com

A Amazon consegue:

Ao analisar os dados de sua cadeia


logística, a Amazon construiu uma patente
em cima de um modelo preditivo que
consegue antecipar as necessidades de
mercadorias pelos seus depósitos, dessa
forma, ela consegue se preparar para atender
seus clientes da forma mais rápida possível,
diminuindo os custos logísticos da empresa.
21
Cultura Data Driven - Netflix
Franco Humberto / francohumberto@hotmail.com

✔ Stranger Things é uma das séries mais


famosas da Netflix;
✔ A série foi escrita, totalmente baseada em
dados;
✔ A Netflix não é uma empresa de filmes e
séries, mas sim, uma grande empresa de
dados;
✔ Desde os roteiros, personagens, trailers e
imagem de cada série que aparece para
você, são feitos baseado em análises de
dados e algoritmos de recomendação.
22
Cultura Data Driven - Amazon
Franco Humberto / francohumberto@hotmail.com

A Amazon consegue:

Ser muito mais competitiva em relação ao


menor preço dos seus produtos. Ao analisar sua
grande quantidade de informações, é possível
criar uma otimização das ofertas da empresa,
entendendo quando e porque existirá uma
menor concorrência em seu mercado.
23
Mindset de Big Data - Composição
Franco Humberto / francohumberto@hotmail.com

✔ Criar processos de marketing com foco em dados;


✔ Investir em P&D, por meio de uma cultura de testes (percepção de
tendências de consumo, comportamento de usuários etc);
✔ Usar análise preditiva para:
✔ Identificar padrões de clientes;
✔ Gerar ofertas direcionadas;
✔ “Adivinhar o que os clientes precisam”;
✔ Desafiar a sabedoria convencional.
25
A 4ª Revolução Industrial
Franco Humberto / francohumberto@hotmail.com
26
Como construir uma cultura de Big Data?
Franco Humberto / francohumberto@hotmail.com

1. Esclarecer para o seu time, através de exemplos, a importância dos dados;

2. Buscar melhorar cada dia mais a capacidade analítica de sua empresa;

3. Utilizar ferramentas de automação para ter uma fonte de bases de dados.


Após isso, organize os dados;

4. Investir em tecnologias que trarão resultado para seu negócio. Tecnologia


que não gera resultado, não serve para nada;

5. Focar suas contrações em profissionais, que em sua essência já são data


driven, mesmo que eles não saibam.
27
Como saber se uma empresa é data driven?
Franco Humberto / francohumberto@hotmail.com

✔ As decisões são tomadas com base em dados?


✔ Seu time sabe o que significa data driven?
✔ Você utiliza ferramentas que possibilitam capturar novos
dados e melhorar sua análise?
✔ Seus gestores justificam sua decisões com base em dados?
✔ Você está contratando profissionais data driven?
✔ É necessária a Democratização dos Dados para a facilitar
a Tomada de Decisão.
28
Considerações finais
Franco Humberto / francohumberto@hotmail.com

✔ Big Data se trata de pessoas e não apenas dados;


✔ Big Data é um problema e não uma solução;
✔ Os smartphones são a maior fonte de informação para o Big Data, e se
tornarão controles remotos universais;
✔ Ao invés de dizer: “Estamos embarcando em uma iniciativa de Big Data”,
provavelmente seja mais construtivo dizer: “Vamos combinar os
prontuários médicos eletrônicos com dados genômicos, para sugerir
tratamentos personalizados aos pacientes” (se for um problema no setor
de saúde).
30
Review
Franco Humberto / francohumberto@hotmail.com

1 Entender o poder do Big Data;

Entender quais são os


2 objetivos de Big Data;

Entender a cultura Data


3 Driven;

Entender do que é composto


4 o Mindset de Big Data.
31

Fim
Franco Humberto / francohumberto@hotmail.com
Franco Humberto / francohumberto@hotmail.com

Big Data Essentials


Mindset de Big Data
O que é um Datalake e sua importância na mudança do mindset no
tratamento de dados?
2
Objetivos da aula
Franco Humberto / francohumberto@hotmail.com

Entender o que é um Data Lake;

Entender a diferença entre Data Warehouse e Data Lake;

Entender o porquê do Data Lake ser tão importante para o


Mindset de Big Data.
3

O que é um Data Lake?


Franco Humberto / francohumberto@hotmail.com
4

WAREHOUSE
DATA
DATA LAKE
Franco Humberto / francohumberto@hotmail.com
5
Data Lake
Franco Humberto / francohumberto@hotmail.com

✔ Pense no Data Lake como um reservatório de água em estado natural, em


oposição a prateleiras de garrafas d’água purificadas e prontas para serem
consumidas;
✔ É possível manipular a água do reservatório de formas diferentes, que não
resultam somente no processo de purificação, engarrafamento e consumo. Foi
essa a metáfora usada por James Dixon, CTO da empresa Pentaho, para
descrever o conceito de Data Lake em 2010;
✔ O Data Lake é um conceito e não uma tecnologia!
✔ São necessárias diversas tecnologias para criar um Data Lake, como por
exemplo, ferramentas para coletar, importar e processar dados para
armazenamento ou uso posterior;
6
Data Lake
Franco Humberto / francohumberto@hotmail.com

As informações presentes em um Data Lake tem origens diversas:

✔ Dados relacionais e não-relacionais, vindos de aplicações corporativas,


dispositivos de IoT (Internet das Coisas), aplicativos móveis, redes sociais,
websites etc;

✔ Os dados são preservados em seu formato de origem e processados de


acordo com a demanda, o que reduz o esforço de estruturar dados que podem
não se converter em vantagens competitivas para o negócio;
7
Data Lake
Franco Humberto / francohumberto@hotmail.com

✔ Preservar os dados em seu formato de origem, chamado de schema-on-read,


é uma das principais diferenças entre o Data Lake e o Data Warehouse;

✔ Schema é uma descrição lógica do banco de dados;

✔ No Data Lake isso não é feito, até que os dados precisem ser utilizados, só então
eles são formatados e processados;

✔ No Data Warehouse, entretanto, essa descrição é feita quando os dados são


salvos (schema-on-write), isso significa que é necessário saber de antemão para
que eles sejam utilizados.
8
Data Lake
Franco Humberto / francohumberto@hotmail.com

✔ Repositório central;
✔ Todos os tipos de dados;
✔ Dados brutos;
✔ Escalável – Infraestrutura que permite crescimento;
✔ Flexibilidade – Facilmente modificável, automatizado;
✔ Pronto para uso e fácil de encontrar;
✔ Baixo custo.
9
Data Lake e Lei de Moore
Franco Humberto / francohumberto@hotmail.com

Desde 2000, tem acontecido grandes mudanças nas capacidades de


processamento, armazenamento e custos de hardware para estas atividades. A
Lei de Moore constatou que:

✔ As capacidades de processamento aumentaram cerca de 10.000 vezes, desde


2000. Isso implica que a capacidade de analisar mais dados eficientemente
aumentou;
✔ O custo de armazenamento também caiu bastante considerávelmente. Desde
2000, o custo de armazenamento baixou mais de 1000 vezes.
10
Data Warehouse x Data Lake
Franco Humberto / francohumberto@hotmail.com
11
Benefícios do Data Lake
Franco Humberto / francohumberto@hotmail.com

O Data Lake pode armazenar dados de diferentes formatos,


Flexibilidade
Flexibilidade estruturados ou não. Isso não acontece em data warehouses, por
exemplo, onde eles estão divididos em colunas ou linhas.

O volume de dados disponível e a possibilidade de usar


Analise
Analise
avançada algoritmos de deep learning, permite análises avançadas que
avançada
auxiliam decisões de negócios em tempo real.

O Data Lake torna as informações disponíveis para toda a


Compartilha-
Compartilha- organização, o que ajuda na tomada de decisões à qualquer
mento
mentodos
dos
dados nível. Isso diminui o tempo que seria gasto com solicitações entre
dados
setores e agiliza projetos.
12
Data Lake x Data swamps
Franco Humberto / francohumberto@hotmail.com

✔ O uso de data lakes, apresenta vários benefícios para negócios, mas é


preciso ter cuidado para não transformá-los nos chamados data swamps;
✔ Características de que você está criando um data swamps:
✔ Você acumula dados de forma desorganizada, o que os tornam difíceis de
encontrar e usar;
✔ Você não sabe quais dados estão armazenados e quais informações
sensíveis podem ser compartilhadas indiscriminadamente;
✔ Uma solução para evitar o data swamps, é o uso de metadados (informações
sobre os dados armazenados) para fins de organização, além de manter
diferentes níveis de governança para as informações.
13
Tecnologias para implementar Data Lake
Franco Humberto / francohumberto@hotmail.com

HDFS, Pig, Flume, Kakfa, Sqoop, Hive, Hbase, MapReduce,


Hadoop
Hadoopon
onpremises
premises
Spark, Notebook Zeppelin, Jupyter Notebook, etc;

Amazon S3, DynamoDB, Kinesis Streams, Kinesis Firehouse,


AWS
AWSData
DataLake
Lake
Direct Connect, etc;

Azure Data Lake Store (ADLS), Azure Data Lake Analytics,


Azure
AzureData
DataLake
Lake HDInsight, etc;

Cloud Storage, Cloud Dataproc, Cloud Dataprep, Cloud


Google
GoogleData
DataLake
Lake Dataflow, Cloud Pub/Sub, Cloud Datalab, Cloud Big Query,
Cloud Big Table, Cloud Spanner, etc;
14
Arquitetura genérica de um Data Lake
Franco Humberto / francohumberto@hotmail.com
16
Desafios de criar Data Lakes on-premise

✔ Complexidade da construção de pipelines de dados – Gerenciar a


Franco Humberto / francohumberto@hotmail.com

infraestrutura de hardware e servidores, orquestrar tarefas de ETL em lote e lidar


com interrupções e tempo de inatividade;
✔ Custos de manutenção – Além do investimento inicial necessário para comprar
servidores e equipamentos de armazenamento, há custos operacionais e de
gerenciamento contínuos ao operar um Data Lake no local, manifestando-se
principalmente em custos de engenharia e TI;
✔ Escalabilidade – Se você quiser ampliar seu data lake para oferecer suporte a
mais usuários ou dados maiores, será necessário adicionar e configurar
manualmente os servidores. Você precisa ficar de olho na utilização de recursos,
e qualquer servidor adicional cria custos adicionais de manutenção e operação.
17
Vantagens de mover seu Data Lake para nuvem
Franco Humberto / francohumberto@hotmail.com

✔ Concentre-se no valor comercial, não na infraestrutura;

✔ Menores custos de engenharia de dados;

✔ Use os serviços gerenciados para aumentar a escala. O provedor de nuvem


pode gerenciar o dimensionamento para você. Alguns serviços de nuvem de
dados, como Amazon S3 e Athena, fornecem escalonamento totalmente
transparente;

✔ Infraestrutura ágil;

✔ Tecnologias atualizadas;

✔ Confiabilidade e disponibilidade.
18
Desvantagens de um Data Lake na nuvem
Franco Humberto / francohumberto@hotmail.com

✔ A principal desvantagem de mover seu Data Lake para a nuvem, são os custos
de armazenamento;

✔ Na nuvem, você paga pelo armazenamento por hora;

✔ Provedores como a Amazon, oferecem várias opções para armazenar seus


dados com custos variáveis por hora, portanto, é possível otimizar, mas a
verdade é que a loja se tornará uma despesa contínua e crescente, dados os
volumes de dados em expansão.
19
Desvantagens de um Data Lake na nuvem
Franco Humberto / francohumberto@hotmail.com

✔ Em termos de "preço de etiqueta" associado ao armazenamento, sempre será


mais econômico comprar um armazenamento local uma vez e armazenar seus
dados lá (embora isso não seja o caso, se considerarmos o custo total de
propriedade, incluindo engenharia e custos de TI);

✔ Muitas organizações gerenciando enormes volumes de dados, estão explorando


estratégias de nuvem híbrida, para permitir que elas mantenham algum
armazenamento no local, mantendo outros dados, normalmente exigindo uma
análise mais frequente na nuvem.
20
Considerações finais
Franco Humberto / francohumberto@hotmail.com

✔ Data Lake é uma nova mudança de paradigma (novo Mindset) para a


arquitetura de Big Data;

✔ O Data Lake atende a todos os tipos de dados, armazena dados em sua forma
bruta (raw data), atende ao espectro de usuários e permite insights mais
rápidos;

✔ A meticulosa catalogação e governança de dados é a chave para a


implementação bem-sucedida do Data Lake;

✔ As plataformas em nuvem oferecem soluções de ponta para a implementação


da arquitetura do Data Lake, de maneira econômica e escalonável.
21
Review
Franco Humberto / francohumberto@hotmail.com

1 Entender o que é um Data Lake

Entender a diferença entre Data


2 Warehouse e Data Lake

Entender Data Lake no contexto


3 do Mindset de Big Data
22

Fim
Franco Humberto / francohumberto@hotmail.com
Franco Humberto / francohumberto@hotmail.com

Big Data Essentials


Mindset de Big Data
O que é Big Data Analytics e como desenvolver o pensamento analítico
de dados?
2
Objetivos da aula
Franco Humberto / francohumberto@hotmail.com

Entender o que é Big Data Analytics;


Conhecer a aplicação de Big Data no caso
do Furação Francês;

Conhecer um problema de Prevenção de


Rotatividade de Cliente;

Aprender os princípios de Ciência de Dados.


3 Franco Humberto / francohumberto@hotmail.com
4
Big Data Analytics
Franco Humberto / francohumberto@hotmail.com

✔ Para obter sucesso em seu negócio, é essencial que seu produto ou serviço
atenda todos ou a maioria dos anseios dos clientes;
✔ Para isso, você precisa entender muito bem esses anseios;
✔ É necessário, também, estar por dentro das tendências do mercado e saber
bem quais estratégias usar no mercado;
✔ Daí surge o objetivo de Big Data Analytics:
✔ O objetivo de Big Data Analytics é extrair, organizar, tratar e compreender
os dados estruturados e não estruturados, isto é, transformar dados em
informação útil para uma organização seguir em frente com maior
segurança em uma tomada de decisão.
5
A importância do Big Data Analytics
Franco Humberto / francohumberto@hotmail.com

Identificação de padrões precisos;

Redução de custo;

Tomadas de decisão mais rápidas e melhores;

Desenvolvimento de produtos e serviços;

Análise de concorrência.
6
O Furacão Francês
Franco Humberto / francohumberto@hotmail.com

Considere o exemplo de uma história do New York Times de 2004:

✔ O furacão francês estava a caminho, avançando pelo


Caribe, ameaçando atingir a costa atlântica da Flórida;

✔ Os residentes se mudaram para terrenos mais


elevados, porém distantes, em Bentonville, Arkankas;

✔ Executivos das lojas Walmart, decidiram que a situação


oferecia uma grande oportunidade para uma de suas
mais recentes armas orientadas em dados: tecnologia
preditiva.
7
O Furacão Francês
Franco Humberto / francohumberto@hotmail.com

✔ Uma semana antes da tempestade atingir a costa,


Linda M. Dillman (diretora executiva de informação),
pressionou sua equipe para trabalhar em previsões
baseadas no que havia acontecido quando o
furacão Charley apareceu, várias semanas antes;
✔ Com o apoio dos trilhões de bytes de histórico de
compras contidos no banco de dados do Walmart,
ela sentiu que a empresa poderia "começar a prever
o que aconteceria, em vez de esperar que
acontecesse". (Hays, 2004)
Franco Humberto / francohumberto@hotmail.com 8

Pense porque previsões orientadas em dados,


podem ser úteis neste cenário.
9
O Furacão Francês
Franco Humberto / francohumberto@hotmail.com
10
O Furacão Francês
Franco Humberto / francohumberto@hotmail.com

✔ É mais valioso descobrir padrões não tão óbvios, causados pelo


furacão;
✔ Para fazer isso, os analistas podem examinar o grande volume de
dados do Walmart, a partir de situações prévias semelhantes (como
o furacão Charley), para identificar demanda local incomum de
produtos;
✔ A partir desses padrões, a empresa pode ser capaz de antecipar a
demanda incomum de produtos e correr para abastecer as lojas,
antes da chegada do furacão.
11
O Furacão Francês
Franco Humberto / francohumberto@hotmail.com

O New York Times (Hays, 2004) relatou que: "...especialistas exploraram os


dados e descobriram que as lojas realmente precisariam de certos produtos e
não apenas das habituais lanternas”;

✔ "Não sabíamos, no passado, que havia tido um aumento nas


vendas de Pop-Tarts de morango, sete vezes acima do normal,
antes do furacão", disse a Sra. Dillman em uma entrevista recente.

✔ E o principal produto pré-furacão mais vendido era a


cerveja.
12
Prevendo a rotatividade de cliente
Franco Humberto / francohumberto@hotmail.com

Vamos supor que:

✔ Você acabou de ingressar em um ótimo trabalho analítico na MegaTelCo,


uma das maiores empresas de telecomunicação nos Estados Unidos;
✔ Eles estão tendo um grande problema com retenção de clientes no
negócio de produtos e serviços sem fio;
✔ Na região do Médio Atlântico, 20% dos clientes de telefonia celular
abandonaram o serviço quando seus contratos vencem, e está ficando
cada vez mais difícil adquirir novos clientes.
13
Prevendo a rotatividade de cliente
Franco Humberto / francohumberto@hotmail.com

Mercado saturado

A transferência de clientes de uma para outra, é chamada de rotatividade.


É algo dispendioso em todos os sentidos:
✔ Uma empresa precisa gastar em incentivos para atrair um cliente;

✔ Enquanto outra empresa perde rendimento quando o cliente vai embora.


14
Prevendo a rotatividade de cliente
Franco Humberto / francohumberto@hotmail.com

✔ Você foi chamado para ajudar a entender o problema e encontrar uma


solução;

✔ Atrair novos clientes é muito mais caro do que manter os que já existem;

✔ Uma boa verba de marketing é alocada para evitar a rotatividade;

✔ O marketing já projetou uma oferta especial de retenção;

✔ Sua tarefa é elaborar um plano preciso, para saber como a equipe de data
science deve usar os vastos recursos de dados da MegaTelCo, para decidir
quais clientes devem receber uma oferta especial de retenção, antes do
término de seus contratos.
15
Princípios de Data Science
Franco Humberto / francohumberto@hotmail.com

Data science envolve princípios, processos e técnicas para compreender


fenômenos por meio da análise (automatizada) de dados. O objetivo primordial
de data science é o aprimoramento da tomada de decisão. Dois dos tipos mais
importantes na aplicação de data science são:

✔ Problema do tipo 1: decisões para as quais "descobertas" precisam ser feitas


nos dados (exemplo do Walmart – não houve teste de hipótese);
✔ Problema do tipo 2: decisões que se repetem, principalmente em grande
escala e, assim, a tomada de decisão pode ser beneficiar até mesmo de
pequenos aumentos na precisão deste processo com base em análise de dados
(exemplo da MegaTelCo).
Franco Humberto / francohumberto@hotmail.com 16

Como desenvolver o
pensamento analítico de dados?
17
Pensamento analítico de dados
Franco Humberto / francohumberto@hotmail.com

2 Comparação 3
Quebra de Dados

! 1 Fatos

Ferramentas de resumo
4
7
Hipóteses

5 Coleta de Dados

8
6
Apresentação
Duas fontes
18
Pensamento analítico de dados
Franco Humberto / francohumberto@hotmail.com

1 - Analise os estudos de casos, como o problema de rotatividade;

2 - Seja observador;

3 - Leia livros de análise de dados;

4 - Participe de competições no Kaggle;

5 - Aprenda como as coisas funcionam no mundo de negócios;

6 - Faça perguntas quando tiver dúvidas;

7 - Seja capaz de interagir com competência dentro e fora das empresas;

8 - Compreenda os conceitos fundamentais de estatística.


19
Review
Franco Humberto / francohumberto@hotmail.com

Entender o que é Big Data


1 Analytics

Conhecer o caso do Furacão


2 Francês

Conhecer o problema de
3 Rotatividade de cliente

Conhecer princípios de Data


4 Science
20

Fim
Franco Humberto / francohumberto@hotmail.com
Franco Humberto / francohumberto@hotmail.com

Big Data Essentials


Mindset de Big Data
Entendendo o valor do Big Data, usando casos reais.
2
Objetivos da aula
Franco Humberto / francohumberto@hotmail.com

Conhecer casos reais de Big Data;

Aprender a tratar os dados como um ativo estratégico.


3

“Os dados são o novo petróleo”.


Franco Humberto / francohumberto@hotmail.com
4
O custo de obter dados
Franco Humberto / francohumberto@hotmail.com

Os dados e a capacidade de extrair conhecimento útil a partir


deles, devem ser considerados importantes ativos estratégicos;

A melhor equipe de Data Science pode gerar pouco valor, sem os


dados adequados;

É necessário fazer investimentos em dados.


5

Caso Signet – Capital One


Franco Humberto / francohumberto@hotmail.com
6
O custo de obter dados – Banco Signet
Franco Humberto / francohumberto@hotmail.com

✔ Um pequeno banco na década de 1980, chamado Signet, transformou o setor de


crédito ao consumidor;
✔ Modelar a probabilidade de inadimplência mudou a indústria;
✔ Na época, os cartões de crédito tinham preços uniformes, por duas razões:
✔ As empresas não possuíam sistemas adequados de informação para lidar
com preços diferenciados em grande escala;
✔ A administração do banco, acreditava que os clientes não apoiariam a
discriminação de preços;
✔ Por volta de 1990, dois visionários estratégicos (Richard Fairbanks e Nigel Morris)
perceberam que a TI era poderosa o suficiente para fazer um modelo preditivo
mais sofisticado;
7
O custo de obter dados – Banco Signet
Franco Humberto / francohumberto@hotmail.com

✔ O objetivo dos dois visionários era oferecer diferentes condições de preço,


limites de crédito, transferência de saldo de baixa taxa inicial, reembolso, pontos
de fidelidade etc);

✔ Ao tentar convencer grandes bancos a tê-los como consultores, eles não


obtiveram oportunidade pretendida;

✔ Mas devido a persistência desses dois homens, eles conseguiram fisgar o


interesse de um pequeno banco regional da Virgínia: o banco Signet;

✔ O gerente do banco Signet estava convencido de que modelar a rentabilidade,


não apenas a probabilidade de inadimplência, era a estratégia certa;
8
O custo de obter dados – Banco Signet
Franco Humberto / francohumberto@hotmail.com

✔ Eles sabiam que uma pequena porção de


clientes representava mais de 100% do
lucro de um banco, a partir de operações
de cartão de crédito (porque o resto são
ponto de equilíbrio ou perda de dinheiro);
✔ Se eles pudessem modelar a
lucratividade, poderiam fazer melhores
ofertas para os melhores clientes e
selecionar a clientela dos grandes bancos;
Franco Humberto / francohumberto@hotmail.com 9

E qual foi a grande estratégia do Banco Signet?


10
Estratégia do banco Signet
Franco Humberto / francohumberto@hotmail.com

A estratégia foi obter os dados necessários a um custo!

✔ No caso do Signet, os dados poderiam ser gerados na lucratividade dos clientes


que receberam diferentes condições de crédito, por meio da realização de
experimentos;
✔ Diferentes termos foram oferecidos aleatoriamente para diferentes clientes (isso
pode parecer tolo, fora do contexto do pensamento analítico de dados, pois é
provável que o banco vai perder dinheiro);
✔ As perdas são o custo da aquisição de dados;
✔ O pensador analítico de dados, precisa considerar se espera que os dados
tenham valor suficiente para justificar o investimento;
Franco Humberto / francohumberto@hotmail.com 11

Então, o que aconteceu com o Banco Signet?


12
Resultados do investimento em dados
Franco Humberto / francohumberto@hotmail.com

✔ O número de contas ruim, aumentou como se esperava;


✔ A Signet passou de uma taxa de “dívidas em atraso”, líder da indústria de 2,9%
para 6%;
✔ As perdas continuaram por alguns anos, enquanto cientistas de dados
trabalhavam para construir modelos preditivos e, a partir de dados, avaliá-los e
implantá-los para melhorar o lucro;
✔ A empresa viu essas perdas como investimento em dados, mas os investidores
reclamaram muito;
✔ Por fim, a operação de crédito do banco Signet recuperou seu investimento e
tornou-se tão rentável que foi desmembrada em outras operações do banco;
13
Resultados do investimento em dados
Franco Humberto / francohumberto@hotmail.com

✔ Os consultores tornaram-se presidente, e CEO/COO passaram a aplicar


princípios de Ciência de Dados em todo o negócio, não apenas na aquisição de
clientes, mas em sua retenção também;
✔ A partir do Signet, surgiu o Capital One;
✔ O banco se tornou um dos maiores emissores de cartão de crédito do setor,
com uma das menores taxas de dívidas em atraso;
✔ Em 2000, foi relatado que o banco realizou 45 mil desses “testes científicos”,
como eram chamados na época.
14
Caso Target
Franco Humberto / francohumberto@hotmail.com

✔ Provavelmente, este foi o caso da análise preditiva de maior repercussão nos


EUA, tanto pelo seu sucesso analítico, quanto em provocar a importante
discussão sobre privacidade na era do big data;
✔ Em 2010, Andrew Pole, um estatístico da Target, criou modelos preditivos
capazes de conhecer a fundo os hábitos de compra de seus clientes no intuito
de aumentar as vendas;
✔ O objetivo de Pole consistia em formar um “perfil” de cada consumidor, com
base em dados demográficos e comportamentais, a fim de oferecer
antecipadamente, os produtos que ele estava mais propenso a comprar, antes
mesmo do próprio consumidor decidir o que entraria em sua lista de compras.
15

Caso Target – Prevendo gravidez


Franco Humberto / francohumberto@hotmail.com
16
Caso Target
Franco Humberto / francohumberto@hotmail.com

Os modelos matemáticos da Target, previa se um cliente tinha crianças pequenas


em casa ou se era solteiro;

Com milhões de consumidores diariamente


visitando as lojas da varejista, comprando
online, trocando cupons por descontos,
usando o cartão fidelidade e pagando com o
cartão de crédito da rede, uma gigantesca
base de dados é gerada a cada segundo;
17
Caso Target
Franco Humberto / francohumberto@hotmail.com

Certa vez, Pole foi abordado por colegas do departamento de marketing, que lhe
perguntaram se era possível prever se uma cliente estava grávida.

Saber se uma cliente estava grávida, poderia ser


um forte indicador preditivo sobre hábitos de
compra para uma série de produtos;
Com um pequeno consumidor a caminho, não
apenas os gastos dos pais tendem a aumentar,
como também provavelmente, faz com que eles
sigam comprando na Target por anos a fio;
18
Caso Target
Franco Humberto / francohumberto@hotmail.com

IMPORTANTE
Para fazer previsões, é necessário ter à mão dados
históricos (casos positivos e negativos) sobre aquilo que se
quer prever;
Franco Humberto / francohumberto@hotmail.com 19

Como seria possível antecipar se


uma cliente estava grávida?
Franco Humberto / francohumberto@hotmail.com 20

Por que alguma cliente deliberadamente


informaria à Target, sobre sua gravidez?
21
Caso Target
Franco Humberto / francohumberto@hotmail.com

✔ A Target oferece um serviço chamado “Registro de Bebês”, onde clientes não


apenas informam sua gravidez, como também a data estimada do
nascimento;
✔ A Target também desenvolve outras iniciativas de marketing em que as clientes
informam sua gravidez, fornecendo assim dados históricos que servem como
casos positivos (“estou grávida”) para o desenvolvimento dos modelos
preditivos;
✔ Ao cruzar esses dados com os registros de compras de suas clientes, a
empresa conseguiu desenvolver um modelo que previa com bastante
exatidão se a cliente estava grávida ou não;
22
Caso Target
Franco Humberto / francohumberto@hotmail.com

✔ O modelo final levava em conta, cerca de duas dúzias de produtos e pagamento


com cartão de crédito ou cartão fidelidade da rede, além da apresentação de
cupons de ofertas pelas clientes;
✔ As principais variáveis preditivas identificando as futuras mamães, incluíam um
carrinho carregado de loção corporal neutra, por volta do terceiro mês da gestação,
seguido algumas semanas depois da compra de suplementos vitamínicos como
magnésio, cálcio e zinco;
✔ O modelo permitiu à Target identificar 30% mais clientes grávidas, para direcionar
vendas de produtos da categoria bebês;
✔ E ao dirigir essas ofertas antecipadamente ao nascimento dos bebês, as vendas
aumentaram, conforme planejado. Um caso de sucesso em marketing!
23
Recomendação de Leitura
Franco Humberto / francohumberto@hotmail.com
24
Review
Franco Humberto / francohumberto@hotmail.com

Conhecer casos reais de Big


1 Data

Aprender a tratar os dados


2 como um ativo estratégico
25

Fim
Franco Humberto / francohumberto@hotmail.com
Franco Humberto / francohumberto@hotmail.com

Big Data Essentials


Mindset de Big Data
O que é um pipeline de Dados?
2
Objetivos da aula
Franco Humberto / francohumberto@hotmail.com

Entender o que é um pipeline de dados;

Conhecer qual é o profissional de Big Data responsável


pelo pipeline de dados.
3 Franco Humberto / francohumberto@hotmail.com
4
O que é um pipeline de dados?
Franco Humberto / francohumberto@hotmail.com

✔ Um pipeline de fluxo de dados é uma série de componentes, ou


blocos de fluxo de dados, e cada série executa uma tarefa específica
que contribui para um objetivo maior;
✔ Todos os blocos de fluxo de dados em um pipeline do mesmo, realizam
trabalhos ao receber uma mensagem de outro bloco de fluxo de dados;
✔ Como analogia, podemos usar uma linha de montagem de
automóveis. À medida que os veículos passam por ela, uma estação
monta a carroceria, a seguinte instala o motor e assim por diante.
5
O que é um pipeline de dados?
Franco Humberto / francohumberto@hotmail.com

✔ Pipeline de dados x ETL (Extrair, Transformar e Carregar);

✔ Os sistemas ETL extraem dados de um sistema, transformam os


dados e os carregam em um banco de dados ou armazém de dados;
✔ Os pipelines de ETL herdados, geralmente são executados em lotes, o
que significa que os dados são movidos em um grande bloco, em um
horário específico para o sistema de destino;
6
O que é um pipeline de dados?
Franco Humberto / francohumberto@hotmail.com

✔ Normalmente, isso ocorre em intervalos regulares agendados, por


exemplo, você pode configurar os lotes para serem executados às
12h30 todos os dias, quando o tráfego do sistema estiver baixo;
✔ Por outro lado, "pipeline de dados" é um termo mais amplo que
engloba o ETL como um subconjunto;
✔ Refere-se a um sistema para mover dados de um sistema para outro.
Os dados podem ou não ser transformados e podem ser processados
em tempo real (ou streaming), em vez de lotes.
7
O que é um pipeline de dados?
Franco Humberto / francohumberto@hotmail.com

✔ Quando os dados são transmitidos, eles são processados em fluxo


contínuo, o que é útil para dados que precisam de atualização
constante, como dados de um tráfego de monitoramento de sensores;

✔ Além disso, os dados não podem ser carregados em um banco de


dados ou armazém de dados;
✔ Os dados podem ser carregados para qualquer número de destino, como
um bucket da AWS ou um data lake.
8

Quem precisa de um pipeline de dados?


Franco Humberto / francohumberto@hotmail.com
9
A necessidade de um pipeline de dados
Franco Humberto / francohumberto@hotmail.com

Embora um pipeline de dados não seja uma necessidade para todos os


negócios, essa tecnologia é especialmente útil para aqueles que:

1. Geram, confiam ou armazenam grandes quantidades ou várias fontes


de dados;
2. Mantém fontes de dados em silos;
3. Exigem análise de dados em tempo real, altamente sofisticada;
4. Armazenam dados na nuvem.
10
Soluções de pipeline
Franco Humberto / francohumberto@hotmail.com

Lote (batch);

Tempo real (real-time);

Nuvem nativa (cloud native);

Código aberto (open source).


11
Arquitetura Lambda
Franco Humberto / francohumberto@hotmail.com

A arquitetura Lambda é uma abordagem ao


gerenciamento de big data, que fornece acesso ao
processamento em lote e processamento quase
em tempo real com uma abordagem híbrida.
12
Arquitetura Lambda
Franco Humberto / francohumberto@hotmail.com

A arquitetura básica do Lambda tem três camadas:

Lote (batch);

Velocidade (speed);

Serviço (serving);
13
Exemplo de Pipeline
Franco Humberto / francohumberto@hotmail.com
15
O papel do Engenheiro de Dados
Franco Humberto / francohumberto@hotmail.com

✔ O Engenheiro de Dados é um profissional capacitado para criar canais


confiáveis na transformação de dados, combinar fontes de dados
em diferentes formatos, criar arquitetura de soluções e colaborar com
a equipe de Ciência de Dados, construindo soluções inteligentes com
alto desempenho e escaláveis;
✔ Fazer com que os dados sejam transformados em um formato útil para
análise de uma equipe de Cientistas de Dados, ou de outros analistas é
um grande desafio.
16
O papel do Engenheiro de Dados
Franco Humberto / francohumberto@hotmail.com

✔ É importante destacar que o Engenheiro de Dados tem perfil


generalista e é focado no pipeline e em bases de dados em geral;
✔ O profissional que deseja ser Engenheiro de Dados, deve começar
aprendendo uma linguagem de programação como Python, como
arquitetar sistemas distribuídos, como o Hadoop e Spark, sobre
armazéns de dados, NoSQL, softwares para ingestão de dados, etc.
17
Review
Franco Humberto / francohumberto@hotmail.com

Entender o que é Big Data


1 Analytics

Conhecer o caso do Furacão


2 Francês

Conhecer o problema de
3 Rotatividade de cliente

Conhecer princípios de Data


4 Science
18

Fim
Franco Humberto / francohumberto@hotmail.com

Você também pode gostar