Você está na página 1de 61

01

Data Science:98-Conceitos,
2 .3
Definições4e.73a Relação com o
4 3
Ambiente
v e s de Negócios
l A
m a
L i
ri lo
Mu Profa. Adriana Silva
MACHINE BIG
LEARNING DATA 0 1
3 98-
32 .
.7
DEEP 4 34
ANALYTICS
lve
s
LEARNING a A
Lim INTELIGÊNCIA
i l o
Mur ARTIFICIAL
ESTATÍSTICA
MACHINE
LEARNING
O processo por trás New Data
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
Training Data Machine
L i Prediction rule

i l o
Learning

Mur Algorithm

Predicted
Classification
SOLUÇÃO

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
1 Definição Problema de
Negócio

2 Aquisição dos
Dados
0 1
8-
3 Preparação dos
Dados
32 .3 9
.7
4 34
4 Análise Exploratória
ve s
a Data
dos Dados Al
m
5 Modelagem
uri l o L i
S c ie n c e
M
6 Visualização e
Comunicação

7 Deploy e
Manutenção
Processo de modelagem

0 1
Fontes de
3 98-
dados
3 2 .
7
Particionamento

3 4 .
/ Amostragem

s 4 Exploração
l v e
ETL
ABTim aA Modificação

o L
ril
Modelagem

Mu Avaliação Produção
E onde se usa isso?
• Telecomunicação - 0 1
3 9 8
• Varejo
3 2 .
• Jurídico 4 .7
4 3
v e s
• Marketing
Al
• Bancos m a
L i
• Recursos Humanos ril o
M u
• Seguradoras
• Agronegócios
Tr a z e n d o v a l o r p a r a
negócios

0 1
3 9 8-
32 .
.7
VALOR DO
4 34
ANALYTICS
ve s
Al
m a
L i
o
Insights

l
Sem governança

uri Ultrapassados
Performance do modelo
cai

M Coloca em produção
manualmente
Retreino
manual

TEMPO
Reescreve o Código
Prepara o de deploy
Dado

Explora Constroi
Modelos
Tr a z e n d o v a l o r p a r a
negócios

0 1
3 9 8-
.
Impacto no

32
Automatizar Decisões negócio

7
constantemente

.
Monitorar e Governança de

34
Gerenciar Modelos

s4
VALOR DO Modelos
Trazendo
e
ANALYTICS Melhorar Insights
(atuais)
l v Valor para
aA
Mais Dados
Preparação de Colocar modelo em
o Negócio
m
dados mais fácil produção
e ágil automaticamente

L i
o
Insights

l
Sem governança
Construir
modelos
uri Ultrapassados
Performance do modelo
cai
melhores e mais
rápido M Coloca em produção
manualmente
Retreino
manual

TEMPO
Reescreve o Código
Prepara o de deploy
Dado

Explora Constroi
Modelos
Sete formas para fracassar
em projetos de analytics
0 1
3 9 8-
32 .
1. Não alinhar a estratégia de dados com as 4 .7metas de negócios
4 3
2. e
Não considerar o usuário ao desenvolver
v s uma ferramenta
l
A ao apresentar os resultados do projeto
3. a
Não considerar o tipo de público
4. Usar jargões e deixar a L im
mensagem muito complicada
i l o
rvisual da apresentação
5. Não atentar-se ao
M u
6. Não deixá-la compreensível
7. Deixar de pensar como uma pessoa de negócios

https://cio.com.br/gestao/7-formas-de-fracassar-com-o-analytics-e-como-evita-las/
10
BANCO DE DADOS

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

11
BANCO DE DADOS
0 1
3 98-
32 .
.7
34 4
v e s
l
• Uma coleção de informações organizadas para suportar a
recuperação eficiente dos m aA
dados.
L i
ri l o
M u

12
BANCO DE DADOS
0 1
3 98-
32 .
.7
• Os mais comuns: 344
v e s
• Árvores hierárquicas (diretórios e subdiretórios)
Al
• Tabelas (linhas e colunas)
m a
• Grafos (nós e elos) L i
ri l o
Mu

13
BANCO DE DADOS
• Árvores hierárquicas 0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

14
BANCO DE DADOS
• Tabelas (linhas e colunas) 0 1
3 98-
32 .
.7
4 34
ve s nome valor qtde feedback
Al Rodrigo 19,75 3 médio
ma
L i Lucas 67,9 14 ruim

i l o Mariana 37,23 8 ótimo

M ur

15
BANCO DE DADOS
• Grafos (nós e elos) 0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

16
BIG DATA

0 1
3 98-
32 .
• Big Data é um termo amplamente utilizado 4 .7
4 3 na atualidade para
nomear conjuntos de dados muito v e s
grandes ou complexos, que os
aplicativos de processamentoa de Al dados tradicionais ainda não
conseguem lidar. L i m
ri l o
Mu

17
BIG DATA

0 1
3 98-
32 .
• Volume – Dados em uma escala enorme 4 .7
4 3
v s
e e estruturas
• Variedade – Dados de diversos tipos
Al
• Velocidade – Análises rápidas,m a
L i muitas vezes em Stream
ri l o
Mu
• Veracidade – Preocupação com a qualidade dos dados
• Valor – Dados precisam ser transformados em valor

18
BIG DATA

0 1
3 9 8-
32 .
.7
4 34
ve s
Al
m a
L i
i l o
Mur
Volume Valor Veracidade Visualização Variedade Velocidade Viralidade

19
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

20
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

21
Estudante Cidade
BIG DATA Adelino São Paulo
Amanda Rio de Janeiro
Estudante Cidade
Edson Salvador
Adelino São Paulo Zenilda Belo Horizonte
Amanda Rio de Janeiro Lucio São Paulo
Edson Salvador Guilherme São Paulo
0 1
8-
Zenilda Belo Horizonte Raquel São Paulo
Lucio São Paulo
.3 9
32
Guilherme São Paulo
Raquel São Paulo Estudante Cidade
.7
Lilian Salvador Lilian Salvador
4 34
Dalila Salvador Dalila

ve s
Salvador

l
Flavia Rio de Janeiro Flavia Rio de Janeiro Estudante Cidade
Emerson Belo Horizonte Emerson
a A Belo Horizonte
Sheila São Paulo
Nuno
Leonor
Rio de Janeiro
Salvador
L i m
Nuno
Leonor
Rio de Janeiro
Salvador
Eduardo Belo Horizonte

Pilar Rio de Janeiro


i l o Pilar Rio de Janeiro
Geovani São Paulo

ur
Franklin São Paulo
Estela Belo Horizonte
M
Fernanda Rio de Janeiro
Moara Rio de Janeiro Estudante Cidade Marcelo Belo Horizonte
Raimundo Rio de Janeiro Estela Belo Horizonte Rebeca Rio de Janeiro
Marcela Belo Horizonte Moara Rio de Janeiro
Camilo São Paulo Raimundo Rio de Janeiro
Adriana Belo Horizonte Marcela Belo Horizonte
Anna Luiza Salvador Camilo São Paulo
Sheila São Paulo Adriana Belo Horizonte 22
Eduardo Belo Horizonte Anna Luiza Salvador
BIG DATA

0 1
3 98-
32 .
• NameNode – servidor mestre que gerencia 4 .7
4 3 todo o file system e
controla o acesso aos arquivos ve s
Al
• Data Nodes ou WorkNodesm–avários servidores que armazenam os
Li nos dados. Obedecem ao NameNode
pedaços e realizam as otarefas
ri l
Mu

23
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

24
Estudante Cidade
BIG DATA Adelino São Paulo
Amanda Rio de Janeiro
Estudante Cidade
Edson Salvador
Adelino São Paulo Zenilda Belo Horizonte
Amanda Rio de Janeiro Lucio São Paulo
Edson Salvador Guilherme São Paulo
0 1
8-
Zenilda Belo Horizonte Raquel São Paulo
Lucio São Paulo
.3 9
32
Guilherme São Paulo
Raquel São Paulo Estudante Cidade
.7
Lilian Salvador Lilian Salvador
4 34
Dalila Salvador Dalila

ve s
Salvador

l
Flavia Rio de Janeiro Flavia Rio de Janeiro Estudante Cidade
Emerson Belo Horizonte Emerson
a A Belo Horizonte
Sheila São Paulo
Nuno
Leonor
Rio de Janeiro
Salvador
L i m
Nuno
Leonor
Rio de Janeiro
Salvador
Eduardo Belo Horizonte

Pilar Rio de Janeiro


i l o Pilar Rio de Janeiro
Geovani São Paulo

ur
Franklin São Paulo
Estela Belo Horizonte
M
Fernanda Rio de Janeiro
Moara Rio de Janeiro Estudante Cidade Marcelo Belo Horizonte
Raimundo Rio de Janeiro Estela Belo Horizonte Rebeca Rio de Janeiro
Marcela Belo Horizonte Moara Rio de Janeiro
Camilo São Paulo Raimundo Rio de Janeiro
Adriana Belo Horizonte Marcela Belo Horizonte
Anna Luiza Salvador Camilo São Paulo
Sheila São Paulo Adriana Belo Horizonte 25
Eduardo Belo Horizonte Anna Luiza Salvador
BIG DATA

0 1
8-
Estudante Cidade Estudante Cidade Estudante Cidade
Adelino São Paulo Lilian Salvador Estela Belo Horizonte
.3 9
Amanda Rio de Janeiro Dalila
Flavia
Salvador
Rio de Janeiro
Moara Rio de Janeiro
.7 32
34
Edson Salvador Raimundo Rio de Janeiro
Zenilda Belo Horizonte Emerson Belo Horizonte
4
Marcela Belo Horizonte
s
ve
Lucio São Paulo Nuno Rio de Janeiro Camilo São Paulo Estudante Cidade
Guilherme São Paulo Leonor Salvador
Al
Adriana Belo Horizonte
a
Pilar Rio de Janeiro Anna Luiza Salvador Sheila São Paulo
Raquel São Paulo

L i m Eduardo
Geovani
Belo Horizonte
São Paulo
i l o
ur
Franklin São Paulo
Fernanda Rio de Janeiro
M Marcelo
Rebeca
Belo Horizonte
Rio de Janeiro

Etapa Map: cada servidor (que está com uma base de dados) recebe uma tarefa: separar por cidade 26
BIG DATA

0 1
Estudante Cidade Estudante Cidade Estudante Cidade

3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Adelino São Paulo Leonor Salvador Adriana Belo Horizonte
Lucio São Paulo
s 4
ve
Guilherme São Paulo Flavia Rio de Janeiro Moara Rio de Janeiro Estudante Cidade
Raquel São Paulo Nuno Rio de Janeiro
A l
Raimundo Rio de Janeiro
Pilar Rio de Janeiro
m a Sheila São Paulo
Edson Salvador
L
Emerson Belo Horizonte i Camilo São Paulo
Geovani São Paulo
Zenilda Belo Horizonte
r i l o Anna Luiza Salvador
Franklin São Paulo

Mu
Eduardo Belo Horizonte
Marcelo Belo Horizonte

Fernanda Rio de Janeiro


Rebeca Rio de Janeiro

Etapa Map: cada servidor (que está com uma base de dados) recebe uma tarefa: separar por cidade
27
BIG DATA

0 1
Estudante Cidade Estudante Cidade Estudante Cidade

3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Flavia Rio de Janeiro Leonor Salvador Adriana Belo Horizonte
Nuno Rio de Janeiro
s 4
ve
Pilar Rio de Janeiro Anna Luiza Salvador Emerson Belo Horizonte Estudante Cidade

Al
Moara Rio de Janeiro Edson Salvador
a
Eduardo
m
Belo Horizonte Sheila São Paulo
Raimundo Rio de Janeiro
L iMarcelo Belo Horizonte Geovani São Paulo
Fernanda Rio de Janeiro
i l o Franklin São Paulo
Rebeca Rio de Janeiro
M ur Zenilda Belo Horizonte
Camilo São Paulo

Adelino São Paulo


Lucio São Paulo
Guilherme São Paulo
Raquel São Paulo
Etapa Shuffle: cada cidade é agrupada em um mesmo servidor
28
BIG DATA

0 1
Estudante Cidade Estudante Cidade Estudante Cidade

3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Flavia Rio de Janeiro Leonor Salvador Adriana Belo Horizonte
Nuno Rio de Janeiro
s 4
ve
Pilar Rio de Janeiro Anna Luiza Salvador Emerson Belo Horizonte Estudante Cidade

Al
Moara Rio de Janeiro Edson Salvador
a
Eduardo
m
Belo Horizonte Sheila São Paulo
Raimundo Rio de Janeiro
L iMarcelo Belo Horizonte Geovani São Paulo
Fernanda Rio de Janeiro
i l o Franklin São Paulo
Rebeca Rio de Janeiro
M ur Zenilda Belo Horizonte
Camilo São Paulo

Adelino São Paulo


Rio de Janeiro 8 Salvador 5 Belo Horizonte 7 Lucio São Paulo
Guilherme São Paulo
Raquel São Paulo
Etapa Reduce: cada servidor realiza a contagem de uma cidade
São Paulo 8
BIG DATA

0 1
3 98-
32 .
• JobTracker – Único. Recebe as funções3que 4 .7 precisam ser executas e as
s 4
enviam para os TaskTrackers corretos.
l v e
a A Map e Reduce.
• TaskTrackers – Executam asmfunções
L i
ri l o
M u

30
BIG DATA

0 1
3 98-
• Evolução
32 .
.7
• Yet Another Resource Negotiator
4 34
ve s
Al
• Resource Manager – Rodaim a
no nó master. Gerencia os recursos globais
o L
• NodeManager – Roda
ri l nos nós workers e se comunica com o Resource
Manager. Mu

31
BIG DATA

0 1
3 98-
32 .
4 .7
Computação
4 3
v e s
distribuída

Al
m a
o Li Armazenamento
i l distribuído

Mur

32
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

33
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

34
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

35
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

36
BIG DATA

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

37
CAPACIDADES ANALÍTICAS

0 1
3 98-
32 .
Supervisionada 3 4Não
.7 Supervisionada
s 4
X1 X2 X3 RESPOSTA
Alve X1 X2 X3

ma
L i
i l o
M ur

38
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

39
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

40
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

41
REGRESSÃO LINEAR SIMPLES

0 1
3 9 8-
32 .
.7
𝑌 = 𝛽03+4𝛽1 𝑥1 + ϵ
s 4
l v e= 𝑏 + 𝑏 𝑥
a A 𝑦ො 0 1 1

L i m em que:
i l o
Mur 𝑏0 , 𝑏1 são estimadores de 𝛽0 , 𝛽1
𝑦ො = o valor estimado da variável dependente

42
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

43
REGRESSÃO LINEAR MULTIPLA

0 1
3 9 8-
32 .
.7
3𝑝4+ ϵ
𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥
s 4
𝑦ො = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2A l v e
+ ⋯ + 𝑏𝑝 𝑥𝑝
m a
em que: o L i
𝑏0 , 𝑏1 , 𝑏r2i,l… , 𝑏𝑝 são estimadores de 𝛽0 , 𝛽1 , 𝛽2 , 𝛽𝑝
𝑦ොM
u
= o valor estimado da variável dependente

44
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

45
ANOVA

0 1
3 98-
32 .
.7
4 34
ve s
Valor gasto no cartão de crédito

Al Yik =  + i + ik

ma
L i
i l o
Mur
homem mulher

46
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

47
ANCOVA

0 1
3 9 8-
32 .
.7
4 34
ve s
Al 𝑦ො = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥𝐹1 + 𝑏3 𝑥𝐹2
ma
L i
i l o
Mur

• Ref:
48
• http://renatabrandt.github.io/EBC2015/RegressaoLinear.html#ancova
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

49
REGRESSÃO LOGÍSTICA

0 1
3 98-
32 .
.7
𝑙𝑜𝑔𝑖𝑡𝑜 (𝑝)Ƹ = 𝑏0 + 𝑏1 𝑥1
4 34
ve s
Al
𝑒 𝑏0 +𝑏1𝑥1
ma
𝑝Ƹ =
1 + 𝑒 𝑏0 +𝑏1𝑥1
L i
i l o
M ur

• Ref:
50
• Software SAS
NECESSIDADES

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

51
ÁRVORE DE DECISÃO

0 1
3 9 8-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

• Ref:
• Software SPSS e Software SAS 52
RANDOM FOREST

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur

• Ref:
• Software SAS 53
GRADIENT BOOSTING

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur

• Ref:
• Software SAS 54
E MUITAS MAIS...

0 1
3 98-
Var Independente
32 .
7
Intervalares e
Categóricas
.
Intervalares
34 Categóricas
Var Resposta
s 4
ANOVA
Árvore Decisão Alve
Regressão Linear
Árvore Decisão
ANCOVA
Árvore Decisão

m a
Intervalar Random Forest
L i Random Forest Random Forest

i l o
Gradient Boosting Gradient Boosting Gradient Boosting

ur
Rede Neural Rede Neural Rede Neural

M
Regressão Logística
Árvore Decisão
Regressão Logística
Árvore Decisão
Regressão Logística
Árvore Decisão
Random Forest Random Forest Random Forest
Categórica
Gradient Boosting Gradient Boosting Gradient Boosting
Rede Neural Rede Neural Rede Neural
Rule Induction Rule Induction Rule Induction 55
CAPACIDADES ANALÍTICAS

0 1
3 98-
32 .
Supervisionada 3 4Não
.7 Supervisionada
s 4
X1 X2 X3 RESPOSTA
Alve X1 X2 X3

ma
L i
i l o
M ur

56
AGRUPAMENTOS

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
AGRUPAMENTOS

0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
DICAS PARA SER UM BOM
CIENTISTA DE DADOS
0 1
8-
• Entenda do contexto que está trabalhando 2.39
.7 3
• Exponha suas ideias de forma lúdica e 3
4 4
simplificada, garanta que as
pessoas entenderam a mensagemve s
Al
• Não tome decisão pelos outros, m a cada um tem um papo no sistema de
ciência de dados L i
i l o
• Não limite-se a M ur uma técnica, explore possibilidades
apenas
• Negócio é quem norteia as decisões, deixe isso acontecer
• Seja curioso e faça perguntas!!!
59
Resumo
• O que é Ciência dos Dados;
0 1
• O que é Big Data;
3 98-
• Por que Big Data é importante; 32 .
.7
• Os dados que integram o Big Data;
4 34
• Relação entre a ciência de dados e Big Data;
ve s
Al
• Ferramentas de Big Data;
m a
• Big Data Analytics;
L i
i l o
ur
• Machine Learning e Graph Analytics com Big Data;
M
• Principais tecnologias associadas a Big Data;
• Cases de data science no Brasil e no exterior.
It´s kind of fun to do the
IMPOSSIBLE
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
dri@asn.rocks
Mur
/in/adrianamms
/in/asn.rocks
asn.rocks

www.asn.rocks

Você também pode gostar