Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Science:98-Conceitos,
2 .3
Definições4e.73a Relação com o
4 3
Ambiente
v e s de Negócios
l A
m a
L i
ri lo
Mu Profa. Adriana Silva
MACHINE BIG
LEARNING DATA 0 1
3 98-
32 .
.7
DEEP 4 34
ANALYTICS
lve
s
LEARNING a A
Lim INTELIGÊNCIA
i l o
Mur ARTIFICIAL
ESTATÍSTICA
MACHINE
LEARNING
O processo por trás New Data
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
Training Data Machine
L i Prediction rule
i l o
Learning
Mur Algorithm
Predicted
Classification
SOLUÇÃO
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
1 Definição Problema de
Negócio
2 Aquisição dos
Dados
0 1
8-
3 Preparação dos
Dados
32 .3 9
.7
4 34
4 Análise Exploratória
ve s
a Data
dos Dados Al
m
5 Modelagem
uri l o L i
S c ie n c e
M
6 Visualização e
Comunicação
7 Deploy e
Manutenção
Processo de modelagem
0 1
Fontes de
3 98-
dados
3 2 .
7
Particionamento
3 4 .
/ Amostragem
s 4 Exploração
l v e
ETL
ABTim aA Modificação
o L
ril
Modelagem
Mu Avaliação Produção
E onde se usa isso?
• Telecomunicação - 0 1
3 9 8
• Varejo
3 2 .
• Jurídico 4 .7
4 3
v e s
• Marketing
Al
• Bancos m a
L i
• Recursos Humanos ril o
M u
• Seguradoras
• Agronegócios
Tr a z e n d o v a l o r p a r a
negócios
0 1
3 9 8-
32 .
.7
VALOR DO
4 34
ANALYTICS
ve s
Al
m a
L i
o
Insights
l
Sem governança
uri Ultrapassados
Performance do modelo
cai
M Coloca em produção
manualmente
Retreino
manual
TEMPO
Reescreve o Código
Prepara o de deploy
Dado
Explora Constroi
Modelos
Tr a z e n d o v a l o r p a r a
negócios
0 1
3 9 8-
.
Impacto no
32
Automatizar Decisões negócio
7
constantemente
.
Monitorar e Governança de
34
Gerenciar Modelos
s4
VALOR DO Modelos
Trazendo
e
ANALYTICS Melhorar Insights
(atuais)
l v Valor para
aA
Mais Dados
Preparação de Colocar modelo em
o Negócio
m
dados mais fácil produção
e ágil automaticamente
L i
o
Insights
l
Sem governança
Construir
modelos
uri Ultrapassados
Performance do modelo
cai
melhores e mais
rápido M Coloca em produção
manualmente
Retreino
manual
TEMPO
Reescreve o Código
Prepara o de deploy
Dado
Explora Constroi
Modelos
Sete formas para fracassar
em projetos de analytics
0 1
3 9 8-
32 .
1. Não alinhar a estratégia de dados com as 4 .7metas de negócios
4 3
2. e
Não considerar o usuário ao desenvolver
v s uma ferramenta
l
A ao apresentar os resultados do projeto
3. a
Não considerar o tipo de público
4. Usar jargões e deixar a L im
mensagem muito complicada
i l o
rvisual da apresentação
5. Não atentar-se ao
M u
6. Não deixá-la compreensível
7. Deixar de pensar como uma pessoa de negócios
https://cio.com.br/gestao/7-formas-de-fracassar-com-o-analytics-e-como-evita-las/
10
BANCO DE DADOS
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
11
BANCO DE DADOS
0 1
3 98-
32 .
.7
34 4
v e s
l
• Uma coleção de informações organizadas para suportar a
recuperação eficiente dos m aA
dados.
L i
ri l o
M u
12
BANCO DE DADOS
0 1
3 98-
32 .
.7
• Os mais comuns: 344
v e s
• Árvores hierárquicas (diretórios e subdiretórios)
Al
• Tabelas (linhas e colunas)
m a
• Grafos (nós e elos) L i
ri l o
Mu
13
BANCO DE DADOS
• Árvores hierárquicas 0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
14
BANCO DE DADOS
• Tabelas (linhas e colunas) 0 1
3 98-
32 .
.7
4 34
ve s nome valor qtde feedback
Al Rodrigo 19,75 3 médio
ma
L i Lucas 67,9 14 ruim
M ur
15
BANCO DE DADOS
• Grafos (nós e elos) 0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
16
BIG DATA
0 1
3 98-
32 .
• Big Data é um termo amplamente utilizado 4 .7
4 3 na atualidade para
nomear conjuntos de dados muito v e s
grandes ou complexos, que os
aplicativos de processamentoa de Al dados tradicionais ainda não
conseguem lidar. L i m
ri l o
Mu
17
BIG DATA
0 1
3 98-
32 .
• Volume – Dados em uma escala enorme 4 .7
4 3
v s
e e estruturas
• Variedade – Dados de diversos tipos
Al
• Velocidade – Análises rápidas,m a
L i muitas vezes em Stream
ri l o
Mu
• Veracidade – Preocupação com a qualidade dos dados
• Valor – Dados precisam ser transformados em valor
18
BIG DATA
0 1
3 9 8-
32 .
.7
4 34
ve s
Al
m a
L i
i l o
Mur
Volume Valor Veracidade Visualização Variedade Velocidade Viralidade
19
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
20
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
21
Estudante Cidade
BIG DATA Adelino São Paulo
Amanda Rio de Janeiro
Estudante Cidade
Edson Salvador
Adelino São Paulo Zenilda Belo Horizonte
Amanda Rio de Janeiro Lucio São Paulo
Edson Salvador Guilherme São Paulo
0 1
8-
Zenilda Belo Horizonte Raquel São Paulo
Lucio São Paulo
.3 9
32
Guilherme São Paulo
Raquel São Paulo Estudante Cidade
.7
Lilian Salvador Lilian Salvador
4 34
Dalila Salvador Dalila
ve s
Salvador
l
Flavia Rio de Janeiro Flavia Rio de Janeiro Estudante Cidade
Emerson Belo Horizonte Emerson
a A Belo Horizonte
Sheila São Paulo
Nuno
Leonor
Rio de Janeiro
Salvador
L i m
Nuno
Leonor
Rio de Janeiro
Salvador
Eduardo Belo Horizonte
ur
Franklin São Paulo
Estela Belo Horizonte
M
Fernanda Rio de Janeiro
Moara Rio de Janeiro Estudante Cidade Marcelo Belo Horizonte
Raimundo Rio de Janeiro Estela Belo Horizonte Rebeca Rio de Janeiro
Marcela Belo Horizonte Moara Rio de Janeiro
Camilo São Paulo Raimundo Rio de Janeiro
Adriana Belo Horizonte Marcela Belo Horizonte
Anna Luiza Salvador Camilo São Paulo
Sheila São Paulo Adriana Belo Horizonte 22
Eduardo Belo Horizonte Anna Luiza Salvador
BIG DATA
0 1
3 98-
32 .
• NameNode – servidor mestre que gerencia 4 .7
4 3 todo o file system e
controla o acesso aos arquivos ve s
Al
• Data Nodes ou WorkNodesm–avários servidores que armazenam os
Li nos dados. Obedecem ao NameNode
pedaços e realizam as otarefas
ri l
Mu
23
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
24
Estudante Cidade
BIG DATA Adelino São Paulo
Amanda Rio de Janeiro
Estudante Cidade
Edson Salvador
Adelino São Paulo Zenilda Belo Horizonte
Amanda Rio de Janeiro Lucio São Paulo
Edson Salvador Guilherme São Paulo
0 1
8-
Zenilda Belo Horizonte Raquel São Paulo
Lucio São Paulo
.3 9
32
Guilherme São Paulo
Raquel São Paulo Estudante Cidade
.7
Lilian Salvador Lilian Salvador
4 34
Dalila Salvador Dalila
ve s
Salvador
l
Flavia Rio de Janeiro Flavia Rio de Janeiro Estudante Cidade
Emerson Belo Horizonte Emerson
a A Belo Horizonte
Sheila São Paulo
Nuno
Leonor
Rio de Janeiro
Salvador
L i m
Nuno
Leonor
Rio de Janeiro
Salvador
Eduardo Belo Horizonte
ur
Franklin São Paulo
Estela Belo Horizonte
M
Fernanda Rio de Janeiro
Moara Rio de Janeiro Estudante Cidade Marcelo Belo Horizonte
Raimundo Rio de Janeiro Estela Belo Horizonte Rebeca Rio de Janeiro
Marcela Belo Horizonte Moara Rio de Janeiro
Camilo São Paulo Raimundo Rio de Janeiro
Adriana Belo Horizonte Marcela Belo Horizonte
Anna Luiza Salvador Camilo São Paulo
Sheila São Paulo Adriana Belo Horizonte 25
Eduardo Belo Horizonte Anna Luiza Salvador
BIG DATA
0 1
8-
Estudante Cidade Estudante Cidade Estudante Cidade
Adelino São Paulo Lilian Salvador Estela Belo Horizonte
.3 9
Amanda Rio de Janeiro Dalila
Flavia
Salvador
Rio de Janeiro
Moara Rio de Janeiro
.7 32
34
Edson Salvador Raimundo Rio de Janeiro
Zenilda Belo Horizonte Emerson Belo Horizonte
4
Marcela Belo Horizonte
s
ve
Lucio São Paulo Nuno Rio de Janeiro Camilo São Paulo Estudante Cidade
Guilherme São Paulo Leonor Salvador
Al
Adriana Belo Horizonte
a
Pilar Rio de Janeiro Anna Luiza Salvador Sheila São Paulo
Raquel São Paulo
L i m Eduardo
Geovani
Belo Horizonte
São Paulo
i l o
ur
Franklin São Paulo
Fernanda Rio de Janeiro
M Marcelo
Rebeca
Belo Horizonte
Rio de Janeiro
Etapa Map: cada servidor (que está com uma base de dados) recebe uma tarefa: separar por cidade 26
BIG DATA
0 1
Estudante Cidade Estudante Cidade Estudante Cidade
3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Adelino São Paulo Leonor Salvador Adriana Belo Horizonte
Lucio São Paulo
s 4
ve
Guilherme São Paulo Flavia Rio de Janeiro Moara Rio de Janeiro Estudante Cidade
Raquel São Paulo Nuno Rio de Janeiro
A l
Raimundo Rio de Janeiro
Pilar Rio de Janeiro
m a Sheila São Paulo
Edson Salvador
L
Emerson Belo Horizonte i Camilo São Paulo
Geovani São Paulo
Zenilda Belo Horizonte
r i l o Anna Luiza Salvador
Franklin São Paulo
Mu
Eduardo Belo Horizonte
Marcelo Belo Horizonte
Etapa Map: cada servidor (que está com uma base de dados) recebe uma tarefa: separar por cidade
27
BIG DATA
0 1
Estudante Cidade Estudante Cidade Estudante Cidade
3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Flavia Rio de Janeiro Leonor Salvador Adriana Belo Horizonte
Nuno Rio de Janeiro
s 4
ve
Pilar Rio de Janeiro Anna Luiza Salvador Emerson Belo Horizonte Estudante Cidade
Al
Moara Rio de Janeiro Edson Salvador
a
Eduardo
m
Belo Horizonte Sheila São Paulo
Raimundo Rio de Janeiro
L iMarcelo Belo Horizonte Geovani São Paulo
Fernanda Rio de Janeiro
i l o Franklin São Paulo
Rebeca Rio de Janeiro
M ur Zenilda Belo Horizonte
Camilo São Paulo
0 1
Estudante Cidade Estudante Cidade Estudante Cidade
3 98-
Amanda Rio de Janeiro Lilian
Dalila
Salvador
Salvador
Estela Belo Horizonte
Marcela Belo Horizonte
32 .
.7
34
Flavia Rio de Janeiro Leonor Salvador Adriana Belo Horizonte
Nuno Rio de Janeiro
s 4
ve
Pilar Rio de Janeiro Anna Luiza Salvador Emerson Belo Horizonte Estudante Cidade
Al
Moara Rio de Janeiro Edson Salvador
a
Eduardo
m
Belo Horizonte Sheila São Paulo
Raimundo Rio de Janeiro
L iMarcelo Belo Horizonte Geovani São Paulo
Fernanda Rio de Janeiro
i l o Franklin São Paulo
Rebeca Rio de Janeiro
M ur Zenilda Belo Horizonte
Camilo São Paulo
0 1
3 98-
32 .
• JobTracker – Único. Recebe as funções3que 4 .7 precisam ser executas e as
s 4
enviam para os TaskTrackers corretos.
l v e
a A Map e Reduce.
• TaskTrackers – Executam asmfunções
L i
ri l o
M u
30
BIG DATA
0 1
3 98-
• Evolução
32 .
.7
• Yet Another Resource Negotiator
4 34
ve s
Al
• Resource Manager – Rodaim a
no nó master. Gerencia os recursos globais
o L
• NodeManager – Roda
ri l nos nós workers e se comunica com o Resource
Manager. Mu
31
BIG DATA
0 1
3 98-
32 .
4 .7
Computação
4 3
v e s
distribuída
Al
m a
o Li Armazenamento
i l distribuído
Mur
32
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
33
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
34
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
35
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
36
BIG DATA
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
37
CAPACIDADES ANALÍTICAS
0 1
3 98-
32 .
Supervisionada 3 4Não
.7 Supervisionada
s 4
X1 X2 X3 RESPOSTA
Alve X1 X2 X3
ma
L i
i l o
M ur
38
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
39
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
40
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
41
REGRESSÃO LINEAR SIMPLES
0 1
3 9 8-
32 .
.7
𝑌 = 𝛽03+4𝛽1 𝑥1 + ϵ
s 4
l v e= 𝑏 + 𝑏 𝑥
a A 𝑦ො 0 1 1
L i m em que:
i l o
Mur 𝑏0 , 𝑏1 são estimadores de 𝛽0 , 𝛽1
𝑦ො = o valor estimado da variável dependente
42
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
43
REGRESSÃO LINEAR MULTIPLA
0 1
3 9 8-
32 .
.7
3𝑝4+ ϵ
𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥
s 4
𝑦ො = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2A l v e
+ ⋯ + 𝑏𝑝 𝑥𝑝
m a
em que: o L i
𝑏0 , 𝑏1 , 𝑏r2i,l… , 𝑏𝑝 são estimadores de 𝛽0 , 𝛽1 , 𝛽2 , 𝛽𝑝
𝑦ොM
u
= o valor estimado da variável dependente
44
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
45
ANOVA
0 1
3 98-
32 .
.7
4 34
ve s
Valor gasto no cartão de crédito
Al Yik = + i + ik
ma
L i
i l o
Mur
homem mulher
46
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
47
ANCOVA
0 1
3 9 8-
32 .
.7
4 34
ve s
Al 𝑦ො = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥𝐹1 + 𝑏3 𝑥𝐹2
ma
L i
i l o
Mur
• Ref:
48
• http://renatabrandt.github.io/EBC2015/RegressaoLinear.html#ancova
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
49
REGRESSÃO LOGÍSTICA
0 1
3 98-
32 .
.7
𝑙𝑜𝑔𝑖𝑡𝑜 (𝑝)Ƹ = 𝑏0 + 𝑏1 𝑥1
4 34
ve s
Al
𝑒 𝑏0 +𝑏1𝑥1
ma
𝑝Ƹ =
1 + 𝑒 𝑏0 +𝑏1𝑥1
L i
i l o
M ur
• Ref:
50
• Software SAS
NECESSIDADES
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
51
ÁRVORE DE DECISÃO
0 1
3 9 8-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
• Ref:
• Software SPSS e Software SAS 52
RANDOM FOREST
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
M ur
• Ref:
• Software SAS 53
GRADIENT BOOSTING
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
• Ref:
• Software SAS 54
E MUITAS MAIS...
0 1
3 98-
Var Independente
32 .
7
Intervalares e
Categóricas
.
Intervalares
34 Categóricas
Var Resposta
s 4
ANOVA
Árvore Decisão Alve
Regressão Linear
Árvore Decisão
ANCOVA
Árvore Decisão
m a
Intervalar Random Forest
L i Random Forest Random Forest
i l o
Gradient Boosting Gradient Boosting Gradient Boosting
ur
Rede Neural Rede Neural Rede Neural
M
Regressão Logística
Árvore Decisão
Regressão Logística
Árvore Decisão
Regressão Logística
Árvore Decisão
Random Forest Random Forest Random Forest
Categórica
Gradient Boosting Gradient Boosting Gradient Boosting
Rede Neural Rede Neural Rede Neural
Rule Induction Rule Induction Rule Induction 55
CAPACIDADES ANALÍTICAS
0 1
3 98-
32 .
Supervisionada 3 4Não
.7 Supervisionada
s 4
X1 X2 X3 RESPOSTA
Alve X1 X2 X3
ma
L i
i l o
M ur
56
AGRUPAMENTOS
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
AGRUPAMENTOS
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
Mur
DICAS PARA SER UM BOM
CIENTISTA DE DADOS
0 1
8-
• Entenda do contexto que está trabalhando 2.39
.7 3
• Exponha suas ideias de forma lúdica e 3
4 4
simplificada, garanta que as
pessoas entenderam a mensagemve s
Al
• Não tome decisão pelos outros, m a cada um tem um papo no sistema de
ciência de dados L i
i l o
• Não limite-se a M ur uma técnica, explore possibilidades
apenas
• Negócio é quem norteia as decisões, deixe isso acontecer
• Seja curioso e faça perguntas!!!
59
Resumo
• O que é Ciência dos Dados;
0 1
• O que é Big Data;
3 98-
• Por que Big Data é importante; 32 .
.7
• Os dados que integram o Big Data;
4 34
• Relação entre a ciência de dados e Big Data;
ve s
Al
• Ferramentas de Big Data;
m a
• Big Data Analytics;
L i
i l o
ur
• Machine Learning e Graph Analytics com Big Data;
M
• Principais tecnologias associadas a Big Data;
• Cases de data science no Brasil e no exterior.
It´s kind of fun to do the
IMPOSSIBLE
0 1
3 98-
32 .
.7
4 34
ve s
Al
ma
L i
i l o
dri@asn.rocks
Mur
/in/adrianamms
/in/asn.rocks
asn.rocks
www.asn.rocks