Escolar Documentos
Profissional Documentos
Cultura Documentos
2 3 8
6 4 .
3 .8
29
c a
SUPERVISEDseMACHINE LEARNING:
n
o REGRESSÃO SIMPLES E
ANÁLISE
a FDE
u z MÚLTIPLA
S o
d e
e Prof. Dr. Luiz Paulo Fávero
i s tian
Cr
n
Lli ia
-5 5
3
2 8
6 4 .
3 .8
*A responsabilidade pela idoneidade, 29
e c a
originalidade e licitude dos n s conteúdos
didáticos apresentados F o é do professor.
za
u total ou parcial, sem
Proibida a reprodução,S o
d e
autorização. Lei nº 9610/98
ne
s t ia
r i
n C
il i a
L
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 3
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Reflexão
2 3 8
Modelos Supervisionados
6 4 .
3 .8
29
e ca
s
“Diferentes pesquisadores, a partir de uma mesma base
n
Fo
de dados, podem estimar diferentes modelos e,
u za
consequentemente, obter diferentes valores previstos do
fenômeno em estudo. O objetivo é estimar modelos que,
S o
embora simplificações da realidade, apresentem a melhor
i s t
C r Silberzahn, R.; Uhlmann, E. L. Many hands make tight work.
n
li ia
Nature, v. 526, p. 189-191, Out 2015.
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
4
-5 5
Reflexão
2 3 8
Modelos Supervisionados
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 5
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Reflexão
2 3 8
Modelos Supervisionados
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 6
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Reflexão
2 3 8
Modelos Supervisionados
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 7
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Reflexão
2 3 8
Modelos Supervisionados
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 8
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
Modelos Supervisionados de
-5 5
Machine Learning:
2 3 8
Modelos Lineares Generalizados (GLM)
6 4 .
3 .8
X1 29
e ca
n s
Y a Fo
Xz
u2
S o
d e
ne
Xk s t ia X3
r X i
n C
il i a 4
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
9
Modelos Lineares Generalizados (GLM)
-5 5
2 3 8
𝜼𝒊 = 𝜶 + 𝜷𝟏 . 𝑿𝟏𝒊 + 𝜷𝟐 . 𝑿𝟐𝒊 +... 𝜷𝒌 . 𝑿𝒌𝒊
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r ln ( poisson )
n ln ( bneg )
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 10
10
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Modelos Supervisionados:
2 3 8
Modelos Lineares Generalizados (GLM)
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 11
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
Fundamentação teórica e conceitos em modelos de regressão
6 4 .
3 .8
9
Especificação dos modelos GLM e funções de ligação canônica
Estimação dos parâmetros
a 2
se c
n
Variáveis dummy
Procedimento Stepwise
a Fo
Teste de normalidade dos resíduos
u z
S o
Modelos não lineares e transformações de Box-Cox
d e
e
Diagnósticos de multicolinearidade e heterocedasticidade
Estimações em R
ia n
i s t
C r
i a n
Lil
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
12
-5 5
2 3 8
Regressão Linear Simples
6 4 .
3 .8
29
Objetivo:
e c a
Desenvolver uma equação linear que apresente a relação entre uma variável dependente e
n s
uma variável explicativa.
a Fo
z
ucartesiano:
S o
Equação linear de uma reta num plano
e
d 𝒀 = 𝜶 + 𝜷. 𝑿 + 𝒖
ne
s t ia 𝒊 𝒊 𝒊
em que C
i
r um intercepto (𝛼), um coeficiente de inclinação da reta (𝛽), uma variável
n X e um termo de erro u.
temos
i a
Lil
explicativa
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 13
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r ARQUIVO
n
li ia
“tempodist.xls”
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
14
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 15
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Análise de Regressão:
2 3 8
Coeficiente de Ajuste do Modelo (R²)
6 4 .
3 .8
9
Indica o percentual de variância da variável Y2 que é devido ao
e c a
comportamento de variação conjunta da(s) s variável(is) explicativa(s)
X. Varia de 0 a 1 e, quanto maior ooncoeficiente, maior o poder
a F
u
preditivo do modelo de regressão, z ou seja, maior o poder de
S o da variável dependente frente ao
e
explicação do comportamento
d
comportamento da(s)
ne variável(is) explicativa(s).
s t ia
r i
n C
i a
Lil
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
16
16
-5 5
Análise de Regressão:
2 3 8
Coeficiente de Ajuste do Modelo (R²)
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 17
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Análise de Regressão:
2 3 8
Estimação dos Parâmetros
6 4 .
3 .8
Critérios:
29
e c n a
1 – Soma dos erros igual a zero: ui = n 0s
i =1 Fo
a
z a mínima possível: ui2 = mín
2 – Soma dos erros ao quadradousendo
n
S o i =1
d e
n e
Parâmetros a teia
b podem ser estimados por meio do método dos mínimos
s
quadradosriordinários (MQO), em que a somatória dos quadrados dos
n C
li ia
termos de erro é minimizada.
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
18
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 19
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Análise de Regressão:
2 3 8
Cálculo do R²
6 4 .
3 .8
29
e ca
n
n s
( ) za Fo
2
ˆ
Yi − Y
R2 = n i =1
no
u
e S
( i ne ) i
d 2
Yˆ − Y + ( u ) 2
i =1 tia i =1
r is
n C
il i a
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
20
-5 5
2 3 8
Apenas Parâmetros e R² ?
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 21
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
Apenas Parâmetros e R² ?
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 22
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
e
dModelos de Regressão
e
i s tian no
Cr
n
Lli ia
-5 5
Significância Estatística
2 3 8
do Modelo
6 4 .
3 .8
29
e c a
▪ Teste F: Permite analisar se pelo menos um
n s dos b’s é estatisticamente
F o de Y.
significante para a explicação do comportamento
u z a
▪ Hipóteses: H : 𝛽 = 𝛽 = 𝛽So = ⋯ = 𝛽 = 0 H : pelo menos um 𝛽 ≠ 0
d e 0 1 2 3 𝑘 1
n C
nível crítico
i a
Lil
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
24
-5 5
Significância Estatística
2 3 8
dos Parâmetros do Modelo
6 4 .
3 .8
29
e c a
n s
▪ Teste t: Permite analisar se cada um dos parâmetros, individualmente, é
F
estatisticamente diferente de zero (no caso ode regressão simples, apresenta a
mesma significância da estatística F).za
o u
e S
▪ Hipóteses: H : 𝛽 = 0 d H : 𝛽 ≠ 0
n e 0 1
tia
Avalia-se aissignificância
C r nível de significância (0,05, usualmente).
estatística de cada parâmetro do modelo, para
i an
determinado
Lil
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
25
-5 5
2 3 8
Comparação entre Modelos
6 4 .
3 .8
Quando houver o intuito de se compararem 2 9 os resultados das
estimações de dois modelos com quantidades e c adistintas de parâmetros
n stamanhos diferentes, faz-se
e/ou obtidos a partir de amostras com
necessário o uso do R² ajustado. a F
o
u z
S o
2
R ajust. = 1 − e
t ia
nde− 1
nn − 1 − k 1− R 2
( )
i s
r amostra;
C
n: tamanho da
n de variáveis X explicativas.
i a
Lil
k: quantidade
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 26
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
Regressão Múltipla
6 4 .
3 .8
2 9
e c
Qual a diferença entre um modelo de regressão a simples para um
s
modelo de regressãonmúltipla?
F o
u za
S o
A inclusão de novas variáveis explicativas no modelo!
d e
A forma funcionalepassa a ser a seguinte:
ia n
i s t
𝒀𝒊r= 𝜶 + 𝜷𝟏 . 𝑿𝟏𝒊 + 𝜷𝟐 . 𝑿𝟐𝒊 + 𝜷𝟑 . 𝑿𝟑𝒊 … + 𝜷𝒌 . 𝑿𝒌𝒊 + 𝒖𝒊
C
i an
L il
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 27
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
2 3 8
Variáveis Explicativas (X) Qualitativas
6 4 .
3 .8
▪ Modelando com variáveis explicativas (X) qualitativas.a 2
9
s e c
n
ovariáveis
▪ É muito comum observar que diversas
a F
qualitativa (exemplo: rating deou
explicativas podem se apresentar z de maneira
e S crédito, setor de
atuação, etc.).
e d
ia n
▪ Dado que tais tcaracterísticas
r s
i como incorporá-las ao modelo de
não possuem média e
C
nem variância,
n
l i a
regressão?
Li
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
28
-5 5
2 3 8
Variáveis Explicativas (X) Qualitativas
6 4 .
3 .8
29
Variáveis dummy
e ca
São variáveis categóricas que representam um atributo por meio de
n s
combinação binária (0 para a ausência ou 1 para presença).
a Fo
z
ucategórica com mais de uma categoria?
S
E quando tivermos uma variável o
d
Neste caso, devemos incluire n – 1 dummies, em que n é a quantidade de
nena variável original.
t ia
categorias existentes
r is
n C
l i a
Li
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
29
-5 5
2 3 8
Modelos Não Lineares
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 30
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Modelos Não Lineares e
2 3 8
Transformações de Box-Cox
6 4 .
3 .8
29
e ca
n s
a Fo Y −1
z
u Box −Cox =
*
S o Y
d e
e
ist ian Qual o valor de ( varia entre –∞ e +∞) que maximiza a aderência da
i an
L il
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 31
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Modelos Não Lineares e
2 3 8
Transformações de Box-Cox
6 4 .
3 . 8
Yi = a + b1. X1 + b 2 . X 2 + ... + b k . X k 2 9
c a
Especificação Linear
e
( = 1)
e S k
= a + b1. X1 + b 2 . X 2e+ d
1
t
Yi
s
ln (Yi ) = a +rbi1. X1 + b 2 . X 2 + ... + b k . X k Especificação Semilogarítmica ( = 0)
n C Expansão de Taylor
il i a
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
32
-5 5
Modelos Não Lineares e
2 3 8
Transformações de Box-Cox
6 4 .
3 .8
Yi − 1 29
= a + b1. X1 + b 2 . X 2 + ... + b k . X k + ui
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 33
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Diagnóstico de
2 3 8
Multicolinearidade
6 4 .
3 . 8
2 9
e a
• Multicolinearidade: consequência da existência de altaccorrelação entre duas ou mais
n s
o
variáveis explicativas (preditoras).
a F
• Possibilidade de interpretações erradas
u z pela eventual distorção dos sinais dos
parâmetros.
S o
d e
• Erros nas predições.
n e
s i a
ta multicolinearidade?
i
r dos coeficientes.
• Como detectar
C
n t não significantes e teste F significante.
◦ Sinais inesperados
i a
Lil
◦ Testes
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 34
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Diagnóstico de
2 3 8
Multicolinearidade
6 4 .
3 .8
Yi = a + b1. X 1i + b 2 . X 2i + ... + b k . X ki + ui
29
e c a
Y = X.b + U
n s
a Fou
Y1
Y
1 X 11
1 X
X 12 ... X 1k
a
u z
1
2 21 X 22
S o
... X 2 k b
1 u
2
Y3 = 1 X 31
d
X 32
e
... X 3k
.b2
+ u3
e
ian
...
... ... ... ... ... ...
...
Yn 1 X n1
i s t X n2 ... X nk nxk +1 bk k +1x1 un nx1
r
nx1
n C
li ia
b = (X’X)-1(X’Y)
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
35
-5 5
Fontes Geradoras da
2 3 8
Multicolinearidade
6 4 .
3 .8
29
e ca
1 - Existência de variáveis que apresentam a mesma tendência durante
n s
Fo
alguns períodos, em decorrência da seleção de uma amostra que inclua
apenas observações referentes a estes períodos.
u za
S o
d
2 - Utilização de amostras e com reduzido número de observações.
n e
s t
3 - Utilização de iavalores defasados em algumas das variáveis explicativas
r i explicativas.
C
como “novas”
n
l i a
Li
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
36
-5 5
Consequências da
2 3 8
Multicolinearidade
6 4 .
3 .8
𝒀𝒊 = 𝜶 + 𝜷𝟏 . 𝑿𝟏𝒊 + 𝜷𝟐 . 𝑿𝟐𝒊 29
e c a
n s
(a) Correlação Perfeita:
1 F
o
=a
4
Xz
o u 2 8
e S
e d 5 20
ian
X' X =
20 80
i s t
C r det(X’X) = 0, ou seja, (X’X)
e, portanto, -1 não pode ser definida.
i an
L il
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 37
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
-5 5
Consequências da
2 3 8
Multicolinearidade
6 4 .
3 .8
(b) Correlação Muito Alta, porém Não Perfeita: 29
e c a
1 4
n s
Fo
X=
2 7 ,9
u za 5 19,8
So 19,8
X=
78,41
X'
d e
de onde vem que n e = 0,01 e, portanto:
t ia det(X’X)
r is
n C (X' X ) =
7.841 − 1.980
− 1.980 500
−1
li ia
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
38
-5 5
Consequências da
2 3 8
Multicolinearidade
6 4 .
3 .8
(c) Correlação Baixa: 29
e c a
1 4
n s
Fo
X=
2 3
u za
So 10
5 10
=
25
X' X
d e
de onde vem que n e = 25 e, portanto:
t ia det(X’X)
r is 1 − 0,4
n C (X' X) =
− 0,4 0,2
−1
il i a
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
39
-5 5
Consequências da
2 3 8
Multicolinearidade
6 4 .
3 .8
29
c a
1 – As significâncias estatísticas dos parâmetros
e
b = (X’X) -1X’Y são
n
sensíveis às correlações entre as variáveiss explicativas.
F o
u za
2 – Os elementos da diagonal
S o principal da matriz (X’X)-1 aparecem
no denominador da e estatística t. Como a presença da
multicolinearidadee dgera valores muito altos na diagonal da
ia n como vimos, ocorre a redução no valor da
i s t
referida matriz,
C r t, sem alteração no cálculo da estatística F.
estatística
i an
Lil
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
40
-5 5
Identificação da
2 3 8
Multicolinearidade
6 4 .
3 .8
29
Regressões auxiliares entre cada uma das explicativas e as
e c a demais explicativas:
X = b + b X + ... + bs X
o n 2 1 2. 3 k-1. k
a F
X = b + b X + ... +b X 3 1 2. 2 k-1. k
+z
...
X = bu
S o b X + ... + b X k 1 2. 2 k-1. k-1
emC
r i VIF = 1 / Tolerance
u za
S o
d e
e
i s t ian
C r
n
Variável
Variável Variável
Variável
li ia
explicativa
explicativa explicativa
explicativa
L
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor.
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.
42
-5 5
2 3 8
6 4 .
3 .8
29
e ca
n s
a Fo
u z
S o
d e
e
i s t ian
C r
n
L li ia
* A responsabilidade pela idoneidade, originalidade e licitude dos conteúdos didáticos apresentados é do professor. 43
É proibida a reprodução, total ou parcial, sem autorização. Lei nº 9610/98.