Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressão
Simples
Historia
| História
z Termo regressão foi introduzido por Francis Galton
(1822-1911). Estudo sobre altura de pais e filhos.
z Karl Pearson coletou mais de mil registros e verificou a
“lei de regressão universal” de Galton (1857-1936)
| Atualmente é uma das técnicas de estimação mais
usadas.
z Aplicações: Industria, Economia, Estudos Biológicos, etc
| Objetivos: descrição de dados, estimação de parâmetros,
predição e controle.
| Ampla literatura
z Modelo de Regressão Linear
z Modelo de Regressão Não-Linear
z Modelo Linear Generalizado
z 2 Entre outros
Exemplos
Aplicação na economia:
X1 = renda
X2 = taxa de juros Y = consumo
X3 = poupança
não
Validação
do modelo
sim
Uso do
Modelo
“método estatístico que utiliza a relação entre duas ou mais variáveis
de modo que uma variável pode ser estimada (ou predita) a partir da
4 outra ou das outras”
Relação funcional x Relação
estatística
As variáveis podem possuir dois tipos de relações:
1) Funcional: a relação é expressa por uma
fórmula matemática: Y = f(X)
Todos os pontos caem na curva da relação
funcional
Nesse caso, temos um modelo determinístico.
Ex: relação entre o perímetro (P) e o lado de um
quadrado (L)
5
Relação funcional x Relação
estatística
Estatística: não é uma relação perfeita como no
caso da relação funcional. As observações em
geral não caem exatamente na curva da
relação.
Nesse caso temos um modelo probabilístico. O
modelo captura a aleatoriedade que é parte de
um processo do mundo real.
Ex: relação entre tamanho de casa (T) e preço (P).
Todas as casas de mesmo tamanho são
vendidas pelo mesmo preço?
6
Relação estatística:
80
75
70
65
independente X não implica
60 que Y depende de X, ou que
existe uma relação de
55
50
150 160 170
Altura (cm )
180 190
causa-efeito entre X e Y.
7
Medida de Associação
Y
Y
Y
r = 0,9 r = 0,3 r=0
X X X
Coeficiente de Correlação (de Pearson)
mede o grau de relação linear entre X e Y
Cov ( X , Y )
r= −1 ≤ r ≤ 1
Var ( X ) *Var (Y )
Y
n n n n
∑( X i − X )(Yi − Y ) n ∑ X iYi − ∑ X i ∑ Yi
r = - 0,9 r= i =1
= i =1 i =1 i =1
n n
⎡ n 2 ⎛ n ⎞ ⎤⎡ n 2 ⎛ n ⎞ ⎤
∑( Xi − X ) ∑ (Yi − Y )
2 2 2 2
⎢ n ∑ X i − ⎜ ∑ X i ⎟ ⎥ ⎢ n ∑ Yi − ⎜ ∑ Yi ⎟ ⎥
X
i =1 i =1
⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦
8
Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
1. Um alto coeficiente de correlação nem sempre indica que
a equação de regressão estimada está bem ajustada aos
dados.
?
Y
Y
X X
9
Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
2. Um coeficiente de correlação próximo de zero nem
sempre indica que X e Y não são relacionadas.
Y
A
X
Y
Y
Y
B
X X
10
Um modelo determinístico
Preço da
casa
nh o)
m a
5× (ta
+7
5000
ço =2
P r e
Tamanho da casa
Neste modelo, o preço da casa é completamente determinado pelo tamanho.
11
Um modelo estatístico
Variabilidade
Baixa vs. Alta
Preço
da Casa
25$
x
Tamanho da casa
É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimado
baseando-se no tamanho da casa.
12
Análise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as
variáveis.
3. Usar a equação ajustada para prever valores da variável
dependente.
Regressão Linear Simples
Yi = β0 + β1Xi + ξi
β1 Coeficiente
angular
β0
Inclinação
populacional
Intercepto
X populacional Erro Aleatório
Yi = β 0 + β1 X i + ξ i
14
Variável Variável
Dependente Independente
Estimação dos parâmetros
| Em geral não se conhece os valores de β0 e β1.
| Eles podem ser estimados através de dados obtidos
por amostras.
| O método utilizado na estimação dos parâmetros é o
método dos mínimos quadrados, o qual considera os
desvios dos Yi de seu valor esperado:
ξi = Yi – (β0 + β1 Xi)
| Em particular, o método dos mínimos quadrados
requer que consideremos a soma dos n desvios
quadrados, denotado por Q:
n
Q = ∑[Yi − β0 − β1 X i ]2
i =1
15
Estimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de
β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor
de Q.
Derivando ∂Q n
∂β 0
∑
= −2 [Y − β − β X ]
i =1
i 0 1 i
∂Q n
= −2∑ [Yi − β 0 − β1 X i ] X i
∂β1 i =1
∑ (X i − X )( Y i − Y ) E(Y ) = β0 + β1 X
b1 = i =1
Yˆ = b + b X
n
∑ (X i − X )2 0 1
i =1 ei = Yi − Yˆi (resíduo)
b0 = Y − b1 X
16
Propriedades da equação
n
de regressão
1) ∑
i =1
ei = 0
2) ∑
i =1
ei2 é mínima
n n
3) ∑ Yi = ∑ Yˆi
i =1 i =1
17
X X
Predição
yˆ = αˆ + βˆx0
18
Inferência em Análise de Regressão
Considere o modelo:
Yi = β0 + β1 Xi + ξi
Y
?
β0 = 0 ? β1 = 0 ? (teste de hipótese)
X
H 0 : β1 = 0
H 1 : β1 < 0
b − β1 b s 2 (b1 ) =
QMRes
t= 1 ~ tn − 2 t = 1 ~ tn − 2 n
s(b1 ) s(b1 ) ∑( X
i =1
i − X ) 2
19
Precisão do modelo
Y n n n
Yi
∑ i
(Y − Y ) = ∑ i
(Yˆ2
− Y ) + ∑ i i
(Y − Yˆ ) 2 2
}
Yi − Yˆi i =1 i =1 i =1
{
{
SQTo = SQReg + SQRes
Ŷi
Yi − Y
Yˆ − Y
i SQReg
R = 2
Y SQTo
Coeficiente de
SQTo - SQRes determinação
=
SQTo
0 ≤ R2 ≤ 1
SQRes
= 1−
SQTo
Yˆ = b0 + b1 X
Interpretação: R2 mede a
0 20 40 60 80 fração da variação total de
X Y explicada pela regressão.
20
Considerações sobre o
coeficiente de determinação
| O coeficiente de determinação deve ser usado com
cautela.
| Embora o coeficiente não pode diminuir quando mais
regressores são adicionados no modelo, isto não
significa que o novo modelo é melhor do que o
anterior.
| O coeficiente depende do range de variabilidade de x.
Um alto valor do coeficiente pode ser porque x teve
um grande range de variação não realístico. Por outro
lado, um valor pequeno do coeficiente pode ser
porque x teve um pequeno range de variação que não
permitiu que a sua relação com y seja detectada..
| A média dos quadrados dos resíduos é uma medida
adequada de qualidade do ajuste.
21
Análise de variância: teste
de significância do modelo
SQT tem n-1 graus de Soma de Graus de Média
|
quadrado liberdade
F0
liberdade
s
| SQR tem n-2 graus de n
liberdade Regressão SQM 1 (
∑ i − )2
⎡ n
( )2⎤
∑
ˆ
y y
| SQM tem 1 grau de liberdade i =1 ⎢ ˆ
y i − y ⎥ / σ 2
⎣ i =1 ⎦
Residual SQR n-2 n
∑ (y − yˆ i )
2
i
1
H0: β1=0 i =1
⎡ n 2⎤
n
n−2
⎢∑ i ( y − ˆ
y i )2
/ σ ⎥
Total SQT n-1
∑ (y − y) ⎢ i =1
⎥
2
n−2
i
i =1 ⎢ ⎥
n −1 ⎢⎣ ⎥⎦
If H0 é verdadeira
SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade.
SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade.
SQR e SQM são independentes. Por definição, F0 segue uma distribuição
22
F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2
Considerações
| Os modelos de regressão são construídos baseando-
se no range de valores dos regressores.
| A equação dos mínimos quadrados é fortemente
afetada por pontos extremos da distribuição de x.
| Os métodos de mínimos quadrados são influenciados
por outliers (pontos aberrantes).
| Porque a regressão indicou forte correlação entre
duas variáveis não significa que exista uma relação de
causa e efeito.
23
Modelos Linearizáveis
Modelo Padrão: Yi = β0 + β1Xi + ξi
exponencial
Yi = β 0 e β1 X i ξ i ln Y i = ln β 0 + β 1 X i + ln ξ i Y i ′ = β 0′ + β 1 X i + ξ i′
potencial
Y i = β 0 X iβ i ξ i ln Y i = ln β 0 + β 1 ln X i + ln ξ i Y i ′ = β 0′ + β 1 X i′ + ξ i′
ξ i′ ~ N ( 0 , σ 2 )
logaritmo
Y i ′ = β 0 + β 1 X i′ + ξ i potência
inverso
24
Análise de Resíduos
10 1.5
Yˆ == 0,9983
0,9983XX ++0,1306
0,1306
2 1.0
8 R2 = R = 0,9496
0,9496
0.5
Resíduos
6
Y
0.0
4
-0.5
2
-1.0
0 -1.5
0 2 4 6 8 10 0 2 4 6 8 10
X X
Resíduo = e i = Y i − Yˆi
25
Análise de Resíduos
10 2.0
Yˆ == 0,9983
0,9983XX ++0,1306
0,1306 1.5
2
8 R2 = R
Resíduos Padronizado
= 0,9496
0,9496 1.0
6 0.5
Y
0.0
4 -0.5
-1.0
2
-1.5
0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10
X X
26
Análise de Resíduos
“ideal” σ2 não constante não linearidade
2.0 2.0 2.0
1.5 1.5 1.5
Resíduos Padronizados
Resíduos Padronizados
Resíduos Padronizados
1.0 1.0 1.0
0.5 0.5 0.5
0.0 0.0 0.0
-0.5 -0.5 -0.5
-1.0 -1.0 -1.0
-1.5 -1.5 -1.5
-2.0 -2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
X X X
Resíduos Padronizados
Resíduos Padronizados
1.0 1.0
0.5 0.5
0.0 0.0
-0.5 -0.5
-1.0 -1.0
-1.5 -1.5
-2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10
X
tempo
X
27
Aplicação
Nota
Faltas final
95
90 x y
85
Nota final
80
8 78
75 2 92
70
65 5 90
60 12 58
55
50 15 43
45 9 74
40
6 81
0 2 4 6 8 10 12 14 16
Faltas
X
28
Cálculo de r
x y xy x2 y2
1 8 78 624 64 6.084
2 2 92 184 4 8.464
3 5 90 450 25 8.100
4 12 58 696 144 3.364
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898
n n n
n ∑ xi yi − ∑ xi ∑ yi
− 3155
r= i =1 i =1 i =1
= = −0.975
2 2
n
⎛ n ⎞ n
⎛ n ⎞ 804 13030
n ∑ xi − ⎜ ∑ xi ⎟ n ∑ yi − ⎜ ∑ yi ⎟
2 2
29 i =1 ⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠
x y xy x2 y2
1 8 78 624 64 6.084
Escreva a equação da 2 2 92 184 4 8.464
reta de regressão com 3 5 90 450 25 8.100
x = número de faltas 4 12 58 696 144 3.364
5 15 43 645 225 1.849
e y = nota final. 6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898
∑ ( x − x )( y
i i − y) A equação de regressão
é dada por:
βˆ = i =1
n
= −3,924
∑ (x − x)
i =1
i
2
yˆ = 105,667 − 3,924 xi
αˆ = y − βˆx = 105,667
Prevendo Valores