Você está na página 1de 31

Modelo de

Regressão
Simples
Historia

| História
z Termo regressão foi introduzido por Francis Galton
(1822-1911). Estudo sobre altura de pais e filhos.
z Karl Pearson coletou mais de mil registros e verificou a
“lei de regressão universal” de Galton (1857-1936)
| Atualmente é uma das técnicas de estimação mais
usadas.
z Aplicações: Industria, Economia, Estudos Biológicos, etc
| Objetivos: descrição de dados, estimação de parâmetros,
predição e controle.
| Ampla literatura
z Modelo de Regressão Linear
z Modelo de Regressão Não-Linear
z Modelo Linear Generalizado
z 2 Entre outros
Exemplos
Aplicação na economia:

X1 = renda
X2 = taxa de juros Y = consumo
X3 = poupança

Aplicação no mercado mobiliário (avaliação) :


X1 = área construída
X2 = custo do m2 Y = preço do
X3 = localização imóvel

Aplicação na ciência da computação:

X1 = memória RAM Y = tempo de


X2 = sistema operacional resposta
3
X3 = tipo de processador
Análise de regressão
não
Dados

Especificação Estimação dos


Testando a
do parâmetros
adequacidade
modelo do modelo
Teoria
sim

não
Validação
do modelo

sim

Uso do
Modelo
“método estatístico que utiliza a relação entre duas ou mais variáveis
de modo que uma variável pode ser estimada (ou predita) a partir da
4 outra ou das outras”
Relação funcional x Relação
estatística
As variáveis podem possuir dois tipos de relações:
1) Funcional: a relação é expressa por uma
fórmula matemática: Y = f(X)
Todos os pontos caem na curva da relação
funcional
Nesse caso, temos um modelo determinístico.
Ex: relação entre o perímetro (P) e o lado de um
quadrado (L)

5
Relação funcional x Relação
estatística
Estatística: não é uma relação perfeita como no
caso da relação funcional. As observações em
geral não caem exatamente na curva da
relação.
Nesse caso temos um modelo probabilístico. O
modelo captura a aleatoriedade que é parte de
um processo do mundo real.
Ex: relação entre tamanho de casa (T) e preço (P).
Todas as casas de mesmo tamanho são
vendidas pelo mesmo preço?
6
Relação estatística:

A existência de uma relação


100
95
90
85 estatística entre a variável
dependente Y e a variável
Pe so (k g)

80
75
70
65
independente X não implica
60 que Y depende de X, ou que
existe uma relação de
55
50
150 160 170
Altura (cm )
180 190
causa-efeito entre X e Y.

7
Medida de Associação

Y
Y

Y
r = 0,9 r = 0,3 r=0

X X X
Coeficiente de Correlação (de Pearson)
mede o grau de relação linear entre X e Y

Cov ( X , Y )
r= −1 ≤ r ≤ 1
Var ( X ) *Var (Y )
Y

n n n n

∑( X i − X )(Yi − Y ) n ∑ X iYi − ∑ X i ∑ Yi
r = - 0,9 r= i =1
= i =1 i =1 i =1
n n
⎡ n 2 ⎛ n ⎞ ⎤⎡ n 2 ⎛ n ⎞ ⎤
∑( Xi − X ) ∑ (Yi − Y )
2 2 2 2

⎢ n ∑ X i − ⎜ ∑ X i ⎟ ⎥ ⎢ n ∑ Yi − ⎜ ∑ Yi ⎟ ⎥
X
i =1 i =1
⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦
8
Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
1. Um alto coeficiente de correlação nem sempre indica que
a equação de regressão estimada está bem ajustada aos
dados.

?
Y
Y

X X

9
Coeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
2. Um coeficiente de correlação próximo de zero nem
sempre indica que X e Y não são relacionadas.

Y
A

X
Y
Y

Y
B
X X

10
Um modelo determinístico

Preço da
casa

nh o)
m a
5× (ta
+7
5000
ço =2
P r e

Tamanho da casa
Neste modelo, o preço da casa é completamente determinado pelo tamanho.
11
Um modelo estatístico
Variabilidade
Baixa vs. Alta
Preço
da Casa

25$

Preço = 25,000 + 75(Tamanho) + ξ

x
Tamanho da casa

É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimado
baseando-se no tamanho da casa.
12
Análise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as
variáveis.
3. Usar a equação ajustada para prever valores da variável
dependente.
Regressão Linear Simples

Yi = β0 + β1Xi + ξi

E(ξi) = 0; Var (ξi) = σ2 e COV (ξi,ξj) = 0


13
Modelo de Regressão
Linear Simples
Y ξi E(Y) = β0 + β1 X

β1 Coeficiente
angular
β0
Inclinação
populacional
Intercepto
X populacional Erro Aleatório

Yi = β 0 + β1 X i + ξ i
14
Variável Variável
Dependente Independente
Estimação dos parâmetros
| Em geral não se conhece os valores de β0 e β1.
| Eles podem ser estimados através de dados obtidos
por amostras.
| O método utilizado na estimação dos parâmetros é o
método dos mínimos quadrados, o qual considera os
desvios dos Yi de seu valor esperado:
ξi = Yi – (β0 + β1 Xi)
| Em particular, o método dos mínimos quadrados
requer que consideremos a soma dos n desvios
quadrados, denotado por Q:
n
Q = ∑[Yi − β0 − β1 X i ]2
i =1

15
Estimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de
β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor
de Q.
Derivando ∂Q n

∂β 0

= −2 [Y − β − β X ]
i =1
i 0 1 i

∂Q n
= −2∑ [Yi − β 0 − β1 X i ] X i
∂β1 i =1

Igualando-se essas equações a zero obtém-se os valores b0 e b1 que


minimizam Q:
n

∑ (X i − X )( Y i − Y ) E(Y ) = β0 + β1 X
b1 = i =1

Yˆ = b + b X
n

∑ (X i − X )2 0 1

i =1 ei = Yi − Yˆi (resíduo)
b0 = Y − b1 X
16
Propriedades da equação
n
de regressão
1) ∑
i =1
ei = 0

2) ∑
i =1
ei2 é mínima

n n
3) ∑ Yi = ∑ Yˆi
i =1 i =1

4) A reta de regressão passa sempre pelo ponto ( X ,Y )

17

X X
Predição

| Um dos objetivos da análise de


regressão
| Para um determinado valor x0 de X,
queremos prever o valor que deverá
ser assumido por Y.

yˆ = αˆ + βˆx0

18
Inferência em Análise de Regressão

Considere o modelo:
Yi = β0 + β1 Xi + ξi

ξ ~ N(0; σ2) e COV (ξi,ξj)= 0

IC para β0 e β1, IC para Ynovo

Y
?
β0 = 0 ? β1 = 0 ? (teste de hipótese)

X
H 0 : β1 = 0
H 1 : β1 < 0

b − β1 b s 2 (b1 ) =
QMRes
t= 1 ~ tn − 2 t = 1 ~ tn − 2 n
s(b1 ) s(b1 ) ∑( X
i =1
i − X ) 2

19
Precisão do modelo
Y n n n
Yi
∑ i
(Y − Y ) = ∑ i
(Yˆ2
− Y ) + ∑ i i
(Y − Yˆ ) 2 2

}
Yi − Yˆi i =1 i =1 i =1

{
{
SQTo = SQReg + SQRes
Ŷi
Yi − Y
Yˆ − Y
i SQReg
R = 2

Y SQTo
Coeficiente de
SQTo - SQRes determinação
=
SQTo
0 ≤ R2 ≤ 1
SQRes
= 1−
SQTo
Yˆ = b0 + b1 X
Interpretação: R2 mede a
0 20 40 60 80 fração da variação total de
X Y explicada pela regressão.
20
Considerações sobre o
coeficiente de determinação
| O coeficiente de determinação deve ser usado com
cautela.
| Embora o coeficiente não pode diminuir quando mais
regressores são adicionados no modelo, isto não
significa que o novo modelo é melhor do que o
anterior.
| O coeficiente depende do range de variabilidade de x.
Um alto valor do coeficiente pode ser porque x teve
um grande range de variação não realístico. Por outro
lado, um valor pequeno do coeficiente pode ser
porque x teve um pequeno range de variação que não
permitiu que a sua relação com y seja detectada..
| A média dos quadrados dos resíduos é uma medida
adequada de qualidade do ajuste.

21
Análise de variância: teste
de significância do modelo
SQT tem n-1 graus de Soma de Graus de Média
|
quadrado liberdade
F0
liberdade
s
| SQR tem n-2 graus de n
liberdade Regressão SQM 1 (
∑ i − )2
⎡ n
( )2⎤

ˆ
y y
| SQM tem 1 grau de liberdade i =1 ⎢ ˆ
y i − y ⎥ / σ 2

⎣ i =1 ⎦
Residual SQR n-2 n

∑ (y − yˆ i )
2
i
1
H0: β1=0 i =1
⎡ n 2⎤
n
n−2
⎢∑ i ( y − ˆ
y i )2
/ σ ⎥
Total SQT n-1
∑ (y − y) ⎢ i =1

2

n−2
i
i =1 ⎢ ⎥
n −1 ⎢⎣ ⎥⎦
If H0 é verdadeira
SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade.
SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade.
SQR e SQM são independentes. Por definição, F0 segue uma distribuição
22
F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2
Considerações
| Os modelos de regressão são construídos baseando-
se no range de valores dos regressores.
| A equação dos mínimos quadrados é fortemente
afetada por pontos extremos da distribuição de x.
| Os métodos de mínimos quadrados são influenciados
por outliers (pontos aberrantes).
| Porque a regressão indicou forte correlação entre
duas variáveis não significa que exista uma relação de
causa e efeito.

23
Modelos Linearizáveis
Modelo Padrão: Yi = β0 + β1Xi + ξi
exponencial
Yi = β 0 e β1 X i ξ i ln Y i = ln β 0 + β 1 X i + ln ξ i Y i ′ = β 0′ + β 1 X i + ξ i′

potencial

Y i = β 0 X iβ i ξ i ln Y i = ln β 0 + β 1 ln X i + ln ξ i Y i ′ = β 0′ + β 1 X i′ + ξ i′

ξ i′ ~ N ( 0 , σ 2 )

logaritmo
Y i ′ = β 0 + β 1 X i′ + ξ i potência
inverso
24
Análise de Resíduos
10 1.5
Yˆ == 0,9983
0,9983XX ++0,1306
0,1306
2 1.0
8 R2 = R = 0,9496
0,9496
0.5

Resíduos
6
Y

0.0
4
-0.5
2
-1.0

0 -1.5
0 2 4 6 8 10 0 2 4 6 8 10
X X

Resíduo = e i = Y i − Yˆi

25
Análise de Resíduos
10 2.0
Yˆ == 0,9983
0,9983XX ++0,1306
0,1306 1.5
2
8 R2 = R

Resíduos Padronizado
= 0,9496
0,9496 1.0

6 0.5
Y

0.0
4 -0.5
-1.0
2
-1.5
0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10
X X

Resíduo Padronizado = e i MQRes

26
Análise de Resíduos
“ideal” σ2 não constante não linearidade
2.0 2.0 2.0
1.5 1.5 1.5
Resíduos Padronizados

Resíduos Padronizados

Resíduos Padronizados
1.0 1.0 1.0
0.5 0.5 0.5
0.0 0.0 0.0
-0.5 -0.5 -0.5
-1.0 -1.0 -1.0
-1.5 -1.5 -1.5
-2.0 -2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
X X X

“outlier” não independência


2.0 2.0
1.5 1.5

Resíduos Padronizados
Resíduos Padronizados

1.0 1.0
0.5 0.5
0.0 0.0
-0.5 -0.5
-1.0 -1.0
-1.5 -1.5
-2.0 -2.0
0 2 4 6 8 10 0 2 4 6 8 10
X
tempo
X
27
Aplicação
Nota
Faltas final
95
90 x y
85
Nota final

80
8 78
75 2 92
70
65 5 90
60 12 58
55
50 15 43
45 9 74
40
6 81
0 2 4 6 8 10 12 14 16
Faltas
X

28
Cálculo de r
x y xy x2 y2
1 8 78 624 64 6.084
2 2 92 184 4 8.464
3 5 90 450 25 8.100
4 12 58 696 144 3.364
5 15 43 645 225 1.849
6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898

n n n
n ∑ xi yi − ∑ xi ∑ yi
− 3155
r= i =1 i =1 i =1
= = −0.975
2 2
n
⎛ n ⎞ n
⎛ n ⎞ 804 13030
n ∑ xi − ⎜ ∑ xi ⎟ n ∑ yi − ⎜ ∑ yi ⎟
2 2

29 i =1 ⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠
x y xy x2 y2
1 8 78 624 64 6.084
Escreva a equação da 2 2 92 184 4 8.464
reta de regressão com 3 5 90 450 25 8.100
x = número de faltas 4 12 58 696 144 3.364
5 15 43 645 225 1.849
e y = nota final. 6 9 74 666 81 5.476
7 6 81 486 36 6.561
57 516 3.751 579 39.898

∑ ( x − x )( y
i i − y) A equação de regressão
é dada por:
βˆ = i =1
n
= −3,924
∑ (x − x)
i =1
i
2
yˆ = 105,667 − 3,924 xi

αˆ = y − βˆx = 105,667
Prevendo Valores

Com a reta de regressão, é possível prever


valores de y correspondentes aos valores de x.

Usando a equação de regressão podemos


prever a nota esperada de um aluno com:

(a) 3 faltas (b) 12 faltas

(a) = –3,924(3) + 105,667 = 93,895


(b) = –3,924(12) + 105,667 = 58,579
31

Você também pode gostar