Você está na página 1de 28

Análise de Regressão

Análise de regressão é uma ferramenta estatística que


utiliza a relação entre duas ou mais variáveis tal que
uma variável possa ser explicada (variável
dependente) pela outra ou outras (variáveis
explicativas,independentes).
Y = aX + b
Exemplos:
Explicar vendas pelos gastos em propaganda.
Incidência de câncer com consumo de cigarro
Consumo x renda
Objetivos da Análise de Regressão

• Determinar como duas ou mais variáveis se relacionam.


• Estimar a função que determina a relação entre duas
variáveis.
• Usar a equação para prever valores futuros da variável
dependente.
Suposições
1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma
variável aleatória com distribuição Normal (com média e variâncias
finitas);
Yi ~ N(E(y/x); σ2)
2) Linearidade
Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta,
para um particular valor de X.
E(y/x)=μy/x = 0 + 1x

3) Independência
Os valores de Y são estatisticamente independentes.

4) Homocedasticidade
A variância de Y é igual, qq que seja X.
Modelos de Regressão
Modelos de Regressão

Um modelo de regressão contendo somente uma


variável independente é denominado modelo de
regressão simples.

Um modelo com mais de uma variável independente é


denominado modelo de regressão múltiplo.
Regressão Linear Simples

Yi   0  1 X i  i

onde:
Yi é o valor da variável dependente na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável independente
na i-ésima observação;
i é um termo de erro aleatório com média zero e variância
constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i j
(2 (i,j)= 0 )
Modelo de Regressão Linear
InterceptoInclinação
Populacional Variável
Populacional
Independente
Variável
Dependente Yi=0+1Xi +i Erro
Aleatóri
o
Yi
Y i Y = E(Y) = 0 + 1 X

1 Coeficiente
angular Ŷi=b0+b1Xi Modelo estimado
0 i =Yi-Ŷi Resíduo

X
Significado de 0 e 1
Os parâmetros 0 e 1 são denominados coeficientes de regressão.
• 1 é a inclinação da reta de regressão. Ela indica a mudança na
média de Y quando X é acrescido de uma unidade.
• 0 é o intercepto em Y da equação de regressão (é o valor de Y
quando X = 0.
0 só tem significado se o modelo incluir X = 0.

E[Yi ]     Xi
Y 0 1

1

0
0
X
Regressão Linear Múltipla

Yi=0+1Xi1 + 2Xi2 +…+ pXip + i


Yi é o valor da variável dependente na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis independentes na i-ésima
observação
i é um termo de erro aleatório com distribuição normal, média zero e
variância constante 2 (E(i )=0 e 2 (i )= 2 )
i e j são não correlacionados (independentes) para i j
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos por amostras.
O método utilizado na estimação dos parâmetros é o método dos
mínimos quadrados, o qual considera os desvios dos Yi de seu
valor esperado:
i = Yi – (0 + 1 Xi)

Em particular, o método dos mínimos quadrados requer que c a


soma dos n desvios quadrados, denotado por Q:

n
Q   [Yi   0  1 X i ]2
i 1
Estimação
A soma dos quadrados dos desvios (єi) é dada por:

n n

 (ε
i 1
i
2
)   (Ŷi  β̂0  β̂1Xi)
i 1

A equação deve ser derivada em relação a 0 e 1, igualando-as a zero


para se obter os valores estimados de 0 e 1.

 ( X  X )(Y  Y )
i i

ˆ 0  Y  ˆ 1 X ̂ 1  i 1
n

 (
i 1
Xi  X ) 2
Inferência

Testando se a inclinação ˆ 1 é zero

• construir intervalos de confiança


0,14
para : ˆ 1
tn-2
0,12

• Teste de hipótese para : 0,1

0,08

H 0 : ˆ 1  0 0,06
t 
* b1
0,04 1a
s (b1 )
Ha : ˆ 1  0 0,02
a/2 a/2
0
0 - 5
-t1-a/2;n-2 10
0 t1-a/2;n-2 15 +
Se ˆ 1= 0 , Y e X são não correlacionados
Rejeitar H 0 que o modelo que inclui X é melhor do
que o modelo que não inclui X mesmo que a linha reta
não não seja a relação mais apropriada.
Inferência

De forma semelhante testa-se ˆ0 é zero

H0 : 0  0
H1 :  0  0

Se a hipótese nula H = 00 não for rejeitada, pode-se excluir


a constante do modelo, já que a reta inclui a origem.
Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e
Pressão sanguinea.
Inferência
Inferência
Yi  Y  (Yˆi  Y )  (Yi  Yˆ )
Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma
para todas as observações de uma determinada amostra tem-se que:

n n n

 (Y
i 1
i  Y )  2
(Y
i 1

ˆi  Y )  (Yi  Yˆ ) 2
2

i 1

Soma de quadrados total Soma de quadrados Soma de quadrados devido


(SQT) devido ao modelo (SQM) Aos resíduos (SQR)
Particionando a soma dos quadrados
n n n

 (Y
i 1
i  Y )   (Y
i 1

ˆi  Y ) 2  (Yi  Yˆ ) 2
i 1

•Se SQT=0, então todas as Se SQR = 0, então as


observações são iguais. observações caem na
Y
•Quanto maior for SQT, linha de regressão.
maior será a variação entre Se a linha de regressão for Quanto maior SQR,
os Y´s. horizontal, de modo maior será a variação
^ 
•SQT é uma medida da
que Y i  Y  então
das observações Y
variação dos Y´s quando 0
ao redor da linha de
não se leva em SQM = 0. regressão.
consideração a variável
independente X.
Particionando a Soma de Quadrados
SQT = SQM + SQR.

Um modo de se saber quão útil será a linha de regressão para a predição é


verificar quanto da SQT está na SQM e quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que
SQR.

Gostaríamos, portanto, que fosse próximo de 1.

SQM
SQT
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é:
SQM SQT - SQR SQR Note que: 0  R2  1
R2    1
SQT SQT SQT

R2 é denominada coeficiente de determinação. Em um modelo de regressão


simples, o coeficiente de determinação é o quadrado do coeficiente de
correlação (r) entre Y e X. Note que em um modelo de regressão simples

Temos dois casos extremos:


• R2 = 1 todas r asobservações
R 2   1 caem
r  1na linha de regressão ajustada. A
variável independente X explica toda a variação nas observações.
• R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A
variável X não ajuda a explicar a variação dos Yi .
Inferência

▪ Testes de significância do modelo geral

H 0 : ˆ 1  ˆ2  ...ˆk  0

Ha : existe pelo menos um dos j  0

Fo = MQM/MQR onde Fc ~ F k, n-k-1

▪ Teste do F parcial

H 0 : ˆ *  0
Modelo Y=0+1X1+...pXp+*X*

Ha : ˆ *  0 Ha: X* melhora significativamente a predição de Y, dado


que X1, X2,...Xp já estão no modelo

Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1
Tabela ANOVA - F
Graus de Soma dos Quadrado Razão da
Liberdade quadrados médio variância
(df) (SQ) SQM=SQ/df

Regressão(X) 1 SQT-SQR= 6394.02 21.33(p<0.001)


6394.02

Residuo 28 SQR= 299.77


8393.44

Total 29 SQT =
14787.46

SST  SSR 2 6394.02 ( SST  SSR) / k R /k 2

R 
2
R   0.43 F  F 
SST 14787.46 SSR /(n  k  1) (1  R 2 /(n  k  1)
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se função de regressão é linear


Resíduo

X
Não Linearidade
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se os erros possuem variância constante


(homocedasticidade)

Variância Não Constante


Resíduo

X
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se os erros são independentes


Resíduo

X
Erros Correlacionados
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 A presença de outliers

Gráfico dos Resíduos

0,8
Resíduos Padronizados

0,6

0,4

0,2

0
150 155 160 165 170 175 180 185
-0,2

-0,4
X
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se erros são normalmente distribuídos


Análise da Aptidão do Modelo
 Análise dos Resíduos – Modelo Adequado:

0
Resíduo

X
Análise de Resíduos

Você também pode gostar