Aula Regressao

Análise de Regressão
Análise de regressão é uma ferramenta estatística que

utiliza a relação entre duas ou mais variáveis tal que
uma variável possa ser explicada (variável
dependente) pela outra ou outras (variáveis
explicativas,independentes).
Y = aX + b
Exemplos:
Explicar vendas pelos gastos em propaganda.
Incidência de câncer com consumo de cigarro
Consumo x renda
Objetivos da Análise de Regressão
• Determinar como duas ou mais variáveis se relacionam.

• Estimar a função que determina a relação entre duas
variáveis.
• Usar a equação para prever valores futuros da variável
dependente.
Suposições
1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma
variável aleatória com distribuição Normal (com média e variâncias
finitas);
Yi ~ N(E(y/x); σ2)
2) Linearidade
Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta,
para um particular valor de X.
E(y/x)=μy/x = 0 + 1x
3) Independência
Os valores de Y são estatisticamente independentes.
4) Homocedasticidade
A variância de Y é igual, qq que seja X.
Modelos de Regressão
Modelos de Regressão
Um modelo de regressão contendo somente uma

variável independente é denominado modelo de
regressão simples.
Um modelo com mais de uma variável independente é

denominado modelo de regressão múltiplo.
Regressão Linear Simples
Yi   0  1 X i  i
onde:
Yi é o valor da variável dependente na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável independente
na i-ésima observação;
i é um termo de erro aleatório com média zero e variância
constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i j
(2 (i,j)= 0 )
Modelo de Regressão Linear
InterceptoInclinação
Populacional Variável
Populacional
Independente
Variável
Dependente Yi=0+1Xi +i Erro
Aleatóri
o
Yi
Y i Y = E(Y) = 0 + 1 X
1 Coeficiente
angular Ŷi=b0+b1Xi Modelo estimado
0 i =Yi-Ŷi Resíduo
X
Significado de 0 e 1
Os parâmetros 0 e 1 são denominados coeficientes de regressão.
• 1 é a inclinação da reta de regressão. Ela indica a mudança na
média de Y quando X é acrescido de uma unidade.
• 0 é o intercepto em Y da equação de regressão (é o valor de Y
quando X = 0.
0 só tem significado se o modelo incluir X = 0.
E[Yi ]     Xi
Y 0 1
1
0
0
X
Regressão Linear Múltipla
Yi=0+1Xi1 + 2Xi2 +…+ pXip + i

Yi é o valor da variável dependente na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis independentes na i-ésima
observação
i é um termo de erro aleatório com distribuição normal, média zero e
variância constante 2 (E(i )=0 e 2 (i )= 2 )
i e j são não correlacionados (independentes) para i j
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos por amostras.
O método utilizado na estimação dos parâmetros é o método dos
mínimos quadrados, o qual considera os desvios dos Yi de seu
valor esperado:
i = Yi – (0 + 1 Xi)
Em particular, o método dos mínimos quadrados requer que c a

soma dos n desvios quadrados, denotado por Q:
n
Q   [Yi   0  1 X i ]2
i 1
Estimação
A soma dos quadrados dos desvios (єi) é dada por:
n n
 (ε
i 1
i
2
)   (Ŷi  β̂0  β̂1Xi)
i 1
A equação deve ser derivada em relação a 0 e 1, igualando-as a zero

para se obter os valores estimados de 0 e 1.
 ( X  X )(Y  Y )
i i
ˆ 0  Y  ˆ 1 X ̂ 1  i 1
n
 (
i 1
Xi  X ) 2
Inferência
Testando se a inclinação ˆ 1 é zero
• construir intervalos de confiança

0,14
para : ˆ 1
tn-2
0,12
• Teste de hipótese para : 0,1
0,08
H 0 : ˆ 1  0 0,06
t 
* b1
0,04 1a
s (b1 )
Ha : ˆ 1  0 0,02
a/2 a/2
0
0 - 5
-t1-a/2;n-2 10
0 t1-a/2;n-2 15 +
Se ˆ 1= 0 , Y e X são não correlacionados
Rejeitar H 0 que o modelo que inclui X é melhor do
que o modelo que não inclui X mesmo que a linha reta
não não seja a relação mais apropriada.
Inferência
De forma semelhante testa-se ˆ0 é zero
H0 : 0  0
H1 :  0  0
Se a hipótese nula H = 00 não for rejeitada, pode-se excluir

a constante do modelo, já que a reta inclui a origem.
Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e
Pressão sanguinea.
Inferência
Inferência
Yi  Y  (Yî  Y )  (Yi  Yˆ )
Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma
para todas as observações de uma determinada amostra tem-se que:
n n n
 (Y
i 1
i  Y )  2
(Y
i 1

î  Y )  (Yi  Yˆ ) 2
2
i 1
Soma de quadrados total Soma de quadrados Soma de quadrados devido

(SQT) devido ao modelo (SQM) Aos resíduos (SQR)
Particionando a soma dos quadrados
n n n
 (Y
i 1
i  Y )   (Y
i 1

î  Y ) 2  (Yi  Yˆ ) 2
i 1
•Se SQT=0, então todas as Se SQR = 0, então as

observações são iguais. observações caem na
Y
•Quanto maior for SQT, linha de regressão.
maior será a variação entre Se a linha de regressão for Quanto maior SQR,
os Y´s. horizontal, de modo maior será a variação
^ 
•SQT é uma medida da
que Y i  Y  então
das observações Y
variação dos Y´s quando 0
ao redor da linha de
não se leva em SQM = 0. regressão.
consideração a variável
independente X.
Particionando a Soma de Quadrados
SQT = SQM + SQR.
Um modo de se saber quão útil será a linha de regressão para a predição é

verificar quanto da SQT está na SQM e quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que
SQR.
Gostaríamos, portanto, que fosse próximo de 1.
SQM
SQT
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é:
SQM SQT - SQR SQR Note que: 0  R2  1
R2    1
SQT SQT SQT
R2 é denominada coeficiente de determinação. Em um modelo de regressão

simples, o coeficiente de determinação é o quadrado do coeficiente de
correlação (r) entre Y e X. Note que em um modelo de regressão simples
Temos dois casos extremos:

• R2 = 1 todas r asobservações
R 2   1 caem
r  1na linha de regressão ajustada. A
variável independente X explica toda a variação nas observações.
• R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A
variável X não ajuda a explicar a variação dos Yi .
Inferência
▪ Testes de significância do modelo geral
H 0 : ˆ 1  ˆ2  ...ˆk  0
Ha : existe pelo menos um dos j  0
Fo = MQM/MQR onde Fc ~ F k, n-k-1
▪ Teste do F parcial
H 0 : ˆ *  0
Modelo Y=0+1X1+...pXp+*X*
Ha : ˆ *  0 Ha: X* melhora significativamente a predição de Y, dado

que X1, X2,...Xp já estão no modelo
Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1
Tabela ANOVA - F
Graus de Soma dos Quadrado Razão da
Liberdade quadrados médio variância
(df) (SQ) SQM=SQ/df
Regressão(X) 1 SQT-SQR= 6394.02 21.33(p<0.001)

6394.02
Residuo 28 SQR= 299.77

8393.44
Total 29 SQT =
14787.46
SST  SSR 2 6394.02 ( SST  SSR) / k R /k 2
R 
2
R   0.43 F  F 
SST 14787.46 SSR /(n  k  1) (1  R 2 /(n  k  1)
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:
 Se função de regressão é linear

Resíduo
X
Não Linearidade
 Se os erros possuem variância constante

(homocedasticidade)
Variância Não Constante

Resíduo
X
 Se os erros são independentes

Resíduo
X
Erros Correlacionados
 A presença de outliers
Gráfico dos Resíduos
0,8
Resíduos Padronizados
0,6
0,4
0,2
0
150 155 160 165 170 175 180 185
-0,2
-0,4
X
 Se erros são normalmente distribuídos

 Análise dos Resíduos – Modelo Adequado:
0
Resíduo
X
Análise de Resíduos

Aula Regressao

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula Regressao

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Regressão

Análise de regressão é uma ferramenta estatística que

• Determinar como duas ou mais variáveis se relacionam.

Um modelo de regressão contendo somente uma

Um modelo com mais de uma variável independente é

Yi=0+1Xi1 + 2Xi2 +…+ pXip + i

Em particular, o método dos mínimos quadrados requer que c a

A equação deve ser derivada em relação a 0 e 1, igualando-as a zero

Testando se a inclinação ˆ 1 é zero

• construir intervalos de confiança

• Teste de hipótese para : 0,1

De forma semelhante testa-se ˆ0 é zero

Se a hipótese nula H = 00 não for rejeitada, pode-se excluir

Soma de quadrados total Soma de quadrados Soma de quadrados devido

•Se SQT=0, então todas as Se SQR = 0, então as

Um modo de se saber quão útil será a linha de regressão para a predição é

Gostaríamos, portanto, que fosse próximo de 1.

R2 é denominada coeficiente de determinação. Em um modelo de regressão

Temos dois casos extremos:

▪ Testes de significância do modelo geral

Ha : existe pelo menos um dos j  0

Fo = MQM/MQR onde Fc ~ F k, n-k-1

Ha : ˆ *  0 Ha: X* melhora significativamente a predição de Y, dado

Regressão(X) 1 SQT-SQR= 6394.02 21.33(p<0.001)

Residuo 28 SQR= 299.77

SST  SSR 2 6394.02 ( SST  SSR) / k R /k 2

 Se função de regressão é linear

 Se os erros possuem variância constante

Variância Não Constante

 Se os erros são independentes

Gráfico dos Resíduos

 Se erros são normalmente distribuídos

Você também pode gostar