Você está na página 1de 51

Regresso Linear Mltipla

Rejane Sobrino Pinheiro


Tnia Guilln de Torres

Regresso linear mltipla


Introduo
Pode ser vista como uma extenso da regresso simples
Mais de uma varivel independente considerada.
Lidar com mais de uma varivel mais difcil, pois:
mais difcil escolher o melhor modelo, uma vez que
diversas variveis candidatas podem existir
mais difcil visualizar a aparncia do modelo ajustado,
mais difcil a representao grfica em mais de 3
dimenses
s vezes, difcil interpretar o modelo ajustado
Clculos difceis de serem executados sem auxlio de
computador

Exemplo: Supondo dados de peso, altura e idade de 12 crianas:


Criana

10

11

12

Peso (Y)

64

71

53

67

55

58

77

57

56

51

76

68

Altura (X1)

57

59

49

62

51

50

55

48

42

42

61

57

Idade (X2)

10

11

10

10

12

A regresso mltipla pode ser usada para estudar o peso e sua


variao em funo da altura e idade das crianas.

Modelo

O modelo de Regresso Linear Mltipla representado pela equao

Y 0 1 X 1 2 X 2 ... k X k
As constantes: 0, 1, 2, ..., k, so os parmetros populacionais.
^

Os estimadores so representadas por:

0, 1, 2,..., k

Um exemplo de regresso linear mltipla pode ser dado a partir da


incluso de um termo de ordem mais elevada, como X2.
Embora seja a mesma varivel (X), esta pode ser interpretada como
uma segunda varivel (X2).

Y 0 1 X 2 X 2

Y 0 1 X 1 2 X 2

Usos da Regresso Mltipla


Ajustar dados: estudar o efeito de uma varivel X, ajustando ou
levando em conta outras variveis independentes.
Obter uma equao para predizer valores de Y a partir dos
valores de vrias variveis X1, X2, ...,Xk .
Explorar as relaes entre mltiplas variveis ( X1, X2, ..., Xk )
para determinar que variveis influenciam Y.

A soluo dos mnimos quadrados a que minimiza a soma dos


quadrados dos desvios entre os valores observados e a superfcie de
regresso ajustada.

(Y i Y i )
2

I 1

^
^
^
^
n
2
(Yi ( X 1i X 2i ... X ki )
0
1
2
k
i 1
^

i Y i Y i Y i ( 0 X 1i 2 X 2i ... k X ki )
1

Pressupostos da Regresso Linear Mltipla


Os pressupostos da regresso linear simples podem ser estendidos
para a regresso linear mltipla
1. Existncia: Para uma combinao especfica das variveis
independentes X1, X2, ...,Xk, Y uma varivel aleatria com
uma certa distribuio de probabilidade, com mdia e
varincia finitas.
2. Independncia: As observaes de Y so estatisticamente
independentes umas das outras. Este pressuposto violado
quando mais de uma observao feita de um mesmo
indivduo.

Pressupostos da Regresso Linear Mltipla (cont...)


3.Linearidade: O valor mdio de Y para cada combinao especfica
de X1, X2, ...,Xk uma funo linear de X1, X2, ...,Xk.
Y | X X X E (Y / X 1 X 2 X k ) 0 1 X 1 2 X 2 ... k X k
1

Ou
Y 0 1 X 1 2 X 2 ... k X k

componente de erro do modelo, refletindo a diferena entre o


valor observado para um indivduo e a verdadeira resposta mdia
Y | X X X para o conjunto de indivduos de mesmas caractersticas.
1

A relao entre Y e Xi linear ou bem aproximada por uma


funo linear.

Pressupostos da Regresso Mltipla (cont...)


4. Homocedasticidade: A varincia de Y a mesma para qualquer
combinao fixa de X1, X2, ...,Xk.

2
Y / X 1 X 2 X k

Var (Y / X 1 X 2 X k ) 2

Este
pressuposto
pode
parecer
muito
restritivo.
Heterocedasticidade deve ser considerada somente quando os
dados apresentarem bvia e significante no homogeneidade das
varincias.
Em geral, no considerar a homocedasticidade no acarreta efeitos
adversos nos resultados.
5. Amostra aleatria ou representativa da populao.

Pressupostos da Regresso Mltipla (cont...)


6. Normalidade: para uma combinao fixa de X1, X2, ..., Xk, a
varivel Y tem distribuio normal.
Y~N(

Y | X X X
1

Ou de modo equivalente
~N (0, 2)

, 2 )

Pressupostos da Regresso Mltipla


7. Normalidade de Y
Este pressuposto no necessrio para o ajuste do modelo usando os
mnimos quadrados, mas importante para a realizao da inferncia.
Os testes de hipteses paramtricos usuais e os clculos dos intervalos de
confiana utilizados nas anlises de regresso so bastante robustos, de
modo que somente em casos em que a distribuio de Y se afaste muito da
distribuio normal os resultados gerados sero inadequados.
No caso de no normalidade, transformaes matemticas de Y podem
gerar conjunto de dados com distribuio aproximadamente normal (Log Y,
Y); no caso de varivel Y categrica nominal ou ordinal, mtodos de
regresso alternativos so necessrios (logstica - dados binrios, Poisson dados discretos)
A Homocedasticidade e a Normalidade se aplicam distribuio
condicional de Y | X1, X2, ...,Xk

Y / X 1 X 2 X k ~ N (

2
,
)
Y / X ,X ...,X
1

Determinando a melhor estimativa para o modelo de regresso


mltipla
A abordagem dos mnimos quadrados
Minimiza a soma dos quadrados dos erros ou as distncias entre os
valores observados (Yi) e os valores preditos Y i pelo modelo
ajustado.
Y
0

X X
1

(Y i Y i ) (Y i (

I 1

I 1

X 1i

X 2i

2
))
pi

i (Y i Y i) Y i ( 0 1 X 1i 2 X 2i p X pi)

A soluo de mnimos quadrados consiste nos valores de


0 , 1, 2 ,..., k
(chamados de estimadores de
mnimos quadrados) para os quais a soma da equao anterior
mnima.
Cada um dos estimadores
linear dos valores de Y.

0 , 1, 2 ,..., k
uma funo

Se os valores de Y so normalmente distribudos e so


independentes entre si, os estimadores tero distribuio normal,
com desvios padres facilmente computveis.

Exemplo:
Supondo dados de peso, altura e idade de 12 crianas:
Criana

10

11

12

Peso (Y)

64

71

53

67

55

58

77

57

56

51

76

68

Altura (X1)

57

59

49

62

51

50

55

48

42

42

61

57

Idade (X2)

10

11

10

10

12

2
PESO 0 1 ALTURA 2 IDADE 3 (IDADE )
^

2
PESO 3.438 0.724 ALTURA 2.777 IDADE 0.042( IDADE )

0 3.438 1 0.724 2 2.777

3 0.042

A velocidade do efeito da idade diminui com o passar da idade


Apresentar o efeito da idade para determinadas faixas:
Peso1 para crianas de X anos
Peso2 para crianas de Z anos

X Z Peso1 - Peso2

Interpretao dos coeficientes


O coeficiente apresentado na tabela refere-se ao coeficiente
parcial da regresso e difere do da regresso simples
considerando a relao de cada varivel independente em
separado.
O coeficiente expressa o aumento mdio em Y dado um aumento
de 1 unidade de X, sem considerar o efeito de qualquer outra
varivel independente (mantendo todos os outros fatores
constantes).
Para um aumento de 1 unidade na altura, h um aumento mdio
de 0.724 no peso, para crianas de mesma idade.

O coeficiente da regresso padronizado


Interesse em ordenar os coeficientes por grau de importncia na
predio de Y.
Difcil comparar os coeficientes da regresso para saber qual varivel
independente possui maior associao com a varivel dependente Y,
pois cada varivel est em uma unidade diferente.
O coeficiente padronizado permite comparao da importncia de cada
varivel para a predio de Y.
Se X aumenta em 1 desvio padro (Sx), indo para x + Sx, ento Y
aumentaria .Sx unidades. Caso seja desejado que o aumento em Y
seja dado em desvios padres de Y, podemos dividir a expresso por
SY, para saber quantos desvios padres possui o termo .Sx

.Sx/Sy

O coeficiente padronizado da regresso (standard estimates) representa


o aumento mdio em Y (expresso em unidades de desvio padro de Y)
por um aumento de 1 desvio padro em X, depois de ajustado por
todas as outras variveis do modelo

Y1 0 1 X 1 2 X 2
Y2 0 1 ( X 1 S X 1 ) 2 X 2
Y2 Y1 0 1 ( X 1 S X 1 ) 2 X 2 ( 0 1 X 1 2 X 2 )
Y2 Y1 1 ( X 1 S X 1 X 1 )
Y2 Y1 1S X 1
Y2 Y1 1

S X1
SY

padronizado

Se fizermos grficos separados entre as diversas variveis,


poderemos ter uma viso de pedaos ou projees da superfcie
ajustada. Suponhamos que a superfcie seja um plano (relao
linear entre todos os fatores).

A tabela ANOVA da Regresso Mltipla


Como no modelo de Regresso Simples:
Variao total no explicada =
Variao devida regresso + variao residual no explicada
SSY= SSR + SSE
n

2
2
2
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
i
i
i i
i 1

i 1

i 1

R2 = (SSY-SSE)/SSY
R2 sempre cresce medida que mais variveis so includas no
modelo.
Um acrscimo muito pequeno em R2 pode no apresentar

3
.
438

0
.
724
ALTURA

2
.
777
IDADE

0
.
042
(
IDADE
)
PESO

Fonte

g.l.

R2

231.02

9.47

0.7802

24.40

P = 0.0052

SS

MS

soma dos
quadrados

quadrados
mdios

k=3

SSY-SSE=693.06

Resduo

n-k-1=8

SSE=195.19

Total

n-1=11

SSY=888.25

de variao
Regresso

SSR
R
SSY
2

Fcrtico = Fk,n-k-1,1-

MSR
F

MSE SSE

SSR

( n k 1)

REGREESSION OF PAS (Y) ON IDADE (X)


Analysis of Variance
Sum of
Mean
Squares
Square
F Value
6394.02269
6394.02269
21.330
8393.44398
299.76586
14787.46667

SSY-SSE

Source
Model
Error
C Total1

DF
1
28
29
SSY

SSE

Y X Y X

Yi X i
n

Prob > F
0.0001

SSY SSE (Y i Y) [ X i Y ] [ ( X i X )]
2

1 gl

i 1

SSE (Yi Yi ) [Yi ( X i )] [Yi (Y X X i )]2


2

i 1

SSY ( Y i Y) 2
i 1

n 1 gl Y

Aqui, trabalha-se com os dados originais

n 2 gl e

Modelo 1: PESO = 0 + 1 ALTURA +


Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.750000

DF
1
10
11
SSY

Sum of
Squares
588.9225231
299.3274768
888.2500000

SSR=
SSY-SSE

estatstica F para o teste


global
F Value
19.67

Prob > F
0.0013

SSE

C.V.
8.718857

R-square
0.663014

R2

Parameter Estimates
Variable

Parameter
Estimate

INTERCEPT
ALTURA

6.189848707
1.072230356

^
0

T for H0:
Parameter=0
0.48
4.44

Prob >
|T|
0.6404
0.0013

Standard
Error OS
Estimate
12.84874620
0.24173098

^
1

Modelo 1: PESOi = 6.1898 + 1.0722 ALTURA + i

Modelo 2: PESO = 0 + 1 IDADE +


Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.750000

DF
1
10
11

Sum of
Squares
526.39285714
361.85714286
888.25000000

F Value
14.55

C.V.
9.586385

Prob > F
0.0034

R-square
0.592618

Parameter Estimates
Variable

Parameter
Estimate

INTERCEPT
IDADE

30.57142857
3.64285714

T for H0:
Parameter=0
3.55
3.81

Prob >
|T|
0.0053
0.0034

Standard
Error OS
Estimate
8.61370526
0.95511512

Modelo 3: PESO = 0 + 1 ALTURA + 2IDADE +


Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.75000000

DF
2
9
11

Sum of
Squares
692.82260654
195.42739346
888.25000000

F Value
15.95

C.V.
7.426048

Prob > F
0.0011

R-square
0.779986

Parameter Estimates
Variable

Parameter
Estimate

INTERCEPT
ALTURA
IDADE

6.553048251
0.722037958
2.050126352

T for H0:
Parameter=0
0.60
2.77
2.19

Prob >
|T|
0.5641
0.0218
0.0565

Standard
Error OS
Estimate
10.94482708
0.26080506
0.93722561

O modelo 3 possui melhor ajuste dos 3 modelos apresentados (maior R2).

Modelo 4: PESO = 0 + 1 ALTURA + 2IDADE + 3(IDADE)2 +


Analysis of Variance
Source
Model
Error
C Total
Dep Mean
62.75000000

DF
3
8
11

Sum of
Squares
693.06046340
195.18953660
888.25000000

F Value
9.47

C.V.
7.871718

Prob > F
0.0052

R-square
0.780254

Parameter Estimates
Variable

Parameter
Estimate

INTERCEPT
ALTURA
IDADE
(IDADE)2

3.438426001
0.723690241
2.776874563
-0.041706699

T for H0:
Parameter=0
0.10
2.61
0.37
-0.10

Prob >
|T|
0.9210
0.0310
0.7182
0.9238

Standard
Error OS
Estimate
33.61081984
0.27696316
7.42727877
0.42240715

R2 modelo 3 = 0.780 e R2 modelo 4 = 0.7803 ==> 0.7803 0.780?


Efito da colinearidade fx pequena de
Modelo 3 mais parcimonioso.
idade; e a relao deve ser uma reta

Teste de hiptese em Regresso Mltipla


Uma vez que o modelo est ajustado, algumas questes com respeito ao
ajuste e sobre a contribuio de cada varivel independente para a predio
de Y so importantes.
So 3 questes bsicas a serem respondidas:
1. Teste sobre a contribuio global de todas as variveis tratadas
coletivamente, o conjunto completo das variveis (ou, equivalentemente, o
modelo ajustado propriamente dito) contribui significativamente para a
predio de Y?
2. Teste da adio de uma varivel a adio de uma varivel independente
em particular melhora significativamente a predio de Y (a predio que
foi alcanada pelas variveis j existentes no modelo)?
3. Teste sobre a incluso de um grupo de variveis a adio de um
conjunto de variveis independentes melhora significativamente a predio
de Y obtida pelas outras variveis j previamente includas no modelo?

Estas perguntas so tipicamente respondidas com a realizao


de testes de hipteses.
Os testes podem ser expressos via o teste F. Em alguns casos,
este teste pode ser equivalentemente realizado usando-se o
teste t.
^
Todo teste F em regresso
envolve uma razo de varincias
2
0
estimadas

H0 :

MS = SS/graus de liberdade
Fcrtico=Fnumerador, denominador, 1-nvel de significncia do teste

1. Teste para o modelo global


Um modelo contendo k variveis independentes como a
seguir:

Y 0 1 X 1 2 X 2 ... k X k
A hiptese nula para este teste: "Todas as k variveis
independentes consideradas conjuntamente no explicam
significativa quantidade de variao de Y
H0: 1 = 2 = ... = k = 0
H1: ao menos 1 0 (pelo menos 1 varivel contribui
significativamente para a predio de Y)
Sob a hiptese H0, o modelo completo pode ser resumido ao
intercepto 0
Se uma varivel auxiliar na predio (determinado 0), H0
rejeitada mesmo que os outros 's sejam = 0.

Para realizao do teste, usam-se os termos mdios quadrticos do


modelo e do resduo, como na regresso simples, para clculo da
estatstica F:
Fontes de
variao

Soma dos
quadrados

Graus de
liberdade

SS
n

i 1

Resduo

SSE

^
(Yi Yi ) 2

n-k-1

i 1

Total

SSY

Estatstica F

Valor p

MS

Regresso SSR (Yi Y ) 2


n

Quadrados
mdios

(Yi Y )2

MSR

MSE

SSR
k

MSR
MSE

SSE
n k 1

n-1

i 1

MS Regresso ( SSY SSE ) / k


F

MS Resduo
SSE /( n k 1)

SSY (Yi Y ) 2
i 1
n

SS (Yi Y i ) 2
i 1

O teste F calculado pode ser comparado com o ponto crtico da


dstribuio F Fk,n-k-1,1-
( SSY SSE )
MSR
k
F

MSE SSE
(n k 1)

nvel de significncia.
H0 rejeitada se o valor calculado exceder o valor crtico.
F pode ser escrito em funo de R2.
SSY SSE
SSY

(1 R )
2

( n k 1)

R 2 .SSY
( SSY SSE )
R2
MSR
k
k
k
F

SSY R 2 .SSY (1 R 2 )
MSE SSE
( n k 1)
(n k 1)
(n k 1)

R2

R2

Se os erros tm distribuio normal e se H0 verdadeira, a


estatstica F tem distribuio F com k e n-k-1 graus de liberdade.
Para um nvel de significncia , temos que:
F crtico: Fk,n-k-1,1- rejeita H0 para F calculado maior que F
crtico.
Interpretao de H0 rejeitada a amostra sugere que as variveis
independentes consideradas cojuntamente ajudam na predio da
varivel dependente Y.
No significa que todas as variveios sejam necessrias para a
predio de Y.

2. O teste F parcial
A partir da tabela ANOVA, informao adicional pode ser obtida
com respeito ao ganho na predio pela incluso de variveis
independentes.
X1 = ALTURA , X2 = IDADE , X3 = (IDADE)2
1. X1 = ALTURA sozinha prediz Y?
2. A incluso de X2 = IDADE contribui significativamente para a
predio de Y, aps considerar (ou controlar por) X1?
3. A incluso de X3 - (IDADE)2 - contribui significativamente para a
predio de Y, aps controlar por X1 e X2?
SS(X1) soma dos quadrados explicada por somente X1 para
predio de Y.
SS(X2|X1) soma dos quadrados explicada extra pela incluso de
X2 em adio X1 para predio de Y.
SS(X |X ,X ) soma dos quadrados explicada extra pela incluso

Para responder pergunta 1, basta ajustar um modelo linear


simples (X1 = ALTURA).
F = MSR extra
MSE completo

SSY = SSR + SSE

FIXO
Y

SSE2

Y 0 1 X 1 2 X 2
^

Y 0 1 X 1

SSY

SSE1

SSR2

SSR1

SSR1,2
X
x1

Fonte

X1

X1 e X2

X1, X2 e X3

SSR

588.92

692.82

693.06

SSE

299.33

195.43

195.19

SSY

888.25

888.25

888.25

SS(X1) = 588.92
SS(X2|X1) = SSR (X2|X1) = 692.82 - 588.92 = 103.90 --- SSE (X2|X1) = 299.33-195.43 = 103.43
SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24
588.92 SSR do modelo linear simples e SSE = 299.33 (103.90+0.24+195.19) 10 (8+1+1) g.l.
103.90+0.24+195.19 = 299.33

299.33

n-k-1

588/(299.33/10)

d.f.

SS

MS

R2

X1

588.92

588.92

19.67

0.7802

X2|X1

103.90

103.90

4.78
(0.05<P<0.10)

X3|X1,X2

0.24

0.24

0.01

Resduo

195.19

24.40

Total

11

888.25

Source

Regresso

F=103.9/1 / (195.19+0.24)/9
12-k-1

Fonte

X1

X1 e X2

X1, X2 e X3

SSR

588.92

692.82

693.06

SSE

299.33

195.43

195.19

SSY

888.25

888.25

888.25

588.92

1 19.67
299.33 / 10
n-k-1

588/(299.33/10)

d.f.

SS

MS

R2

X1

588.92

588.92

19.67

0.7802

X2|X1

103.90

103.90

4.78
(0.05<P<0.10)

X3|X1,X2

0.24

0.24

0.01

Resduo

195.19

24.40

Total

11

888.25

Source

Regresso

Fonte

X1

X1 e X2

X1, X2 e X3

SSR

588.92

692.82

693.06

SSE

299.33

195.43

195.19

SSY

888.25

888.25

888.25

SSR( copleto ) SSR( reduzido )


F ( X 2 | X1)

SSE (completo)

Y = 0 + 1X1 + 2X2 +...+ pXp + *X* +


1

(n - p - 2)

n-(p+1)-1
9 g.l.

103.90
103.90 103.90

4.78
(195.19 0.24)
195.43
21.71
9
(12 1 2)

n- k-1 = p+1
195.43

X1
X2|X1

X3|X1,X2

F=103.9/1 / (195.19+0.24)/9
12-k-1

Fonte

X1

X1 e X2

X1, X2 e X3

SSR

588.92

692.82

693.06

SSE

299.33

195.43

195.19

SSY

888.25

888.25

888.25

SS(X3|X1,X2) = SSR (X3|X1,X2) = 693.06 - 692.82 = 0.24 --- SSE (X3|X1,X2) = 195.43-195.19 = 0.24

SSR( copleto ) SSR( reduzido )


F ( X 3 | X1, X 2 )

SSE (completo)

0.24
195.19

(n - p - 2)

n-k-1 p+1
8 g.l.

X1
X2|X1

X3|X1,X2

195.19

(12 2 2)

0.24
0.0098
24.40

O teste F para testar se existe uma regresso linear significante


quando usa-se apenas X1 = ALTURA para predio de Y dada
por:
588.92
1 19.67
F
299.33 / 10
Para responder s perguntas 2 e 3, devemos usar o teste F parcial.
Este teste avalia se a incluso de uma varivel independente
especfica, mantendo as j existentes no modelo, contribui
significativamente para a predio de Y.
O teste auxilia na excluso de variveis que no auxiliam na
modelagem, mantendo o modelo mais parcimonioso preditores
"importantes".
F ( X * | X 1 , X 2 ,..., X p )

Soma dos quadrados Extra pela adio de X *, dados X 1 , X 2 ,..., X p


Quadrado mdio dos resduos para o modelo com todas as variveis X 1 , X 2 ,..., X p , X *

A hiptese nula - Teste parcial


Incluir X* melhora significativamente a predio de Y (outros X's j
esto no modelo)?
H0: "X* NO melhora significativamente a predio de Y, dados
X1, X2,...,Xp existentes no modelo
H0: * = 0 no modelo Y = 0 + 1X1 + 2X2 +...+ pXp + *X* +
O teste essencialmente compara 2 modelos: o completo e o
reduzido
O objetivo determinar qual modelo mais apropriado, baseado na
informao adicional que X* fornece para Y, alm da j fornecida
por X1, X2,...,Xp

O procedimento do teste
Para realizar o teste F parcial, deve-se computar a soma dos
quadrados extra pela adiao de X*, que aparece na tabela ANOVA
como SSR X*| X1, X2,...,Xp
reduzido
completo
Soma dos quadrados
Extra
pela incluso de X*,
dados
X1, X2,...,Xp

Soma dos quadrados da


Regresso
pela incluso de X*,
dados
X1, X2,...,Xp

Soma dos quadrados da


Regresso

dados
X1, X2,...,Xp

OuSS
mais
compactadamente:
(X*| X , X ,...,X ) = SS Regresso (X , X ,...,X , X*) - SS Regresso (X , X ,...,X )
1

Como
SSY = SSR + SSE, podemos tambm fazer:
SS (X*| X , X ,...,X ) = SS Resduo (X , X ,...,X ) - SS Resduo (X , X ,...,X , X*)
1

Comparao de 2 modelos: completo e o reduzido


Modelo completo: Y = 0 + 1X1 + 2X2 +...+ pXp + *X* +
Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp +
H0: * = 0
F ( X * | X 1 , X 2 ,..., X p )

Soma dos quadrados Extra pela adio de X *, dados X 1 , X 2 ,..., X p


Quadrado mdio dos resduos para o modelo com todas as variveis X 1 , X 2 ,..., X p , X *

SS ( X * | X 1 , X 2 ,..., X p )
F ( X * | X 1 , X 2 ,..., X p )
MSE( X 1 , X 2 ,..., X p , X *)

SSR( copleto ) SSR( reduzido )


F ( X * | X 1 , X 2 ,..., X p )

MSE( X 1 , X 2 ,..., X p , X *)

SSR( copleto ) SSR( reduzido )


SSE (completo)

(n - p - 2)

n-k-1

Comparao de 2 modelos: completo e o reduzido


H0: * = 0
SSR( copleto ) SSR( reduzido )
F ( X * | X 1 , X 2 ,..., X p )

MSE( X 1 , X 2 ,..., X p , X *)

SSR( copleto ) SSR( reduzido )


SSE (completo)

(n - p - 2)

SS(X2|X1) = SSR(X1,X2) - SSR (X1) = 692.82-588.92 = 103.90


SS(X3|X1, X2) = SSR(X1,X2, X3) - SSR (X1, X2) = 693,06-692.82 = 0.24
SSE(completo) = 195.19

SSR( copleto ) SSR( reduzido )

F ( X 2 | X1)

SSE (completo)

(n - p - 2)

103.90
103.90 103.90

4.78
(195.19 0.24)
195.43
21.71
9
(12 1 2)

SSR( copleto ) SSR( reduzido )


F ( X 3 | X1, X 2 )

SSE (completo)

0.24
195.19

(n - p - 2)

(12 2 2)

Fcrtico=F1,n-p-2,1- = F1,9,0.95 = 5.12

no rejeita H0

F1,9,0.90 = 3.36

0.24
0.0098
24.40

rejeita H0 a um nvel de 0.10

3. Teste F parcial mltiplo

Testa a contribuio adicional de um conjunto de variveis


independentes na predio de Y.

Testa a incluso simultnea de 2 ou mais variveis.

Por exemplo, variveis que tenham caractersticas em comum, e que seja


importante test-las em conjunto, como as variveis de ordem superior a
1:

(IDADE)2, ALTURA X IDADE, (ALTURA)2

Ou variveis de termo de ordem superior, que correspondam ao produto


de variveis de 1a. ordem, como os termos de interao X1X2, X1,X3,
X2X3.

Muitas vezes de interesse conhecer o efeito das interaes em conjunto,


antes de considerar cada termo individualmente.

Este procedimento pode reduzir o trabalho de testes individuais, uma vez


que variveis podem ser retiradas do modelo em conjunto.

Hiptese nula
Modelo completo:
Y = 0 + 1X1 + 2X2 +...+ pXp + *1X*1 + *2X*2 +...+ *kX*k +
Modelo reduzido: Y = 0 + 1X1 + 2X2 +...+ pXp +
H0: "X*1 , X*2 , ..., X*k NO melhoram significativamente a predio
de Y.
H0: *1 = *2 = ... = *k = 0

O procedimento
Necessitamos calcular a soma dos quadrados EXTRA devida
incluso dos X*i do modelo completo.
SS(X*1, X*2, ..., X*k|X1, X2, ..., Xp) =
SS Regresso (X1, X2, ..., Xp, X*1, X*2, ..., X*k)

SS Regresso (X1, X2, ..., Xp)


=
SS Resduo (X1, X2, ..., Xp)

SS Resduo (X1, X2, ..., Xp, X*1, X*2, ..., X*k)


p

parmetros

A estatstica F:
*
*
*
SS
(
X
,
X
,...,
X
1
2
k | X 1 , X 2 ,..., X p )/k
F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p )
MS Resduo ( X 1 , X 2 ,..., X p , X 1* , X 2* ,..., X k* )

F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p )

F ( X 1* , X 2* ,..., X k* | X 1 , X 2 ,..., X p )

[SS Resduo (reduzido) - SS Resduo (completo) ]/k


MS Resduo (completo)

[SS Regresso(completo) - SS Regresso(reduzido) ]/k


SS Resduo (completo)/(n - p - k - 1)

A estatstica F:
[SS Regresso(completo) - SS Regresso(reduzido) ]/k
F ( X , X ,..., X | X 1 , X 2 ,..., X p )
SS Resduo (completo)/(n - p - k - 1)
*
1

*
2

*
k

Exemplo:
Incluso de idade no modelo que j tem ALTURA IDADE e IDADE2.

[SS Regresso (ALTURA, IDADE, IDADE2 ) SS Regresso (ALTURA)]/ k


F (IDADE, IDADE | ALTURA)
MS Resduo (ALTUR, IDADE, IDADE2 )
2

F (IDADE, IDADE2 | ALTURA)

[(588.92 103.90 0.24) 588.92]/2


2.13
24.40

Fcrtico= Fk,(n-p-k-1),1- = F2,12-1-2-1),0.95 = F2,8,0.90 = 4.46


F calculado menor que o F

no rejeita H

Testando a significncia estatstica do coeficiente parcial teste F parcial


H0: rYX|Z1,...,Zp = 0
Exemplo:
Para testar se rPESO,(IDADE)2|ALTURA, IDADE = 0,

encontra-se F[(IDADE)2|ALTURA, IDADE] e

compara-se com F1,12-2-2,0.90 = F1,8,0.90=3.46


F[(IDADE)2 | ALTURA, IDADE]

SSR(X1, X2) - SSR(X1, X2, X3)


MSE(X1, X2, X3)

MSE = SSE(X3|X1,X2)/df = 195.19/(11-2-1) = 195.19/8=24.399

195.43 - 195.19
0.010
24.399
F calculado < F crtico --> NO rejeita H0 --> (IDADE) 2 no contribui para a
predio de PESO.

Modelo A: PESO = 0 + 1 ALTURA +


Analysis of Variance
Source
Model
Error
C Total
R2

DF
1
10
11

Sum of
Squares
588.9225231
299.3274768
888.2500000
0.663014

Mean
Square
588.9225231
29.93274768

F Value

Prob > F

Modelo B: PESO = 0 + 1 ALTURA + 2IDADE +


Analysis of Variance
Source
Model
Error
C Total
R2

DF
2
9
11

rY2, X | X
1

Sum of
Squares
692.82260654
195.42739346
888.25000000
0.77999

Mean
Square
346.4113
21.714154

F Value

SSE ( X 1 ) SSE ( X 1 , X 2 ) 299.3275 195.4274

0.347
SSE ( X 1 )
299.3275

Prob > F

Simples
Y = 0 + 1X1 +

H0: 1 = 0
H1: 1 0

Mltipla
Parcial
Parcial mltipla
Modelo completo:
Y=0 + 1X1 +...+ kXk + Modelo completo:
Y=0 +
Y=0 +1X1+...+kXk + *X* + Y=0 + 1X1 + ...+ kXk + *1X*1 +
...+ *pX*p +
Modelo reduzido:
Modelo reduzido:
Y = 0 + 1X1 + ...+ kXk +
Y=0 + 1X1 + ...+ kXk +
H0: 1 = 2 = ... = k = 0
H1: pelo menos 1 0

SSR
SSR
MSR
1
MSR
k
F

MSE SSE
MSE SSE
( n 2)
(n k 1)

Fk,n-2,1-

Fk,n-k-1,1-

H0: * = 0

H0: *1 = *2 = *p = 0
H1: pelo menos 1 * 0

H1: * 0
SSR( copleto) SSR( reduzido )
F

Fk,(n-k-2),1-

SSE (completo)

(n - k - 2)

[SSR (completo) - SSR (reduzido) ]


F

SSE ( completo)

Fk,(n-p-k-1),1-

(n - p - k - 1)

Você também pode gostar