Você está na página 1de 32

Modelo de Regresso Mltipla

Modelo de Regresso Linear Simples


ltima aula:

Yi = + X i + i

Y a varivel resposta; X a varivel independente; representa o erro.


2

Modelo Clssico de Regresso Mltipla


Modelo clssico de regresso definido por:
(i) n respostas yi independentes, tendo cada yi uma distribuio especificada de mdia i = E(yi) e varincia 2 constante. (ii) a mdia i expressa de forma linear por i = xiT, onde xiT um vetor 1xp com valores de p variveis explicativas relacionadas a i-sima resposta yi e um vetor px1 de parmetros a serem estimados.

y = + = 0 + 1 x1 + L + p 1 x p 1 + 1444 4 24444 3

Modelo Clssico de Regresso (MCR)


Em geral adota-se a hiptese de aditividade entre y e , isto , y = + , onde um vetor de erros com E() = 0 e Var() = 2. A estimao de pode ser feita pelo Mtodo dos Mnimos Quadrados, que no requer qualquer hiptese sobre a distribuio das componentes do vetor y, e consiste em minimizar

2 2 ( y ) = ( ) i i i = SQE ( ) i =1 i =1
4

MCR - Estimao
O modelo clssico de regresso representado em notao matricial por y(nx1) = X(nxp)(px1) +

(nx1)

(1)

X = matriz modelo, suposta de posto p;

y1 y y = 2 M yn 5

1 x11 1 x 21 X = M M 1 xn1

L x1 p 1 0 L x2 p 1 = 1 M O M L xnp 1 p 1

1 = 2 M n

MCR - Estimao

Para estimar minimiza-se SQE () em relao Soluo de um sistema de p equaes lineares dadas por

Em notao matricial o sistema expresso por T T

SQE ( ) = 0, r

r = 0,..., p 1.

X X = X y

MCR - Estimao

Essas equaes lineares so conhecidas como equaes normais. Se a matriz X tem posto completo, ento XTX inversvel e, portanto, a soluo do sistema de equaes normais nica. A soluo corresponde ao estimador de mnimos quadrados (EMQ) de dado por

T 1 T = (X X ) X y
7

(2)

MCR - Estimao
em (2), segundo o modelo (1), tem as O EMQ seguintes propriedades: minimiza i i2, independente da distribuio (i) proposta para os erros. (entretanto a normalidade ser
(ii)

necessria para realizarmos inferncia sobre os parmetros ).

so funes lineares as componentes do vetor das observaes e so estimadores noviesados de menor varincia dos parmetros em
.

MCR - Estimao
A soma de quadrados dos resduos (SQR) mede a discrepncia entre o vetor y e o vetor de valores , sendo expresso por: = X ajustados
T ) SQR = SQE ( ) = ( y X ) ( y X

Assim, o vetor de erros no observados = y - X estimado pelo vetor de resduos r, dado por

. = y X r = y
9

(3)

Propriedades do EMQ e dos Resduos


As propriedades abaixo so baseadas apenas nas duas hipteses bsicas atribudas aos erros: E()=0 e Cov() =
(a) (b)

2I.

) = ); no-viesado. (E ( O EMQ expressa por A covarincia do EMQ

) = 2 ( X T X ) 1 Cov (

(4)

OBS: Os elementos da diagonal so as varincias das EMQ de e, portanto representam a preciso das estimativas.

10

Propriedades do EMQ e dos Resduos


(c) Um estimador no-viesado de 2 dado por
T ) ( ) ( y X y X 2 = n p

(5)

(d) Esperana e Covarincia do vetor de Resduos E(r) = 0; Cov(r) =

2(I-H) => Cov(ri, rj) = 2(1-hij).

OBS: Assim, embora os erros aleatrios i sejam homocedsticos, o mesmo no ocorrem com os resduos, cujas varincias dependem dos elementos da diagonal da matriz 11 de projeo H = X(XTX)-1XT.

Modelo Normal Linear


A especificao de uma distribuio para os erros aleatrios faz-se necessria para determinarmos a distribuio de probabilidade das EMQ. A suposio de normalidade dos erros a mais adotada e considera que 1,..., n em (1) so independentes e tem distribuio normal N(0, 2).

12

Modelo Normal Linear


Segundo a hiptese de normalidade dos erros, temos as seguintes propriedades:
(i) (ii)

y Nn(X, 2I). Np(, 2(XTX)-1). A mdia e a estrutura de covarincia de foram obtidas em (ii). A normalidade decorre do fato de ser uma funo linear do vetor y, cuja distribuio normal

13

Anlise de Varincia (ANOVA)


Tcnica mais usada para verificar a adequao do ajuste do modelo de regresso a um conjunto de dados. Baseia-se na seguinte identidade
2 ( y y ) = i i =1 n 2 2 ( y ) + ( y ) i i i i =1 i =1 n n

Variabilidade Total (SQT)


14

Variabilidade Explicada (SQE)

Soma de Quadrados Residual (SQR)

ANOVA

O coeficiente de correlao mltipla de Pearson (ou coeficiente de determinao) R2 expressa o quanto o modelo explica a variabilidade total da varivel y.

SQE = R = SQT
2

2 y ( ) i

( yi y )
i =1

i =1 n

Variabilidade Explicada (SQE) Variabilidade Total (SQT)

15

ANOVA

SQE /(n p ) R (ajustado) = SQT /( n 1)


2

16

ANOVA

CUIDADO: Alguns pesquisadores se baseiam erroneamente apenas no valor de R2 para escolher o melhor modelo. To importante quanto ter um R2 prximo a 1, que a estimativa de 2 tambm seja pequena, pois os intervalos de confiana para os parmetros de interesse so proporcionais a .

17

Tabela ANOVA
A tabela da ANOVA usada para testar a adequao global do modelo de regresso y(nx1) = X(nxp)(px1) + (nx1)
Efeito Regr. Residual Total Soma de Quadrados SQE SQR SQT GL p-1 n-p n-1 Mdia de Quadrados MQE=SQE/(p-1) MQR=SQR/(n-p) Estatstica F = MQE/MQR

18

Teste F - Adequao Global


Hipteses: H0:

1 = 2 = ... = p = 0 H1: 1 0 ou 2 0 ou ... ou p 0. (pelo menos um)


Estatstica do Teste F = MQE/MQR Se F > Fp-1, n-p() rejeita H0 => o efeito global de pelo menos algumas variveis presentes na matriz X explica a variabilidade de y.

19

Teste F - Adequao Global


A estatstica do teste F representa o quociente entre SQE e SQR que tm distribuio 2, pelos respectivos g.l. Por isso, temos que F ~ Fp-1, n-p(), que representa o valor de uma distribuio F-Snedecor com p-1 e n-p graus de liberdade, ao nvel de significncia

20

Seleo das Variveis Explicativas Teste t


O Teste F permite apenas concluir que algumas variveis explicativas so realmente importantes (mas no sabemos quais!! ). O Teste t permite selecionar as variveis independentes (explicativas) que so significativas para o modelo.

21

Seleo das Variveis Explicativas Teste t


Eliminar variveis que tem pouca ou nenhuma contribuio na variabilidade da varivel dependente y. Hipteses:

r = 0 H1: r 0,
H0:

r = 0, ..., p

22

Seleo das Variveis Explicativas Teste t


Estatstica do Teste

| | r Tr = vrr

Se Tr > t n-p(), rejeita H0 => a varivel independente xr significativa para explicar a variabilidade da resposta y e deve permanecer no modelo.

23

Seleo das Variveis Explicativas Teste t


Note que
~ N ( , 2 v ), onde v o elemento r r rr rr (r, r) da diagonal de (X T X ) 1
2 2 ~ (n p ) 1 n p

| | r Tr = vrr

Note que a estatstica do teste Tr representa o quociente uma distribuio Normal-Padro pela raiz quadrada de uma distribuio 2 pelo respectivo g.l. Por isso Tr ~ t n-p(), representa o valor de uma distribuio t-Student com n-p graus de liberdade, ao nvel de significncia .
24

Exemplo

Objetivo: estimar o consumo de combustvel nos estados americanos; Varivel dependente (y): Cons = consumo de gasolina (c/gl) Variveis independentes (X) Taxa = valor do imposto estadual; Rend = renda mdia em US$; Rodov = extenso da malha rodoviria estadual; Licen = % da populao habilitada a dirigir.

25

Exemplo - BD
Base de Dados
Consumo de Combustvel nos estados americanos

26

Exemplo: Ajuste (p1)

27

Regra do p-value (p) Se p < , rejeita H0 ao nvel de significncia %

Exemplo: Ajuste (p2)

28

Regra do p-value (p) Se p < , rejeita H0 ao nvel de significncia %

Exemplo: Ajuste (p3)

29

Regra do p-value (p) Se p < , rejeita H0 ao nvel de significncia %

Exemplo: Ajuste (p4)

30

Regra do p-value (p) Se p < , rejeita H0 ao nvel de significncia %

Predio

Um dos objetivos da anlise de regresso Para um determinado vetor de valores


T x0 = (1, x01 , x02 , K , x0 p )

de X, queremos prever o valor y0 que dever ser assumido pela varivel resposta Y.

T + x + x +K+ x y0 = x0 = 0 1 01 2 02 p 0p
31

Predio

Um intervalo com 100(1-)% de confiana para o valor futuro y0 dado por

T 0 t / 2,n p 2 (1 + x0 IC[(1 )%, y0 ] = y ( X T X ) 1 x0 )

32

Você também pode gostar