Você está na página 1de 11

Aula 8. Regress˜ao com n´umero de vari´aveis explicativas > 1. Escolha de vari´aveis.

Modelo Geral.

Supomos que vari´avel y depende de k vari´aveis explicativas x 1 , x 2 ,

, x k

y i =

α + β 1 x 1i + ··· + β k x ki + ϵ i , (i = 1,

, n)

(1)

ϵ i N (0, σ 2 )

(2)

Consideramos o caso de duas vari´aveis explicativas. E nesse caso pesquisamos as novos efeitos e novos problemas em estima¸c˜ao e interpreta¸c˜ao de regress˜ao linear multipla. O modelo em considera¸c˜ao agora ´e

ou, sem indice de observa¸c˜ao,

y i = α + β 1 x 1i + β 2i + ϵ i

y = α + β 1 x 1 + β 2 + ϵ

(3)

(4)

Os observa¸c˜oes agora n˜ao s˜ao mais bidimensionais, mas 3-dimensionais:

y

x

x

1

11

21

,

y

x

x

2

12

22

,

.

.

.

,

y

x

x

n

1n

2n

(5)

Agora a parte n˜ao alet´oria da regress˜ao (4) ´e representa-se como um plano. Consideramos o seguinte exemplo: para

os anos 1959-1983 o gasto total em alimentos (y) em E.U. com salario liquido (x) e pre¸cos (p) deu a seguinte regress˜ao

y

=

116.7

+

0.112

x

0.739

p

R 2 = 0.99

 

(9.6)

(0.003)

(0.114)

y e x s˜ao medidas em $ bilh˜oes no n´ıvel de pre¸cos em 1972, e p ´e indice relativo de pre¸cos calculado dividindo deflator impl´ıcito de pre¸cos em alimentos pelo deflator impl´ıcito para gasto total, com base de calculo 1972 = 100, e multiplicando por 100. A equa¸c˜ao tem que ser interpretado em seguinte maneira. Para cada incremento em $ bilh˜ao em renda, deixando pre¸c˜os em n´ıvel constante, gastos em alimentos aumentam em $ 112 milh˜oes. Em cada incereneto em um ponto de indice p, mantendo o salario constante, os gastos diminuem em $ 739 milh˜oes

M´etodo m´ınimos quadrados.

Em caso bi-dimensional os residuos s˜ao

e i = y i yˆ i = y i a b 1 x 1i b 2 x 2i .

A

O

A

fun¸c˜ao para minimizar ´e

S(a, b 1 , b 2 ) =

sistema de equa¸c˜oes para resolver ´e

∂S/∂a = 0 ∂S/∂b 1 = 0

∂S/∂b 2 = 0

n

i=1

e

2

i =

n

i=1

(y i a b 1 x 1i b 2 x 2i ) 2

i=1 (y i a b 1 x 1i b 2 x 2i ) 2 = 0

n

n

i=1 n

= 0

i=1 x 2i (y i a b 1 x 1i b 2 x 2i ) 2 = 0

x 1i (y i

a b 1 x 1i

b 2 x 2i ) 2

solu¸c˜ao pode ser representada em modo seguinte

a = y¯ b 1 x¯ 1 b 2 x¯ 2

b 1 =

b 2 = Cov(x 2 , y)V ar(x 1 ) Cov(x 1 , y)Cov(x 1 , x 2 )

Cov(x 1 , y)V ar(x 2 ) Cov(x 2 , y)Cov(x 1 , x 2 )

V

ar(x 1 )V ar(x 2 ) [Cov(x 1 , x 2 )] 2

V

ar(x 1 )V ar(x 2 ) [Cov(x 1 , x 2 )] 2

(6)

(7)

(8)

Propriedades de coeficientes de regress˜ao linear multipla.

1. n˜ao viesados

b 1 = Cov(x 1 , y)V ar(x 2 ) Cov(x 2 , y)Cov(x 1 , x 2 )

V ar(x 1 )V ar(x 2 ) [Cov(x 1 , x 2 )] 2

1

= ( Cov(x 1 , α + β 1 x 1 + β 2 x 2 + ϵ)V ar(x 2 ) Cov(x 2 , α + β 1 x 1 + β 2 x 2 + ϵ)Cov(x)1, x 2 ) )

1

= ( [ β 1 V ar(x 1 ) +

β 2 Cov(x 1 , x 2 ) + Cov(x 1 , ϵ) ] [ β 1 Cov(x 1 , x 2 )

= ( β 1 ∆ + Cov(x 1 , ϵ)V ar(x 2 ) Cov(x 2 , ϵ)Cov(x 1 , x 2 ) )

1

= β 1 + ( Cov(x 1 ,

1

ϵ)V ar(x 2 ) Cov(x 2 , ϵ)Cov(x 1 , x 2 ) )

+ β 2 V ar(x 2 ) + Cov(x 2 , ϵ) ] Cov(x 2 , x 2 ) )

onde ∆ = V ar(x 1 )V ar(x 2 ) [Cov(x 1 , x 2 )] 2 . Logo obtemos

1

E[b 1 ] = β 1 + ( V ar(x 2 )E[Cov(x 1 , ϵ)] Cov(x 1 , x 2 )E[Cov(x 2 , ϵ)] ) = β 1

2. precis˜ao

A varia¸c˜ao populacional D[b 1 ] para o coeficiente b 1 ´e dada pela formula seguinte

D[b 1 ] =

σ

2

ϵ

nV ar(x 1 ) ·

1

1 r

2

x 1 ,x 2

(9)

onde, como antes, σ

Observamos, que em caso de duas variaveis explicativas a varia¸c˜ao do estimador de minimos quadrados para

coeficiente depende tambem de correla¸ca˜o entre as vari´aveis explicativas r x 1 ,x 2 . Se maior correla¸c˜ao entre vari´aveis explicativas x 1 e x 2 , assim maior varia¸c˜ao populacional tem o coeficiente, e como conseuencia maior erro.

ϵ 2 ´e varia¸c˜ao populacional de termo perturbativo ϵ.

O erro padr˜ao logo s.e.(b 1 ) =

s

2

ϵ

nV ar(x 1 ) ·

1

1 r

2

x 1 ,x 2

,

onde s 2 =

ϵ

1

n 3

n


e

i=1

3. t-teste

Seja k n´umero de variaveis explicativas: x 1 , x 2 ,

, x k . ent˜ao

a α

b i β i

s.e.(a) t nk1 and s.e.(b i

) t nk1 para todos i = 1, 2,

2

i

 

(10)

, k

(11)

t teste de significancia testa a hip´otese nula H 0 : β i = 0 para i fixo, com alternativa A : β ̸= 0. Para esse caso a t- estat´ıstica ´e t = b i /s.e.(b i ).

4. F-teste

Seja k n´umero de variaveis explicativas: x 1 , x 2 ,

, x k . ent˜ao

F

=

R 2 /k

(1 R 2 )/(n

k 1) F k,nk1

F-estat´ıstica usa-se para testar a hip´otese nula com alternativa

H 0 :

β 1 = β 2 = ··· = β k = 0

A :

existem i ̸= j tais que β i ̸= β j

(12)

5. F analise adicional

Observa¸c˜ao - se aumentar o n´umero de vari´aveis explicativas, automaticamnte o soma de quadrados res´ıduo vai

diminuir. Como separar o ganho em explica¸c˜ao contra o ganho de causa de aumento de n´umero de variaveis explica-

tivas?

Supomos que fizemos uma regress˜ao com k vari´aveis explicativas. Seja SS Reg (k) a soma de quadrados ”explicativa”,

e SS Erro (k) a soma de quadrados de res´ıduos para essa regress˜ao com k vari´aveis explicativas. Supomos que nos

adicionamos variaveis explicativas e novo modelo contem m vari´aveis explicativas (m > k). A F estatistica para testar

se o aumeto de vari´aveis adicionas foi significante

H 0 :

β k+1 = ··· = β m

pode ser expressa em geral em seguinte maneira:

F =

(ganho em explica¸c˜ao)/(graus de liberdade adicional)

( nova soma de quadrados de residuos)/( graus de liberdade em modelo novo)

(13)

Ganho em explica¸c˜ao ´e simplesmente a quantidade em que a some de quadrados de residuos diminuiu: SS Erro (k) SS Erro (m) lembramos que SS Erro (k) > SS Erro (m). Logo

F

= (SS Erro (k) SS Erro (m))/(m k)

SS Erro (m)/(n m 1)

F mk,nm1

(14)

Escolha de vari´aveis.

Espicifica¸c˜ao do modelo envolve especifica¸c˜ao de rela¸c˜oes que constituem o modelo, especifica¸c˜ao de vari´aveis, e especifica¸c˜ao de fun¸c˜ao matem´atica. Esta aula ´e sobre especifica¸c˜ao de vari´aveis. O que ocorre se uma vari´avel n˜ao entrou em modelo, e o que ocorre, se uma vari´avel que n˜ao deveria estar no modelo esta l´a? Vamos considerar o caso simples, as rela¸c˜oes lineares, e vamos ver quais s˜ao propriedades estat´ısticas de estimadores de coeficientes de regress˜ao podem ser violadas se ocorre o erro na especifica¸c˜ao de vari´aveis. Aula pode ser redusida em duas proposi¸c˜oes.

1. Se uma vari´avel, que deveria estar em modelo, est´a fora do modelo, ent˜ao coeficientes em geral (n˜ao sempre) s˜ao viesados. O erro padr˜ao de coeficientes e t-teste s˜ao, em geral, invalidos.

2. Se em modela entra uma vari´avel que deveria estar fora do modelo, ent˜ao coeficientes de regress˜ao s˜ao em geral (mas n˜ao sempre) n˜ao eficientes, mas n˜ao vieados. O erros padr˜ao em geral s˜ao validos mas, de causa de n˜ao-eficiencia de estimadores, s˜ao desnecessariamente grandes.

Efeito de ausˆencia de vari´avel que deveria estar em modelo.

Supomos que vari´avel y depende de duas vari´aveis explicativas x 1 , x 2 de accordo com

y = α + β 1 x 1 + β 2 x 2 + ϵ,

(15)

mas nos ignoramos a importancia de x 2 . Pensando que o modelo deveria ser

nos usaremos analise de regress˜ao

y = α + β 1 x 1 + ϵ,

yˆ = a + b 1 x 1

(16)

(17)

e nos calculamos b 1 usando a express˜ao Cov(x 1 , y)/V ar(x 1 ), em vez de espress˜ao correta

Calcularemos a esperan¸ca de b 1 :

b 1 = Cov(x 1 , y)V ar(x 2 ) Cov(x 2 , y)Cov(x 1 , x 2 )

V

ar(x 1 )V ar(x 2 ) [Cov(x 1 , x 2 )] 2

.

E[b 1 ]

=

=

=

E [ Cov(x 1 , y) ] = E [ Cov(x 1 , α + β 1 x 1 + β 2 x 2 + ϵ)

V

ar(x 1 )

V

ar(x 1 )

]

E [ Cov(x 1 , α) ] +

ar(x 1 )

β 1 + β 2 Cov(x 1 , x 2 )

E [ Cov(x 1 , β 1 x 1 ) ] + E [ Cov(x 1 , β 2 x 2 ) ] + E [ Cov(x 1 , ϵ)

V

ar(x 1 )

V

ar(x 1 )

V

ar(x 1 )

V

V

ar(x 1 )

]

(18)

o vies pode ser explicado intuitivamente: β 2 ´e um efeito direto da vari´avel x 2 , e Cov(x 1 , x 2 )/V ar(x 1 ) ´e o coeficiente

de inclina¸c˜ao para regress˜ao x 2 contra x 1 . Ent˜ao Cov(x 1 , x 2 )/V ar(x 1 ) significa o efeito indireto de x 1 que desempenha

o papel de imitador de x 2 . Assim o produto de dois efeitos (mais um erro de amostra) constituem o vies. O vies ´e igual `a zero se β 2 = 0, mas nesse caso o modelo verdadeiro ´e um-dimencional, ou se vari´aveis x 1 e x 2 s˜ao n˜ao corelacionadas Cov(x 1 , x 2 ) = 0. A dire¸c˜ao de vies determina-se automaticamente.

Efeito de presen¸ca de vari´avel que n˜ao deveria estar em modelo.

Supomos que o modelo verdadeiro ´e

 

y

= α + β 1 x 1 + ϵ

(19)

e

nos pensamos que

 

y = α + β 1 x 1 + β 2 + ϵ

(20)

e estimamos b 1 usando (18) em vez de Cov(x 1 , y)/V ar(x 1 ). Em geral n˜ao existe o vies, mesmo se a gente calculou pela formula errada. A esperan¸ca E[b 1 ] = β 1 , mas em geral b 1 vai estar ineficiente. Ele ´e mais err´atico, em sentido de ter a variˆancia maior ao redor de β 1 de que se ele estivesse calculado corretamente. A perda de eficiˆencia de causa de incluso em modelo x 2 que deveria estar fora depende de correla¸c˜ao entre x 1 e x 2 . Comparando as f´ormulas para variˆancia de b 1 em regressa˜o simples e bi-dimensional

D[b 1 ] =

D[b 1 ] =

2

ϵ

nV ar(x 1 ) – em regress˜ao simples;

σ

σ ϵ – em regress˜ao bidimensional;

1 r

2

x 1 x 2

2 1

nV ar(x 1 ) ·

vejamos que a variˆancia aumenta se a correla¸c˜ao fica forte (perto de 1 e -1). Exsite uma exce¸c˜ao na hora de concluir que o estimador n˜ao sofre vies: se x 2 ´e correlacionado com ϵ, (violando a quarta condi¸c˜ao de Gauss-Markov para o modelo) o coeficiente de regress˜ao ao final vai ser viesado.

Vari´avel substituto (proxy variable).

Freq¨uˆentemente ocorre que a vari´avel que vocˆe quer por no modela n˜ao esta dispon´ıvel: ou n˜ao pode ser medida (como qualidade de educa¸c˜ao, ou estado socioeconomica); ou requera m´uito tempo para ser medida. Por qualquer raz˜ao, usualmente uma boa ideia ´e em vez de tirar essa vari´avel do modelo, tentar achar um substituto dela. Por exemplo para estado socioeconomico poderiamos usar o salario, se ele ´e disponivel. Existe duas ras˜oes para tentar achar o substituto. Primeira, se nos simplesmente jogamos fora uma vari´avel que deveria estar em modelo, sabemos que os coeficientes de modelos sofem vies, e testes estat´ısticos s˜ao invalodos. Segundo, ´e que os resultados com vari´avel substituta pode esclarecer alguma coisa sobre a vari´avel que ela substitua. Supomos que omodelo verdadeiro ´e

y = α + β 1 x 1 + β 2 x 2 + ··· + β k x k + ϵ

(21)

Supomos que n˜ao temos os dados sobre x 1 , mas outra var´avel z ´e um ideal substituto – existe uma rela¸c˜ao exata entre elas: x 1 = λ + µz, onde λ, µ s˜ao constantes fixas, mas desconhecidas. Notamos que nos nao podemos estimar essas constantes - pois precisamos de dados de x 1 que s˜ao indispon´ıveis. Se nos faremos a regress˜ao

yˆ = a + b 2 x 2 + ··· + b k x k + cz,

ent˜ao estimadores b 2 ,

defeito ´e que nos nao temos o estimador para coeficiente de x 1 e o coeficiente a n˜ao ´e estimador de α mas de (α + λ).

, b k , desvios padr˜ao deles, e R 2 estariam mesmos como na regress˜ao com vari´avel x 1 . unico`

Testando restri¸c˜oes lineares.

Consideramos um exemplo – fun¸c˜ao de Cobb-Douglas

Y

= AK α L β ν

onde Y ´e produtividade; K - capital e L – trabalho. A fun¸c˜ao como ela foi sugerida pela pesquisadores inicialmente tem a seguinte forma

Y = AK α L 1α ν que pode ser reduzida em Y /L = A(K/L) α ν

colocando a restri¸c˜ao β = 1 α. Pergunta ´e como que nos podemos testar se essa restri¸c˜ao significante?

F teste de restri¸c˜ao

Seja SS Erro ´e soma de quadrados de res´ıduos em regress˜ao com a restri¸c˜ao e SS Erro ´e soma de quadrados de res´ıduos

em regress˜ao sem a restri¸c˜ao. F -teste:

(22)

Erro (U) . Para testar se essa diferˆen¸ca ´e significante podemos usar

(R)

(U)

`

E obvio que SS

(R) Erro > SS

F = (SS

(R)

Erro SS Erro )/r

(U)

(U)

F r,nk1

SS Erro /(n k 1)

onde r ´e n´umero de parˆametros a mais para estimar em regress˜ao sem restri¸c˜ao (no caso descrito acima r = 1 porque temos que estimar a mais β) e k ´e n´umero de vari´aveis explicativas em regress˜ao sem restri¸c˜ao.

Multicolinearidade (Aivasian)

, x (p) . Ser´a

que podemos definir a multicolinearidade? Quais s˜ao sintomas externas de presen¸ca dela? Quais dificuldades ela cria

na analise de regress˜ao e como ultrapassar essas dificuldades?

Multicolinearidade – interdependencia multipla ou conjunta de vari´aveis explicativas do modelo x (1) ,

Sintomas e causas da multicolinearidade

Multicolinearidade completa se-define como a viola¸c˜ao de seguinte condi¸c˜ao de Gauss-Markov do modelo de regress˜ao:

a condi¸c˜ao de posto de matriz X. Falam que as vari´aveis explicativas do modelo x (1) ,

de multicolinearidade, se o posto de matriz X ´e menor de que p + 1. Neste caso existe a dependencia linear entre as vari´aveis explicativas. Quando isso ocorre a matriz X T X ´e singular e n˜ao existe a matriz inversa (X T X) 1 . Na pratica a multicolinearidade completa quase n˜ao aparece, pois ´e facil detectar ela, e n˜ao ´e dificil evitar ela ja na analise preliminar da escolha de conjunto de vari´aveis explicativas.

, x (p) possuam a propriedade

Multicolinearidade real (ou parcial) aparece quando existem as liga¸c˜oes estatisticas lineares fortes entre as vari´aveis ex- plicativas. Nos n˜ao temos criterios exatos e quantitativos para defini¸c˜ao de presen¸ca-ausˆencia de da multicolinearidade real. Mas temos algumas recomenda¸c˜oes euristicas como revelar a multicolinearidade. (1) In primeiro lugar podemos analisar a matriz de correla¸c˜ao R de vari´aveis explicativas. Considera-se que

a existencia de coeficientes de correla¸c˜ao com valores absolutos maior de que 0.75-0.8 indica sobre a existencia de multicolinearidade. (2) A existencia de liga¸c˜oes estatisticas lineares e fortes leva `a chamado condicionalidade fraca de matriz X T X, o que ´e a proximidade de determinante do matriz X T X ao zero. Por isso se det(X T X) 0, ent˜ao isso tambem indica

a presen¸ca de multicolinearidade. (3) O autovalor minimal λ min de matriz X T X desempenha o papel importante na analise da multicolinearidade.

Isso explica-se com dois fatos. Primeiro ´e que do λ min 0 segue det(X T X) 0 e vice versa. Em segundo lugar,

Porisso

podemos mostrar que o erro padr˜ao de θ i inversamente proporcional `a o valor de λ min (veja por exemplo

junto com o valor de det(X T X) calculam λ min ou seja o raiz da equa¸c˜ao det(X T X λI p+1 ) = 0. (4) Analise de matriz de correla¸c˜ao R permite na primeira aproxima¸c˜ao (e relativamente superficial) julgar sobre

a existencia da presen¸ca-ausencia da multicolinearidade em nossos dados. O estudo mais detalhado dessa quest˜ao ´e

alcan¸cada com calculo de coeficentes de determina¸c˜ao R x (i) ,X(i) de cada vari´avel explicativa x (i) contra todas as outras

vari`aveis X(i) = (x (1) ,

, x (p) ) T . Isso explica-se pelo fato que erro padr˜ao de estimador θ i ´e ligado

ˆ

).

2

, x (i1) , x (i+1) ,

ˆ

com o valor de R x (i) ,X(i) cde seguinte modo s.e.( θ i ) = σ 2 /n(1 R

(5) Afinal, sobre a presen¸ca de multicolinearidade sinaliza alguns sintomas externas, que s˜ao consequencias dela. Por exemplo:

1. alguns de estima¸c˜oes θ i possuam os sinais errados de ponto de vista da teoria estudada (economia, biologia, ect.)

2

ˆ

2

x (i) ,X(i) ).

ˆ

ou valores absolutos injustificadamente grandes;

2. altera¸c˜ao pequena ne dados iniciais (quando adicionam ou retiram alguma por¸c˜ao de observa¸c˜oes) leva `a grande mudan¸ca de valores de estima¸c˜oes, ate a mudan¸ca de sinal do estima¸c˜ao;

3. a maioria ou ate todas as estimativas de coeficientes s˜ao estatisticamente insignificantes de ponto de vista de t-estatistica, enquanto na realidade a maioria deles tem os valores reais diferentes de zero, e o modelo em geral ´e estatisticamente significante pela F -estatistica.

Essas e outras similares peculiaridades de modelo podemos entender e prever, se lembrarmos as rela¸c˜oes

θ ˆ = (X T X) 1 X T Y

e

Σ

ˆ

θ

=

ˆ

σ 2 (X T X) 1 ou Σ

ˆ

θ

=

σˆ 2 (X T X) 1

Em todas as rela¸c˜oes temos a matriz (X T X) 1 , cujos elementos s˜ao inversamente proporcionais `a det(X T X). Se

esse valor ´e bastante pequeno, ent˜ao coloca¸c˜ao ou a retirada de uma-dias linhas de matriz X (o que ´e equivalente `a adi¸c˜ao ou a retirada de uma-duas observa¸c˜oes de dados iniciais) pode radicalmente (em muitas vezes) alterar o valor

θ ˆ dependentes dele. Ao mesmo tempo pequenez do valor det(X T X)

de det(X T X), e consequentemente, alterar θ e Σ

θ ˆ (ou seja D( θ i θ i )), o que pode levar `a insignificˆancia

implica valores exorbitantes de elementos dioganais de matriz Σ

ˆ

ˆ

ˆ ˆ

de valores | θ i |/s.e.( θ i ).

M´etodos de elimina¸c˜ao de multicolinearidade

Trasi¸c˜ao para estimadores viesados

Sabemos que os estimadores de coeficientes de regress˜ao tem a o erro quadratico minimas em classe de estimadores

ˆ

ˆ

lineares e n˜ao-viesados. Pode existir um estimados viesado θ, mas mais preciso (em termos de erro quadratico E( θ θ))

 

`

ˆ

de

que o estimador ´otimas em classe de estimadores n˜ao viesados?

E sim, pode!

desenho

Seja θ v um estimador

 

ˆ

ˆ

ˆ

viesado e seja τ o vies dele, θ ´e n˜ao viesado. E desigualdade E( θ θ) 2 > E( θ v θ) 2 pode ocorrer em seguinte situa¸c˜ao:

 

ˆ

ˆ

> D( θ v ) + τ 2 , pois

se

D( θ)

E( θ θ) 2 = D( θ)

ˆ

E( θ v θ) 2 = E( θ v E θ v + E θ v θ) 2 = E( θ v E θ v ) 2 + (E θ v θ) 2 = D( θ v ) + τ 2

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

Mostraremos um dos jeitos de construir os estimadores vieasdos. A abordagem ridge regression (ou regress˜ao crista ??? cume ???). O m´etodo ´e baseado em considera¸c˜ao de uma familia de um parˆamentro de estimadores de m´ınimos quadrados ”corrigidos”, ou seja os estimadores da seguinte forma

θ ˆ τ = (X T X + τI p+1 ) 1 X T Y.

(23)

A adi¸c˜ao da ”crista”ou ”cume”τ para elementos diagonais de matriz X T X, de um lado, fa¸ca que esses estimadores

ficam viesados, mas de outro lado, fa¸ca que a matriz de mal condicionada vira bem condicionada. Consequentemente, mais para frente nos n˜ao vamos encontrar valores pequenos de determionante de matriz X T X (agora ele vai ser matriz X T X + τI p+1 ) e as dificuldades ligadas com isso. Existe o teorema (veja Hoerl A.E., Kennard R.W., Technometrics,

1970, vol.12, No 1, pp.55-67) que afirma que sobre as condi¸c˜oes de multicolinearidade existe um valor τ 0 tal que os erros

ˆ

ˆ

m´edios quadraticos de estimadores θ τ 0 v˜ao ser menores de que os erros correspondentes para θ de minimos quadrados.

N˜ao existem as recomenda¸c˜oes universais como escolher τ 0 (geralmente escolhem o valor de τ 0 em intervalo de 0.1 ate

0.4.

Transi¸c˜ao para vari´aveis explicativas ortogonalizadas pelo metodo de componente principal

Componentes principais de um vetor aleat´orio. Seja X = (x (1) ,

da m´edias a = (a (1) ,

classe F (X) de transforma¸c˜oes permiss´ıveis de vari´aveis x (1) , padronizado:

, x (p) ) um vetor aleatorio p dimensional com vetord

, a (p) ) e matriz de covariˆancia Σ = (σ ij ) quem em geral s˜ao desconhecidas. Consideramos uma

, x (p) como qualquer combina¸c˜ao linear e ortogonal

F(X) = { Z = (z (1) ,

, z (p) ) : z (i) =

p

j=1

c ij (x (j) a (j) ),

j = 1,

, p } ,

onde

i

n

j=1

2

c ij = 1 e i ̸= k

n

j=1

c ij c jk = 0.

Como a medida de informatividade de sistema p -dimensional de vari´aveis Z(X) = (z (1) (X), z (2) (X), usaremos a f´ormula

I p (Z(X)) = D z (1) + ··· + D z

D x (1) + ··· + D

(p )

x (p) .

, z (p ) (X))

(24)

Agora, para

namos como tal combina¸c˜ao linear

qualquer p fixo, o vetor de componentes auxiliares Z(X) = (z (1) (X), z (2) (X),

, z (p ) (X)) T determi-

Z(X) = LX =

l 11

.

.

.

l p 1

···

.

···

.

.

l 1p

.

l p p

X matriz L ´e uma matriz ortogonal

que

Z(X) = arg

Z(X)F(X) I p (

max

˜

˜

Z(X)).

Obtidos desse modo vari´aveis z (1) (X), z (2) (X),

cada uma chamam-se componentes principais de vetor X.

, z (p) (X) colocadas em ordem crescente em rela¸c˜ao ao variˆancia de

Agora lembraremos que estamos na estat´ıstica tentando estimar coeficientes de regress˜ao linear. O procedimento vai ser parecido, somente alterado para amostras. Primeiramente construimos matriz de observa¸c˜oes centralizadas:

x

x

(1)

1

(1)

n

x¯ (1)

.

.

.

x¯ (1)

x

(p)

1

x

(p)

n

x¯ (p)

.

x¯ (p)

¯

···

.

···

.

.

X c = X x (1) ,

,

x¯ (p) ) =

 

¯

A

regress˜ao de Y pelo X em termos de vari´aveis centralizadas Y c = Y Y e X c = X X pode ser representada como

E(Y Y | X X) = θ 1 (x (1) x¯ (1) ) + ··· + θ p (x (p) x¯ (p) ).

¯

¯

O

intercept θ 0 da regress˜ao original pode ser representado como θ 0 = y¯ i=1 p θ i x¯ (i) . Deste modo a realiza¸c˜ao de

m´etodo de componente principal prevˆe seguintes passos:

1. Acharemos os outovalores λ 1 λ 2

de matriz X

T

c

X c .

··· ≥ λ p > 0 e correspondentes autovetores l i = (l i1 ,

, l ip ), i = 1,

, p

2. Construa-se matriz de coeficientes de transforma¸c˜ao

LX =

l 11

.

.

.

l p 1

···

.

···

.

.

l 1p

.

l p p

onde cada linha ´e o correspondente autovetor. Notamos que pela constru¸c˜ao de matriz segue que ela ´e ortoginal, ou seja L T = L 1 e consequentemente L T L = LL T = I p .

3. Usando L acharemos vetor de componentes principais

Z = (z (1) ,

,

z (p) ) T = LX c .

Notamos tamb´em que de constru¸c˜ao segue que Z T Z ´e uma matriz diagonal

e consequentemente

Z T Z =

(Z T Z) 1 =

λ 1

0

.

.

.

0

11

0

.

.

.

0

0

λ 2

.

.

.

0

···

···

.

.

···

.

0

12

.

.

.

0

0

0

.

λ p

···

···

.

·

.

·

·

.

,

0

0

.

1p

,

Notamos tamb´em que o vetor centralizado de dados originais X c pode ser representado como

X c = X X = L 1 Z = L T Z.

¯

4. Retornando para o modelo de regress˜ao, construimos a regress˜ao Y c pelo vetor dos componentes principais Z:

E(Y c | Z) = c 1 z (1) + c 2 z (2) + ··· + c p z (p)

usando as formulas de m´etodo de minimos quandrados obtemos

cˆ

Σ cˆ

=

=

c 1 ,

σˆ

,

cˆ p ) T = (Z T Z) 1 Z T Y c

2

pc (Z T Z) 1

onde

σˆ

2 1

pc =

n p

n

i=1

(y ci cˆ 1 z

(1)

i

− ··· − cˆ p z

(p) ) 2 .
i

Assim os componentes de cˆ s˜ao n˜ao correlacionadas e

cˆ j =

1

λ

j

n

i=1

z

(j)

i

y ci

e

Ec j c j ) 2 =

σˆ

2

cp

λ

j

.

5. Afinal, verificamos as hip´oteses em sequencia

usando (25) e estat´ısticas

γ j =

H 0j :

c j = 0

j = 1,

, p

λ

j n

1

(j)

i=1 z i

y

ci

n

(j)

i=1 z i

y

ci

=

σˆ cp / λ j

σˆ cp λ j

.

(25)

Seja J 0 conjunto de indices de componentes principais para quais rejeitamos a hipotese H 0j . Ent˜ao o estimador de fun¸c˜ao de regress˜ao pode ser descrito em seguinte modo

y = y¯ + cˆ j z (j) .

jJ 0

(26)

Neste caso a expluz˜ao de modelo as vari´aveis n˜ao leva a altera¸c˜ao de valores de coeficientes estimados, pois a forma de matriz (Z T Z) 1 garante independencia de resultados de calculo de estimadores cˆ j de n´umero e de conjunto de vari´aveis enclusos em modelo de componentes principais.

Se podemos dar a interpreta¸c˜ao adequada da regress˜ao (26). Neste caso podemos terminar a analise. Caso contrario

os estimadores

, θ p da regress˜ao original podem ser obtidas de seguinte

forma

ˆ

θ 0,cp ,

ˆ

, θ p,cp para os parametros θ 0 , θ 1 ,

ˆ

ˆ

θ

ˆ

i,cp =

jJ 0

θ 0,cp = y¯

cˆ j l ji ,

i = 1, 2,

p

i=1

θ ˆ i,cp x¯ (i)

, p,

Em geral esses estimadores s˜ao viesados, mas existem as f´ormulas de valores de vies.

Exerc´ıcios Dom´esticos.

1. ([2]) A regress˜ao multipla foi aplicada para explicar gastos em moradia (y) atraves de slario (x) e indice de pre¸cos relativa (p)

yˆ = 43.4 + 0.181x + 0.137p

dar a interpreta¸c˜ao dessa regress˜ao. Porque voce n˜ao pode ser satisfeito com essa regress˜ao? A regress˜ao logaritmica para gastos em moradia foi realizada:

logy = 0.60 + 1.18logx 0.34logp

dar a interpreta¸c˜ao de equa¸c˜ao. Compare com a regress˜ao anterior. In qual sentido houve melhora no resultado?

2. ([1]) O proprietario da Showtime Movie Theater, Inc., gostaria de estimar o faturamento bruto semanal (Y) como fun¸c˜ao dos gastos com publicidade. Dados hist´oricos para uma amostra de seis semanas s˜ao apresentadas a seguir.

Faturamento Bruto Semanal (Y) (US$ 1.000)

An´uncio de Televis˜ao (TV) (US$ 1.000)

An´uncio de Jornal (J) (US$ 1.000)

96

5.0

1.5

90

2.0

2.0

95

4.0

1.5

92

2.5

2.5

95

3.0

3.3

94

3.5

2.3

94

2.5

4.2

94

3.0

2.5

Foram obtidas trˆes regress˜oes:

 

Y

=

88.64

+

1.60

TV

R 2 = 0.65

 

(s.e.)

(1.58)

(0.48)

 

Y

=

93.86

-

0.04

J

R 2 = 0.0004

 

(s.e.)

(2.23)

(0.85)

Y

=

83.23

+

2.29

TV

+

1.30

J

R 2 = 0.92

(s.e.)

(1.57)

(0.30)

(0.32)

(a)

Qual modelo voce escolha? Porque?

(b)

Coeficiente de correla¸c˜ao entre gastos em anuncios em jornal e gastos em anumcios em televis˜ao ´e negativa e igual `a -0.55. Como voce pode explicar a diferen¸ca em valores de coeficiente para T V na primeira e na terceira regress˜ao?

(c)

Qual ´e a estimativa do faturamento bruto para uma semana quando US$ 3.500 s˜ao gastos em an´uncio de televis˜ao e US$1.800 s˜ao gastos em an´uncio de jornal?

3. Para oserva¸c˜oes anuais 1959-1985 a regress˜ao linear simples logaritmoca foi aplicada para explicar os gastos em alimentos (food) atraves de salario liquido (dpi) (com erro padr˜ao em parˆentesis):

ln(food)

=

1.113

+

0.563

ln(dpi)

R 2 = 0.9596

 

(0.156)

(0.024)

SS Erro = 0.0205

Com objetivo achar o modelo mais adequado o pesquisador adicionou mais duas vari´aveis em regress˜ao – indice de pre¸co relativo (pfood) e o tempo t (t=1 para 1959 ect.)

ln(food)

=

5.116

+

3.47e-05ln(dpi)

0.136 ln(pfood)

+

0.027t

R 2 = 0.983

 

(0.863)

(0.112)

(0.058)

(0.006)

SS Erro = 0.0088

(obs: 3.47e-05 ´e simplesmente o n´umero 0.0000347)

(a)

Quais modelos s˜ao consideradas para consumo de alimentos?

(b)

Da interpreta¸c˜ao para cada equa¸c˜ao obtida e realiza os testes de significˆancia para coeficientes.

(c)

Como vocˆe explica o aumeto de R 2 e diminui¸c˜ao de SS Erro da primeira equa¸c˜ao para a segunda. Somente esse fato significa que o modelo ”melhorou”?

(d)

Realize o F-teste para dous modelos.

(e)

Realize o F-teste para adi¸c˜ao de vari´aveis em segundo equa¸c˜ao. A adi¸c˜ao de indice de pre¸co para alimentos e o tempo ´e significante com o n´ıvel de significˆancia de 1%?

(f)

Como vocˆe explicaria o fato que a vari`avel ln(dpi) ´e extremamente significante em primeira equa¸c˜ao ´e n˜ao significante em segunda?

4. ([2] p.176, Problem 6.1) Assumimos que a regress˜ao de gastos em alimentos, y, contra salario, x, e pre¸co relat´ıvo, p, ´e correta. Avaliar a dire¸c˜ao de vies in coeficientes de outra vari˜avel se (1) p e (2) x ´e ausente. Sabemos que x e p s˜ao positivmente correlacionadas. Os resultados s˜ao em tabela

vari´aveis

constante

x

p

R 2

x, p

116.7

0.112

- 0.739

0.99

(9.6)

(0.003)

(0.114)

x

55.3

0.093

0.98

(2.4)

(0.003)

p

-125.9

2.462

0.62

(42.1)

(0.407)

Verifica se esses resultados confirma seu analise e comenta valores de R 2 em tres regress˜os.

5. ([2] p.178, Problem 6.7) In experimento Monte Carlo descrito em Aula 8 (apresenta¸c˜ao) onde salario Y ´e de- terminado atraves de anos de escolaridade, S, e anos da experiˆencia, X, e idade, A. X e A s˜ao positivamente correlacionadas, e S ´e negativamente correlacionada com outras duas. A parte esquerda da tabela mostra o valor de R 2 quando Y ”regressa”contra somente S, depois contra S e X, e depois contra todas tres S, X, A. A perte direita mostra o valor de R 2 quando T regressa contra somente A, depois contra A e X