Você está na página 1de 32

2.

Modelo de regresso mltipla = + + + + + .

2.2.2 OLS: inferncia estatstica Pressupostos do modelo linear clssico (CLM)


Sabe-se que, sob as hipteses de Gauss-Markov, os estimadores OLS so BLUE. Contudo, para realizar inferncia estatstica a respeito dos parmetros da populao, no basta conhecer apenas os dois primeiros momentos (mdia e varincia) da distribuio amostral dos estimadores 0 , 1 , , ; necessrio conhecer inteiramente esta distribuio amostral.
1

Para o efeito, adopta-se o pressuposto adicional independente das variveis explicativas, = 1 , 2 , , , e normal com mdia zero e varincia 2 : ~ 0, 2 . O modelo linear clssico (CLM) constitudo por estes seis pressupostos (pressupostos de Gauss-Markov e pressuposto de normalidade dos erros). Sob o modelo CLM, os erros, , so normais e independentes, entre si e dos regressores, com mdia nula e varincia constante. Em termos matriciais, ~ , 2 . Dado que = + , o modelo CLM pode sintetizar-se na forma ~ , 2 . Sob CLM, OLS no apenas BLUE, mas o estimador de varincia mnima, entre todos os estimadores cntricos, lineares ou no.
2

Argumento a favor da hiptese de normalidade: a soma de muitos factores no observados, que afectam , logo, pode invocar-se o teorema do limite central (tlc) para afirmar que aproximadamente normal. Todavia, h limitaes validade deste argumento: (i) Os factores em podem ter distribuies muito diferentes; (ii) Se funo no aditiva destes factores, o tlc no se aplica. O pressuposto de normalidade pode ser desadequado. Exemplo: condicional na escolaridade, experincia, etc., a distribuio do salrio no , provavelmente, normal (o salrio uma v. a. no negativa; parte da populao ganha exactamente o salrio mnimo; etc.). Exemplo: nmero de detenes; assume um reduzido nmero de valores e nulo para a maioria da populao. Com grandes amostras pode-se prescindir da hiptese de normalidade.
3

Distribuio normal homoscedstica com um nico regressor

f(y|x) y

. .
distrib. normais x1 x2

E(y|x) = b0 + b1x

Sob o modelo CLM, ~ , 2 Demonstrao = +


1 1

, isto , pode escrever-se como funo linear dos

elementos de , , = 1, , . Dado que os so normais e dado que uma funo linear de v.a.s normais uma v.a. normal, segue-se que, dado , um vector normalmente distribudo, com mdia = e varincia =
1

= +

= ,

=
1

= 2

= 2

.
5

(Ver c. 2.2.1, pp. 24, 36.)

Segue-se que, individualmente considerado, qualquer elemento de uma v.a. normalmente distribuda. Em forma padronizada, ~ 0,1 .

Tambm, qualquer sub-vector de segue uma distribuio normal multivariada; e qualquer combinao linear dos elementos de normalmente distribudo. Por exemplo, condicional em , 1 34 1 34 em que 1 34 = (Porqu?)
6

1 34 1 34 =

~ 0,1 ,

1 + 9 4 6 1 , 4 .

Teste de hipteses acerca de um nico parmetro populacional: estatstica t

Os so caractersticas desconhecidas da populao. Todavia, pode-se formular hipteses a respeito do seu valor e realizar inferncia estatstica para testar o seu valor. Sob os pressupostos CLM, ~ 1 , = 0,1, , .

Demonstrao *
2 Nota prvia: se 1 ~ 0,1 , 2 ~ , 1 , 2 independentes, ento 1 2

~ .

(i)

~ 0,1 , = ,

: elemento j da diagonal principal de (ii) 1 2 2 =


2 ~ 1 , porque se trata de uma forma

quadrtica de vectores aleatrios normais ( ), cuja matriz () tem caracterstica 1. (Ver c. 2.2.1, p. 41.) (iii) =
1

, 2 = 1 . e so matrizes
1

ortogonais ( = ), logo

= . Segue-se, das propriedades da

normal multivariada, que e 2 so independentes. (iv) O resultado final resulta da nota prvia, com 1 = , 2 = 2 , = 1.
8

O resultado permite testar hipteses a respeito de (por ex., = 1). Exemplo: ( ) = 0 + 1 + 2 + 3 + ; 0 : 2 = 0 significa que, ceteris paribus, o nmero de anos de (erincia) de vida activa no tem qualquer efeito sobre (rio). Para testar 0 : = 0, utiliza-se a estatstica t = .

natural avaliar o estimador cntrico, , para tentar tirar concluses a respeito de . Em geral, nunca exactamente nulo, quer 0 seja verdadeira ( = 0) ou falsa ( 0). A questo consiste em avaliar em que medida dista de zero. Um valor de muito diferente de zero fornece evidncia emprica contra 0 .
9

Todavia, h um erro amostral na estimativa , logo, deve ponderar-se o valor estimado por uma medida deste erro amostral: mede a distncia de a zero, em nmero de desvios-padro estimados (erros-padro). A regra de rejeio de 0 a dado nvel de significncia depende da hiptese alternativa e requer o conhecimento da distribuio amostral de quando 0 verdadeira (sob 0 ). O resultado anterior permite conhecer esta distribuio. Alm da hiptese nula, 0 , necessrio uma hiptese alternativa, 1 , e um nvel de significncia. 1 pode ser unilateral (1 : < 0, 1 : > 0) ou bilateral (1 : 0). Se se pretende a probabilidade de rejeitar 0 , sendo esta verdadeira, diz-se que se realiza o teste ao nvel de significncia usualmente, 1%, 5%, 10%,
10

Teste de : = (teste t) alternativa unilateral e bilateral.


Escolhido , procura-se o percentil de ordem 1 da distribuio com 1 graus de liberdade (df), designado valor crtico (c). Com hiptese alternativa unilateral direita (1 : > 0) rejeita-se 0 , se > ; se < , no se rejeita 0 . Dada a simetria da distribuio t, se 1 : < 0 (alternat. unilateral esquerda), o valor crtico . Rejeita-se 0 , se < ; se > , no se rejeita 0 . Para o teste bilateral (1 : 0) fixa-se o valor crtico baseado em 2 e rejeita-se 0 , se > ; se < , no se rejeita 0 . Se (no) se rejeita a hiptese nula, diz-se que (no) estatisticamente significativo ao nvel de significncia .
11

Teste unilateral direito


= 0 + 1 1 + 2 2 + + + ; 0 : = 0, 1 : > 0.

no rejeio

(1 - a)

rejeio
a

12

Teste bilateral
= 0 + 1 1 + 2 2 + + + ; 0 : = 0, 1 : 0.

no rejeio

rejeio
a/2

(1 - a)
a/2

rejeio
c

13

Exemplo
= 1,39 + 0,412 + 0,0015 0,083 , = 141, 2 = 0,234, 0,33 0,094 0,011 0,026 MU (MS): mdia das notas na universidade (no ensino secundrio), AD: nota no exame de admisso faculdade, NF: mdia do nmero de faltas s aulas por semana. Testes bilaterais de 0 : = 0, 1 : 0, = 1,2,3. df = 141 4 = 137 a normal reduzida constitui boa aproximao 137 . Valores crticos da normal reduzida: = 1% = 0,995 = 2,58, = 5% = 0,975 = 1,96. = 4,38: MS significativo a nveis muito reduzidos; = 1,36: AD no significativo (nem a = 10%); = 3,19: NF significativo a = 1%: > 2,58.
14

Teste de outras hipteses a respeito de


Pode encarar-se o teste anterior como caso particular do teste mais geral, da forma 0 : = (caso anterior: = 0). A estatstica de teste vem = Exemplo = 11,18 0,954 0,34 + 0,255 0,052 0,32 0,117 0,043 0,019 0,006 = 506, 2 = 0,581 PR: preo mediano das casas de habitao na freguesia (506 freguesias), NO: volume de xido de azoto, D: mdia ponderada das distncias da freguesia a 5 centros de emprego, NQ: nmero mdio de quartos das casas da freguesia, AP: mdia de alunos por professor nas escolas da freguesia.
15

Todos os coeficientes estimados tm os sinais esperados e cada coeficiente estatisticamente diferente de zero a nveis de significncia muito reduzidos. Todavia suponha-se que interessa testar a hiptese nula 0 : 1 = 1, contra 1 : 1 1 (elasticidade preo poluio igual/diferente de 1). Estatstica de teste 1 = 1 1 0,954 1 = = 0,393. 0,117

Com este valor da estatstica 1 , 1 no se considera estatisticamente diferente de 1, mesmo a nveis de significncia muito elevados. Ou seja, no h evidncia emprica que permita concluir que a elasticidade preopoluio diferente de 1 (aceita-se 0 ).
16

Valor-p ( ) em testes de
Ao realizar um teste, pode perguntar-se qual o menor nvel de significncia, ao qual se rejeita a hiptese nula? Tal nvel de significncia designa-se ( ). Para responder, calcula-se a estatstica e determina-se a que percentil corresponde: a respectiva probabilidade o . Um valor reduzido (elevado) do fornece evidncia emprica a favor da rejeio (no rejeio) de 0 . Muitos softwares estatsticos e economtricos fornecem o associado a um teste bilateral. Se se pretende o associado a um teste unilateral, divide-se o bilateral por 2.
17

Intervalos de confiana
Em alternativa ao teste, pode-se construir um intervalo de confiana para , utilizando o mesmo valor crtico que se utiliza para o teste bilateral. Define-se o intervalo de confiana (I.C.) para j , com grau de confiana 1 , como o intervalo de extremos , em que c denota o percentil de ordem 1 2 da distribuio 1 . Significado do I.C.: se se recolhesse repetidas amostras e, para cada uma, se construsse um I.C., ento, 1 100% de tais intervalos incluiriam o valor de (desconhecido). De um I.C. particular, no se sabe se inclui ou no; apenas se espera que o intervalo contenha este valor.
18

Dado um I.C. para a 1 100%, pode-se testar imediatamente a hiptese bilateral 0 : = , 1 : , ao nvel . Basta verificar se I. C. (no se rejeita 0 ) ou I. C. (rejeita-se 0 ). A validade de um I.C. ou teste depende das hipteses em que assenta: se se omite factores relevantes correlacionados com os regressores includos ( e correlacionados), as estimativas dos parmetros vm de estimadores enviesados; se h heteroscedasticidade, as estimativas dos erros-padro so invlidas. Em ambos casos, a estatstica ou os extremos do I.C. no tm o significado anterior, logo deixam de se poder utilizar de acordo com o procedimento descrito.

19

Teste de uma combinao linear


Suponha-se que se pretende testar 0 : 1 = 2 1, hiptese que equivale a 0 : 1 2 = 1. Utiliza-se o mesmo procedimento bsico para construir uma estatstica : = 1 2 1 1 2 .

Dado que 1 2 = 1 + 2 2 1 , 2 , vem = 1 2 1 1 + 2 2 1 , 2 A utilizao da frmula requer 1 , 2 , no includo no output usual dos softwares economtricos. Muitos tm uma opo para apresentar 1 , 2 , ou calculam o teste.
20

Pode sempre reformular-se o problema para obter o que se pretende. Exemplo: efeito das despesas de campanha nos resultados eleitorais. Modelo: = 0 + 1 + 2 + 3 + ; 0 : 1 = 2 1 + 2 = = 0; 1 + 2 = 1 = 2 ; substituindo no modelo e agrupando os termos por parmetro, vem = 0 + 2 + 2 + 3 + = 0 + + 2 + 3 + . Da regresso OLS de sobre: constante, , , e , obtm-se e [estimativa do coeficiente de e respectivo erropadro], no output da regresso. Com base nos quais se pode calcular a estatstica de teste = .
21

Qualquer combinao linear dos parmetros se pode testar deste modo. Exemplos de hipteses acerca de uma nica combinao linear de parmetros: 1 2 = 1, 1 = 52 , 3 = 3 4 2 , etc. (Sugesto: num modelo linear com termo independente e quatro regressores, reformular, em cada caso, o modelo e a hiptese nula, de modo a obter directamente do output da regresso OLS ambos termos da estatstica .)

Restries lineares mltiplas


At agora, apenas se considerou o teste de uma nica restrio linear. Por ex., 1 = 2 , 3 = 3, etc.. Pode-se querer testar vrias hipteses conjuntamente. Um exemplo frequente o de restries de excluso: testa-se a hiptese de nulidade simultnea de vrios parmetros.
22

A hiptese nula do tipo 0 : +1 = 0, , = 0 (nulidade simultnea dos parmetros +1 , , ). A hiptese alternativa a negao de 0 , 1 : +1 0 0 (pelo menos um dos parmetros considerados em 0 diferente de zero). No basta verificar cada t individualmente, porque o objectivo averiguar se as variveis explicativas so conjuntamente significativas pode suceder que nenhuma varivel explicativa seja individualmente significativa mas se rejeite H0 (conjuntamente os regressores so relevantes). Note-se o significado dos parmetros: um regressor estatisticamente no significativo em determinado modelo, se, para alm do efeito das restantes variveis explicativas do modelo, nulo o efeito de uma variao deste regressor sobre a varivel dependente. Individualmente, uma varivel explicativa pode ser significativa em determinado modelo e no significativa noutro.
23

Para realizar o teste, estima-se o modelo restrito (: sem as variveis +1 , , ) e o modelo no restrito (: com todas as variveis). Estatstica de teste e distribuio sob 0 : = SSR SSR ~ ,1 , SSR 1

: nmero de restries de 0 (df do numerador), 1: dimenso da amostra () nmero de parmetros ( + 1) (df do denominador). A estatstica sempre no negativa, porque SSR SSR . No essencial, a estatstica mede o acrscimo relativo em SSR, do modelo sem restries para o modelo restrito.

24

Teste
Rejeita-se H0 ao nvel de significncia a, se F > c f ( F)

no rejeio

(1 - a) 0
c

rejeio

25

Estatstica e
Pode ser til uma forma alternativa da estatstica F. Em qualquer regresso, SSR = 1 2 SST; SST idntico em ambos modelos (r e ur), donde
2 2 = . 2 1 1

Teste de significncia global


Um caso particular do anterior, o teste de significncia global, 0 : 1 = 2 = = = 0, 1 : 1 0 2 0 0. Num modelo apenas com termo independente (sem regressores), 2 = 0 (porqu?), logo, a estatstica para este teste vem, simplesmente, 2 = . 2 1 1
26

Restries lineares gerais


Pode utilizar-se a forma bsica da estatstica para testar qualquer conjunto de restries lineares. Estima-se sucessivamente o modelo e o modelo . Para cada caso, guarda-se SSR (ou 2 ) e calcula-se . Pode ser complicado introduzir as restries no modelo para obter o modelo por vezes tem que se redefinir as variveis. Exemplo: modelo de votaes = 0 + 1 + 2 + 3 + , 0 : 1 = 1, 3 = 0. Introduo das restries de 0 no modelo (expresso do modelo ): = 0 + + 2 + = 0 + 2 + .
27

2 Para obter SSR (ou ) corre-se a regresso OLS de

sobre o termo independente e . Tal como para a estatstica , pode-se calcular o associado estatstica , utilizando a respectiva distribuio. Se apenas se testa uma restrio, pode recorrer-se ao teste ou ao teste , verificando-se = 2 , e os so idnticos. Para testar hipteses conjuntas, deve utilizar-se o teste .

28

Tpico adicional: ajustado


Nenhuma das hipteses CLM exige que 2 tenha um valor elevado; 2 apenas uma estimativa da percentagem da variao de y que, na populao, explicada pelas variveis explicativas. Um valor reduzido de 2 no implica necessariamente especificao incorrecta do modelo [no implica que o pressuposto = 0 seja invlido e, portanto, no significa que os estimadores dos efeitos ceteris paribus sejam enviesados). O valor de 2 nada tem a ver com esta questo. Um valor reduzido de 2 significa que a varincia do erro elevada, relativamente varincia de , o que acarreta reduzida preciso dos estimadores.
29

Alm de 2 , a maioria dos programas economtricos apresenta tambm o coeficiente de determinao ajustado, 2 .
2 SSR 1 1 2 2 = 1 =1 = 1 1 . SST 1 SST 1 1

2 no decresce quando se introduz novas variveis no modelo (vulgarmente aumenta) porque SSR no aumenta (vulgarmente decresce). 2 depende explicitamente de (nmero de variveis explicativas); se se introduz novas variveis no modelo, SSR decresce mas aumenta [logo, ( 1) diminui]; de modo que 2 no aumenta necessariamente. Demonstra-se que 2 aumenta se e s se a estatstica para testar a significncia destas novas variveis superior a 1 (de modo equivalente, o valor absoluto da estatstica t no caso da introduo de uma s varivel).

30

Pode-se comparar o ajustamento de 2 modelos (com a mesma varivel dependente) com base em 2 . No se pode utilizar 2 (nem 2 ) para comparar modelos com diferentes variveis dependentes. Exemplo: vs. a variao total para cada varivel diferente; comparar coeficientes de determinao para modelos com estas variveis dependentes no d qualquer indicao sobre qual modelo fornece melhor ajustamento. Cada modelo ajusta duas variveis dependentes diferentes. No se deve atribuir demasiada importncia a 2 e perder de vista a teoria ou o senso comum. Se a teoria econmica indica claramente a relevncia de uma varivel, em geral, deve-se inclui-la no modelo. No se deve incluir um regressor que impea uma interpretao correcta da varivel de interesse (recorde-se a interpretao ceteris paribus da regresso mltipla).

31

Exemplo: modelo hednico de preos de casas (modelo que explica o preo das casas em funo das suas caractersticas). V. dependente: ; v. explicativas: , , . Pergunta-se: deve incluir-se no modelo o regressor (assess: valor de avaliao da casa, anterior venda)? Se se visa obter o contributo marginal de cada atributo das casas (lotsize, sqrft, bdrms) para o seu valor, a resposta no: incluir significa que, para medir o efeito marginal de qualquer das outras variveis explicativas, se fixa essa medida de valor da casa, e depois se pergunta qual o impacto de (por ex.) mais um quarto noutra medida de valor da casa [ ]. Embora a incluso de faa crescer 2 (de 0,630 para 0,762), a deciso no se deve basear neste coeficiente, porque tal conduz a uma concluso sem sentido.
32

Você também pode gostar