Escolar Documentos
Profissional Documentos
Cultura Documentos
Wooldridge C
Wooldridge C
Fundamentos de Estatstica
Matemtica
Amostragem
Para revisar a inferncia estatstica, concentramo-nos no cenrio mais simples possvel. Seja Y uma
varivel aleatria representando uma populao com uma funo de densidade de probabilidade f(y;),
que depende do nico parmetro . A funo de densidade de probabilidade (fdp) de Y assumida
55
56
como conhecida, exceto quanto ao valor de ; valores diferentes de implicam diferentes distribuies
populacionais, e, portanto, estamos interessados no valor de . Se pudermos obter certos tipos de amostras da populao, ento, poderemos descobrir alguma coisa sobre . O esquema de amostragem mais
fcil de trabalhar a amostragem aleatria.
AMOSTRAGEM ALEATRIA
Se Y1,Y2, ...,Yn forem variveis aleatrias independentes com uma funo de densidade de probabilidade f(y;) comum, ento, {Y1, Y2, ..., Yn} definida como uma amostra aleatria a partir de f(y;) [ou
uma amostra aleatria a partir da populao representada por f(y;)].
Quando {Y1, ..., Yn} uma amostra aleatria a partir da funo de densidade f(y;), tambm dizemos
que as Yi so amostras independentes e identicamente distribudas (ou i.i.d.) a partir de f(y;). Em
alguns casos, no precisaremos especificar em sua totalidade qual a distribuio comum.
A natureza aleatria de Y1, Y2, ..., Yn na definio de amostragem aleatria reflete o fato que so
possveis muitos resultados diferentes antes da amostragem ter sido efetivamente realizada. Por exemplo, se a renda familiar for obtida de uma amostra de n 100 famlias nos Estados Unidos, as rendas
que observaremos em geral diferiro para cada amostra diferente de 100 famlias. Uma vez obtida uma
amostra, teremos um conjunto de nmeros, digamos, {y1, y2, ..., yn}, que constituir os dados com os
quais trabalharemos. Se ou no apropriado assumir que a amostra proveniente de um esquema aleatrio de amostragem, exige conhecimento sobre o efetivo processo de amostragem.
Amostras aleatrias a partir de uma distribuio de Bernoulli so freqentemente usadas para ilustrar conceitos estatsticos, e elas tambm surgem em aplicaes empricas. Se Y1, Y2, ..., Yn forem variveis aleatrias independentes e cada uma for distribuda como Bernoulli(), de forma que P(Yi 1)
0 e P(Yi 0) 1 , ento, {Y1, Y2, ..., Yn} constituir uma amostra aleatria a partir da distribuio
de Bernoulli(). Como ilustrao, considere o exemplo das reservas da empresa area desenvolvido no
Apndice B. Cada Yi mostra se o passageiro i comparece para embarque; Yi 1 se o passageiro comparece e Yi 0, caso contrrio. Dessa forma, a probabilidade de uma pessoa, escolhida aleatoriamente na populao de todas as pessoas que fizeram reserva, comparecer para o embarque.
Em muitas outras aplicaes, as amostras aleatrias podem ser assumidas como retiradas de uma
distribuio normal. Se {Y1, ..., Yn} for uma amostra aleatria a partir de uma populao Normal(,2),
ento, a populao ser caracterizada por dois parmetros, a mdia e a varincia 2. O interesse principal geralmente reside em , mas 2 de interesse por si mesma, pois fazer inferncias sobre freqentemente exige conhecimento de 2.
Wooldridge
Apndice C
57
Como um exemplo de um estimador, seja {Y1, ..., Yn} uma amostra aleatria de uma populao
com mdia . Um estimador natural de a mdia da amostra aleatria:
Y n1
Yi.
(C.1)
i1
Y chamado de mdia amostral, mas, diferentemente do discutido no Apndice A, no qual definimos
a mdia amostral de um conjunto de nmeros como uma estatstica descritiva, Y agora visto como
um estimador. Dado qualquer resultado das variveis aleatrias Y1, ..., Yn, usamos a mesma regra para
estimar : simplesmente calculamos suas mdias. Para resultados de dados efetivos {y1, ..., yn}, a esti
mativa ser simplesmente a mdia da amostra: Y (y1 y2 ... yn)/n.
EXEMPLO C.1
(Taxas de Desemprego nas Cidades)
Suponha que obtemos a seguinte amostra de taxas de desemprego de dez cidades nos Estados Unidos:
Cidade
Taxa de Desemprego
5,1
6,4
9,2
4,1
7,5
8,3
2,6
3,5
5,8
10
7,5
Nossa estimativa da taxa mdia de desemprego nas cidades dos Estados Unidos ser
y 6,0. Cada amostra geralmente resulta em uma estimativa diferente. Porm, a regra para obter a estimativa a mesma, independente de quais ou quantas cidades aparecem na amostra.
De forma mais geral, um estimador W de um parmetro pode ser expresso como uma frmula
matemtica resumida:
W h(Y1,Y2, ..., Yn),
(C.2)
58
para alguma funo h conhecida das variveis aleatrias Y1, Y2, ..., Yn. Como no caso especial da mdia
amostral, W uma varivel aleatria, porque ela depende da amostra aleatria: se obtivermos diferentes amostras aleatrias da populao, o valor de W pode mudar. Quando um conjunto particular de
nmeros, digamos {y1, y2, ..., yn}, agregado na funo h, obtemos uma estimativa de , representada
por w h(y1, y2, ..., yn). Algumas vezes W chamado de estimador por ponto e w de estimativa por
ponto, para distingui-los dos estimadores por intervalo e das estimativas por intervalo, aos quais retornaremos na seo C.5.
Para avaliar os procedimentos de estimao, estudamos vrias propriedades da distribuio de
probabilidade da varivel aleatria W. A distribuio de um estimador muitas vezes chamada de sua
distribuio amostral, pois essa distribuio descreve a probabilidade de vrios resultados de W entre
diferentes amostras aleatrias. Como h um nmero ilimitado de regras para combinar dados para estimar parmetros, precisamos de algum critrio lgico para fazer a escolha entre os estimadores, ou pelo
menos para eliminar a considerao de alguns estimadores. Portanto, devemos abandonar o mbito da
estatstica descritiva, na qual calculamos coisas como mdia amostral para simplesmente resumir um
acervo de dados. Na estatstica matemtica, estudamos as distribuies amostrais dos estimadores.
Inexistncia de Vis
Em princpio, a totalidade da distribuio amostral de W pode ser obtida, dada a distribuio de probabilidade de Yi e a funo h. Em geral, mais fcil enfatizar algumas poucas caractersticas da
distribuio de W ao o avaliarmos como um estimador de . A primeira propriedade importante de
um estimador envolve seu valor esperado.
ESTIMADOR NO-VIESADO
Um estimador W de ser no-viesado se
E(W) ,
(C.3)
(C.4)
Wooldridge
Apndice C
59
A Figura C.1 mostra dois estimadores; o primeiro no tem vis, e o segundo tem um vis positivo.
Figura C.1
Um estimador sem vis, W1, e um estimador com vis positivo, W2.
f (w)
fdp de W2
fdp de W1
E(W1)
E(W2)
A inexistncia de vis em um estimador e o tamanho de qualquer possvel vis dependem da distribuio de Y e da funo h. A distribuio de Y geralmente est fora de nosso controle (embora freqentemente escolhamos um modelo para essa distribuio): ela pode ser determinada pela natureza ou
por foras sociais. Entretanto, a escolha da regra h nossa, e se quisermos um estimador no-viesado,
ento, precisaremos escolher h de maneira apropriada.
possvel mostrar que alguns estimadores podem ser no-viesados de forma bastante genrica.
Mostraremos agora que a mdia amostral Y um estimador no-viesado da mdia populacional ,
independente da distribuio populacional subjacente. Usamos as propriedades dos valores esperados
(E.1 e E.2) das quais tratamos na seo B.3:
E( Y) E (1/n)
i1
i1
i1
m (1/n)(n) .
(1/n)
i1
Para os testes de hipteses, precisaremos estimar a varincia 2 de uma populao com mdia .
Definindo {Y1, ..., Yn} como a amostra aleatria da populao com E(Y) e Var(Y) 2, definimos
o estimador como
60
S2
n
1
(Y Y)2,
n 1 i1 i
(C.5)
que normalmente chamado de varincia amostral. possvel mostrar que S2 um estimador noviesado de 2: E(S2) 2. A diviso por n 1, em lugar de n, leva em conta o fato de que a mdia
n
Var(Y) Var (1/n)
(1/n )
2
i1
i1
i1
i1
(C.6)
Wooldridge
Apndice C
61
Figura C.2
Distribuies amostrais de dois estimadores no-viesados de .
f(w)
fdp de W 1
fdp de W 2
Observe como usamos as propriedades da varincia das Sees B.3 e B.4 (VAR.2 e VAR.4), assim
como a independncia dos Yi. Para resumir: se {Yi: i 1, 2, ..., n) for uma amostra aleatria de uma
populao com mdia e varincia 2, ento, Y ter a mesma mdia da populao, mas sua varincia
amostral ser igual varincia populacional, 2, dividida pelo tamanho da amostra.
Uma implicao importante de Var(Y) 2/n que ela pode ficar muito prxima de zero aumentando do tamanho da amostra n. Essa uma caracterstica-chave de um estimador razovel, e voltaremos
a ele na Seo C.3.
Como sugerido pela Figura C.2, entre os estimadores no-viesados, preferimos o estimador com
a menor varincia. Isso nos possibilita desconsiderar certos estimadores. Para uma amostra aleatria
com mdia e varincia 2, sabemos que Y ser no-viesado, e Var( Y) 2/n. E quanto ao estimador Y1, que simplesmente a primeira observao extrada? Como Y1 uma extrao aleatria da popu
lao, Var(Y1) 2. Assim, a diferena entre Var(Y1) e Var( Y) poder ser grande mesmo para amostras
de tamanhos pequenos. Se n 10, ento, Var(Y1) ser dez vezes maior que Var( Y) 2/10. Isso nos
oferece uma maneira formal para excluir Y1 como um estimador de .
Para enfatizar esse ponto, a Tabela C.1 contm o resultado de um pequeno estudo simulado.
Usando o programa estatstico Stata, 20 amostras aleatrias de tamanho 10 foram geradas a partir de
uma distribuio normal, com 2 e 2 1; nesse caso, estamos interessados em estimar . Para
cada uma das 20 amostras aleatrias, computamos duas estimativas, y1 e
y; esses valores esto descritos na Tabela C.1. Como pode ser visto na tabela, os valores de y1 so muito mais dispersos que os
de
y: y1 varia de 0,64 a 4,27, enquanto
y varia somente de 1,16 a 2,58. Alm disso, em 16 dos 20
casos,
y est mais prximo de 2 que y1. A mdia de y1 na simulao est em torno de 1,89,
enquanto a de
y de 1,96. O fato de que essas mdias esto prximas de 2 ilustra a inexistncia de vis
62
de ambos os estimadores (e poderamos obter essas mdias mais prximas de 2 se utilizssemos mais
de 20 amostras). Mas a comparao apenas dos resultados mdios entre as extraes aleatrias masca
ra o fato de que a mdia amostral Y muito superior a Y1 como um estimador de .
Tabela C.1
Simulao de Estimadores para uma Distribuio Normal(,1) com 2
Amostra
y1
0,64
1,98
1,06
1,43
4,27
1,65
1,03
1,88
3,16
2,34
2,77
2,58
1,68
1,58
2,98
2,23
2,25
1,96
10
2,04
2,11
11
0,95
2,15
12
1,36
1,93
13
2,62
2,02
14
2,97
2,10
15
1,93
2,18
16
1,14
2,10
17
2,08
1,94
18
1,52
2,21
19
1,33
1,16
20
1,21
1,75
Eficincia
A comparao das varincias de Y e Y1 na subseo anterior um exemplo de um mtodo genrico
para comparar diferentes estimadores no-viesados.
Wooldridge
Apndice C
63
EFICINCIA RELATIVA
Se W1 e W2 forem dois estimadores no-viesados de , W1 ser eficiente com relao a W2 quando
Var(W1) Var(W2) para qualquer , com desigualdade estrita para pelo menos um valor de .
Anteriormente, mostramos que, para estimar a mdia populacional , Var( Y) Var(Y1) para qual
2
quer valor de sempre que n 1. Assim, Y eficiente em relao a Y1 para estimar . No podemos sempre escolher entre os estimadores no-viesados com base no critrio de menor varincia: dados
dois estimadores no-viesados de , um poder ter menor varincia para alguns valores de , enquanto o outro poder ter menor varincia para outros valores de .
Se restringirmos nossa ateno para certa classe de estimadores, poderemos mostrar que a mdia
amostral tem a menor varincia. O Problema C.2 pede que voc mostre que Y tem a menor varincia
entre todos os estimadores no-viesados que tambm sejam funes lineares de Y1, Y2, ..., Yn. As hipteses so que os Yi tm mdia e varincia comuns, e que eles so no-correlacionadas dois a dois.
Se no restringirmos nossa ateno aos estimadores no-viesados, ento, no ter sentido comparar
as varincias. Por exemplo, quando estimamos a mdia populacional , podemos usar um estimador trivial que seja igual a zero, independente da amostra extrada. Naturalmente, a varincia desse estimador
ser zero (j que ser o mesmo valor para qualquer amostra aleatria). Porm, o vis desse estimador ser
, e assim ele ser um estimador muito pobre quando || for grande.
Uma maneira de comparar estimadores que no sejam necessariamente no-viesados calcular
o erro quadrtico mdio (EQM) dos estimadores. Se W for um estimador de , ento, o EQM de
W ser definido como EQM(W) E[(W )2]. O EQM mede o quanto o estimador est distante,
em mdia, de . possvel mostrar que EQM(W) Var(W) [Vis(W)]2, de forma que EQM(W)
depende da varincia e do vis (se algum estiver presente). Isso nos possibilita comparar dois estimadores quando houver vis em um ou ambos.
C.3 PROPRIEDADES ASSIMPTTICAS DOS ESTIMADORES OU PROPRIEDADES DOS ESTIMADORES EM AMOSTRAS GRANDES
Na Seo C.2, encontramos o estimador Y1 da mdia populacional , e vimos que, embora ele fosse noviesado, era um estimador pobre, pois sua varincia poderia ser muito maior que a da mdia amostral. Uma
caracterstica notvel de Y1 que ele tem a mesma varincia para qualquer tamanho de amostra.
Parece razovel exigir que qualquer procedimento de estimao se aprimore conforme o tamanho da
amostra se torne maior. Para estimar uma mdia populacional , Y melhora no sentido de que sua
varincia vai se tornando menor conforme n vai ficando maior; Y1 no melhora nesse sentido.
Podemos excluir certos estimadores absurdos estudando as propriedades assimptticas ou de
amostras grandes dos estimadores. Alm disso, podemos dizer alguma coisa positiva sobre os estimadores que no so no-viesados e cujas varincias no so encontradas com facilidade.
A anlise assimpttica envolve a aproximao das caractersticas da distribuio amostral de
um estimador. Essas aproximaes dependem do tamanho da amostra. Infelizmente, estamos obrigatoriamente limitados quanto ao que podemos dizer com respeito a o quanto uma amostra precisa
ser grande para que uma anlise assimpttica seja apropriada; isso depende da distribuio populacional subjacente. Porm, aproximaes de amostras grandes tm se mostrado funcionar bem para
tamanhos de amostras to pequenas quanto n 20.
Consistncia
A primeira propriedade assimpttica dos estimadores se refere provvel distncia que o estimador
fica do parmetro que ele supostamente estar estimando conforme o tamanho da amostra cresa indefinidamente.
64
CONSISTNCIA
Seja Wn um estimador de com base em uma amostra Y1, Y2, ..., Yn de tamanho n. Ento, Wn ser
um estimador consistente de se, para cada 0,
P(|Wn ) 0 conforme n .
(C.7)
n 40
n 16
n4
Wooldridge
Apndice C
65
(C.8)
A lei dos grandes nmeros significa que, se estivermos interessados em estimar a mdia populacional
, poderemos chegar arbitrariamente prximos de , escolhendo uma amostra suficientemente grande. Esse resultado fundamental pode ser combinado com propriedades bsicas dos limites de probabilidade para mostrar que estimadores razoavelmente complicados so consistentes.
PROPRIEDADE PLIM.1
Seja um parmetro e defina um novo parmetro, g() para alguma funo contnua g().
Suponha que plim(Wn) . Defina um estimador de como Gn g(Wn). Ento,
plim(Gn) .
(C.9)
(C.10)
66
PROPRIEDADE PLIM.2
Se plim(Tn) e plim(Un) , ento,
(i) plim(Tn Un) ;
(ii) plim(TnUn) ;
(iii) plim(Tn/Un) /, desde que 0.
Esses trs fatos sobre os limites de probabilidade nos possibilitam combinar estimadores consistentes
de vrias maneiras para obter outros estimadores consistentes. Por exemplo, seja {Y1, ..., Yn} uma
amostra aleatria de tamanho n dos rendimentos anuais da populao de trabalhadores com ensino
mdio completo e seja a mdia populacional dada por Y. Seja {Z1, ..., Zn} uma amostra aleatria dos
rendimentos anuais da populao de trabalhadores com curso superior completo e seja a mdia populacional dada por Z. Queremos estimar a diferena porcentual dos rendimentos anuais entre os dois
grupos, que ser 100 (Z Y)/Y. (Essa ser a porcentagem pela qual os rendimentos mdios
daqueles com curso superior diferiro dos rendimentos mdios daqueles com ensino mdio). Como Yn
consistente para Y, e Zn consistente para Z, decorre de PLIM.1 e da parte (iii) de PLIM.2 que
Gn 100( Zn Yn)/ Yn
um estimador consistente de Gn simplesmente a diferena percentual entre Zn e Yn na amostra,
de modo que ele um estimador natural. Gn no um estimador no-viesado de , mas ainda assim
um bom estimador, a menos que n seja pequeno.
Normalidade Assimpttica
Consistncia uma propriedade dos estimadores por ponto. Embora ela nos informe que a distribuio do estimador est se concentrando em torno do parmetro conforme o tamanho da amostra vai
ficando maior, ela nada nos diz sobre a forma daquela distribuio para uma amostra de determinado
tamanho. Para construir estimadores por intervalo e para testar hipteses, precisamos de uma maneira de aproximar a distribuio de nossos estimadores. A maioria dos estimadores economtricos possui distribuies que so bem aproximadas por uma distribuio normal para amostras grandes, o que
motiva a seguinte definio.
Wooldridge
Apndice C
67
NORMALIDADE ASSIMPTTICA
Seja {Zn: n 1, 2, ...} uma seqncia de variveis aleatrias, de forma que para todos os nmeros z,
P(Zn z) (z) conforme n
,
(C.11)
onde (z) a funo de distribuio cumulativa normal padro. Ento, diz-se que Zn tem um distribuio normal padro assimpttica. Nesse caso, freqentemente escrevemos Zn a Normal(0,1). (O a
acima do til significa assimptoticamente ou aproximadamente).
A Propriedade (C.11) significa que a funo de distribuio cumulativa de Zn se aproxima cada
vez mais da fdc da distribuio normal padro conforme o tamanho n da amostra vai ficando maior.
Quando a normalidade assimpttica vlida, teremos, para n grande, a aproximao P(Zn z)
(z). Dessa forma, as probabilidades concernentes a Zn podero ser aproximadas pelas probabilidades
normais padres.
O teorema do limite central (TLC) um dos resultados mais poderosos em probabilidade e estatstica. Ele afirma que a mdia de uma amostra aleatria de qualquer populao (com varincia finita),
quando padronizada, tem uma distribuio normal padro assimpttica.
TEOREMA DO LIMITE CENTRAL
Seja {Y1, Y2, ..., Yn} uma amostra aleatria com mdia e varincia 2. Ento,
Zn
Yn m
s/n
(C.12)
68
Alm da mdia amostral padronizada em (C.12), muitas outras estatsticas que dependem de
mdias amostrais acabam sendo assimptoticamente normais. Uma estattica importante obtida pela
substituio de por seu estimador consistente Sn na equao (C.12):
Yn m
Sn /n
(C.13)
tambm tem uma distribuio normal padro aproximada para n grande. As distribuies exatas (amostra finita) de (C.12) e (C.13) no so, definitivamente, as mesmas, mas a diferena ser com freqncia pequena o suficiente para ser ignorada para n grande.
Em toda esta seo, cada estimador tem tido um subscrito n para enfatizar a natureza da anlise
assimpttica ou de amostra grande. A continuao dessa conveno confundir a notao sem fornecer informaes adicionais, uma vez que os fundamentos da anlise assimpttica tenham sido compreendidos. De agora em diante, eliminaremos o subscrito n e confiaremos que voc se lembrar que
os estimadores dependem do tamanho da amostra, e que propriedades como consistncia e normalidade assimpttica referem-se ao crescimento do tamanho da amostra sem limites.
Wooldridge
Apndice C
69
X e Y definida como XY E[(X X)(Y Y)]. O mtodo dos momentos sugere estimar XY por
n
n1 (Xi X )(Yi Y ). Este ser um estimador consistente de XY, mas ele ser viesado essencial-
i1
mente pela mesma razo que a varincia amostral ser viesada se n, em lugar de n 1, for usado como
divisor. A covarincia amostral definida como
SXY
n
1
(X X)(Yi Y ).
n 1 i1 i
(C.14)
S
RXY XY
SX SY
(X X)(Y Y)
i
i1
n
i1
(Xi X)2
1/2
(Yi Y)2
i1
1/2
(C.15)
Mxima Verossimilhana
Outro mtodo geral de estimao o da mxima verossimilhana, um assunto tratado em muitos cursos introdutrios de estatstica. Um breve resumo do caso mais simples ser suficiente aqui. Seja
{Y1, Y2, ..., Yn} uma amostra aleatria da distribuio populacional f(y;). Devido hiptese de
amostragem aleatria, a distribuio conjunta de {Y1, Y2, ..., Yn} ser simplesmente o produto das
densidades: f(y1;)f(y2;) f(yn;). No caso discreto, isso ser P(Y1 y1, Y2 y2, ..., Yn yn).
Agora, defina a funo de verossimilhana como
V(;Y1, ...,Yn) f(Y1;)f(Y2;) f(Yn;),
que ser uma varivel aleatria, pois ela depende do resultado da amostra aleatria {Y1, Y2, ..., Yn}. O
estimador de mxima verossimilhana de , vamos cham-lo de W, ser o valor de que maximiza
70
a funo de verossimilhana. (Esse o motivo pelo qual escrevemos V como uma funo de , seguido
da amostra aleatria). Claramente, esse valor depende da amostra aleatria. O princpio da mxima
verossimilhana diz que, de todos os valores possveis de , o valor que torna a verossimilhana do
dado observado a maior deve ser escolhido. Intuitivamente, esse um mtodo razovel de estimar .
Geralmente, mais conveniente trabalhar com a funo log-verossimilhana, que obtida tomando-se o log natural da funo de verossimilhana:
log[V(; Y1, , Yn)]
(C.16)
i1
quando usamos o fato de que o log do produto a soma dos logs. Como (C.16) a soma de variveis
aleatrias independentes e identicamente distribudas, analisar os estimadores que decorrem de (C.16)
relativamente fcil.
A estimao da mxima verossimilhana (EMV) em geral consistente e algumas vezes no-viesada. Mas tambm o so muitos outros estimadores. A atrao da EMV que ela geralmente fornece
o estimador mais assimptoticamente eficiente quando o modelo populacional f(y;) corretamente
especificado. Alm disso, a EMV algumas vezes o estimador no-viesado de varincia mnima;
isto , ela tem a menor varincia entre os estimadores no-viesados de . [Veja Larsen e Marx (1986,
Captulo 5) para verificar essas afirmaes.]
No Captulo 17, precisaremos da mxima verossimilhana para estimar os parmetros de modelos
economtricos mais avanados. Em econometria, estamos quase sempre interessados na distribuio
de Y condicional a um conjunto de variveis explicativas, digamos X1, X2, ..., Xk. Depois, substitumos a densidade em (C.16) por f(Y1 | Xi1, ..., Xik ; 1, ..., p), onde permitida a essa densidade depender de p parmetros, 1, ..., p. Felizmente, para aplicaes bem-sucedidas de mtodos de mxima
verossimilhana, no precisamos nos aprofundar muito nos problemas computacionais ou na teoria
estatstica de amostras grandes. Wooldridge (2002, Captulo 13) trata da teoria da estimao por mxima verossimilhana.
Mnimos Quadrados
Um terceiro tipo de estimador, e um que tem um papel importante ao longo de todo este livro, chamado de estimador de mnimos quadrados. J vimos um exemplo de mnimos quadrados: a mdia
amostral Y um estimador de mnimos quadrados da mdia populacional, . J sabemos que Y um
estimador pelo mtodo dos momentos. O que o torna um estimador de mnimos quadrados? possvel mostrar que o valor de m que torna a soma dos desvios quadrados
n
(Yi m)2
i1
to pequena quanto possvel m Y. Demonstrar isso no difcil, mas omitiremos a lgebra.
Para algumas distribuies importantes, inclusive a normal e a de Bernoulli, a mdia amostral Y
tambm o estimador de mxima verossimilhana da mdia populacional . Assim, os princpios dos
mnimos quadrados, do mtodo dos momentos e da mxima verossimilhana muitas vezes resultam no
mesmo estimador. Em outros casos, os estimadores so semelhantes, mas no idnticos.
Wooldridge
Apndice C
71
P 1,96
Y
1/n
1,96 0,95.
O evento entre parnteses idntico ao evento Y 1,96/n Y 1,96/n, e, portanto,
P(Y 1,96/n Y 1,96/n) 0,95.
(C.17)
A equao (C.17) interessante por nos informar que a probabilidade de o intervalo aleatrio
[ Y 1,96/n, Y 1,96/n] conter a mdia populacional de 0,95, ou 95%. Essa informao nos
permite construir uma estimativa por intervalo de , que obtida pela agregao do resultado amostral da mdia, y. Assim,
[
y 1,96/n,
y 1,96/n]
(C.18)
um exemplo de uma estimativa por intervalo de . Ela tambm chamada de intervalo de confiana
de 95%. Uma notao abreviada desse intervalo y
1,96/n.
72
fcil calcular o intervalo de confiana na equao (C.18), logo que os dados da amostra {y1, y2,
..., yn} sejam observados;
y o nico fator que depende dos dados. Por exemplo, suponha que n 16
e que a mdia dos 16 pontos de dados seja 7,3. Ento, o intervalo de confiana de 95% de ser 7,3
1,96/16 7,3
0,49, que podemos escrever na forma de intervalo como [6,81; 7,79]. Por construo,
y 7,3 est no centro desse intervalo.
Ao contrrio de seu clculo, o significado de um intervalo de confiana mais difcil de entender.
Quando dizemos que a equao (C.18) um intervalo de confiana de 95% de , queremos dizer que
o intervalo aleatrio
[ Y 1,96/n, Y 1,96/n]
(C.19)
contm com uma probabilidade de 0,95. Em outras palavras, antes de extrair a amostra aleatria,
existe 95% de possibilidade de que (C.19) contenha . A equao (C.19) um exemplo de um estimador por intervalo. Ele um intervalo aleatrio, pois as extremidades mudam com diferentes amostras.
Um intervalo de confiana muitas vezes interpretado da seguinte maneira: a probabilidade de
que esteja no intervalo (C.18) de 95%. Isso incorreto. Uma vez que a amostra tenha sido observada e y tenha sido calculado, os limites do intervalo de confiana sero simplesmente nmeros (6,81
e 7,79 no exemplo dado). O parmetro populacional, , embora desconhecido, tambm ser apenas
algum nmero. Portanto, estar ou no no intervalo (C.18) (e nunca saberemos com certeza se isso
verdadeiro). A probabilidade no desempenha papel algum, uma vez que o intervalo de confiana
tenha sido calculado para os dados disponveis. A interpretao probabilstica advm do fato de que,
para 95% de todas as amostras aleatrias, o intervalo de confiana construdo contm .
Para destacar o significado de um intervalo de confiana, a Tabela C.2 contm clculos para 20
amostras aleatrias da distribuio Normal(2,1) com amostras de tamanho n 10. Para cada uma das
y obtido, e (C.18) calculado como
y
1,96/10
y
0,62 (cada qual arredonda20 amostras,
do para duas casas decimais). Como possvel ver, o intervalo muda com cada amostra aleatria.
Dezenove dos 20 intervalos contm o valor populacional de . Somente na amostra nmero 19 no
est no intervalo de confiana. Em outras palavras, 95% das amostras resultam em um intervalo de confiana que contm . Nem sempre esse o caso com somente 20 amostras, mas funcionou dessa
maneira nessa simulao em particular.
Tabela C.2
Intervalos de Confiana Simulados para uma Distribuio Normal(,1) com 2
Amostra
Intervalo de 95%
Contm ?
1,98
(1,36;2,60)
Sim
1,43
(0,81;2,05)
Sim
1,65
(1,03;2,27)
Sim
1,88
(1,26;2,50)
Sim
2,34
(1,72;2,96)
Sim
2,58
(1,96;3,20)
Sim
(Continua...)
Wooldridge
Apndice C
73
Amostra
Intervalo de 95%
Contm ?
1,58
(0,96;2;20)
Sim
2,23
(1,61;2,85)
Sim
1,96
(1,34;2,58)
Sim
10
2,11
(1,49;2,73)
Sim
11
2,15
(1,53;2,77)
Sim
12
1,93
(1,31;2,55)
Sim
13
2,02
(1,40;2,64)
Sim
14
2,10
(1,48;2,72)
Sim
15
2,18
(1,56;2,80)
Sim
16
2,10
(1,48;2,72)
Sim
17
1,94
(1,32;2,56)
Sim
18
2,21
(1,59;2,83)
Sim
19
1,16
(0,54;1,78)
No
20
1,75
(1,13;2,37)
Sim
(C.20)
Portanto, desde que seja conhecido, um intervalo de confiana para ser prontamente construdo. Para possibilitar o uso de desconhecido, precisaremos usar uma estimativa. Seja
s
n
1
(y y)2
n 1 i1 i
1/2
(C.21)
o desvio-padro amostral. Ento, obtemos um intervalo de confiana, que depender inteiramente dos
dados observados, pela substituio de na equao (C.20) por sua estimativa, s. Infelizmente, isso
74
tn1,
(C.22)
onde
Y a mdia amostral e S o desvio-padro amostral da amostra aleatria {Y1, ..., Yn}. No provaremos (C.22); uma prova cuidadosa pode ser encontrada em diversos lugares [por exemplo, Larsen
e Marx (1988, Captulo 7)].
Para construir um intervalo de confiana, seja c o 97,5o percentil na distribuio tn1. Em outras
palavras, c o valor tal que 95% da rea em tn1 estar entre c e c: P(c tn1 c) 0,95. (O
valor de c depende dos graus de liberdade n 1, mas no tornamos isso explcito.) A escolha da c est
ilustrada na Figura C.4. Uma vez c tenha sido escolhido de maneira apropriada, o intervalo aleatrio
[
Y cS/n,
Y cS/n] conter com probabilidade 0,95. Para uma determinada amostra, o
intervalo de confiana de 95% ser calculado como
[ y cs/n, y cs/n].
(C.23)
Figura C.4
O 97,5o percentil, c, em uma distribuio t.
rea 0,95
rea 0,25
rea 0,25
C
Wooldridge
Apndice C
75
Os valores de c para vrios graus de liberdade podem ser obtidos da Tabela G.2 no Apndice G.
Por exemplo, se n 20, de forma que gl seja n 1 19, ento, c 2,093. Assim, o intervalo de confiana de 95% ser [y
2,093(s/20)], onde y e s so os valores obtidos da amostra. Mesmo se s
(o que ser muito pouco provvel), o intervalo de confiana em (C.23) ser mais amplo que o de (C.20),
pois c 1,96. Para poucos graus de liberdade, (C.23) ser muito mais amplo.
De forma mais geral, seja c o percentil 100(1 ) na distribuio tn1. Ento, um intervalo de
confiana de 100(1 )% ser obtido como
[ y c/2s/n, y c/2s/n].
(C.24)
A obteno de c/2 exige que se escolha e o conhecimento dos graus de liberdade n 1; depois, a
tabela G.2 poder ser usada. Na maior parte do tempo, nos concentraremos em intervalos de confiana
de 95%.
Existe uma maneira simples de se lembrar como construir um intervalo de confiana para a mdia de
uma distribuio normal. Recorde que dp(
Y ) /n. Assim, s/n a estimativa por ponto de dp(
Y ).
A varivel aleatria associada, S/n, algumas vezes chamada de erro-padro de
Y. Como o que aparece nas frmulas a estimativa por ponto s/n, definimos o erro-padro de y como ep(y ) s/n. Ento,
(C.24) pode ser escrita abreviadamente como
[ y
c/2 ep( y )].
(C.25)
Essa equao mostra porque a noo do erro-padro de uma estimativa desempenha um papel importante em econometria.
EXEMPLO C.2
(Efeitos dos Subsdios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)
Holzer, Block, Cheatham e Knott (1993) estudaram os efeitos dos subsdios de treinamento de pessoal sobre
a produtividade dos trabalhadores, coletando informaes sobre taxas de rejeio de uma amostra de
empresas industriais de Michigan que haviam recebido subsdios de treinamento de pessoal em 1988. A
Tabela C.3 relaciona as taxas de rejeio medidas como o nmero de itens, de cada 100 produzidos, que
no estavam em condies de uso e, portanto, seriam rejeitados para 20 empresas. Cada uma dessas
empresas recebeu subsdios de treinamento de pessoal em 1988; no houve subsdios em 1987. Estamos
interessados em construir um intervalo de confiana para a mudana na taxa de rejeio de 1987 para 1988,
para a populao de todas as empresas industriais que poderiam ter recebido subsdios.
Assumimos que a mudana nas taxas de rejeio tem uma distribuio normal. Como n 20, um
intervalo de confiana de 95% da mudana mdia nas taxas de rejeio ser [y
2,093ep(y )], onde
ep(y ) s/n. O valor 2,093 o 97,5o percentil em uma distribuio t19. Para os valores amostrais especficos, y 1,15 e ep(y ) 0,54 (arredondados para duas casas decimais), e, assim, o intervalo de confiana de 95% ser [2,28,0,02]. O valor zero foi excludo desse intervalo, de modo que conclumos que, com
confiana de 95%, a mudana mdia nas taxas de rejeio na populao no ser zero.
76
Empresa
1987
1988
Alterao
10
7
1
0,45
0,5
0,05
1,25
1,54
0,29
1,3
1,5
0,2
1,06
0,8
0,26
1
8,18
0,67
7,51
10
1,67
1,17
0,5
11
0,98
0,51
0,47
12
0,5
0,5
13
0,45
0,61
0,16
14
5,03
6,7
1,67
15
4
16
2
17
18
19
18
0,28
0,2
0,08
19
2
20
3,97
3,83
0,14
Mdia
4,38
3,23
1,15
Neste ponto, o Exemplo C.2 bastante ilustrativo, pois ele tem algumas imperfeies potencialmente srias como uma anlise economtrica. De forma mais importante, ele assume que qualquer
reduo sistemtica nas taxas de rejeio deve-se aos subsdios de treinamento de pessoal. Entretanto,
muita coisa pode acontecer no decurso do ano para alterar a produtividade dos trabalhadores. A partir
dessa anlise, no temos meios de saber se a queda na mdia das taxas de rejeio atribuvel aos subsdios de treinamento ou se, pelo menos parcialmente, outra causa externa foi a responsvel.
Wooldridge
Apndice C
77
(C.26)
Em outras palavras, obtemos y e seu erro-padro e depois calculamos y mais e menos duas vezes
seu erro-padro para obter o intervalo de confiana. Isso um pouco amplo demais para n muito grande,
e estreito demais para n pequeno. Como podemos ver pelo exemplo C.2, mesmo para um n to pequeno
como 20, (C.26) est muito prximo do intervalo de confiana de 95% da mdia de uma distribuio
normal. Isso significa que podemos chegar muito prximos de um intervalo de confiana de 95% sem
termos de recorrer s tabelas t.
da distribuio da mdia amostral Y. Para n grande, um intervalo de confiana de 95% aproximado ser
[ y
1,96 ep( y )],
(C.27)
onde o valor 1,96 o 97,5o percentil na distribuio normal padro. Mecanicamente, calcular um intervalo de confiana aproximado no difere do caso normal. Uma pequena diferena o fato de o nmero
que multiplica o erro padro vir da distribuio normal padro, em vez da distribuio t, pois estamos
usando um tratamento assimpttico. Como a distribuio t se aproxima da normal padro medida que
os gl aumentam, a equao (C.25) tambm perfeitamente legtima como um intervalo aproximado de
95%; alguns preferem essa equao a (C.27), pois a primeira exata para populaes normais.
EXEMPLO C.3
(Discriminao Racial na Contratao de Trabalhadores)
O Urban Institute conduziu um estudo em 1988, em Washington, D.C., para examinar a extenso da discriminao racial na contratao de trabalhadores. Cinco duplas de pessoas foram entrevistadas para vrias ofertas de
emprego. Em cada dupla, uma pessoa era negra, e a outra branca. Todos portavam currculos indicando que
tinham virtualmente os mesmos graus de experincia, educao e outros fatores que determinavam a qualificao para os cargos. A idia era tornar os indivduos to semelhantes quanto possvel, com exceo da raa. Cada
pessoa da mesma dupla se candidatou ao mesmo emprego, e os pesquisadores registraram quem recebeu uma
oferta de emprego. Esse um exemplo de uma anlise de pares comparados, na qual cada observao consiste
78
de dados sobre duas pessoas (ou duas empresas, duas cidades etc.) que so tidas como semelhantes em muitos
aspectos, mas diferentes em uma caracterstica importante.
Seja N a probabilidade de que a pessoa negra receba uma oferta de emprego e B seja a probabilidade de que a pessoa branca receba a oferta. Estamos basicamente interessados na diferena N B.
Seja Ni uma varivel de Bernoulli igual a um se a pessoa negra conseguir uma oferta de emprego do
empregador i, e zero, caso contrrio. Semelhantemente, Bi 1 se a pessoa branca conseguir uma oferta
de emprego do empregador i, e zero, caso contrrio. Agrupando as cinco duplas de pessoas, houve um
total de n 241 observaes (pares de entrevistas com os candidatos). Estimadores no-viesados de N
e B so N e B, as fraes de entrevistas para as quais foram oferecidas propostas de emprego aos negros
e brancos, respectivamente.
Para colocar tudo isso em uma estrutura para calcular um intervalo de confiana de uma mdia populacional, defina uma nova varivel Yi Ni Bi. Agora, Yi pode assumir trs valores: 1 se a pessoa negra
no recebeu a proposta de emprego, mas a pessoa branca recebeu, 0 se ambas as pessoas conseguiram ou
no o emprego, e 1 se a pessoa negra conseguiu o emprego e a pessoa branca no. Ento, E(Yi)
E(Ni) E(Bi) N B.
A distribuio de Yi certamente no normal ela discreta e assume somente trs valores. No entanto, um intervalo de confiana aproximado de N B pode ser obtido usando mtodos de amostras grandes.
Wooldridge
Apndice C
79
(C.28)
Esse um exemplo de uma hiptese nula. Sempre representamos a hiptese nula por H0. Nos testes
de hipteses, a hiptese nula tem papel semelhante ao de um ru em julgamento em muitos sistemas
judiciais: da mesma forma que se presume que um ru inocente at que sua culpa seja provada, a
hiptese nula presumida como verdadeira at que os dados sugiram fortemente o contrrio. No exemplo em questo, o Candidato A dever apresentar evidncias bastante fortes contra (C.28) para ter direito
a uma recontagem dos votos.
A hiptese alternativa no exemplo da eleio que a proporo verdadeira dos votantes no
Candidato A na eleio seja maior que 0,42:
H1: 0,42.
(C.29)
Para concluir que H0 falsa, e H1 verdadeira, precisamos ter evidncia alm da dvida razovel contra H0. Quantos votos dos 100 seriam necessrios para sentir que a evidncia seria fortemente contra H0?
A maioria das pessoas concordaria que a observao de 43 votos em uma amostra de 100 eleitores no
seria suficiente para reverter os resultados originais da eleio; tal resultado est bem dentro da variao amostral esperada. Por outro lado, no precisaremos observar 100 votos para o Candidato A para
lanarmos dvidas sobre H0. Se 53 em 100 um nmero suficiente para rejeitar H0, isso muito menos
claro. A resposta depender de como quantificamos a expresso alm da dvida razovel.
Nos testes de hipteses, podemos cometer dois tipos de enganos. Primeiro, podemos rejeitar a hiptese nula quando na verdade ela verdadeira. Esse o chamado erro tipo I. No exemplo das eleies,
um erro tipo I ocorrer se rejeitarmos H0 quando a proporo verdadeira das pessoas que votaram no
Candidato A for de fato 0,42. O segundo tipo de erro a impossibilidade de rejeitar H0 quando ela for
efetivamente falsa. Esse o chamado erro tipo II. No exemplo das eleies, um erro tipo II ocorrer se
0,42, mas no pudermos rejeitar H0.
80
Aps termos tomado a deciso de rejeitar ou no a hiptese nula, ou nossa deciso foi correta ou
cometemos um erro. Nunca saberemos com certeza se um erro foi cometido. Porm, podemos calcular a probabilidade de cometer um erro tipo I ou um erro tipo II. As regras dos testes de hipteses so
construdas para fazer com que a probabilidade de cometer um erro tipo I seja muito pequena. De
forma geral, definimos o nvel de significncia (ou simplesmente o nvel) de um teste como a probabilidade de um erro tipo I; isso geralmente representado por . Simbolicamente, temos
P(Rejeitar H0 |H0).
(C.30)
O lado direito da equao lido como: A probabilidade de rejeitar H0 supondo que H0 seja verdadeira.
Os testes clssicos de hipteses exigem que inicialmente especifiquemos um nvel de significncia do teste. Quando especificamos um valor de , estamos essencialmente quantificando nossa
tolerncia para um erro tipo I. Valores comuns de so 0,10, 0,05, e 0,01. Se 0,05, o pesquisador estar querendo falsamente rejeitar H0 em 5% das vezes, de maneira a detectar desvios em relao a H0.
Uma vez determinado o nvel de significncia, ento, gostaramos de minimizar a probabilidade
de um erro tipo II. Alternativamente, gostaramos de maximizar o poder de um teste contra todas as
alternativas relevantes. O poder de um teste simplesmente um menos a probabilidade de um erro tipo
II. Matematicamente,
() P(Rejeitar H0 |) 1 P(Tipo II|),
onde representa o valor efetivo do parmetro. Naturalmente, gostaramos que o poder seja igual unidade sempre que a hiptese nula for falsa. Mas isso impossvel de ser atingido mantendo pequeno o
nvel de significncia. Em vez disso, preferimos que nosso teste maximize o poder para determinado nvel
de significncia.
Wooldridge
Apndice C
H0: 0,
81
(C.31)
onde 0 um valor que especificamos. Na maioria das aplicaes, 0 0, mas o caso generalizado
no mais difcil do que isso.
A regra de rejeio que escolheremos depender da natureza da hiptese alternativa. As trs alternativas de interesse so
H1: 0,
(C.32)
H1: 0,
(C.33)
H1: 0.
(C.34)
A equao (C.32) produz uma alternativa unilateral, como tambm (C.33). Quando a hiptese alternativa for (C.32), a hiptese nula ser efetivamente H0: 0, j que somente rejeitaremos H0 quando
0. Isso ser apropriado quando estivermos interessados no valor de somente quando for pelo
menos to grande quanto 0. A equao (C.34) uma alternativa bilateral. Ela ser apropriada quando
estivermos interessados em qualquer desvio da hiptese nula.
Considere primeiro a alternativa (C.32). Intuitivamente, deveramos rejeitar H0 em favor de H1
quando o valor da mdia amostral, y, fosse suficientemente maior que 0. Mas como devemos determinar quando y grande o suficiente para que H0 seja rejeitada ao nvel de significncia escolhido? Isso
requer que se conhea a probabilidade de rejeitar a hiptese nula quando ela for verdadeira. Em vez de
trabalhar diretamente com y, usamos sua verso padronizada, na qual substitudo pelo desviopadro amostral, s:
t n(y 0)/s (y 0)/ep( y),
(C.35)
onde ep( y) s/n o erro-padro de y. Dada a amostra de dados, fcil obter t. A razo pela qual
trabalhamos com t que, de acordo com a hiptese nula, a varivel aleatria
T n(
Y 0)/S
tem uma distribuio tn1. Agora, suponha que tenhamos nos fixado em um nvel de significncia de
5%. Ento, o valor crtico c ser determinado de forma que P(T c|H0) 0,05; ou seja, a probabilidade de um erro tipo I de 5%. Uma vez encontrado c, a regra de rejeio ser
t c,
(C.36)
82
onde c o percentil 100(1 ) em uma distribuio tn1; em forma de porcentagem, o nvel de significncia 100 %. Esse um exemplo de um teste monocaudal, pois a regio de rejeio est em
uma extremidade da distribuio t. Para um nvel de significncia de 5%, c ser o 95o percentil na distribuio tn1; isso est ilustrado na Figura C.5. Um nvel diferente de significncia leva a um valor
crtico diferente.
A estatstica na equao (C.35) muitas vezes chamada de estatstica t para testar H0: 0.
A estatstica t mede a distncia de y a 0 em relao ao erro-padro de y, ep( y).
EXEMPLO C.4
(Efeito das Zonas Industriais sobre os Investimentos Empresariais)
Na populao de cidades onde foram criadas zonas industriais em determinado estado [veja o caso de Indiana
em Papke (1994)], seja Y a mudana percentual nos investimentos do ano anterior ao ano posterior em que
uma cidade se tornou uma zona industrial. Assuma que Y tem uma distribuio Normal(,2). A hiptese nula
de que zonas industriais no tm efeito nos investimentos H0: 0; a alternativa de que elas tm um efeito positivo H1: 0. (Assumimos que elas no tm um efeito negativo). Suponha que queremos testar H0
ao nvel de 5%. O teste estatstico nesse caso ser
t
y
s/n
y
.
ep(y)
(C.37)
Figura C.5
Regio de rejeio para um teste ao nvel de significncia de 5% contra a alternativa unilateral 0.
rea 0,95
rea 0,05
0
C
rejeio
Wooldridge
Apndice C
83
Suponha que temos uma amostra de 36 cidades onde foram criadas zonas industriais. Nesse caso, o valor crtico ser c 1,69 (veja Tabela G.2), e rejeitamos H0 em favor de H1 se t 1,69. Suponha que a amostra produza y 8,2 e s 23,9. Ento, t 2,06 e H0 ser, portanto, rejeitada ao nvel de 5%. Assim, conclumos
que, ao nvel de significncia de 5%, as zonas industriais tm um efeito sobre o investimento mdio. O valor
crtico de 1% ser 2,44, e, portanto, H0 no ser rejeitada ao nvel de 1%. A mesma limitao do Exemplo C.2
vlida neste caso: no controlamos os outros fatores que possam afetar o investimento nas cidades ao longo
do tempo, e, portanto, no podemos afirmar que o efeito seja causal.
A regra de rejeio semelhante para a alternativa unilateral (C.33). Um teste com nvel de significncia 100% rejeitar H0 contra (C.33) sempre que
t c;
(C.38)
em outras palavras, estamos procurando por valores negativos da estatstica t o que implica que
y que estejam suficientemente distantes de zero para rejeitar H .
0
0
Para alternativas bilaterais, devemos ter cuidado na escolha do valor crtico, de forma que o nvel
de significncia do teste ainda seja . Se H1 for dada por H1: 0, ento, rejeitaremos H0 se y estiver distante da 0 em valor absoluto: um y muito maior ou muito menor que 0 fornece evidncia contra H0 em favor de H1. Um nvel 100 % para o teste obtido pela regra de rejeio
|t| c,
(C.39)
onde | t | o valor absoluto da estatstica t em (C.35). Isso produz um teste bicaudal. Agora precisamos ser cuidadosos na escolha do valor crtico: c o 100(1 /2) percentil na distribuio tn1.
Por exemplo, se 0,05, ento, o valor crtico ser o 97,5o percentil na distribuio tn1. Isso
garante que H0 ser rejeitada em somente 5% das vezes quando ela for verdadeira (veja a Figura
C.6). Por exemplo, se n 22, ento, o valor crtico c ser 2,08, o 97,5o percentil em uma distribuio t21 (veja a Tabela G.2). O valor absoluto da estatstica t deve exceder 2,08 para rejeitar H0 contra H1 ao nvel de 5%.
importante conhecer a linguagem apropriada dos testes de hipteses. Algumas vezes, a frase
apropriada no podemos rejeitar H0 em favor de H1 ao nvel de significncia de 5% substituda por
aceitamos H0 ao nvel de significncia de 5%. A ltima construo incorreta. Com o mesmo conjunto de dados, geralmente existem muitas hipteses que no podem ser rejeitadas. No exemplo anterior das eleies, seria logicamente inconsistente dizer que H0: 0,42 e H0: 0,43 so ambas
aceitas, pois somente uma delas pode ser verdadeira. Entretanto, completamente possvel que
nenhuma dessas hipteses seja rejeitada. Por essa razo, sempre dizemos no ser possvel rejeitar H0
em vez de aceitar H0.
84
Figura C.6
Regio de rejeio para um teste ao nvel de significncia de 5% contra a alternativa bilateral H1: 0.
rea 0,95
rea 0,025
rea 0,025
0
regio de
rejeio C
regio de
rejeio
Wooldridge
Apndice C
85
de significncia efetivo estar muito prximo de 5%. De modo prtico, a distino no importante, e,
portanto, no mais usaremos a qualificao assimpttico.
EXEMPLO C.5
(Discriminao Racial na Contratao de Trabalhadores)
No estudo do Urban Institute sobre a discriminao racial na contratao de trabalhadores (veja o exemplo
C.3), estamos essencialmente interessados em testar H0: 0 contra H1: 0, onde N B a
diferena em probabilidades de que negros e brancos recebam ofertas de emprego. Recorde que a mdia
populacional da varivel Y N B, onde N e B so indicadores binrios. Usando as n 241 comparaes de duplas, obtivemos y 0,133 e ep( y ) 0,482/241 0,031. A estatstica t para testar H0:
0 t 0,133/0,031 4,29. Voc se lembrar do Apndice B que a distribuio normal padro ,
para propsitos prticos, indistinguvel da distribuio t com 240 graus de liberdade. O valor 4,29 est to
distante da extremidade esquerda da distribuio que rejeitamos H0 a qualquer nvel razovel de significncia. Alis, o valor crtico (do teste unilateral) de 0,005 (metade de um porcento) est em torno de 2,58.
Um valor t de 4,29 evidncia muito forte contra H0 em favor de H1. Portanto, conclumos que existe discriminao na contratao de trabalhadores.
(C.40)
onde () representa a fdc normal padro. Em outras palavras, o p-valor neste exemplo simplesmente
a rea direita de 1,52, o valor observado da estatstica de teste, em uma distribuio normal padro.
Veja a Figura C.7 a ttulo de ilustrao.
86
Como p-valor 0,065, o maior nvel de significncia no qual poderemos conduzir este teste e
no conseguir rejeitar H0 ser de 6,5%. Se executarmos o teste a um nvel abaixo de 6,5% (como, por
exemplo, 5%), no rejeitaremos H0. Se executarmos o teste a um nvel maior que 6,5% (como, por exemplo,10%), rejeitaremos H0. Com o p-valor mo, poderemos conduzir o teste em qualquer nvel.
O p-valor nesse exemplo tem outra interpretao til: ele a probabilidade de que observemos
um valor de T to grande quanto 1,52 quando a hiptese nula for verdadeira. Se a hiptese nula for
efetivamente verdadeira, observaremos um valor de T to grande quanto 1,52 devido ao acaso de
somente em 6,5% das vezes. Se isso ser suficientemente pequeno para rejeitar H0 depender de nossa
tolerncia de um erro tipo I. O p-valor tem uma interpretao semelhante em todos os outros casos,
como veremos.
De forma geral, p-valores pequenos so evidncia contra H0, j que eles indicam que o resultado
dos dados ocorrer com pequena probabilidade se H0 for verdadeira. No exemplo anterior, se t tivesse
um valor maior, digamos t 2,85, ento, o p-valor teria sido 1 (2,85) 0,002. Isso significaria
que, se a hiptese nula fosse verdadeira, observaramos um valor de T to grande quanto 2,85 com probabilidade 0,002. Como interpretamos isso? Ou obtivemos uma amostra bastante incomum ou a hiptese nula falsa. A menos que tivssemos uma tolerncia muito pequena para um erro tipo I, teramos
rejeitado a hiptese nula. Por outro lado, um p-valor grande uma fraca evidncia contra H0. Se tivssemos obtido t 0,47 no exemplo anterior, ento, p-valor 1 (0,47) 0,32. A observao de
um valor de T maior que 0,47 aconteceria com probabilidade 0,32, mesmo quando H0 fosse verdadeira; isso seria suficientemente grande para que no houvesse dvida quanto a H0, a menos que tivssemos uma tolerncia muito alta para o erro tipo I.
Figura C.7
O p-valor quando t 1,52 para a alternativa unilateral 0.
rea 0,065
p-valor
1,52
Para testarmos hipteses sobre uma mdia populacional usando a distribuio t, precisamos de
tabelas detalhadas para computar p-valores. A Tabela G.2 somente nos possibilita colocar delimitadores
Wooldridge
Apndice C
87
nos p-valores. Felizmente, muitos programas estatsticos e economtricos agora computam p-valores
de forma rotineira, e eles tambm fornecem clculos de fdcs para a distribuio t e outras usadas na
computao dos p-valores.
EXEMPLO C.6
(Efeitos dos Subsdios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)
Considere novamente os dados de Holzer et al. (1993) no Exemplo C.2. De uma perspectiva de planejamento,
h duas questes de interesse. Primeiro, qual ser nossa melhor estimativa da alterao da mdia nas taxas
de rejeio, ? J obtivemos isso para a amostra de 20 empresas listadas na Tabela C.3: a mdia amostral
da alterao nas taxas de rejeio foi de 1,15. Em relao taxa mdia de rejeio inicial em 1987, isso
representa uma queda na taxa de rejeio de cerca de 26,3% (1,15/4,38 0,263) que um efeito
nada desprezvel.
Tambm gostaramos de saber se a amostra fornece forte evidncia de um efeito na populao de
empresas industriais que poderiam ter recebido subsdios de treinamento de pessoal. A hiptese nula H0:
0, que foi testada contra H1: 0, onde a alterao mdia nas taxas de rejeio. Sob a hiptese
nula, os subsdios de treinamento de pessoal no tm efeito sobre as taxas de rejeio. A hiptese alternativa estabelece que existe um efeito. No nos importamos com a alternativa 0, de modo que a hiptese
nula ser efetivamente H0: 0.
Como y 1,15 e ep( y) 0,54, t 1,15/0,54 2,13. Esse valor est abaixo do valor crtico
de 1,73 ao nvel de 5% (de uma distribuio t19), mas acima do valor crtico de 2,54. O p-valor nesse
caso ser computado da seguinte forma
p-valor P(T19 2,13),
(C.41)
onde T19 representa uma varivel aleatria com distribuio t, com 19 graus de liberdade. A desigualdade
o oposto de (C.40), pois a hiptese alternativa tem a forma de (C.33). A probabilidade em (C.41) a rea
esquerda de 2,13 em uma distribuio t19 (veja a Figura C.8).
Usando a Tabela G.2, o mximo que poderemos dizer que o p-valor estar entre 0,025 e 0,01, mas
ele estar mais prximo de 0,025 (j que o 97,5o percentil cerca de 2,09). Utilizando um programa estatstico, como o Stata, podemos computar o p-valor exato. Ele ser 0,023, que evidncia razovel contra H0.
Isso certamente evidncia suficiente para rejeitar a hiptese nula de que os subsdios de treinamento de
pessoal no tm qualquer efeito ao nvel de significncia de 2,5% (e, portanto, ao nvel de 5%).
O clculo de um p-valor para um teste bilateral semelhante, mas devemos considerar a natureza
bilateral da regra de rejeio. Para testes t sobre mdias populacionais, o p-valor computado como
P(| Tn1 | |t|) 2P(Tn1 |t|),
(C.42)
onde t o valor da estatstica do teste e Tn1 uma varivel aleatria t. (Para n grande, substitua Tn1
por uma varivel aleatria normal padro). Assim, compute o valor absoluto da estatstica t, encontre
a rea direita desse valor em uma distribuio tn1, e multiplique a rea por dois.
88
Figura C.8
O p-valor quando t 2,13 com 19 graus de liberdade para a alternativa unilateral 0.
2,13
Para populaes no-normais, o p-valor exato pode ser difcil de ser obtido. No entanto, podemos
encontrar p-valores assimptticos usando os mesmos clculos. Esses p-valores sero vlidos para
amostras de tamanhos grandes. Para n maior que, digamos, 120, tambm possvel usar a distribuio
normal padro. A Tabela G.1 suficientemente detalhada para obtermos p-valores exatos, mas tambm
podemos usar um programa estatstico ou economtrico.
EXEMPLO C.7
(Discriminao Racial na Contratao de Trabalhadores)
Usando os dados de pares comparados do Urban Institute (n 241), obtivemos t 4,29. Se Z for uma
varivel aleatria normal padro, P(Z 4,29) ser, em sentido prtico, zero. Em outras palavras, o p-valor
(assimpttico) deste exemplo ser em essncia zero. Isso ser evidncia bastante forte contra H0.
Wooldridge
Apndice C
89
(iii) Se um nvel de significncia tiver sido escolhido, ento, rejeitaremos H0 ao nvel 100 %
se p-valor . Se p-valor , ento, no podemos rejeitar H0 ao nvel 100 %. Portanto, um p-valor
pequeno leva rejeio de H0.
EXEMPLO C.8
(Subsdios de Treinamento e Produtividade dos Trabalhadores)
No exemplo de Holzer et al., construmos um intervalo de confiana de 95% para a alterao mdia na taxa
de rejeio como [2,28,0,02]. Como o zero foi excludo desse intervalo, rejeitamos H0: 0 contra
H1: 0 ao nvel de 5%. Esse intervalo de confiana de 95% tambm significa que no podemos rejeitar
H0: 2 ao nvel de 5%. De fato, existir uma srie contnua de hipteses nulas que no sero rejeitadas, dado esse intervalo de confiana.
90
EXEMPLO C.9
(Efeito da Largura de Rodovias sobre o Tempo de Viagem)
Seja Y a alterao no tempo de viagem, medida em minutos, de viajantes em uma rea metropolitana, do
perodo anterior ao perodo posterior do alargamento de uma rodovia. Assuma que Y Normal(,2). A
hiptese nula de que o alargamento no reduz o tempo de viagem ser H0: 0; a alternativa que ele
reduz o tempo de viagem ser H1: 0. Suponha que uma amostra aleatria de viajantes de tamanho
n 300 foi obtida para determinar a efetividade do projeto da rodovia. A alterao mdia no tempo de
viagem ser computada como y 3,6, e o desvio-padro da amostra ser s 18,7; assim, ep( y )
18,7/1300 1,08. A estatstica t ser 3,61/1,08 3,33, que bem significante estatisticamente; o
p-valor ser em essncia zero. Assim, conclumos que o alargamento da rodovia ter um efeito significante
sobre o tempo mdio de viagem.
Se o resultado do teste de hiptese for tudo o que foi divulgado sobre o trabalho, ele ser enganoso.
Divulgar somente a significncia estatstica mascara o fato de que a reduo estimada de 3,6 minutos na
mdia do tempo de viagem muito pequena. Para sermos honestos, deveremos informar a estimativa por
ponto de 3,6, com o teste de significncia.
Wooldridge
Apndice C
91
importante para a compreenso de vrios conceitos sobre estimao e testes de hipteses. Porm, fazer
essa distino de forma rpida se tornar um peso na anlise economtrica, pois os modelos so mais
complicados: muitos parmetros e variveis aleatrias estaro envolvidos, e a obedincia s convenes habituais da probabilidade e da estatstica exigir muitos smbolos extras.
No texto principal, usamos uma conveno mais simples que amplamente usada em econometria.
Se for um parmetro populacional, a notao (teta chapu) ser usada para representar tanto um
estimador como uma estimativa de . Essa notao til no sentido de que ela propicia uma maneira
simples de integrar um estimador ao parmetro populacional que supostamente ela estar estimando.
Assim, se o parmetro populacional for , ento, denotar um estimador ou uma estimativa de ; se
o parmetro for 2, 2ser um estimador ou uma estimativa de 2; e assim por diante. Algumas vezes,
examinaremos dois estimadores do mesmo parmetro, caso em que necessitaremos de uma notao
diferente como, por exemplo, (teta til).
Embora o abandono das convenes sobre probabilidade e estatstica para indicar estimadores,
variveis aleatrias e estatsticas de testes coloque mais responsabilidade sobre seus ombros, isso no
ser um grande problema, uma vez que a diferena entre um estimador e uma estimativa seja compreendida. Se estivermos tratando das propriedades estatsticas de como, por exemplo, deduzir se
ele ou no no-viesado ou consistente , ento, estaremos necessariamente vendo como um estimador. Por outro lado, se escrevermos algo como 1,73, ento, representaremos claramente uma
estimativa por ponto a partir de determinada amostra de dados. A confuso que pode surgir com o uso
de para representar ambas ser mnima se voc tiver um bom entendimento de probabilidade e de
estatstica.
RESUMO
Discutimos sobre tpicos de estatstica matemtica que so muito usados na anlise economtrica.
A noo de um estimador, que simplesmente uma regra de combinao de dados para estimar um
parmetro populacional, fundamental. Tratamos de vrias propriedades dos estimadores. As mais
importantes propriedades das amostras pequenas so a inexistncia de vis e a eficincia, sendo que
esta ltima depende das comparaes das varincias quando os estimadores forem no-viesados. As
propriedades das amostras grandes relacionam-se com a seqncia dos estimadores obtidos conforme o tamanho da amostra aumenta, e em econometria depende-se delas. Qualquer estimador de valia
consistente. O teorema do limite central implica que, em amostras grandes, a distribuio amostral
da maioria dos estimadores ser aproximadamente normal.
A distribuio amostral de um estimador pode ser usada para a construo de intervalos de confiana. Vimos isso na estimao da mdia de uma distribuio normal e no clculo de intervalos de
confiana aproximados em casos no-normais. O teste de hiptese clssico, que exige a especificao
de uma hiptese nula, de uma hiptese alternativa e de um nvel de significncia, executado comparando-se uma estatstica de teste com um valor crtico. Alternativamente, pode-se calcular um p-valor
que nos possibilite conduzir um teste em qualquer nvel de significncia.
92
PROBLEMAS
C.1 Sejam Y1, Y2, Y3 e Y4 variveis aleatrias independentes e identicamente distribudas de uma
populao com mdia e varincia 2.
Y 1(Y1 Y2 Y3 Y4) representa a mdia dessas qua4
tro variveis aleatrias.
(i) Quais so o valor esperado e a varincia de
Y em termos de e 2?
(ii) Agora, considere um estimador diferente de :
1
W 1Y1 1Y2 1Y3 Y4.
8
8
4
2
Esse um exemplo de uma mdia ponderada dos Yi. Mostre que W tambm um estimador no-viesado de . Encontre a varincia de W.
(iii) Com base em suas respostas nas partes (i) e (ii), qual estimador de voc prefere,
Y ou W?
C.2 Esta uma verso mais generalizada do Problema C.1. Sejam Y1, Y2, ..., Yn n variveis aleatrias no-correlacionadas comparativamente, com mdia comum e varincia comum 2. Seja
Ya
mdia da amostra.
(i) Defina a classe dos estimadores lineares de como
Wa a1Y1 a2Y2 ... anYn,
onde os ai so constantes. Que restrio sobre os ai necessria para que Wa seja um estimador no-viesado de ?
(ii) Encontre Var(Wa).
(iii) Para quaisquer nmeros a1, a2, ... , an, a seguinte desigualdade vlida: (a1 a2 ...
an)2/n a21 a22 ... a2n. Use isso, com as partes (i) e (ii), para mostrar que Var(Wa)
Var(
Y) sempre que Wa for no-viesado, de forma que
Y seja o melhor estimador linear
no-viesado. [Sugesto: Em que se transforma a desigualdade quando ai satisfaz a restrio da parte (i)?]
C.3 Seja Y a mdia amostral de uma amostra aleatria com mdia e varincia 2. Considere dois
estimadores alternativos de : W1 [(n 1)/n]
Y e W2
Y/2.
(i) Mostre que W1 e W2 so ambos estimadores viesados de e encontre os vieses. O que
acontece com os vieses conforme n
? Comente sobre quaisquer diferenas importantes no vis para os dois estimadores conforme o tamanho da amostra aumenta.
(ii) Encontre os limites de probabilidade de W1 e W2. {Sugesto: Use as propriedades PLIM.1
e PLIM.2; para W1, observe que plim[(n 1)/n] 1.} Qual estimador consistente?
(iii) Encontre Var(W1) e Var(W2).
(iv) Demonstre que W1 um estimador melhor que
Y se estiver prximo de zero.
(Considere tanto o vis como a varincia.)
C.4 Para variveis aleatrias positivas X e Y, suponha que o valor esperado de Y, dado X, seja E(Y|X)
X. O parmetro desconhecido mostra como o valor esperado de Y muda com X.
(i) Defina a varivel aleatria Z Y/X. Mostre que E(Z) . [Sugesto: Use a Propriedade
EC.2 em conjunto com a lei das expectativas iteradas, a Propriedade EC.4. Em particular,
primeiro mostre que E(Z|X) e, ento, use EC.4.]
Wooldridge
(ii)
Apndice C
93
i1
1
2
Imagem
Produo de Milho
Pixels de Milho
165,76
374
96,32
209
76,08
253
185,35
432
116,43
367
162,08
361
152,04
288
161,75
369
92,88
206
10
149,94
316
11
64,75
145
12
127,07
355
13
133,55
295
14
77,70
223
15
206,39
459
16
108,33
290
17
118,17
307
94
C.5 Seja Y uma varivel aleatria de Bernoulli() com 0 1. Suponha que estamos interessados em estimar a razo de probabilidades, /(1 ), que a probabilidade de xito sobre a
probabilidade de fracasso. Dada uma amostra aleatria {Y1, ..., Yn}, sabemos que um estimador
consistente e no-viesado de
Y, a proporo de xitos em n tentativas. Um estimador natural de
G
Y/(1
Y), a proporo de xitos sobre a proporo de fracassos na amostra.
(i) Por que G no um estimador no-viesado de ?
(ii) Use PLIM.2(iii) para mostrar que G um estimador consistente de .
C.6 Voc foi contratado pelo governador para examinar se um imposto sobre bebidas alcolicas
reduziu o consumo de bebidas alcolicas em seu estado. Voc tem condies de obter, para uma
amostra de pessoas selecionadas aleatoriamente, a diferena no consumo de bebidas alcolicas (em
onas) dos anos anterior e posterior instituio do imposto. Para i-sima pessoa que foi extrada aleatoriamente da amostra da populao, Yi representa a alterao no consumo de bebidas alcolicas.
Trate-as como uma amostra aleatria de uma distribuio Normal(,2).
(i) A hiptese nula que no houve mudana na mdia de consumo de bebidas alcolicas.
Represente isso formalmente, em termos de .
(ii) A hiptese alternativa que houve um declnio no consumo de bebidas alcolicas; estabelea a hiptese alternativa em termos de .
(iii) Agora suponha que o tamanho de sua amostra seja n 900 e que voc obtenha as estimativas y 32,8 e s 466,4. Calcule a estatstica t do teste de H0 contra H1; obtenha
o p-valor do teste. (Devido ao grande tamanho da amostra, use apenas a distribuio normal padro tabulada na Tabela G.1.) Voc rejeita H0 ao nvel de 5%? E ao nvel de 1%?
(iv) Voc diria que a queda estimada do consumo grande, em magnitude? Comente sobre a
significncia prtica versus a significncia estatstica dessa estimativa.
(v) O que foi implicitamente assumido em sua anlise sobre outros determinantes do consumo de bebidas alcolicas ao longo do perodo de dois anos, para inferir causalidade entre
a alterao do imposto e o consumo de bebidas alcolicas?
C.7 A nova administrao de uma padaria alega que os trabalhadores agora so mais produtivos do
que eram sob a administrao anterior, razo pela qual os salrios foram aumentados de forma
geral. Sejam Wbi o salrio do trabalhador i sob a administrao antiga e o salrio do trabalhador i
aps a mudana. A diferena ser Di Wai Wbi . Assuma que os Di so uma amostra aleatria de
uma distribuio Normal(,2).
(i)
Salrio Antes
Salrio Depois
8,30
9,25
9,40
9,00
(Continua...)
Wooldridge
Apndice C
95
(...continuao)
Trabalhador
Salrio Antes
Salrio Depois
9,00
9,25
10,50
10,00
11,40
12,00
8,75
9,50
10,00
10,25
9,50
9,50
10,80
11,50
10
12,55
13,10
11
12,00
11,50
12
8,65
9,00
13
7,75
7,75
14
11,25
11,50
15
12,65
13,00
C.8 O jornal The New York Times (05/02/1990) publicou a atuao dos dez melhores arremessadores de trs pontos da NBA. A tabela seguinte resume esses dados:
Jogador
AT AC
Mark Price
429-188
Trent Tucker
833-345
Dale Ellis
1.149-472
Craig Hodges
1.016-396
Danny Ainge
1.051-406
Byron Scott
676-260
Reggie Miller
416-159
Larry Bird
1.206-455
Jon Sundvold
440-166
Brian Tayllor
417-157
Para um determinado jogador, o resultado de um arremesso especfico pode ser modelado como uma
varivel de Bernoulli (zero-um): se Yi for o resultado do arremesso i, ento, Yi 1 se o arremesso
96