Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 42

C

Fundamentos de Estatstica
Matemtica

C.1 POPULAES, PARMETROS E AMOSTRAGEM ALEATRIA


inferncia estatstica envolve o conhecimento de dados sobre uma populao, dada a disponibilidade de uma amostra dessa populao. Por populao, entendemos qualquer grupo de tpicos
bem definido, que poderia ser de indivduos, empresas, cidades, ou muitas outras possibilidades. Por conhecimento podemos entender vrias coisas, que de um modo geral dividimos nas categorias de estimao e testes de hipteses.
Alguns exemplos podem ajudar a compreender esses termos. Na populao de todos os adultos
trabalhadores nos Estados Unidos, os economistas especializados na rea de trabalho esto interessados em estudar o retorno da educao, indicado pelo aumento percentual mdio nos rendimentos, dado
mais um ano de educao. Seria impraticvel e caro obter informaes sobre os rendimentos e graus
de educao da totalidade da populao trabalhadora nos Estados Unidos, mas podemos obter dados
de um subconjunto da populao. Usando os dados coletados, um economista poder informar que sua
melhor estimativa do retorno de mais um ano de educao de 7,5%. Esse um exemplo da estimativa por ponto. Ou, poder descrever uma faixa, tal como o retorno da educao est entre 5,6% e
9,4%. Esse um exemplo de uma estimativa por intervalo.
Um economista especializado em urbanismo pode querer saber se assistir a programas de televiso sobre preveno de crimes em determinada regio est associado a ndices de criminalidade mais
baixos na vizinhana dessa regio. Aps comparar os ndices de criminalidade da redondeza com e sem
tais programas em uma amostra da populao, ele poder chegar a uma de duas concluses: os programas de TV sobre preveno de crimes realmente afetam a criminalidade, ou no. Esse exemplo situa-se
na rubrica dos testes de hipteses.
O primeiro passo na inferncia estatstica identificar a populao de interesse. Isso pode parecer bvio, mas importante ser bastante especfico. Logo que tenhamos identificado a populao,
poderemos especificar um modelo para a relao populacional de interesse. Tais modelos envolvem
distribuies de probabilidade ou caractersticas de distribuies de probabilidade, e elas dependem de
parmetros desconhecidos. Parmetros so simplesmente constantes que determinam as direes e intensidades da relao entre variveis. No exemplo anterior da economia do trabalho, o parmetro de
interesse o retorno da educao na populao.

Amostragem
Para revisar a inferncia estatstica, concentramo-nos no cenrio mais simples possvel. Seja Y uma
varivel aleatria representando uma populao com uma funo de densidade de probabilidade f(y;),
que depende do nico parmetro . A funo de densidade de probabilidade (fdp) de Y assumida
55

56

Introduo Econometria Editora Thomson

como conhecida, exceto quanto ao valor de ; valores diferentes de  implicam diferentes distribuies
populacionais, e, portanto, estamos interessados no valor de . Se pudermos obter certos tipos de amostras da populao, ento, poderemos descobrir alguma coisa sobre . O esquema de amostragem mais
fcil de trabalhar a amostragem aleatria.
AMOSTRAGEM ALEATRIA
Se Y1,Y2, ...,Yn forem variveis aleatrias independentes com uma funo de densidade de probabilidade f(y;) comum, ento, {Y1, Y2, ..., Yn} definida como uma amostra aleatria a partir de f(y;) [ou
uma amostra aleatria a partir da populao representada por f(y;)].
Quando {Y1, ..., Yn} uma amostra aleatria a partir da funo de densidade f(y;), tambm dizemos
que as Yi so amostras independentes e identicamente distribudas (ou i.i.d.) a partir de f(y;). Em
alguns casos, no precisaremos especificar em sua totalidade qual a distribuio comum.
A natureza aleatria de Y1, Y2, ..., Yn na definio de amostragem aleatria reflete o fato que so
possveis muitos resultados diferentes antes da amostragem ter sido efetivamente realizada. Por exemplo, se a renda familiar for obtida de uma amostra de n  100 famlias nos Estados Unidos, as rendas
que observaremos em geral diferiro para cada amostra diferente de 100 famlias. Uma vez obtida uma
amostra, teremos um conjunto de nmeros, digamos, {y1, y2, ..., yn}, que constituir os dados com os
quais trabalharemos. Se ou no apropriado assumir que a amostra proveniente de um esquema aleatrio de amostragem, exige conhecimento sobre o efetivo processo de amostragem.
Amostras aleatrias a partir de uma distribuio de Bernoulli so freqentemente usadas para ilustrar conceitos estatsticos, e elas tambm surgem em aplicaes empricas. Se Y1, Y2, ..., Yn forem variveis aleatrias independentes e cada uma for distribuda como Bernoulli(), de forma que P(Yi  1) 
0 e P(Yi  0)  1 , ento, {Y1, Y2, ..., Yn} constituir uma amostra aleatria a partir da distribuio
de Bernoulli(). Como ilustrao, considere o exemplo das reservas da empresa area desenvolvido no
Apndice B. Cada Yi mostra se o passageiro i comparece para embarque; Yi  1 se o passageiro comparece e Yi  0, caso contrrio. Dessa forma,  a probabilidade de uma pessoa, escolhida aleatoriamente na populao de todas as pessoas que fizeram reserva, comparecer para o embarque.
Em muitas outras aplicaes, as amostras aleatrias podem ser assumidas como retiradas de uma
distribuio normal. Se {Y1, ..., Yn} for uma amostra aleatria a partir de uma populao Normal(,2),
ento, a populao ser caracterizada por dois parmetros, a mdia  e a varincia 2. O interesse principal geralmente reside em , mas 2 de interesse por si mesma, pois fazer inferncias sobre  freqentemente exige conhecimento de 2.

C.2 PROPRIEDADES DOS ESTIMADORES EM AMOSTRAS FINITAS


Nesta seo, estudaremos as chamadas propriedades dos estimadores em amostras finitas. O termo amostra finita advm do fato de que as propriedades so vlidas para uma amostra de qualquer tamanho, no
importando o quanto ela grande ou pequena. Algumas vezes, elas so chamadas de propriedades de
amostras pequenas. Na Seo C.3, trataremos das propriedades assimptticas, que esto relacionadas ao
comportamento dos estimadores conforme o tamanho da amostra cresce sem limites.
ESTIMADORES E ESTIMATIVAS
Para estudar as propriedades dos estimadores, devemos definir o que entendemos por estimador. Dada
uma amostra aleatria {Y1, Y2, ..., Yn} retirada de uma distribuio populacional que dependa de um
parmetro desconhecido , um estimador de  uma regra que atribui a cada resultado possvel da
amostra um valor de . A regra especificada antes de extrair qualquer amostra; em particular, a regra
ser a mesma independentemente dos dados efetivamente obtidos.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

57

Como um exemplo de um estimador, seja {Y1, ..., Yn} uma amostra aleatria de uma populao
com mdia . Um estimador natural de  a mdia da amostra aleatria:

Y  n1

 Yi.

(C.1)

i1


Y chamado de mdia amostral, mas, diferentemente do discutido no Apndice A, no qual definimos

a mdia amostral de um conjunto de nmeros como uma estatstica descritiva, Y agora visto como
um estimador. Dado qualquer resultado das variveis aleatrias Y1, ..., Yn, usamos a mesma regra para
estimar : simplesmente calculamos suas mdias. Para resultados de dados efetivos {y1, ..., yn}, a esti
mativa ser simplesmente a mdia da amostra: Y  (y1  y2  ...  yn)/n.

EXEMPLO C.1
(Taxas de Desemprego nas Cidades)

Suponha que obtemos a seguinte amostra de taxas de desemprego de dez cidades nos Estados Unidos:
Cidade

Taxa de Desemprego

5,1

6,4

9,2

4,1

7,5

8,3

2,6

3,5

5,8

10

7,5

Nossa estimativa da taxa mdia de desemprego nas cidades dos Estados Unidos ser 
y  6,0. Cada amostra geralmente resulta em uma estimativa diferente. Porm, a regra para obter a estimativa a mesma, independente de quais ou quantas cidades aparecem na amostra.

De forma mais geral, um estimador W de um parmetro  pode ser expresso como uma frmula
matemtica resumida:
W  h(Y1,Y2, ..., Yn),

(C.2)

58

Introduo Econometria Editora Thomson

para alguma funo h conhecida das variveis aleatrias Y1, Y2, ..., Yn. Como no caso especial da mdia
amostral, W uma varivel aleatria, porque ela depende da amostra aleatria: se obtivermos diferentes amostras aleatrias da populao, o valor de W pode mudar. Quando um conjunto particular de
nmeros, digamos {y1, y2, ..., yn}, agregado na funo h, obtemos uma estimativa de , representada
por w  h(y1, y2, ..., yn). Algumas vezes W chamado de estimador por ponto e w de estimativa por
ponto, para distingui-los dos estimadores por intervalo e das estimativas por intervalo, aos quais retornaremos na seo C.5.
Para avaliar os procedimentos de estimao, estudamos vrias propriedades da distribuio de
probabilidade da varivel aleatria W. A distribuio de um estimador muitas vezes chamada de sua
distribuio amostral, pois essa distribuio descreve a probabilidade de vrios resultados de W entre
diferentes amostras aleatrias. Como h um nmero ilimitado de regras para combinar dados para estimar parmetros, precisamos de algum critrio lgico para fazer a escolha entre os estimadores, ou pelo
menos para eliminar a considerao de alguns estimadores. Portanto, devemos abandonar o mbito da
estatstica descritiva, na qual calculamos coisas como mdia amostral para simplesmente resumir um
acervo de dados. Na estatstica matemtica, estudamos as distribuies amostrais dos estimadores.

Inexistncia de Vis
Em princpio, a totalidade da distribuio amostral de W pode ser obtida, dada a distribuio de probabilidade de Yi e a funo h. Em geral, mais fcil enfatizar algumas poucas caractersticas da
distribuio de W ao o avaliarmos como um estimador de . A primeira propriedade importante de
um estimador envolve seu valor esperado.
ESTIMADOR NO-VIESADO
Um estimador W de  ser no-viesado se
E(W)  ,

(C.3)

para todos os possveis valores de .


Se um estimador for no-viesado, ento, sua distribuio de probabilidade ter um valor esperado igual
ao parmetro que ele supostamente estar estimando. A inexistncia de vis no significa que a estimativa que obteremos com qualquer amostra particular ser igual a , ou mesmo muito prxima de .
Particularmente, se pudssemos extrair indefinidamente amostras aleatrias de Y da populao, calcular uma estimativa a cada vez, e depois calcularmos a mdia dessas estimativas de todas as amostras
aleatrias, obteramos . Esse experimento ideal abstrato porque, na maior parte das aplicaes,
temos apenas uma amostra aleatria com que trabalhar.
Para um estimador viesado, definimos seu vis conforme segue.
VIS DE UM ESTIMADOR
Se W for um estimador de , seu vis definido como
Vis(W)  E(W)  .

(C.4)

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

59

A Figura C.1 mostra dois estimadores; o primeiro no tem vis, e o segundo tem um vis positivo.
Figura C.1
Um estimador sem vis, W1, e um estimador com vis positivo, W2.
f (w)

fdp de W2

fdp de W1

  E(W1)

E(W2)

A inexistncia de vis em um estimador e o tamanho de qualquer possvel vis dependem da distribuio de Y e da funo h. A distribuio de Y geralmente est fora de nosso controle (embora freqentemente escolhamos um modelo para essa distribuio): ela pode ser determinada pela natureza ou
por foras sociais. Entretanto, a escolha da regra h nossa, e se quisermos um estimador no-viesado,
ento, precisaremos escolher h de maneira apropriada.
possvel mostrar que alguns estimadores podem ser no-viesados de forma bastante genrica.

Mostraremos agora que a mdia amostral Y um estimador no-viesado da mdia populacional ,
independente da distribuio populacional subjacente. Usamos as propriedades dos valores esperados
(E.1 e E.2) das quais tratamos na seo B.3:


E( Y)  E (1/n)

 Y   (1/n)E   Y   (1/n)   E(Y )


n

i1

i1

i1

 m  (1/n)(n)  .

 (1/n)

i1

Para os testes de hipteses, precisaremos estimar a varincia 2 de uma populao com mdia .
Definindo {Y1, ..., Yn} como a amostra aleatria da populao com E(Y)   e Var(Y)  2, definimos
o estimador como

60

Introduo Econometria Editora Thomson

S2 

n
1
(Y  Y)2,
n  1 i1 i

(C.5)

que normalmente chamado de varincia amostral. possvel mostrar que S2 um estimador noviesado de 2: E(S2)  2. A diviso por n  1, em lugar de n, leva em conta o fato de que a mdia 
n

estimada, em vez de conhecida. Se  fosse conhecida, um estimador no-viesado de 2 seria n1


i1
(Yi  )2, mas na prtica  raramente conhecida.
Embora a inexistncia de vis tenha um certo apelo como uma propriedade de um estimador
de fato, seu antnimo, viesado, tem decididamente conotaes negativas , ela no est livre de problemas. Um ponto fraco da inexistncia de vis que alguns estimadores razoveis, e at mesmo muito
bons, so viesados. Brevemente veremos um exemplo.
Um outro ponto fraco importante da inexistncia de vis que existem estimadores no-viesados
que de fato so estimadores bastante pobres. Considere estimar a mdia  de uma populao. Em lugar

de usar a mdia amostral Y para estimar , suponha que, aps coletar uma amostra de tamanho n, descartemos todas as observaes, exceto a primeira. Ou seja, nosso estimador de  ser simplesmente
W  Y1. Esse estimador ser no-viesado, pois E(Y)  . Esperanosamente, voc perceber que ignorar todas as observaes, exceto a primeira, no um mtodo prudente de estimao: ele joga fora a
maioria das informaes da amostra. Por exemplo, com n  100, obteremos 100 resultados da varivel aleatria Y, mas usaremos somente a primeira delas para estimar E(Y).

A Varincia Amostral dos Estimadores


O exemplo no final da subseo anterior mostra que precisamos de critrios adicionais para avaliar os
estimadores. A inexistncia de vis somente garante que a distribuio amostral de um estimador tem
um valor mdio igual ao parmetro que ela supostamente est estimando. Isso bom, mas tambm precisamos saber o quanto est espalhada a distribuio de um estimador. Um estimador pode ser igual a
, em mdia, mas tambm pode estar muito longe com probabilidade grande. Na Figura C.2, W1 e W2
so ambos estimadores no-viesados de . Contudo, a distribuio de W1 est mais firmemente centralizada em torno de : a probabilidade de W1 ser maior que qualquer determinada distncia de  menor
que a probabilidade de W2 ser maior que a mesma distncia de . O uso da W1 como nosso estimador significa que menos provvel que venhamos a obter uma amostra aleatria que produza uma
estimativa muito afastada de .
Para resumir a situao mostrada na Figura C.2, apoiamo-nos na varincia (ou desvio-padro) de
um estimador. Recorde-se que isso produz uma medida nica da disperso na distribuio. A varincia
de um estimador freqentemente chamada de varincia amostral, pois ela a varincia associada a
uma distribuio amostral. Lembre-se, a varincia amostral no uma varivel aleatria; ela uma
constante, mas pode ser desconhecida.
Agora obteremos a varincia da mdia amostral para estimar a mdia  de uma populao:


Var(Y)  Var (1/n)
 (1/n )
2

 Y   (1/n2)Var   Y   (1/n2)   Var(Y )


n

i1

i1

s   (1/n )(n )   /n.


n

i1

i1

(C.6)

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

61

Figura C.2
Distribuies amostrais de dois estimadores no-viesados de .
f(w)

fdp de W 1

fdp de W 2

Observe como usamos as propriedades da varincia das Sees B.3 e B.4 (VAR.2 e VAR.4), assim
como a independncia dos Yi. Para resumir: se {Yi: i  1, 2, ..., n) for uma amostra aleatria de uma

populao com mdia  e varincia 2, ento, Y ter a mesma mdia da populao, mas sua varincia
amostral ser igual varincia populacional, 2, dividida pelo tamanho da amostra.

Uma implicao importante de Var(Y)  2/n que ela pode ficar muito prxima de zero aumentando do tamanho da amostra n. Essa uma caracterstica-chave de um estimador razovel, e voltaremos
a ele na Seo C.3.
Como sugerido pela Figura C.2, entre os estimadores no-viesados, preferimos o estimador com
a menor varincia. Isso nos possibilita desconsiderar certos estimadores. Para uma amostra aleatria


com mdia  e varincia 2, sabemos que Y ser no-viesado, e Var( Y)  2/n. E quanto ao estimador Y1, que simplesmente a primeira observao extrada? Como Y1 uma extrao aleatria da popu
lao, Var(Y1)  2. Assim, a diferena entre Var(Y1) e Var( Y) poder ser grande mesmo para amostras

de tamanhos pequenos. Se n  10, ento, Var(Y1) ser dez vezes maior que Var( Y)  2/10. Isso nos
oferece uma maneira formal para excluir Y1 como um estimador de .
Para enfatizar esse ponto, a Tabela C.1 contm o resultado de um pequeno estudo simulado.
Usando o programa estatstico Stata, 20 amostras aleatrias de tamanho 10 foram geradas a partir de
uma distribuio normal, com   2 e 2  1; nesse caso, estamos interessados em estimar . Para
cada uma das 20 amostras aleatrias, computamos duas estimativas, y1 e
y; esses valores esto descritos na Tabela C.1. Como pode ser visto na tabela, os valores de y1 so muito mais dispersos que os
de 
y: y1 varia de 0,64 a 4,27, enquanto
y varia somente de 1,16 a 2,58. Alm disso, em 16 dos 20
casos, 
y est mais prximo de   2 que y1. A mdia de y1 na simulao est em torno de 1,89,
enquanto a de
y de 1,96. O fato de que essas mdias esto prximas de 2 ilustra a inexistncia de vis

62

Introduo Econometria Editora Thomson

de ambos os estimadores (e poderamos obter essas mdias mais prximas de 2 se utilizssemos mais
de 20 amostras). Mas a comparao apenas dos resultados mdios entre as extraes aleatrias masca
ra o fato de que a mdia amostral Y muito superior a Y1 como um estimador de .
Tabela C.1
Simulao de Estimadores para uma Distribuio Normal(,1) com   2

Amostra

y1

0,64

1,98

1,06

1,43

4,27

1,65

1,03

1,88

3,16

2,34

2,77

2,58

1,68

1,58

2,98

2,23

2,25

1,96

10

2,04

2,11

11

0,95

2,15

12

1,36

1,93

13

2,62

2,02

14

2,97

2,10

15

1,93

2,18

16

1,14

2,10

17

2,08

1,94

18

1,52

2,21

19

1,33

1,16

20

1,21

1,75

Eficincia

A comparao das varincias de Y e Y1 na subseo anterior um exemplo de um mtodo genrico
para comparar diferentes estimadores no-viesados.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

63

EFICINCIA RELATIVA
Se W1 e W2 forem dois estimadores no-viesados de , W1 ser eficiente com relao a W2 quando
Var(W1)  Var(W2) para qualquer , com desigualdade estrita para pelo menos um valor de .

Anteriormente, mostramos que, para estimar a mdia populacional , Var( Y)  Var(Y1) para qual
2
quer valor de  sempre que n  1. Assim, Y eficiente em relao a Y1 para estimar . No podemos sempre escolher entre os estimadores no-viesados com base no critrio de menor varincia: dados
dois estimadores no-viesados de , um poder ter menor varincia para alguns valores de , enquanto o outro poder ter menor varincia para outros valores de .
Se restringirmos nossa ateno para certa classe de estimadores, poderemos mostrar que a mdia

amostral tem a menor varincia. O Problema C.2 pede que voc mostre que Y tem a menor varincia
entre todos os estimadores no-viesados que tambm sejam funes lineares de Y1, Y2, ..., Yn. As hipteses so que os Yi tm mdia e varincia comuns, e que eles so no-correlacionadas dois a dois.
Se no restringirmos nossa ateno aos estimadores no-viesados, ento, no ter sentido comparar
as varincias. Por exemplo, quando estimamos a mdia populacional , podemos usar um estimador trivial que seja igual a zero, independente da amostra extrada. Naturalmente, a varincia desse estimador
ser zero (j que ser o mesmo valor para qualquer amostra aleatria). Porm, o vis desse estimador ser
, e assim ele ser um estimador muito pobre quando || for grande.
Uma maneira de comparar estimadores que no sejam necessariamente no-viesados calcular
o erro quadrtico mdio (EQM) dos estimadores. Se W for um estimador de , ento, o EQM de
W ser definido como EQM(W)  E[(W )2]. O EQM mede o quanto o estimador est distante,
em mdia, de . possvel mostrar que EQM(W)  Var(W)  [Vis(W)]2, de forma que EQM(W)
depende da varincia e do vis (se algum estiver presente). Isso nos possibilita comparar dois estimadores quando houver vis em um ou ambos.

C.3 PROPRIEDADES ASSIMPTTICAS DOS ESTIMADORES OU PROPRIEDADES DOS ESTIMADORES EM AMOSTRAS GRANDES
Na Seo C.2, encontramos o estimador Y1 da mdia populacional , e vimos que, embora ele fosse noviesado, era um estimador pobre, pois sua varincia poderia ser muito maior que a da mdia amostral. Uma
caracterstica notvel de Y1 que ele tem a mesma varincia para qualquer tamanho de amostra.
Parece razovel exigir que qualquer procedimento de estimao se aprimore conforme o tamanho da

amostra se torne maior. Para estimar uma mdia populacional , Y melhora no sentido de que sua
varincia vai se tornando menor conforme n vai ficando maior; Y1 no melhora nesse sentido.
Podemos excluir certos estimadores absurdos estudando as propriedades assimptticas ou de
amostras grandes dos estimadores. Alm disso, podemos dizer alguma coisa positiva sobre os estimadores que no so no-viesados e cujas varincias no so encontradas com facilidade.
A anlise assimpttica envolve a aproximao das caractersticas da distribuio amostral de
um estimador. Essas aproximaes dependem do tamanho da amostra. Infelizmente, estamos obrigatoriamente limitados quanto ao que podemos dizer com respeito a o quanto uma amostra precisa
ser grande para que uma anlise assimpttica seja apropriada; isso depende da distribuio populacional subjacente. Porm, aproximaes de amostras grandes tm se mostrado funcionar bem para
tamanhos de amostras to pequenas quanto n  20.

Consistncia
A primeira propriedade assimpttica dos estimadores se refere provvel distncia que o estimador
fica do parmetro que ele supostamente estar estimando conforme o tamanho da amostra cresa indefinidamente.

64

Introduo Econometria Editora Thomson

CONSISTNCIA
Seja Wn um estimador de  com base em uma amostra Y1, Y2, ..., Yn de tamanho n. Ento, Wn ser
um estimador consistente de  se, para cada   0,
P(|Wn    )  0 conforme n  .

(C.7)

Se Wn no for consistente para , ento, dizemos que ele inconsistente.


Quando Wn consistente, tambm dizemos que  o limite de probabilidade de Wn, escrito como
plim(Wn)  .
Ao contrrio da inexistncia de vis que uma caracterstica de um estimador para um determinado tamanho de amostra , a consistncia envolve o comportamento da distribuio amostral do estimador conforme o tamanho da amostra n fica maior. Para destacar isso, indexamos o estimador pelo
tamanho da amostra declarando essa definio, e continuaremos com essa conveno por toda esta seo.
A equao (C.7) parece tcnica e pode ser muito difcil de ser determinada com base nos princpios fundamentais da probabilidade. Por outro lado, a interpretao da (C.7) direta. Ela significa que
a distribuio de Wn se torna cada vez mais concentrada em torno de , o que grosso modo significa
que, para amostras de tamanhos maiores, ser cada vez menos provvel que Wn fique muito afastado
de . Essa tendncia est ilustrada na Figura C.3.
Figura C.3
As distribuies amostrais de um estimador consistente para trs tamanhos de amostra.
fw (W)
n

n  40

n  16

n4

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

65

Se um estimador no for consistente, ele no nos ajudar na obteno de informaes sobre ,


mesmo com uma quantidade ilimitada de dados. Por essa razo, a consistncia um requisito mnimo
de um estimador usado em estatstica ou econometria. Encontraremos estimadores que so consistentes sob certas hipteses e inconsistentes quando essas hipteses falham. Quando os estimadores so
inconsistentes, em geral podemos encontrar seus limites de probabilidade, e ser importante saber o
quanto esses limites de probabilidade esto distantes de .
Como observamos antes, estimadores no-viesados no so necessariamente consistentes, mas
aqueles cujas varincias tendem para zero conforme o tamanho da amostra cresce so consistentes. Isso
pode ser estabelecido formalmente: se Wn for um estimador no-viesado de  e Var(Wn) 
conforme n 
, ento, plim(Wn)  . Estimadores no-viesados que usam a totalidade da amostra de dados
geralmente tero uma varincia que se reduzir para zero conforme o tamanho da amostra cresa,
sendo, portanto, consistentes.
Um bom exemplo de um estimador consistente a mdia de uma amostra aleatria extrada de
uma populao com mdia  e varincia 2. J mostramos que a mdia amostral no-viesada para .


Na equao (C.6), derivamos Var( Yn)  2/n para qualquer amostra de tamanho n. Portanto, Var( Yn)

 0 conforme n 
, e, portanto, Yn um estimador consistente de  (alm de ser no-viesado).


A concluso que Yn consistente para  vlida mesmo se Var( Yn) no existir. Esse resultado
clssico conhecido como a lei dos grandes nmeros (LGN).
LEI DOS GRANDES NMEROS
Sejam Y1, Y2, ..., Yn variveis aleatrias independentes e identicamente distribudas com mdia . Ento,

plim( Yn)  .

(C.8)

A lei dos grandes nmeros significa que, se estivermos interessados em estimar a mdia populacional
, poderemos chegar arbitrariamente prximos de , escolhendo uma amostra suficientemente grande. Esse resultado fundamental pode ser combinado com propriedades bsicas dos limites de probabilidade para mostrar que estimadores razoavelmente complicados so consistentes.
PROPRIEDADE PLIM.1
Seja  um parmetro e defina um novo parmetro,   g() para alguma funo contnua g().
Suponha que plim(Wn)  . Defina um estimador de  como Gn  g(Wn). Ento,
plim(Gn)  .

(C.9)

plim g(Wn)  g(plim Wn)

(C.10)

Isso em geral definido como

para uma funo contnua g().


A hiptese de que g() contnua um requisito tcnico que freqentemente tem sido descrito de
forma no tcnica como uma funo que pode ser traada sem precisar levantar o lpis do papel.
Como todas as funes que encontramos neste livro so contnuas, no apresentamos uma definio

66

Introduo Econometria Editora Thomson

formal de funo contnua. So exemplos de funes contnuas g()  a  b para constantes a e b,


g()   2, g()  1/ , g() u, g()  exp(), e muitas outras variantes destas. No precisaremos
citar novamente a hiptese de continuidade.
Como um exemplo importante de um estimador consistente, mas viesado, considere estimar o
desvio-padro, , de uma populao com mdia  e varincia 2. J afirmamos que a varincia amosn

tral S2n  1
(Y  Y)2 no-viesada para 2. Usando a lei dos grandes nmeros e um pouco de
n  1 i1 i
lgebra, tambm possvel mostrar que S2n consistente para 2. O estimador natural de   s2
Sn  S2n (onde a raiz quadrada sempre a raiz quadrada positiva). Sn, que chamado desvio-padro
amostral, no um estimador no-viesado porque o valor esperado da raiz quadrada no a raiz quadrada do valor esperado (veja a Seo B.3). No entanto, de acordo com a PLIM.1, plim Sn  plim S2n
 s2  , de modo que Sn um estimador consistente de .
A seguir algumas outras propriedades teis do limite de probabilidade:

PROPRIEDADE PLIM.2
Se plim(Tn)   e plim(Un)  , ento,
(i) plim(Tn  Un)    ;
(ii) plim(TnUn)  ;
(iii) plim(Tn/Un) /, desde que  0.
Esses trs fatos sobre os limites de probabilidade nos possibilitam combinar estimadores consistentes
de vrias maneiras para obter outros estimadores consistentes. Por exemplo, seja {Y1, ..., Yn} uma
amostra aleatria de tamanho n dos rendimentos anuais da populao de trabalhadores com ensino
mdio completo e seja a mdia populacional dada por Y. Seja {Z1, ..., Zn} uma amostra aleatria dos
rendimentos anuais da populao de trabalhadores com curso superior completo e seja a mdia populacional dada por Z. Queremos estimar a diferena porcentual dos rendimentos anuais entre os dois
grupos, que ser   100 (Z Y)/Y. (Essa ser a porcentagem pela qual os rendimentos mdios

daqueles com curso superior diferiro dos rendimentos mdios daqueles com ensino mdio). Como Yn

consistente para Y, e Zn consistente para Z, decorre de PLIM.1 e da parte (iii) de PLIM.2 que
  
Gn  100 ( Zn Yn)/ Yn
 
um estimador consistente de  Gn simplesmente a diferena percentual entre Zn e Yn na amostra,
de modo que ele um estimador natural. Gn no um estimador no-viesado de , mas ainda assim
um bom estimador, a menos que n seja pequeno.

Normalidade Assimpttica
Consistncia uma propriedade dos estimadores por ponto. Embora ela nos informe que a distribuio do estimador est se concentrando em torno do parmetro conforme o tamanho da amostra vai
ficando maior, ela nada nos diz sobre a forma daquela distribuio para uma amostra de determinado
tamanho. Para construir estimadores por intervalo e para testar hipteses, precisamos de uma maneira de aproximar a distribuio de nossos estimadores. A maioria dos estimadores economtricos possui distribuies que so bem aproximadas por uma distribuio normal para amostras grandes, o que
motiva a seguinte definio.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

67

NORMALIDADE ASSIMPTTICA
Seja {Zn: n  1, 2, ...} uma seqncia de variveis aleatrias, de forma que para todos os nmeros z,
P(Zn  z)  (z) conforme n 
,

(C.11)

onde (z) a funo de distribuio cumulativa normal padro. Ento, diz-se que Zn tem um distribuio normal padro assimpttica. Nesse caso, freqentemente escrevemos Zn a Normal(0,1). (O a
acima do til significa assimptoticamente ou aproximadamente).
A Propriedade (C.11) significa que a funo de distribuio cumulativa de Zn se aproxima cada
vez mais da fdc da distribuio normal padro conforme o tamanho n da amostra vai ficando maior.
Quando a normalidade assimpttica vlida, teremos, para n grande, a aproximao P(Zn  z) 
(z). Dessa forma, as probabilidades concernentes a Zn podero ser aproximadas pelas probabilidades
normais padres.
O teorema do limite central (TLC) um dos resultados mais poderosos em probabilidade e estatstica. Ele afirma que a mdia de uma amostra aleatria de qualquer populao (com varincia finita),
quando padronizada, tem uma distribuio normal padro assimpttica.
TEOREMA DO LIMITE CENTRAL
Seja {Y1, Y2, ..., Yn} uma amostra aleatria com mdia  e varincia 2. Ento,

Zn 

Yn  m
s/n

(C.12)

tem uma distribuio normal padro assimpttica.




A varivel Zn em (C.12) a verso padronizada de Yn : subtramos E( Yn)   e dividimos por

dp( Yn)  /n. Dessa forma, independentemente da distribuio populacional de Y, Zn ter mdia
zero e varincia um, que coincide com a mdia e a varincia da distribuio normal padro.
Notadamente, a totalidade da distribuio de Zn se aproxima arbitrariamente da distribuio normal
padro conforme n vai ficando maior.

Podemos escrever a varivel padronizada na equao (C.12) como n( Yn  )/, que mostra
que devemos multiplicar a diferena entre a mdia amostral e a mdia populacional pela raiz quadrada do tamanho da amostra, para obtermos uma distribuio limitada proveitosa. Sem a multiplicao

por n, apenas teramos ( Yn  )/, que converge em probabilidade para zero. Em outras palavras,

a distribuio de ( Yn  )/ simplesmente cai para um nico ponto conforme n
, que sabemos

no poder ser uma boa aproximao para a distribuio de ( Yn  )/ para amostras de tamanhos
razoveis. A multiplicao por n garante que a varincia de Zn permanea constante. Na prtica,

comum tratarmos Yn como aproximadamente normalmente distribuda com mdia  e varincia 2/n,
e isso nos d os procedimentos estatsticos corretos, pois leva varivel padronizada na equao
(C.12).
A maioria dos estimadores encontrados em estatstica e econometria pode ser escrita como funes de mdias amostrais, caso em que podemos aplicar a lei dos grandes nmeros e o teorema do
limite central. Quando dois estimadores consistentes tm distribuies normais assimptticas, selecionamos o estimador com a menor varincia assimpttica.

68

Introduo Econometria Editora Thomson

Alm da mdia amostral padronizada em (C.12), muitas outras estatsticas que dependem de
mdias amostrais acabam sendo assimptoticamente normais. Uma estattica importante obtida pela
substituio de  por seu estimador consistente Sn na equao (C.12):
Yn  m
Sn /n

(C.13)

tambm tem uma distribuio normal padro aproximada para n grande. As distribuies exatas (amostra finita) de (C.12) e (C.13) no so, definitivamente, as mesmas, mas a diferena ser com freqncia pequena o suficiente para ser ignorada para n grande.
Em toda esta seo, cada estimador tem tido um subscrito n para enfatizar a natureza da anlise
assimpttica ou de amostra grande. A continuao dessa conveno confundir a notao sem fornecer informaes adicionais, uma vez que os fundamentos da anlise assimpttica tenham sido compreendidos. De agora em diante, eliminaremos o subscrito n e confiaremos que voc se lembrar que
os estimadores dependem do tamanho da amostra, e que propriedades como consistncia e normalidade assimpttica referem-se ao crescimento do tamanho da amostra sem limites.

C.4 MTODOS GERAIS DE ESTIMAO DE PARMETROS


At aqui, usamos a mdia amostral para ilustrar as propriedades dos estimadores finitos e de amostras
grandes. natural perguntar se h mtodos gerais de estimao que produzem estimadores com boas
propriedades, tais como a inexistncia de vis, consistncia e eficincia.
A resposta sim. Uma abordagem detalhada de vrios mtodos de estimao est alm do escopo
deste trabalho; aqui apresentamos somente uma discusso informal. Um exame completo feito por
Larsen e Marx (1986, Captulo 5).

Mtodo dos Momentos


Dado um parmetro  aparecendo em uma distribuio populacional, usualmente existem muitas
maneiras para obter estimadores no-viesados e consistentes de . Tentar todas as diferentes possibilidades e compar-las com base nos critrios das sees C.2 e C.3 no prtico. Felizmente, alguns
mtodos tm mostrado ter boas propriedades gerais e, na maior parte, a lgica deles intuitivamente
interessante.
Nas sees anteriores, estudamos a mdia amostral como um estimador no-viesado da mdia
populacional e a varincia amostral como um estimador no-viesado da varincia populacional. Esses
estimadores so exemplos de estimadores obtidos pelo mtodo dos momentos. De forma geral, a estimao pelo mtodo dos momentos feita da seguinte maneira: o parmetro  mostrado como relacionado com algum valor esperado na distribuio de Y, em geral E(Y) ou E(Y2) (embora algumas vezes
sejam usadas escolhas menos comuns). Suponha, por exemplo, que o parmetro de interesse, , seja
relacionado com a mdia populacional como   g() para alguma funo g. Como a mdia amostral


Y um estimador no-viesado e consistente de , natural substituir  por Y, o que nos dar o esti

mador g( Y) de . O estimador g( Y) ser consistente para , e se g() for uma funo linear de , ento,

g( Y) tambm ser no-viesado. O que fizemos foi substituir o momento populacional, , por seu equi
valente amostral, Y. da que vem o nome mtodo dos momentos.
Tratamos de mais dois estimadores pelo mtodo dos momentos que sero teis para nossa discusso sobre a anlise de regresso. Recorde-se de que a covarincia entre duas variveis aleatrias

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

69

X e Y definida como XY  E[(X  X)(Y  Y)]. O mtodo dos momentos sugere estimar XY por
n


n1 (Xi  X )(Yi  Y ). Este ser um estimador consistente de XY, mas ele ser viesado essencial-

i1

mente pela mesma razo que a varincia amostral ser viesada se n, em lugar de n  1, for usado como
divisor. A covarincia amostral definida como

SXY 

n
1
(X  X)(Yi  Y ).
n  1 i1 i

(C.14)

possvel mostrar que este um estimador no-viesado de XY. (A substituio de n por n  1 no


faz diferena se o tamanho da amostra crescer indefinidamente, de modo que este estimador ainda ser
consistente.)
Como discutimos na seo B.4, a covarincia entre duas variveis muitas vezes difcil de ser
interpretada. Em geral, estamos mais interessados na correlao. Como a correlao populacional

XY  XY /(XY), o mtodo dos momentos sugere estimar


XY como
n

S
RXY  XY 
SX SY

 (X  X)(Y  Y)
i

i1


n

i1

 

(Xi  X)2

1/2

(Yi  Y)2

i1

1/2

(C.15)

que chamado coeficiente de correlao amostral (ou, abreviadamente, correlao amostral).


Observe que cancelamos a diviso por n  1 na covarincia amostral e nos desvios-padro amostrais.
Na realidade, poderamos dividir cada um deles por n e chegar na mesma frmula final.
possvel mostrar que o coeficiente de correlao amostral estar sempre no intervalo [1,1],
como deveria ser. Como SXY, SX e SY so consistentes em relao ao parmetro populacional correspondente, RXY um estimador consistente da correlao populacional,
XY. Entretanto, RXY ser um
estimador viesado por duas razes. Primeiro, SX e SY so estimadores viesados de X e Y, respectivamente. Segundo, RXY uma razo de estimadores, e assim ele no seria no-viesado, mesmo se SX e SY
fossem. Para nosso propsito, isso no importante, embora o fato de no existir um estimador noviesado de
XY seja um resultado clssico em estatstica matemtica.

Mxima Verossimilhana
Outro mtodo geral de estimao o da mxima verossimilhana, um assunto tratado em muitos cursos introdutrios de estatstica. Um breve resumo do caso mais simples ser suficiente aqui. Seja
{Y1, Y2, ..., Yn} uma amostra aleatria da distribuio populacional f(y;). Devido hiptese de
amostragem aleatria, a distribuio conjunta de {Y1, Y2, ..., Yn} ser simplesmente o produto das
densidades: f(y1;)f(y2;) f(yn;). No caso discreto, isso ser P(Y1  y1, Y2  y2, ..., Yn  yn).
Agora, defina a funo de verossimilhana como
V(;Y1, ...,Yn)  f(Y1;)f(Y2;) f(Yn;),
que ser uma varivel aleatria, pois ela depende do resultado da amostra aleatria {Y1, Y2, ..., Yn}. O
estimador de mxima verossimilhana de , vamos cham-lo de W, ser o valor de  que maximiza

70

Introduo Econometria Editora Thomson

a funo de verossimilhana. (Esse o motivo pelo qual escrevemos V como uma funo de , seguido
da amostra aleatria). Claramente, esse valor depende da amostra aleatria. O princpio da mxima
verossimilhana diz que, de todos os valores possveis de , o valor que torna a verossimilhana do
dado observado a maior deve ser escolhido. Intuitivamente, esse um mtodo razovel de estimar .
Geralmente, mais conveniente trabalhar com a funo log-verossimilhana, que obtida tomando-se o log natural da funo de verossimilhana:
log[V(; Y1, , Yn)] 

 log [ f(Yi; )],

(C.16)

i1

quando usamos o fato de que o log do produto a soma dos logs. Como (C.16) a soma de variveis
aleatrias independentes e identicamente distribudas, analisar os estimadores que decorrem de (C.16)
relativamente fcil.
A estimao da mxima verossimilhana (EMV) em geral consistente e algumas vezes no-viesada. Mas tambm o so muitos outros estimadores. A atrao da EMV que ela geralmente fornece
o estimador mais assimptoticamente eficiente quando o modelo populacional f(y;) corretamente
especificado. Alm disso, a EMV algumas vezes o estimador no-viesado de varincia mnima;
isto , ela tem a menor varincia entre os estimadores no-viesados de . [Veja Larsen e Marx (1986,
Captulo 5) para verificar essas afirmaes.]
No Captulo 17, precisaremos da mxima verossimilhana para estimar os parmetros de modelos
economtricos mais avanados. Em econometria, estamos quase sempre interessados na distribuio
de Y condicional a um conjunto de variveis explicativas, digamos X1, X2, ..., Xk. Depois, substitumos a densidade em (C.16) por f(Y1 | Xi1, ..., Xik ; 1, ..., p), onde permitida a essa densidade depender de p parmetros, 1, ..., p. Felizmente, para aplicaes bem-sucedidas de mtodos de mxima
verossimilhana, no precisamos nos aprofundar muito nos problemas computacionais ou na teoria
estatstica de amostras grandes. Wooldridge (2002, Captulo 13) trata da teoria da estimao por mxima verossimilhana.

Mnimos Quadrados
Um terceiro tipo de estimador, e um que tem um papel importante ao longo de todo este livro, chamado de estimador de mnimos quadrados. J vimos um exemplo de mnimos quadrados: a mdia


amostral Y um estimador de mnimos quadrados da mdia populacional, . J sabemos que Y um
estimador pelo mtodo dos momentos. O que o torna um estimador de mnimos quadrados? possvel mostrar que o valor de m que torna a soma dos desvios quadrados
n

 (Yi  m)2

i1


to pequena quanto possvel m  Y. Demonstrar isso no difcil, mas omitiremos a lgebra.

Para algumas distribuies importantes, inclusive a normal e a de Bernoulli, a mdia amostral Y
tambm o estimador de mxima verossimilhana da mdia populacional . Assim, os princpios dos
mnimos quadrados, do mtodo dos momentos e da mxima verossimilhana muitas vezes resultam no
mesmo estimador. Em outros casos, os estimadores so semelhantes, mas no idnticos.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

71

C.5 ESTIMAO POR INTERVALO E INTERVALOS DE CONFIANA


A Natureza da Estimao por Intervalo
Uma estimativa por ponto obtida a partir de uma amostra particular no fornece, por si s, informaes
suficientes para testar teorias econmicas ou para explicar detalhes de decises. Uma estimativa por
ponto poder ser a melhor suposio do pesquisador do valor da populao, mas, por sua natureza, ela
no fornece informao sobre o quanto provvel que ela deva estar prxima do parmetro populacional. Como um exemplo, suponha que um pesquisador descreva, com base em uma amostra aleatria de trabalhadores, que os subsdios de treinamento de pessoal aumentam o salrio por hora em 6,4%.
Como poderemos saber se ou no esse nmero est prximo do efeito na populao de trabalhadores
que podem ter sido treinados? Como no conhecemos o valor da populao, no podemos saber o
quanto est prxima uma estimativa de determinada amostra. Porm, podemos fazer afirmaes envolvendo probabilidades, e aqui que entra a estimao por intervalo.
J conhecemos uma maneira de avaliar a incerteza em um estimador: encontre seu desvio-padro
amostral. Informar o desvio-padro do estimador, com a estimativa por ponto, fornece alguma informao sobre a preciso de nossa estimativa. Porm, mesmo se o problema da dependncia do desviopadro em relao a parmetros populacionais desconhecidos for ignorada, informar o desvio-padro
do estimador, com a estimativa por ponto, no significa qualquer afirmao direta sobre onde o valor
da populao provavelmente estar em relao estimativa. Essa limitao superada pela construo
de um intervalo de confiana.
Ilustramos o conceito de um intervalo de confiana com um exemplo. Suponha que a populao
tem uma distribuio Normal(,1) e seja {Y1, ..., Yn} uma amostra aleatria dessa populao.
(Assumimos que a varincia da populao conhecida e igual a unidade para o fim desta ilustrao;
depois mostraremos o que fazer no caso mais real em que a varincia desconhecida.) A mdia amos

tral, Y, tem uma distribuio normal com mdia  e varincia 1/n: Y ~ Normal(,1/n). A partir da pode

mos padronizar Y, e como a verso padronizada de Y tem uma distribuio normal padro, teremos

P 1,96 

Y
1/n

 1,96  0,95.



O evento entre parnteses idntico ao evento Y  1,96/n    Y  1,96/n, e, portanto,

P(Y 1,96/n    Y  1,96/n)  0,95.

(C.17)

A equao (C.17) interessante por nos informar que a probabilidade de o intervalo aleatrio


[ Y  1,96/n, Y  1,96/n] conter a mdia populacional  de 0,95, ou 95%. Essa informao nos
permite construir uma estimativa por intervalo de , que obtida pela agregao do resultado amostral da mdia, y. Assim,
[
y  1,96/n,
y  1,96/n]

(C.18)

um exemplo de uma estimativa por intervalo de . Ela tambm chamada de intervalo de confiana
de 95%. Uma notao abreviada desse intervalo y 1,96/n.

72

Introduo Econometria Editora Thomson

fcil calcular o intervalo de confiana na equao (C.18), logo que os dados da amostra {y1, y2,
..., yn} sejam observados; 
y o nico fator que depende dos dados. Por exemplo, suponha que n  16
e que a mdia dos 16 pontos de dados seja 7,3. Ento, o intervalo de confiana de 95% de  ser 7,3
1,96/16  7,3 0,49, que podemos escrever na forma de intervalo como [6,81; 7,79]. Por construo, 
y  7,3 est no centro desse intervalo.
Ao contrrio de seu clculo, o significado de um intervalo de confiana mais difcil de entender.
Quando dizemos que a equao (C.18) um intervalo de confiana de 95% de , queremos dizer que
o intervalo aleatrio


[ Y  1,96/n, Y  1,96/n]

(C.19)

contm  com uma probabilidade de 0,95. Em outras palavras, antes de extrair a amostra aleatria,
existe 95% de possibilidade de que (C.19) contenha . A equao (C.19) um exemplo de um estimador por intervalo. Ele um intervalo aleatrio, pois as extremidades mudam com diferentes amostras.
Um intervalo de confiana muitas vezes interpretado da seguinte maneira: a probabilidade de
que  esteja no intervalo (C.18) de 95%. Isso incorreto. Uma vez que a amostra tenha sido observada e y tenha sido calculado, os limites do intervalo de confiana sero simplesmente nmeros (6,81
e 7,79 no exemplo dado). O parmetro populacional, , embora desconhecido, tambm ser apenas
algum nmero. Portanto,  estar ou no no intervalo (C.18) (e nunca saberemos com certeza se isso
verdadeiro). A probabilidade no desempenha papel algum, uma vez que o intervalo de confiana
tenha sido calculado para os dados disponveis. A interpretao probabilstica advm do fato de que,
para 95% de todas as amostras aleatrias, o intervalo de confiana construdo contm .
Para destacar o significado de um intervalo de confiana, a Tabela C.2 contm clculos para 20
amostras aleatrias da distribuio Normal(2,1) com amostras de tamanho n  10. Para cada uma das
y obtido, e (C.18) calculado como 
y 1,96/10  
y 0,62 (cada qual arredonda20 amostras, 
do para duas casas decimais). Como possvel ver, o intervalo muda com cada amostra aleatria.
Dezenove dos 20 intervalos contm o valor populacional de . Somente na amostra nmero 19  no
est no intervalo de confiana. Em outras palavras, 95% das amostras resultam em um intervalo de confiana que contm . Nem sempre esse o caso com somente 20 amostras, mas funcionou dessa
maneira nessa simulao em particular.
Tabela C.2
Intervalos de Confiana Simulados para uma Distribuio Normal(,1) com   2

Amostra

Intervalo de 95%

Contm ?

1,98

(1,36;2,60)

Sim

1,43

(0,81;2,05)

Sim

1,65

(1,03;2,27)

Sim

1,88

(1,26;2,50)

Sim

2,34

(1,72;2,96)

Sim

2,58

(1,96;3,20)

Sim
(Continua...)

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

73

Tabela C.2 (continuao)


Intervalos de Confiana Simulados para uma Distribuio Normal(,1) com   2

Amostra

Intervalo de 95%

Contm ?

1,58

(0,96;2;20)

Sim

2,23

(1,61;2,85)

Sim

1,96

(1,34;2,58)

Sim

10

2,11

(1,49;2,73)

Sim

11

2,15

(1,53;2,77)

Sim

12

1,93

(1,31;2,55)

Sim

13

2,02

(1,40;2,64)

Sim

14

2,10

(1,48;2,72)

Sim

15

2,18

(1,56;2,80)

Sim

16

2,10

(1,48;2,72)

Sim

17

1,94

(1,32;2,56)

Sim

18

2,21

(1,59;2,83)

Sim

19

1,16

(0,54;1,78)

No

20

1,75

(1,13;2,37)

Sim

Intervalos de Confiana para a Mdia de uma Populao Normalmente


Distribuda
O intervalo de confiana derivado na equao (C.18) ajuda a ilustrar como construir e interpretar intervalos de confiana. Na prtica, a equao (C.18) no muito til para a mdia de uma populao normal porque ela assume que a varincia conhecida e igual unidade.
fcil estender (C.18) para o caso no qual o desvio-padro  conhecido e pode ser qualquer
valor: o intervalo de confiana de 95% ser
[ y  1,96/n,y  1,96n].

(C.20)

Portanto, desde que  seja conhecido, um intervalo de confiana para  ser prontamente construdo. Para possibilitar o uso de  desconhecido, precisaremos usar uma estimativa. Seja
s

n
1
(y  y)2
n  1 i1 i

1/2

(C.21)

o desvio-padro amostral. Ento, obtemos um intervalo de confiana, que depender inteiramente dos
dados observados, pela substituio de  na equao (C.20) por sua estimativa, s. Infelizmente, isso

74

Introduo Econometria Editora Thomson

no preservar o nvel de confiana de 95%, porque s depende da amostra especificada. Em outras


palavras, o intervalo aleatrio [
Y 1,96(S/n)] no mais conter  com probabilidade 0,95, pois a
constante  foi substituda pela varivel aleatria S.
Como devemos proceder? Em vez de usar a distribuio normal padro, devemos recorrer distribuio t. A distribuio t surge do fato de que
Ym
S/n

 tn1,

(C.22)

onde 
Y a mdia amostral e S o desvio-padro amostral da amostra aleatria {Y1, ..., Yn}. No provaremos (C.22); uma prova cuidadosa pode ser encontrada em diversos lugares [por exemplo, Larsen
e Marx (1988, Captulo 7)].
Para construir um intervalo de confiana, seja c o 97,5o percentil na distribuio tn1. Em outras
palavras, c o valor tal que 95% da rea em tn1 estar entre c e c: P(c  tn1  c)  0,95. (O
valor de c depende dos graus de liberdade n  1, mas no tornamos isso explcito.) A escolha da c est
ilustrada na Figura C.4. Uma vez c tenha sido escolhido de maneira apropriada, o intervalo aleatrio
[
Y  c S/n, 
Y  c S/n] conter  com probabilidade 0,95. Para uma determinada amostra, o
intervalo de confiana de 95% ser calculado como
[ y  c s/n, y  c s/n].

(C.23)

Figura C.4
O 97,5o percentil, c, em uma distribuio t.

rea  0,95

rea  0,25

rea  0,25

C

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

75

Os valores de c para vrios graus de liberdade podem ser obtidos da Tabela G.2 no Apndice G.
Por exemplo, se n  20, de forma que gl seja n  1  19, ento, c  2,093. Assim, o intervalo de confiana de 95% ser [y 2,093(s/20)], onde y e s so os valores obtidos da amostra. Mesmo se s  
(o que ser muito pouco provvel), o intervalo de confiana em (C.23) ser mais amplo que o de (C.20),
pois c  1,96. Para poucos graus de liberdade, (C.23) ser muito mais amplo.
De forma mais geral, seja c o percentil 100(1  ) na distribuio tn1. Ento, um intervalo de
confiana de 100(1  )% ser obtido como
[ y  c/2s/n, y  c/2s/n].

(C.24)

A obteno de c/2 exige que se escolha  e o conhecimento dos graus de liberdade n  1; depois, a
tabela G.2 poder ser usada. Na maior parte do tempo, nos concentraremos em intervalos de confiana
de 95%.
Existe uma maneira simples de se lembrar como construir um intervalo de confiana para a mdia de
uma distribuio normal. Recorde que dp(
Y )  /n. Assim, s/n a estimativa por ponto de dp(
Y ).
A varivel aleatria associada, S/n, algumas vezes chamada de erro-padro de 
Y. Como o que aparece nas frmulas a estimativa por ponto s/n, definimos o erro-padro de y como ep(y )  s/n. Ento,
(C.24) pode ser escrita abreviadamente como
[ y c/2 ep( y )].

(C.25)

Essa equao mostra porque a noo do erro-padro de uma estimativa desempenha um papel importante em econometria.

EXEMPLO C.2
(Efeitos dos Subsdios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)

Holzer, Block, Cheatham e Knott (1993) estudaram os efeitos dos subsdios de treinamento de pessoal sobre
a produtividade dos trabalhadores, coletando informaes sobre taxas de rejeio de uma amostra de
empresas industriais de Michigan que haviam recebido subsdios de treinamento de pessoal em 1988. A
Tabela C.3 relaciona as taxas de rejeio medidas como o nmero de itens, de cada 100 produzidos, que
no estavam em condies de uso e, portanto, seriam rejeitados para 20 empresas. Cada uma dessas
empresas recebeu subsdios de treinamento de pessoal em 1988; no houve subsdios em 1987. Estamos
interessados em construir um intervalo de confiana para a mudana na taxa de rejeio de 1987 para 1988,
para a populao de todas as empresas industriais que poderiam ter recebido subsdios.
Assumimos que a mudana nas taxas de rejeio tem uma distribuio normal. Como n  20, um
intervalo de confiana de 95% da mudana mdia nas taxas de rejeio  ser [y 2,093 ep(y )], onde
ep(y )  s/n. O valor 2,093 o 97,5o percentil em uma distribuio t19. Para os valores amostrais especficos, y  1,15 e ep(y )  0,54 (arredondados para duas casas decimais), e, assim, o intervalo de confiana de 95% ser [2,28,0,02]. O valor zero foi excludo desse intervalo, de modo que conclumos que, com
confiana de 95%, a mudana mdia nas taxas de rejeio na populao no ser zero.

76

Introduo Econometria Editora Thomson

EXEMPLO C.2 (continuao)


Tabela C.3
Taxas de Rejeio de 20 Empresas Industriais de Michigan

Empresa

1987

1988

Alterao

10

7

1

0,45

0,5

0,05

1,25

1,54

0,29

1,3

1,5

0,2

1,06

0,8

0,26

1

8,18

0,67

7,51

10

1,67

1,17

0,5

11

0,98

0,51

0,47

12

0,5

0,5

13

0,45

0,61

0,16

14

5,03

6,7

1,67

15

4

16

2

17

18

19

18

0,28

0,2

0,08

19

2

20

3,97

3,83

0,14

Mdia

4,38

3,23

1,15

Neste ponto, o Exemplo C.2 bastante ilustrativo, pois ele tem algumas imperfeies potencialmente srias como uma anlise economtrica. De forma mais importante, ele assume que qualquer
reduo sistemtica nas taxas de rejeio deve-se aos subsdios de treinamento de pessoal. Entretanto,
muita coisa pode acontecer no decurso do ano para alterar a produtividade dos trabalhadores. A partir
dessa anlise, no temos meios de saber se a queda na mdia das taxas de rejeio atribuvel aos subsdios de treinamento ou se, pelo menos parcialmente, outra causa externa foi a responsvel.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

77

Uma Regra Prtica Simples para um Intervalo de Confiana de 95%


O intervalo de confiana em (C.25) pode ser calculado para qualquer tamanho de amostra e qualquer
nvel de confiana. Como vimos na seo B.4, a distribuio t se aproxima da distribuio normal
padro conforme os graus de liberdade aumentam. Particularmente, para   0,05, c/2 1,96 quando
n
, embora c/2 seja sempre maior que 1,96 para cada n. Uma regra prtica para um intervalo de
confiana aproximado de 95%
[ y 2 ep( y )].

(C.26)

Em outras palavras, obtemos y e seu erro-padro e depois calculamos y mais e menos duas vezes
seu erro-padro para obter o intervalo de confiana. Isso um pouco amplo demais para n muito grande,
e estreito demais para n pequeno. Como podemos ver pelo exemplo C.2, mesmo para um n to pequeno
como 20, (C.26) est muito prximo do intervalo de confiana de 95% da mdia de uma distribuio
normal. Isso significa que podemos chegar muito prximos de um intervalo de confiana de 95% sem
termos de recorrer s tabelas t.

Intervalos de Confiana Assimptticos para Populaes No-Normais


Em algumas aplicaes, a populao claramente no-normal. Um caso destacado a distribuio de
Bernoulli, na qual a varivel aleatria assume somente os valores zero e um. Em outros casos, a populao no-normal no tem qualquer distribuio padro. Isso no tem importncia, desde que o tamanho da
amostra seja suficientemente grande para que o teorema do limite central produza uma boa aproximao

da distribuio da mdia amostral Y. Para n grande, um intervalo de confiana de 95% aproximado ser
[ y 1,96 ep( y )],

(C.27)

onde o valor 1,96 o 97,5o percentil na distribuio normal padro. Mecanicamente, calcular um intervalo de confiana aproximado no difere do caso normal. Uma pequena diferena o fato de o nmero
que multiplica o erro padro vir da distribuio normal padro, em vez da distribuio t, pois estamos
usando um tratamento assimpttico. Como a distribuio t se aproxima da normal padro medida que
os gl aumentam, a equao (C.25) tambm perfeitamente legtima como um intervalo aproximado de
95%; alguns preferem essa equao a (C.27), pois a primeira exata para populaes normais.

EXEMPLO C.3
(Discriminao Racial na Contratao de Trabalhadores)

O Urban Institute conduziu um estudo em 1988, em Washington, D.C., para examinar a extenso da discriminao racial na contratao de trabalhadores. Cinco duplas de pessoas foram entrevistadas para vrias ofertas de
emprego. Em cada dupla, uma pessoa era negra, e a outra branca. Todos portavam currculos indicando que
tinham virtualmente os mesmos graus de experincia, educao e outros fatores que determinavam a qualificao para os cargos. A idia era tornar os indivduos to semelhantes quanto possvel, com exceo da raa. Cada
pessoa da mesma dupla se candidatou ao mesmo emprego, e os pesquisadores registraram quem recebeu uma
oferta de emprego. Esse um exemplo de uma anlise de pares comparados, na qual cada observao consiste

78

Introduo Econometria Editora Thomson

EXEMPLO C.3 (continuao)

de dados sobre duas pessoas (ou duas empresas, duas cidades etc.) que so tidas como semelhantes em muitos
aspectos, mas diferentes em uma caracterstica importante.
Seja N a probabilidade de que a pessoa negra receba uma oferta de emprego e B seja a probabilidade de que a pessoa branca receba a oferta. Estamos basicamente interessados na diferena N  B.
Seja Ni uma varivel de Bernoulli igual a um se a pessoa negra conseguir uma oferta de emprego do
empregador i, e zero, caso contrrio. Semelhantemente, Bi  1 se a pessoa branca conseguir uma oferta
de emprego do empregador i, e zero, caso contrrio. Agrupando as cinco duplas de pessoas, houve um
total de n  241 observaes (pares de entrevistas com os candidatos). Estimadores no-viesados de N
e B so N e B, as fraes de entrevistas para as quais foram oferecidas propostas de emprego aos negros
e brancos, respectivamente.
Para colocar tudo isso em uma estrutura para calcular um intervalo de confiana de uma mdia populacional, defina uma nova varivel Yi  Ni  Bi. Agora, Yi pode assumir trs valores: 1 se a pessoa negra
no recebeu a proposta de emprego, mas a pessoa branca recebeu, 0 se ambas as pessoas conseguiram ou
no o emprego, e 1 se a pessoa negra conseguiu o emprego e a pessoa branca no. Ento,   E(Yi) 
E(Ni)  E(Bi)  N  B.
A distribuio de Yi certamente no normal ela discreta e assume somente trs valores. No entanto, um intervalo de confiana aproximado de N  B pode ser obtido usando mtodos de amostras grandes.

 0,357, de modo que y  0,224 


Usando os 241 pontos de dados observados, b  0,224 e w
0,357  0,133. Assim, 22,4% dos candidatos negros receberam oferta de emprego, enquanto a oferta
de emprego foi oferecida a 35,7% dos brancos. Isso evidncia prima facie de discriminao contra os
negros, mas podemos descobrir muito mais calculando um intervalo de confiana para . Para calcular um
intervalo de confiana aproximado de 95%, precisamos do desvio-padro da amostra. Obtemos s  0,482
[usando a equao (C.21)]. Usando (C.27), obteremos um IC de 95% de   N  B como 0,133
1,96(0,482/241)  0,133 0,031  [0,164, 0,102]. O IC de 99% ser 0,133
2,58(0,482/241)  [0,213, 0,053]. Naturalmente, esse intervalo contm um leque mais amplo de
valores que o IC de 95%. Mas mesmo o IC de 99% no contm o valor zero. Portanto, estamos bastante
confiantes que a diferena populacional N  B no zero.

Precisamos fazer um comentrio final antes de abandonarmos o tpico de intervalo de confiana.


Como o erro-padro de y, ep(y)  s/n, se contrai para zero conforme o tamanho da amostra cresce,
vemos que tudo mais mantido igual um tamanho maior de amostra significa um intervalo de confiana menor. Assim, uma importante vantagem de uma amostra de tamanho grande que ela resulta
em intervalos de confiana menores.

C.6 TESTES DE HIPTESES


At agora, revimos como avaliar estimadores por ponto, e vimos no caso de uma mdia populacional como construir e interpretar intervalos de confiana. Entretanto, algumas vezes a questo na qual
estamos interessados tem uma resposta sim ou no bem definida. Eis alguns exemplos: (1) Um programa de treinamento de pessoal efetivamente aumenta a produtividade mdia dos trabalhadores? (veja o
exemplo C.2); (2) os negros so discriminados na contratao de trabalhadores? (veja o exemplo C.3);
(3) leis estaduais mais rigorosas contra dirigir embriagado reduzem o nmero de prises por esse delito? Os mtodos para responder a tais questes, usando uma amostra de dados, so conhecidos como
testes de hipteses.

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

79

Fundamentos dos Testes de Hipteses


Para ilustrar os problemas envolvidos com os testes de hipteses, considere um exemplo sobre eleies.
Suponha que haja dois candidatos em uma eleio, Candidatos A e B. O Candidato A recebeu 42% dos
votos populares, enquanto o Candidato B recebeu 58%. Esses nmeros supostamente representam as
porcentagens verdadeiras da populao votante e sero tratados como tais.
O Candidato A est convencido de que um nmero maior de pessoas deve ter votado nele, e,
assim, ele gostaria de investigar se a eleio foi burlada. Conhecendo um pouco de estatstica, esse candidato contrata uma empresa de consultoria para aleatoriamente extrair uma amostra de 100 eleitores
para registrar se cada pessoa votou ou no nele. Suponha que, para a amostra coletada, 53 pessoas votaram no Candidato A. Essa estimativa amostral de 53% claramente excede o valor populacional oficial
de 42%. O Candidato A deve concluir que a eleio foi realmente uma fraude?
Embora parea que tenha havido uma menor contagem de votos para o Candidato A, no podemos
ter certeza disso. Mesmo se apenas 42% da populao tenha votado no Candidato A, possvel que, em
uma amostra de 100 eleitores, observemos 53 pessoas que realmente votaram no Candidato A. A questo : o quanto forte a evidncia amostral contra a porcentagem oficial de 42% divulgada?
Uma maneira de proceder montar um teste de hiptese. Seja  a proporo verdadeira da populao que votou no Candidato A. A hiptese de que os resultados divulgados so precisos pode ser definida como
H0:   0,42.

(C.28)

Esse um exemplo de uma hiptese nula. Sempre representamos a hiptese nula por H0. Nos testes
de hipteses, a hiptese nula tem papel semelhante ao de um ru em julgamento em muitos sistemas
judiciais: da mesma forma que se presume que um ru inocente at que sua culpa seja provada, a
hiptese nula presumida como verdadeira at que os dados sugiram fortemente o contrrio. No exemplo em questo, o Candidato A dever apresentar evidncias bastante fortes contra (C.28) para ter direito
a uma recontagem dos votos.
A hiptese alternativa no exemplo da eleio que a proporo verdadeira dos votantes no
Candidato A na eleio seja maior que 0,42:
H1:   0,42.

(C.29)

Para concluir que H0 falsa, e H1 verdadeira, precisamos ter evidncia alm da dvida razovel contra H0. Quantos votos dos 100 seriam necessrios para sentir que a evidncia seria fortemente contra H0?
A maioria das pessoas concordaria que a observao de 43 votos em uma amostra de 100 eleitores no
seria suficiente para reverter os resultados originais da eleio; tal resultado est bem dentro da variao amostral esperada. Por outro lado, no precisaremos observar 100 votos para o Candidato A para
lanarmos dvidas sobre H0. Se 53 em 100 um nmero suficiente para rejeitar H0, isso muito menos
claro. A resposta depender de como quantificamos a expresso alm da dvida razovel.
Nos testes de hipteses, podemos cometer dois tipos de enganos. Primeiro, podemos rejeitar a hiptese nula quando na verdade ela verdadeira. Esse o chamado erro tipo I. No exemplo das eleies,
um erro tipo I ocorrer se rejeitarmos H0 quando a proporo verdadeira das pessoas que votaram no
Candidato A for de fato 0,42. O segundo tipo de erro a impossibilidade de rejeitar H0 quando ela for
efetivamente falsa. Esse o chamado erro tipo II. No exemplo das eleies, um erro tipo II ocorrer se
  0,42, mas no pudermos rejeitar H0.

80

Introduo Econometria Editora Thomson

Aps termos tomado a deciso de rejeitar ou no a hiptese nula, ou nossa deciso foi correta ou
cometemos um erro. Nunca saberemos com certeza se um erro foi cometido. Porm, podemos calcular a probabilidade de cometer um erro tipo I ou um erro tipo II. As regras dos testes de hipteses so
construdas para fazer com que a probabilidade de cometer um erro tipo I seja muito pequena. De
forma geral, definimos o nvel de significncia (ou simplesmente o nvel) de um teste como a probabilidade de um erro tipo I; isso geralmente representado por . Simbolicamente, temos
  P(Rejeitar H0 |H0).

(C.30)

O lado direito da equao lido como: A probabilidade de rejeitar H0 supondo que H0 seja verdadeira.
Os testes clssicos de hipteses exigem que inicialmente especifiquemos um nvel de significncia do teste. Quando especificamos um valor de , estamos essencialmente quantificando nossa
tolerncia para um erro tipo I. Valores comuns de  so 0,10, 0,05, e 0,01. Se   0,05, o pesquisador estar querendo falsamente rejeitar H0 em 5% das vezes, de maneira a detectar desvios em relao a H0.
Uma vez determinado o nvel de significncia, ento, gostaramos de minimizar a probabilidade
de um erro tipo II. Alternativamente, gostaramos de maximizar o poder de um teste contra todas as
alternativas relevantes. O poder de um teste simplesmente um menos a probabilidade de um erro tipo
II. Matematicamente,
()  P(Rejeitar H0 |)  1  P(Tipo II|),
onde  representa o valor efetivo do parmetro. Naturalmente, gostaramos que o poder seja igual unidade sempre que a hiptese nula for falsa. Mas isso impossvel de ser atingido mantendo pequeno o
nvel de significncia. Em vez disso, preferimos que nosso teste maximize o poder para determinado nvel
de significncia.

Testes de Hipteses sobre a Mdia em uma Populao Normal


Para testar a hiptese nula contra uma alternativa, precisamos escolher uma estatstica de teste (ou estatstica, resumidamente) e um valor crtico. A escolha da estatstica e do valor crtico baseada na convenincia e no desejo de maximizar o poder do teste, dado um nvel de significncia do teste. Nesta
subseo examinaremos como testar hipteses para a mdia de uma populao normal.
Uma estatstica de teste, representada por T, alguma funo da amostra aleatria. Quando calculamos a estatstica para um determinado resultado, obtemos um resultado da estatstica de teste, que
denominaremos t.
Dada uma estatstica de teste, podemos definir uma regra de rejeio que determine quando H0
deve ser rejeitada em favor de H1. Neste texto, todas as regras de rejeio so baseadas na comparao
do valor de uma estatstica de teste, t, com um valor crtico, c. Os valores de t que resultam na rejeio da hiptese nula so coletivamente conhecidos como regio de rejeio. Para determinarmos o
valor crtico, primeiro devemos decidir sobre um nvel de significncia do teste. Em seguida, dado ,
o valor crtico associado com  determinado pela distribuio de T, assumindo que H0 seja verdadeira.
Escreveremos esse valor crtico como c, omitindo o fato de que ele depende de .
Testar hipteses sobre a mdia  de uma populao Normal(,2) simples. A hiptese nula
definida como

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

H0:   0,

81

(C.31)

onde 0 um valor que especificamos. Na maioria das aplicaes, 0  0, mas o caso generalizado
no mais difcil do que isso.
A regra de rejeio que escolheremos depender da natureza da hiptese alternativa. As trs alternativas de interesse so
H1:   0,

(C.32)

H1:   0,

(C.33)

H1:  0.

(C.34)

A equao (C.32) produz uma alternativa unilateral, como tambm (C.33). Quando a hiptese alternativa for (C.32), a hiptese nula ser efetivamente H0:   0, j que somente rejeitaremos H0 quando
  0. Isso ser apropriado quando estivermos interessados no valor de  somente quando  for pelo
menos to grande quanto 0. A equao (C.34) uma alternativa bilateral. Ela ser apropriada quando
estivermos interessados em qualquer desvio da hiptese nula.
Considere primeiro a alternativa (C.32). Intuitivamente, deveramos rejeitar H0 em favor de H1
quando o valor da mdia amostral, y, fosse suficientemente maior que 0. Mas como devemos determinar quando y grande o suficiente para que H0 seja rejeitada ao nvel de significncia escolhido? Isso
requer que se conhea a probabilidade de rejeitar a hiptese nula quando ela for verdadeira. Em vez de
trabalhar diretamente com y, usamos sua verso padronizada, na qual  substitudo pelo desviopadro amostral, s:
t  n(y  0)/s  (y  0)/ep( y),

(C.35)

onde ep( y)  s/n o erro-padro de y. Dada a amostra de dados, fcil obter t. A razo pela qual
trabalhamos com t que, de acordo com a hiptese nula, a varivel aleatria
T  n(
Y  0)/S
tem uma distribuio tn1. Agora, suponha que tenhamos nos fixado em um nvel de significncia de
5%. Ento, o valor crtico c ser determinado de forma que P(T  c|H0)  0,05; ou seja, a probabilidade de um erro tipo I de 5%. Uma vez encontrado c, a regra de rejeio ser
t  c,

(C.36)

82

Introduo Econometria Editora Thomson

onde c o percentil 100(1  ) em uma distribuio tn1; em forma de porcentagem, o nvel de significncia 100 %. Esse um exemplo de um teste monocaudal, pois a regio de rejeio est em
uma extremidade da distribuio t. Para um nvel de significncia de 5%, c ser o 95o percentil na distribuio tn1; isso est ilustrado na Figura C.5. Um nvel diferente de significncia leva a um valor
crtico diferente.
A estatstica na equao (C.35) muitas vezes chamada de estatstica t para testar H0:   0.
A estatstica t mede a distncia de y a 0 em relao ao erro-padro de y, ep( y).

EXEMPLO C.4
(Efeito das Zonas Industriais sobre os Investimentos Empresariais)

Na populao de cidades onde foram criadas zonas industriais em determinado estado [veja o caso de Indiana
em Papke (1994)], seja Y a mudana percentual nos investimentos do ano anterior ao ano posterior em que
uma cidade se tornou uma zona industrial. Assuma que Y tem uma distribuio Normal(,2). A hiptese nula
de que zonas industriais no tm efeito nos investimentos H0:   0; a alternativa de que elas tm um efeito positivo H1:   0. (Assumimos que elas no tm um efeito negativo). Suponha que queremos testar H0
ao nvel de 5%. O teste estatstico nesse caso ser
t

y
s/n

y
.
ep(y)

(C.37)

Figura C.5
Regio de rejeio para um teste ao nvel de significncia de 5% contra a alternativa unilateral   0.

rea  0,95

rea  0,05

0
C

rejeio

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

83

EXEMPLO C.4 (continuao)

Suponha que temos uma amostra de 36 cidades onde foram criadas zonas industriais. Nesse caso, o valor crtico ser c  1,69 (veja Tabela G.2), e rejeitamos H0 em favor de H1 se t  1,69. Suponha que a amostra produza y  8,2 e s  23,9. Ento, t  2,06 e H0 ser, portanto, rejeitada ao nvel de 5%. Assim, conclumos
que, ao nvel de significncia de 5%, as zonas industriais tm um efeito sobre o investimento mdio. O valor
crtico de 1% ser 2,44, e, portanto, H0 no ser rejeitada ao nvel de 1%. A mesma limitao do Exemplo C.2
vlida neste caso: no controlamos os outros fatores que possam afetar o investimento nas cidades ao longo
do tempo, e, portanto, no podemos afirmar que o efeito seja causal.

A regra de rejeio semelhante para a alternativa unilateral (C.33). Um teste com nvel de significncia 100 % rejeitar H0 contra (C.33) sempre que
t  c;

(C.38)

em outras palavras, estamos procurando por valores negativos da estatstica t o que implica que
y   que estejam suficientemente distantes de zero para rejeitar H .
0
0
Para alternativas bilaterais, devemos ter cuidado na escolha do valor crtico, de forma que o nvel
de significncia do teste ainda seja . Se H1 for dada por H1:  0, ento, rejeitaremos H0 se y estiver distante da 0 em valor absoluto: um y muito maior ou muito menor que 0 fornece evidncia contra H0 em favor de H1. Um nvel 100 % para o teste obtido pela regra de rejeio
|t|  c,

(C.39)

onde | t | o valor absoluto da estatstica t em (C.35). Isso produz um teste bicaudal. Agora precisamos ser cuidadosos na escolha do valor crtico: c o 100(1  /2) percentil na distribuio tn1.
Por exemplo, se   0,05, ento, o valor crtico ser o 97,5o percentil na distribuio tn1. Isso
garante que H0 ser rejeitada em somente 5% das vezes quando ela for verdadeira (veja a Figura
C.6). Por exemplo, se n  22, ento, o valor crtico c ser 2,08, o 97,5o percentil em uma distribuio t21 (veja a Tabela G.2). O valor absoluto da estatstica t deve exceder 2,08 para rejeitar H0 contra H1 ao nvel de 5%.
importante conhecer a linguagem apropriada dos testes de hipteses. Algumas vezes, a frase
apropriada no podemos rejeitar H0 em favor de H1 ao nvel de significncia de 5% substituda por
aceitamos H0 ao nvel de significncia de 5%. A ltima construo incorreta. Com o mesmo conjunto de dados, geralmente existem muitas hipteses que no podem ser rejeitadas. No exemplo anterior das eleies, seria logicamente inconsistente dizer que H0:   0,42 e H0:   0,43 so ambas
aceitas, pois somente uma delas pode ser verdadeira. Entretanto, completamente possvel que
nenhuma dessas hipteses seja rejeitada. Por essa razo, sempre dizemos no ser possvel rejeitar H0
em vez de aceitar H0.

84

Introduo Econometria Editora Thomson

Figura C.6
Regio de rejeio para um teste ao nvel de significncia de 5% contra a alternativa bilateral H1:  0.

rea  0,95

rea  0,025

rea  0,025

0
regio de
rejeio  C

regio de
rejeio

Testes Assimptticos para Populaes No-Normais


Se o tamanho da amostra for suficientemente grande para invocar o teorema do limite central (veja
Seo C.3), a mecnica dos testes de hipteses de mdias populacionais ser a mesma, seja ou no normal a distribuio amostral. A justificao terica vem do fato que, de acordo com a hiptese nula,
T  n(
Y  0)/S a Normal(0,1).
Portanto, com n grande, podemos comparar a estatstica t em (C.35) com os valores crticos de
uma distribuio normal padro. Como a distribuio tn1 converge para a distribuio normal padro
medida que n vai ficando maior, os valores crticos de t e da distribuio normal padro ficaro muito
prximos com n extremamente grande. Como a teoria assimpttica baseada em n crescendo sem limites, ela no pode nos informar quais valores crticos so os melhores, se da normal padro ou de t. Para
valores moderados de n, digamos entre 30 e 60, tradicional usar a distribuio t, pois sabemos que
ela correta para populaes normais. Para n  120, a escolha entre as distribuies t e normal padro
largamente irrelevante, porque os valores crticos so praticamente os mesmos.
Como os valores crticos escolhidos usando a distribuio normal padro ou a distribuio t sero
somente aproximadamente vlidos para populaes no-normais, nosso nveis de significncia escolhidos sero tambm apenas aproximados; assim, para populaes no-normais, nossos nveis de significncia sero realmente assimptticos. Dessa forma, se escolhermos um nvel de significncia de
5%, mas nossa populao for no-normal, ento, o nvel de significncia efetivo ser maior ou menor
que 5% (e no teremos como saber qual ser o caso). Quando o tamanho da amostra grande, o nvel

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

85

de significncia efetivo estar muito prximo de 5%. De modo prtico, a distino no importante, e,
portanto, no mais usaremos a qualificao assimpttico.

EXEMPLO C.5
(Discriminao Racial na Contratao de Trabalhadores)

No estudo do Urban Institute sobre a discriminao racial na contratao de trabalhadores (veja o exemplo
C.3), estamos essencialmente interessados em testar H0:   0 contra H1:   0, onde   N  B a
diferena em probabilidades de que negros e brancos recebam ofertas de emprego. Recorde que  a mdia
populacional da varivel Y  N  B, onde N e B so indicadores binrios. Usando as n  241 comparaes de duplas, obtivemos y  0,133 e ep( y )  0,482/241  0,031. A estatstica t para testar H0: 
 0 t  0,133/0,031  4,29. Voc se lembrar do Apndice B que a distribuio normal padro ,
para propsitos prticos, indistinguvel da distribuio t com 240 graus de liberdade. O valor 4,29 est to
distante da extremidade esquerda da distribuio que rejeitamos H0 a qualquer nvel razovel de significncia. Alis, o valor crtico (do teste unilateral) de 0,005 (metade de um porcento) est em torno de 2,58.
Um valor t de 4,29 evidncia muito forte contra H0 em favor de H1. Portanto, conclumos que existe discriminao na contratao de trabalhadores.

Clculo e Uso de p-Valores


O requisito tradicional de se escolher um nvel de significncia antes do tempo quer dizer que diferentes pesquisadores, usando os mesmos dados e o mesmo procedimento para testar a mesma hiptese poderiam terminar com concluses diferentes. A divulgao do nvel de significncia no qual
estamos fazendo nosso teste resolve este problema at certo ponto, mas no elimina completamente
o problema.
Para fornecer mais informao, podemos fazer a seguinte pergunta: qual o maior nvel de significncia no qual poderamos conduzir nosso teste e ainda no conseguir rejeitar a hiptese nula? Esse
valor conhecido como o p-valor de um teste (algumas vezes chamado de prob-valor). Comparado
com a escolha de um nvel de significncia antes do tempo e a obteno de um valor crtico, calcular
um p-valor um pouco mais difcil. Entretanto, com o advento da computao rpida e barata, p-valores so agora razoavelmente fceis de serem obtidos.
Como ilustrao, considere o problema de testar H0:   0 em uma populao Normal(,2). Nossa

estatstica de teste nesse caso ser T  n Y/S, e assumimos que n grande o suficiente para tratar T
como uma distribuio normal padro sob H0. Suponha que o valor observado de T para nossa amostra
seja t  1,52. (Observe como pulamos o passo da escolha de um nvel de significncia.) Agora que
j vimos o valor t, podemos encontrar o maior nvel de significncia no qual no conseguiramos
rejeitar H0. Esse ser o nvel de significncia associado ao uso de t como nosso valor crtico. Como
nosso teste estatstico T tem uma distribuio normal padro sob H0, teremos
p-valor  P(T  1,52|H0)  1  (1,52)  0,065,

(C.40)

onde ( ) representa a fdc normal padro. Em outras palavras, o p-valor neste exemplo simplesmente
a rea direita de 1,52, o valor observado da estatstica de teste, em uma distribuio normal padro.
Veja a Figura C.7 a ttulo de ilustrao.

86

Introduo Econometria Editora Thomson

Como p-valor  0,065, o maior nvel de significncia no qual poderemos conduzir este teste e
no conseguir rejeitar H0 ser de 6,5%. Se executarmos o teste a um nvel abaixo de 6,5% (como, por
exemplo, 5%), no rejeitaremos H0. Se executarmos o teste a um nvel maior que 6,5% (como, por exemplo,10%), rejeitaremos H0. Com o p-valor mo, poderemos conduzir o teste em qualquer nvel.
O p-valor nesse exemplo tem outra interpretao til: ele a probabilidade de que observemos
um valor de T to grande quanto 1,52 quando a hiptese nula for verdadeira. Se a hiptese nula for
efetivamente verdadeira, observaremos um valor de T to grande quanto 1,52 devido ao acaso de
somente em 6,5% das vezes. Se isso ser suficientemente pequeno para rejeitar H0 depender de nossa
tolerncia de um erro tipo I. O p-valor tem uma interpretao semelhante em todos os outros casos,
como veremos.
De forma geral, p-valores pequenos so evidncia contra H0, j que eles indicam que o resultado
dos dados ocorrer com pequena probabilidade se H0 for verdadeira. No exemplo anterior, se t tivesse
um valor maior, digamos t  2,85, ento, o p-valor teria sido 1  (2,85)  0,002. Isso significaria
que, se a hiptese nula fosse verdadeira, observaramos um valor de T to grande quanto 2,85 com probabilidade 0,002. Como interpretamos isso? Ou obtivemos uma amostra bastante incomum ou a hiptese nula falsa. A menos que tivssemos uma tolerncia muito pequena para um erro tipo I, teramos
rejeitado a hiptese nula. Por outro lado, um p-valor grande uma fraca evidncia contra H0. Se tivssemos obtido t  0,47 no exemplo anterior, ento, p-valor  1  (0,47)  0,32. A observao de
um valor de T maior que 0,47 aconteceria com probabilidade 0,32, mesmo quando H0 fosse verdadeira; isso seria suficientemente grande para que no houvesse dvida quanto a H0, a menos que tivssemos uma tolerncia muito alta para o erro tipo I.
Figura C.7
O p-valor quando t  1,52 para a alternativa unilateral   0.

rea  0,065
 p-valor

1,52

Para testarmos hipteses sobre uma mdia populacional usando a distribuio t, precisamos de
tabelas detalhadas para computar p-valores. A Tabela G.2 somente nos possibilita colocar delimitadores

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

87

nos p-valores. Felizmente, muitos programas estatsticos e economtricos agora computam p-valores
de forma rotineira, e eles tambm fornecem clculos de fdcs para a distribuio t e outras usadas na
computao dos p-valores.

EXEMPLO C.6
(Efeitos dos Subsdios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)

Considere novamente os dados de Holzer et al. (1993) no Exemplo C.2. De uma perspectiva de planejamento,
h duas questes de interesse. Primeiro, qual ser nossa melhor estimativa da alterao da mdia nas taxas
de rejeio, ? J obtivemos isso para a amostra de 20 empresas listadas na Tabela C.3: a mdia amostral
da alterao nas taxas de rejeio foi de 1,15. Em relao taxa mdia de rejeio inicial em 1987, isso
representa uma queda na taxa de rejeio de cerca de 26,3% (1,15/4,38  0,263) que um efeito
nada desprezvel.
Tambm gostaramos de saber se a amostra fornece forte evidncia de um efeito na populao de
empresas industriais que poderiam ter recebido subsdios de treinamento de pessoal. A hiptese nula H0:
  0, que foi testada contra H1:   0, onde  a alterao mdia nas taxas de rejeio. Sob a hiptese
nula, os subsdios de treinamento de pessoal no tm efeito sobre as taxas de rejeio. A hiptese alternativa estabelece que existe um efeito. No nos importamos com a alternativa   0, de modo que a hiptese
nula ser efetivamente H0:   0.
Como y  1,15 e ep( y)  0,54, t  1,15/0,54  2,13. Esse valor est abaixo do valor crtico
de 1,73 ao nvel de 5% (de uma distribuio t19), mas acima do valor crtico de 2,54. O p-valor nesse
caso ser computado da seguinte forma
p-valor  P(T19  2,13),

(C.41)

onde T19 representa uma varivel aleatria com distribuio t, com 19 graus de liberdade. A desigualdade
o oposto de (C.40), pois a hiptese alternativa tem a forma de (C.33). A probabilidade em (C.41) a rea
esquerda de 2,13 em uma distribuio t19 (veja a Figura C.8).
Usando a Tabela G.2, o mximo que poderemos dizer que o p-valor estar entre 0,025 e 0,01, mas
ele estar mais prximo de 0,025 (j que o 97,5o percentil cerca de 2,09). Utilizando um programa estatstico, como o Stata, podemos computar o p-valor exato. Ele ser 0,023, que evidncia razovel contra H0.
Isso certamente evidncia suficiente para rejeitar a hiptese nula de que os subsdios de treinamento de
pessoal no tm qualquer efeito ao nvel de significncia de 2,5% (e, portanto, ao nvel de 5%).

O clculo de um p-valor para um teste bilateral semelhante, mas devemos considerar a natureza
bilateral da regra de rejeio. Para testes t sobre mdias populacionais, o p-valor computado como
P(| Tn1 |  |t|)  2P(Tn1  |t|),

(C.42)

onde t o valor da estatstica do teste e Tn1 uma varivel aleatria t. (Para n grande, substitua Tn1
por uma varivel aleatria normal padro). Assim, compute o valor absoluto da estatstica t, encontre
a rea direita desse valor em uma distribuio tn1, e multiplique a rea por dois.

88

Introduo Econometria Editora Thomson

Figura C.8
O p-valor quando t  2,13 com 19 graus de liberdade para a alternativa unilateral  0.

rea  p-valor  0,023

 2,13

Para populaes no-normais, o p-valor exato pode ser difcil de ser obtido. No entanto, podemos
encontrar p-valores assimptticos usando os mesmos clculos. Esses p-valores sero vlidos para
amostras de tamanhos grandes. Para n maior que, digamos, 120, tambm possvel usar a distribuio
normal padro. A Tabela G.1 suficientemente detalhada para obtermos p-valores exatos, mas tambm
podemos usar um programa estatstico ou economtrico.

EXEMPLO C.7
(Discriminao Racial na Contratao de Trabalhadores)

Usando os dados de pares comparados do Urban Institute (n  241), obtivemos t  4,29. Se Z for uma
varivel aleatria normal padro, P(Z  4,29) ser, em sentido prtico, zero. Em outras palavras, o p-valor
(assimpttico) deste exemplo ser em essncia zero. Isso ser evidncia bastante forte contra H0.

SUMRIO SOBRE COMO UTILIZAR p-VALORES


(i) Escolha um teste estatstico T e decida sobre a natureza da alternativa. Isso determinar se a
regra de rejeio ser t  c, t  c, ou |t|  c.
(ii) Use o valor observado da estatstica t como o valor crtico e calcule o nvel de significncia
correspondente do teste. Esse ser o p-valor. Se a regra de rejeio for da forma t  c, ento, p-valor
 P(T  t). Se a regra de rejeio for t  c, ento, p-valor  P(T  t); se a regra de rejeio for
| t |  c, ento, p-valor  P(|T|  |t|).

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

89

(iii) Se um nvel de significncia  tiver sido escolhido, ento, rejeitaremos H0 ao nvel 100 %
se p-valor  . Se p-valor  , ento, no podemos rejeitar H0 ao nvel 100 %. Portanto, um p-valor
pequeno leva rejeio de H0.

A Relao entre Intervalos de Confiana e Testes de Hipteses


Como tanto a construo de intervalos de confiana como de testes de hipteses envolvem definies
de probabilidade, natural pensar que eles sejam de alguma forma interligados. Realmente, eles so
relacionados. Aps um intervalo de confiana ter sido construdo, podemos conduzir uma diversidade
de testes de hipteses.
Os intervalos de confiana sobre os quais temos discutido so todos de natureza bilateral. (Neste
livro, no teremos a necessidade de construir intervalos de confiana unilaterais.) Assim, intervalos de
confiana podem ser usados para testes contra alternativas bilaterais. No caso de uma mdia populacional, a hiptese nula dada por (C.31), e a alternativa (C.34). Suponha que tenhamos construdo
um intervalo de confiana de 95% para . Ento, se o valor hipottico de  sob H0, 0, no for o intervalo de confiana, ento, H0:   0 ser rejeitada contra H1:  0 ao nvel de 5%. Se 0 permanecer nesse intervalo, no poderemos rejeitar H0 ao nvel de 5%. Observe como qualquer valor de 0
pode ser testado uma vez tenha sido construdo um intervalo de confiana, e como um intervalo de confiana contm mais de um valor, haver muitas hipteses nulas que no sero rejeitadas.

EXEMPLO C.8
(Subsdios de Treinamento e Produtividade dos Trabalhadores)

No exemplo de Holzer et al., construmos um intervalo de confiana de 95% para a alterao mdia na taxa
de rejeio  como [2,28,0,02]. Como o zero foi excludo desse intervalo, rejeitamos H0:   0 contra
H1:  0 ao nvel de 5%. Esse intervalo de confiana de 95% tambm significa que no podemos rejeitar
H0:   2 ao nvel de 5%. De fato, existir uma srie contnua de hipteses nulas que no sero rejeitadas, dado esse intervalo de confiana.

Significncia Prtica versus Estatstica


Nos exemplos utilizados at agora, produzimos trs tipos de evidncias concernentes aos parmetros
populacionais: estimativa por ponto, intervalos de confiana e testes de hipteses. Essas ferramentas
para obter informaes sobre os parmetros populacionais so igualmente importantes. Existe uma
compreensvel tendncia dos estudantes de se concentrarem nos intervalos de confiana e nos testes de
hipteses, pois so coisas s quais podemos anexar nveis de confiana ou de significncia. Mas em
qualquer trabalho precisamos tambm interpretar as magnitudes das estimativas por ponto.
A significncia estatstica depende do tamanho da estatstica t e no apenas do tamanho de y. Para
testar H0:   0, t  y/ep( y). Assim, a significncia estatstica depende da razo de y e do seu erropadro. Uma estatstica t pode ser grande porque y grande ou porque ep( y) pequeno.

90

Introduo Econometria Editora Thomson

EXEMPLO C.9
(Efeito da Largura de Rodovias sobre o Tempo de Viagem)

Seja Y a alterao no tempo de viagem, medida em minutos, de viajantes em uma rea metropolitana, do
perodo anterior ao perodo posterior do alargamento de uma rodovia. Assuma que Y  Normal(,2). A
hiptese nula de que o alargamento no reduz o tempo de viagem ser H0:   0; a alternativa que ele
reduz o tempo de viagem ser H1:   0. Suponha que uma amostra aleatria de viajantes de tamanho
n  300 foi obtida para determinar a efetividade do projeto da rodovia. A alterao mdia no tempo de
viagem ser computada como y  3,6, e o desvio-padro da amostra ser s  18,7; assim, ep( y ) 

18,7/1300  1,08. A estatstica t ser 3,61/1,08  3,33, que bem significante estatisticamente; o
p-valor ser em essncia zero. Assim, conclumos que o alargamento da rodovia ter um efeito significante
sobre o tempo mdio de viagem.
Se o resultado do teste de hiptese for tudo o que foi divulgado sobre o trabalho, ele ser enganoso.
Divulgar somente a significncia estatstica mascara o fato de que a reduo estimada de 3,6 minutos na
mdia do tempo de viagem muito pequena. Para sermos honestos, deveremos informar a estimativa por
ponto de 3,6, com o teste de significncia.

Embora a magnitude e o sinal da estatstica t determinem a significncia estatstica, a estimativa


por ponto y determina o que podemos chamar de significncia prtica. Uma estimativa pode ser
estatisticamente significante sem ser especialmente grande. Devemos sempre discutir a significncia
prtica em conjunto com a significncia estatstica da estimativa por ponto; esse tema surgir com
freqncia neste livro.
Encontrar estimativas por ponto que sejam estatisticamente significantes sem ter significncia prtica freqentemente ocorre quando trabalhamos com amostras grandes. Para discutir porque isso ocorre,
til termos a seguinte definio.
CONSISTNCIA DE UM TESTE
Um teste consistente rejeita H0 com probabilidade que se aproxime de um conforme o tamanho da
amostra cresce, sempre que H1 for verdadeira.
Uma outra maneira de dizer que um teste consistente que, conforme o tamanho da amostra
tende ao infinito, o poder do teste se aproxima cada vez mais da unidade, sempre que H1 for verdadeira.
Todos os testes que examinamos neste livro tm essa propriedade. No caso dos testes de hipteses
sobre uma mdia populacional, a consistncia dos testes uma conseqncia, porque a varincia de

Y converge para zero conforme o tamanho da amostra aumenta. A estatstica t para testar H0:   0
T
Y/(S/n). Como plim(
Y )   e plim(S)  , segue que se, digamos   0, T vai ficando cada
vez maior (com alta probabilidade) conforme n
. Em outras palavras, independente de o quanto 
est perto de zero, podemos estar quase certos de que H0:   0 ser rejeitada, devido ao tamanho suficientemente grande da amostra. Isso no fornece nenhuma informao sobre  ser grande em um sentido prtico.

C.7 OBSERVAES SOBRE NOTAO


Em nossa reviso de probabilidade e estatstica neste captulo e no Apndice B, tivemos o cuidado de
usar convenes padro para representar variveis aleatrias, estimadores e estatsticas de testes. Por
exemplo, usamos W para indicar um estimador (varivel aleatria) e w para representar uma estimativa
especfica (resultado da varivel aleatria W). Fazer a distino entre um estimador e uma estimativa

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

91

importante para a compreenso de vrios conceitos sobre estimao e testes de hipteses. Porm, fazer
essa distino de forma rpida se tornar um peso na anlise economtrica, pois os modelos so mais
complicados: muitos parmetros e variveis aleatrias estaro envolvidos, e a obedincia s convenes habituais da probabilidade e da estatstica exigir muitos smbolos extras.
No texto principal, usamos uma conveno mais simples que amplamente usada em econometria.
Se  for um parmetro populacional, a notao  (teta chapu) ser usada para representar tanto um
estimador como uma estimativa de . Essa notao til no sentido de que ela propicia uma maneira
simples de integrar um estimador ao parmetro populacional que supostamente ela estar estimando.
Assim, se o parmetro populacional for , ento,  denotar um estimador ou uma estimativa de ; se
o parmetro for 2,  2ser um estimador ou uma estimativa de 2; e assim por diante. Algumas vezes,
examinaremos dois estimadores do mesmo parmetro, caso em que necessitaremos de uma notao
diferente como, por exemplo,  (teta til).
Embora o abandono das convenes sobre probabilidade e estatstica para indicar estimadores,
variveis aleatrias e estatsticas de testes coloque mais responsabilidade sobre seus ombros, isso no
ser um grande problema, uma vez que a diferena entre um estimador e uma estimativa seja compreendida. Se estivermos tratando das propriedades estatsticas de  como, por exemplo, deduzir se
ele ou no no-viesado ou consistente , ento, estaremos necessariamente vendo  como um estimador. Por outro lado, se escrevermos algo como   1,73, ento, representaremos claramente uma
estimativa por ponto a partir de determinada amostra de dados. A confuso que pode surgir com o uso
de  para representar ambas ser mnima se voc tiver um bom entendimento de probabilidade e de
estatstica.

RESUMO
Discutimos sobre tpicos de estatstica matemtica que so muito usados na anlise economtrica.
A noo de um estimador, que simplesmente uma regra de combinao de dados para estimar um
parmetro populacional, fundamental. Tratamos de vrias propriedades dos estimadores. As mais
importantes propriedades das amostras pequenas so a inexistncia de vis e a eficincia, sendo que
esta ltima depende das comparaes das varincias quando os estimadores forem no-viesados. As
propriedades das amostras grandes relacionam-se com a seqncia dos estimadores obtidos conforme o tamanho da amostra aumenta, e em econometria depende-se delas. Qualquer estimador de valia
consistente. O teorema do limite central implica que, em amostras grandes, a distribuio amostral
da maioria dos estimadores ser aproximadamente normal.
A distribuio amostral de um estimador pode ser usada para a construo de intervalos de confiana. Vimos isso na estimao da mdia de uma distribuio normal e no clculo de intervalos de
confiana aproximados em casos no-normais. O teste de hiptese clssico, que exige a especificao
de uma hiptese nula, de uma hiptese alternativa e de um nvel de significncia, executado comparando-se uma estatstica de teste com um valor crtico. Alternativamente, pode-se calcular um p-valor
que nos possibilite conduzir um teste em qualquer nvel de significncia.

92

Introduo Econometria Editora Thomson

PROBLEMAS
C.1 Sejam Y1, Y2, Y3 e Y4 variveis aleatrias independentes e identicamente distribudas de uma
populao com mdia  e varincia 2. 
Y  1(Y1  Y2  Y3  Y4) representa a mdia dessas qua4
tro variveis aleatrias.
(i) Quais so o valor esperado e a varincia de 
Y em termos de  e 2?
(ii) Agora, considere um estimador diferente de :
1
W  1Y1  1Y2  1Y3  Y4.
8
8
4
2
Esse um exemplo de uma mdia ponderada dos Yi. Mostre que W tambm um estimador no-viesado de . Encontre a varincia de W.
(iii) Com base em suas respostas nas partes (i) e (ii), qual estimador de  voc prefere, 
Y ou W?
C.2 Esta uma verso mais generalizada do Problema C.1. Sejam Y1, Y2, ..., Yn n variveis aleatrias no-correlacionadas comparativamente, com mdia comum  e varincia comum 2. Seja 
Ya
mdia da amostra.
(i) Defina a classe dos estimadores lineares de  como
Wa  a1Y1  a2Y2  ...  anYn,
onde os ai so constantes. Que restrio sobre os ai necessria para que Wa seja um estimador no-viesado de ?
(ii) Encontre Var(Wa).
(iii) Para quaisquer nmeros a1, a2, ... , an, a seguinte desigualdade vlida: (a1  a2  ... 
an)2/n  a21  a22  ...  a2n. Use isso, com as partes (i) e (ii), para mostrar que Var(Wa)
 Var(
Y) sempre que Wa for no-viesado, de forma que 
Y seja o melhor estimador linear
no-viesado. [Sugesto: Em que se transforma a desigualdade quando ai satisfaz a restrio da parte (i)?]
C.3 Seja Y a mdia amostral de uma amostra aleatria com mdia  e varincia 2. Considere dois
estimadores alternativos de : W1  [(n  1)/n] 
Y e W2  
Y/2.
(i) Mostre que W1 e W2 so ambos estimadores viesados de  e encontre os vieses. O que
acontece com os vieses conforme n
? Comente sobre quaisquer diferenas importantes no vis para os dois estimadores conforme o tamanho da amostra aumenta.
(ii) Encontre os limites de probabilidade de W1 e W2. {Sugesto: Use as propriedades PLIM.1
e PLIM.2; para W1, observe que plim[(n  1)/n]  1.} Qual estimador consistente?
(iii) Encontre Var(W1) e Var(W2).
(iv) Demonstre que W1 um estimador melhor que 
Y se  estiver prximo de zero.
(Considere tanto o vis como a varincia.)
C.4 Para variveis aleatrias positivas X e Y, suponha que o valor esperado de Y, dado X, seja E(Y|X)
 X. O parmetro desconhecido  mostra como o valor esperado de Y muda com X.
(i) Defina a varivel aleatria Z  Y/X. Mostre que E(Z)  . [Sugesto: Use a Propriedade
EC.2 em conjunto com a lei das expectativas iteradas, a Propriedade EC.4. Em particular,
primeiro mostre que E(Z|X)   e, ento, use EC.4.]

Wooldridge

(ii)

Apndice C

Fundamentos de Estatstica Matemtica

Utilize a parte (i) para provar que o estimador W1  n1

93

 (Yi Xi) no-viesado para ,

i1

quando {(Xi,Yi): i  1, 2, ..., n} for uma amostra aleatria.


(iii) Explique por que o estimador W2  
Y/
X, onde as barras superiores significam mdias das
amostras, no o mesmo que W1. Apesar disso, mostre que W2 tambm no-viesado para .
(iv) A tabela seguinte contm dados sobre a produo de milho de diversas regies de Iowa.
O United States Department of Agriculture (USDA) faz a previso dos hectares1 de milho
em cada regio com base em fotos de satlite. Os pesquisadores contam o nmero de
pixels2 de milho na foto do satlite (em oposio a, por exemplo, nmero de pixels de
soja ou de terra no cultivada) e usam esses nmeros para prognosticar o nmero efetivo
de hectares. Para desenvolver uma equao de previso para ser usada de forma generalizada para as regies, o USDA entrevistou agricultores em regies selecionadas para obter
a produo de milho em hectares. Seja Yi  produo de milho na regio i e Xi  nmero de pixels de milho na foto do satlite da regio i. Existem n  17 observaes de oito
regies. Utilize essa amostra para computar as estimativas de  desenvolvidas nas partes
(ii) e (iii). As estimativas so semelhantes?

1
2

Imagem

Produo de Milho

Pixels de Milho

165,76

374

96,32

209

76,08

253

185,35

432

116,43

367

162,08

361

152,04

288

161,75

369

92,88

206

10

149,94

316

11

64,75

145

12

127,07

355

13

133,55

295

14

77,70

223

15

206,39

459

16

108,33

290

17

118,17

307

Medida agrria igual a 10.000 metros quadrados. (N. do T.)


Unidade de informao que descreve um ponto em uma imagem grfica computadorizada; o menor ponto
de luz cuja cor e luminosidade podem ser controlados na tela. (N. do T.)

94

Introduo Econometria Editora Thomson

C.5 Seja Y uma varivel aleatria de Bernoulli() com 0    1. Suponha que estamos interessados em estimar a razo de probabilidades,   /(1  ), que a probabilidade de xito sobre a
probabilidade de fracasso. Dada uma amostra aleatria {Y1, ..., Yn}, sabemos que um estimador
consistente e no-viesado de  
Y, a proporo de xitos em n tentativas. Um estimador natural de
G
Y/(1  
Y), a proporo de xitos sobre a proporo de fracassos na amostra.
(i) Por que G no um estimador no-viesado de ?
(ii) Use PLIM.2(iii) para mostrar que G um estimador consistente de .
C.6 Voc foi contratado pelo governador para examinar se um imposto sobre bebidas alcolicas
reduziu o consumo de bebidas alcolicas em seu estado. Voc tem condies de obter, para uma
amostra de pessoas selecionadas aleatoriamente, a diferena no consumo de bebidas alcolicas (em
onas) dos anos anterior e posterior instituio do imposto. Para i-sima pessoa que foi extrada aleatoriamente da amostra da populao, Yi representa a alterao no consumo de bebidas alcolicas.
Trate-as como uma amostra aleatria de uma distribuio Normal(,2).
(i) A hiptese nula que no houve mudana na mdia de consumo de bebidas alcolicas.
Represente isso formalmente, em termos de .
(ii) A hiptese alternativa que houve um declnio no consumo de bebidas alcolicas; estabelea a hiptese alternativa em termos de .
(iii) Agora suponha que o tamanho de sua amostra seja n  900 e que voc obtenha as estimativas y  32,8 e s  466,4. Calcule a estatstica t do teste de H0 contra H1; obtenha
o p-valor do teste. (Devido ao grande tamanho da amostra, use apenas a distribuio normal padro tabulada na Tabela G.1.) Voc rejeita H0 ao nvel de 5%? E ao nvel de 1%?
(iv) Voc diria que a queda estimada do consumo grande, em magnitude? Comente sobre a
significncia prtica versus a significncia estatstica dessa estimativa.
(v) O que foi implicitamente assumido em sua anlise sobre outros determinantes do consumo de bebidas alcolicas ao longo do perodo de dois anos, para inferir causalidade entre
a alterao do imposto e o consumo de bebidas alcolicas?
C.7 A nova administrao de uma padaria alega que os trabalhadores agora so mais produtivos do
que eram sob a administrao anterior, razo pela qual os salrios foram aumentados de forma
geral. Sejam Wbi o salrio do trabalhador i sob a administrao antiga e o salrio do trabalhador i
aps a mudana. A diferena ser Di  Wai  Wbi . Assuma que os Di so uma amostra aleatria de
uma distribuio Normal(,2).
(i)

Usando os dados seguintes de 15 trabalhadores, construa um intervalo de confiana exato


de 95% para .
(ii) Escreva formalmente a hiptese nula de que no houve alterao na mdia dos salrios.
Em particular, qual o E(Di) de acordo com H0? Se voc fosse contratado para verificar
a validade da alegao da nova administrao, qual seria a hiptese alternativa relevante
em termos de   E(Di)?
(iii) Teste a hiptese nula da parte (ii) contra a alternativa declarada, aos nveis de 5% e 1%.
(iv) Obtenha o p-valor do teste na parte (iii).
Trabalhador

Salrio Antes

Salrio Depois

8,30

9,25

9,40

9,00
(Continua...)

Wooldridge

Apndice C

Fundamentos de Estatstica Matemtica

95

(...continuao)

Trabalhador

Salrio Antes

Salrio Depois

9,00

9,25

10,50

10,00

11,40

12,00

8,75

9,50

10,00

10,25

9,50

9,50

10,80

11,50

10

12,55

13,10

11

12,00

11,50

12

8,65

9,00

13

7,75

7,75

14

11,25

11,50

15

12,65

13,00

C.8 O jornal The New York Times (05/02/1990) publicou a atuao dos dez melhores arremessadores de trs pontos da NBA. A tabela seguinte resume esses dados:
Jogador

AT AC

Mark Price

429-188

Trent Tucker

833-345

Dale Ellis

1.149-472

Craig Hodges

1.016-396

Danny Ainge

1.051-406

Byron Scott

676-260

Reggie Miller

416-159

Larry Bird

1.206-455

Jon Sundvold

440-166

Brian Tayllor

417-157

Nota: AT  arremessos tentados e AC  arremessos convertidos.

Para um determinado jogador, o resultado de um arremesso especfico pode ser modelado como uma
varivel de Bernoulli (zero-um): se Yi for o resultado do arremesso i, ento, Yi  1 se o arremesso

96

Introduo Econometria Editora Thomson

for convertido, e Yi  0 se o arremesso foi perdido. Seja  a probabilidade de converso de qualquer


determinada tentativa de arremesso de trs pontos. O estimador natural de  ser 
Y  AC/AT.
(i) Estime  para Mark Price.
(ii) Encontre o desvio-padro do estimador 
Y em termos de  e o nmero de arremessos tentados, n.
(iii) A distribuio assimpttica de (Y )/ep(
Y) ser normal padro quando ep(
Y) 


Y (1  Y )/n. Use esse fato para testar H0:   0,5 contra H1:   0,5 para Mark Price.
Use um nvel de significncia de 1%.
C.9 Suponha que um ditador militar de um pas sem nome promova um plebiscito (um voto de confiana sim/no) e afirme que teve o apoio de 65% dos votantes. Um grupo de direitos humanos suspeita que houve jogo sujo e contrata voc para verificar a validade da afirmao do ditador. Voc tem
um oramento que lhe possibilita fazer uma amostragem aleatria de 200 votantes no pas.
(i) Defina X como o nmero de votos sim obtidos da amostra aleatria de 200 de toda a populao votante. Qual ser o valor esperado de X se, realmente, 65% de todos os votantes
apoiaram o ditador?
(ii) Qual ser o desvio-padro de X, novamente assumindo que a frao verdadeira de votos
sim tenha sido 0,65?
(iii) Agora, voc coleta sua amostra de 200, e descobre que 115 pessoas efetivamente votaram
sim. Use o TLC para aproximar a probabilidade de que voc encontraria 115 ou menos
votos sim de uma amostra aleatria de 200 se, realmente, 65% de toda a populao tivesse
votado sim.
(iv) Como voc explicaria a relevncia do nmero na parte (iii) para algum que no tem
conhecimento de estatstica?
C.10 Antes de uma greve ter prematuramente terminado com a temporada de 1994 da liga principal
de beisebol, Tony Gwynn, do San Diego Padres, tinha 165 rebatidas vlidas em 419 rebatidas, para
uma mdia de rebatidas de 0,419. Houve muita discusso se Gwynn seria um rebatedor potencial
de 0,400 rebatidas vlidas naquele ano. Esse problema pode ser expresso em termos da probabilidade
de Gwynn fazer uma rebatida vlida em uma de suas oportunidades de rebater; vamos cham-la .
Seja Yi o indicador Bernoulli() igual a unidade se Gwynn fizer uma rebatida vlida na sua i-sima
vez de rebater, e zero, caso contrrio. Ento, Y1, Y2, ..., Yn ser uma amostra aleatria de uma distribuio de Bernoulli, onde  ser a probabilidade de xito, e n  419.
Nossa melhor estimativa por ponto de  ser a mdia de rebatidas de Gwynn, que simplesmente ser a proporo dos xitos: y  0,394. Usando o fato de que ep( y )  y (1  y )/n,
construa um intervalo de confiana aproximado de 95% para , usando a distribuio normal padro.
Voc diria que h forte evidncia contra a possibilidade de que Gwynn teria sido um rebatedor potencial de 0,400 rebatidas vlidas? Explique.

Você também pode gostar