ANPEC - 2006 - Caderno Estatistica

Ordem dos Economistas de São Paulo
ProAnpec
CURSO PREPARATÓRIO PARA O EXAME NACIONAL ANPEC
Questões resolvidas de Estatística
Alexandre Sartoris
Andreza Palma
São Paulo
2005
Probabilidade
(ANPEC 2005, 15) As lâmpadas coloridas produzidas por uma fábrica são 50%
vermelhas, 30% azuis e 20% verdes. Em uma amostra de 5 lâmpadas, extraídas ao
acaso, encontre a probabilidade de duas serem vermelhas, duas serem verdes e uma ser
azul. Multiplique o resultado por 100.
Solução:
Temos:
50% vermelhas (VM)
30% azuis (A)
20% verdes (V)
Dessa forma, em uma amostra de cinco lâmpadas, a probabilidade de duas serem

vermelhas, duas verdes e uma azul será dada por:
P5
P(2VM, 2V, 1A) = ×0,50×0,50×0,20×0,20×0,30
P2 × P2 × P1
5!
P(2VM, 2V, 1A) = ×0,003
2!×2!×1!
P(2VM, 2V, 1A) = 30×0,003
P(2VM, 2V, 1A) = 0,09
Multiplicando por 100 como pede o exercício, chegaremos ao valor de 09.
(ANPEC 2003, 12) Três máquinas, A, B e C, produzem respectivamente 50%, 30% e

20% do número total de peças de uma fábrica. As porcentagens de peças defeituosas na
produção dessas máquinas são respectivamente 3%, 4% e 5%. Uma peça é selecionada
ao acaso e constata-se ser ela defeituosa. Encontre a probabilidade de a peça ter sido
produzida pela máquina A. (Use apenas duas casas decimais. Multiplique o resultado
final por 100).
Solução:
O exercício pede a probabilidade da peça ter sido produzida pela máquina A
dado que essa peça é defeituosa (P(máquina A|defeituosa)). Portanto:
P(máquina A e defeituosa )
P(máquina A|defeituosa) =
P(defeituosa )
0,50 × 0,03
P(máquina A|defeituosa) =
0,50 × 0,03 + 0,30 × 0,04 + 0,20 × 0,05
0,015
P(máquina A|defeituosa) = ≅ 0,40
0,015 + 0,012 + 0,01
Multiplicando o resultado por 100, como pede o exercício, chegaremos ao valor de 40.
Nota: Observe que para a resolução desse exercício, utilizamos o teorema de Bayes, já
que a P(máquina|defeituosa) é dada por:
P(máquina A) × P(defeituo sa | máquina A)
P(máquina A) × P(defeituo sa | máquina A) + P ( máquinaB ) × P(defeituo sa | máquina B) + P ( máquinaC ) × P(defeituo sa | máquina C)
P( Bi ) P( A | Bi )
= P ( Bi | A) = k
∑ P( B
j =1
j ) P( A | B j )
(ANPEC 2002, 01) Considere o espaço amostral S, os eventos A e B referentes a S e a

medida de probabilidade P.
(0) Se P(A) = 1 , P(B) = 1 , e A e B são mutuamente exclusivos, então P(A ∩ B)

2 4
=1 .
8
Resposta:
Se os eventos A e B são mutuamente exclusivos (disjuntos) eles não podem
ocorrer juntos e, portanto, P(A ∩ B) = 0, como mostra o diagrama de Venn abaixo.
FALSA
(1) Se A ⊂ B, então P(A|B) ≤ P(A).

Resposta:
Se A é um subconjunto de B, então a probabilidade de A ocorrer dado que B
ocorreu certamente será maior (ou igual, no caso em que A = B) à probabilidade de A
ocorrer, já que estaremos restringindo o espaço amostral de S para B. Vejamos:
P(A ∩ B) P(A)
P(A|B) = = ≥ P(A)
P(B) P(B)
Já que A∩B = A se A⊂B e P(B) ≤ 1.
FALSA
(2) Se P(A) = 1 , P(B) = 1 e P(A ∩ B) = 1 , então P(AC ∩ BC) = 5 , em que AC

2 3 4 12
e BC indicam os eventos complementares.
Resposta:
A P(AC ∩ BC) está representada pela região cinza do diagrama de Venn
seguinte. A região branca corresponde à probabilidade de ocorrer A ou B, ou seja,
P(A ∪ B).
Calculemos P(A ou B), ou seja, a região branca do diagrama de Venn acima:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
1 1 1
P(A ∪ B) = + −
2 3 4
7
P(A ∪ B) =
12
Como P(S) = 1, temos que:
7 5
P(AC ∩ BC) = 1 - P(A ∪ B) = 1 - =
12 12
VERDADEIRA
(3) Se B1, B2 ,........., Bk representam uma partição de um espaço amostral S, então para
P( Bi ) P( A | Bi )
A ⊂ S tem-se que P ( Bi | A) = k , i = 1, 2 ,........ k .
j =1
∑ P( B j ) P( A | B j )
Resposta:
A afirmativa acima refere-se exatamente ao Teorema de Bayes (veja Questão ANPEC
2003, 12).
VERDADEIRA
(4) Se P(A|B) = 0 então A e B são independentes.
Resposta:
Os eventos A e B apenas serão independentes se P(A|B) = P(A), ou seja, se a
probabilidade condicional for igual à probabilidade incondicional (o fato que B ocorreu
não muda em nada a probabilidade de A ocorrer)
FALSA
(ANPEC 2001, 01) Os formandos de determinada faculdade de economia tomaram as

seguintes decisões para o ano seguinte:
Decisão Homens Mulheres Totais
Fazer mestrado em economia 7 9 16
Fazer outros cursos 5 6 11
Procurar emprego 16 9 25
Totais 28 24 52
Com base nessas informações, é correto afirmar:
(0) A probabilidade de que as mulheres continuem estudando é aproximadamente

46% superior à dos homens.
Resposta:
Temos que:
15
P(mulheres continuem estudando) = = 62,5%
24
12
P(homens continuem estudando) = ≅ 42,86%
28
Agora atenção: para saber em quanto a probabilidade de que as mulheres
continuem estudando é maior que a dos homens temos que dividir uma probabilidade
pela outra:
15
P(mulheres continuem estudando) 24 15 28
= = × ≅ 1,46
P(homens continuem estudando) 12 24 12
28
Portanto, a probabilidade de que as mulheres continuem estudando realmente é
aproximadamente 46% superior à dos homens.
VERDADEIRA
(1) Sabendo-se que alguém optou por procurar emprego, a probabilidade de ser homem
é 64%.
Resposta:
Podemos rapidamente obter essa probabilidade:
16
P(ser homem|optou procurar emprego) = = 0,64 = 64%
25
Porém, para os que preferirem um caminho mais longo:
16
P(ser homem e procurar emprego) 52
P(ser homem|optou procurar emprego) = = =
P(procurar emprego) 25
52
16
= 0,64 = 64%
25
VERDADEIRA
(2) Se a probabilidade de ser aprovado no exame de seleção para mestrado em

economia é de 30%, espera-se que 1/4 dos homens iniciem o curso no ano seguinte.
Resposta:
A tabela acima nos mostra que 7 homens pretendem fazer mestrado em economia, ou
1
seja, dos homens. Portanto, se a probabilidade de ser aprovado no exame de seleção
4
é de 30%, temos que aproximadamente 2 homens iniciarão o curso no ano seguinte
1
(0,30× 7 = 2,1), ou seja, aproximadamente dos homens iniciarão o curso no ano
14
seguinte.
FALSA
(3) Se a probabilidade de encontrar emprego é de 40% e a de ser aprovado nos
exames de seleção é de 30% e 45%, respectivamente, para o mestrado em economia
e para os outros cursos, espera-se que 9 mulheres atingirão seus objetivos.
Resposta:
Temos que:
- mulheres que encontrarão emprego: 9 × 0,40 = 3,6
- mulheres que farão outros cursos: 6 × 0,45 = 2,7
- mulheres que farão mestrado em economia: 9 × 0,30 = 2,7
Portanto, 3,6 + 2,7 + 2,7 = 9 mulheres atingirão seus objetivos.
VERDADEIRA
(4)Entre os formandos que pretendem continuar estudando, 1/3 é mulher que pretende
fazer mestrado em economia.
Resposta:
Temos 27 formandos que pretendem continuar estudando. Desses, 9 são mulheres
que pretendem fazer mestrado em economia. E sabemos que 1/3 de 27 é igual a 9
1
× 27 = 9 . Portanto, entre os formandos que pretendem continuar estudando,
3
realmente 1/3 é mulher que pretende fazer mestrado em economia.
VERDADEIRA
(ANPEC 2000, 01) Considere a terna (S,Σ,P), em que S ≠ ∅ é o conjunto Universo, Σ

é o conjunto dos possíveis eventos e, P é uma medida de probabilidade. Verifique quais
das afirmativas abaixo são verdadeiras (V) e quais são falsas (F):
(0) Se dois eventos são disjuntos, eles serão também independentes.
Resposta:
Se dois eventos são disjuntos (e não vazios) eles são dependentes, já que a
ocorrência de um implica a não ocorrência de outro.
FALSA
(1) Para dois eventos quaisquer A e B, Prob (A) = Prob (A∩Bc) + Prob (A∩B), em
que Bc é o complemento de B.
Resposta:
A probabilidade de A ocorrer corresponde à região cinza do diagrama de Venn
abaixo:
Portanto, temos que:
P(A) = P(A ∩ Bc) +P(A ∩ B)
VERDADEIRA
(2) Sejam dois eventos A e B, em que Prob (A) = 1/2 e Prob (B) = 1/3. Se A e B são
eventos mutuamente exclusivos, então Prob (B∩Ac) é igual a 1/6.
Resposta:
1
Se os dois eventos são mutuamente exclusivos, então Prob (B∩Ac) = P(B) = como
3
mostra o diagrama de Venn abaixo:
FALSA
(3) Sejam os eventos A, B e C, tais que Prob (A∩B∩C) = Prob(A). Prob(B). Prob(C).
Pode-se então afirmar que estes eventos são independentes.
Resposta:
Vejamos, através do seguinte exemplo, que essa implicação não é válida.
Nota: Exemplo retirado de Sartoris (2003, p. 15-16)
Considere o diagrama de Venn abaixo (os valores marcados correspondem às

probabilidades das áreas delimitadas).
Temos que:
P(A) = 0,1 + 0,15 + 0,1 + 0,05 = 0,4

P(B) = 0,25 + 0,05 + 0,1 + 0,1 = 0,5
P(C) = 0,15 + 0,15 + 0,1 +0,1 = 0,5
P(A∩B) = 0,1 + 0,05 = 0,15

P(A∩C) = 0,1 + 0,15 = 0,25
P(B∩C) = 0,1 + 0,1 = 0,2
P(A∩B∩C) = 0,1
Dessa forma, temos que P(A∩B∩C) = P(A)×P(B)×P(C) = 0,1. Mas, tomando os

eventos dois a dois, temos que:
P(A∩B) ≠ P(A)×P(B)
P(B∩C) ≠ P(B)×P(C)
P(A∩C) ≠ P(A)×P(C)
Ou seja, a probabilidade condicional é diferente da probabilidade incondicional

e, portanto, os eventos são dependentes.
FALSA
(ANPEC 1999, 15) Com relação à Teoria das Probabilidade podemos afirmar que:
(0) Sendo A e B dois eventos independentes e se P(A) = 0,5 e P(B) = 0,4, então P(A∪B)
= 0,5.
Resposta:
Se A e B são independentes, então:
P(A∪B) = P(A) + P(B) - P(A)× P(B)
P(A ∪ B) = 0,5 + 0,4 - 0,2
P(A ∪ B) = 0,7
FALSA
(1) Sendo A e B dois eventos mutuamente exclusivos e se P(A) = 0,5 e P(B) = 0,4, então
P(A∪B) = 0,5.
Resposta:
Se A e B são mutuamente exclusivos, eles não podem ocorrer juntos e, portanto,
P(A ∩ B) =0. Dessa forma:
P(A∪B) = P(A) + P(B)

P(A∪B) = 0,5 + 0,4
P(A∪B) = 0,9
FALSA
(2) Seja S um espaço amostral e A e B dois eventos quaisquer associados a S. Então

P( A| B) + P( A| B) = 1 , onde P( A| B) = probabilidade de ocorrência do evento A
dado de ocorreu o evento B.
Resposta:
Sabemos que:
P( A e B)
P( A | B) =
P( B)
P( A e B)
P( A | B) =
P( B)
Dessa forma:
P( A e B) P( A e B) P( A e B) + P( A e B) P( B)
P( A | B) + P( A | B) = + = = =1
P( B) P( B) P( B) P( B)
Já que, como mostra o digrama de Venn abaixo, P(A e B) + P ( A e B) = P(B).
VERDADEIRA
(3) Um projeto para ser transformado em lei deve ser aprovado pela Câmara dos
Deputados e pelo Senado. A probabilidade de ser aprovado pela Câmara dos
Deputados é de 40%. Caso seja aprovado pela Câmara, a probabilidade de ser
aprovado no Senado é 80%. Logo, a probabilidade desse projeto ser transformado
em lei é de 32%.
Resposta:
P(projeto ser transformado em lei) = 0,4× 0,80
P(projeto ser transformado em lei) = 0,32 = 32%
VERDADEIRA
(4) Num processo eletivo 55% dos votantes são homens. Sabe-se que dentre os homens
40% preferem o candidato A, 50% o candidato B e os 10% restantes votam nos
demais candidatos. Dentre as mulheres 60% preferem A, 25% preferem B e o restante
os demais candidatos. Se um voto escolhido ao acaso for para o candidato A, a
probabilidade deste voto ser de uma mulher é de 55,1%.
Resposta:
P(voto ser de uma mulher e ser para o candidato A)

P(mulher|candidato A) =
P(voto ser para o candidato A)
0,45 × 0,60 0,27

P(mulher|candidato A) = = ≅ 0,551 = 55,1%
0,45 × 0,60 + 0,55 × 0,40 0,49
VERDADEIRA
(ANPEC 1998, 02) Considere um espaço amostral com a terna (Ω,Γ,P), onde Ω ≠ ∅ é
o conjunto Universo, Γ é o conjunto dos possíveis eventos e, P , é uma medida de
probabilidade. Assim, pode-se afirmar que :
(0) Se A, B e C são eventos de Γ , então o evento “exatamente um dos eventos ocorre” é

expresso na notação de conjunto como ( A ∩ B ∩ C ) ∪( A ∩ B ∩ C ) ∪( A ∩ B ∩ C ) .
Resposta:
O diagrama de Venn abaixo mostra que realmente a probabilidade de
exatamente um dos eventos ocorrer é dada por ( A ∩ B ∩ C ) ∪( A ∩ B ∩ C ) ∪( A ∩ B ∩ C ) :
VERDADEIRA
(1) Se A e B são dois eventos quaisquer de Γ, então P(A ∪ B) ≥ P(A) + P(B).

Resposta:
A probabilidade da união de dois conjuntos quaisquer é dada por:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Portanto, P(A ∪ B) será igual à P(A) + P(B) quando P(A ∩ B) for igual a zero (eventos
disjuntos) e será menor que P(A) + P(B) caso contrário, mas nunca será maior.
FALSA
(2) Se A e B são dois eventos quaisquer de Γ, onde P(A)=1/2 , P(B)=1/3 e P(A∪B)

=3/4, então P( A ∩B)=1/4 e P( A ∩ B ) =1/4.
Resposta:
Temos que:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
3 1 1
= + - P(A ∩ B)
4 2 3
1 1 3
P(A ∩ B) = + -
2 3 4
1
P(A ∩ B) =
12
A P( A ∩B) está representada pela região cinza do diagrama de Venn abaixo:
Dessa forma, temos que:
P( A ∩B) = P(B) - P(A ∩ B)
1 1
P( A ∩B) = -
3 12
4 −1 3 1
P( A ∩B) = = =
12 12 4
Agora, calculemos P( A ∩ B )
P( A ∩ B ) = 1 - P(A ∪ B)
3
P( A ∩ B )= 1 -
4
1
P( A ∩ B ) =
4
VERDADEIRA
(3) Se A e B são dois eventos quaisquer de Γ , então se P(A|B) > P(A) tem-se que
P(B|A) > P(B).
Resposta:
Temos que:
P( A ∩ B)
P(A|B) = > P(A)
P( B)
Então:
P( A ∩ B)
> P(A)
P( B)
P ( A ∩ B) > P(A)P(B)
P( A ∩ B)
> P(B)
P( A)
P( B ∩ A)
E como P(B|A) = , temos que:
P( A)
P(B|A) > P(B)
VERDADEIRA
(ANPEC 1998, 03) A tabela de contingência a seguir apresenta os dados de uma

amostra de 150 empresas, classificados segundo quatro grupos industriais e se o retorno
sobre o capital próprio é maior ou menor que o retorno médio na amostra.
Grupo Retorno sobre o capital próprio Total

Industrial Acima da média (A) Abaixo da média (B)
I 20 40 60
II 10 10 20
III 20 10 30
IV 25 15 40
Total 75 75 150
Com base nestas informações, verifique as seguintes afirmações:
(0) Se selecionarmos uma empresa ao acaso, a probabilidade da empresa ser do grupo

III ou ter o retorno sobre o capital próprio abaixo da média é 40%.
Resposta:
30 75 10
P(grupo III ou retorno abaixo da média) = + - ≅ 63%
150 150 150
FALSA
(1) Se selecionarmos uma empresa ao acaso, a probabilidade da empresa ser do grupo I

é de 40%.
Resposta:
60
P(grupo I) = = 0,40 = 40%
150
VERDADEIRA
(2) Se a empresa escolhida ao acaso for do grupo II, a probabilidade do retorno sobre o
capital próprio estar acima da média é 50%.
Resposta:
Podemos rapidamente obter essa probabilidade:
10
P(retorno abaixo da média|grupo II) = = 0,5 = 50%
20
E, como sempre existe um caminho mais longo para quem preferir:
10
P(retorno abaixo da média e grupo II) 150
P(retorno abaixo da média|grupo II) = = =
P(grupo II) 20
150
0,5
VERDADEIRA
(3) Se duas empresas diferentes são escolhidas ao acaso, a probabilidade de sair

primeiro uma empresa do grupo I e depois uma empresa do grupo III é
aproximadamente igual a 8%.
Resposta:
Supondo que não haja reposição, temos que:
60 30
P(empresa grupo I e empresa grupo III) = × ≅ 0,08 = 8%
150 149
VERDADEIRA
(4) O evento “grupo I” independe estatisticamente do evento “retorno sobre o capital

próprio acima da média”.
Resposta:
Se esses dois eventos forem realmente independentes, a seguinte igualdade deve
ser verificada: P(grupo I| retorno acima da média) = P(grupo I). Vejamos se isso é
válido:
20
P(grupo I| retorno acima da média) = ≅ 27%
75
60
P(grupo I) = = 40%
150
Portanto, como a igualdade entre a probabilidade condicional e a incondicional não é
válida, os eventos "grupo I" e "retorno sobre capital próprio acima da média" são
dependentes.
FALSA
Esperança, medidas de dispersão e independência de variáveis
aleatórias
(ANPEC 2005, 02) O retorno RC de uma carteira de investimentos com duas ações A
e B e um papel de renda fixa F é dado por RC = a1 R A + a2 RB + a3 RF , em que a1, a2 e a3
são constantes. RA e RB são variáveis aleatórias normalmente distribuídas com média
zero, variância 1 e covariância 0,5 e RF é uma constante igual a 0,1. Julgue as
afirmativas:
(0) A média do retorno da carteira será igual a zero se, e somente se, a correlação entre
os retornos das ações A e B for nula.
Resposta:
A média do retorno da carteira (Rc) será dada por:
E( RC ) = E( a1 R A + a 2 RB + a3 RF )
E( RC ) = E( a1 R A ) + E( a 2 RB ) + E( a3 RF )
E( RC ) = a1 E( R A ) + a 2 E( RB ) + a3 RF
E( RC ) =0,1 a3
Portanto, a média de RC será igual a zero apenas se a3 = 0, o que não tem nada a ver
com a correlação entre o s retornos.
FALSA
(1) A média do retorno da carteira é: E ( RC ) = a1 + a 2 + a3 .
Resposta:
Como já calculamos no item anterior, a média do retorno da carteira é dada por:
E( RC ) =0,1 a3
FALSA
(2) Se a covariância entre o retorno das ações A e B for 0,5, a variância do retorno da
carteira será Var ( RC ) = a12 + a 22 + a1 a 2 .
Resposta:
A variância de RC é dada por:
var( RC ) = var( a1 R A + a 2 RB + a3 RF )
Como RF é uma constante:
var( RC ) = var( a1 R A + a 2 RB )
var( RC ) =var( a1 R A ) + var( a 2 RB ) + 2cov( a1 R A , a 2 RB )
Utilizando as propriedades da variância e covariância, temos que:
var( RC ) = a12 var( R A ) + a 22 var( RB ) + 2 a1 a 2 cov( R A , RB )
Como var( R A ) = var( RB ) = 1 e cov( R A , RB ) = 0,5:
var( RC ) = a12 + a 22 + a1 a 2
VERDADEIRA
(3) O retorno RC é uma variável aleatória normalmente distribuída com média 0,1a3 .
Resposta:
Como já calculamos no item (0), a média de RC é dada realmente por 0,1 a3 . E como
RC é a soma de duas variáveis aleatórias normalmente distribuídas (RA e RB), ela
própria será também normalmente distribuída.
VERDADEIRA
(4) O coeficiente de correlação entre RA e RB é 0,25.
Resposta:
O coeficiente de correlação entre RA e RB é dado por:
cov( R A , RB )
ρR A , RB
=
var(R A ) var(RB )
0,5
ρR A , RB
= = 0,5
1
FALSA
(ANPEC 2004, 3) Sobre coeficiente de correlação, covariância e independência de
variáveis aleatórias, são corretas as afirmativas:
(0)Seja ρ ( x, y ) o coeficiente de correlação entre as variáveis x e y. Se ab>0, então
ρ (ax,by ) = ρ ( x, y ) ; e se ab<0, ρ (ax, by ) = − ρ ( x, y ) .
Resposta
O coeficiente de correlação entre x e y é dado por:
cov( x, y )
ρ(x,y) =
var( x) var( y )
E o coeficiente de correlação entre ax e by será:
cov(ax, by )
ρ(ax,by) =
var(ax) var(by )
E pelas propriedades da variância e da covariância:
ab cov( x, y )
ρ(ax,by) =
a b 2 var( x) var( y )
2
ab cov( x, y )
ρ(ax,by) =
ab var( x) var( y )
Portanto, se ab>1, teremos ρ(ax, by) = ρ(x,y). E se ab<1, teremos ρ(ax, by) = -ρ(x,y).
VERDADEIRA
(1)Se a função densidade conjunta de x e y for f ( x, y ) = e − x − y , x > 0, y > 0 e

f ( x, y ) = 0 para outros valores de x e y, então ρ ( x, y ) = 0.
Resposta
Note que a função densidade de probabilidade conjunta de x e y nesse caso pode ser
escrita como (já que quando temos multiplicação de potências de mesma base, somamos
os expoentes):
f(x,y) = e-x × e-y para x> 0 e y> 0
Ou seja:
f(x,y) = f(x) × f(y)
O que é característica de variáveis aleatórias independentes. E se as variáveis são

independentes, o coeficiente de correlação entre elas será igual a zero (lembrando que o
contrário não é verdadeiro).
VERDADEIRA
(2)Sejam A e B dois eventos independentes, com probabilidades positivas, associados a
um experimento aleatório ε. Se as variáveis aleatórias x e y são definidas como: x =
1, se ocorrer A e x = 0, em caso contrário; e y = 1, se ocorrer B e y = 0, em caso
contrário, então ρ ( x, y ) ≠ 0.
Resposta:
Aqui devemos calcular o coeficiente de correlação entre as variáveis. E para isso
precisamos da covariância entre elas. Lembrando que:
cov(x,y) = E(xy) - E(x)E(y)
Primeiramente então temos que calcular as esperanças acima. Vejamos como.
Temos que:
1 se A ocorrer 1 se B ocorrer
x= e y=
0 caso contrário 0 caso contrário
Calculemos a esperança de x e y:
E(x) = 1 × P(A) + 0 × P( A ) = P(A)
E(y) = 1 × P(B) + 0 × P( B ) = P(B)
E o produto de x e y será:
1, se A e B ocorrerem
xy =
0, caso contrário
Dessa forma:
E(xy) = 1 × P( A ∩ B) + 0 × P( A ∩ B) = P( A ∩ B)
Agora podemos calcular cov(x,y):

cov(x,y) = E(xy) - E(x)E(y)
cov(x,y) = P( A ∩ B) - P(A) × P(B)
Lembrando que A e B são eventos independentes, temos que:

P( A ∩ B) = P(A) × P(B)
E, dessa forma, a cov(x,y) será:
cov(x,y) = P(A) × P(B)- P(A) × P(B)
cov(x,y) = 0
E se a covariância é igual a zero, o coeficiente de correlação também será igual a zero:

cov( x, y ) 0
ρ= = =0
var( x) var( y ) var( x) var( y )
FALSA
(3)Em relação ao quesito anterior, pode-se afirmar ainda que a covariância entre x e y é
diferente de zero.
Resposta:
Como vimos no item anterior, a covariância entre x e y é igual a zero.
FALSA
(4) Se o coeficiente de correlação ρ ( x, y ) = 0, a covariância entre x e y também é zero.

Assim sendo, pode-se afirmar que x e y são variáveis aleatórias independentes.
Resposta:
A primeira parte da afirmativa acima é verdadeira: se o coeficiente de correlação
entre x e y é igual a zero, sabemos que a cov(x,y) também será zero:
cov( x, y )
ρ= = 0 ⇔ cov(x,y) =0.
var( x) var( y )
Porém, o fato da cov(x,y) ser igual a zero não implica que as variáveis sejam
independentes (lembrando que a recíproca é verdadeira). Para um exemplo de que
cov(x,y) = 0 não implica independência das variáveis, veja questão ANPEC 1998, 10,
itens 0 e 1, em distribuição de probabilidade conjunta.
FALSA
(ANPEC 2004, 04) Um importador adquiriu vários artigos ao preço médio de US$
15.00 com um desvio-padrão de US$ 1.00. Sabendo-se que a taxa de câmbio é de R$
3,00 por dólar, é correto afirmar:
(0)Convertendo-se o valor das compras para reais, o preço médio dos produtos
adquiridos será de R$ 45,00.
Resposta:
Se a taxa de câmbio é de R$3,00, temos que o valor médio das compras em reais será:
E(R$3,00 × preço) = R$3,00 × E(preço) = R$3,00 × US$15,00 = R$45,00
VERDADEIRA
(1) Em reais, o desvio-padrão será de R$ 3,00.

Resposta:
Se o desvio-padrão é de US$1,00 e a taxa de câmbio é de R$3,00, obviamente, o
desvio-padrão em reais será de R$3,00:
dp(R$3,00 × preço) = R$3,00 × dp(preço) = R$3,00 × US$1,00 = R$3,00
VERDADEIRA
(2)Se ao preço original de cada artigo, um intermediário adicionar uma margem de

lucro fixa de R$ 10,00, o novo preço médio será R$ 55,00 com um desvio-padrão de
R$ 6,00.
Resposta:
Se for adicionada uma margem de lucro fixa de R$10,00, o novo preço médio será:
E(preço + 10) = E(preço) + E(10) = 45 + 10 = 55
Mas o desvio-padrão continuará sendo o mesmo, já que1:
dp(preço + 10) = dp(preço) = R$3,00
FALSA
(3) Se a margem de lucro for de 20% sobre o preço em reais, o novo preço médio será
R$ 54,00 e o novo desvio-padrão será R$ 3,60.
Resposta:
Acrescentando-se uma margem de lucro de 20% sobre o preço em reais, temos que o
preço médio será dado por:
E(preço + 0,20preço) = E(preço) + 0,20E(preço) = 45 + 9 = R$54,00
E o desvio-padrão:
dp(preço + 0,20preço) = dp(1,20preço) = |1,20|dp(preço) = |1,20| × 3,00 = R$3,60
VERDADEIRA
(4) O coeficiente de variação calculado em reais, devido à taxa de câmbio, será 3 vezes
maior do que aquele calculado utilizando-se os valores em dólar.
Resposta:
O coeficiente de variação (desvio-padrão dividido pela média) não é afetado por
mudanças nas unidades de medida. Portanto, não faz diferença se calcularmos os
valores em reais ou em dólares; o coeficiente de variação continuará sendo o mesmo.
FALSA
1
Lembre-se que o fato de adicionar uma constante não irá alterar a variabilidade da variável; apenas irá
deslocar os seus valores para a direita (no caso de adição) ou para a esquerda (no caso de subtração).
(ANPEC 2003, 09) Sendo Y e X duas variáveis aleatórias, é correto afirmar que:
(0) Var(Y + X) = Var(Y) + Var(X) - 2Cov(Y, X);

Resposta:
A variância da soma de duas variáveis quaisquer é dada por:
Var(Y + X) = var(Y) + var(X) + 2cov(Y, X)
Demonstração: Veja Sartoris (2003, p.55)
FALSA
(1) Var(Y - X) = Var(Y) - Var(X) - 2Cov(Y,X);

Resposta:
A variância da diferença entre duas variáveis quaisquer é dada por:
Var(Y - X) = var(Y) + var(X) - 2 cov(Y,X)
Demonstração: Veja Sartoris (2003, p. 56)
FALSA
(2) Var (Y + X) = Var(Y) + Var(X), se Y e X forem independentes;

Resposta:
Se as variáveis Y e X forem independentes, a covariância entre elas será
necessariamente nula e, portanto, a variância da soma destas duas variáveis será igual à
soma das variâncias.
VERDADEIRA
(3) se Cov(Y, X) = 0, então Y e X são independentes;

Resposta:
O fato da covariância entre duas variáveis ser nula não implica que elas sejam
independentes (a não ser, por exemplo, que elas sejam normalmente distribuídas, como
veremos no próximo item). Mas se duas variáveis são independentes, a covariância
entre elas será nula. Para um exemplo de que covariância nula não implica
independência de variáveis, veja Sartoris (2003, p. 128) ou questão ANPEC 1998, 10,
itens 0 e 1, em distribuição de probabilidade conjunta.
FALSA
(4) se Cov(Y, X) = 0 e se Y e X têm distribuição conjunta normal, então Y e X são

independentes.
Resposta:
Nesse caso, o fato da covariância entre X e Y ser igual a zero, implica que Y e X sejam
independentes. Na questão ANPEC 1999, 14, item 4, mostramos que se duas variáveis
são binomialmente distribuídas e se a covariância entre elas for igual a zero, então elas
serão independentes. E, como sabemos, à medida que o tamanho da amostra aumenta, a
binomial tende à distribuição normal. Portanto, os resultados obtidos naquela questão
são válidos para esta também, ou seja, se as variáveis forem conjuntamente
normalmente distribuídas e se a covariância entre elas for igual a zero, então essas
variáveis serão independentes.
Mas, apenas por curiosidade, a f.d.p. de uma normal bivariada é dada por:
2
y − µy y − µy
2
x − µx x − µx
+ − 2ρ
1 1 σ σ σ σ
exp −
x y x y
f(x,y) =
2πσ xσ y 1 − ρ 2
2 1− ρ 2
Portanto, se ρ (coeficiente de correlação entre x e y) for igual a zero (o que implica que
a covariância também será zero), a expressão acima se reduzirá a:
2
y − µy
2
1 1 x − µx
f(x,y) = exp − +
2πσ xσ y 2 σx σ y
que é a função densidade de probabilidade conjunta de duas variáveis independentes

que possuem distribuição conjunta normal (já que nesse caso, f(x,y) = f(x) × f(y)).
VERDADEIRA
(ANPEC 2002, 03) Considere um investidor cuja composição da carteira é formada

por dois ativos A e B.
(0) Se os retornos esperados de A e B são iguais a 10% e 5%, e as participações de A e

B na carteira são de 40% e 60%, respectivamente, então o retorno esperado da
carteira é de 7,5%.
Resposta
O retorno esperado da carteira será dado por:
E(carteira) = 0,4 × 0,10 + 0,6 × 0,05
E(carteira) = 0,07 = 7%
FALSA
(1) Supondo-se que os retornos dos dois ativos referidos no quesito anterior sejam
independentes e que suas variâncias sejam iguais a 10 e 20, respectivamente, então a
variância da carteira será igual a 8,8.
Resposta:
A variância da carteira será dada por:
var(carteira) = var(0,4 A + 0,6B)
Se os retornos dos ativos são independentes, então a variância de sua soma é igual à
soma das variâncias:
var(carteira) = var(0,4 A) + var(0,6 B)
var(carteira) = 0,42 var(A) + 0,62 var(B)
var(carteira) = 0,16 × 10 + 0,36 × 20
var(carteira) = 1,60 + 7,20
var(carteira) = 8,8
VERDADEIRA
(2) Supondo-se que os retornos de A e B tenham a mesma variância, a diversificação

dessa carteira nestes dois ativos somente reduzirá o risco total se o coeficiente de
correlação entre os respectivos retornos for negativo.
Resposta:
A variância da carteira é dada por:
var(carteira) = var(αA) + var(βB) + 2cov(αA, βB)
onde β = (1-α).
Se A e B têm a mesma variância, temos que:
var(carteira) = α2var(A) + β2var(A) + 2αβcov(A,B) (I)
Calculemos, então, cov(A,B). Para isso, primeiro calculemos o coeficiente de

correlação entre os ativos:
cov(A, B) cov(A, B) cov(A, B)

ρ= = =
var(A)var(B) [var(A)]2
var(A)
Rearranjando, temos que:
cov(A,B) = ρ × var(A)
Substituindo a expressão acima em (I), temos:
var(carteira) = α2var(A) +β2var(A) + 2αβρ var(A)

var(carteira) = (α2 +β2 + 2αβρ) var(A)
Portanto, para que o risco da carteira seja eliminado, basta que (α2 +β2 + 2αβρ) <1.
Vejamos se o coeficiente de correlação entre os ativos precisa ser negativo para que isso
ocorra. Suponha que ρ = 0. A variância da carteira será dada então por:
var(carteira) = (α2 +β2) var(A)
Supondo que α = 0,50 (e, portanto, β=0,5), temos que:
var(carteira) = [0,50 + (0,50)2] var(A)

var(carteira) = 0,75 var(A) < var(A)
Ou seja, o coeficiente de correlação entre os ativos não necessariamente precisa ser

negativo para que a diversificação dessa carteira reduza o risco. Como vimos, se ρ = 0,
o risco também será reduzido.
FALSA
(3) No caso de correlação negativa perfeita, se a variância de A é duas vezes a variância

de B, então é preciso investir duas vezes mais em A para eliminar o risco da
carteira.
Resposta:
Note que se a variância de A é maior que a variância de B, então é preciso investir mais
em B para eliminar o risco da carteira. Mas, façamos os cálculos.
Se investirmos duas vezes mais em A, temos que a variância da carteira será dada por:
2 1 2 1
var(carteira) = var A + var B + 2 cov A, B
3 3 3 3
4 1 4
var(carteira) = var(A) + var(B) + cov(A,B)
9 9 9
E, como a var(A) = 2var(B), temos que:
4 1 4
var(carteira) = 2var(B) + var(B) + cov(A,B)
9 9 9
8 1 4
var(carteira) = var(B) + var(B) + cov(A,B)
9 9 9
4
var(carteira) = var(B) + cov(A,B) (I)
9
Se existe correlação negativa perfeita entre A e B, então:

ρ(A,B) = -1
cov(A, B)
= -1
var(A)var(B)
cov(A,B) = - var(A)var(B)
cov(A,B) = - 2 var(B)var(B)
cov(A,B) = - 2 var(B)
Substituindo em (I), temos que:

4
var(carteira) = var(B) + [- 2 var(B)]
9
4 2
var(carteira) = 1 − var(B)
9
Para que o risco da carteira fosse eliminado, a expressão entre parênteses teria que ser
igual a zero, o que, obviamente, não se verifica. Portanto, se a variância de A é duas
vezes a variância de B e se investirmos duas vezes mais em A, o risco da carteira não
será eliminado.
FALSA
(4) Se existir uma correlação negativa perfeita entre os retornos dos ativos A e B,
haverá uma particular composição desses ativos que eliminará completamente o
risco da carteira.
Resposta:
Como a variância da carteira é dada por:
var(carteira) = var(αA) + var[(1-α)B] + 2cov[αA, (1-α)B]
var(carteira) = α2var(A) + (1-α)2var(B) + 2α(1-α)cov(A,B)
Se ρ = -1, então cov(A,B) = - var(A)var(B) . Substituindo:
var(carteira) = α2var(A) + (1-α)2var(B) + 2α(1-α)[- var(A)var(B) ]
Supondo que var(A) = 4var(B), temos que:
var(carteira) = 4α2var(B) + (1-α)2var(B) + 2α(1-α)[- 4var(B)var(B) ]

var(carteira) = 4α2var(B) + (1-α)2var(B) + 2α(1-α) [-2var(B)]
var(carteira) = [4α2 + (1-α)2 -4α(1-α)] var(B)
var(carteira) = [4α2 +12 -2α + α2 -4α + 4α2] var(B)
var(carteira) = [9α2 - 6α + 1] var(B)
Para eliminar o risco da carteira, temos que a expressão entre colchetes acima deve ser
nula. Portanto:
9α2 - 6α + 1 = 0
1
Resolvendo essa equação do 2º grau, encontremos o valor de para α. Portanto, se
3
houver uma correlação negativa perfeita entre os ativos, e a var(A) = 4var(B), a seguinte
composição eliminará completamente o risco da carteira:
1 2
Carteira = A+ B
3 3
VERDADEIRA
(ANPEC 1999, 14) Com relação as definições de Coeficiente de Correlação e de
Esperança Matemática, pode-se afirmar que :
(0) Se X e Y são duas variáveis aleatórias de forma que Y=aX+b, onde a e b são
constantes, então o coeficiente de correlação entre X e Y é igual a 1 se a < 0 e igual a -1
se a > 0.
Resposta:
O coeficiente de correlação entre X e Y será dado por:
cov( X , Y )
ρ X ,Y =
var( X ) var(Y )
Como Y = aX+b:
cov(X, aX + b) a cov(X, X) a var( X ) a
ρ X ,Y = = = =
var(X)var(aX + b) var(X)a var(X)
2
a var( X ) a
Portanto, se a < 0, o coeficiente de correlação entre X e Y será igual a -1 e se a > 0, será
igual a 1.
FALSA
(1) Se ρ XY é o coeficiente de correlação entre as variáveis X e Y onde W=aX+b e

ac
Z=cY+d com a,b,c e d constantes, então ρWZ = ρ XY onde a e c são diferentes de
ac
zero.
Resposta:
O coeficiente de correlação entre W e Z será dado por:
cov(W , Z )
ρWZ =
var(W ) var(Z )
E como W = aX+b e Z = cY+d, temos que:
cov(aX + b, cY + d)
ρWZ =
var(aX + b)var(cY + d)
Utilizando as propriedades da variância e da covariância, sabemos que:
cov(aX , cY ) ac cov( X , Y ) ac
ρWZ = = = ρ XY
var(aX ) var(cY ) ac var( X ) var(Y ) ac
VERDADEIRA
(2) Se o coeficiente de correlação entre as variáveis X e Y é igual a zero, então

E(XY)=E(X)E(Y). Assim, pode-se concluir que X e Y são variáveis aleatórias
independentes.
Resposta:
Sabemos que se o coeficiente de correlação é zero, a covariância também é zero e,
portanto:
Cov(X,Y) = E(XY) - E(X)E(Y) = 0 ⇒ E(XY) = E(X)E(Y)
Porém, o fato da covariância ser igual a zero, não implica que as variáveis sejam
independentes (a não ser que elas, por exemplo, sejam normalmente distribuídas).
Para um exemplo de que covariância igual a zero não implica independência entre as
variáveis, veja Questão ANPEC 1998, 10, itens (0) e (1).
FALSA
(3) Se a função densidade de probabilidade de uma variável aleatória X é simétrica em

relação a um ponto X=a , então E(X)=a.
Resposta:
Lembre-se que, quando uma distribuição é simétrica, temos que média = moda =
mediana. Assim, o valor que divide a distribuição ao meio (mediana), que é exatamente
o ponto em relação ao qual a distribuição é simétrica, é a própria média da distribuição.
A figura abaixo dá o exemplo da distribuição normal, que é simétrica e, portanto, o

valor que a divide ao meio é a própria média:
VERDADEIRA
(4) Dados os seguintes eventos :
X=1 se o evento A ocorre, e 0 em caso contrário.

Y=1 se o evento B ocorre, e 0 em caso contrário.
Se as probabilidades dos eventos A e B são, respectivamente, maiores do que zero,

então o coeficiente de correlação entre X e Y igual a zero implica em que X e Y são
independentes.
Resposta:
Temos que:
1, se A ocorre
X=
0, caso contrário
Portanto, a média de X será dada por:

E(X) = 1× P(A) + 0× P( A )
E(X) = P(A)
E para Y, temos que:

1, se B ocorre
Y=
0, caso contrário
Portanto, a média de Y será:

E(Y) = 1× P(B) + 0× P( B )
E(Y) = P(B)
E sabemos que:
1, se A e B ocorrem
XY =
0, caso contrário
Portanto, a média dos produtos será dada por:

E(XY) = 1× P(A ∩ B) + 0× [1- P(A ∩ B)]
E(XY) = P(A ∩ B)
Sabemos que o coeficiente de correlação entre X e Y será igual a zero, se e

somente se, a covariância entre X e Y for zero. E temos que:
cov(X,Y) = 0 ⇔ E(XY) - E(X)E(Y) = 0
Dessa forma:
E(XY) - E(X)E(Y) = 0
E(XY) = E(X)E(Y)
E, sabendo que E(X) = P(A), E(Y) = P(Y) e E(XY) = P(A ∩ B), temos:
P(A ∩ B) = P(A).P(B)
Portanto, A e B são independentes

VERDADEIRA
(ANPEC 1998, 1) Pode - se afirmar que:
(0) Multiplicando (ou dividindo) por um valor constante e arbitrário, c, cada elemento
de um conjunto de números, o desvio padrão deste conjunto fica multiplicado (ou
dividido ) pela constante c.
Resposta
O desvio padrão, quando multiplicamos cada elemento por c é dado por:
dp (cX) = c dp(X)
E, analogamente, para a divisão:
X 1
dp ( ) = dp(X)
c c
VERDADEIRA
(1) No caso de dois conjuntos de n1 e n2 valores, onde s12 e s22 são, respectivamente,
suas variâncias e x1 e x 2 suas médias, a variância combinada , s 2 , destes dois
(n1 − 1) s12 + (n2 − 1) s22
conjuntos quando, x = x1 = x 2 , é igual a s =
2
.
n1 + n2 − 2
Resposta
A variância será dada por uma média ponderada pelos graus de liberdade nas duas
amostras:
(n − 1) s12 + (n2 − 1) s 22 (n1 − 1) s12 + (n2 − 1) s 22
s2 = 1 =
(n1 − 1) + (n2 − 1) n1 + n2 − 2
VERDADEIRA
(2) Quando dois conjuntos de valores são expressos em unidades de medidas diferentes,
é mais justificável o uso do desvio padrão (dispersão absoluta) do que o coeficiente
de variação de Pearson, para efeito de comparação.
Resposta
O coeficiente de variação de Pearson é dado por:
desvio padrão
ζ=
média
Portanto, será um número adimensional, isto é, não tem unidades, já que a média e o
desvio padrão são medidos na mesma unidade. Portanto, ele será preferível ao desvio
padrão para compararmos valores expressos em unidades de medidas diferentes.
FALSA
(3) Quando uma distribuição de frequência apresenta M 0 (Moda) > M e (Mediana) >
x (Média aritmética) , ela diz-se assimétrica à direita e, assimétrica à esquerda, em
caso contrário.
Resposta
O caso em que M 0 (Moda) < M e (Mediana) < x (Média aritmética) está mostrado
abaixo:
E o caso em que M 0 (Moda) > M e (Mediana) > x (Média aritmética) abaixo:

A primeira é dita assimétrica à direita e a segunda, à esquerda. Portanto, o
inverso do que foi afirmado.
FALSA
Distribuição de probabilidade discreta
(ANPEC 2003, 04) Com relação à variáveis aleatórias discretas é correto afirmar que:
(0) se X1, ..., Xn são variáveis aleatórias identicamente distribuídas com distribuição
n
Bernoulli com parâmetro p, então Z = ∑ X i terá uma distribuição Poisson quando
i =1
n for grande;
Resposta:
A variável Z, que é uma variável com distribuição binomial (já que é a soma de n
experimentos de Bernouilli), apenas terá distribuição de Poisson quando n for grande
( n → ∞ ) e p for pequeno ( p → 0 ), de forma que n × p (que é o parâmetro da
distribuição de Poisson) permaneça constante.
FALSA
(1) uma variável aleatória com distribuição binomial representa o número de sucessos
em n experimentos de Bernoulli;
Resposta:
A distribuição binomial é a generalização da distribuição de Bernouilli. Na distribuição
de Bernouilli temos dois eventos mutuamente exclusivos (sucesso e fracasso) e apenas
um experimento. Na binomial, também temos apenas dois eventos mutuamente
exclusivos, mas o número de experimentos pode ser maior que um. É como se
realizássemos n vezes um experimento de Bernouilli. Chamando de X um experimento
n
de Bernouilli, temos que Y = ∑X

i =1
i
será binomialmente distribuída. E como X pode
n
assumir apenas os valores 1 e 0, ∑X

i =1
i
representa o número de sucessos em n
experimentos de Bernouilli.
VERDADEIRA
(2) a distribuição hipergeométrica é um caso especial da distribuição Normal;

Resposta:
A distribuição hipergeométrica é um caso especial da distribuição binomial. Ela se
refere à probabilidade de ao retirarmos n elementos de um total de N, sem reposição,
termos k elementos com o atributo sucesso (do total de N elementos, s possuem o
atributo sucesso e N-s o atributo fracasso). Note que a distribuição hipergeométrica
difere da distribuição binomial pelo fato da amostragem ser feita sem reposição e a
amostra ser finita (já que é igual a N). Quando a amostra for infinita, ou seja, N for
suficientemente grande em relação a n, não haverá diferença entre a distribuição
hipergeométrica e a binomial, já que não fará diferença retirarmos os elementos com ou
sem reposição.
Aliás, cabe notar que a média e a variância de uma distribuição hipergeométrica são
dadas por:
E(x) = np
N −n
Var(x) = np(1-p)
N −1
Como podemos ver, a média da distribuição hipergeométrica é igual a da distribuição
binomial. Já a sua variância difere da variância de uma distribuição binomial apenas
N −n
pelo fator , que é exatamente o fator de correção para a variância quando a
N −1
amostra é finita e a amostragem é feita sem reposição.
FALSA
(3) a distribuição Qui-quadrado possui média igual a n e variância igual a 4n, em que n
é o número de graus de liberdade;
Resposta:
Seja Z uma variável normal padronizada:
x−µ
Z= ~N(0,1)
σ
n
Então, ∑Z i =1
2
i
~ χ n2 , ou seja, a soma de n variáveis normais padronizadas ao quadrado,
segue uma distribuição Qui-quadrado com n graus de liberdade. A esperança da
distribuição Qui-quadrado será dada então por:
n
E( χ n2 ) = E ∑Z i =1
2
i
E( χ n2 ) = ∑ E (Z )
i =1
i
2
Note que E( Z i2 ) = var (Z i ) , já que E(Zi) = 0. E, com sabemos, a variância de uma

normal padronizada é igual a 1. Portanto:
E( χ n2 ) = n
Calculemos agora a variância de uma distribuição Qui-quadrado:
n
var( χ n2 ) = var ∑Z
i =1
2
i
var( χ n2 ) = ∑ var(Z )
i =1
2
i
∑ {E(Z [ ]}
n
2
var( χ n2 ) = i
4
) − E( Z i2 )
i =1
Como já tínhamos visto antes, E( Z i2 ) = var (Z i ) = 1:
∑ [E(Z ]
n
var( χ n2 ) = i
4
) − 12
i =1
E a E( Z i4 ) de uma distribuição normal padronizada, isto é, o quarto momento em

relação à média de uma distribuição normal padronizada, é igual a 3. Portanto:
n n
var( χ n2 ) = ∑ (3 − 1) = ∑ 2
i =1 i =1
var( χ n ) = 2n
2
Dessa forma, a distribuição Qui-quadrado possui média igual a n e variância igual a 2n

(n é o número de graus de liberdade).
FALSA
(4) a distribuição binomial pode ser aproximada pela distribuição de Poisson para
valores grandes de n (tamanho da amostra) e pequenos de p (probabilidade de
sucesso).
Resposta:
É exatamente nesse caso que a distribuição binomial pode ser aproximada pela
distribuição de Poisson (veja item (0) desta questão).
VERDADEIRA
(ANPEC 2003, 13) A probabilidade de um homem acertar um alvo é ¼. Quantas

vezes ele deve atirar para que a probabilidade de acertar pelo menos uma vez no alvo
seja maior que 2/3?
Solução:
A probabilidade de acertar o alvo pelo menos uma vez será dada por:
P(pelo menos uma vez) = 1 - P(acertar nenhuma)
1
E como a probabilidade de acertar o alvo é de , a probabilidade de não acertá-lo é de
4
3
. Na tabela abaixo, calculamos essas probabilidades para os valores de n até que
4
2
P(pelo menos uma vez) seja maior que ( ≅ 0,67):
3
N P(acertar nenhuma) P(pelo menos 1 vez)
1 3 1
4 4
2 3 3 9 7
× =
4 4 16 16
3 3 3 3 27 37
× × = ( ≅ 0,58)
4 4 4 64 64
4 3 3 3 3 81 175
× × × = ( ≅ 0,68)
4 4 4 4 256 256
Portanto, ele deve atirar 4 vezes para que a probabilidade de acertar pelo menos uma
2
vez no alvo seja maior que .
3
(ANPEC 2002, 07) Em relação às distribuições de probabilidade discretas:
(0) Uma variável aleatória X com distribuição binomial de parâmetro p, baseada em n

repetições, aproxima-se de uma Poisson quando n → ∞ e p permanece constante.
Resposta:
Uma variável aleatória com distribuição binomial pode sim ser aproximada por uma
distribuição de Poisson, desde que n → ∞ e p → 0 , de modo que np permaneça
constante (veja da questão ANPEC 2003, 04, item 0).
FALSA
(1) Uma variável aleatória Y, definida como o número de repetições necessárias para a
primeira ocorrência de A, tem distribuição Geométrica, desde que as repetições
sejam independentes e que P(A) = p e P(AC ) = 1-p.
Resposta:
A distribuição geométrica se refere à probabilidade de A ocorrer exatamente na k-ésima
repetição. Portanto, se a variável aleatória Y é o número de repetições necessárias para a
primeira ocorrência de A, ela terá distribuição geométrica, cuja função de distribuição é
dada por:
P(x = k) = (1-p)k-1p
VERDADEIRA
(2) Pode-se utilizar a distribuição Binomial para, por exemplo, calcular a probabilidade
de se encontrar k peças defeituosas em um lote de n peças selecionadas ao acaso,
sem reposição.
Resposta:
Nesse caso, deve-se utilizar a distribuição hipergeométrica, já que não há reposição das
peças.
FALSA
(3) Se uma variável aleatória segue uma distribuição Hipergeométrica, sua distribuição
será próxima da Binomial se o tamanho da população for grande em relação ao
tamanho da amostra extraída .
Resposta:
A distribuição hipergeométrica difere da binomial pelo fato da amostra ser finita e os
elementos serem retirados sem reposição. Quando o tamanho da população for grande
em relação ao tamanho da amostra, não fará diferença se retiramos os elementos com ou
sem reposição e, portanto, a distribuição hipergeométrica será próxima da distribuição
binomial. Veja também questão ANPEC 2003, 4, item 2.
VERDADEIRA
(4) Se Z tiver distribuição de Poisson com parâmetro α , então, E(Z) = V(Z) = α .

Resposta:
A distribuição de Poisson é o caso limite de uma distribuição binomial fazendo n → ∞ e
p → 0, ou seja, o número de repetições do experimento tende a infinito e a
probabilidade do evento ocorrer tende a zero, de modo que np permaneça constante.
Portanto, a média e a variância de uma distribuição de Poisson serão dadas,
respectivamente, por:
E(Z) = np = α
Var(Z) = np(1-p) = np = α
Dessa forma, na distribuição de Poisson, a média é igual à variância, que são iguais ao
parâmetro da distribuição, α.
VERDADEIRA
(ANPEC 2002, 14) Uma companhia de seguros tem 400 segurados de certo tipo. O
prêmio do seguro é R$ 1.000,00 por ano. Caso ocorra um sinistro a seguradora
indenizará R$ 8.000,00 a cada acidentado. Sabe-se que a probabilidade de ocorrência
de sinistro, é 0,1 por ano. Os custos fixos da seguradora são de R$ 8.000,00 por ano.
Qual a probabilidade da seguradora ter prejuízo em um certo ano? (Ignore o fator de
correção para continuidade, multiplique sua resposta por 100 e transcreva a parte inteira
do número encontrado).
Solução:
A receita total dessa companhia é dada por:
R = 400 × 1000 = 400.000
Chamando de x o número de sinistros ocorridos por ano, temos que os seus custos totais
são:
C = 8.000x + 8.000
Portanto, o lucro dessa companhia é dado por:

L=R-C
L = 400.000 - (8.000x + 8.000)
Se o lucro for igual a zero, obviamente, a empresa não terá lucro nem prejuízo. E temos
que:
L = 0 ⇔ 8.000x = 400.000 - 8.000

392
x=
8
x = 49
Portanto, para que a empresa tenha prejuízo, o número de sinistros ocorridos por ano (x)
deve ser maior que 49. Então, devemos encontrar P(x>49). Note que a variável x tem
distribuição binomial e, dessa forma, temos que:
E(x) = np = 400 × 0,1 = 40

var(x) = np(1-p) = 400 × 0,1 × 0,9 = 36
dp(x) = var(x) = 6
E, como a variável é binomialmente distribuída, podemos aproximá-la pela distribuição

normal. Padronizando a variável para podermos consultar a tabela, temos que:
x − µ 49 − 40 9
z= = = = 1,5
dp(x) 6 6
Portanto, P(x>49) = P(z>1,5):

Consultando a tabela da distribuição normal para z = 1,5 encontraremos o valor
de 0,0668 (lembrando que a tabela fornecida para o exame dá as probabilidades dos
valores extremos). Portanto:
P(x>49) = P(z>1,5) = 0,0668 = 6,68%.
Transcrevendo apenas a parte inteira do número encontrado, chegaremos ao valor de 6 .
(ANPEC 1999, 12) Sobre as distribuições de probabilidade podemos afirmar que:
(0) Na distribuição Binomial não é possível contar as não-ocorrências do evento e a

média e a variância são iguais ao parâmetro da distribuição.
Resposta:
O enunciado desse item se aplicaria à distribuição de Poisson. Na Binomial é possível
sim contar as não-ocorrências do evento e, como sabemos a média e a variância de uma
distribuição binomial não são iguais, já que sua média é dada por np e sua variância por
np(1-p).
FALSA
(1) As características da distribuição de Poisson são:

(i) n repetições de um experimento de Bernoulli;
(ii) as repetições são independentes;
(iii) cada experimento tem dois resultados possíveis que são mutuamente
exclusivos;
(iv) a distribuição de probabilidade é definida como
n
P( X = x ) = . p x . q n − x , x = 1, 2, …, n, onde n = número de
x
repetições do experimento, p = probabilidade de ocorrência de sucesso e
q = 1 - p.
Resposta:
As características enunciadas na afirmativa são de uma distribuição binomial. A
distribuição de Poisson possui as seguintes características:
- não é possível contar as não-ocorrências do evento;
- E(x) = var(x) = np = λ , ou seja, a média é igual à variância;
e − λ λk
- a distribuição de probabilidade é definida como P(X = k) =
k!
FALSA
(2) A média de uma distribuição Geométrica é 1/p, onde p = probabilidade de

ocorrência de sucesso.
Resposta:
A distribuição geométrica refere-se à probabilidade de ocorrência de sucesso
exatamente na n-ésima jogada. Portanto, temos que:
P(X = 1) = p
P(X = 2) = p × (1-p)
P(X = 3) = p × (1-p)2
P(X =n) = p × (1-p)n-1
A média de X será então:

E(X) = 1 × p + 2 × p × (1-p) + 3 × p × (1-p)2 + …
Note que a expressão acima é "quase" uma progressão geométrica, exceto pelos
números 1, 2, 3, … . Como veremos abaixo, a expressão acima é a soma de progressões
geométricas:
p + p(1-p) + p(1-p)2 + p(1-p)3 + …

p(1-p) + p(1-p)2 + p(1-p)3 + …
p(1-p)2 + p(1-p)3 + …
p(1-p)3 + …
p + 2p(1-p)+3p(1-p)2+4p(1-p)3+ …
E a soma dos termos de uma progressão geométrica infinita, com valor inicial dado por
a e razão dada por q é:
a
S=
1− q

p p(1 − p) p(1 − p) 2 p(1 − p ) 3
E(X) = + + + +…
1 − (1 − p) 1 − (1 − p) 1 − (1 − p) 1 − (1 − p)
E(X) = p + (1-p) + (1-p)2 + (1-p)3 + …
1
E(X) =
1 − (1 − p)
1
E(X) =
p
VERDADEIRA
(3) Um levantamento junto ao Setor de Contabilidade de uma loja de departamentos

mostrou que 30% dos clientes pagam suas mensalidades com atraso. Se em certo
dia selecionarmos ao acaso 10 pessoas que pagaram suas dívidas mensais, a
probabilidade de no máximo um cliente ter pago com atraso é aproximadamente
15%.
Resposta:
Chamando de X a probabilidade de um cliente atrasar sua dívida, temos que, num grupo
de 10 clientes:
P(X=0) = 0,7010= 0,028
P(X=1) = 10 × 0,79 × 0,301 = 0,1211
Dessa forma, a probabilidade de no máximo um cliente atrasar o pagamento será dada

por:
P(X ≤ 1) = P(X=0) + P(X=1)
P(X ≤ 1) = 0,028 + 0,1211
P(X ≤ 1) ≅ 15%
VERDADEIRA
Distribuição de probabilidade contínua
(ANPEC 2004, 05) Uma variável aleatória contínua x tem a sua função densidade de
probabilidade dada pelo gráfico:
K1
1 K2
São corretas as afirmativas:
(0) O valor da constante K1 não poderá ser maior do que 1.

Resposta:
A constante K1 poderá assumir qualquer valor positivo desde que a área do gráfico não
seja maior do que 1, ou seja, a soma de todas as probabilidades (que, obviamente, não
pode ser maior que 1).
FALSA
(1) O valor da constante K2 será igual a (K1+2)/2K1.

Resposta:
Para encontrarmos o valor da constante K2, basta calcularmos a área do gráfico da f.d.p.
de x e igualar a 1. E, como podemos observar no gráfico, temos duas figuras, um
triângulo e um retângulo. A área do triângulo é dada por:
base × altura 1K 1
=
2 2
E a do retângulo:
base × altura = (K2 -1) × K1
Somando essas duas áreas e igualando a 1, temos que:

K1
+ (K2 -1) × K1 = 1
2
K 1
(K2 -1) = 1 − 1 ×
2 K1
1 1
(K2 -1) = −
K1 2
1 1
K2 = − +1
K1 2
1 1
K2 = +
K1 2
2 + K1
K2 =
2K1
VERDADEIRA
K 1 x , 0 ≤ x <1
(2) A função densidade de probabilidade de x será f ( x) = K1 , 1≤ x ≤ K 2
0, fora desses intervalos.
Resposta:
É exatamente essa a f.d.p. de x. Observando o gráfico, podemos ver claramente que se x
estiver entre 0 e 1, o valor de f(x) será K1x. Se x estiver entre 1 e K2, o valor da f(x) será
igual à constante K1 (já que f(x) é uma linha horizontal nesse intervalo). E fora desses
intervalos, a f(x) é igual a zero. Observe que os sinais de desigualdade ≤ ou < são
equivalentes nesse caso, já que a distribuição é contínua.
VERDADEIRA
K1 x 2 / 2, 0 ≤ x <1
(3) A função de distribuição acumulada de x será F ( x) = K1 x, 1≤ x < K 2
1, x ≥ K 2
Resposta:
Sabemos que:
x
F(x) = ∫ f (t )dt
−∞
Ou seja, a função de distribuição acumulada (F(x)) é a soma das probabilidades de todos

os valores possíveis que a variável x pode assumir até o valor de x propriamente dito.
Portanto, nesse caso, temos que:
x2
F(x) = ∫ K 1 xdx = K 1 +C
2
Como F(0) = 0, substituindo temos:
F(0) = C =0
Então, para 0 ≤ x < 1

x2
F(x) = K 1
2
Para 1 ≤ x < K2, temos:
F(x) = ∫ K dx = K x + C
1 1
Da primeira função, temos:

12 K 1
F(1) = K 1 =
2 2
Substituindo na segunda:
K
F(1) = K 1 + C = 1
2
K1
C= – K1
2
K
C=– 1
2
Dessa forma, a função de distribuição acumulada de x será dada por:

K 1 x 2 / 2, 0 ≤ x <1
K1
F ( x) = K 1 x − , 1≤ x < K 2
2
1, x ≥ K2
FALSA
(4) Supondo que K2 =1, a esperança matemática de x, E(x), será 1/3.

Resposta:
Supondo que K2 = 1, a f.d.p de x será:
K 1 x, 0 ≤ x < 1
f ( x) =
0, fora desse intervalo
E para calcularmos a esperança de x, precisamos encontrar o valor da constante K1.

Nesse caso é fácil, já que no item (1) dessa questão encontramos que1:
2 + K1
K2 =
2K1
Portanto:
1
Para aqueles que não tivessem resolvido o item (1) dessa questão (ou para os que não tivessem absoluta
1
certeza de sua veracidade), bastaria calcular ∫ K xdx e igualar a 1.

0
1
2 + K1
1=
2K1
2K1 = 2 + K1
2 K1 - K1 = 2
K1 = 2
A esperança de x será então:

1
E(x) = ∫ xf ( x)dx
0
1
E(x) = ∫ x(2 x)dx

0
1
E(x) = ∫ 2 x 2 dx
0
1
x3
E(x) = 2
3 0
1
E(x) = 2×
3
2
E(x) =
3
FALSA
(ANPEC 2003, 03) O custo X de produção de certo bem é uma variável aleatória com
função densidade de probabilidade
kx 2 1 ≤ x ≤ 4
f ( x) =
0 caso contrário
É correto afirmar que:
(0) o valor de k é 63;

Resposta:
Para que f(x) seja uma f.d.p., a seguinte condição deve ser satisfeita:
4
∫ f ( x)dx
1
=1
Ou seja, a soma das probabilidades deve ser igual a 1. Portanto:

4
∫ kx dx =1
2
1
4
k ∫ x 2 dx = 1
1
4
x3
k =1
3 1
4 3 13
k − =1
3 3
21k = 1
1
k=
21
FALSA
(1) o custo médio do produto é aproximadamente 1,04;

Resposta:
Para encontrarmos o custo médio do produto, basta encontrarmos a esperança de x:
4
E(x) = ∫ xf ( x)dx
1
4
E(x) = ∫ xkx dx
2
1
4
E(x) = k ∫ x 3 dx
1
4
x4
E(x) = k
4 1
4 4 14
E(x) = k −
4 4
1 255
E(x) = ×
21 4
E(x) ≅ 3,036
FALSA
(2) o custo é menor do que 2 com probabilidade 1/9;

Resposta:
A probabilidade de x ser menor que 2 é dada por:

2
P(x < 2) = ∫ f ( x)dx

1
2
1
P(x < 2) = ∫ 21 x dx
2
2
1 x3
P(x < 2) =
21 3 1
1 2 3 13
P(x < 2) = −
21 3 3
1 7
P(x < 2) = ×
21 3
1
P(x < 2) =
9
VERDADEIRA
(3) a variância do custo do produto é aproximadamente 3,04;

Resposta:
Sabemos que a variância de x é dada por:

var(x) = E(x2) - [E(x)]2
A média dos quadrados de x é:

4
E(x2) = ∫x f ( x)dx
2
1
4
1 2
E(x2) = ∫x x dx
2
1 21
1 4 4
21 ∫1
E(x2) = x dx
1 4 5 15
E(x2) = −
21 5 5
1 1023
E(x2) = ×
21 5
341
E(x2) = ≅ 9,743
35
A média de x já foi calculada no item (1): E(x) = 3,036.
A variância será então:

var(x) = E(x2) - [E(x)]2
var(x) = 9,743 - (3,036)2
var(x) ≅ 0,52
FALSA
(4) o custo é maior do que 3 com probabilidade 8/9.

Resposta:
A probabilidade x ser maior que 3 será:

4
P(x > 3) = ∫ f ( x)dx

3
4
1
P(x > 3) = ∫ 21 x dx
2
1 4 3 33
P(x > 3) = −
21 3 3
1 37
P(x > 3) = ×
21 3
37
P(x > 3) =
63
FALSA
(ANPEC 2002, 08) Em relação às distribuições de probabilidade contínuas:
(0) Se X tem distribuição Normal( µ , σ 2 ), então a função densidade de probabilidade de

1
X, f(x), atinge o seu valor máximo quando x = µ e nesse ponto f ( x) = .
σ 2π
Resposta:
Nesse caso é evidente que a função densidade de probabilidade atinge seu ponto
máximo quando x for igual a µ (basta olhar para o gráfico da distribuição normal):
Porém, para os que gostam de cálculo, podemos mostrar facilmente que a f.d.p. de X
atingirá seu máximo quando x for igual a µ. Para isso, basta derivarmos a função
densidade de probabilidade de X e igualar a zero, para encontrar seu ponto de máximo:
( x − µ )2
1 −
2σ 2
f(x) = e
2πσ 2
df ( x)
=
1
× e
−
1 ( x − µ )2
2 σ2 1
× − ×2
(x − µ )
dx 2πσ 2
2 σ2
df ( x)
=−
( x − µ)
×
1
×e
−
1
2
( x − µ )2
σ2
dx σ 2
2πσ 2
E temos que:
df ( x)
= 0 ⇔ (x-µ) = 0
dx
(x-µ) = 0
x=µ
E quando x = µ, a f.d.p. de x será:

1 1
f(x) = e0 =
2πσ 2
2πσ 2
VERDADEIRA
(1) Se X tem distribuição Uniforme no intervalo [0, α ], α >0, então, α tem que ser
igual a 4/3 para que P(X > 1) = 1/3.
Resposta:
Sabemos que a f.d.p. de uma variável uniformemente distribuída é dada por f(x) =
1 1
, que, nesse caso, equivale a (já que a = 0). Portanto, a P(X > 1) será dada por:
α −a α
α
1
P(X > 1) = ∫ dx
1 α
1
E para que P(X > 1) seja igual a , temos que:
3
α
1 1
∫ α dx
1
=
3
α
1 1
x =
α 1 3
1 1 1
α− 1 =
α α 3
1 1
1− =
α 3
1 1
=1-
α 3
1 2
=
α 3
3
α =
2
3 1
Portanto, α deve ser igual a para que P(X>1) seja igual a .
2 3
FALSA
(2) A distribuição t de Student assemelha-se à Normal padrão, N(0,1), mas possui

caudas mais pesadas, quando n, o tamanho da amostra, é maior do que 30.
Resposta:
Pelo contrário, à medida que n aumenta, a distribuição t de Student se aproxima cada
vez mais da distribuição normal. Ela tem caudas "mais pesadas" quando o tamanho da
amostra é pequeno (menor que 30). Aliás, quando a amostra for grande, a distribuição t
de Student será igual à distribuição normal padronizada.
FALSA
(3) Se uma variável aleatória contínua tem função de distribuição

F ( x) = 1 − e − x se x ≥ 0
=0 se x < 0
então a função densidade de probabilidade de X será
f ( x) = e − x se x ≥ 0
=0 se x < 0.
Resposta:
A função densidade de probabilidade de uma variável é a derivada de sua função de
distribuição acumulada. Portanto:
dF ( x)
f(x) =
dx
d (1 − e − x )
f(x) =
dx
f(x) = 0 - (- e − x )
f(x) = e − x
Dessa forma, a f.d.p. de x será dada por:
f ( x) = e − x se x ≥ 0
=0 se x < 0
Nota: observe que o fato do sinal de desigualdade ser ≥ ( ≤ ) ou > (<) não tem
importância, já que se trata de uma distribuição de probabilidade contínua.
VERDADEIRA
(4) A variável aleatória Z tem distribuição Lognormal se e somente se exp (Z) tiver
distribuição Normal.
Resposta:
A variável Z terá distribuição log-Normal se e somente se ln(Z) tiver distribuição
normal.
FALSA
(ANPEC 2001, 4) Seja X uma variável aleatória, com função densidade de

probabilidade f(x) contínua, definida sobre o espaço amostral A, do universo U:
(0) Tanto A como U devem ser contínuos.

Resposta:
Se a variável aleatória é contínua, então seu espaço amostral e universo necessariamente
devem ser contínuos também.
VERDADEIRA
xo
(1) A probabilidade P(X ≤ x 0 ) é dada por ∫ f ( X )dX .

−∞
Resposta:
A probabilidade de X ser menor que um valor qualquer é dada pela soma de f(X) nesse
intervalo, ou seja, pela integral de sua função densidade de probabilidade nesse
intervalo.
VERDADEIRA
(2)A probabilidade P(X = x 0 ) é dada por f(x 0 ).

Resposta:
Quando a f.d.p. é contínua, a probabilidade de X assumir um número qualquer é zero, já
que é um valor entre infinitos valores possíveis:
[∫ f ( x)]
x0
x0
∫
x0
f ( x)dx =
x0
= ∫ f (x ) − ∫ f (x ) = 0
0 x
FALSA
(3) A função cumulativa de probabilidade pode ser discreta.

Resposta:
Se a função densidade de probabilidade é contínua, a sua função cumulativa de
probabilidade (ou função de distribuição acumulada) também deve ser contínua, já que
a primeira é a derivada desta última.
FALSA
d
(4) A função densidade de probabilidade de X é calculada por f(x) = F (x) em que,
dx
F(x) é a função de distribuição acumulada.
Resposta:
Como já foi dito no item anterior, a função densidade de probabilidade f(x) é a derivada
da distribuição acumulada (e, portanto, a função de distribuição acumulada é a integral
da f.d.p.). Porém, a função f(x) já foi definida no enunciado. Sendo assim, ela pode
conter pontos em que há descontinuidade em F(x). Como sabemos, se F(x) não é
contínua para um ponto x0, sua derivada não existirá neste ponto. Mas nada impede que
a função f(x) seja definida, a priori, contendo estes pontos, o que não alteraria o cálculo
das probabilidades através dela (já que a inclusão ou não de um único ponto em uma
f.d.p. contínua é irrelevante para o cálculo das probabilidades).
FALSA
(ANPEC 2001, 14) Seja X uma variável aleatória contínua, com função densidade de
1
probabilidade dada por f ( x) = , 1 ≤ X ≤ 3 . Determine o valor da mediana dessa
2
distribuição.
Solução:
Sabemos que a mediana divide a distribuição ao meio. Chamando a mediana de m,
temos que:
3
1 m
1
P(x>m) = ∫m 2 dx = 0,5 e P(x<m) = ∫ 2 dx = 0,5
1
Tomando a segunda das expressões acima (mas poderia ser a primeira também), temos:
m
1
∫ 2 dx = 0,5
1
m
1
x = 0,5
2 1
1 1
m− = 0,5
2 2
1 1 1
m= +
2 2 2
1
m= =2
1
2
Portanto, a mediana dessa distribuição é igual a 2 .
(ANPEC 2000, 14) Seja uma função de densidade de probabilidade :
cx 2 para 0< x≤2

f ( x) =
0 para outros valores de x
Calcule a probabilidade de (0 ≤ x ≤ 1). Arredonde o resultado e multiplique por 100.
Solução:
Antes de calcularmos a probabilidade pedida, temos que encontrar o valor da
constante c. Portanto:
2
∫ f ( x)dx = 1
0
∫ cx dx = 1
2
c ∫ x 2 dx = 1
0
2
x3
c =1
3 0
23 03
c − =1
3 3
8
c =1
3
3
c=
8
Agora podemos calcular P (0 ≤ x ≤ 1) :
1
P (0 ≤ x ≤ 1) = ∫ f ( x)dx
0
1
3
P (0 ≤ x ≤ 1) = ∫ 8 x dx
2
31 2
8 ∫0
P (0 ≤ x ≤ 1) = x dx
1
3 x3
P (0 ≤ x ≤ 1) =
8 3 0
3 13 0 3
P (0 ≤ x ≤ 1) = −
8 3 3
1
P (0 ≤ x ≤ 1) = = 0,125
8
Arrendondando o resultado e multiplicando por 100, chegaremos ao valor de 13 .
(ANPEC 1999, 11) Podemos afirmar que:
(0) A distribuição qui-quadrado muda de forma de acordo com o tamanho da amostra.

Para amostras pequenas, a distribuição se inclina para a direita assimetricamente e
torna-se cada vez mais simétrica à medida que o tamanho da amostra cresce.
Resposta:
O formato da distribuição Qui-quadrado é dependente do número de graus de liberdade
da amostra. Quanto menor for o número de graus de liberdade, mais assimétrica será a
distribuição Qui-quadrado e quanto maior ele for, mais simétrica ela será. Aliás, quando
o número de graus de liberdade é grande, a distribuição χ2 se aproxima da normal.
VERDADEIRA
(1) A distribuição “t” é sempre simétrica com média zero e à medida que o tamanho da
amostra aumenta, a distribuição “t” aproxima-se da distribuição normal padrão.
Resposta:
A distribuição t de Student é simétrica e possui sempre média zero e variância igual a
n
(n é o número de graus de liberdade). Quando n é pequeno, o formato da
n−2
distribuição t é o de uma "normal" achatada, e conforme o tamanho da amostra
aumenta, a distribuição t se torna cada vez mais simétrica, ou seja, aproxima-se da
distribuição normal padronizada.
VERDADEIRA
(2) A distribuição “F” é uma razão entre duas variáveis aleatórias “t” independentes,
cada uma delas dividida pelo respectivo número de graus de liberdade.
Resposta:
A distribuição F é uma razão entre duas variáveis aleatórias χ2 (qui-quadrado)
independentes, cada uma delas dividida pelo respectivo número de graus de liberdade:
χ2 /k
F = k2 ~Fk,n
χn / n
FALSA
(3) A distribuição normal apresenta dois pontos de inflexão na sua função de densidade
de probabilidade f(x) nos pontos x = µ - 2.σ e x = µ + 2.σ, onde µ é a média e σ
o desvio padrão.
Resposta:
Sabemos que os pontos de inflexão de uma função ocorrem onde a derivada segunda é
igual a zero. Na questão ANPEC 2002, 08, item(0), já calculamos a derivada primeira
da f.d.p. normal:
df ( x)
=-
( x − µ) 1 −
e σ
1 ( x − µ )2
2 2
dx σ 2
2πσ 2
Portanto, sua derivada segunda será dada por:
x−µ 1 x−µ
2 2
d 2 f ( x) 1 1 −
1 x−µ
−
1 x−µ
=- e 2 σ
− e 2 σ
2
dx 2 2πσ 2
σ 2
σ 2
2 σ2
d 2 f ( x)
=-
1 1
e
−
1 x−µ
2 σ
2
−
(x − µ ) 2
e
−
1 x−µ
2 σ
2
dx 2
2πσ 2 σ 2
σ 4
1 (x − µ )
2 2
d 2 f ( x) 1 −
1 x−µ
= e2 σ −
dx 2
2πσ 2
σ2 σ4
E temos que:
1 (x − µ )
2
d 2 f ( x)
= 0⇔ − =0
dx 2 σ2 σ4
1 (x − µ)2
− =0
σ 2
σ 4
σ − (x − µ)
2 2
=0
σ 4
σ − (x − µ) = 0
2 2
(x − µ) = σ 2 2
(x − µ) = ± σ 2 2
x-µ = ± σ
x = µ ±σ
Portanto, a f.d.p. da distribuição normal possui dois pontos de inflexão: x = µ + σ e x =

µ-σ.
FALSA
(4) Se X é uma variável aleatória uniforme com a seguinte função de densidade de

probabilidade
k se a < x < b
f ( x) =
0 quaisquer outros valores.
então k = b - a.
Resposta:
1
Se X tem a distribuição uniforme, então k = . Para ver isso mais formalmente,
b−a
basta lembrarmos que a soma das probabilidades deve ser igual a 1 e, portanto:
b
∫ f ( x)dx
0
=1
b
∫ kdx
0
=1
[kx] =1 b
a
kb − ka =1
k (b − a ) = 1
1
k=
b−a
FALSA
(ANPEC 1998, 05) Verifique quais das afirmações abaixo são verdadeiras e quais são
falsas.
Z
(0) A variável aleatória “t” é definida como , onde Z tem distribuição
χ 2
n −1
(n − 1)
normal-padrão e χ é uma distribuição qui-quadrado com (n - 1) graus de liberdade.
2
Resposta:
O quociente entre uma variável normal padronizada e uma variável χ2 dividida pelo seu
respectivo grau de liberdade (que nesse caso é igual a n-1) é uma variável aleatória t.
VERDADEIRA
(1) A distribuição “t” de Student tem média igual a (n - 1) e variância igual a

(n - 1)/(n - 3).
Resposta:
Aqui, basta lembrar que a distribuição t de Student é uma "normal padronizada
n
achatada". Portanto, sua média será zero. E sua variância será igual a .
n−2
FALSA
(2) A distribuição de uma razão de duas variáveis aleatórias qui-quadrado

independentes, divididas cada uma pelo seu respectivo número de graus de
liberdade, é chamada de distribuição “F”.
Resposta:
É exatamente essa a distribuição F, que é utilizada para comparação de variâncias.
VERDADEIRA
(3) A estatística “F” pode ser utilizada para verificar a igualdade de duas variâncias
provenientes de duas populações quaisquer.
Resposta:
A estatística "F" pode ser utilizada para verificar a igualdade de duas variâncias
provenientes de duas populações normalmente distribuídas.
FALSA
(ANPEC 1998, 08) Seja X uma variável aleatória com função densidade f(x).
(0) Se X ~ U[-α,α] é uniforme em [-α,α] , onde α > 0, então é possível determinar α

de modo que P(x < 1)= 1/2.
Resposta:
Nesse caso, o gráfico da f.d.p. de x será dado por, já que se a variável aleatória X é
distribuída uniformemente entre -α e α, então a área de -α até 0 será igual à área de 0
até α:
Portanto, a probabilidade de x ser menor que 1 certamente será maior que 1/2.
FALSA
(1) Se β é uma constante entre 0 e 1 e f(x), g(x) funções densidades de probabilidades

definidas no mesmo intervalo, então βf(x) + (1-β)g(x) também é uma função de
densidade de probabilidade da variável x.
Resposta:
Se f(x) e g(x) são funções densidades de probabilidades definidas no mesmo intervalo,
então devemos verificar que:
∞ ∞
∫
−∞
f ( x)dx = 1 e ∫ g ( x)dx =1
−∞
E para que βf(x) + (1-β)g(x) também seja uma f.d.p. deve-se verificar que:
∞
∫ βf ( x) + (1 − β ) g ( x)dx = 1
−∞
∞ ∞
∫ βf ( x)dx + ∫ (1 − β ) g ( x)dx = 1
−∞ −∞
∞ ∞
β ∫ f ( x)dx + (1 − β ) ∫ g ( x)dx = 1
−∞ −∞
∞ ∞
E, como ∫ f ( x)dx = ∫ g ( x)dx =1, temos que:

−∞ −∞
β + (1-β) = 1
β+1-β=1
1=1
Portanto, βf(x) + (1-β)g(x) é também uma função densidade de probabilidade da
variável x.
VERDADEIRA
(2) Se a variável aleatória X assumir os possíveis valores 1, 2, 3, 4, ….. , de forma que

sua função de probabilidade seja P(x= k )=c(1-β) k −1 , 0< β < 1, então o valor da
constante c é igual a β.
Resposta:
Calculemos a probabilidade de X assumir os valores 1, 2, 3, 4, … :
P(x =1) = c(1-β)1-1 = c
P(x = 2) = c(1-β)2-1 = c(1-β)
P(x = 3) = c(1-β)3-1 = c(1-β)2
P(x = 4) = c(1-β)4-1 = c(1-β)3
E assim sucessivamente.
Sabemos que a soma de todas as probabilidades dever ser igual a 1. Portanto:
∑ P( x = k ) = c + c(1 − β) + c(1 − β) 2
+ c(1 − β) 3 + … = 1
O que é a soma dos termos de uma progressão geométrica infinita, com razão (q)
igual a (1-β). E sabemos que essa soma é dada por:
a
S=
1− q

a
=1
1− q
c
=1
1 − (1 − β)
c
=1
β
β=c
VERDADEIRA
(3) Se a variável aleatória X segue uma distribuição exponencial, então P(x >(s+t) | x >
s) = P(x > t), para quaisquer s, t > 0.
Resposta:
A probabilidade condicional é dada por:
P[ x > ( s + t ) e x > s] P[ x > ( s + t )] e −α ( s + t )
P(x >(s+t) | x > s) = = = −αs = e −αt = P(x > t),
P( x > s) P( x > s) e
já que a probabilidade de x ser maior que s é dada por:
∞
P(x>s) = ∫ αe −αx
s
∞
e −αx
P(x>s) = α −
α s
e − αs
P(x>s) = α = e −αs
α
E, analogamente, a probabilidade de x ser maior que (s+t) é:
P(x>s+t) = e −α ( s + t )
A propriedade que P(x >(s+t) | x > s) = P(x > t) nos permite afirmar que a distribuição
exponencial "não possui memória".
VERDADEIRA
Distribuição de probabilidade conjunta
A) Contínuas
(ANPEC 2004, 15) Suponha que a função de densidade de probabilidade conjunta da

variável aleatória bidimensional (X,Y) seja dada por:
xy
x2 + 0 < x <1e 0 < y < 2
f ( x, y ) = 3
0 caso contrário
Calcule a P(Y<X). Multiplique o resultado por 48 e transcreva este produto para a folha
de resposta.
Solução:
A probabilidade de Y ser menor que X será dada por:
1 X
xy
P(Y<X) = ∫∫x + dydx
2
0 0 3
X
1
xy 2
P(Y<X) = ∫ x y+ dx
2
0 6 0
1
x3
P(Y<X) = ∫x + dx
3
0 6
1
x4 x4
P(Y<X) = +
4 24 0
1 1
P(Y<X) = +
4 24
7
P(Y<X) =
24
Multiplicando o resultado por 48 como pede o exercício, chegaremos ao valor de 14:
7
× 48 = 7 × 2 =14
24
(ANPEC 2003, 14) Considere o vetor aleatório X = (X1, X2, X3) com distribuição de
probabilidade
6 x1 x 22 x3 0 ≤ x1 ≤ 1, 0 ≤ x 2 ≤ 1, 0 ≤ x3 ≤ 2
f X ( x1 , x 2 , x3 ) =
0 caso contrário
Encontre a probabilidade de 0 ≤ x1 ≤ 0,5 .
(Multiplique o resultado por 100).
Solução:
O exercício pede a probabilidade de x1 estar entre 0 e 0,5. Portanto, antes de
mais nada, precisamos encontrar a função densidade de probabilidade marginal de x1
(que chamaremos de g(x)). Isso é feito integrando em x2 e x3:
2 1
g(x) = ∫ ∫ 6 x x x dx dx
2
1 2 3 2 3
0 0
2 1
g(x) = 6 x1 ∫ ∫ x 22 x3 dx 2 dx 3
0 0
1
x3 2
g(x) = 6 x1 ∫ x3 2 dx 3
0 3 0
1 2
g(x) = 6 x1 ∫ x3 dx3
0 3
2
1
g(x) = 6 x1 ∫ x3 dx3
0 3
2
1 x32
g(x) = 6 x1
3 2 0
g(x) = 2 x1
( 2) 2
2
g(x) = 2x1
Agora, podemos facilmente obter a probabilidade x1 estar entre 0 e 0,5 :

0,5
P(0 ≤ x1 ≤ 0,5) = ∫ g ( x )dx

0
1 1
0,5
P(0 ≤ x1 ≤ 0,5) = ∫ 2 x dx
0
1 1
0,5
x12
P(0 ≤ x1 ≤ 0,5) = 2
2 0
0,5 2 0 2
P(0 ≤ x1 ≤ 0,5) = 2 −
2 2
P(0 ≤ x1 ≤ 0,5) = 0,25
Multiplicando por 100 como pede o exercício, chegaremos ao resultado de 25.

Nota: obviamente, o mesmo resultado seria obtido se tivéssemos calculado diretamente
0,5 2 1
∫ ∫ ∫ 6 x x x dx dx dx .
2
1 2 3 2 3 1
0 0 0
(ANPEC 2002, 13) Suponha que a função densidade de probabilidade conjunta da
variável aleatória bidimensional (X,Y) seja uniformemente distribuída na região de
domínio,
f ( x, y ) = k x ( x − y ) 0 ≤ x ≤ 2, 0 ≤ y ≤ 2
Encontre E(X). Multiplique a resposta por 10 e transcreva somente a parte inteira do
número encontrado.
Solução:
Antes de calcular E(X), teremos que encontrar o valor da constante k:

2 2
∫ ∫ f ( x, y)dxdy = 1
0 0
2 2
∫ ∫ kx( x − y)dxdy = 1
0 0
2 2
k ∫ ∫ x 2 − xydxdy = 1
0 0
2
2
x3 x2
k∫ − y dy = 1
0 3 2 0
2
8 4
k ∫ − ydy = 1
0 3 2
2
8 y2
k y−2 =1
3 2 0
2
8 22
k 2−2 =1
3 2 0
16
− 4 k =1
3
4
k=1
3
3
k=
4
A esperança de X será dada então por:

2 2
E(X) = ∫ ∫ xf ( x, y)dxdy
0 0
2 2
3
E(X) = ∫ ∫ x 4 x( x − y)dxdy
0 0
322 3
4 ∫0 ∫0
E(X) = x − x 2 ydxdy
2
32 x4 x3
E(X) = ∫ − y dy
40 4 3 0
32 24 23
E(X) = ∫ − y dy
40 4 3
32 8
E(X) = ∫
40
4 − ydy
3
2
3 8 y2
E(X) = 4y −
4 3 2 0
3 16
E(X) = 8−
4 3
E(X) = 6 - 4
E(X) = 2
Multiplicando por 10 como pede o exercício, chegaremos ao resultado de 20 que, de

fato, é o resultado fornecido pelo gabarito.
Há algo estranho, porém. Se x está entre 0 e 2, como é possível que sua média seja 2? É
que a função densidade apresentada na questão pode assumir valores negativos (faça y =
2 e x = 1, por exemplo), o que a desqualifica como função densidade.
Se o enunciado fornecesse a função abaixo, não haveria este problema:
f ( x, y ) = k x ( x − y ) 0 ≤ y ≤ x ≤ 2
Neste caso, a média será diferente de 2 (menor!). Para encontrá-la, faremos o mesmo
procedimento anterior, respeitados os novos limites de integração. Antes de calcular
E(x), teremos que encontrar o valor da constante k:
2 2
∫ ∫ f ( x, y)dxdy = 1
0 y
2 2
∫ ∫ kx( x − y)dxdy = 1
0 y
2 2
k ∫ ∫ ( x 2 − xy )dxdy = 1
0 y
2
2
x3 x2
k∫ − y dy = 1
0 3 2 y
2
8 y 3
y3
k∫ − − 2y + dy = 1
0 3 3 2
2
8 y3
k∫ + − 2 y dy = 1
0 3 6
2
8 y4
k y+ − y2 = 1
3 24 0
16 16
k + − 4 =1
3 24
128 + 16 − 96
k =1
24
2k = 1
1
k=
2
A esperança de X será dada então por:

2 2
0 y
2 2
1
E(X) = ∫ ∫ x 2 x( x − y)dxdy
0 y
122 3
E(X) = ∫ ∫
20 y
x − x 2 ydxdy
2
1 2 x4 x3
E(X) = ∫ − y dy
20 4 3 y
12 y4 8 y4
2 ∫0
E(X) = 4 − − y + dy
4 3 3
12 8 y4
E(X) = ∫ 4 − y + dy
20 3 12
2
1 4y2 y5
E(X) = 4y − +
2 3 60 0
1 16 32
E(X) = 8− +
2 3 60
1 16 8
E(X) = 8− +
2 3 15
1 120 − 80 + 8
E(X) =
2 15
1 48
E(X) =
2 15
E(X) = 1,6
Multiplicando o resultado por 10, como pede o exercício, chegaríamos ao valor de 16.
B) Discreta
(ANPEC 1999, 13) Seja a seguinte distribuição conjunta de probabilidade entre as

variáveis aleatórias X e Y.
Y
X 1 3 5
2 0,1 0,2 0,3
4 0,2 0,1 0,1
Podemos afirmar que:
(0) A distribuição marginal de X é

X 1 3 5
P(X) 0,3 0,3 0,4
Resposta:
A distribuição marginal de X é dada somando-se todos os valores possíveis de

Y, ou seja, somando-se os valores ao longo da linha, o que é mostrado na tabela abaixo:
Y 1 3 5 P(X)
X
2 0,1 0,2 0,3 0,6
4 0,2 0,1 0,1 0,4
P(Y) 0,3 0,3 0,4 1
A soma de todos os valores possíveis de X, ou seja, a soma dos valores ao longo

das colunas, é a distribuição marginal de Y.
FALSA
(1) A variância de Y é 2,76.
Resposta:
Sabemos que a variância é igual à média dos quadrados menos o quadrado da

média:
var(Y) = E(Y2) - [E(Y)]2
Calculemos E(Y):
E(Y) = 1 × 0,3 + 3 × 0,3 + 5 × 0,4
E(Y) = 3,20
E E(Y2):
E(Y2) = 12 × 0,3 + 32 × 0,3 + 52 × 0,4
E(Y2) = 0,3 + 2,70 +10
E(Y2) = 13
Portanto, a variância de Y será:

var(Y) = E(Y2) - [E(Y)]2
var(Y) = 13 - 3,202
var(Y) = 13 - 10,24
var(Y) = 2,76
VERDADEIRA
(2) A covariância entre X e Y é -0,56.
Resposta:
Sabemos que a covariância entre X e Y é igual à média dos produtos menos o
produto das médias:
cov(X,Y) = E(XY) - E(X)E(Y)
A média de Y já calculamos no item anterior: E(Y) = 3,20.

Calculemos então E(X):
E(X) = 2 × 0,6 + 4 × 0,4
E(X) = 1,20 + 1,6
E(X) = 2,8
E para calcularmos E(XY), precisamos das probabilidades de XY:

P(XY = 2) = 0,1
P(XY = 6) = 0,2
P(XY = 10) = 0,3
P(XY = 4) = 0,2
P(XY = 12) = 0,1
P(XY = 20) = 0,1
Portanto, E(XY) será:

E(XY) = 2 × 0,1 + 6 × 0,2 + 10 × 0,3 + 4 × 0,2 + 12 × 0,1 + 20 × 0,1
E(XY) = 0,2 + 1,20 + 3 + 0,8 +1,2 + 2
E(XY) = 8,4
A covariância entre X e Y será então:

cov(X,Y) = 8,4 - 2,8 × 3,20
cov(X,Y) = 8,4 - 8,96
cov(X,Y) = -0,56
VERDADEIRA
(3) O coeficiente de correlação entre X e Y é 0,344.
Resposta:
Depois de termos resolvido o item (2) dessa questão, esse aqui fica muito fácil. Como
vimos, a covariância entre X e Y é negativa e, portanto, o coeficiente de correlação
também será negativo, ou seja, não poderá ser igual a 0,344 (que é um valor positivo).
Para os que desejarem calcular ρ XY , o seu valor é de aproximadamente -0,344 (cuidado,
pois, em módulo, o valor estaria correto):
cov( X , Y ) − 0,56
ρ XY = = ≅ -0,344
var( X ) var(Y ) 0,96 × 2,76
FALSA
(4) O coeficiente de correlação exprime a medida de dependência linear entre duas

variáveis e pode assumir um valor qualquer no intervalo [0; 1].
Resposta:
O coeficiente de correlação exprime sim a medida de dependência linear entre duas
variáveis, mas pode assumir qualquer valor no intervalo [-1,1], já que podemos ter
correlação negativa entre as variáveis. Quando o coeficiente de correlação for igual a -1,
teremos correlação negativa perfeita.
FALSA
(ANPEC 1998, 10) Considere a distribuição de probabilidade conjunta de (X,Y), de

acordo com a tabela abaixo:
X
-1 0 1
-1 1/8 1/8 1/8
Y 0 1/8 0 1/8
1 1/8 1/8 1/8
Pode-se afirmar que :
(0) O coeficiente de correlação, ρ xy , entre X e Y é igual a zero.
Resposta:
Para calcularmos o coeficiente de correlação, devemos primeiro calcular a
covariância, que é dada por:
cov(X,Y) = E(XY) - E(X)E(Y)
Calculemos então E(X) e E(Y):
3 2 3
E(X) = -1 × +0 × +1 × = 0
8 8 8
Nota: sabendo-se que E(X) = 0, o cálculo da E(Y) torna-se desnecessário para essa
questão, já que 0 × E(Y) = 0. Mas, em todo caso:
3 2 3
E(Y) = -1 × +0 × + 1 × = 0
8 8 8
E para calcular E(XY), precisamos das probabilidades de XY:
2
P(XY = -1) =
8
4
P(XY = 0) =
8
2
P(XY = 1) =
8
Dessa forma:
2 4 2
E(XY) = -1 × + 0× + 1× = 0
8 8 8
Portanto:
cov(X,Y) = 0 - 0 = 0
E, se a covariância é zero, sabemos que o coeficiente de correlação também será igual a
zero:
cov(X, Y) 0
ρ xy = = =0
var(X)var(Y) var(X)var(Y)
VERDADEIRA
(1) As variáveis aleatórias X e Y são independentes.

Resposta:
Muita atenção aqui: o fato da covariância entre as variáveis ser igual a zero, não
implica que elas sejam independentes. Mas se as variáveis forem independentes, a
covariância entre elas será igual a zero.
Portanto, para verificarmos se X e Y são independentes, devemos verificar se a
igualdade entre a probabilidade condicional e a incondicional é válida. Vejamos:
1
P(X = 1 e Y = 0) 8 1
P(X = 1|Y = 0) = = =
P(Y = 0) 2 2
8
3
P(X = 1) =
8
Como P(X = 1|Y = 0) ≠ P(X = 1), ou seja, como a igualdade entre a
probabilidade condicional e a incondicional não se verifica, concluímos que as variáveis
NÃO são independentes (apesar da covariância entre elas ser igual a zero). Cabe notar
que, para mostrarmos que as variáveis não são independentes, basta encontrar uma
situação em que a igualdade entre a probabilidade condicional e a incondicional não é
válida. Mas, para mostrar que as variáveis são independentes, essa igualdade teria que
ser válida para todos os valores de X e Y.
FALSA
(2) Se Z = aX + b e W = cY + d onde a , b, c e d são constantes com a ≠ 0 e c ≠ 0 ,
então o coeficiente de correlação, ρZW , entre Z e W é diferente de zero.
Resposta:
O coeficiente de correlação entre Z e W será dado por:
cov(W, Z)
ρZW =
dp(W)dp(Z)
Como Z = aX + b e W = cY + d, temos que:
cov(a + bX, c + dY) cov(bX, dY) bd cov(X, Y)

ρZW = = =
dp(a + bX) dp(c + dY) dp(bX) dp(dY) bd dp(X) dp(Y)
Lembrando que o produto bd, no denominador, deve estar em módulo, já que o desvio
padrão nunca é um número negativo.
Como o coeficiente de correlação entre X e Y é dado por:

cov( X , Y )
ρ XY =
dp( X )dp(Y )
Temos que o coeficiente de correlação entre W e Z será dado por:

bd
ρZW = ρ XY
bd
E como vimos no item (0), a o coeficiente de correlação entre X e Y é igual a zero.
Portanto, o coeficiente de correlação entre W e Z também será igual a zero:
bd
ρZW = ×0= 0
bd
FALSA
(3) As variáveis aleatórias X e Y apresentam uma relação linear.
Sabemos que o coeficiente de correlação é uma medida de dependência linear. E o

coeficiente de correlação entre X e Y nesse caso é igual a zero. Portanto, as variáveis
aleatórias X e Y não apresentam uma relação linear.
FALSA
Teorema de Tchebichev, Lei dos Grandes Números e
Teorema do Limite Central
(ANPEC 2005, 5) São corretas as afirmativas:
(0) Uma variável aleatória X tem média zero e variância 36. Então, pela desigualdade
de Tchebychev, P (| X |≥ 10) ≤ 0,36 .
Resposta:
Pela desigualdade de Tchebichev, temos que:
var( X )
P( X − µ ≥ ε ) ≤
ε 2
Como nesse caso, µ = 0, var(X) = 36 e ε = 10:

36
P ( X ≥ 10) ≤
100
P ( X ≥ 10) ≤ 0,36
VERDADEIRA
(1) Pela Lei dos Grandes Números a distribuição da média amostral de n variáveis
aleatórias independentes, para n suficientemente grande, é aproximadamente
Normal.
Resposta:
A Lei dos Grandes Números diz que a média amostral converge para a média
populacional quando a amostra é suficientemente grande, ou seja, que a média amostral
é um estimador consistente da média populacional. A afirmação feita neste item refere-
se ao Teorema do Limite Central.
FALSA
(2) O estimador de um determinado parâmetro é dito consistente se convergir, em

probabilidade, para o valor do parâmetro verdadeiro.
Resposta:
Um estimador é consistente quando, à medida que o tamanho da amostra aumenta, o seu
valor converge para o valor verdadeiro do parâmetro, ou seja, o valor esperado da
estimativa tende ao seu valor verdadeiro e a variância vai desaparecendo:
lim n→∞ E( θˆ ) = θ
limn →∞ var( θˆ ) = 0
O que é equivalente a dizer que o valor estimado do parâmetro está próximo de seu
valor verdadeiro, com uma probabilidade muito elevada, quando n é grande. Dessa
forma, o limite da probabilidade (plim) do valor da estimativa do parâmetro ( θˆ ) menos
o seu valor verdadeiro ( θ ) ser maior que um número ε > 0 muito pequeno, tende a zero
quando n tende ao infinito:
[ ]
plim θˆ − θ > ε = 0
Ou, então:
[ ]
plim θˆ − θ < ε = 1
Dessa forma, dizer que um parâmetro é consistente, significa dizer que ele converge, em
probabilidade, para o seu valor verdadeiro.
VERDADEIRA
(3) A Lei dos Grandes Números está relacionada com o conceito de convergência em
probabilidade, enquanto que o Teorema Central do Limite está relacionado com
convergência em distribuição.
Resposta:
Vejamos primeiro o significado de convergência em probabilidade e convergência em

distribuição:
- convergência em probabilidade: dizemos que uma variável aleatória x converge em

probabilidade para y quando os resultados de x são próximos dos resultados de y com
alta probabilidade para n suficientemente grande. Assim, os resultados de y são uma
aproximação para os resultados de x. A convergência em probabilidade implica que os
valores que a variável aleatória x pode tomar que não são próximos dos valores de y
torna-se crescentemente improvável à medida que o tamanho da amostra aumenta, ou
seja:
plim [ x − y > ε ] =0 ou plim [ x − y < ε ] = 1
onde ε é um número positivo arbitrário muito pequeno.
Representamos a convergência em probabilidade por:
x p
→ y (x converge em probabilidade para y)
- convergência em distribuição: dizemos que uma variável z converge em distribuição

para w, quando a distribuição de z torna-se cada vez mais próxima da distribuição de w
à medida que o tamanho da amostra aumenta. Assim, a distribuição de w é uma
aproximação para a verdadeira f.d.p. ou f.d.a. da variável aleatória z quando n (tamanho
da amostra) é suficientemente grande. Representamos a convergência em distribuição
por:
z d
→ w (z converge em distribuição para w)
E, como a Lei dos Grandes Números diz que à medida que o tamanho da amostra
aumenta, a média amostral converge para a média populacional, ela está relacionada ao
conceito de convergência em probabilidade:
x p
→ µx
O Teorema do Limite Central diz que à medida que o tamanho da amostra aumenta, a
distribuição da média amostral aproxima-se da distribuição normal. Portanto, está
relacionado ao conceito de convergência em distribuição:
x d
→ N ( µ x , σ 2 n)
VERDADEIRA
(4) Um estimador é dito não-tendencioso se a sua variância for igual à variância do

parâmetro estimado.
Resposta:
Um estimador é dito não-tendencioso (não-viesado) se, na média, acertar o valor
verdadeiro do parâmetro, ou seja, se a sua média for igual à média do parâmetro
populacional estimado:
E( θˆ ) = E( θ )
FALSA
(ANPEC 2004, 12) Suponha que x1 , x 2 ,........, x32 sejam 32 variáveis aleatórias
independentes, cada uma delas tendo distribuição de Poisson com λ = 8. Empregando o
teorema do limite central, estime a probabilidade de que a média amostral seja x ≤ 9 .
Use a tabela da distribuição Normal Padrão anexa. Multiplique o resultado por 100 e
transcreva a parte inteira.
Solução:
Pelo Teorema do Limite Central, sabemos que a média amostral, para amostras
suficientemente grandes, segue uma distribuição normal com média µ e variância igual
σ 2
a , qualquer que seja a distribuição da população. Como as variáveis possuem

n
distribuição de Poisson com parâmetro λ = 8, sabemos que sua média e sua variância
serão iguais a 8 e o seu desvio padrão será 8 . Padronizando, para podermos consultar
a tabela:
1
x−µ 9−8 1 8 1
z= = = = = =2
σ 8 8 8× 4 1
n 32 8× 4 4
Portanto, a probabilidade de x ≤ 9 é igual à probabilidade de z ≤ 2:
P( x ≤ 9 ) = P(z ≤ 2) = 0,50 + 0,477250 = 0,977250

Multiplicando o resultado por 100 e considerando apenas a parte inteira, chegaremos ao
valor de 97.
(ANPEC 2004, 13) Suponha que x1 , x2 ,........, x n sejam variáveis aleatórias

independentes, identicamente distribuídas, com média E(xi) = µ (i = 1,2,3,...n) e
variância σ2 = 10. Utilizando a lei dos grandes números responda à questão. Qual deverá
ser o valor de n de modo que possamos estar 95% seguros de que a média amostral
x difira da média µ por menos de 0,1? Divida o resultado final por 1000.
Solução:
Partindo do Teorema de Tchebichev:
1
P( x − µ ≤ kσ ) ≥ 1 -
k2
Como se trata da média amostral:
1
P( x − µ ≤ kσ n )≥1 -
k2
Fazendo ∈ = kσ n , temos:
σ 2
P( x − µ ≤∈ ) ≥ 1 -
n ∈2
Que é uma das formulações da lei dos grandes números (MEYER, 1983, p. 287).
Nesse caso, a média amostral deve diferir da média populacional por menos de 0,1:
σ 2
P( x − µ ≤ 0,1 ) ≥ 1 -
n0,12
E como queremos estar 95% seguros, temos que:
σ 2
1- = 0,95
n0,12
Como a variância é igual a10:
10
1- = 0,95
0,01n
10
= 1 -0,95
0,01n
10
= 0,05
0,01n
0,0005 n = 10
10
n=
0,0005
n = 20.000
Dividindo o resultado por 1.000, chegaremos ao valor de 20.
(ANPEC 2003, 11) O número de clientes – Y – que passa diariamente pelo caixa de
um supermercado foi observado durante certo período. Constatou-se que o valor médio
de Y é de 20 clientes, com desvio padrão igual a 2. Encontre o limite mínimo para a
probabilidade de que o número de clientes amanhã se situe entre 16 e 24. (Pista: Utilize
o teorema de Tchebycheff). Multiplique o resultado por 100.
Solução:
Sabemos pelo teorema de Tchebichev que se conhecermos a média e o desvio
padrão de uma variável aleatória, poderemos estabelecer um limite para a sua
distribuição de probabilidade. O limite mínimo será dado por (SARTORIS, 2003,
p.115-116):
1
P(|x-µ| < kσ) ≥ 1 -
k2
Como o valor médio de Y é 20 e seu desvio padrão é 2, temos:
16 < Y < 24
20 – 4 < Y < 20 + 4
20 – 2×2 < Y < 20 + 2×2
µ – 2σ < Y < µ + 2σ
Então, a probabilidade de Y estar entre 16 e 24 é igual a probabilidade de Y estar 2
desvios-padrão acima ou abaixo da média e, portanto:
1
P(|x-µ| < 2σ) ≥ 1 - = 1 - 0,25 = 0,75
22
Multiplicando o resultado por 100, como pede o exercício, chegaremos ao resultado de
75.
(ANPEC 2002, 06) Indique se as seguintes considerações sobre a Lei dos Grandes
Números, Desigualdade de Tchebycheff e teorema do Limite Central são verdadeiras
(V) ou falsas (F).
(0) De acordo com a desigualdade de Tchebycheff, se a variância de uma variável

aleatória X for muito próxima de zero, a maior parte da distribuição de X estará
concentrada próxima de sua média.
Resposta:
Suponhamos o caso extremo em que a variância de X seja igual a zero. Nesse caso,
a probabilidade de X ser igual a sua média será de 1, P(X = µ) = 1. Podemos
demonstrar isso através da desigualdade de Tchebichev. Sabemos que os limites
máximo e mínimo para a distribuição de probabilidade são dados, respectivamente, por:
var( X )
P(|X-µ| ≥ ε) ≤
ε2
var( X )
P(|X-µ| ≤ ε) ≥ 1-
ε2
Se a variância for igual a zero, teremos que:
P(|X-µ| ≥ ε) = 0
P(|X-µ| ≤ ε) = 1
Ou seja, a probabilidade de |X-µ| ser maior que um número ε (que pode ser um
número bem pequeno) é zero. E a probabilidade de |X-µ| ser menor que esse número é
1. Dessa forma, se a variância for nula, toda a distribuição estará concentrada em único
ponto, ou seja, na sua própria média. Portanto, quanto mais próxima de zero for a
variância de uma variável aleatória, mais a sua distribuição estará concentrada próxima
de sua média.
VERDADEIRA
(1) O teorema do Limite Central afirma que, para uma amostra grande o suficiente, a
distribuição de uma amostra aleatória de uma população Qui-quadrado se aproxima
da Normal.
Resposta:
O teorema do Limite Central afirma que para uma amostra grande o suficiente, a
distribuição da média amostral dessa população será normalmente distruibuída,
qualquer que seja a distribuição de probabilidade da população, ou seja, não se
restringe apenas a populações que tenham distribuição Qui-quadrado.
FALSA
(2) As condições suficientes para identificar a consistência de um estimador são

baseadas na Lei dos Grandes Números.
Resposta:
As condições suficientes para que um estimador seja consistente são que seu viés (caso
exista) e sua variância "desapareçam" à medida que o tamanho da amostra aumenta, ou
seja, à medida que n cresce, o estimador converge para o seu valor verdadeiro:
lim
n→∞
P(| θˆ − θ |>∈) = 0 ou lim
n→∞
P(| θˆ − θ |<∈) = 1
E a lei dos grandes números nos diz que à medida que a amostra aumenta, a média
amostral converge para a média populacional. Aliás, uma das formulações da Lei dos
Grandes Números é dada por:
σ 2
P( x − µ ≤∈ ) ≥ 1 -
n ∈2
E o limite da expressão acima quando n → ∞ será:

lim
n→∞
P( x − µ ≤∈ ) =1
Portanto, as condições suficientes para identificar a consistência de um estimador são
realmente baseadas na lei dos grandes números.
VERDADEIRA
(3) Em n repetições independentes de um experimento, se f A é a freqüência relativa da

P(1 − P)
ocorrência de A, então P{ f A − P < ε} ≤ 1 − , em que P é a probabilidade
nε 2
constante do evento A e ε é qualquer número positivo.
Resposta:
Sabemos que fA é dada por:
nA
fA = ,
n
onde:
nA = número de vezes que A ocorre (sucesso)
n = número total de experimentos.
Sabemos que nA é uma variável aleatória com distribuição binomial, com média dada
por n × P e variância n × P × (1-P). Dessa forma, temos que:
n 1 1
E(fA) = µ = E A = E(nA) = × n × P = P
n n n
nA 1 1 P × (1 − P)
Var(fA) = σ2 = var = 2 var(nA) = 2 × n × P × (1-P) =
n n n n
Aplicando a desigualdade de Tchebichev à variável aleatória fA, temos:
P(1 − P)
P(|fA - P| ≥ ε) ≤ 1 - n
ε2
P(1 − P )
P(|fA - P| ≥ ε) ≤ 1 -
nε 2
É claro que o leitor não precisaria ter feito toda essa conta para concluir que a afirmativa
é falsa. Bastaria notar que o sinal de desigualdade está trocado.
FALSA
(4) Se uma variável aleatória X tem distribuição Binomial com parâmetros n = 20 e P =

a − 10
0,5, então P{ X ≤ a} ≈ Φ ( ) em que Φ(•) é a função de distribuição
5
Normal padrão.
Resposta:
Sabemos que uma variável aleatória com distribuição binomial possui média igual a
nP e variância igual a nP(1-P). E sabemos, também, que a distribuição binomial
pode ser aproximada pela distribuição normal. Padronizando a variável X para que
possamos consultar a tabela, temos que:
X −µ
P ( X ≤ a) =
σ
O que, no caso da distribuição binomial torna-se:
X − nP
P ( X ≤ a) =
nP(1 − P)
Substituindo os valores de n e p, temos:
a − 20 × 0,5
P ( X ≤ a) =
20 × 0,5 × (0,5)
a − 10
P ( X ≤ a) =
5
VERDADEIRA
(ANPEC 2002, 15) Quantas vezes ter-se-á de jogar uma moeda equilibrada de forma a
se ter pelo menos 95% de certeza de que a freqüência relativa do resultado “cara” fique
a menos de 0,01 da probabilidade teórica ½, ou seja, de maneira que a amplitude do
intervalo de confiança da probabilidade teórica seja 0,02? (Utilize o teorema de
Tchebycheff. Divida a resposta por 1.000 e transcreva a parte inteira do número
encontrado).
Solução:
Pelo teorema de Tchebichev, temos que (veja questão ANPEC 2002, 06, item 3):
p(1 − p)
P[|fA - p| < ∈ ] > 1-
n ∈2
p(1 − p)
Portanto, para ∈=0,01 queremos encontrar n de modo que 1- seja igual a 95%:
n ∈2
0,5(1 − 0,5)
P[|fA - 0,5|< 0,01] >1-
n 0,012
Assim:
0,5(1 − 0,5)
1– =0,95
n 0,012
0,5(1 − 0,5)
= 1 – 0,95
n 0,012
0,25
= 0,05
0,0001n
0,000005 n = 0,25
0,25
n=
0,000005
25 × 10 −2
n=
5 × 10 − 6
n = 5× 104
n = 50.000
Dividindo o resultado por 1.000, como pede o exercício, chegaremos ao

resultado de 50.
(ANPEC 2001, 13) Sabe-se que certa característica de uma população tem distribuição
Qui-quadrado com 18 graus de liberdade. Tendo sido extraída uma amostra de 25
elementos desta população, estime a probabilidade de que a média amostral X esteja no
intervalo 15 ≤ X ≤ 21. Use a tabela da distribuição Normal em anexo. Resposta em
percentagem, aproximando para o inteiro superior mais próximo.
Solução:
Sabemos que a distribuição Qui-quadrado tem média n e variância igual a 2n, onde n =
graus de liberdade. Portanto:
E(X) = µ = n = 18
var(X) = σ2 = 2n = 36
Pelo Teorema do limite Central sabemos que a média amostral segue uma
σ2
distribuição normal, com média µ e variância . Então, podemos utilizar a
n
distribuição normal para calcular a probabilidade pedida. Padronizando os valores para
podermos consultar a tabela, temos que:
x−µ 15 − 18 5
z1 = = = 3× = -2,5
σ 6 6
n 5
x−µ 21 − 18 5
z2 = = = 3× = 2,5
σ 6 6
n 5
Dessa forma, a probabilidade da média amostral estar entre 15 e 21 é equivalente a

probabilidade de z encontrar-se entre -2,5 e 2,5:
P(15 ≤ X ≤ 21) = P(2,5 ≤ z ≤ 2,5) = 0,493790 + 0,493790 = 98,758% ≅ 99%
(ANPEC 2001, 15) Seja uma variável aleatória X com média E(X) = 0 e variância σ x
2
= 25. Qual o limite de probabilidade para que [X – E(X)] > 10? Resposta em
percentagem.
Solução:
Da desigualdade de Tchebichev sabemos que:
1
P(|X-µ| > ∈ ) < 2 E(X-µ)2
∈
Nesse caso, E(X) = µ e ∈ = 10. Dessa forma, a expressão acima torna-se:
1
P[|X-E(X)| > 10] < σ X2
10 2
P[|X-E(X)| > 10] < 0,01× 25
P[|X-E(X)| > 10] < 0,25
Portanto, o limite de probabilidade para que |X – E(X)| > 10 é de no máximo 25%.
Nota: para a resolução desta questão assumimos que, no enunciado, o examinador

queria dizer |X – E(X)| (isto é, módulo de X menos a esperança de X).
(ANPEC 2000, 12) Dados os seguintes enunciados, é correto afirmar que:
(0) A Lei Fraca dos Grandes Números diz que: dada uma variável aleatória com
distribuição arbitrária e média e variância finitas, a média amostral obtida a partir
de uma amostra aleatória de tamanho n terá distribuição Normal.
Resposta:
O enunciado acima diz respeito ao Teorema do Limite Central (com a ressalva que é
válido apenas para n suficientemente grande). A Lei Fraca dos Grandes números diz que
a média amostral converge em probabilidade para a média populacional à medida que o
tamanho da amostra aumenta, ou seja, diz que a média amostral é um estimador
consistente da média populacional.
FALSA
(1) Se X1, X2, ..., Xn são variáveis aleatórias independentes, com distribuição
Poisson(θ), θ > 0, então, para n "grande", é válida a seguinte aproximação:
___ __
√n ( X - θ) / θ ~ N(0,1), em que X é a média amostral.
Resposta:
Sabemos que na distribuição de Poisson a média é igual à variância. E, pelo
Teorema do Limite Central, sabemos que para n "grande", a média amostral segue a
θ θ
distribuição normal com média θ e variância dada por (e desvio padrão ). E para
n n
que a média siga uma distribuição normal padronizada, temos que subtrair a média e
dividir pelo desvio padrão. Portanto:
X −θ
~ N(0,1).
θ
n
FALSA
(2) Se X1, X2, ..., Xn são variáveis aleatórias independentes, com distribuição
Normal(µ,σ2), σ2 > 0, então, para qualquer tamanho de n,
___ __
√n ( X - µ) / σ ~ Normal(0,1), em que X é a média amostral.
Resposta:
Se a distribuição é normal, então a sua média amostral também será normalmente

distribuída, independentemente do tamanho da amostra. E para que siga a normal
padronizada, ou seja, com média zero e variância igual a 1, temos que:
X −µ
~N(0,1)
σ
n
VERDADEIRA
(ANPEC 1998, 11) Com relação a desigualdade de Tchebycheff e ao Teorema Central

do Limite, pode-se afirmar que :
(0) Se uma variável aleatória X tem média µ , E(X)=µ , e variância igual a zero,
Var(X) = 0, então P{ X − µ ≤ ε} = 1 para todo ε > 0 , ou seja, toda a probabilidade
estará concentrada na média E(X) = µ .
Resposta:
Sabemos, pela desigualdade de Tchebichev que:
var( X )
P(|X-µ| ≤ ε) ≥ 1 -
ε2
Se var(X) = 0, temos que:
P(|X-µ| ≤ ε) =1
Ou seja, a probabilidade da diferença entre X e µ ser menor que um número ε muito

pequeno é de 1. Dessa forma, toda a probabilidade está concentrada na média µ.
VERDADEIRA
(1) Seja X uma variável aleatória com média µ e variância σ2. Quando se considera o
evento complementar, uma das formas da desigualdade de Tchebycheff é igual a
1
P{ X − µ > kσ } ≥ 1 − 2 , onde k é um número real.
k
Resposta:
Sabemos que a desigualdade de Tchebichev pode ser escrita como (veja demonstração
em Sartoris (2003, p. 115-116)):
1
P(|X-µ| ≥ kσ)<
k2
Portanto, o evento complementar será dado por:
1
P(|X-µ| < kσ) ≥ 1 - 2
k
FALSA
(2) Se a população tem distribuição Normal, então a distribuição das médias amostrais
também será Normal, independente do tamanho da amostra.
Resposta:
Se a população for normalmente distribuída, então sua média amostral também será
normalmente distribuída, qualquer que seja o tamanho da amostra.
VERDADEIRA
(3) Se X tem distribuição desconhecida com média 500 e variância 2.500, para uma
amostra aleatória de tamanho 100 podemos afirmar que a média da amostra tem
distribuição aproximadamente normal com média 500 e variância 25.
Resposta:
Pelo Teorema do Limite Central sabemos que para amostras suficientemente
grandes, a média amostral segue uma distribuição normal com média µ e variância
σ 2 n . Portanto, nesse caso, temos que a média amostral terá aproximadamente uma
distribuição normal com média dada por:
E( X ) = 500
e variância dada por:
2.500
var( X ) = = 25.
100
VERDADEIRA
Estimação
(ANPEC 2004, 8) Com respeito à inferência e estimação de parâmetros populacionais, é

correto afirmar:
(0) Suponha que a variável X tenha distribuição exponencial com densidade
f ( x) = β e −βx , x > 0 . As estatísticas X e mínimo[ X 1 , X 2 ,........, X n ] são estimadores não-
viciados de 1/β, mas a segunda é preferível à primeira por apresentar menor variância.
Resposta:
Para "matar" esta questão, bastaria lembrar que apenas a média amostral é um
estimador não viesado de 1 β , que é a média da distribuição exponencial. Evidentemente, o
mínimo da amostra será viesado, pois sempre estará jogando a média para baixo e, desta
forma, a afirmação é falsa desde o princípio.
Mas, vejamos isso mais formalmente.
1
O parâmetro é a média da distribuição exponencial, já que:
β
∞
E(x) = ∫ xf ( x)dx
0
∫ xβe
− βx
E(x) = dx
0
∞
E(x) = β ∫ xe βx dx
0
Utilizando o método de integração por partes (faça f (x) = x e g'(x) = e − βx )1, obtemos:
∞
− xe − βx − e − βx
E(x) = β −∫ dx
β β
0
∞
− xe − βx e − βx
E(x) = β −
β β2 0
1
E(x) =
β
1
Lembre-se que: ∫ f ( x) g ' ( x)dx = f ( x) g ( x) − ∫ g ( x) f ' ( x)dx
E, como sabemos, a média amostral é um estimador não-tendencioso da média
populacional, já que a média da média amostral é a própria média populacional:
∑X i
E( X ) = E i =1
1
E( X ) = E( X 1 + X 2 + … X n )
n
1
E( X ) = [E( X 1 ) + E( X 2 ) + … E( X n )]
n
1 1 1 1
E( X ) = + +…
n β β β
1 1
E( X ) = n
n β
1
E( X ) =
β
E para calcularmos a variância da média amostral, precisamos saber qual é a

variância da distribuição exponencial. Para tanto, calculemos a média dos quadrados de x:
∞
∫x
2
E(x ) = 2
f ( x)dx
0
∞
E(x2) = β ∫ x 2 e − βx dx
0
Novamente, utilizando o método de integração por partes, temos:

∞
− x 2 e − βx − e − βx
E(x ) = β
2
−∫ 2xdx
β β 0
∞
−x e 2 − βx
2
β∫
E(x2) = β + e − βx
xdx
β 0
Aplicando integração por partes novamente, obtemos:

∞
− x 2 e − βx 2 − xe − βx − e − βx
E(x ) = β
2
+ −∫ dx
β β β β 0
∞
− x 2 e − βx 2 − xe − βx e − βx
E(x2) = β + −
β β β β 2
0
∞
− x 2 e − βx 2 xe − βx 2e − βx
E(x ) =β
2
− −
β β 2
β 3
0
2β
E(x2) =
β 3
2
E(x2) =
β 2
Dessa forma, a variância de x será:
var(x) = E(x2) – [E(x)]2

2
2 1
var(x) = –
β 2
β
1
var(x) =
β 2
Então, temos que a variância da média amostral, X , será dada por:

σ 2
Var( X ) =
n
1
Var( X ) =
nβ 2
Vejamos agora o que acontece com a estatística mínimo( X 1 , X 2 ,........, X n ):

Como já foi dito, o mínimo da amostra não poderá ser um estimador não
tendencioso da média populacional, já que ele estará sempre "jogando" a média para baixo.
Portanto mínimo( X 1 , X 2 ,........, X n ) é uma estatística viesada da média populacional. Mas
vejamos isso mais formalmente. A distribuição amostral da estatística
mínimo( X 1 , X 2 ,........, X n ) para uma população com distribuição exponencial é dada por:
f(xmínimo) = (nβ) e
− ( nβ ) x mínimo
1 1
Como a média de x é dada por e a variância é igual a , temos que a esperança
β β 2
1 1
e a variância
de mínimo( X 1 , X 2 ,........, X n ) será, por analogia, (faça os cálculos,
nβ (nβ )2
e confira!). Calculemos então o viés da estatística mínimo da amostra:
viés = E[mínimo( X 1 , X 2 ,........, X n )] - µ

1 1
viés = -
nβ β
1− n
viés =
nβ
Portanto, o viés da estatística mínimo( X 1 , X 2 ,........, X n ) será negativo para todo n >
1, como já tínhamos visto intuitivamente.
1
E como a variância do mínimo da amostra é dada por , ela será realmente
(nβ )2
menor que a variância da média amostral para todo n>1.
Dessa forma, apesar da estatística mínimo( X 1 , X 2 ,........, X n ) ser viesada, ela tem
variância menor que a média amostral.
FALSA
1 n 2 n −1 2
(1) O valor esperado da estatística ∑ ( xi − x ) é igual a ( )σ , em que σ 2 é a
n i =1 n
variância da população. Então, um estimador não-tendencioso de σ 2 será
1 n 2
∑ ( xi − x ) .
n − 1 i =1
Resposta:
1 n 2
Sabemos que a estatística ∑ ( xi − x ) é realmente um estimador viesado de σ , já
2
n i =1
n −1 2
que seu valor esperado é dado por: σ , que é diferente de σ 2 . Um estimador não
n
1 n
2
tendencioso da variância é ∑ ( xi − x ) .
n − 1 i =1
1 n 2
Mas, em todo o caso, calculemos o valor esperado da estatística ∑ ( xi − x ) , ou
n i =1
seja, do estimador da variância populacional (é claro que no dia da prova você não precisa
fazer isso, desde que se lembre desse resultado!):
1 n
E( σ̂ 2 ) = E ∑
n i =1
(xi − x ) 2
1 n
E( σ̂ 2 ) = E[ ∑ (xi − x ) 2 ]
n i =1
Façamos um pequeno artifício: somar e subtrair a média populacional (µ):

n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ + µ - x )2]
n i =1
Temos agora um “quadrado da soma” onde consideramos o primeiro termo como sendo xi -
µ e o segundo µ - x :
n n n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 + 2 ∑ ( xi - µ)(µ - x ) + ∑ ( µ - x )2]
n i =1 i =1 i =1
n n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 + 2(µ - x ) ∑ ( xi - µ) + n(µ - x )2]
n i =1 i =1
n
E como ∑ ( xi) = n x , temos que:
i =1
n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 + 2n(µ - x )( x - µ) + n(µ - x )2]
n i =1
Ou:
n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 – 2n(µ - x )(µ - x ) + n(µ - x )2]
n i =1
n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 – 2n(µ - x )2 + n(µ - x )2]
n i =1
n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 – n(µ - x )2]
n i =1
E, numa expressão elevada ao quadrado, o sinal no interior dos parênteses não

importa, portanto podemos inverter o sinal da segunda expressão sem problemas
n
1
E( σ̂ 2 ) = E[ ∑ ( xi - µ)2 – n( x -µ)2]
n i =1
n
1
E( σ̂ 2 ) = {E[ ∑ ( xi - µ)2] – nE( x -µ)2}
n i =1
E, como a esperança da soma é a soma das esperanças, temos que:
1 n
E( σ̂ 2 ) = [ ∑ E(xi - µ)2 – nE( x -µ)2]
n i =1
E sabemos que:
E(xi - µ)2 = var(x) = σ2 e

σ2
E( x -µ)2 = var( x ) =
n
Dessa forma:
1 σ2
E( σ̂ 2 ) = [nσ2 - n ]
n n
1
E( σ̂ 2 ) = [nσ2 - σ2]
n
1 2
E( σ̂ 2 ) = σ (n-1)
n
n -1 2
E( σ̂ 2 ) = σ ≠ σ2
n
Portanto, σ̂ 2 é um estimador tendencioso de σ2. O estimador não tendencioso será
dado por:
1 n 2
s2 = ∑ ( xi − x )
n − 1 i =1
Já que:
1 n 1 n
1
E ∑
n − 1 i =1
( xi − x ) 2 =
n −1
E ∑ (x
i =1
i
− x)2 =
n −1
(n-1) σ2 = σ2
VERDADEIRA
(2) Suponha que a variável aleatória x seja uniformemente distribuída no intervalo [0, β],
em que β é um parâmetro desconhecido. O estimador de máxima verossimilhança de β
será β̂ =mínimo[ x1, x 2 ,........, x n ].
Resposta:
Se a variável é uniformemente distribuída no intervalo [0, β], sabemos que a sua
função densidade de probabilidade é dada por:
1 1
f ( x) = =
β −0 β
E β, obviamente, é o valor máximo que x pode assumir. Sendo assim, o estimador
de máxima verossimilhança de β, ou seja, aquele que dá a maior chance da amostra
pertencer de fato à uma população com distribuição uniforme, é, sem dúvida, β̂ =
máximo[x1, x2, … , xn].
FALSA
(3) Se dois intervalos de confiança que estão sendo comparados apresentam o mesmo
coeficiente de confiança, então se deve preferir aquele que apresenta a maior amplitude.
Resposta:
Dados dois intervalos com o mesmo coeficiente de confiança, o mais preciso será
aquele que apresentar menor amplitude (ou seja, que tiver menor margem de erro); dessa
forma, este deverá ser preferível.
FALSA
(4) Suponha que x tenha distribuição N( µ ;σ 2 ) em que σ 2 seja desconhecido. O

intervalo de confiança para a média da população, µ, será
σ σ
P{x − z ≤µ≤x+z } = 2Φ ( z ) − 1 em que Φ(z) é a função de distribuição Normal
n n
Padrão.
Resposta:
Se a variância (σ2) é desconhecida, então devemos utilizar a distribuição t de
Student, e não a normal padrão:
x−µ
t=
σˆ
n
Note que na distribuição t de Student, tanto o numerador quanto o denominador são

variáveis aleatórias, ao contrário do que acontece na distribuição normal. Portanto, o
intervalo de confiança para a média populacional será dado por:
σˆ σˆ
P x −t ≤ µ ≤ x +t = 2Θ(t ) − 1 ,
n n
em que Θ(t ) é a função de distribuição t de Student.

Cabe notar, porém, que para amostras grandes (maiores que 30), não fará diferença
se utilizarmos uma ou outra distribuição, já que, nesse caso, elas serão aproximadamente
iguais.
FALSA
(ANPEC 2003, 02) Sejam: X1, X2, ..., Xn variáveis aleatórias independentes e
n n
normalmente distribuídas com média µ e variância σ2; X = n −1 ∑ X i ; e Z = ∑ Yi 2 , em
i =1 i =1
que Yi = σ −1 ( X − µ ) . É correto afirmar que:
(0) X é um estimador tendencioso da média µ;

Resposta:
A média amostral ( X ) é um estimador não tendencioso da média populacional µ,
já que o valor esperado da média amostral é a própria média populacional:
n
E( X ) = E(n −1 ∑ X i )
i =1
E( X ) = n E ( X 1 + X 2 + … + X n )
−1
Como a esperança da soma é a soma das esperanças, temos que:
E( X ) = n −1 [E( X 1 ) + E( X 2 ) + … + E( X n )]
E( X ) = n −1 ( µ + µ + … µ )
E( X ) = n −1 nµ
E( X ) = µ
Cabe notar que nesse caso, como as variáveis são normalmente distribuídas, além de
ser não tendencioso, X é um estimador eficiente de µ.
FALSA
(1) Z é uma variável aleatória com distribuição χ 2 com n graus de liberdade;

Resposta:
A variável Z é a soma de n variáveis normais padronizadas ao quadrado (já que Y é
uma variável normal padronizada); portanto, segue uma distribuição χ2 com n graus de
liberdade.
VERDADEIRA
(2) s 2 = n −1 ∑ (X i − X ) é um estimador tendencioso da variância σ2;

n
2
i =1
Resposta:
O estimador s2 é realmente um estimador tendencioso da variância populacional, já

que para ser não tendencioso teríamos que dividir a soma das variáveis centradas ao
quadrado por n-1 e não por n (veja questão ANPEC 2004, 8, item 1).
VERDADEIRA
(3) nX é uma variável aleatória normalmente distribuída com média nµ e variância σ2;
Resposta:
A média de nX será dada por:
E( nX ) = nE( X ) = nµ
Mas a variância será dada por:

σ 2
var( nX ) = n2 var( X ) = n2 = nσ2

n
FALSA
Yi
(4) a variável aleatória Wi = possui distribuição F com n1 e n2 graus de liberdade, em
Z
n
que n1 = 1 e n2 = 2n.
Resposta:
Note que a variável Wi é o quociente entre uma variável normal padronizada (Yi) e
uma variável que é a raiz quadrada da soma de n variáveis normais padronizadas ao
quadrado (ou seja, uma variável χ2) dividida por n. Portanto, Wi possui distribuição t de
Student com n graus de liberdade. O quociente entre duas variáveis aleatórias χ2
distribuídas independentemente e divididas por seus respectivos graus de liberdade, é que
segue uma distribuição F:
χ /k
2
F= k
~F
χ /n
2 k ,n
n
Cabe notar que, o quadrado de uma variável aleatória t de Student com n graus de
liberdade terá uma distribuição F com 1 e n graus de liberdade:
t n2 ~F1,n
Portanto, Wi 2 seguirá a distribuição F com 1 e n graus de liberdade.
FALSA
(ANPEC 2002, 04) Seja X uma variável aleatória com distribuição de probabilidade que
dependa do parâmetro desconhecido θ, tal que E(X) = θ. Seja também x1, x2, ..., xn uma
amostra aleatória de X.
(0) Para amostras suficientemente grandes, o estimador de máxima verossimilhança de θ,

caso exista, segue uma distribuição Normal.
Resposta:
As estimativas por máxima verossimilhança possuem as seguintes propriedades:
- são consistentes;
- são assintoticamente eficientes;
- possuem distribuição assintótica normal, com média θ e variância dada por
1
;
∂ ln f ( X ;θ )
2
nE
∂θ
- apresentam a propriedade de invariância, ou seja, se θˆ é um estimador de θ e g(θ) uma
função qualquer de θ, então g( θˆ ) será o estimador de g(θ);
- podem ser viesadas.
Portanto, para amostras suficientemente grandes, o estimador de máxima
verossimilhança de θ seguirá realmente a distribuição normal.
VERDADEIRA
n n
(1) Se θˆ = ∑ c i xi é um estimador de θ, este não será viciado desde que ∑c i

= 1 . Além do
i =1 i =1
mais, θˆ terá variância mínima se ci=1/n para todo i.
Resposta:
O estimador será não viesado se seu valor acertar, na média, o valor verdadeiro do
parâmetro, ou seja:
n
∑
E( θˆ ) = E( c x ) = θ
i =1
i i
Calculemos então o valor esperado de θˆ :

n
E( θˆ ) = E( c x )∑i =1
i i
E( θˆ ) = [E(c1x1) + E(c2x2) + … + E(cnxn)]

E( θˆ ) = c1θ + c2θ + … + cnθ
E( θˆ ) = (c1 + c2 + … + cn)θ
n
Se ∑c
i =1
i
=1, teremos que:
E( θˆ ) = θ
Nesse caso então, o estimador será realmente não-viesado.
Vejamos em que condições o estimador terá variância mínima. Para isso, primeiro
calculemos a variância de θˆ :
n
var( θˆ ) = var( c x )∑
i =1
i i
var( θˆ ) = var(c1x1 + c2x2 + … +cnxn)

var( θˆ ) = var(c1x1) + var(c2x2) + … var(cnxn)
var( θˆ ) = c12 var(x1) + c 22 var(x2) + … c n2 var(xn)
var( θˆ ) = c 2 σ2 + c 2 σ2 + … c 2 σ2
1 2 n
var( θˆ ) = ( c12 + c 22 + … + c n2 )σ2

var( θˆ ) = ( nc 2 )σ2
i
Portanto, para que θˆ tenha variância mínima, devemos minimizar var( θˆ ), sujeito a
n
restrição que ∑c
i =1
i
(= nci) seja igual a 1:
minimizar ( nc i2 )σ2
s.a. nci -1 = 0
O Lagrangiano será dada por:
L = ( nc i2 )σ2 - λ (nci -1)
As condições de 1ª ordem serão então:
∂L
= (nci -1) = 0
∂λ
∂L
= 2σ2nci - λ n = 0
∂c
Utilizando a primeira das expressões acima , teremos:

(nci -1) = 0
nci = 1
1
ci =
n
Portanto, θˆ terá variância mínima entre os estimadores lineares não viesados quando ci =
1
.
n
VERDADEIRA
1 n
(2) Se θˆ = ∑ x i é um estimador não viciado de θ, então θˆ 2 também será um estimador
n i =1
não viciado de θ2 .
Resposta :
Já sabemos que θ̂ (estimador da média amostral) é um estimador não viesado da
média populacional, θ. Vejamos se θˆ 2 também será um estimador não viesado de θ2.
Sabemos que:
var( θˆ ) = E( θ̂ 2 ) – [E( θ̂ )]2
Ou seja, a variância é dada pela média dos quadrados menos o quadrado da média.
Rearranjando a expressão acima, temos que:
E( θˆ 2 ) = var( θ̂ ) + [E( θ̂ )]2

σ 2
E( θˆ 2 ) = + θ2 ≠ θ2
n
Dessa forma, apesar de θ̂ ser um estimador não viesado de θ, θ̂ 2 é um estimador
viesado de θ2 (note, porém, que é assintoticamente não tendencioso).
Cabe notar que, em geral, se tivermos um estimador não tendencioso e desejarmos
obter uma estimativa para uma função g(.) qualquer desse estimador, se empregarmos
g( θˆ ), este poderá ser um estimador viesado de g(θ). Uma exceção ocorre quando g (.) for
uma função linear de θ (veja Questão ANPEC 1999, 06, item 1).
FALSA
(3) Se a variável aleatória X é uniformemente distribuída no intervalo [0,θ], com θ > 0,

n +1
então θˆ = máximo[x1, x2, ..., xn] não é um estimador consistente de θ.
n
Resposta:
Como a distribuição é uniforme, sabemos que θ é o valor máximo que a variável
n +1
aleatória X pode assumir. Portanto, θˆ = máximo[x1, x2, ..., xn] é um estimador
n
n +1
consistente de θ, já que à medida que a amostra aumenta, tenderá a 1 e o estimador
n
convergirá para o parâmetro populacional θ.
FALSA
(4) Se θ̂1 e θˆ 2 são dois estimadores do parâmetro θ em que E ( θ̂ 1 ) = θ1 e E ( θ̂ 2 ) ≠ θ2
mas Var ( θ̂ 2 ) < Var ( θ̂ 1 ), então o estimador θ̂ 2 deve ser preferível a θ̂ 1 .
Resposta:
Quando comparamos dois estimadores não-viesados, devemos sim preferir aquele
que tiver menor variância. Porém, quando comparamos dois estimadores quaisquer, como
é o caso (já que θˆ 2 é um estimador viesado de θ), devemos preferir aquele que apresentar
menor erro quadrático médio, que é dado por:
EQM = var( θî ) + [viés( θî )]2
Portanto, nesse caso, não dá para saber qual estimador é preferível, já que não temos
nenhuma informação sobre o valor do viés de θˆ 2 .
FALSA
(ANPEC 2001, 03) Uma amostra de tamanho n foi selecionada de uma população de m
elementos. Pode-se afirmar que :
(0) A média amostral X é um estimador não tendencioso e eficiente da média

populacional µ se todos elementos de m tiverem a mesma probabilidade de serem
selecionados .
Resposta:
A média amostral é um estimador não tendencioso da média populacional, qualquer
que seja a distribuição de probabilidade da população. Porém, para sabermos se é um
estimador eficiente (isto é, o de menor variância entre qualquer estimador não viesado),
precisamos saber qual é a distribuição da população, o que não foi dito no enunciado. Se,
por exemplo, a população for normalmente distribuída, sabemos que a média amostral será
um estimador eficiente da média populacional.
FALSA
(1) A variância da distribuição amostral de X é σ

2
se a população for infinita ou se a
n
amostragem for com reposição.
Resposta:
Sabemos pelo Teorema do Limite Central que a média amostral segue uma
distribuição normal com média µ e variância dada por σ 2 n . O fator de correção é
utilizado para a variância apenas se a população for finita e a amostragem for feita sem
reposição (veja o próximo item).
VERDADEIRA
σ2 1
(2) Se a população for finita, a variância da distribuição amostral de X é (1 − )
n n
porque as observações da amostra são independentes.
Resposta:
Evidentemente, se a população é finita, o tamanho da população (N) deveria
importar, o que não acontece na fórmula apresentada no enunciado. O fator de correção é
N −n σ2 N −n
dado por e, portanto, var( X ) = × , é a variância da média amostral
N −1 n N −1
quando a população é finita e a amostragem é feita sem reposição, já que nesse caso à
medida que forem sendo retirados elementos dessa amostra, a variância dos que restarem
será diferente. Se a população for infinita ou se for finita e a amostragem for feita com
reposição, esse "problema" não ocorrerá.
FALSA
(3) Se X for uma variável aleatória qualquer a distribuição de X será normal com média
µ e variância σ n − 1 .
2
Resposta:
Pelo Teorema do Limite Central, sabemos que a distribuição da média amostral, X ,
σ 2
será normal, com média µ e variância dada por , qualquer que seja a distribuição da
n
população, desde que a amostra seja aleatória e suficientemente grande.
FALSA
(4) Se lim E ( X ) = 0 , então X é um estimador assintoticamente não tendencioso.

n→∞
Resposta:
Um estimador é assintoticamente não tendencioso, quando à medida que o tamanho da
amostra aumenta o viés vai desaparecendo, ou seja: lim
n→∞
E ( X ) = µ.
FALSA
(ANPEC 2000, 04) Seja X1, X2 , ..., Xn uma amostra aleatória da densidade
n
Normal(0,θ) e seja T= 1/n ∑X

i =1
2
i
. É correto afirmar que:
(0) T é o estimador de máxima verossimilhança (EMV) de θ.

Resposta:
O estimador de máxima verossimilhança da variância de uma distribuição normal é
dado por (veja Sartoris, 2003, p. 184):
n
∑(X i
− µ)2
T= i =1
n
Como nesse caso, a média é igual a zero, temos que:
n
∑X
2
i
T = i =1
VERDADEIRA
(1) T é um estimador tendencioso de θ.
Sabemos que o estimador de máxima verossimilhança da variância de uma

distribuição normal é viesado. Porém, nesse caso, a média já é conhecida (isto é, temos
xi – µ e não xi – x ) e o estimador T é, portanto, não tendencioso:
n
∑X 2
i
E(T) = E i =1
1 n
E(T) = E ∑ X i2
n i =1
1
E(T) = E ( X 12 + X 22 + … + X n2 )
n
Note que E( X i2 ) é a própria variância populacional, θ, já que:
θ = E(X - µ)2 = E(X2)

1
E(T) = E(θ + θ + … θ)
n
1
E(T) = nθ
n
E(T) = θ
FALSA
n
(2) A variável aleatória Z = ∑ X i2 / θ tem distribuição qui-quadrado com n graus de
i =1
liberdade.
Resposta:
Sabemos que a distribuição Qui-quadrado é a soma de n variáveis normais

2
n
X −µ
padronizadas ao quadrado: Z = ∑ . Como nesse caso, µ = 0, temos
i =1 dp
2
n
Xi
que Z = ∑i =1 dp
. E como o quadrado do desvio-padrão é igual à variância,
n
X i2
que nesse caso, é igual a θ, temos que: Z = ∑ . Portanto, a variável aleatória
i =1 θ
Z tem distribuição Qui-Quadrado com n graus de liberdade.
VERDADEIRA
(3) E ( X 12 X 23 ) = θ2.
Resposta:
Note que a expressão acima é a esperança do produto entre uma variável ao quadrado e
uma variável ao cubo. Portanto, o valor da esperança não poderá ser um quadrado de θ, que
é a variância.
FALSA
(4) T é um estimador eficiente de θ.

Resposta:
Para que T seja um estimador eficiente, ele deve ter a menor variância que qualquer
outro estimador não viesado.Se a média fosse desconhecida, um estimador não viesado para
a variância teria que Ter n – 1 no denominador (e não n), embora este último tenha
variância menor. Mas, como nesse caso, T é não viesado, e de fato, tem a menor variância,
é um estimador eficiente de θ.
VERDADEIRA
(ANPEC 2000, 07) Seja Y uma variável aleatória contínua com distribuição de
probabilidade f(y;θ), em que θ = (θ1,θ2 ,...,θp). Considere uma amostra aleatória de Y, com
tamanho n. Com relação à função de verossimilhança L(θ), é correto afirmar que:
n
(0) l(θ)= ln L(θ) = ∑ log f ( y i ;θ ) , em que ln é o logaritmo natural.
i =1
Resposta:
A função de verossimilhança é uma função dos parâmetros e é dada por:
L(θ;yi) = f(y1;θ) × f(y2;θ) × … × f(yn;θ)
Tomando o logaritmo natural da função de verossimilhança, temos:

n
l(θ;yi) = lnL(θ) = lnf(yi;θ) + lnf(y2;θ) + … lnf(yn;θ) = ∑ ln f ( y ;θ )

i =1
i
VERDADEIRA
(1) A função de verossimilhança é também uma função de densidade de probabilidade, que

possui, assim, todas as propriedades matemáticas associadas à uma função de densidade
de probabilidade.
Resposta:
A função de verossimilhança não é uma função densidade de probabilidade e,
portanto, não possui as propriedades matemáticas associadas à uma f.d.p.; por exemplo,
∞ ∞
∫ L(θ ; x)dθ ≠ 1 (quem é igual a 1 é ∫ L(θ ; x)dx )

−∞ −∞
FALSA
(2) Uma condição necessária a que os estimadores de máxima verossimilhança devem

satisfazer é que a matriz { ∂ 2 l (θ ) / ∂θ i ∂θ j } i,j = 1, 2, ..., p, avaliada no ponto de
máximo, seja negativa definida.
Resposta:
A estimação por máxima verossimilhança consiste em achar os valores dos
parâmetros que maximizem a função de verossimilhança, o que é análogo a encontrar o
máximo da função do logaritmo da verossimilhança, ou seja, consiste em encontrar o ponto
de máximo de l(θ). E sabemos que a condição necessária para um ponto de máximo é que a
derivada primeira da função nesse ponto seja nula e a condição SUFICIENTE é que a
derivada segunda seja negativa. E, como [ ∂ 2 l (θ ) / ∂θ i ∂θ j ] nada mais é que a matriz com
as derivadas segundas de l(θ), temos que todos os seus valores devem ser negativos para
que a condição suficiente seja satisfeita.
E temos que uma matriz simétrica é definida negativa quando todas as suas raízes
características são negativas. E para que uma matriz seja negativa definida, todos os seus
elementos devem ser negativos. Portanto, temos que a condição SUFICIENTE que os
estimadores de máxima verossimilhança devem satisfazer é que a matriz com as derivadas
segundas de l(θ) seja negativa definida.
FALSA
(3) Sendo Tn o estimador de máxima verossimilhança do parâmetro escalar θ1, segue-se
que Tn apresenta a seguinte propriedade:
lim n→∞ Pr(|T −θ |≥ε ) = 0 , ∀ ε > 0.
n 1
Resposta:
Essa é a propriedade de consistência, já que a expressão acima nada mais significa
que, à medida que o tamanho da amostra cresce, o valor estimado convergirá para o
valor verdadeiro. E como sabemos, os estimadores de máxima verossimilhança são
consistentes (confira as propriedades dos estimadores de máxima verossimilhança na
questão ANPEC 2002, 4, item 0)
VERDADEIRA
(4) Sendo φ= g(θ1), em que g(.) é uma função um a um de θ1, e Tn é o estimador de

máxima verossimilhança de θ1, segue-se que o estimador de máxima verossimilhança
de φ será Gn = g(Tn )[dφ/dθ1] , em que a derivada é avaliada em θ1= Tn.
Resposta:
Como sabemos, os estimadores de máxima verossimilhança apresentam a
propriedade de invariância (veja questão ANPEC 2002, 4, item 0). Sendo assim, o
estimador de máxima verossimilhança de φ será g(Tn).
FALSA
(ANPEC 2000, 08) Sejam p̂ e ~ p dois estimadores do parâmetro p da distribuição

Binomial, em que Y é a variável desta distribuição e n o tamanho da amostra:
Y ~ Y +1
pˆ = p=
n n +1
(0) p̂ é o estimador de máxima verossimilhança do parâmetro p.
Resposta:
Y
A proporção amostral, dada por pˆ = , é o valor que dá a maior chance de Y
n
pertencer à distribuição binomial e, dessa forma, é o estimador de máxima verossimilhança do
parâmetro p.
VERDADEIRA
(1) Sob o critério do erro quadrado médio, para pequenas amostras, não há supremacia de um
estimador sobre o outro.
Resposta:
O erro quadrático médio é dado por:
EQM = var( θˆ ) + [viés( θˆ )]2
Calculemos, então, o EQM dos estimadores p̂ e ~ p . Para isso, primeiro calculamos o viés (se
houver) e a variância destes estimadores. Para o estimador p̂ temos que:
Y
E( p̂ ) = E
n
1
E( p̂ ) = E(Y)
n
Como a média de uma variável que tem a distribuição binomial é dada por n × p, temos que:
1
E( p̂ ) = × n × p
n
E( p̂ ) = p
Y
Var( p̂ ) = var
n
1
Var( p̂ ) = var(Y)
n2
E como a variância de uma variável que tem a distribuição binomial é dada por np(1-p):
1
Var( p̂ ) = 2 np(1-p)
n
p(1 − p)
Var( p̂ ) =
n
Como p̂ é um estimador não viesado, seu erro quadrático médio será igual à sua variância:
p(1 − p)
EQM( p̂ ) =
n
Agora, façamos o mesmo cálculo para o estimador ~

p:
Y +1
E( ~
p)=E
n +1
E(Y ) + 1
E( ~
p)=
n +1
np + 1
E( ~
p)= ≠p
n +1
Portanto, ~p é um estimador viesado de p (confira o cálculo do viés no item seguinte). Sua

variância é dada por:
Y +1
Var( ~
p ) = var
n +1
1
Var( ~
p ) = var (Y + 1)
n +1
Pelas propriedades da variância, temos que:

2
1
Var( ~
p)= var(Y )
n +1
np(1 − p )
Var( ~
p)=
(n + 1)2
O erro quadrático médio de ~
p será dado então por:
EQM( ~
p ) = var( ~
p ) + [viés( ~
p )]2
np(1 − p )
2
1− p
EQM( ~
p)= +
(n + 1) 2
n +1
np(1 − p ) + (1 − p )
2
EQM( ~
p)=
(n + 1)2
EQM( ~
p)=
(1 − p )[np + (1 − p )]
(n + 1)2
Temos então que:
EQM ( pˆ ) p(1 − p) (n + 1) 2 p(n + 1) 2

= × = .
EQM ( ~
p) n (1 − p)[np − (1 − p )] n 2 p − n + n
Para que fique mais claro, faça, por exemplo, p = 1:
EQM ( pˆ ) n 2 + 2n + 1 n 2 + 2n + 1
= 2 = >1
EQM ( ~
p) n −n+n n2
Ou ainda, se p = 0:
EQM ( pˆ )
=0<1
EQM ( ~
p)
Sendo assim, há, sim, supremacia de um estimador sobre o outro para pequenas amostras.
FALSA
(2) O viés do estimador ~p é dado por [(1 − p ) (1 + n )] .
Resposta:
O viés de ~ p será dado por:
viés( p ) = E( ~
~ p)-p
np + 1
viés( ~
p)= -p
n +1
np + 1 − (n + 1) p
viés( ~
p)=
n +1
np + 1 − np − p
viés( ~
p)=
n +1
1− p
viés( ~
p)=
n +1
VERDADEIRA
(ANPEC 1999, 06) Com base na teoria da estimação, pode-se fazer as seguintes
afirmações :
(0) De acordo com o critério de eficiência, medido pela comparação entre as variâncias dos
estimadores, a média amostral X é preferível a primeira observação X 1 como
estimador da média populacional, supondo-se que σ 2 seja a variância da população.
Resposta:
Chamando o estimador que utiliza a primeira observação para estimar a média

amostral de X1, e supondo que a média populacional seja µ, temos que tanto X quanto X1
são estimadores não viesados, já que:
E( X ) = µ
E(X1) = µ
Já a variância:
σ 2
Var( X ) =
n
2
Var(X1) = σ
Portanto, pelo critério de eficiência relativa, temos que a média amostral é preferível à
primeira observação, já que sua variância será menor que a variância de X1 para todo n > 1.
VERDADEIRA
(1) Seja θˆ um estimador não-viciado de θ . Se g( θˆ ) é uma função do parâmetro θ , então
E[g( θˆ )] ≠ g[E( θˆ )] com a igualdade ocorrendo somente quando g( θ ) for uma função
linear.
Resposta:
Na questão ANPEC 2002, 04, item (2), mostramos que, em geral, E[g( θˆ )] ≠ g[E( θˆ )].
Mostraremos agora, que E[g( θˆ )] = g[E( θˆ )] quando g( θ ) for uma função linear.
Considere a seguinte função linear de θ:
g(θ) = a + bθ.
Calculemos E[g( θˆ )]:

E[g( θˆ )] = E (a + b θˆ )
E[g( θˆ )] = a + b E( θˆ )
E[g( θˆ )] = a + bθ
E agora g[E( θˆ )]:

g[E( θˆ )] = g(θ) = a + bθ
Portanto, se g(.) for uma função linear de θ, E[g( θˆ )] = g[E( θˆ )].
VERDADEIRA
1
(2) A função densidade de probabilidade da variável aleatória x é dada por f ( x) = para
α
0 ≤ x ≤ α e 0 para outros valores. Assim sendo, considerando-se uma amostra aleatória
de tamanho n , x1 , x2 , x3 ⋅ ⋅ ⋅ ⋅, xn , o estimador de Máxima Verossimilhança de α será
igual ao Mínimo de x1 , x2 , x3 ⋅ ⋅ ⋅ ⋅, xn .
Resposta:
1
Se a f.d.p. de x é dada por f(x) = , sabemos que x é uniformemente distribuída e
α
que o parâmetro α é o valor máximo que x pode assumir. Portanto, o estimador de máxima
verossimilhança para α, ou seja, aquele que dá a maior chance dessa amostra pertencer de
fato a uma população cuja f.d.p é dada por f(x), é, sem dúvida, igual ao máximo de x1,
x2,x3, … ., xn.
FALSA
n
∑ (x
n
∑ (x i
− x) 2
i − x)2
(3) Dado que as variâncias das estatísticas S 1 = i =1
2 i =1
e S2 = são,
n −1 n
n
∑ (x i − x)2
2σ 4 2σ 4 n − 1 2 S2 = i =1
respectivamente , iguais a e ( ) , então n é mais
n −1 n −1 n
n
∑ (x
i =1
i − x)2
preciso do que S =
2
n embora seja uma estatística viciada.
Resposta:
Como é evidente, esta questão foi anulada pelo fato de aparecerem as mesmas estatísticas
na comparação entre elas. Se a segunda parte do enunciado fosse: "(...) então S2 é mais preciso
que S 12 , embora seja uma estatística viciada", a afirmativa seria verdadeira. Vejamos:
Sabemos que S 12 é uma estatística viesada da variância populacional, enquanto S1 não é
(veja questão 08/2004, item 1).Calculemos, então, as suas variâncias.
2σ 4
var( S 12 ) =
n −1
2σ 4
2
2 n −1
var(S ) = ×
n −1 n
Como var( S 12 ) < var(S2), S 12 é mais precisa, embora seja viesada.
ANULADA
(ANPEC 1998, 06) Seja θ o estimador do parâmetro θ :
(0) O erro quadrático médio é igual a variância do estimador θ se θ for um estimador

não-tendencioso de θ .
Resposta:
O erro quadrático médio (EQM) é dado por:
EQM = var( θˆ ) + [viés( θˆ )]2
Se θˆ é um estimador não-tendencioso de θ, seu viés obviamente será igual a zero e,
portanto, EQM = var( θˆ ).
VERDADEIRA
(1) Um estimador θ1 é dito eficiente se θ1 for não-tendencioso e Var( θ1 ) ≤ Var ( θ2 ), onde
θ2 é outro qualquer estimador não-tendencioso de θ .
Resposta:
Um estimador é de fato dito eficiente quando for não tendencioso e tiver a menor
variância que qualquer outro estimador não tendencioso.
VERDADEIRA
(2) Seja X uma variável aleatória normalmente distribuída com média µ e variância σ2.
Sejam x1 e x2 duas observações de uma amostra aleatória de tamanho 2. Podemos
3x + 2 x 2
afirmar que µ~ = 1 é um estimador tendencioso de µ.
5
Resposta:
Um estimador é não tendencioso quando seu valor médio é igual a seu valor verdadeiro, ou
seja, E( µ~ ) = µ. Vejamos se isso é válido para o estimador µ~ :
3 x1 + 2 x 2
E( µ~ ) = E
5
3 x1 2 x2
E( µ~ ) = E +E
5 5
3 2
E( µ~ ) = E(x1) + E(x2)
5 5
3 2
E( µ~ ) = µ + µ
5 5
E( µ~ ) = µ
Portanto, µ~ é um estimador não-tendencioso de µ.
VERDADEIRA
(3) Se θ é consistente, então é não tendencioso.

Resposta:
Um estimador é dito consistente quando, à medida que o tamanho da amostra
aumenta, o viés (se existir) e a variância vão "desaparecendo", de forma que o valor do
estimador converge para o valor verdadeiro. Portanto, para que θ seja consistente, não
necessariamente precisa ser não tendencioso, mas precisa ser assintoticamente não
tendencioso.
FALSA
(ANPEC 1998, 07) Com base na teoria da estimação, pode-se fazer as seguintes
afirmações :
(0) Se θ é um parâmetro populacional e θ seu estimador, a afirmação de que θ é um

estimador consistente de θ se lim P{θ − θ ≤ ε } = 1 para todo ε > 0 quando n → ∞ , é
equivalente a afirmação de que se lim E (θˆ) = θ e limVar (θ ) = 0 quando n → ∞ ,
então θ será um estimador consistente de θ .
Resposta:
Um estimador é dito consistente quando, à medida que o tamanho da amostra
aumenta, o viés (se existir) e a variância vão "desaparecendo", ou seja, lim
n→∞
E (θˆ) = θ e
lim
n→∞
var(θˆ) = 0 , de forma que o valor do estimador converge (em probabilidade) para o
valor verdadeiro, isto é, o limite da probabilidade da diferença entre o valor estimado e o
valor verdadeiro, em módulo, ser menor ou igual a um número ε muito pequeno, quando
n → ∞ , é igual a 1:
lim
n→∞
[
P θˆ − θ ≤ ε = 1 ]
Dessa forma, as afirmações são realmente equivalentes.
VERDADEIRA
(1) Se x é uma variável aleatória com E(X) = µ e variância σ 2 , então a média amostral, X ,
será um estimador consistente da média populacional µ .
Resposta:
Sabemos que um estimador consistente é aquele que converge para o valor
verdadeiro do parâmetro à medida que o tamanho da amostra aumenta, ou seja, seu viés
(caso seja um estimador viesado) e sua variância vão desaparecendo. Sabemos que a média
amostral é um estimador não viesado da média populacional. Vejamos então o que acontece
com a variância à medida que o tamanho da amostra aumenta:
σ
lim n →∞ var( X ) = lim n →∞
2
=0
n
Portanto, a média amostral é um estimador consistente da média populacional.
VERDADEIRA
n
∑ (x
i =1
i − x)2
(2) A estatística, S 2 = , baseada em uma amostra aleatória x 1 , x 2 ,x 3 ,....,x n
n
é um estimador não tendencioso da variância populacional.
Resposta:
n
∑ (x i
− x)2
O estimador não tendencioso da variância é dado por i =1
(veja questãoANPEC
n −1
2004, 08, item 1).
FALSA
n
∑ (x
i =1
i − x)2
(3) A estatística, S 2 = , baseada em uma amostra aleatória x 1 , x 2 ,x 3 ,....,x n
n
é um estimador inconsistente da variância populacional.
Resposta:
Vimos que o estimador não viesado da variância populacional é dado por
n
∑ (x i
− x)2
i =1
. Mas, apesar de ser viesado, S2 é um estimador consistente da variância
n −1
populacional, já que à medida que o tamanho da amostra aumenta, não faz diferença dividir
por n ou por n – 1.
FALSA
Intervalo de confiança e testes de hipóteses
(ANPEC 2005, 4) Duas fábricas, A e B, produzem determinado tipo de lâmpada. Um

comprador dessas lâmpadas decide verificar a origem de seu estoque. Para isso,
seleciona uma amostra aleatória de 100 unidades (de seu estoque) e verifica a duração
de cada uma delas. Se a duração média for maior do que 170 horas, conclui que a
lâmpada foi fabricada pela empresa B; caso contrário, que a lâmpada veio da empresa
A. Os dois fabricantes asseguram que a duração de suas lâmpadas segue distribuição
normal: a de A com média µA = 169 horas e a da B com média µB = 171 horas. As duas
distribuições têm o mesmo desvio padrão σ = 10 horas. Usando a tabela da normal
padrão, anexa, julgue as afirmativas:
(0) A probabilidade do erro Tipo I é 0,1587.

Resposta:
As hipóteses desse teste são:
H0: µ = 169
H1: µ > 169
O que é equivalente a:
H0: o estoque provém da empresa A
H1: o estoque provém da empresa B
A probabilidade de cometer o erro do tipo I é a probabilidade de se rejeitar a hipótese

nula quando ela é verdadeira, ou seja, rejeitar a hipótese que a lâmpada vem da empresa
A, quando na verdade ela vem. A hipótese nula será rejeitada quando x >170.
Assumindo que a hipótese nula é verdadeira, temos que:
x−µ
=z
σ
n
170 − 169
=1
10
100
z=1
Dessa forma, P(erro tipo I) = P( x >170) = P(z>1) = 0,1587

VERDADEIRA
(1) A probabilidade do erro Tipo II é diferente de 0,1587.
Resposta:
A probabilidade de cometer o erro do tipo II é a probabilidade de se aceitar a hipótese

nula quando ela é falsa, ou seja, aceitar que a lâmpada provém da empresa A quando na
verdade vem da empresa B.
A probabilidade disso ocorrer é dada pela região cinza da figura abaixo, já que se os
valores amostrais estiverem nessa região, a hipótese nula, que é falsa, será aceita:
Calculemos então a área da região cinza da figura acima:
170 − 171
=1
10
100
Dessa forma, P(erro tipo II) = P( x <170) = P(z<1) =0,1587
FALSA
(2) A regra de decisão, ao nível de significância de 5%, será: se a duração média for
maior que 170,64 horas, as lâmpadas foram fabricadas pela empresa B; do
contrário, pela empresa A.
Resposta:
Com 5% de significância, temos que:

x−µ
= 1,64
σ
n
x − 169
= 1,64
10
100
x − µ = 1,64
Como a hipótese alternativa é µ > 170 , temos:
x = 169 + 1,64 = 170,64
Dessa forma, a região de aceitação do teste será:
R.A. = ]- ∞ , 170,64]
Então, se a duração média ( x ) for maior que 170,64, a hipótese nula deverá ser
rejeitada, ou seja, conclui-se que as lâmpadas foram fabricadas pela empresa B.
VERDADEIRA
(3) A probabilidade do erro do Tipo II, para o nível de significância de 5%, é 0,70.
Com 5% de significância, temos:

x − 169
= 1,64
10
100
A probabilidade de se cometer o erro do tipo II é dada pela região cinza da figura a

seguir:
Calculemos então a área da região cinza da figura acima:
170,64 − 171
= 0,36
10
100
P(erro tipo II) = P( x <170,64) = P(z<0,36) = 0,3594
FALSA
(4) Para este teste de hipótese, a função poder do teste é crescente com a média µ, da
distribuição sob a hipótese nula.
Resposta:
A potência (ou poder) de um teste é a probabilidade de rejeitar a hipótese nula
quando realmente ela é falsa. Sendo assim, dado que de fato µ não é µ0, ou seja, µ é
maior que µ0, o teste torna-se mais poderoso quanto mais distante o valor verdadeiro
da média µ for do valor hipotético µ0. Portanto, quanto maior for a média verdadeira µ,
maior será o poder do teste (pois será mais provável que rejeitemos a hipótese nula, que
sabemos ser falsa). Nesse caso, a função potência do teste é crescente com a média µ .
Considere o gráfico a seguir onde a região hachurada corresponde ao nível de
significância do teste e a região cinzenta, à probabilidade de cometer o erro do tipo II, já
que se os valores amostrais estiverem nessa região, a hipótese nula, que sabemos ser
falsa, será aceita. À medida que µ aumenta, a região cinza da figura aumenta e,
conseqüentemente, o poder do teste diminui. Dessa forma, a função potência do teste é
crescente com a média µ.
VERDADEIRA
(ANPEC 2005, 06) Seja X 1 , X 2 , X 3 , ........, X n uma amostra aleatória de tamanho n de

uma população normal com média µ e variância σ 2 . Julgue as afirmativas:
(0) A probabilidade de a média populacional, µ , estar contida no intervalo de
σ σ
confiança [ X − 1,96 , X + 1,96 ] é igual a 95%.
n n
Resposta:
σ σ
[ X − 1,96 , X + 1,96
] é realmente um intervalo com 95% de confiança para a
n n
média populacional µ . Porém, isso NÃO significa que a probabilidade desse intervalo
conter a média da população é de 95%. Uma vez construído, esse intervalo conterá ou
não a média populacional µ e, portanto, a probabilidade disso ocorrer é de 0 ou 1. O
que podemos afirmar é que, se retirássemos infinitas amostras de mesmo tamanho dessa
população, em 95% delas a média populacional estaria contida neste intervalo.
FALSA
(1) Se a variância σ 2 é desconhecida, o intervalo de confiança de 95% para a média µ

s s
será [ X − tc , X + tc ] , em que s é o desvio padrão da amostra, tc é calculado
n n
de forma que P (| t |< tc ) = 0,95 , e t segue uma distribuição de Student com n -1
graus de liberdade.
Resposta:
Sabemos que, se a variância é desconhecida e a amostra é pequena, devemos utilizar a

distribuição t de Student para construir um intervalo de confiança para a média. Dessa
forma:
X −µ
= tc
s
n
s
X − µ = tc
n
E o intervalo de confiança para a média populacional será então:
s s
X + tc , X − tc
n n
Como queremos 95% de confiança, temos que P(|t|<tc) = 0,95:

VERDADEIRA
(2) Se construirmos vários intervalos de confiança para a média µ com amostras de

idêntico tamanho, mesma variância σ 2 e mesma margem de confiança, estes terão
extremos aleatórios, mas todos terão a mesma amplitude.
Resposta:
O intervalo de confiança para a média µ é dado por:
σ σ
X +z ,X −z
n n
Se vários intervalos de confiança forem construídos para amostras de mesmo tamanho

(n constante), mesma variância ( σ 2 constante) e mesma margem de confiança (z
σ
constante), temos que a margem de erro z será a mesma para todos esses
n
intervalos. Portanto, eles terão sim a mesma amplitude; apenas os seus limites serão
alterados (já que a média amostral X será diferente para cada amostra).
VERDADEIRA
(3) Num teste de hipótese: H 0 : µ = µ0 contra H a : µ ≠ µ0 , se o intervalo de confiança
estimado para a média µ não contiver o valor de µ 0 , então deve-se aceitar a
hipótese de que µ = µ0 .
Resposta:
Se o intervalo de confiança para a média não contiver o valor que está sendo testado,
então a hipótese nula deverá ser rejeitada. Note que o intervalo de confiança construído
corresponde à região de aceitação do teste (área mais escura da figura abaixo). Assim,
se µ 0 não estiver neste intervalo, a hipótese nula deverá ser rejeitada.
FALSA
(4) Se a amostra aleatória X 1 , X 2 , X 3 , ........, X n não provém de uma distribuição

normal, não se pode construir um intervalo de confiança para a média µ , ainda que
a amostra seja muito grande.
Resposta:
Pelo Teorema do Limite Central, sabemos que a média amostral segue uma distribuição
normal com média µ e variância σ 2 n para amostras suficientemente grandes.
Portanto, mesmo que as variáveis X 1 , X 2 , X 3 , ........, X n não sejam normalmente
distribuídas, a sua média amostral seguirá a distribuição normal, para n suficientemente
grande e poderemos construir um intervalo de confiança para a média populacional.
FALSA
(ANPEC 2004, 2) Sejam X1, X2, ..., Xn variáveis aleatórias independentes e
normalmente distribuídas com média µ e variância σ2. Em relação ao teste de hipótese
da média H 0 : µ = µ0 contra H a : µ < µ 0 , são corretas as afirmativas:
(0) Se o p-valor do teste for menor que o nível de significância, α, a hipótese H 0 deve
ser rejeitada.
Resposta:
Suponha que o nível de significância escolhido (α) seja de 5%, como mostra o
gráfico abaixo. A região mais escura corresponde à região de aceitação do teste (RA),
isto é, à região em que não podemos rejeitar a hipótese nula, enquanto a região mais
clara, à de rejeição (RR) ou região crítica, isto é, à região na qual a hipótese nula deve
ser rejeitada.
Dessa forma, se o p-valor do teste, que é o nível de significância mais baixo com
o qual podemos rejeitar a hipótese nula, estiver na região de aceitação, não poderemos
rejeitar a hipótese nula. Mas se o valor-p estiver na região de rejeição, a hipótese nula
deverá ser rejeitada.
Suponha, por exemplo, que encontremos um p-valor de 3% para esse teste, que
corresponde à região hachurada do gráfico seguinte. Como o p-valor pertence à região
de rejeição do teste, devemos rejeitar a hipótese nula.
α = 5% → zt = –1,645
valor-p = 3% → zc = –1,88
Mas, se encontrarmos um valor-p de 30% para esse teste, como mostra o gráfico
a seguir, a hipótese nula não poderá ser rejeitada, já que estaremos na região de
aceitação do teste.
α = 5% → zt = –1,645
valor-p = 30% → zc = –0,52
Portanto:
Se valor-p > α → H0 não pode ser rejeitada.
Se valor-p ≤ α → H0 deve ser rejeitada.
O que é análogo a:
Se o valor calculado da estatística < valor tabelado → H0 não pode ser rejeitada
Se o valor calculado da estatística > valor tabelado → H0 deve ser rejeitada
VERDADEIRA
(1) Se a variância σ 2 for conhecida, a estatística do teste segue a distribuição t-Student.

Caso contrário, a distribuição do teste será a Normal Padrão.
Resposta:
Pelo contrário, a estatística t de Student é utilizada para o teste da média quando
não conhecemos a variância, ou seja, quando esta também tiver que ser estimada.
Quando a variância for conhecida, a estatística do teste seguirá a distribuição normal
padrão:
x−µ
variância conhecida (distribuição normal padrão): z =
σ
n
x−µ
variância desconhecida (distribuição t de Student): t =
σˆ
n
Note que t é o quociente entre duas variáveis aleatórias, ao contrário do que
ocorre com z.
Convém lembrar que a distribuição t de Student aproxima-se da distribuição
normal padrão à medida que o tamanho da amostra aumenta. Assim sendo, para
amostras suficientemente grandes, podemos utilizar a distribuição normal padrão como
aproximação da distribuição t de Student.
FALSA
(2) Dados os parâmetros da população: µ 0 = 50 e σ 2 = 900, suponha que a média de

uma amostra aleatória de tamanho 36 retirada desta população seja X = 47 . Neste
caso, o nível de significância do teste, α, será igual a 0,2743.
Resposta:
Aqui é preciso tomar bastante cuidado para não confundir os conceitos de nível
de significância e valor de probabilidade de significância (valor-p). O nível de
significância é escolhido a priori pelo pesquisador. Dessa forma, se o enunciado da
questão não nos forneceu o nível de significância, α, não é possível que saibamos o seu
valor. Assim sendo, a afirmativa é falsa. O que podemos fazer, é calcular o valor-p
desse teste que, como veremos a seguir, é de fato 0,2743. Portanto, os mais desatentos
poderiam facilmente errar essa questão.
Para encontrarmos o valor-p deste teste, devemos primeiro obter o valor crítico
(z) e então procurarmos na tabela da distribuição normal a probabilidade associada a
esse valor.
Como se trata da média, sabemos que:
X −µ
z=
σ
n
Portanto:
47 − 50
z=
30
36
3
z=
5
z = 0,6
Dessa forma, procuramos na tabela da distribuição normal o valor para z = 0,6,
lembrando que o teste é unicaudal (como a hipótese alternativa é menor, devemos
utilizar a cauda da esquerda):
E, dessa forma, temos que o valor-p do teste é de 0,2743. Porém, o nível de

significância não é de nosso conhecimento, já que não foi dado no enunciado. Suponha
que tivesse sido escolhido α = 0,05 = 5%. Nesse caso, não poderíamos rejeitar a
hipótese nula, já que o valor-p seria maior que o nível de significância escolhido, como
mostra o gráfico a seguir, onde a região hachurada corresponde ao valor-p, a região
mais clara ao nível de significância escolhido e a mais escura, à região de aceitação do
teste.
FALSA
(3)A função-potência para este teste de hipótese será uma função decrescente da
média µ .
Resposta:
A potência (ou poder) de um teste é a probabilidade de rejeitar a hipótese nula
quando realmente ela é falsa. Sendo assim, dado que de fato µ não é µ0, ou seja, µ é
menor que µ0, o teste torna-se mais poderoso quanto mais distante o valor verdadeiro
da média µ for do valor hipotético µ0. Portanto, quanto maior for a média verdadeira,
menor será o poder do teste (pois será mais provável que aceitemos a hipótese nula, que
sabemos ser falsa). Para que fique mais claro, considere a seguinte figura:
Sabemos que o valor verdadeiro é µ. Mas o valor que está sendo testado é µ0,
que é maior que µ. O nível de significância do teste está representado pela região
hachurada do gráfico acima. Porém, se os valores amostrais estiverem na área cinzenta,
a hipótese nula, que sabemos ser falsa, será aceita. Dessa forma, essa região representa a
probabilidade de cometermos o erro do tipo II. Note que quanto maior for a média
verdadeira, µ, maior será a probabilidade de cometer o erro do tipo II, já que maior será
a probabilidade de aceitarmos a hipótese nula que µ = µ0 (desloque a distribuição com a
verdadeira média para a direita e verifique). E como o poder do teste é a probabilidade
de não cometer o erro do tipo II, quanto maior for este último, menor será o poder do
teste:
Poder do teste = (1–β)

↑ β → ↓ poder do teste
Portanto, a função poder do teste será decrescente com a média µ.
VERDADEIRA
(4) Se a hipótese alternativa fosse H a : µ > µ0 , ainda assim a função-potência seria

decrescente com a média µ .
Resposta:
Como já vimos anteriormente, o poder do teste é a probabilidade de rejeitar a
hipótese nula quando realmente ela é falsa. E, nesse caso, se H0 é falsa, então µ é maior
que µ0. E à medida que µ se afasta de µ0, ou seja, quanto maior for µ, maior será a
probabilidade de rejeitarmos a hipótese nula (que é falsa). Portanto, nesse caso, a função
potência do teste é crescente com a média µ .
Considere o gráfico abaixo onde, novamente, a região hachurada corresponde ao
nível de significância do teste e a região cinzenta, à probabilidade de cometer o erro do
tipo II, já que se os valores amostrais estiverem nessa região, a hipótese nula, que
sabemos ser falsa, será aceita. À medida que µ aumenta, a região cinza da figura agora
diminui e, conseqüentemente, o poder do teste aumenta. Dessa forma, a função potência
do teste é, nesse caso, crescente com a média µ.
FALSA
(ANPEC 2004, 6) Seja X uma variável aleatória normalmente distribuída com média µ
e variância conhecida σ2 =1, da qual se obtém a amostra aleatória X1, X2, ..., Xn (com n
observações). É correto afirmar que:
(0) A média amostral é uma variável aleatória normalmente distribuída com média µ e
variância 1/n.
Resposta:
Como a população é normalmente distribuída, a média amostral seguirá uma
σ 2
distribuição normal com média µ e variância dada por , qualquer que seja o tamanho
n
1
da amostra. E como σ2 = 1, temos que a variância será .
n
VERDADEIRA
(1) A probabilidade de o intervalo de confiança [ X − 1,96 / n , X + 1,96 / n ] conter a

média da população, µ, é de 95%.
Resposta:
Sabemos que o valor crítico z para 95% de confiança, é dado realmente por 1,96
(basta olhar na tabela). Porém apesar de [ X − 1,96 / n , X + 1,96 / n ] ser realmente um
intervalo com 95% de confiança, não podemos dizer que a probabilidade desse intervalo
conter a média da população é de 95%. Uma vez construído, esse intervalo ou conterá
ou não conterá a média populacional µ e, portanto, a probabilidade de conter ou não µ
será de 0 ou 1. O que podemos afirmar é que, se retirássemos infinitas amostras de
mesmo tamanho dessa população, em 95% delas o intervalo conteria o valor verdadeiro
da média populacional.
FALSA
(2) A probabilidade de o intervalo de confiança [ X − 1,96 / n , X + 1,96 / n ] conter a

média amostral é de 95%.
Resposta:
Note que a média amostral sempre estará contida nesse intervalo, já que é um
intervalo de confiança para a média populacional (estamos somando e subtraindo a
margem de erro da própria média amostral e, obviamente, ela estará contida nesse
intervalo).
FALSA
(3) O intervalo de 95% para a média populacional independe do tamanho da amostra.

Resposta:
Note que o intervalo de 95% de confiança para a média populacional é dado por
(já que σ = σ 2 = 1):
1,96 1,96
X− ;X +
n n
Portanto ele é dependente sim do tamanho da amostra n, já que para diferentes
valores de n, obteremos diferentes intervalos com os mesmos 95% de confiança. E
quanto maior for n, mais preciso será esse intervalo, já que a margem de erro irá
diminuir.
FALSA
(4) Em um intervalo de confiança de 95% para a média populacional, µ, espera-se que,

extraindo-se todas as amostras de mesmo tamanho dessa população, esse intervalo
conterá µ 95% das vezes.
Resposta:
É exatamente esse o significado do intervalo de confiança.
VERDADEIRA
(ANPEC 2003, 05) Com relação a testes de hipótese, é correto afirmar que:
(0) o p-valor de um teste representa a probabilidade de aceitação da hipótese nula;
Resposta:
O valor-p de um teste representa a probabilidade exata de cometer o erro do tipo
I, ou seja, de rejeitar a hipótese nula quando ela é verdadeira. É o nível de significância
mais baixo com o qual podemos rejeitar a hipótese nula. Portanto, ele não representa a
probabilidade de aceitação da hipótese nula. Ele representa a probabilidade de estarmos
errados rejeitando a hipótese nula.
ANULADA
(1) o nível de significância de um teste é a probabilidade de se cometer o erro tipo I;

Resposta:
A probabilidade de cometer o erro do tipo I é exatamente o nível de significância
de um teste; e é definido como a probabilidade de se rejeitar a hipótese nula quando ela
é verdadeira ("condenar um inocente"). Entretanto, cabe aqui novamente fazer uma
advertência: os conceitos de nível de significância e valor-p não são equivalentes. O
nível de significância está sob o controle do pesquisador, ou seja, ele é predeterminado.
O valor-p corresponde ao nível mais baixo de significância com o qual poderíamos
rejeitar a hipótese nula, dado o valor calculado da estatística do teste.
VERDADEIRA
(2) a potência do teste é a probabilidade de se cometer o erro tipo II;

Resposta:
A potência (ou poder) do teste é dada pela probabilidade de não cometer o erro
do tipo II, ou seja, rejeitar a hipótese nula quando realmente ela é falsa. Chamando de β
a probabilidade de cometer o erro do tipo II, temos que o poder do teste será dado por (1
– β).
FALSA
(3) em um modelo de regressão linear utiliza-se um teste bilateral para verificar se

determinado coeficiente é estatisticamente diferente de zero;
Resposta:
Em um modelo de regressão linear, utilizamos o teste t para verificar se um
coeficiente é estatisticamente diferente de zero, e as hipóteses nula e alternativa desse
teste são, respectivamente:
H0: β = 0
H1: β ≠ 0
Que é um teste bilateral, ou seja, consideramos tanto que β poder ser maior
quanto menor que 0. Graficamente, isso significa que utilizamos as duas caudas da
distribuição t de Student, como mostra a figura abaixo (para um nível de significância
de 5%):
VERDADEIRA
(4) o nível de significância de um teste de hipótese cresce com o tamanho da amostra.

Resposta:
Como o nível de significância é escolhido pelo pesquisador, ou seja, como ele é
predeterminado, se aumentarmos o tamanho da amostra, ele, evidentemente, continuará
sendo o mesmo.
FALSA
(ANPEC 2002, 05) Indique se as seguintes considerações sobre a teoria dos testes de
hipótese são verdadeiras (V) ou falsas (F).
(0) O erro do tipo II é definido como a probabilidade de não se rejeitar uma hipótese
nula quando esta for falsa e o erro do tipo I é definido como a probabilidade de se
rejeitar a hipótese nula quando esta for verdadeira.
Resposta:
Note que o erro do tipo II e o erro do tipo I não são probabilidades de nada. O
erro do tipo II consiste em não rejeitar a hipótese nula quando esta for falsa e o erro do
tipo I consiste em rejeitar a hipótese nula quando esta for verdadeira.
ANULADA
(1) No teste de hipótese para proporções, se a variância da proporção populacional for

desconhecida, a estatística t de Student com n-1 graus de liberdade (n é o tamanho
da amostra) é a indicada para o teste.
Resposta:
O teste t não é o indicado para proporções. Utilizamos o teste t para testar a
média quando a sua variância for desconhecida (ou seja, a variância deverá ser
estimada) e a amostra for pequena (quando a amostra é grande, a distribuição t de
Student se aproxima da normal). No teste para proporções podemos utilizar a
distribuição normal, desde que a amostra seja suficientemente grande. Caso contrário, a
distribuição binomial é a indicada para o teste.
FALSA
(2) Num teste de hipótese bi-caudal, o valor-p (ou valor de probabilidade) é igual a duas
vezes a probabilidade da região extrema delimitada pelo valor calculado da
estatística do teste.
Resposta:
Note que a afirmação acima é válida apenas para distribuições simétricas. Caso a
distribuição seja assimétrica, como a Qui-quadrado ou a F, devemos calcular a
probabilidade das duas regiões extremas delimitadas pelo valor calculado da estatística
do teste, já que essas duas regiões não serão iguais.
FALSA
(3) Não se pode realizar um teste de hipótese para a variância populacional pois a
estatística do teste, que segue uma distribuição Qui-quadrado com n -1 graus de
liberdade (n é tamanho da amostra), não é simétrica.
Resposta:
É possível sim realizar testes de hipóteses para a variância populacional; aliás
isso é muito feito em economia. O fato de ser ou não simétrica não impede a realização
de um teste de hipóteses. A diferença é que teremos valores diferentes para as caudas
direita e esquerda.
O gráfico abaixo mostra a distribuição χ2 com 5 graus de liberdade. Se
desejarmos realizar um teste bicaudal para a variância, teremos que encontrar os valores
críticos tanto da cauda esquerda quanto da direita, já que esses valores não são iguais
para distribuições assimétricas.
FALSA
(4) No teste de hipótese para a média (H0: µ = 0 contra Ha: µ ≠ 0), ao nível de
significância α, se o intervalo de confiança com 1-α de probabilidade não contiver
µ = 0, não se poderá rejeitar H0.
Resposta:
Supondo que o nível de significância do teste seja α, se o intervalo de confiança
de 1-α não contiver µ = 0, a hipótese nula deverá ser rejeitada (já que o valor que está
sendo testado não pertence à região de aceitação). Nesse caso, não há evidência
suficiente de que µ seja realmente igual a zero.
Considere o gráfico abaixo. Se o valor que está sendo testado estiver na região
mais escura, que é a região de aceitação, então H0 não pode ser rejeitada. Se estiver na
região mais clara, que é a região de rejeição, então H0 deve ser rejeitada.
FALSA
(ANPEC 2001, 05) Ao testar a significância do coeficiente angular ß de um modelo de

regressão linear simples encontrou-se valor-p = 3x10-3. Pode-se afirmar que:
(0) O erro tipo II será igual a 3x10 −3 .

Resposta:
O valor-p é a probabilidade exata de cometer o erro do tipo I, ou seja, de
rejeitar a hipótese nula quando ela é verdadeira e, portanto, nesse caso, o erro do tipo I é
que será igual a 3× 10-3. Para podermos calcular o erro do tipo II precisamos conhecer o
valor verdadeiro de β, o que, em geral, não é de conhecimento do pesquisador (pois se
fosse, não precisaríamos estimar β).
FALSA
(1) A probabilidade de o verdadeiro valor do parâmetro encontrar-se no intervalo

βˆ ± 2 S βˆ é 99,7%.
Resposta:
A probabilidade do verdadeiro valor do parâmetro encontrar-se nesse intervalo é
de 0 ou 1 (já que este valor estará ou não estará contido nesse intervalo). Além disso, o
intervalo βˆ ± 2 S βˆ é de 95% de confiança. Esta é uma "regra de bolso" para construir
um intervalo aproximado com 95% de confiança para a média (mas será uma
aproximação pobre se o tamanho da amostra for pequeno). O significado do coeficiente
de confiança de 95% é que, se construíssemos várias vezes esse intervalo, em 95% das
vezes ele conteria o valor verdadeiro de β̂ .
FALSA
(2) O mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada é
3x10 −3 .
Resposta:
Como já vimos, o valor-p é o nível de significância exato do teste, ou seja, o
nível mais baixo ao qual podemos rejeitar a hipótese nula; e nesse caso, é de fato igual a
3× 10-3.
VERDADEIRA
(3) O coeficiente é significante a 99% de confiança.

Resposta:
Apesar de não ser muito usual, essa linguagem é também válida. Se o valor-p do
teste é de 0,003 (0,3%), podemos dizer que o coeficiente é significante a 1%, ou, ele é
significante a 99% de confiança, (1 – 0,01)×100%.
VERDADEIRA
(4) A potência do teste é definida por (1 – 0,003).

Resposta:
A potência (ou poder) do teste é a probabilidade de não cometer o erro do tipo
II (1 - probabilidade de cometer o erro do tipo II), ou seja, rejeitar a hipótese nula
quando realmente ela for falsa. O valor de (1-0,003) seria o coeficiente do intervalo de
confiança.
FALSA
(ANPEC 2001, 06) Em relação ao intervalo de confiança estatístico pode-se afirmar:

(0) Utiliza-se a distribuição normal z padronizada para estimar-se o intervalo de
confiança da média populacional somente quando a população for normalmente
distribuída.
Resposta:
Pelo Teorema do Limite Central, sabemos que qualquer que seja a distribuição
da população, a sua média amostral será normalmente distribuída com média µ e
σ 2
variância dada por , desde que a amostra seja aleatória e suficientemente grande.
n
Portanto, podemos utilizar a distribuição normal padronizada para estimarmos o
intervalo de confiança da média populacional, qualquer que seja a distribuição da
população, desde que tenhamos uma amostra suficientemente grande.
FALSA
(1) Emprega-se um fator de correção para a estimativa do desvio-padrão quando a

população é finita, ou a amostra é extraída sem reposição.
Resposta:
O fator de correção para estimarmos o desvio-padrão (e conseqüentemente a
variância) é utilizado quando a população é finita e a amostra é extraída sem reposição,
já que nesse caso, à medida que forem sendo retirados os elementos dessa população, a
variância dos que restaram será alterada. Se a população for finita mas a amostra for
extraída com reposição, isso não acontecerá e o fator de correção não precisará ser
utilizado. Já no caso de uma população que é infinita e a amostra é retirada sem
reposição, esse fator também não é necessário.
FALSA
(2) Para aumentar a precisão de uma estimativa por intervalo, o pesquisador deve
aumentar o intervalo de confiança de 95% para 99%, por exemplo.
Resposta:
Para aumentar a precisão de uma estimativa por intervalo, o pesquisador deve
aumentar o tamanho da amostra. Aliás, aumentar o intervalo de confiança de 95% para
99% irá diminuir a precisão da estimativa por intervalo, já que os valores críticos para
níveis de confiança maiores também serão maiores e, sendo assim, a margem de erro
será maior.
FALSA
(3) Aumentando-se o tamanho da amostra, aumenta-se a precisão de uma estimativa por

intervalo.
Resposta:
Considere o intervalo de confiança para a média populacional:
σ
IC = x ± z
n
Se aumentarmos o tamanho da amostra, estaremos diminuindo a margem de

erro, que é dada por:
σ
margem de erro = z ×
n
σ
À medida que n aumenta, diminui e, portanto, a margem de erro também
n
diminui, ou seja, a estimativa por intervalo torna-se mais precisa.
VERDADEIRA
(4) Sendo x = 14 a média de uma amostra aleatória de 36 elementos extraída de uma
população normal cujo desvio padrão é σ = 2, o intervalo de confiança da média
populacional, a 95%, será 14 ± 0,55. Use a tabela da distribuição Normal em
anexo.
Resposta:
Como queremos um intervalo com 95% de confiança, temos que consultar a
tabela da distribuição normal para área igual a 0,475, cujo valor é de 1,96.

x−µ
= 1,96
σ
n
14 − µ
= 1,96
2
36
1
14 − µ = 1,96×
3
14 − µ ≅ 0,65
Portanto, o intervalo com 95% de confiança para a média populacional será dado
por:
IC95% = [14 ± 0,65]
FALSA
(ANPEC 2001, 07) Sobre testes de hipóteses, pode-se afirmar que:
(0) O erro do tipo I consiste em rejeitar a hipótese nula quando ela é verdadeira.
Resposta:
Como já vimos anteriormente, esta é realmente a definição do erro do tipo I
("condenar um inocente").
VERDADEIRA
(1) Nível de significância é a probabilidade de se cometer erro do tipo II.

Resposta:
O nível de significância de um teste é a probabilidade de se cometer o erro do
tipo I, ou seja, rejeitar a hipótese nula quando de fato ela é verdadeira ("condenar um
inocente") e seu valor é predeterminado pelo pesquisador.
FALSA
(2) Por potência do teste entende-se a probabilidade de se rejeitar a hipótese nula

quando esta for falsa.
Resposta:
A potência (ou poder) de um teste é exatamente a probabilidade de não cometer
o erro do tipo II, ou seja, rejeitar a hipótese nula quando esta for realmente falsa.
VERDADEIRA
(3) A opção pelo teste unilateral ou bilateral decorre da expectativa teórica sobre o
parâmetro que estiver sendo testado.
Resposta:
Se tivermos alguma idéia sobre a direção em que o valor verdadeiro difere do
valor que está sendo testado, utilizamos o teste unilateral. Caso contrário, utilizamos o
teste bilateral.
VERDADEIRA
(4) Um intervalo de confiança de 100(1-α)% também pode ser utilizado para o teste de
significância de um parâmetro populacional, caso o teste seja bilateral.
Resposta:
Se construirmos um intervalo de confiança para a média podemos utilizá-lo
para testar hipóteses. Nesse caso, o intervalo de confiança é chamado de região de
aceitação do teste, e a hipótese nula será aceita se o valor testado estiver dentro dessa
região e será rejeitada caso contrário. Note que, se o intervalo de confiança ou o teste de
hipótese for para a proporção, isto não é exatamente válido, já que as variâncias em
cada caso serão diferentes.
VERDADEIRA
(ANPEC 2000, 05) Dadas as seguintes afirmativas sobre testes de hipóteses, é correto
dizer que:
(0) A probabilidade do erro tipo I é calculada utilizando-se a estatística de teste, para
cujo cálculo presume-se que a hipótese nula é falsa.
Resposta:
A probabilidade (máxima) do erro tipo I é definida a priori pelo pesquisador, ou
seja, ela não precisa ser calculada. O que podemos calcular utilizando a estatística do
teste, é o valor-p, ou seja, a probabilidade exata de cometer o erro do tipo I (rejeitar a
hipótese nula quando ela é verdadeira).
FALSA
(1) Uma vez definida a região de confiança para um determinado parâmetro da

população, várias hipóteses nulas podem ser testadas utilizando-se este intervalo de
confiança.
Resposta:
Dado que construímos um intervalo de confiança para determinado parâmetro,
podemos testar várias hipóteses nulas a respeito desse parâmetro, já que podemos
escolher vários valores para serem testados. E como o intervalo de confiança contém
mais de um valor, várias hipóteses nulas poderão ser aceitas.
VERDADEIRA
(2) Quanto maior o p-valor, maior a credibilidade da hipótese alternativa.

Resposta:
Quanto maior o p-valor, menor a credibilidade da hipótese alternativa. Suponha,
por exemplo, que estejamos realizando um teste e escolhemos 5% de significância. Se o
p-valor for 2%, poderemos rejeitar a hipótese nula (alta credibilidade da hipótese
alternativa). Mas se o p-valor for de 50%, a hipótese nula não poderá ser rejeitada
(baixa credibilidade da hipótese alternativa). Veja também, questão 02/2004, item (0).
FALSA
(3) A aceitação de determinada hipótese nula implica que esta hipótese seja verdadeira.
Resposta:
A aceitação de determinada hipótese nula não implica que esta hipótese seja
realmente verdadeira. O que podemos dizer é que, dada a informação disponível, não é
possível contestar tal hipótese.
FALSA
(4) O poder de um teste é a probabilidade de se rejeitar a hipótese nula quando esta for
falsa.
Resposta:
O poder de um teste é a probabilidade de não cometer o erro do tipo II, ou seja,
rejeitar a hipótese nula quando realmente ela é falsa.
VERDADEIRA
(ANPEC 2000, 09) Uma urna contém bolas azuis e bolas verdes. Para testar a hipótese
de que a proporção de bolas azuis é igual a proporção de bolas verdes, obteve-se uma
amostra de 64 bolas, com reposição, anotando-se as cores das bolas retiradas e
adotando-se a seguinte regra: aceitar a hipótese de que a urna possui iguais proporções
de bolas azuis e verdes se forem retiradas entre 28 e 36 (inclusive os extremos) bolas de
uma mesma cor; rejeitá-la caso contrário. Calcule a probabilidade de se cometer um erro
do tipo I. (Multiplique o resultado por 100 e arredonde).
Solução:
As hipóteses nula e alternativa desse teste são:
H0: p = 0,5
H1: p ≠ 0,5
A variância da proporção amostral será dada por:

pˆ (1 − pˆ ) 0,5 × 0,5 0,25
var( pˆ ) = = =
n 64 64
E o desvio-padrão:
0,25 0,5
dp ( pˆ ) = = = 0,0625
64 8
O critério para que se aceite a hipótese nula é que sejam retiradas de 28 a 36

bolas da mesma cor (inclusive). Isso significa que a região de aceitação do teste será:
R.A.[0,4375;0,5625]
Já que:
28 36
= 0,4375 e = 0,5625
64 64
E a margem de erro, dessa forma, é igual a 0,0625 (0,5 + 0,0625 = 0,5625 e 0,5 - 0,0625
= 0,4375). Isso significa que:
0,0625 = z × 0,0625
0,0625
z= =1
0,0625
Portanto, procuramos na tabela da distribuição normal a probabilidade associada a esse

valor crítico (1), que é de 0,341345. Subtraindo esse valor de 0,5 (e multiplicando por 2,
já que se trata de um teste bicaudal e a distribuição é simétrica), encontramos a
significância do teste, que é de aproximadamente 32%.
(ANPEC 1999, 07) O candidato X a governador de certo estado afirma que detém mais
de 45% das intenções de voto do eleitorado na próxima eleição. Para verificar a
veracidade da informação, o candidato Y mandou realizar um levantamento estatístico
utilizando, para tanto, uma amostra aleatória de 625 eleitores. O resultado do
levantamento foi o seguinte:
Candidato X Y Outros Total

Número de votos 255 265 105 625
Com as informações dadas, podemos concluir que:
(0) A afirmação do candidato X é verdadeira com base num teste de hipóteses, para um
nível de significância de 5%.
Resposta:
As hipóteses nesse caso são:
H0: p = 0,45
H1: p < 0,45
Como é um teste monocaudal, a 5% de significância, temos que o valor crítico é de

1,645:
A variância da proporção amostral será dada por:

p̂ × (1 − p̂) 0,45 × 0,55
var( p̂ ) = = ≅ 0,000396
n 625
E o desvio-padrão será, portanto:

dp( pˆ ) = 0,000396 ≅ 0,0004 = 0,02
Temos então que:

p̂ − p
= 1,645
dp(p̂)
p̂ − 0,45
= 1,645
0,02
p̂ − 0,45 = 1,645 × 0,02
p̂ − 0,45 ≅ 0,033
Como é um teste monocaudal, a região de aceitação será dada por:

R.A. = [0,417; ∞ [
255
E como o valor que foi encontrado na amostra (0,408 = ) não pertence à região de
625
aceitação, podemos rejeitar a hipótese nula a 5% de significância, isto é, a afirmação do
candidato X não é verdadeira.
FALSA
(1) Com uma confiança de 90%, o intervalo de confiança para a verdadeira proporção
de intenções de voto para o candidato Y é (39%; 46%), arredondando para números
inteiros as percentagens encontradas.
Resposta:
Com 90% de confiança temos que z = 1,645:
E a proporção encontrada na amostra para as intenções de voto para o candidato Y

é de:
265
p̂ = = 0,424
625
A variância será então:
p̂ × (1 − p̂) 0,424 × 0,576

var( p̂ ) = = ≅ 0,00039
n 625
E o desvio-padrão:
dp( pˆ ) = 0,00039 ≅ 0,0004 = 0,02
Dessa forma:
p̂ − p
= 1,645
dp(p̂)
0,424 − p
= 1,645
0,02
0,424 − p = 1,645 × 0,02
0,424 − p = 0,0329
0,424 + 0,0329 ≅ 0,46

0,424 - 0,0329 ≅ 0,39
Portanto, o intervalo com 90% de confiança para a verdadeira proporção de votos para o
candidato Y será dado por:
IC90% = [39%; 46%]
VERDADEIRA
(2) Com a mesma confiança de 90%, o intervalo estimado para a verdadeira proporção
de intenções de voto para o candidato X é (38%; 44%), arredondando para números
inteiros as percentagens encontradas.
Resposta:
A proporção amostral de votos para o candidato X, como já vimos é de 40,8%.
Portanto, a variância amostral será dada por:

p̂ × (1 − p̂) 0,408 × 0,592
Var( pˆ ) = = ≅ 0,00039
n 625
E o desvio-padrão:
dp( pˆ ) = 0,00039 ≅ 0,0004 = 0,02
Como o intervalo é novamente com 90% de confiança, temos que o valor crítico é
de 1,645. Portanto:
p̂ − p
= 1,645
dp(p̂)
0,41 − p
= 1,645
0,02
0,41 − p = 1,645 × 0,02
0,41 − p = 0,0329
0,41 + 0,0329 ≅ 44%

0,41 - 0,0329 ≅ 38%
O intervalo com 90% de confiança será dado então por:
IC90% = [38%; 44%]
VERDADEIRA
(3) A afirmação de que o candidato Y detém mais de 42% das intenções de voto é
verdadeira, com base num teste de hipóteses com nível de significância de 1%.
Resposta:
Nesse caso, as hipóteses são:
H0: p = 0,42
H1: p > 0,42
Com 1% de significância, temos que o valor crítico é de 2,33.
A variância amostral será dada por:
p̂ × (1 − p̂) 0,42 × 0,58

var( p̂ ) = = ≅ 0,00039
n 625
E o desvio-padrão:
dp( pˆ ) = 0,00039 ≅ 0,02
Portanto:
p̂ − p
= 2,33
dp(p̂)
p̂ − 0,42
= 2,33
0,02
p̂ - 0,42 = 2,33 × 0,02
p̂ - 0,42 = 0,0466
0,42 + 0,0466 ≅ 0,47

0,42 - 0,0466 ≅ 0,37
R.A. = ]- ∞ ; 47%]
Como a proporção encontrada na amostra (42,4%) pertence à R.A., não podemos
rejeitar a hipótese nula, ou seja, a afirmação não pode ser contestada a 1% de
significância.
FALSA
(ANPEC 1999, 08) Deseja-se estimar o faturamento médio, µ , de uma empresa. A

informação que se tem é de que o desvio padrão dos valores das faturas desta empresa é
de R$25,00. Se existem 500 faturas desta empresa, encontre o tamanho da amostra
necessário para estimar, µ, com um limite sobre o erro de estimação de R$5,00.
Considere somente a parte inteira da resposta.
Anulada
Solução:
Esta questão foi anulada, pois não foi fornecido o nível de confiança. Considerando que
fosse pedido um intervalo de 95% de confiança e houvesse um número ilimitado de
faturas (isto é, bem maior do que 500), de modo que a população pudesse ser
considerada infinita, teríamos um valor crítico de 1,96:
Portanto:
x−µ
= 1,96
σ
n
A margem de erro será dada então por:

25
Margem de erro: 1,96 ×
n
E, como essa margem deve ser de 5:

25
1,96 × =5
n
49
=5
n
49
n =
5
n = 9,8
Elevando ao quadrado os dois lados da equação:
( n) 2
= (10)2
n = 96,04
Dessa forma, o tamanho da amostra necessário para estimarmos µ com uma
margem de erro de R$5,00 é de 96.
(ANPEC 1999, 10) Com relação a teoria de Teste de Hipóteses, pode-se afirmar que :
(0) Se o objetivo é testar a hipótese Nula , H 0 : θ = θ 0 , contra a hipótese Alternativa de

θˆ − θ 0
que, H a : θ ≠ θ 0 , então deve-se rejeitar H 0 quando > C1−α onde, o
dp(θ 0 ) 2
valor crítico, C1−α , é determinado da distribuição t-Student ou da distribuição

2
Normal em função do nível de significância α .
Resposta:
Tudo está correto se for, por exemplo, um teste para a média, em que a
distribuição é simétrica, mas isto não é especificado no enunciado. O parâmetro θ
poderia ser, por exemplo, a variância, e o procedimento seria, então, diferente.
FALSA
(1) Um teste de hipótese é dito o mais poderoso se tem o maior poder do que qualquer
outro teste, ainda que os níveis de significâncias sejam diferentes.
Resposta:
Dado um nível de significância, um teste é dito o mais poderoso se tiver o
maior poder que qualquer outro. Não se pode comparar o poder de dois testes que
possuam níveis de significâncias (ou tamanhos) diferentes, já que, dado o tamanho da
amostra, quando aumentamos o nível de significância, diminuímos a probabilidade de
cometer o erro do tipo II (β) e, portanto, aumentamos o poder do teste ( que é dado por
1–β).
FALSA
(2) Um teste de hipótese é não-viciado se seu poder é maior ou igual do que a

probabilidade do erro do tipo I para todos os valores dos parâmetros.
Resposta:
Assim como os estimadores possuem algumas propriedades desejáveis, os testes
de hipóteses também. E uma dessas propriedades desejáveis é que o teste seja não
viesado(ou não viciado). Isso ocorre quando o poder do teste for maior ou igual a seu
nível de significância, ou seja, quando ele rejeita a hipótese nula mais freqüentemente
quando ela é falsa que quando ela é verdadeira.
VERDADEIRA
(3) A estatística t-Student é utilizada nos testes de hipóteses para a média populacional
quando a variância dos elementos da população, σ 2 ,não é conhecida.
Resposta:
Quando a variância não é conhecida, ou seja, quando ela tem que ser estimada, e
a amostra é pequena, a distribuição t de Student é a utilizada nos testes para a média
populacional. Note, porém, que quando a amostra for grande, não fará diferença utilizar
a distribuição normal ou a t, já que esta última se aproxima da normal padronizada à
medida que o tamanho da amostra aumenta.
VERDADEIRA
(ANPEC 1998, 09) Uma máquina está sendo examinada com o objetivo de substituir a
máquina antiga de certa indústria. Segundo o fabricante da nova máquina, a proporção
(P) de peças defeituosas produzida é de 3% ou menos. Uma amostra de 2.000 peças foi
examinada e foram encontradas 74 peças defeituosas.
(0) As hipóteses para um teste estatístico de hipóteses devem ser

H0: P = 0,03 e HA: P < 0,03.
Resposta:
As hipóteses para este teste devem ser:
H0: P = 0,03
HA: P > 0,03
A afirmação do fabricante é que a proporção de peças defeituosas é de no

máximo 3%. Portanto, a hipótese alternativa deve contestar esta afirmação, ou seja,
deve postular que a proporção de peças defeituosas é maior que 3%.
FALSA
(1) Ao realizarmos o teste de hipóteses para o problema, ao nível de significância de

5%, a hipótese nula deve ser rejeitada.
Resposta:
Lembrando que as hipóteses para este teste devem ser:
H0: P = 0,03
H1: P > 0,03
74
A proporção de peças defeituosas encontrada na amostra é de 0,037 = .
2000
Como queremos 5% de significância, o valor crítico será de 1,645.
Nesse caso, a variância da proporção amostral será:

Pˆ × (1 − Pˆ ) 0,03 × 0,97
var( P̂ ) = = ≅ 0,0000145
n 2000
E o desvio-padrão:
dp( P̂ ) = 0,0000145 ≅ 0,0038
Dessa forma:
Pˆ − P
= 1,645
dp ( Pˆ )
Pˆ − 0,03
= 1,645
0,0038
Pˆ − 0,03 = 1,645× 0,0038
Pˆ − 0,03 = 0,006251
Portanto, a região de aceitação será dada por:

R.A. = ]- ∞ ; 3,62%]
Como o valor obtido da amostra, 3,7%, não pertence à região de aceitação, a hipótese
nula deve ser rejeitada, ou seja, a afirmação do fabricante de que a máquina produz no
máximo 3% de peças defeituosas é falsa.
VERDADEIRA
(2) Utilizando a proporção de peças defeituosas encontradas na amostra, a

estimativa por intervalo para a verdadeira proporção de peças defeituosas
produzida pela nova máquina, utilizando uma confiança de 95%, é ( 2,87%;
4,53%).
Resposta:
Com 95% de confiança, o valor crítico será de 1,96.
A variância será dada por:

Pˆ × (1 − Pˆ ) 0,037 × 0,963
var( P̂ ) = = ≅ 0,000018
n 2000
E o desvio-padrão:
dp( P̂ ) = 0,000018 ≅ 0,0042
Pˆ − P
= 1,96
dp ( Pˆ )
0,037 − P
= 1,96
0,0042
0,037 − P = 1,96× 0,0042
0,037 − P ≅ 0,008232
0,037 + 0,008232 = 4,5232%

0,037 - 0,008232 = 2,8768%
Portanto, o intervalo com 95% de confiança será dado por:
IC95% = [4,53%; 2,87%]
VERDADEIRA
(3) Admitindo que a verdadeira proporção de peças defeituosas seja 3%, seria
necessário uma amostra de 3.000 peças para que o erro máximo admissível entre a
proporção estimada e a verdadeira não excedesse a 1%, com probabilidade de 95%.
Resposta:
Para 95% de confiança, temos que:
Pˆ − 0,03
= 1,645
dp( Pˆ )
Pˆ − 0,03 = 1,645× dp( P̂ )
Sabemos que o desvio-padrão é a raiz quadrada da variância. Portanto:
Pˆ (1 − Pˆ ) 0,03 × 0,97 0,0291

dp( P̂ ) = = =
n n n
0,0291
Portanto, a margem de erro será dada 1,645× . E como ela não pode exceder
n
1%, temos que:
0,0291
1,645× = 0,01
n
0,0291 0,01
=
n 1,645
0,0291
≅ 0,00608
n
Elevando ao quadrado:
0,0291
= 0,000037
n
0,0291
n= = 786,49
0,000037
Portanto, seria necessária uma amostra com 787 peças para que o erro máximo fosse de
1%.
FALSA
(4) Se as probabilidade de que um intervalo de confiança contenha o verdadeiro

parâmetro populacional θ é igual a (1 - α), isto significa que se retirássemos um
número infinito de amostras da população em estudo e se para cada uma das
amostras calculássemos o intervalo de confiança do parâmetro θ, então em (1 - α)%
destes intervalos conteriam o verdadeiro parâmetro θ.
Resposta:
É exatamente esse o significado do intervalo de confiança. Uma vez construído,
não se pode dizer que a probabilidade deste intervalo conter o verdadeiro parâmetro é de
(1-α)× 100%: ou ele contém ou não contém (portanto a probabilidade seria de 1 ou 0).
Cabe notar, porém, que no enunciado da questão faltou multiplicar por 100 a
expressão (1-α), para que esta realmente fosse dada em porcentagem.
VERDADEIRA
Regressão Linear
(ANPEC 2005, 10) A respeito do modelo de regressão múltipla:
Yi = β 0 + β1 X 1i + β 2 X 2i + ei
em que ei tem média zero e variância σ 2 , são corretas as afirmativas:

(0) No caso de uma forte colinearidade entre X 1i e X 2i , tende-se a aceitar a hipótese
nula de que β 2 = 0 , pois a estatística t é subestimada.
Resposta:
Quando existe alta colinearidade entre as variáveis independentes de um modelo
de regressão, os desvios-padrão dos parâmetros são geralmente altos, o que significa
que as estimativas têm pouca precisão (quanto maior a variância, menos preciso será o
estimador). Dessa forma, as estatísticas t serão baixas (já que são calculadas dividindo-
se o coeficiente por seu respectivo desvio-padrão), indicando possivelmente a
insignificância dos parâmetros.
A variância do coeficiente de inclinação j é dada por (veja Wooldridge, p.96):
σ2
var( βˆ j ) = n
∑x
i =1
2
ij ×(1 − R 2j )
2 2
onde R é o R de uma regressão entre xj e todas as outras variáveis independentes do
j
modelo original (incluindo o intercepto). Se R 2j for alto, isso significa que xj está
altamente correlacionada com uma ou mais variáveis incluídas no modelo original. E
quanto mais alto for R 2j , mantendo σ 2 e a variância de xj constantes, maior será a
variância do parâmetro estimado, e menor será a sua estatística t. Sendo assim, tende-se
realmente a aceitar a hipótese nula de que β j = 0, já que a estatística t é subestimada.
VERDADEIRA
Considere o modelo escrito na forma de desvios em relação à média:

y i = β1 x1i + β 2 x 2i + ei
O coeficiente de inclinação j pode ser escrito como:

n
∑ rˆ ji yi
βˆ j = i =1
n
∑ rˆ
i =1
2
ji
Vejamos:
Podemos escrever a variável x1i da seguinte forma:

x1i = γ 1 x 2i + r1i
x1i = xˆ1i + rˆ1i
Analogamente:
x 2i = φ1 x1i + r2i
x 2i = xˆ 2i + rˆ2i
Portanto, r ji é a “parte” de xji que não é correlacionada com as demais variáveis do

modelo (no presente caso, temos apenas uma), ou seja, r ji é xji depois de retirados os
efeitos das demais variáveis.
As condições de 1ª. ordem do método dos mínimos quadrados ordinários são dadas por:
∂SQR
(
= 2 x1i y i − βˆ1 x1i − βˆ 2 x 2i = 0 )
∂β̂ 1
∂SQR
(
= 2 x 2i y i − βˆ1 x1i − βˆ 2 x 2i = 0 )
∂β̂ 2
Substituindo, temos:
(
2( xˆ1i + rˆ1i ) y i − βˆ1 x1i − βˆ 2 x 2i = 0 ) ( )
2( xˆ 2i + rˆ2i ) y i − βˆ1 x1i − βˆ 2 x 2i = 0
(
rˆ1i y i − βˆ1 x1i = 0 ) (
rˆ2i y i − βˆ 2 x 2i = 0 )
n n
∑ rˆ 1i yi ∑ rˆ 2i yi
β̂1 = i =1
n
βˆ 2 = i =1
n
∑ rˆ
i =1
2
1i ∑ rˆ
i =1
2
2i
Já que:
n
x̂ ji não é correlacionado com ei ( ∑ xˆ ji ei = 0 );
i =1
n
r̂ ji é não correlacionado com x ki ( ∑ rˆji x ki ), com j ≠ k;
i =1
∑ (xˆ + rˆji ) rˆji = ∑ rˆji2 .

n n n
∑x
i =1
rˆ =
ji ji
i =1
ji
i =1
Substituindo agora yi em β̂ 1 :
n
∑ rˆ (β xi1 1 1i + β 2 x 2 i + ei )
β̂1 = i =1
n
∑ rˆ
i =1
2
i1
n n n
β1 ∑ rî1 x1i + β 2 ∑ rî1 x 2i + ∑ rî1ei
β̂1 = i =1
n
i =1 i =1
∑ rî =1
2
i1
n n
β1 ∑ rˆ12i ∑ rˆ e 1i i
β̂1 = n
i =1
+ i =1
n
∑ rˆ
i =1
2
i1 ∑ rî =1
2
1i
∑ rˆ e 1i i
β̂1 = β1 + i =1
n
∑ rˆ
i =1
2
1i
Calculemos então, finalmente (!), var( β̂ 1 ):
∑ rˆ e 1i i
var( β̂ 1 ) = var β1 + i =1
n
∑ rˆ
i =1
2
1i
∑ rˆ e 1i i
var( β̂ 1 ) = var i =1
n
∑ rˆ
i =1
2
1i
∑ rˆ 2
1i
var( β̂ 1 ) = i =1
2
var(ei )
n
∑ rˆ
i =1
2
1i
σ2
var( β̂ 1 ) = n
∑ rˆ
i =1
2
1i
n
Sabemos que ∑ rˆ
i =1
2
1i é a soma dos quadrados dos resíduos (SQR) da regressão de x1 em
x 2 . Dessa forma:
SQR = SQT – SQE
SQE
SQR = SQT 1 −
SQT
SQR = SQT 1 − R12 ( )
(
SQR = x12i 1 − R12 )
Onde R12 é o coeficiente de determinação da regressão de x1 em x 2 . Assim:
σ2
var( β̂ 1 ) =
∑ x (1 − R )
n
2 2
1i 1
i =1
Generalizando:
σ2
var( βˆ j ) = n
∑x i =1
2
ij (1 − R 2j )
com R 2j = coeficiente de determinação da regressão de xj em relação a todas as outras

variáveis explicativas do modelo.
(1) Se os erros são autocorrelacionados, ainda assim os estimadores de Mínimos

Quadrados Ordinários de β1 e β 2 são lineares e não tendenciosos.
Resposta:
A hipótese de não existência de autocorrelação dos erros é necessária para que os
estimadores de MQO sejam eficientes e para que os testes de hipóteses tenham validade.
Dessa forma, se os erros forem autocorrelacionados, os estimadores de MQO
continuarão sendo não tendenciosos e consistentes, a não ser que haja entre as variáveis
explicativas, a variável dependente defasada (que não é o caso). Quanto a continuarem
sendo lineares, é evidente que continuarão!
VERDADEIRA
(2) Se os erros são heterocedásticos, ainda assim os testes usuais t e F podem, sem
prejuízo algum, ser empregados para se testar a significância dos parâmetros do
modelo, caso estes sejam estimados por Mínimos Quadrados Ordinários.
Resposta:
A hipótese de homocedasticidade (variância constante dos erros) é necessária para que
os estimadores de MQO sejam eficientes e para que os testes de hipóteses tenham
validade. Assim, se os erros forem heterocedásticos, os testes t e F não serão válidos,
independentemente do tamanho da amostra.
FALSA
(3) Erros de medida da variável dependente reduzem as variâncias dos estimadores de

Mínimos Quadrados Ordinários de β̂1 e β̂ 2 .
Resposta:
Se há erros de medida da variável dependente Yi, temos que:
Yi * = Yi + ε i
onde ε i corresponde ao erro de mensuração da variável dependente.
Dessa forma, o modelo estimado com a variável Yi * será:
Yi * = β 0 + β1 X 1i + β 2 X 2i + ei + ε i
Yi * = β 0 + β1 X 1i + β 2 X 2i + (ei + ε i )
Yi * = β 0 + β1 X 1i + β 2 X 2i + µ i
O novo termo de erro µ i é composto do erro da equação (ei) mais o erro de medida da
variável Yi ( ε i ). Dessa forma, a variância de µ i será dada por:
var( µ i ) = var(ei) + var( µ i )
var( µ i ) = σ e2 + σ µ2
Que é maior que a variância do erro da regressão sem o erro de medida. E como vimos
no item anterior, a variância do estimador do coeficiente de inclinação j é dada por:
σ2
Var( βˆ j ) = n
∑x
i =1
2
ij ×(1 − R 2j )
Portanto, quanto maior a variância dos erros, maior será a variância dos coeficientes de
inclinação. E, como erros de medida na variável dependente aumentam a variância dos
erros, aumentam também as variâncias dos estimadores de mínimos quadrados
ordinários dos coeficientes de inclinação, β̂ 1 e βˆ 2 .
FALSA
(4) A omissão da variável explicativa relevante, X2, para explicar a variável

dependente, Yi, torna a estimativa dos coeficientes β0 e β1 tendenciosa e
inconsistente, se e somente se, a variável omitida X2, for correlacionada com a
variável incluída, X1.
Resposta:
A omissão de uma variável explicativa relevante torna a estimativa dos coeficientes de
inclinação viesada e inconsitente se e somente se, a variável omitida for correlacionada
com a variável incluída. Porém, mesmo que a correlação entre a variável omitida da
regressão e as variáveis incluídas seja igual a zero, a estimativa do intercepto, no caso
βˆ0 , será ainda viesada e inconsistente.
Vejamos:
Sabemos que o modelo verdadeiro é dado por:
Yi = β 0 + β1 X 1i + β 2 X 2i + ei
Com a omissão de X2, temos:
Yi = β 0 + β1 X 1i + µ i
em que:
µ i = ei + β 2 X 2 i
Para sabermos se os estimadores desse modelo são não viesados, precisamos calcular as
respectivas esperanças.
O estimador de mínimos quadrados ordinários de β 0 é dado por:
βˆ0 = Y − βˆ1 X 1
E o de β 1 :
∑x 1i yi
β̂1 = i =1
n
∑x
i =1
2
1i
onde as letras minúsculas representam as variáveis centradas.
Calculemos primeiro E( β̂ 1 ):
∑x 1i yi
E( β̂ 1 ) = E i =1
n
∑x
i =1
2
1i
n
E ∑x
i =1
1i yi
E( β̂ 1 ) = n
∑x
i =1
2
1i
n
Calculemos então E ∑x
i =1
1i yi :
∑ x1i yi = E ∑ (X 1i − X )(Yi − Y ) = E ∑ Yi (X 1i − X 1 ) − Y ∑ (X 1i − X 1 )
n n n n
E
i =1 i =1 i =1 i =1
∑ (X − X 1 ) = 0:
n
Como 1i
i =1
∑ Y (X − X1 )
n n
E ∑ x1i yi = E
i =1 i =1
i 1i
Como o modelo verdadeiro é dado por Yi = β 0 + β1 X 1i + β 2 X 2i + ei , temos:
∑ Yi (X 1i − X 1 ) = E ∑ (X − X 1 )(β 0 + β 1 X 1i + β 2 X 2i + ei )
n n
E 1i
i =1 i =1
E β 0 ∑ (X 1i − X 1 ) + β 1 ∑ (X 1i − X 1 )X 1i + β 2 ∑ (X 1i − X 1 )X 2i + ∑ (X 1i − X 1 ) ei
n n n n
i =1 i =1 i =1 i =1
E β 1 ∑ ( X 1i − X 1 )X 1i + β 2 ∑ ( X 1i − X 1 )X 2i + ∑ ( X 1i − X 1 ) ei
n n n
i =1 i =1 i =1
∑ (X − X 1 )X 1i .
n
Analisemos agora o primeiro somatório da expressão acima: 1i
i =1
Somando e subtraindo X 1 , obtemos:
∑ (X − X 1 )(X 1i − X 1 + X 1 ) = ∑ (X − X 1 ) + X 1 ∑ (X 1i − X ) = ∑ (X 1i − X 1 )
n n n n
2 2
1i 1i
i =1 i =1 i =1 i =1
Analogamente (verifique!):
∑ (X − X 1 )X 2i = ∑ (X − X 1 )(X 2i − X 2 )
n n
1i 1i
i =1 i =1
Dessa forma, temos:
y i = E β 1 ∑ ( X 1i − X 1 ) + β 2 ∑ (X 1i − X 1 )(X 2i − X 2 ) + ∑ ( X 1i − X 1 ) ei
n n n n
∑x
2
E 1i
i =1 i =1 i =1 i =1
Como X1 e X2 são não correlacionados com o termo de erro ei e a média dos erros é
igual a zero, temos:
E β 1 ∑ ( X 1i − X 1 ) + β 2 ∑ (X 1i − X 1 )(X 2i − X 2 )
n n
2
i =1 i =1
E, portanto:
E β1 ∑ (X 1i − X 1 ) + β 2 ∑ (X 1i − X 1 )(X 2i − X 2 )
n n
2
i =1 i =1
E( β̂ 1 ) = n
∑x
i =1
2
1i
∑x 1i x 2i
E( β̂ 1 ) = β 1 + β 2 i =1
n
∑x i =1
2
1i
Como β 2 ≠ 0, β̂ 1 será viesado, a menos que X1 e X2 sejam não correlacionados.
Vejamos agora o que ocorre com o intercepto:

E( βˆ0 ) = E( Y − βˆ1 X 1 )
E( βˆ ) = E( Y ) – X E( β̂ )
0 1 1
Como Y = β 0 + β1 X 1 + β 2 X 2 :
∑x 1i x 2i
E( βˆ0 ) = β 0 + β1 X 1 + β 2 X 2 - X 1 β1 + β 2 i =1
n
∑x i =1
2
1i
∑x 1i x 2i
E( βˆ0 ) = β 0 + β 2 X 2 − X 1 i =1
n
∑x i =1
2
1i
Portanto, para que βˆ0 seja não viesado, isto é, para que E( βˆ0 ) = β 0 , deve-se verificar
n
∑x 1i x 2i
que X2 − X 1
i =1
n
= 0. A não existência de correlação entre as variáveis X2 e X3
∑x
i =1
2
1i
não garante que o estimador do intercepto seja não viesado. Além disso, deve-se
verificar que X 2 seja igual a zero.
FALSA
(ANPEC 2005, 11) É dada a seguinte função de produção para determinada indústria:
ln(Yi ) = β 0 + β 1 ln( Li ) + β 2 ln( K i ) + u i ,
em que Y é o valor adicionado por firma (em reais), L é o trabalho empregado, K é o
valor do capital (em reais) e u é o termo aleatório. Uma amostra aleatória de 27
observações leva às seguintes estimativas:
ln(Y ) = 1,1755 + 0,6022 ln( L ) + 0,3856 ln( K )

i i i
27
SQR = ∑ uˆ 2 = 0,84
i
i =1
R 2 = 0,76
São corretas as afirmativas:
(0) Se Y passasse a ser medido em mil reais, somente o valor estimado do intercepto da
regressão seria alterado.
Resposta:
Se Y passasse a ser medido em mil reais, teríamos:
ln(1000Yi) = β 0 + β 1 ln(Li)+ β 2 ln(Ki) + ui

ln(1000) + ln(Yi) = β 0 + β 1 ln(Li) + β 2 ln(Ki) + ui
ln(Yi) = β 0 − ln(1000) + β 1 ln(Li) + β 2 ln(Ki) + ui
ln(Yi) = α + β 1 ln(Li) + β 2 ln(Ki) + ui
onde α = β 0 − ln(1000).
Dessa forma, mudando a escala de Y, somente o valor do intercepto seria alterado.
VERDADEIRA
(1) Ao nível de 5%, os coeficientes associados ao trabalho e ao capital são

conjuntamente iguais a zero.
Resposta:
Para verificar se os coeficientes de inclinação da regressão são conjuntamente iguais a
zero, devemos utilizar o teste F, cujas hipóteses são:
H0: β 1 = β 2 = 0
H1: pelo menos um dos β i ≠ 0, i = 1,2.
A forma R2 do teste F é dada por (veja questão ANPEC 2002, 10, item (3)):
R 2 /(k − 1) 0,76 1
F= = = 76
(1 − R ) /(n − k ) 0,24 24
2
Consultando a tabela da distribuição F com 1 grau de liberdade no numerador e 24 no
denominador, encontramos que: F1,24 = 4,26. Como o valor calculado é maior que o
valor tabelado, rejeitamos a hipótese nula a 5% de significância, ou seja, a regressão é
válida, o que significa que os coeficientes do capital e trabalho são conjuntamente
diferentes de zero.
FALSA
(2) Se o desvio padrão do estimador de β 2 for 0,0854, o intervalo de confiança a 95%

para o efeito sobre Y de um aumento de 1% no estoque de capital será
0,95 × 0,3856
.
0,0854
Resposta:
O intervalo com 95% de confiança para β 2 será dado por:
βˆ 2 − β 2
~ tn-k
dp ( βˆ 2 )
0,3856 − β 2
~t24
0,0854
β 2 = [0,3856 ± t 24 × 0,0854]
FALSA
(3) Os valores estimados permitem concluir que, para aquela indústria, a produtividade
marginal do trabalho é menor que a produtividade média do mesmo fator.
Resposta:
O modelo estimado pode ser escrito como:
Yi = γ × L0i , 6022 × K i0,3856
Já que, aplicando o logaritmo natural em ambos os lados da equação acima, temos:

ln(Yi) = ln( γ × L0i , 6022 × K i0,3856 )
ln(Yi) = ln( γ )+ 0,6022 ln(Li)+ 0,3856 ln(Ki)
ln(Yi) =1,1755+ 0,6022 ln(Li)+ 0,3856 ln(Ki)
A produtividade marginal do trabalho é dada pela derivada do produto em relação ao

trabalho:
∂Y
PMgL = = γ × 0,6022 × L−i 0,3978 × K i0,3856
∂L
E a produtividade média do trabalho:
Y γ × L0i ,6022 × K i0,3856

PMeL = = = γ × L−i 0,3978 × K i0,3856
L Li
Dessa forma, podemos concluir que:

PMgL < PMeL, já que γ × 0,6022 × L−i 0,3978 × K i0,3856 < γ × L−i 0,3978 × K i0,3856 .
VERDADEIRA
(4) Qualquer outra forma funcional que leve a um R2 maior que 0,76 será preferível à
utilizada.
Resposta:
O R2 não pode ser utilizado para comparar modelos com diferentes variáveis
dependentes. Por exemplo, se estimássemos um modelo linear para Y, o R2 nos daria a
informação de quanto da variação de Y é explicada pela variação nas variáveis
explicativas. Já no modelo log-log, o R2 nos diz quanto da variação em lnY é explicada
pela variação nas variáveis explicativas.
FALSA
(ANPEC 2005, 12) Um pesquisador estima o seguinte modelo de regressão simples:

Yi = β 0 + β1 X i + ei . Outro pesquisador estima o mesmo modelo, mas com escalas
diferentes para Yi e X i . O segundo modelo é: Yi* = β 0* + β1* X i* + ei* , em que: Yi* = w1Yi ,
X i* = w2 X i e w1 e w2 são constantes maiores que zero.
(0) Os estimadores de Mínimos Quadrados Ordinários de β 0 e β1 são iguais aos de

β 0* e β1* .
Resposta:
Sabemos que o estimador de mínimos quadrados ordinários do coeficiente de inclinação
β1 é dado por:
∑x y i i
β̂1 = i =1
n
∑x
i =1
2
i
onde:
xi = (Xi – X )
yi = (Yi – Y )
Dessa forma:
n
∑x y * * ∑w x w y2 i 1 i
βˆ * = = i =1
∑x
1 *2 n
∑ (w x )
2
2 i
i =1
Como w1 e w2 são constantes:

n
w1 w2 ∑ xi y i
βˆ1* = i =1
n
w22 ∑ xi2
i =1
n
w1 ∑ xi y i
βˆ1* = i =1
n
w2 ∑ xi2
i =1
w1
βˆ1* = β̂1
w2
E o estimador de MQO do intercepto β 0 é:
βˆ0 = Y − β̂1 X
Dessa forma:
βˆ0* = Y * − βˆ1* X *
w1 ˆ
βˆ0* = w1Y − β 1 w2 X
w2
βˆ0* = w1Y − w1 β̂1 X
βˆ0* = w1 (Y − βˆ1 X )
βˆ0* = w1 β̂ 0
Portanto, os estimadores de mínimos quadrados ordinários de β 0 e β1 não são iguais

aos de β 0* e β1* .
FALSA
(1) Se σˆ *2 é a variância estimada de ei* e σ̂ 2 é a variância estimada de ei , então

σˆ *2 = w12σˆ 2 .
Resposta:
Sabemos que a variância dos resíduos é dada por:
n
SQR
∑ ei2
σ̂ 2 = = i =1
n−2 n−2
Dessa forma:
n
∑e *2
i
σ̂ *2 = i =1
n−2
Como ei* = w1ei , temos:

n
∑ (w e ) 1 i
2
σ̂ *2 = i =1
n−2
n
w12 ∑ ei2
σ̂ *2 = i =1
n−2
σ̂ *2 = w12σ̂ 2
VERDADEIRA
(2) As variâncias dos estimadores dos parâmetros do primeiro modelo são maiores do
que as variâncias dos estimadores do segundo modelo.
Resposta:
A variância de β̂ 1 (coeficiente de inclinação) é dada por:
σˆ 2
Var( β̂ 1 ) = n
∑ xi2 i =1
E de βˆ1* :
ˆ σˆ *2
Var( β )=
*
1 n
∑x
i =1
*2
i
Como vimos no item anterior, σ̂ *2 = w12σ̂ 2 . Substituindo:

w12σˆ 2
Var( βˆ1* )= n
∑ (w x )
2
2 1
i =1
2
w1
Var( βˆ )=
*
1 var(βˆ1 )
w2
Já a variância do estimador do intercepto βˆ0 é dada por:

n
∑X i
2
Var( βˆ0 ) = σ̂ 2 i =1
n
n∑ xi2
i =1
E a variância de βˆ0* :
n
∑X *2
i
Var( βˆ0* ) = σ̂ *2 i =1
n
n∑ xi*2
i =1
Substituindo:
n
∑ (w 2 Xi )
2
Var( βˆ0* ) = w12σ̂ 2 i =1

n
n ∑ (w 2 x i )
2
i =1
Var( βˆ0* ) = w12 var βˆ 0 ( )

Sabemos que w1 e w2 são constantes maiores que 0. Para saber quais das variâncias são
maiores, precisamos saber os valores destas constantes:
w1 > w2 w1 < w2 w1 = w2
var( βˆ0 )<var( βˆ0* ) var( βˆ0 )<var( βˆ0* ) var( βˆ0 )<var( βˆ0* )
w1>1
var( β̂ ) <var( βˆ * )
1 1 var( β̂ ) >var( βˆ * )
1 1 var( β̂ ) =var( βˆ * )
1 1
var( βˆ0 )>var( βˆ0* ) var( βˆ0 )>var( βˆ0* ) var( βˆ0 )>var( βˆ0* )
w1<1
var( β̂ ) <var( βˆ * )
1 1 var( β̂ ) >var( βˆ * )
1 1 var( β̂ ) =var( βˆ * )
1 1
Assim, as variâncias dos estimadores dos parâmetros do primeiro modelo apenas serão
maiores do que as do segundo se w1 < 1 e w1 < w2.
FALSA
(3) Os coeficientes de determinação são iguais nos dois modelos.

Resposta:
O coeficiente de determinação do primeiro modelo é dado por:
n
SQR
∑e 2
i
R2 = 1 − = 1− i =1
n
SQT
∑y
i =1
2
E do segundo:
n n
∑ (w1ei )2 ∑e 2
i
R*2 = 1 − i =1
n
=1 − i =1
n
= R2
∑ (w y ) ∑y
2 2
1
i =1 i =1
VERDADEIRA
(4) A transformação de escala de ( Yi , X i ) para (Yi* , X i* ) não afeta as propriedades dos

estimadores de Mínimos Quadrados Ordinários dos parâmetros.
Resposta:
A transformação de escala nas variáveis não afeta nenhuma hipótese do modelo de

regressão linear e, portanto, as propriedades dos estimadores continuam válidas.
VERDADEIRA
(ANPEC 2005, 14) Considere o seguinte modelo para a população: Y = 2 + 4X – 5Z +
u, em que u é o termo aleatório e E (u | X , Z ) = E (u ) = 0 . A partir de uma amostra de n
indivíduos, estimaram-se os parâmetros deste modelo, tendo, todavia, sido omitida a
variável Z. Ou seja, o modelo estimado foi: Yî = θˆ 0 + θˆ 1 X i . Suponha ainda que, para
amostra em questão, tenham sido obtidos os seguintes resultados:
n
∑ (Z i − Z )( X i − X )
1 n 1 n
i =1
n
= 0,7 , em que X = ∑ i
n i =1
X e Z = ∑ Zi .
n i =1
∑(X
i =1
i − X )2
( )
Calcule E θˆ1 | X . Multiplique o resultado por 10.
Solução:
Como θˆ1 é o estimador do coeficiente de inclinação em uma regressão linear simples,

temos que:
n
∑x y i i
E( θˆ1 ) = E i =1
n
∑x
i =1
2
i
Lembrando que as letras minúsculas representam desvios em relação à média (por

exemplo: xi = X i − X ).
Sabemos que Yˆ = 2 + 4X – 5Z. Escrevendo na forma de desvios em relação à média:
Yî = 2 + 4 X i − 5Z i
−
Y = 2 + 4 X − 5Z
y i = 4 xi − 5 z i
Substituindo yi em E( θˆ1 ), teremos:
∑ x (4 xi i − 5zi )
E( θˆ1 ) = E i =1
n
∑x
i =1
2
i
∑ 4x 2
i − 5 z i xi
E( θˆ1 ) = E i =1
n
∑x i =1
2
i
n n
∑ xi2 ∑z x i i
E( θˆ1 ) = E 4 i =1
n
−5 i =1
n
∑x
i =1
2
i ∑x
i =1
2
i
∑ (Z − Z )(X i − X )
n
i
E( θˆ1 ) = E 4 − 5 i =1
∑ (X − X)
n
2
i
i =1
∑ (Z i − Z )( X i − X )
Como i =1
n
= 0,7 , temos:
∑(X
i =1
i − X) 2
E( θˆ1 ) = E (4 − 5 × 0,7 )
E( θˆ1 ) = 4 – 3,5
E( θˆ1 ) = 0,5
Multiplicando por 10 como pede o exercício, chegaremos ao valor de 05.

(ANPEC 2004, 11) Considere o modelo de regressão linear múltipla para dados
seccionais:
yi = β 0 + β1 x1i + β 2 x2i + + β k xki + ui , i = 1, … , n.

(0) Para que os estimadores de mínimos quadrados sejam lineares não-tendenciosos de
menor variância (BLUE) é necessário que os erros sejam homocedásticos.
Resposta:
O teorema de Gauss-Markov garante que os estimadores de mínimos quadrados
ordinários são MELNV - melhores estimadores lineares não viesados (ou BLUE - best
linear unbiased estimator), desde que as seguintes hipóteses sejam satisfeitas
(conhecidas como hipóteses de Gauss-Markov):
(I) E(ui) = 0, os erros têm média zero;
(II) E(xjiui) = 0, nenhuma variável explicativa é correlacionada com o termo de erro;
(III) Var(ui) = σ2, a variância dos erros é constante (homocedasticidade);
(IV) E(uiuj) = 0, os erros não são autocorrelacionados.
Portanto, a hipótese de homocedasticidade é necessária sim para que os estimadores
de MQO sejam lineares não-tendenciosos de menor variância. Para a demonstração do
teorema de Gauss-Markov, consulte Sartoris (2003, p. 284-285) ou Pindyck e Rubinfeld
(1998, p. 110-111).
VERDADEIRA
(1) A hipótese que Var (u i | x1i , x 2i ,…, x ki ) = σ 2 , i = 1, …, n , é necessária para que os

estimadores de mínimos quadrados sejam não-tendenciosos.
Resposta:
Para que os estimadores sejam não tendenciosos, bastam as duas primeiras hipóteses
elencadas no item anterior, ou seja, a média dos erros é zero e as variáveis explicativas
são não correlacionadas com o termo de erro. Dessa forma, ainda que a variância dos
erros não seja constante, os estimadores de MQO continuarão sendo não tendenciosos (e
consistentes). A hipótese de homocedasticidade é necessária para que os estimadores
sejam eficientes e para realizar inferência estatística com o modelo de regressão linear.
FALSA
(2) As estatísticas t e F continuam válidas assintoticamente mesmo que os erros da

regressão sejam heterocedásticos.
Resposta:
Quando há heterocedasticidade, os estimadores das variâncias são viesados e
inconsistentes, invalidando as estatísticas t e F mesmo assintoticamente.
FALSA
(3)Se Cov( x1i , x3i ) ≠ 0, i = 1,… , n , os estimadores de mínimos quadrados ordinários da

regressão yi = β 0 + β1 x1i + β 2 x2i + β 4 x4i + + β k xki + ui , i = 1,…, n , serão
consistentes.
Resposta:
Em primeiro lugar, há que se notar que se a covariância entre x1i e x3i for diferente de
zero (multicolinearidade), nenhuma hipótese do modelo clássico de regressão linear
estará sendo violada (a hipótese é de não existência de multicolinearidade perfeita) e,
portanto, os estimadores de MQO manterão as propriedades desejáveis de um
estimador. Isso poderia nos levar a concluir que a afirmativa é verdadeira. Porém, note
que a variável x3i não está incluída no modelo de regressão. Dessa forma, temos o
problema de omissão de variável relevante (ou subespecificação do modelo), o que
causa viés e inconsistência nos estimadores de MQO. A omissão de uma variável
relevante não causaria viés e inconsistência nos estimadores apenas se a variável
omitida fosse não correlacionada com todas as outras variáveis incluídas no modelo, o
que não ocorre, já que cov(x1i , x3i) ≠ 0.
FALSA
(4)Se Cov( x1i , x3i ) = 0, i = 1,…, n os estimadores de mínimos quadrados ordinários da

regressão yi = β 0 + β1 x1i + β 2 x2i + β 4 x4i + + β k xki + ui , i = 1,…, n , serão
consistentes.
Resposta:
A variável x3i está novamente omitida do modelo. Agora temos a informação que
a cov(x1i, x3i) = 0. Isso poderia nos levar a concluir que a omissão da variável x3i não
causa viés e inconsistência nos estimadores de MQO. Há que se notar, porém, que nada
foi dito a respeito da covariância entre variável x3i e as outras variáveis do modelo. E se
essas covariâncias não forem iguais a zero, os estimadores de mínimos quadrados
ordinários dessa regressão serão viesados e inconsistentes. Além disso, mesmo que a
covariância entre a variável x3i e cada uma das outras variáveis explicativas do modelo
seja igual a zero, o estimador do intercepto será geralmente viesado e inconsistente.
FALSA
(ANPEC 2004, 14) Um pesquisador estimou uma regressão múltipla com 5 variáveis
independentes e n = 56, mas na pressa, não imprimiu os resultados e anotou apenas o
valor do R2 = 0,90, o coeficiente de determinação. Este pesquisador precisa verificar se
a regressão é significante. Ajude-o, calculando o valor da estatística do teste a ser
empregado.
Solução:
Para verificarmos se a regressão é significante, precisamos calcular a estatística F. E
como nos foi fornecido o R2 dessa regressão, deveremos utilizar a forma R2 da
estatística F, que é dada por (veja questão ANPEC 2002, 10, item (3)):
R 2 /(k − 1) 0,90 / 5
F= = = 90
(1 − R ) /(n − k ) 0,10 / 50
2
Portanto, o valor da estatística do teste a ser empregado é de 90. E com esse valor,
podemos concluir que a regressão é estatisticamente significante.
(ANPEC 2003, 06) Considere o modelo de regressão linear múltipla para dados
seccionais
y i = β 0 + β 1 x1i + β 2 x 2 i + + β k x ki + u i , i = 1,… , n.
(0) para que os estimadores de mínimos quadrados sejam os melhores estimadores

lineares não-tendeciosos é necessário que os erros sejam normalmente distribuídos;
Resposta:
A hipótese de normalidade dos erros é necessária para que se possa realizar testes de
hipóteses com o modelo de regressão (em amostras finitas) e também para que os
estimadores de mínimos quadrados ordinários sejam os melhores estimadores não
tendenciosos entre todos, não somente entre aqueles que são lineares. Para serem os
melhores não-tendenciosos entre os estimadores lineares, a hipótese de normalidade dos
erros não é necessária (veja questão ANPEC 2004, 11, item 1).
FALSA
(1) a hipótese que Var (u i | x1i , x 2 i ,…, x ki ) = σ 2 , i = 1,…, n , não é necessária para que
os estimadores de mínimos quadrados sejam consistentes;
Resposta:
A hipótese de que a variância seja constante (homocedasticidade) é necessária para
que os estimadores sejam eficientes e para fazer inferência estatística com o modelo de
regressão (mesmo assintoticamente). A consistência dos estimadores de MQO necessita
apenas das hipóteses de que os erros têm média zero e que nenhuma das variáveis
explicativas tenha correlação com o termo de erro.
VERDADEIRA
(2) a inclusão de uma nova variável explicativa no modelo reduzirá o coeficiente de

determinação R2 ;
Resposta:.
A inclusão de uma nova variável explicativa no modelo sempre aumenta ou
(raramente) mantém constante o coeficiente de determinação R2, nunca o diminui, já
que ao se incluir uma nova variável no modelo a soma dos quadrados dos resíduos
sempre diminui (ou, raramente, permanece a mesma). Essa é a razão pela qual o R2 não
é adequado para comparar modelos com número de variáveis diferentes, já que ele não
leva em consideração a perda de graus de liberdade quando se adiciona uma nova
variável.
Vejamos mais formalmente porque isso ocorre. Considere o seguinte modelo em
notação matricial:
Y= Xβ + ε
Acrescentando-se uma variável Z qualquer, temos:
Y = Xβ + φZ + µ
Os resíduos da 1ª regressão são dados por:
ε̂ = Y - X β̂ (I)
E os resíduos da 2ª regressão:
~
µ̂ = Y - X β - γˆ Z (II)
~
O vetor β será dado por:
~
β = (X'X)-1X'Y - (X'X)-1X' γˆ Z
~
β = (X'X)-1X'Y - γˆ (X'X)-1X'Z
Substituindo esse valor em (II), obtemos:
µ̂ = Y - X(X'X)-1X'Y + γˆ X(X'X)-1X'Z- γˆ Z
µ̂ = [I - X(X'X)-1X']Y - [I - X(X'X)-1X'] γˆ Z
µ̂ = MY - γˆ MZ
onde M é matriz que produz os resíduos (residual maker):
M = I - X(X'X)-1X'
Portanto:
MY = resíduos da regressão de Y em X
MZ = resíduos da regressão de Z em X, que chamaremos Z*.
Dessa forma:
µ̂ = εˆ - γˆ Z*
A soma dos quadrados dos resíduos da 2ª regressão será então:
µ̂ ' µ̂ = ( ε̂ '- γˆ Z*') ( ε̂ - γˆ Z*)
µ̂ ' µ̂ = ε̂ ' ε̂ - γˆ ε̂ Z* - γˆ Z*' εˆ + γˆ 2 Z*' Z*
µ̂ ' µ̂ = ε̂ ' ε̂ - 2 γˆ ε̂' Z* + γˆ 2 Z*' Z*
E como:
ε̂ = MY = Y* = γˆ Z*
Temos:
µ̂ ' µ̂ = ε̂ ' ε̂ - 2 γˆ 2 Z*'Z* + γˆ 2 Z*' Z*
µ̂ ' µ̂ = ε̂ ' ε̂ - γˆ 2 Z*' Z*
Ou seja, a soma dos quadrados dos resíduos da segunda regressão (com a adição da
variável Z) é igual à soma dos quadrados dos resíduos da primeira regressão menos uma
valor (que é positivo). Portanto, quando acrescentamos uma variável no modelo, a SQR
sempre diminui e, dessa forma, o R2 aumenta.
FALSA
(3) para que as estatísticas t e F sejam válidas assintoticamente é necessário que os

erros sejam normalmente distribuídos;
Resposta:
Assintoticamente, a hipótese de normalidade dos erros não é necessária para que as
estatísticas t e F tenham validade. Mesmo que os erros não sigam uma distribuição
normal, os estimadores de mínimos quadrados ordinários serão normalmente
distribuídos assintoticamente (Teorema do Limite Central), validando o uso das
estatísticas t e F, desde que as hipóteses de Gauss-Markov (elencadas na questão
ANPEC 2004, 11, item 0) sejam válidas.
FALSA
(4) se Cov( x1i , x3i ) ≠ 0, i = 1, … , n os estimadores de mínimos quadrados ordinários da

regressão y i = β 0 + β 1 x1i + β 2 x 2 i + + β k x ki + u i , i = 1, …, n , serão tendenciosos.
Resposta:
Note que nenhuma hipótese do modelo clássico de regressão linear está sendo
violada (a hipótese é de não existência de multicolinearidade perfeita, ou seja, ρxi,xj ≠ |1|)
e, dessa forma, os estimadores de MQO manterão as propriedades desejáveis de um
estimador, sendo, portanto, não tendenciosos.
FALSA
(ANPEC 2003, 7) O método dos mínimos quadrados ordinários foi empregado para
estimar o modelo de regressão abaixo, cujo objetivo é explicar as variações de renda
entre 526 indivíduos:
log(renda) = 0,417− 0,297 sexo + 0,080 educ + 0,029 exper − 0,00058 exper 2 + u,
( 0 , 099 ) ( 0 , 036 ) ( 0 , 007 ) ( 0 , 005 ) ( 0 , 00010 )
R = 0,441, n = 526,
2
em que sexo é uma variável dicotômica (valor 1, se for homem e 0, caso contrário),
educ é o número de anos de escolaridade, exper é experiência profissional, também
medida em anos. Os números entre parênteses são os erros-padrão das estimativas
( sbi i = 0,.,..
,1 .,4) . Com base nos resultados acima, é correto afirmar:
(0) a regressão não é estatisticamente significante pois o coeficiente de determinação é

menor do que 0,5;
Resposta:
Para sabermos se a regressão é ou não estatisticamente significante, precisamos
realizar o teste F. O fato do R2 ser menor que um valor qualquer não implica que a
regressão não seja válida.
Façamos o teste F:
R 2 /(k − 1) 0,441 / 4
F= = ≅ 102,75
(1 − R ) /(n − k ) 0,559 / 521
2
Como podemos ver pelo resultado acima, a regressão é "altamente" válida.

FALSA
(1) a diferença de renda entre homens e mulheres não é estatisticamente significante;

Resposta:
A diferença de renda entre os homens e mulheres é dada pela variável binária sexo.
Vejamos se seu coeficiente é estatisticamente significante realizando o teste t:
βˆ − 0,297
t= = = −8,25
sβ 0,036
Com 521 graus de liberdade (n - k = 526 - 5), podemos, sem dúvida, rejeitar a hipótese
nula de que o coeficiente é igual a zero e, portanto, a diferença de renda entre homens e
mulheres é sim estatisticamente significante.
FALSA
(2) um ano a mais de escolaridade, mantidos constantes todos os demais fatores,

aumenta em 0,08% a renda de um indivíduo do sexo feminino;
Resposta:
Note que apenas a variável dependente está em logaritmo, ou seja, temos um
modelo log-linear. Nesse caso, o coeficiente de inclinação nos fornece a variação
relativa na variável dependente dada uma variação absoluta na variável explicativa.
Quando multiplicamos β por 100 temos a mudança percentual aproximada em
log(renda):
∆ log(renda) ≅ β(100)% ∆educ
Portanto, um ano a mais de escolaridade aumenta a renda de uma mulher em
aproximadamente 8%.
FALSA
(3) a significância conjunta das variáveis educ e exper não pode ser medida por meio da
estatística t. Para isto, o teste F deve ser utilizado;
Resposta:
O teste t é adequado para testar significâncias individuais. Se quisermos realizar um
teste de significância conjunta, o teste F é que deve ser utilizado, já que ele leva em
consideração o fato que os estimadores de mínimos quadrados podem ser
correlacionados. Por isso, o teste F para significância conjunta das variáveis educ e
exper pode levar a resultados diferentes do teste t para significância individual de cada
uma dessas variáveis.
VERDADEIRA
(4)o modelo é incapaz de captar diferenças nos retornos da educação entre homens e
mulheres.
Resposta:
Note que o modelo inclui uma variável dummy de intercepto para sexo, que capta
diferenças na renda entre homens e mulheres (o intercepto da reta de regressão será
diferente entre os sexos). Para que o modelo fosse capaz de captar diferenças nos
retornos da educação entre homens e mulheres, precisaríamos de uma variável dummy
de inclinação, ou seja, uma variável binária multiplicando a variável educação deveria
ser incluída no modelo:
log(renda) = α + β1sexo + β2 educ + β3 exper + β4 exper2 + β5sexo × educ + ε
Sendo assim, o retorno da educação seria dado por:
β̂ educ + β̂ sexo × educ
2 5
Se o indivíduo for homem, o retorno será β̂ 2 + β̂ 5 educ, e se for mulher será β̂ 2 educ.
Dessa forma, conseguiremos captar diferenças nos retornos da educação entre homens e
mulheres.
VERDADEIRA
(ANPEC 2002, 9) Pode-se afirmar sobre o modelo de regressão linear clássico yt= β1
+ β2 xt + ut
(0) A reta de regressão passa pelas médias amostrais de y e x, mesmo que o modelo não
tenha intercepto.
Resposta:
O estimador de mínimos quadrados ordinários para o intercepto é dado por:
β̂ 1 = y t − β̂ 2 xt

y t = β̂ 1 + β̂ 2 x t
Portanto, temos a garantia de que a reta de regressão passa pelas médias amostrais de y
e x apenas se o intercepto estiver incluído no modelo. A estimação do modelo por MQO
sem o termo constante não possui essa propriedade.
FALSA
(1) Na presença de heterocedasticidade, o estimador de MQO é viesado e não se pode
confiar nos procedimentos de testes usuais (F e t), já que o estimador além de
viesado, é ineficiente.
Resposta:
A presença de heterocedasticidade no modelo não causa viés no estimador de
MQO. Os estimadores de MQO apenas serão viesados se forem violadas as hipóteses
que os erros têm média zero e/ou que não há correlação entre as variáveis explicativas e
o erro. Como a hipótese de homocedasticidade é necessária para a demonstração do
teorema de Gauss-Markov, se for violada, os estimadores de MQO serão sim
ineficientes. Além disso, como o estimador da variância será viesado na presença de
heterocedasticidade, não poderemos confiar nos testes de hipóteses usuais (t e F),
mesmo assintoticamente.
FALSA
(2) Na presença de autocorrelação dos resíduos, os estimadores de MQO são não

viesados e consistentes.
Resposta:
A hipótese de não existência de autocorrelação dos resíduos não é necessária para
que os estimadores sejam não viesados e consistentes. Portanto, a sua presença não
levará a viés e inconsistência nos estimadores de MQO (desde que não esteja incluída a
variável dependente defasada entre as variáveis explicativas, como é o caso). Quando a
hipótese de autocorrelação dos erros é violada, os estimadores serão ineficientes e os
testes de hipóteses serão inválidos.
VERDADEIRA
(3) Quanto maior for a variação da variável explicativa, maior será a precisão com que
o coeficiente angular pode ser estimado.
Resposta:
Suponhamos o caso extremo em que não haja variação da variável explicativa, ou
seja, ela assume apenas um valor. Nesse caso, não conseguiremos explicar a variação da
variável dependente através dessa variável explicativa (já que essa não varia). Aliás,
será mesmo impossível estimar o modelo. O diagrama de dispersão entre X e Y será
uma linha horizontal, como mostra o gráfico abaixo.
Y8
7
6
5
4
3
2
1
0 X
0 1 2 3 4
Para que possamos explicar a variação de Y, a variável explicativa deve variar (!), e
quanto maior for a sua variação, com mais precisão poderemos estimar o coeficiente
angular.
VERDADEIRA
(4) Se R2 (coeficiente de determinação) for zero, então a melhor previsão para um valor
de y é sua média amostral.
Resposta:
Se o R2 é igual a zero, então a SQE = 0, ou seja, ∑ ŷ 2
= βˆ 2 ∑ x 2 = 0. Portanto, β̂ 2 =0.
Nesse caso, temos que:

βˆ = y − βˆ x
1 2
β̂ = y
1
E:
y = β̂ 1 + 0x2 = β̂ 1 = y
Sendo assim, se R2 for igual a zero, a melhor previsão para y será a sua própria média
amostral.
VERDADEIRA
(ANPEC 2002, 10) É correto afirmar a respeito do modelo de regressão linear clássico
multivariado: Y = Xγ + ε , com n observações e k > 2 variáveis explicativas, incluindo-
se o intercepto.
(0) Os coeficientes de inclinação não se alteram quando se modificam as unidades de
medida de Y e X multiplicando-os por uma constante, por exemplo, transformando-
se seus valores de reais para dólares.
Resposta:
Quando alteramos as unidades de medida tanto da variável dependente quanto da (s)
independente(s), as estimativas de seus coeficientes de inclinação não se alteram; o
intercepto porém deverá ser multiplicado por essa constante, assim como os resíduos.
Por exemplo, suponha que multipliquemos Y e X por c:
(cY) = c γ 0 + γ 1 (cX 1 ) + …γ k (cX K ) + cε
Note que, nesse caso, os parâmetros estimados não serão alterados (se dividirmos
todos por c, retornaremos ao modelo original).
Convém lembrar aqui os efeitos de mudanças nas unidades de medida só na variável

dependente ou só nas variáveis explicativas:
- mudança apenas na variável dependente: os coeficientes deverão ser modificados
para que a regressão estimada continue válida. Se multiplicarmos Y por uma
constante, os parâmetros estimados dos coeficientes de inclinação e do intercepto
também deverão ser multiplicados por essa constante para que as estimativas sejam
válidas.
- mudança apenas nas variáveis independentes: nesse caso, também devemos alterar
os coeficientes estimados para que a regressão continue válida. Se multiplicarmos os
coeficientes das variáveis independentes por uma constante, os seus coeficientes
deverão ser divididos por essa constante:
γ γ
Y= γ0 + 1
(cX 1 ) + … k
(cX K ) + ε .
c c
VERDADEIRA
(1) Se o modelo for estimado com apenas k-1 variáveis explicativas (mas mantendo o
intercepto), os coeficientes estimados poderão ser viesados e inconsistentes.
Resposta:
Se a variável retirada for relevante (e for correlacionada com alguma outra variável
explicativa), teremos o problema de omissão de variável relevante, o que causa viés e
inconsistência nos estimadores de mínimos quadrados ordinários. Veja também questão
ANPEC 2004, 11, itens 3 e 4).
VERDADEIRA
(2) Quando os coeficientes γ ’s estimados forem altamente significativos,

individualmente, mas a estatística F e o R2 indicarem que o modelo como um todo
tem um baixo poder explicativo, pode-se desconfiar da presença de
multicolinearidade.
Resposta:
Poderemos desconfiar da presença de multicolinearidade quando o contrário ocorrer,
ou seja, quando a estatística F e o R2 indicarem que o modelo é significante, mas os
coeficientes não forem significantes individualmente. Isso ocorre porque a variância dos
coeficientes das variáveis explicativas aumenta quando há multicolinearidade.
FALSA
(3) Para testar a hipótese conjunta de que γ 2 = γ 3 = ... = γ k = 0 , pode-se utilizar o teste
R 2 (k − 1)
Fα ; ( k −1), ( n − k ) = , em que R2 é o coeficiente de determinação do
[(1 − R )(n − k )]
2
modelo.
Resposta:
Podemos sim utilizar o teste F para testar essa hipótese. Mas vejamos se essa "forma
R2" da estatística F está correta.
A estatística F é dada por:

SQE ( k − 1)
Fα ;( k −1(,( n − k ) =
SQR (n − k )
E sabemos que R2 é dado por:
SQE SQR
R2 = =1-
SQT SQT
SQR = (1 - R2)SQT
E como:
SQE = SQT - SQR
Temos:
SQE = SQT - (1 - R2)SQT =
SQE = R2SQT
Substituindo as expressões acima para SQR e SQE na estatística F, obtemos:

R 2 SQT (k − 1)
Fα ;( k −1(,( n − k ) =
(1 − R 2 ) SQT (n − k )
R 2 (k − 1)
Fα ;( k −1(,( n − k ) =
(1 − R 2 ) (n − k )
FALSA
(4) Sempre que o modelo tiver pelo menos duas variáveis explicativas além do
intercepto, o R2 será maior ou igual ao R2 ajustado.
Resposta:
O R2 é dado por:
SQR
R2 = 1 -
SQT
E o R 2 (R2 ajustado aos graus de liberdade):
SQR /(n − k ) SQR n −1

R 2 = 1- =1- ×
SQT /(n − 1) SQT n − k
Portanto, se k = 1 , R2 = R 2 . E se k maior que 1, R2 > R 2 . Dessa forma, sempre que o

modelo tiver pelo menos uma variável explicativa além do intercepto, o R2 será maior
ou igual ao R2 ajustado.
VERDADEIRA
(ANPEC 2001, 9) A partir de uma amostra de n elementos, foi estimada uma regressão
linear simples, pelo método de mínimos quadrados, obtendo-se os resultados:
Yˆt = αˆ + βˆ1 X t αˆ ≠ 0
R 12 = K1
A seguir, a mesma regressão foi estimada sabendo-se que a reta de regressão da
população passa pela origem das coordenadas (termo constante = 0), obtendo-se os
resultados:
Yˆt = βˆ 2 X t
R 22 = K 2
Pode-se afirmar que:
(0) β̂ 1 = β̂ 2
Resposta:
O estimador de mínimos quadrados do coeficiente de inclinação de uma regressão com
intercepto é dado por:
n
∑(X t
− X )(Yt − Y )
β̂ =
1
t =1
n
∑ (Y
t =1
t
− Y )2
E o coeficiente de inclinação de uma regressão simples sem o intercepto é:

n
∑ XY
β̂ =
2
t =1
n
∑Y
t =1
2
Portanto, a igualdade entre esses dois coeficientes apenas ocorrerá se a média de X e Y

( X e Y , respectivamente) forem iguais a zero.
FALSA
(2) s β 2 (desvio padrão de β 2 ) < s β1 (desvio padrão de β 1 )
Resposta:
Se realmente a reta de regressão passa pela origem, então a equação sem o intercepto
fornecerá uma estimativa mais precisa do coeficiente angular e, portanto, o seu desvio-
padrão será menor. Note, porém, que se o intercepto não estiver realmente ausente do
modelo, as estimativas obtidas serão viesadas.
VERDADEIRA
(2) A reta βˆ 2 X passa pelo ponto médio da amostra ( X, Y )

Resposta:
A reta de regressão apenas passa pelas médias de X e Y quando o intercepto está
incluído no modelo. Portanto, a reta αˆ + βˆ1 X t é que passa pelas médias amostrais de X
e Y. (Veja questão ANPEC 2002, 9, item 0).
FALSA
(3) (K2 / K1) > 1

Resposta:
Em primeiro lugar há que se notar que não foi especificado como foi calculado o R2 da
regressão sem o intercepto. Suponha que na segunda regressão tenhamos o R2 não
centrado, que é dado por:
βˆ 22 ∑ X 2
K2 = R NC =
2
∑Y 2
E o R2 da primeira regressão é:
K1 = R =2 βˆ ∑(X − X )
2
1
2
∑ (Y − Y )
2
A divisão entre eles será:

∑X
βˆ 2
2
2
K2
=
∑Y 2
βˆ ∑ ( X − X )
2
K1 2
1
∑ (Y − Y )
2
A divisão será maior que 1 apenas se o numerador for maior que 1. Sabemos que
∑ X 2 ≥ ∑ ( X − X ) 2 . Isso poderia nos levar a concluir que a afirmativa está correta.
Porém, note que os valores de β̂ das duas regressões não são iguais, e não podemos
saber qual é maior. Portanto, nada se pode afirmar sobre a razão entre essas duas
medidas.
FALSA
(4) A soma dos resíduos de mínimos quadrados de ambas equações estimadas é zero.
Resposta:
Consideremos primeiro o modelo com intercepto:
Yt = α + β 1 X t + ε t
Sabemos que o método dos mínimos quadrados ordinários consiste em encontrar α̂ e

β̂ 1 que minimizem a soma dos quadrados dos resíduos, ou seja:
minimizar ∑ εˆ 2 = minimizar ∑ (Y − αˆ − βˆ X )
2
Pelas condições de 1ª ordem, temos que:

∂ ∑ εˆ 2
= -2 ∑ (Y − αˆ − βˆ1 X ) = 0 (I)
∂αˆ
∂ ∑ εˆ 2
= -2 ∑ (Y − αˆ − βˆ1 X )X = 0 (II)
∂βˆ
1
Note que o termo entre parênteses são os próprios resíduos da regressão. Utilizando (I),
temos que:
-2 ∑ εˆ = 0
Dessa forma:
∑ εˆ = 0
Portanto, quando o intercepto estiver incluído no modelo, a soma dos resíduos será igual
a zero.
Vejamos agora o que acontece quando o intercepto não está incluído no modelo:
Yt = β 2 X t + µ t
A condição de primeira ordem é dada por:
dµˆ
= - 2 ∑ (Y − βˆ 2 X ) X = 0
dβˆ 2
E o que está entre parênteses são os próprios resíduos da regressão. Portanto:
-2 ∑ ( µˆ X ) = 0
∑ (µˆ X ) = 0
Portanto, quando o intercepto não está incluído no modelo, a soma dos resíduos não
será igual a zero.
Concluímos, então, que apenas a soma dos resíduos de mínimos quadrados

ordinários da primeira regressão é igual a zero.
FALSA
(ANPEC, 2001, 12) No modelo clássico de regressão linear: Yi = β1 + β 2 X i + ui

(0) A hipótese de que o erro é normalmente distribuído é necessária para que os
estimadores de mínimos quadrados ordinários também sejam normalmente
distribuídos.
Resposta:
Se assumirmos que o erro é normalmente distribuído, então Y será também
normalmente distribuído. E, como os estimadores de mínimos quadrados ordinários são
somas ponderadas das observações de Yi (veja item 4 desta questão), podemos concluir
que eles serão também normalmente distribuídos, já que uma soma ponderada de
variáveis normalmente distribuídas será também normalmente distribuída. Cabe notar,
porém, que para que os estimadores de MQO sejam distribuídos normalmente
assintoticamente, a hipótese de normalidade do erro não é necessária.
VERDADEIRA
(1) Se a hipótese cov(u i , u j | X i , X j ) = 0 , i ≠ j for violada, os estimadores de mínimos

quadrados ordinários serão viesados e não eficientes.
Resposta:
Apesar dos estimadores de mínimos quadrados ordinários serem não eficientes na
presença de autocorrelação, eles continuam sendo não viesados. A presença de
autocorrelação apenas fará com que os estimadores de mínimos quadrados ordinários
sejam viesados, quando houver entre as variáveis explicativas a variável dependente
defasada, já que nesse caso, o termo de erro estará correlacionado com a variável
explicativa (veja questão ANPEC 1998, 13, item 2).
FALSA
(2) As hipóteses de que o erro é normalmente distribuído e de que

cov(u i , u j | X i , X j ) = 0 , i ≠ j asseguram que ui e u j se distribuem
independentemente.
Resposta:
Quando a distribuição é normal, o fato da covariância ser igual a zero implica que as
variáveis são independentes (veja questão ANPEC 2003, 09, item 4, em esperança,
medidas de dispersão e independência de variáveis aleatórias). Portanto, se os erros são
normalmente distribuídos e suas autocovariâncias são nulas, então eles são
independentemente distribuídos.
VERDADEIRA
(3) A hipótese Var ( µ i | X i ) = σ 2 é necessária para que os estimadores de mínimos

quadrados ordinários sejam não tendenciosos.
Resposta:
Para que os estimadores de MQO sejam não tendenciosos, bastam as hipóteses que os
erros têm média zero e que nenhuma das variáveis explicativas é correlacionada com o
termo de erro. A hipótese de homocedasticidade é necessária para que os estimadores
sejam eficientes e para os testes de hipóteses com o modelo de regressão.
FALSA
(4) Os estimadores de mínimos quadrados de β1 e β 2 podem ser escritos como

combinações lineares das observações Yi .
Resposta:
Os estimadores de mínimos quadrados podem ser escritos sim como combinações
lineares das observações da variável dependente. Mais precisamente, eles podem ser
escritos como uma média ponderada dessas observações:
n
∑x y i i
β̂ =
2
i =1
n
∑xi =1
2
i
xi
Fazendo c = n
, temos que (assumindo que xi seja fixo e que, portanto, possamos
∑x
i =1
2
i
tratá-lo como uma constante):

n
β̂ =
2 ∑c y
i =1
i i
VERDADEIRA
(ANPEC 2000, 06) Seja o modelo de regressão linear clássico com duas variáveis
explicativas X2 e X3: Yi= β1 + β2 X2i + β3 X3i + ui . É correto afirmar que:
(0) Se a correlação entre X2 e X3 é zero, então o estimador de mínimos quadrados

− −
∑(X 2i − X 2 )(Yi − Y )
ordinários (MQO) de β 2 é i
_
.
∑(X
i
2i − X 2) 2
Resposta:
Quando a correlação entre X2 e X3 for igual a zero, o estimador de MQO de uma
regressão múltipla será igual ao estimador da regressão simples. Vejamos:
Temos o seguinte modelo (o subscrito "i" foi omitido por simplicidade).
Y = β1 + β2X2 + β3X3 + ε
Utilizando as variáveis centradas, temos que:

y = β2 x2 + β3 x3
ε = y - β2 x2 - β3 x3
O método dos MQO consiste em minimizar a soma dos quadrados dos resíduos:
minimizar ∑ ε 2 = ∑ (y − β x 2 − β 3 x3 )
2
2
As condições de 1ª ordem são:

∂∑ ε 2
= - ∑ 2 x 2 ( y − β 2 x 2 − β 3 x3 ) = 0
∂β 2
= - ∑ x 2 y + βˆ 2 ∑ x 22 + βˆ 3 ∑ x 2 x3 = 0
= βˆ 2 ∑
x 2 + βˆ
2
xx =
3 ∑ 2
x y 3 ∑ 2
(I)
∂∑ ε 2
∂β̂ 3
=- ∑ 2x (y − β 3 2
x 2 − β 3 x3 ) = 0
= - ∑ x3 y + βˆ 2 ∑ x 2 x3 + βˆ 3 ∑ x32 = 0
= βˆ 2 ∑ x 2 x3 + βˆ 3 ∑ x32 = ∑ x3 y (II)
Isso nos dá o seguinte sistema de equações:

βˆ ∑ x + βˆ ∑ x x
2
2
2 3 2 3
= ∑x y 2
βˆ ∑ x x + βˆ ∑ x
2 2 3 3
2
3
= ∑x y 3
Multiplicando a 1ª equação por ∑x x 2 3

e a 2ª por ∑x 2
2
e subtraindo a 2ª da 1ª ,
obtemos:
βˆ 2 ∑ x 22 ∑ x 2 x3 + βˆ 3 ∑ x 2 x3 ∑ x 2 x3 = ∑ x 2 y ∑ x 2 x3
βˆ 2 ∑ x 2 x3 ∑ x 22 + βˆ 3 ∑ x32 ∑ x 22 = ∑ x3 y ∑ x 22
β̂ 3
[(∑ x x ) − ∑ x ∑ x ] = ∑ x y ∑ x x - ∑ x y ∑ x
2 3
2
3
2
2
2
2 2 3 3
2
2
β̂ =
∑ x y∑ x x − ∑ x y∑ x
2 2 3 3
2
2
3
(∑ x x ) − ∑ x ∑ x 2 3
2
2
3 x
x
Da equação (I) temos que:

βˆ 2 ∑ x 22 + βˆ 3 ∑ x 2 x3 = ∑ x 2 y
β̂ =
∑ x y − βˆ ∑ x x
2 3 2 3
∑x
2 2
2
Substituindo β̂ 3 , temos:
β̂ =
∑ x y − ∑ x y∑ x x − ∑ x y∑ x × ∑ x x
2 2 2 3 3
2
2 2 3
2
∑x (∑ x x ) − ∑ x ∑ x
2
2 ∑x 2 3
2
2
2 2
3
2
2
∑ x y + − ∑ x y (∑ x x ) + ∑ x y ∑ x ∑ x x
2
2
β̂
∑ x [(∑ x x ) − ∑ x ∑ x ]
2 2 2 3 3 2 2 3
=
∑x
2 2 2
2 2 2
2 2 2 3 2 3
∑ x y (∑ x x ) + ∑ x y ∑ x ∑ x − ∑ x y (∑ x x ) + ∑ x y ∑ x ∑ x x
2 2
2 2 2
β̂
∑ x [(∑ x x ) − ∑ x ∑ x ]
2 2 3 2 2 3 2 2 3 3 2 2 3
2
= 2
2
2 2
2 2 3 2 3
β̂ =
∑ x y∑ x + ∑ x y∑ x x
2
2
3 3 2 3
2
(∑ x x ) − ∑ x ∑ x 2 3
2
2
2
2
3
Dividindo o numerador e o denominador da expressão acima por ∑x ∑x2

2
2
3
, temos:
∑ x y − ∑ x y∑ x x
2 3 2 3
β̂ =
∑x ∑x ∑x
2
2
2
2
2
3
∑x ∑x
2 2 2
1−
2 3
∑x ∑x x
x
2
3
β̂ =
∑ x y∑ x − ∑ x y∑ x x
2
2
3 3 2 3
∑ x ∑ x (1 − ρˆ )
2 2 2 2
2 3 23
Se ρ̂ 23 (coeficiente de correlação entre X2 e X3) = 0 a expressão acima torna-se:
∑ x y∑ x − ∑ x y∑ x x = ∑ x y − x y ∑ x x
2
β̂ = ∑
2 3 3 2 3 2 2 3
∑x ∑x ∑x ∑x ∑x
2 2 2 2 3 2 2
2 3 2 2 3
Analisemos a expressão
∑ x x . Elevando o numerador ao quadrado, temos que:
2 3
∑x ∑x 2
2
2
3
(∑ x x ) [∑ ( X − X )( X − X )] = cov( X , X ) = ρ̂
2 2 2
2 3 2 2 3 3
= 2 3 2
∑ x ∑ x ∑(X − X ) ∑(X − X )
2 2 2 2 23
2 3 2var( X ) var( X )
2 3 3 2 3
Portanto, β̂ 2 será:
∑ x y = ∑ ( X − X )(Y − Y )
2 2 2
= estimador do coeficiente de inclinação de uma
∑x ∑(X − X )
2
2 2 2
2
regressão simples.
VERDADEIRA
(1) Mesmo que a correlação entre X2 e X3 seja igual à unidade, pode-se estimar β2 +
cβ3, em que c é uma constante conhecida.
Resposta:
Quando a correlação entre as variáveis X2 e X3 for igual a 1, temos o problema de
multicolinearidade perfeita e o modelo não poderá ser estimado (veja a expressão
para β̂ 2 no item anterior).
Porém, façamos X3 = cX2. Nesse caso, o modelo torna-se:
Yi = β1 + β2X2i + β3(cX2) + ui
Yi = β1 + (β2 + cβ3)X2i + ui
Note que o "problema" foi eliminado. Agora temos uma regressão que pode ser
estimada, já que não há nenhuma variável explicativa perfeitamente correlacionada
com outra.
VERDADEIRA
(2) A eficiência relativa dos estimadores de MQO, dentro da classe dos estimadores
lineares não viesados, garantida pelo Teorema de Gauss Markov, necessita da
hipótese de normalidade do erro (ui ).
Resposta:
A hipótese de normalidade do erro não é necessária para que se garanta a eficiência
dos estimadores de MQO dentro da classe dos estimadores lineares. Como já
sabemos, essa hipótese é necessária para que se garanta a eficiência dos estimadores
de MQO dentro da classe de todos os estimadores, não apenas os lineares e também
para que se possa realizar testes de hipóteses com o modelo de regressão (em
amostras finitas).
FALSA
(3) Se o erro (ui ) é heterocedástico, os estimadores de MQO serão viesados.

Resposta:
Para que os estimadores sejam não viesados, necessitamos apenas das hipóteses
de que a média dos erros é zero e de que as variáveis explicativas não sejam
correlacionadas com os erros. A hipótese de homocedasticidade é necessária para
que se garanta a eficiência dos estimadores de MQO e para a realização de testes de
hipóteses com o modelo de regressão linear (mesmo assintoticamente). Portanto, se
o erro é heterocedástico, os estimadores de MQO continuarão sendo não viesados.
FALSA
(4) Se as variáveis explicativas são estocásticas, porém não correlacionadas com o

erro (ui ), então, os estimadores dos parâmetros do modelo são não-viesados.
Resposta:
Uma das hipóteses do modelo clássico de regressão linear é que as variáveis
explicativas sejam fixas em amostras repetidas, ou seja, sejam não estocásticas (não
aleatórias). Porém, pode-se garantir que os estimadores dos parâmetros do modelo
serão não-viesados ainda que as variáveis explicativas sejam estocásticas, desde que
a covariância entre elas e o erro seja nula, ou seja, E(εixi) = 0.
VERDADEIRA
(ANPEC 2000, 10) O seguinte modelo de regressão foi estimado utilizando-se dados
trimestrais entre 1979 e 1998, inclusive:
^
Yi = 2.20 + 0.104 X2i
A soma total explicada foi 100,5. Quando esta equação foi re-estimada, adicionando-se
três “dummies” sazonais, a soma total explicada aumentou para 114,5 e a soma do
quadrado dos resíduos foi igual a 20,00. Suponha que deseja-se testar se a sazonalidade
é significativa. Calcule a estatística de teste adequada.
Solução:
Temos que:
Modelo I (com 1 variável explicativa):
SQE = 100,5
SQR = 34
SQT = 134,5
n = 80
Modelo II (com adição de 3 variáveis

dummies sazonais):
SQE = 114,5
SQR = 20
SQT = 134,5 (SQE + SQR)
n = 80
Note que a soma dos quadrados totais não muda com a adição de variáveis no modelo.
A estatística F, que nos permite testar se a sazonalidade é significativa, ou seja, se as
variáveis dummies são conjuntamente estatisticamente significantes, será dada por:
SQRR − SQNR 34 − 20
m 3 14 75
F= = = × =17,5
SQRNR 20 3 20
n−k 80 − 5
Considerando apenas a parte inteira do resultado acima, chegaremos ao valor de 17.
(ANPEC 2000, 11) Considere o seguinte modelo de regressão linear clássico,

relacionando as variáveis quantidade demandada (Q) e preço do produto (P). Admita que as
duas variáveis sejam medidas em Reais, e que a estimação será efetuada por MQO (ln é
logaritmo natural)
lnQi = β1 + β2 lnPi + ui i = 1,2,..., 100.
(0) Variando-se o preço em 1%, a quantidade demandada variará 10β2%, ceteris paribus.
Resposta:
Como temos um modelo log-log, ou seja, um modelo no qual todas as variáveis estão em
logaritmo, β2 nos dá a variação relativa no preço dada uma variação relativa na quantidade:
∆%Q
β̂ 2 =
∆% P
Se o preço variar em 1%:
∆%Q
β̂ 2 =
1%
∆%Q = β̂ 2
Portanto, variando-se o preço em 1%, a quantidade demandada variará em β2%.
FALSA
(1) Ignorando-se o termo aleatório, se o preço ultrapassar determinado limite, será possível
obter quantidades demandadas negativas.
Resposta:
Note que não existe ln de número negativo e, portanto, será impossível obter quantidades
demandadas negativas.
FALSA
(2) Se mudarmos as unidades de Q e P para dólares americanos, então a estimativa de β2
na nova equação será igual a sua estimativa obtida na equação em Reais.
Resposta:
Quando mudamos as unidades de medida tanto da variável dependente quanto da(s)
variável(is) independente(s), os coeficientes de inclinação do modelo não são alterados
(veja questão ANPEC 2002, 10, item 0).
VERDADEIRA
(3) Se a variável ln Y (Y = renda) for acrescentada ao modelo, o coeficiente R2 desta nova

regressão será maior ou igual ao coeficiente R2 da regressão original.
Resposta:
Sempre que acrescentamos uma nova variável no modelo, o R2 aumenta (ou raramente
permanece inalterado), já que a SQR irá diminuir (veja questão ANPEC 2003, 6, item 2).
VERDADEIRA
(4) Se o coeficiente R2 ajustado da regressão com a variável ln Y for maior do que o

coeficiente R2 ajustado da regressão original, então necessariamente, o coeficiente de ln
Y é estatisticamente significante, ao nível de significância de 5%, em um teste bi-
lateral.
Resposta:
Quando acrescentamos uma variável ao modelo original e seu R2 ajustado aumenta,
podemos apenas afirmar que o valor da estatística t referente ao parâmetro dessa variável
será maior que 1. Isso, porém, não significa necessariamente que a variável seja
estatisticamente significante a 5%. Aliás, para amostras grandes, a estatística t para 5% de
significância será igual a 1,96. Ou seja, se a estatística t for maior que 1, nada garante que a
variável seja significante a 5%.
FALSA
(ANPEC 1999, 4) Seja o seguinte modelo de regressão linear múltipla na forma matricial:
Y = X .β + ε ,
onde as dimensões das matrizes e dos vetores envolvidos são: Y => (n × 1); X => (n × k);
β => (k × 1); e ε => (n × 1).
Então, podemos fazer as seguintes afirmações:
(0) Um dos pressupostos básicos do modelo é: Os elementos da matriz X são estocásticos

com valores fixados em amostras repetidas.
Resposta:
Um dos pressupostos básicos do modelo é que os elementos da matriz X são não-
estocásticos, ou seja, não aleatórios em amostras repetidas, ou ainda, possuem valores
fixos em amostras repetidas. Aqui, deve ficar bem claro que estocástico é sinônimo de
aleatório.
FALSA
(1) Outro pressuposto básico é: nenhuma das variáveis independentes deve estar
perfeitamente correlacionada com qualquer outra variável independente ou com
qualquer combinação linear de outras variáveis independentes.
Resposta:
Um dos pressupostos básicos do modelo de regressão linear é que nenhuma variável
explicativa deve ser perfeitamente correlacionada com outra variável explicativa, ou seja,
não deve existir multicolinearidade perfeita. Essa hipótese é necessária para que possamos
efetivamente estimar o modelo, já que se ela não for verificada, a estimação será
impossível. Na questão ANPEC 2000, 06, item 0, mostramos que β̂ 2 em uma regressão
múltipla com 3 variáveis é dado por:
β̂ =
∑ x y∑ x − ∑ x y∑ x x
2
2
3 3 2 3
∑ x ∑ x (1 − ρˆ )
2 2 2 2
2 3 23
Se o coeficiente de correlação entre as variáveis for igual a 1, o denominador da expressão

acima será zero (assim como de todos os outros coeficientes de inclinação) e, portanto, os
parâmetros da regressão não poderão ser estimados.
VERDADEIRA
(2) As equações normais de mínimos quadrados para o modelo dado podem ser
apresentadas em notação matricial como ( X 'Y ) = ( X ' X ) β e a solução para β será
β = ( X ' X ) −1 ( X 'Y ) .
Resposta:
O modelo de regressão linear pode ser escrito em notação matricial como:

Y = X β̂
Pré-multiplicando por X', temos:
(X'Y) = (X'X) β̂
E a solução para β̂ será realmente:

β̂ = (X'X)-1(X'Y)
VERDADEIRA
(3) Quando testamos a existência do modelo de regressão, fazemos as seguintes hipóteses

sobre os coeficientes β da regressão (admitindo que β1 ≠ 0 , ou seja, a regressão não
passa pela origem):
Hipótese nula => H0: β 2 = β 3 =... = β k = 0
Hipótese alternativa => H1: Todos os βi ≠ 0 , para i = 2, 3,…, k.
Resposta:
A hipótese nula realmente é de que todos os coeficientes de inclinação sejam iguais a zero.
Porém a hipótese alternativa é de que pelo menos um desses coeficientes seja diferente de
zero.
FALSA
(4) Os intervalos de confiança dos coeficientes da regressão podem ser calculados da

seguinte maneira:
( βi − t n− k . sβ ; βi + tn− k . sβ )
i i
onde βi tn− k = abcissa de uma distribuição “t” com (n

= estimativa do coeficiente βi ;
- k) graus de liberdade, fixado o grau de confiança de intervalo; e sβ = erro padrão
i
estimado de βi .
Resposta:
Sabemos que:
| βˆ i − 0 |
~ t n−k
s β̂i
Portanto, o intervalo de confiança para β̂ i será dado por:
( βˆ ± t s )
i n−k βî
VERDADEIRA
(ANPEC 1999, 05) Foram encontrados os seguintes resultados para estimar uma
regressão linear com duas variáveis explicativas para uma amostra de tamanho 10.
Variáveis Coeficiente Desvio Estatística p-valor
preditoras padrão “t’
Constante 223,3 254,8 0,88 0,410
X1 -1,26 0,8263 -1,52 0,172
X2 -1,03 3,213 -0,32 0,752
R2 = 81,2%; R2 ajustado = 76,1%; Valor calculado da estatística F=15,1
Podemos afirmar que:

(0) A equação de regressão estimada é Y = 223,3 − 1,26. X 1 − 1,03. X 2 .
Resposta:
Aqui é só olhar para a tabela e ver que realmente a equação de regressão estimada é essa.
VERDADEIRA
(1) A um nível de significância de 5% podemos afirmar que a regressão existe. Porém, após
elaborarmos os testes de hipóteses para os coeficientes individuais, aceitamos a
hipótese (a um nível de significância de 1%) de que o coeficiente para a variável X2 é
zero.
Resposta:
Para uma amostra de tamanho 10, o valor de 15,1 da estatística F nos permite afirmar que a
regressão é realmente estatisticamente significante a 5%, ou seja, ela existe. Porém, não só
a variável X2 não é significante a 1%, como X3 e o intercepto também, já que os valores-p
para todos os coeficientes ultrapassam 0,01.
VERDADEIRA
(2) O coeficiente de determinação indica que 81,2% da variação amostral de Y podem ser
atribuídos as variações de X1 e X2.
Resposta:
Como o valor do R2 é de 81,2%, sabemos que 81,2% da variação amostral de Y é explicada
por variações em X1 e X2.
VERDADEIRA
(3) O valor estimado para Y quando X1 = 15 e X2 = 80, é 220.

Resposta:
Para encontrar o valor estimado de Y quando X1 = 15 e X2 = 80, basta substituir esses
valores na reta de regressão estimada:
Yˆ = 233,3 - 1,26X1 - 1,03X2
Yˆ = 233,3 - 1,26× 15 - 1,03× 80
Yˆ = 233,3 - 18,9 - 82,4
Yˆ = 132
FALSA
(4) Os valores teóricos das estatísticas “t” utilizadas para testar os coeficientes das
variáveis explicativas devem ser calculados para 7 graus de liberdade.
Resposta:
Como temos 10 observações e 3 coeficientes desconhecidos, os graus de liberdade serão
realmente 7.
VERDADEIRA
(ANPEC 1998, 13) Considere o seguinte modelo de Regressão Linear Multiplo :

Yt = α + β1 X 1t + β2 X 2 t + µt , t = 1,2,3,.... n
onde E( µt ) = 0 , Var( µt ) = σ µ2 e X 1t , X 2 t são séries de valores fixos.
(0) Se, X 1t = X 2 t , ainda assim é possível obter os estimadores de Mínimos Quadrados de α

, β1 e β2 .
Resposta:
Se X 1t = X 2 t teremos o problema de multicolinearidade perfeita, caso em que não é possível
estimar o modelo.
FALSA
(1) Se µs e µt são independentes para todo t ≠ s , então dentro da classe dos estimadores
lineares não tendenciosos, os estimadores de Mínimos Quadrados de α, β1 e β2 são os
melhores.
Resposta:
Na questão ANPEC 2004, 11, item (0), elencamos as hipóteses que garantem que os
estimadores de mínimos quadrados ordinários são os melhores dentro da classe dos
estimadores lineares não viesados (MELNV). O próprio enunciado dessa questão já nos diz
que as 3 primeiras hipóteses são satisfeitas, ou seja, os erros têm média zero e variância
constante e os valores das variáveis explicativas são fixos em amostras repetidas (o que
garante que as variáveis explicativas não são correlacionadas com o erro). Portanto para
que os estimadores sejam MELNV, falta apenas a hipótese de não existência de
autocorrelação entre os erros. Mas, se os erros são independentes, então as suas
autocovariâncias são iguais a zero, o que nos garante que não existe autocorrelação.
Portanto, nesse caso, se os erros são independentes, os estimadores de MQO de α, β1 e β2
são MELNV.
VERDADEIRA
(2) Caso X 2 t =Yt-1 na equação acima, e os erros µt sejam autocorrelacionados, o estimador

de Mínimos Quadrados de α , β1 e β2 mantém a propriedade de não-tendenciosidade.
Resposta:
Se X2t = Yt-1, o modelo torna-se:
Yt = α + β1X1t + β2 Yt-1 + µt
Supondo que a autocorrelação seja de 1ª ordem, temos que:
µt = ρµt-1 + εt
Escrevendo o modelo para Yt-1, obtemos:
Yt-1 = α + β1X1t-1 +β2Yt-2 + µt-1
Das expressões acima, podemos concluir que:
- µt é correlacionado com µt-1.
- Yt-1 é correlacionado com µt-1.
E, como µt-1 é correlacionado com µt, Yt-1 será também correlacionado com µt. Portanto, a
hipótese de que o erro não é correlacionado com nenhuma das variáveis explicativas é
violada e, dessa forma, os estimadores de MQO serão, além de ineficientes, também
viesados e inconsistentes.
FALSA
(3) Quando a variância dos resíduos, Var( µt ) , varia para cada t , então os estimadores de
Mínimos Quadrados de α, β1 e β2 ainda são não tendenciosos mas ineficientes.
Resposta:
Nesse caso, ocorre o problema de heterocedasticidade, ou seja, a variância dos resíduos
não é constante, o que faz com que os estimadores de MQO sejam ineficientes. Porém a
propriedade de não-tendenciosidade ainda é mantida.
VERDADEIRA
(4) No caso da existência de autocorrelação e heterocedasticidade dos resíduos, as

variâncias amostrais dos estimadores de Mínimos Quadrados de α, β1 e β2 são
tendenciosas, fazendo com que os testes de hipóteses destes parâmetros fiquem
comprometidos.
Resposta:
Equações Simultâneas
(ANPEC 2005, 08) Considere o modelo de equações simultâneas:

Qtd = α 0 + α 1 Pt + α 2 X t + e1t (demanda)
Qts = β 0 + β 1 Pt + e2t (oferta)
Qtd = Qts (condição de equilíbrio)
d s
Q e Q são, respectivamente, as quantidades demandadas e ofertadas do bem, X t é uma
t t
variável exógena e e1t e e2t são os termos aleatórios, com médias zero e variâncias
constantes. São corretas as afirmativas:
(0) As equações de demanda e oferta são exatamente identificadas.

Resposta:
Para que uma equação seja exatamente identificada, o número de variáveis endógenas nela
incluídas (G*-1) deve ser igual ao número de variáveis exógenas excluídas dessa equação
(K**). A única variável exógena nesse modelo é X t , que está incluída apenas na equação
da demanda. Dessa forma, temos que apenas a equação de oferta é exatamente identificada.
E a equação da demanda é subidentificada:
G * −1 = 1
Demanda: → G * −1 > K * * → equação subidentificada
K ** = 0
G * −1 = 1
Oferta: → G * −1 = K * * → equação exatamente identificada
K ** = 1
FALSA
(1) Os parâmetros estruturais do modelo são consistentemente estimados por Mínimos

Quadrados Ordinários.
Resposta:
Nesse modelo, temos o problema da simultaneidade, já que as variáveis preço e quantidade
se determinam mutuamente. Dessa forma, a variável endógena utilizada como variável
independente está correlacionada com o termo de erro da equação, violando uma das
hipóteses básicas do modelo de regressão linear, necessária para que os estimadores sejam
não viesados e consistentes: E(xjiui) = 0 (nenhuma das variáveis explicativas está
correlacionada com o termo de erro). Assim, os parâmetros do modelo estrutural, se
estimados por mínimos quadrados ordinários, serão viesados e inconsistentes. Veja mais
detalhes na questão ANPEC 2003, 8, item (0).
FALSA
(2) As equações na forma reduzida são: Pt = Π 0 + Π 1 X t + v t e Qt = Π 2 + Π 3 X t + wt ,
β − α0 α2 e −e α β − α 0 β1
em que Π 0 = 0 ; Π1 = − ; vt = 1t 2t ; Π 2 = 1 0 ;
α1 − β1 α1 − β1 α1 − β1 α1 − β1
α β α e − β1e1t
Π 3 = − 2 1 e wt = 1 2t .
α1 − β1 α 1 − β1
Resposta:
Igualando as quantidades, obtemos a equação na forma reduzida para o preço:
Qtd = Qts
α 0 + α 1 Pt + α 2 X t + e1t = β 0 + β1 Pt + e2t
α 1 Pt − β1 Pt = β 0 − α 0 − α 2 X t + e2t − e1t
(α 1 − β1 )Pt = β 0 − α 0 − α 2 X t + e2t − e1t
β0 − α0 α2 e − e1t
Pt = − X t + 2t
α 1 − β1 α 1 − β1 α 1 − β1
Pt = Π 0 + Π 1 X t +ν t
Assim, temos que:
β0 − α0
Π0 = ;
α 1 − β1
α2
Π1 = − ;
α 1 − β1
e2t − e1t
νt = .
α 1 − β1
Bom, por aqui já dá para ver que a afirmativa é falsa (ν t ). Mas, vamos encontrar
também a equação na forma reduzida para a quantidade. Substituindo a equação do preço
na equação da oferta, obtemos:
Qt = β 0 + β1 Pt + e2t
β0 − α0 α2 e − e1t
Qt = β 0 + β 1 − X t + 2t + e2 t
α 1 − β1 α 1 − β1 α 1 − β1
β β − α 0 β1 βα β e − β1e1t
Qt = β 0 + 0 1 − 1 2 X t + 1 2t + e2 t
α 1 − β1 α 1 − β1 α 1 − β1
α β − α 0 β1 βα α e − β1e1t
Qt = 1 0 − 1 2 X t + 1 2t
α 1 − β1 α 1 − β1 α 1 − β1
Qt = Π 2 + Π 3 X t + wt
em que:
α 1 β 0 − α 0 β1
Π2 =
α 1 − β1
βα
Π3= − 1 2
α 1 − β1
α e − β1e1t
wt = 1 2t
α 1 − β1
e2t − e1t
Assim, a afirmativa então é falsa pois ν t = .
α 1 − β1
FALSA
(3) As estimativas dos parâmetros da forma reduzida descritos no quesito anterior, por
Mínimos Quadrados Ordinários, são consistentes.
Resposta:
Nas equações na forma reduzida, o problema da simultaneidade foi eliminado e, portanto,

os parâmetros podem ser estimados consistentemente por mínimos quadrados ordinários, já
que nenhuma hipótese do modelo de regressão linear está sendo violada.
VERDADEIRA
(4) Os parâmetros das equações estruturais, obtidos dos parâmetros da forma reduzida, são
estimados por Mínimos Quadrados Ordinários.
Resposta:
Note que a equação da demanda é subidentificada. Portanto, os parâmetros estruturais dessa
equação, obtidos dos parâmetros da forma reduzida, não poderão ser estimados por
mínimos quadrados ordinários.
FALSA
(ANPEC 2004, 07) São corretas as afirmativas. Em modelos de equações simultâneas:
(0) o problema da identificação precede o da estimação.

Resposta:
Em um modelo de equações simultâneas, devemos antes de estimar o modelo, verificar se
as equações estão identificadas (ou seja, se é possível estimar os parâmetros do modelo
estrutural a partir das equações na forma reduzida). Caso não estejam, não será possível
obter estimativas consistentes do modelo.
VERDADEIRA
(1) se a condição de ordem for satisfeita, a condição de posto também será satisfeita.
Resposta:
Sabemos que a condição de ordem é necessária, porém não suficiente para a identificação.
A condição suficiente é dada pela condição de posto. E se a "satisfação" da condição de
ordem implicasse a "satisfação" da condição de posto, não precisaríamos verificar se ambas
ocorrem. A condição de ordem consiste em verificar se há informação suficiente, ou seja,
variáveis exógenas excluídas de cada uma das equações, para que possamos diferenciar as
equações do modelo; a condição de posto consiste em verificar se os parâmetros dessas
variáveis realmente existem, ou seja, se são diferentes de zero.
FALSA
(2) os estimadores de mínimos quadrados indiretos e os de mínimos quadrados de dois

estágios são não-tendenciosos e consistentes.
Resposta:
Os estimadores de mínimos quadrados indiretos e de dois estágios são tendenciosos,
porém consistentes. Há que se notar que, em geral, em modelos de equações simultâneas
não é possível obter estimadores não-tendenciosos.
FALSA
(3) se uma equação é exatamente identificada, os métodos de mínimos quadrados indiretos

e de dois estágios produzem resultados idênticos.
Resposta:
O método dos mínimos quadrados indiretos (MQI) consiste em estimar os parâmetros da
forma reduzida por MQO e então encontrar os parâmetros da forma estrutural substituindo
nela os parâmetros estimados. O método dos mínimos quadrados em dois estágios consiste
em estimar as equações na forma reduzida por MQO e então calcular os valores estimados
das variáveis endógenas e utilizar essas estimativas no lugar das variáveis endógenas
propriamente ditas para estimar o modelo estrutural por MQO. Se a equação for exatamente
identificada, o método dos mínimos quadrados indiretos será igual ao MQ2E, já que
estaremos fazendo exatamente a mesma coisa (só que de forma diferente).
VERDADEIRA
(4) o método de mínimos quadrados indiretos pode ser aplicado tanto a equações
exatamente identificadas quanto a equações superidentificadas.
Resposta:
O método dos mínimos quadrados indiretos só se aplica a equações exatamente
identificadas. Se uma equação for superidentificada, este método irá produzir estimativas
diferentes para o mesmo parâmetro, pois teremos mais de uma equação para cada
coeficiente. O método que se aplica tanto a equações exatamente identificadas quanto a
superidentificadas é o dos mínimos quadrados em dois estágios, lembrando que no primeiro
caso, as estimativas de MQI e de MQ2E serão idênticas.
FALSA
(ANPEC 2003, 8) Considere o modelo de equações simultâneas:

QiD = α 1 + β ' Pi + u1i (demanda)
QiS = α 2 + β 2 Pi + u 2 i (oferta)
Qi = Qi
D S
em que: QiD é a quantidade demandada, QiS é a quantidade ofertada, Pi é o preço, e u1i e u2i
são termos aleatórios. É correto afirmar que:
(0) o estimador de mínimos quadrados ordinários aplicado a cada uma das equações é
consistente e não-tendencioso;
Resposta: .
Em ambas as equações, temos como variável explicativa uma variável endógena
(preço), ou seja, uma variável que é também determinada pelo modelo (quantidade
determina o preço que por sua vez determina a quantidade). Quando isso acontece, o erro
está correlacionado com a variável explicativa, o que viola uma das hipóteses básicas do
modelo de regressão linear, necessária para que os estimadores sejam não viesados e
consistentes. Para ver intuitivamente porque isso ocorre, suponha que ocorra um choque
aleatório que diminua a quantidade produzida (uma geada, por exemplo). Esse choque fará
também com que o preço suba (já que a quantidade ofertada diminuiu), o que, por sua vez,
fará com que a demanda diminua (já que o preço está maior). Portanto, o preço está
correlacionado com o termo de erro da regressão e, sendo assim, se aplicarmos o método
dos mínimos quadrados ordinários a cada uma das equações deste modelo, obteremos
estimadores tendenciosos e inconsistentes.
FALSA
(1) no modelo acima a equação de demanda é identificada, mas a equação de oferta não é;
Resposta:
Nenhuma das equações está identificada neste modelo, já que não há nenhuma variável
exógena que nos permita identificar qualquer uma das equações. Mais formalmente, temos
que, pela condição de ordem, para que uma equação esteja identificada, é necessário que o
número de variáveis endógenas incluídas na equação menos um seja igual ao (ou menor
que) o número de variáveis exógenas excluídas da equação, o que, claramente, não se
verifica nem na oferta nem na demanda.
FALSA
(2) se a equação de demanda for definida por QiD = α 1 + β ' Pi + γ 1Yi + u1i , em que Yi é a
renda, a equação de oferta será identificada;
Resposta:
O fato de existir uma variável exógena excluída da equação da oferta permite-nos
identificá-la. Aplicando a condição de ordem para a equação da oferta, temos que o número
de variáveis endógenas incluídas nesta equação menos um (G-1) é igual a 1. O número de
variáveis exógenas excluídas da equação (K) também é igual a 1. Portanto, como G-1 = K,
a equação é exatamente identificada.
VERDADEIRA
(3) a equação de demanda será identificada se for definida por QiD = α 1 + β ' Pi + γ 1Yi + u1i ;
Resposta:
A equação da demanda apenas poderá ser identificada se incluirmos uma variável exógena
na equação de oferta. Incluir uma variável exógena na própria equação de demanda, como
vimos no item anterior, torna a equação de oferta identificada.
FALSA
(4) a variável renda, empregada nos dois itens anteriores, é uma “variável instrumental”.
Resposta:
Uma variável instrumental deve possuir as seguintes características:
- é não correlacionada com o erro, ou seja, é uma variável exógena;
- é correlacionada com a variável explicativa endógena.
A variável renda atende a esses "requisitos". Como é uma variável exógena, não está
correlacionada com o erro, e está correlacionada com a variável explicativa endógena, ou
seja, com o preço. Portanto, a renda é uma variável instrumental.
VERDADEIRA
(ANPEC 2002, 11) Considere as seguintes equações do modelo estrutural:
Equação de Demanda: Qt = α0 + α1 Pt+ α2Rt + u1t

Equação de oferta: Qt = β0 + β1 Pt+ β2Pt-1 + u1t
em que no período t, Qt é a quantidade de produto; Pt , o preço (endógeno) do produto; Rt ,

a renda do consumidor; uit , o distúrbio aleatório da equação de demanda e u2t , o distúrbio
aleatório da equação de oferta. A partir destas equações são obtidas as equações na forma
reduzida:
Pt = π0 + π1 Rt+ π2Pt-1 + v1t e Qt = π3 + π4 Rt+ π5Pt-1 +wt.
β − α0 α2 β2
(0) Assim sendo, π0 = 0 , π1 = e π2 = .
α1 − β1 α1 − β1 α1 − β1
Resposta:
Igualando as quantidades, obteremos a equação na forma reduzida para o preço:
Qt = Qt
α0 + α1Pt + α2Rt + u1t = β0 + β1Pt + β2Pt-1 + u2t
α1Pt - β1Pt = β0 - α0 + β2Pt-1 - α2Rt + u2t - u1t
(α1 - β1) Pt = β0 - α0 + β2Pt-1 - α2Rt + u2t - u1t
β − α0 α2 β2 u − u 1t
Pt = 0 - Rt + Pt-1 + 2 t
α1 − β1 α1 − β1 α1 − β1 α1 − β1
Pt = π0 +π1Rt + π2Pt-1 + ν1t
β0 − α0 α2 β2
Assim sendo, π0 = , π1 = - e π2 =
α1 − β1 α1 − β1 α1 − β1
FALSA
(1) A condição de posto indica que a primeira e a segunda equações são identificadas.
Resposta:
É muito fácil verificar a condição de posto neste caso. A condição de posto diz que:
A matriz com os coeficientes das variáveis excluídas da equação deve ter posto1
igual ao número de variáveis endógenas totais menos 1. Caso isso não se verifique, a
equação está subidentificada.
Sabemos que o número de variáveis endógenas totais do modelo é igual a 2 (preço e

quantidade). Portanto, o posto da matriz com as variáveis excluídas de cada equação deverá
ser de ordem 1 ( 2 -1 = 1). A tabela abaixo nos ajudará a verificar se as equações desse
modelo satisfazem à condição de posto (colocamos o número 1 se a variável está incluída
na equação e 0 se está excluída):
1
O posto de uma matriz é a ordem do maior determinante diferente de zero contido nessa matriz.
Equação Qt Pt Rt Pt-1
Demanda 1 1 1 0
Oferta 1 1 0 1
Agora, construímos uma matriz a partir da tabela acima de acordo com o seguinte
critério: excluir a linha correspondente à equação que estamos analisando e excluir as
colunas correspondentes às variáveis excluídas da equação. Então, verificamos se o posto
desta matriz é igual a 1. É fácil verificar que tanto para a equação da oferta quanto para a
equação da demanda a condição de posto é satisfeita.
VERDADEIRA
(2) Se multiplicarmos a equação de demanda por λ (0 < λ < 1) e a equação de oferta por (1-
λ) e somá-las, desde que o resultado dessa soma seja diferente da equação de oferta e da
equação de demanda, as duas serão identificadas.
Resposta:
Multiplicando a equação de demanda por λ e a de oferta por (1- λ ) e somando, obtemos:
λ Qt = λ α0 + λ α1 Pt+ λ α2Rt + λ u1t

(1- λ )Qt = (1- λ )β0 + (1- λ ) β1 Pt+ (1- λ ) β2Pt-1 + (1- λ )u1t
Qt = λ α0 -β0+ λ β0 + λ α1Pt - β1Pt + λ β1Pt+ λ α2Rt - β2Pt-1 + λ β2Pt-1+ λ u1t -u2t + λ u2t
Fazendo:
δ0 = λ α0 -β0 + λ β0
δ1 = λ α1Pt - β1Pt + λ β1Pt
δ2 = λ α2Rt
δ3 = β2Pt-1 + λ β2Pt-1
εt = λ u1t -u2t
Obteremos a seguinte equação:
Qt = δ0 + δ1Pt + δ2Rt + δ3Pt-1 + εt
Como essa equação é diferente tanto da equação de oferta quanto da equação de demanda,
podemos concluir que tanto a oferta quanto a demanda estão identificadas.
VERDADEIRA
(3) O método de mínimos quadrados ordinários produz estimadores consistentes e

eficientes dos parâmetros da forma estrutural.
Resposta:
O método dos mínimos quadrados ordinários produz estimadores inconsistentes e
ineficientes dos parâmetros da forma estrutural, já que a hipótese de não existência de
correlação entre as variáveis explicativas e o erro é violada (veja também questão ANPEC
2003, 8, item 0)
FALSA
(4) Para verificar se qualquer equação do sistema é identificável, basta aplicar a condição
de ordem.
Resposta:
A condição de ordem é necessária para a identificação do sistema, porém não é
suficiente. A condição necessária e suficiente é dada pela condição de posto, já que para
realmente estarem identificadas, os coeficientes das variáveis exógenas excluídas das
equações devem de fato existir, ou seja, devem ser diferentes de zero. Portanto, para
verificar se qualquer equação do sistema está ou não identificada, devem ser verificadas a
condição de ordem e também a de posto.
FALSA
(ANPEC 2001, 08) No modelo de equações simultâneas:

Q D = α 1 + β 1 P + γ 1Y + u1 (demanda)
Q S = α 2 + β2 P + u 2 (oferta)
Q =Q
D S
em que: QD é a quantidade demandada; QS, a quantidade ofertada; P, o preço; Y, a renda;

u1 e u2 são os componentes aleatórios. Neste modelo:
(0) A aplicação do método de mínimos quadrados ordinários (MQO) a cada uma das
equações do sistema, desconsiderando-se a outra, fornecerá estimativas não
tendenciosas.
Resposta:
Em ambas as equações, temos como variável explicativa uma variável endógena, ou seja,
que também é determinada pelo modelo e, dessa forma, o erro de cada equação estará
correlacionado com tal variável, levando a estimativas tendenciosas e inconsistentes. (veja
também questão ANPEC 2003, 8, item 0)
FALSA
(1) A equação de demanda é subidentificada.

Resposta:
Como não há nenhuma variável exógena excluída da equação de demanda, esta não pode
ser identificada. Aplicando a condição de ordem, verificaremos que:
G* - 1 (variáveis endógenas incluídas na equação - 1) = 1

K** (variáveis exógenas excluídas da equação) = 0
Portanto, como G*-1 > K**, a equação está subidentificada.

VERDADEIRA
(2)A equação de oferta é exatamente identificada.

Resposta:
A existência da variável exógena renda (Y) na equação da demanda nos permite
identificar a equação de oferta. Aplicando a condição de ordem, verificaremos que:
G* - 1 = 1
K** = 1
Como G*-1 = K**, temos que a equação de oferta está exatamente identificada.
VERDADEIRA
(3) Na equação de oferta, o estimador de MQO é consistente.

Resposta:
Veja item (0).

FALSA
(4) Caso seja subidentificada, a equação de demanda não pode ser estimada.
Resposta:
Nada impede (a não ser o bom senso) que estimemos uma equação subidentificada
pelo método dos mínimos quadrados ordinários, ou seja, é realmente possível estimá-la.
Mas, se fizermos isso, obteremos estimativas viesadas e inconsistentes dos parâmetros.
Portanto, caso seja subidentificada, não poderemos consistentemente estimar a equação da
demanda.
FALSA
(ANPEC 1998, 14) Considere o seguinte conjunto de equações simultâneas:
Q = α1 + β1 P + γ 1Y + µ1 : função de demanda
Q = α 2 + β2 P + µ2 : função de oferta
onde Q (quantidade) e P (preços) são as variáveis endógenas, Y (renda) é a variável

exógena e µ1 , µ2 , representam os resíduos. Os valores α1 , α 2 , β1 , γ 1 e β2 são os
parâmetros do modelo.
Então, pode -se afirmar que:
(0) As equações na forma reduzida são definidas como :

Q = π 1 + π 2 Y + ν1
P = π 3 + π 4Y + ν2
β1α 2 − β2α1 γ β α − α1 −γ1 β µ − β2 µ1
onde, π 1 = , π 2 = − 1 2 , π3 = 2 , π4 = , v1 = 1 2 e
β1 − β2 β1 − β2 β1 − β2 β1 − β 2 β1 − β2
µ − µ2
ν2 = − 1 .
β1 − β 2
Resposta:
As equações na forma reduzida colocam cada variável endógena do modelo
estrutural em função de todas as variáveis exógenas do modelo. Façamos isso para verificar
se a afirmativa está correta.
Primeiro, igualemos as quantidades para obtermos a equação na forma reduzida
para o preço:
Q=Q
α1 + β1P + γ1Y + µ1 = α2 + β2P + µ2
β1P - β2P = α2 - α1 - γ1Y + µ2 - µ1
(β1 - β2) P = α2 - α1 - γ1Y + µ2 - µ1
α − α1 −γ1 µ − µ1
P= 2 + Y+ 2
β1 − β 2 β1 − β 2 β1 − β 2
P = π3 + π4 Y+ ν2
Substituindo a equação do preço acima na equação da oferta, obteremos a equação

na forma reduzida para a quantidade:
Q = α 2 + β2 P + µ2
α −α −γ µ − µ1
Q = α2 + β2 +
2
Y+
1 1 2
+ µ2
β −β 1
β −β 2
β 1 2 1
− β2
β α −β α −β γ βµ − β 2 µ1
Q= 1 2 2
+ 1
Y+ 2 1 1 2
β −β1 2
β −β β1 2 1
− β2
Q = π1 + π2Y + ν1
Confrontando os resultados obtidos com os dados pela afirmativa, concluímos realmente

µ − µ1 µ + µ2
que esta é verdadeira (note que 2 =− 1 = ν2).
β1 − β 2 β1 − β 2
VERDADEIRA
(1) As funções de demanda e oferta são identificadas.

Resposta:
Apenas a equação de oferta está identificada, já que há uma variável exógena excluída
desta equação. Quanto à equação de demanda, não há nenhuma informação adicional na
equação de oferta que nos permita distinguí-la desta última.
FALSA
(2) A estimação dos parâmetros das equações na forma reduzida por Mínimos Quadrados
Ordinários, produz estimadores consistentes.
Resposta:
O termo de erro das equações na forma reduzida são não correlacionados com as variáveis
explicativas (já que todas elas são exógenas) e, portanto, a estimação dessas equações
através do método dos mínimos quadrados ordinários produzirá estimadores consistentes.
VERDADEIRA
(3) Os resíduos ν1 e ν2 são independentes.

Resposta:
Note que os resíduos ν1 e ν2 são ambos combinações lineares de µ1 e µ2, ou seja dos erros
do modelo estrutural. Portanto, eles não podem ser independentes.
FALSA
Tanto a existência de autocorrelação quanto de heterocedasticidade nos resíduos, faz com
que as variâncias amostrais dos estimadores de MQO sejam viesadas, invalidando os testes
t e F, mesmo assintoticamente.
VERDADEIRA
Séries de Tempo
(ANPEC 2005, 07) Com respeito à teoria das séries temporais, são corretas as
afirmativas:
(0) Considere uma série temporal Yt auto-regressiva de ordem 1 com parâmetro ρ . No
modelo: Yt − Yt −1 = δYt −1 + u t , em que ut é um ruído branco e δ = ρ − 1 , se δ
for de fato igual a zero, a série Yt será não estacionária.
Resposta:
Considere o modelo original:
Yt = ρ Yt-1 + ut
Sabemos que, se | ρ | <1, a série será estacionária.
Somando e subtraindo Yt-1 do lado direito da equação acima, temos:
Yt = ρ Yt-1 + Yt-1 – Yt-1 + ut

Yt – Yt-1 = ρ Yt-1 – Yt-1 + ut
Yt – Yt-1 = ( ρ –1)Yt-1 + ut
Yt – Yt-1 = δ Yt-1 + ut
Dessa forma, se δ = 0 (o que significa que ρ =1), a série não será estacionária.
Note que essa "forma alternativa" de escrever o processo é utilizada para o teste de raiz unitária de
Dickey-Fuller, que testa a hipótese nula que δ = 0 (o que equivale a ρ = 1).
VERDADEIRA
(1) Numa regressão linear simples de duas séries temporais não estacionárias de ordem 1, o teste usual t
de Student ainda é válido.
Resposta:
Temos que as duas variáveis são I(1). Porém, não sabemos se elas são ou não co-integradas. Se elas
forem, o teste usual t de Student será válido. Mas, se não forem, a regressão será espúria e o teste t será
inválido. Para que as variáveis sejam co-integradas, elas precisam ser integradas de mesma ordem e, além
disso, devem “caminhar juntas”. Se isso ocorrer, os resíduos da regressão entre elas serão estacionários.
FALSA
(2) Numa regressão linear múltipla de séries temporais de ordem 1, mas cointegráveis, não se corre o
risco de os resultados serem espúrios.
Resposta:
Dado que as séries são I(1) e cointegráveis, a regressão entre elas será válida e, por isso,
não se corre o risco de obter resultados espúrios.
VERDADEIRA
(3) Numa regressão linear múltipla de séries temporais de ordem 1, mas

cointegráveis, os resíduos da regressão são estacionários.
Resposta:
Se as séries são cointegráveis, então os resíduos da regressão entre elas serão
necessariamente estacionários. Aliás, o teste de co-integração consiste basicamente em
verificar se os resíduos da regressão entre variáveis integradas de mesma ordem são
estacionários.
VERDADEIRA
(4) Se uma série temporal tiver que ser diferenciada n vezes antes de se tornar
estacionária, a série original é integrada de ordem n -1.
Resposta:
Se uma série temporal tiver que ser diferenciada n vezes antes de se tornar estacionária,
a série original é integrada de ordem n. Por exemplo, se a primeira diferença da série for
estacionária, ela será integrada de ordem 1, I(1).
FALSA
(ANPEC 2004, 9) Considere a seguinte regressão entre yt e zt:

y t = αz t + u t ,
em que ut é o erro. São corretas as afirmativas:
(0) Se yt for I(1) e zt for I(0), então yt e zt são co-integradas.

Resposta:
As variáveis yt e zt apenas poderão ser co-integradas se forem integradas de mesma
ordem (veja também item (2) desta questão).
FALSA

Resposta:
Novamente, como as variáveis não são integradas de mesma ordem, elas não podem ser
co-integradas.
FALSA

Resposta:
Para que duas variáveis sejam co-integradas, é necessário que sejam integradas de
mesma ordem, mas, também, que "caminhem" juntas, sincronizadas. Se isso ocorrer, os
resíduos da regressão entre essas variáveis serão estacionários. Portanto, mesmo que
duas variáveis sejam integradas de mesma ordem, é possível que elas não sejam co-
integradas.
FALSA
(3) Se yt for I(1), zt for I(1) e ut for I(0), então yt e zt são co-integradas.
Resposta:
Nesse caso, as séries são realmente co-integradas: são integradas de mesma ordem e os
resíduos da regressão entre elas seguem um processo estacionário (já que ut é integrado
de ordem 0).
VERDADEIRA
(4)Se ut for I(0) as séries yt e zt são necessariamente co-integradas.

Resposta:
Apenas a informação de que os resíduos dessa regressão são estacionários não nos
permite concluir que estas variáveis sejam co-integradas, já que elas podem ser
estacionárias e, nesse caso, não haverá co-integração entre elas.
FALSA

(0) No processo AR(1): yt = φ0 + φ1 yt −1 + et , em que φ < 1 e et é um ruído branco de
σ2
média zero e variância σ 2 , a variância de y t será .
1−φ 2
Resposta:
Essa questão foi anulada pois não foi especificado o subscrito do parâmetro φ quando
σ2
se diz que φ < 1 e que a variância de y t = . Se considerarmos que φ ≡ φ1 , a
1−φ 2
afirmativa seria verdadeira. Vejamos:
var(yt) = var(φ 0 + φ1 y t −1 + et )
var(yt) = var(φ1 y t −1 + et )
var(yt) = var (φ1 y t −1 ) + var( et )
var(yt) = φ12 var(yt-1) + σ 2
var(yt) − φ12 var(yt) = σ 2
(1- φ12 )var(yt) = σ 2
σ2
var(yt) =
1 − φ12
E a condição de estacionariedade é que φ1 < 1 .

ANULADA
(1) Seja a função de autocovariância do processo AR(1) definido no quesito anterior

γ j = E[( y t − j − µ)( y t − j − µ)] , em que µ = E[ y t ] é a média do processo y t . É correto
(φ 0 + φ1 ) j
afirmar que γ j = .
1 − φ12
Resposta:
Em primeiro lugar, há que se notar que a função de autocovariância é dada por:
γ j = E[( y t - µ )( y t − j - µ )]
Da forma como foi dado no enunciado, γ j seria a variância do processo:

γ j = E[( y t − j − µ)( y t − j − µ)] = E[( y t − j − µ ) 2 ]
Com essa ressalva, podemos então calcular γ j :
γ j = E[( y t - µ )( y t − j - µ )]
Para facilitar o cálculo, façamos φ 0 = 0, medindo yt em termos de desvios da sua média.

Assim, temos:
γ j = E( y t y t − j )
γ j = E[( φ1 yt-1+et)yt-j]
γ j = E( φ1 yt-1yt-j) + E(etyt-j)
γ j = φ1 E(yt-1yt-j)
Para j = 1:
γ 1 = φ1 E(yt-1yt-1)
γ 1 = φ1 E( y t2−1 )
γ 1 = φ1 var(yt)
φ1σ 2
γ1 =
1 − φ12
Para j = 2:
γ 2 = φ1 E(yt-1yt-2)
γ 2 = φ1 E[( φ1 yt-2+et) yt-2]
γ 2 = φ12 E( y t2− 2 )
γ 2 = φ12 var(yt)
φ12σ 2
γ2=
1 − φ12
Generalizando:
φ1j σ 2
γ j=
1 − φ12
FALSA
(2) O processo AR(2), y t = φ 0 + φ1 y t −1 + φ 2 y t − 2 + et , em que et é um ruído branco de

média nula e variância σ 2 , será estacionário de segunda ordem se, e somente se,
φ1 < 1 e φ 2 < 1 .
Resposta:
O processo AR(2) será estacionário se, e somente se, φ1 + φ 2 <1.
Vejamos:
y t = φ 0 + φ1 y t −1 + φ 2 y t − 2 + et
Seja L o operador defasagem (Lyt = yt-1, L2 = yt-2). Podemos escrever:
y t = φ0 + φ1 Ly t + φ 2 L2 y t + et
(1 − φ L − φ L ) y = φ
1 2
2
t 0 + et
A expressão entre parênteses acima é um polinômio em L. Para que o processo seja

estacionário, todas as raízes desse polinômio devem ser maiores que 1 em módulo, ou
seja, devem estar fora do círculo unitário. Assim, uma condição suficiente de
estacionariedade para um processo AR(2) é que φ1 + φ 2 <1.
FALSA
(3) A média do processo MA(1), y t = et + θet −1 , em que et é um ruído branco, é igual

a zero.
Resposta:
Calculemos a média de yt:
E(yt) = E(et + θet-1)
E(yt) = E(et) + θ E(et-1)
E(yt) = E(et) + θ E(et)
Como et é um ruído branco:
E(yt) = 0
VERDADEIRA
(4) No modelo ARMA(1,1), y t = φ 0 + φ1 y t −1 + et + θet −1 , em que et é um ruído branco
φ0
de média nula e variância constante, a média de y t é dada por .
1 − φ1
Resposta:
Calculemos a média de yt:
E(yt) = E( φ 0 + φ1 y t −1 + et + θet −1 )
E(yt) = φ 0 + φ1 E(yt-1) + E(et) + θ E(et-1)
E(yt) = φ 0 + φ1 E(yt) + E(et) + θ E(et)
E(yt) - φ1 E(yt) = φ 0
(1- φ1 )E(yt) = φ 0
φ0
E(yt) =
1 − φ1
VERDADEIRA
(ANPEC 2004, 10) Em relação aos modelos de séries temporais, são corretas as
afirmativas:
(0) No processo AR(1), Z t = φZ t −1 + a t + θ0 , φ < 1 , e a t é um ruído branco, a média

θ0
de Zt será .
1−φ
Resposta:
Calculemos a média do processo:

E(Zt) = E (φZt-1 + at + θ0)
E(Zt) = E(φZt-1) + E(at) + E(θ0)
Sabemos que a média dos erros é zero e que, como φ < 1 , o processo é estacionário.
Portanto:
E(Zt) = E(φZt) + E(θ0)
E(Zt) - E(φZt) = θ0
(1-φ) E(Zt) = θ0
θ
E(Zt) = 0
1−φ
VERDADEIRA
(1) O processo MA(1), Zt = at − at −1 , em que a t é um ruído branco, não é

estacionário.
Resposta:
Para que uma série seja estacionária (fracamente), sua média e variância devem
ser constantes ao longo do tempo e suas autocovariâncias não devem depender do
tempo, mas apenas da ordem da defasagem. Verifiquemos se isso ocorre para o
processo MA(1) em questão.
A média de Zt é igual a zero:

E(Zt) = E(at - at-1)
E(Zt) = E(at) - E(at-1)
Como at é um ruído branco:
E(Zt) = 0
A variância de Zt será dada por:

var(Zt) = var(at - at-1)
Como at é um ruído branco:
var(Zt) = var(at) + var(at)
var(Zt) = 2 σ a2
E agora as autocovariâncias:
cov(Zt, Zt-1) = E(ZtZt-1)
cov(Zt, Zt-1) = E[(at - at-1)Zt-1]
cov(Zt, Zt-1) = E(atZt-1) - E(at-1Zt-1)
cov(Zt, Zt-1) = - E[at-1(at-1 - at-2)]
cov(Zt, Zt-1) = - E( a t2−1 ) + E(at-1at-2)
cov(Zt, Zt-1) = - σ a2
cov(Zt, Zt-2) = E(ZtZt-2)

cov(Zt, Zt-2) = E[(at-at-1)Zt-2]
cov(Zt, Zt-2) = E(atZt-2) - E(at-1Zt-2)
cov(Zt, Zt-2) = 0
Se o leitor continuar calculando as covariâncias, verificará que todas as demais

também serão iguais a zero. Portanto, como podemos observar pelos resultados acima,
as condições para que o processo seja estacionário são satisfeitas sem a necessidade de
se impor qualquer restrição sobre o coeficiente de um MA(1). Concluímos, então, que
um processo MA(1) sempre é estacionário (aliás, isso não vale apenas para um MA(1),
mas para um processo de média móvel de ordem q qualquer).
FALSA
(2) O processo AR(1), Zt = 0,8Zt −1 + at , em que a t é um ruído branco, é estacionário.

Resposta:
A condição de estacionariedade para um modelo AR(1), Zt = φZt-1 + at, é dada por |φ| <
1. Como, nesse caso, o coeficiente de Zt-1 é menor que 1 em módulo, este processo é
estacionário (um choque ocorrido em dado período será dissipado ao longo do tempo).
VERDADEIRA
(3) No processo AR(1), Zt = φZt −1 + at , em que a t é um ruído branco com Var( a t ) =
σ a2
σ a2 , a variância de Zt é .
1−φ2
Resposta:
Calculemos a variância de Zt:
var(Zt) = var(φZt-1 + at)
var(Zt) = var(φZt-1) + var(at)
var(Zt) = φ2 var(Zt) + σ a2
var(Zt) - φ2 var(Zt) = σ a2
(1 - φ2) var(Zt) = σ a2
σ 2
var(Zt) = a
1−φ 2
VERDADEIRA
(4) No modelo ARMA(1,1), Zt = φZt −1 + at + θat −1 , em que a t é um ruído branco, a

média de Zt é diferente de zero.
Resposta:
Nesse processo, a média de Zt é igual a zero (já que não há o intercepto). Mas, para os
mais desconfiados, calculemos:
E(Zt) = E (φZt-1 + at + θat-1)

E(Zt) = E(φZt-1) + E(at) + E(θat-1)
E(Zt) = φE(Zt-1) + E(at) + θE(at-1)
Como at é um ruído branco, sua média é zero e, portanto:
E(Zt) = φE(Zt)
(1-φ) E(Zt) = 0
E(Zt) = 0
FALSA
(ANPEC 2003, 10) Considere o modelo de regressão linear

C t = α 0 + α1Yt + u t , t = 1,… , T ,
em que: Ct é o consumo pessoal em t, Yt é a renda pessoal em t e ut é o termo aleatório.
(0) se Ct e Yt são I(1), então ut será obrigatoriamente estacionário;

Resposta:
Se Ct e Yt são variáveis integradas de mesma ordem, os resíduos da regressão
entre elas apenas serão estacionários se elas caminharem juntas, ou seja, se forem co-
integradas.
FALSA
(1) se o Ct e Yt são integradas, mas com ordens de integração diferentes, então a

regressão será inválida;
Resposta:
Como nesse caso as variáveis não são estacionárias e não poderá haver co-integração
entre elas (já que são integradas, mas com ordens diferentes), a regressão será espúria,
ou seja, não terá validade.
VERDADEIRA
(2) se Ct e Yt são I(1), então o teste ADF aplicado aos resíduos da regressão poderá
identificar a presença de co-integração entre as variáveis;
Resposta:
Se as variáveis são integradas de mesma ordem, há a possibilidade de que elas sejam co-
integradas, ou seja, que caminhem no mesmo passo. Se esse for o caso, os resíduos da
regressão entre essas variáveis serão estacionários. Como o teste ADF verifica a
presença de raiz unitária em uma série, ou seja, testa a hipótese nula de não
estacionariedade, podemos utilizá-lo nos resíduos da regressão para verificar se as séries
são co-integradas. E é exatamente isso que faz o teste de Engle-Granger. Há que se
fazer a ressalva, porém, de que, como os resíduos dessa regressão são obtidos através de
valores estimados dos parâmetros da regressão co-integrante, aumenta-se a incerteza e,
portanto, devem ser utilizados valores críticos diferentes dos utilizados para o teste
ADF.
VERDADEIRA
(3) se Ct e Yt são I(1), mas os resíduos são I(0), então há co-integração entre as
variáveis;
Resposta:
Nesse caso, todos os "requisitos" para que duas variáveis sejam co-integradas foram
satisfeitos: as variáveis são integradas de mesma ordem e caminham juntas (já que os
resíduos da regressão entre elas são estacionários).
VERDADEIRA
(4) se Ct e Yt são I(1) e os resíduos também são I(1), então a regressão de ∆ Ct em ∆ Yt

é inválida.
Resposta:
Se as variáveis são I(1), a primeira diferença de cada uma delas será estacionária e,
portanto, a regressão de ∆C t em ∆Yt será válida. Note que, nesse caso, apesar das
variáveis serem integradas de mesma ordem, elas não são co-integradas, já que os
resíduos da regressão entre elas não serão estacionários, pois também são integrados de
ordem 1.
FALSA
(ANPEC 2003, 15) Considere o modelo ARMA(1,1) definido por:

y t = 0,5 y t −1 − 0,2ε t −1 + ε t , t = 1,… , T ,
em que a variância de εt é igual a 1. Encontre a variância de yt.
(Multiplique o resultado final por 10. Marque somente a parte inteira na folha de
resposta).
Solução:
A variância desse processo será dada por:
var(yt) = var(0,5yt-1 - 0,2εt-1 + εt)
Pelas propriedades da variância, sabemos que a variância da soma é igual a soma das
variâncias, desde que as variáveis sejam independentes. E nesse caso, isso não ocorre.
Para ver porque, escrevamos o modelo para yt-1:
yt-1 = 0,5 yt-2 - 0,2εt-2 + εt-1
Como podemos observar, as variáveis yt-1 e εt-1 são claramente correlacionadas.
Portanto, a covariância entre elas deve ser incluída no cálculo da variância do processo.
Dessa forma, teremos que a variância será dada por:
var(yt) = var(0,5yt-1 - 0,2εt-1 + εt)
var(yt) = var(0,5yt-1) + var(0,2εt-1) + var(εt) - 2cov(0,5yt-1, 0,2εt-1)
var(yt) = 0,25 var(yt) + 0,04var(εt) + var(εt) - 0,2 cov(yt-1, εt-1)
var(yt) - 0,25 var(yt) = 0,04var(εt) + var(εt) - 0,2 cov(yt-1, εt-1)
0,75 var(yt) = 0,04var(εt) + var(εt) - 0,2 cov(yt-1, εt-1)
Como var(εt) = 1:
0,75 var(yt) = 0,04 + 1 - 0,2 cov(yt, εt-1) (I)
Calculemos agora a cov(yt-1, εt-1):

cov(yt-1, εt-1) = E(yt-1εt-1) - E(yt-1)E(εt-1)
Como a média dos erros é igual a zero:
cov(yt-1, εt-1) = E(yt-1εt-1)
cov(yt-1, εt-1) = E[(0,5 yt-2 - 0,2εt-2 + εt-1)εt-1]
cov(yt-1, εt-1) = E(0,5yt-2εt-1) - E(0,2εt-2εt-1) + E( ε t2−1 )
cov(yt-1, εt-1) = E( ε t2−1 ) = var(εt) = 1 ( II )

Substituindo ( II ) em ( I ), teremos:
0,75 var(yt) = 0,04 + 1 - 0,2 cov(yt, εt-1)
0,75 var(yt) = 1,04 - 0,2 × 1
0,75 var (yt) = 0,84
0,84
var(yt) = = 1,12
0,75
Multiplicando o resultado por 10 e considerando apenas a parte inteira, como pede o
exercício, chegaremos ao resultado final de 11.
(ANPEC 2002, 12) Em relação aos modelos de Séries de Tempo pode-se afirmar:
(0) No modelo Autoregressivo de ordem 1, Z t = φZ t −1 + ut + θ 0 , φ < 1 , em que ut é um

ruído branco, o parâmetro θ0 é a média do processo.
Resposta:
A média do processo é dada por:
E(Zt) = E(φZt-1+ ut + θ0)
E(Zt) = E(φZt-1) + E(ut) + E(θ0)
Como o processo é estacionário e a média dos erros é zero, temos que:
E(Zt) = φE(Zt) + E(θ0)
(1-φ) E(Zt) = θ0
θ
E(Zt) = 0
1−φ
FALSA
(1) O modelo misto Autoregressivo-Médias Móveis, ARMA(1,1), pode ser

representado pela expressão Zt = φZt + ut – θut-1 em que φ e θ são parâmetros e ut
é um ruído branco.
Resposta:
O modelo ARMA (1,1) é dado por: Zt = φZt-1 + ut - θut-1.
FALSA
(2) Se um processo estocástico possui uma tendência determinística, yt= β1 + β2 t + ut,

então este é dito não-estacionário e sua não-estacionariedade pode ser detectada por
um teste para raiz unitária.
Resposta:
O processo estocástico seria não estacionário se possuísse uma tendência aleatória.
Note que o próprio teste de Dickey-Fuller considera a possibilidade de uma série
possuir tendência determinística (3ª formulação para a regressão auxiliar do teste), caso
em que a variável pode ser estacionária em torno da tendência.
FALSA
(3) Em uma regressão com duas séries temporais, se estas são I(1), ou seja, não
estacionárias, mas são co-integradas, pode-se empregar a estatística t de Student
para testar a significância dos coeficientes da regressão.
Resposta:
De fato, se a regressão é feita entre variáveis que são co-integradas, os procedimentos
usuais de testes de hipóteses são válidos e, portanto, a significância dos coeficientes da
regressão pode ser testada utilizando-se a estatística t de Student.
VERDADEIRA
(3) O teste de Engle-Granger para co-integração entre três variáveis consiste em utilizar
a estatística e a tabela de valores críticos Dickey-Fuller nos resíduos de uma
regressão entre estas variáveis.
Resposta:
Apesar do teste de Engle-Granger para co-integração ser um teste de Dickey-Fuller
aplicado aos resíduos da regressão entre as variáveis, a tabela de valores críticos de
Dickey-Fuller não é adequada, já que os resíduos foram obtidos de parâmetros que
foram estimados e, portanto, a incerteza aumenta. Para o teste de Engle-Granger deve-
se, então, utilizar-se outros valores críticos.
FALSA
(ANPEC 2001, 10) Seja o processo auto-regressivo:

y t = φ1 y t −1 + ε t
Pode-se afirmar que:
(0) O processo é estacionário para φ1 < 1.

Resposta:
Para que o processo seja estacionário, sua média e variância devem ser constantes ao
longo do tempo e suas autocovariâncias devem depender apenas da ordem da defasagem
e não do tempo. A variância do processo acima é dada por:
σ 2
var(yt) =
1−φ 2
Portanto, para que esse processo seja estacionário deve-se verificar que |φ| <1, já que se
isso não ocorrer, a variância será infinita.
FALSA
(1) Se φ1 = 1, o processo é dito um caminho aleatório (random walk).
Resposta:
Se φ1 = 1, teremos:
yt = yt-1 + εt,
que é, por definição, um caminho aleatório.
Se o modelo tivesse o intercepto, teríamos um caminho aleatório com drift:
yt = θ + yt-1 + εt
VERDADEIRA
(2) O estimador de mínimos quadrados ordinários do parâmetro φ1 é não tendencioso.
Resposta:
O estimador de MQO do parâmetro φ1 será não viesado quando |φ1|<1. O estimador de
MQO, neste caso, será uma estimativa da correlação entre yt e yt-1 e, portanto, mesmo
na média, não poderá ser igual se este for o verdadeiro valor de φ1 (ou mesmo se for
muito próximo). O enunciado não dizia se φ1 era menor do que 1, portanto há que se
fazer esta ressalva.
VERDADEIRA
(com a ressalva acima!!)
(3) A estatística t-Student pode ser usada para testar a presença de raiz unitária.
Resposta:
Se a variável não é estacionária, sua variância será infinita e, dessa forma, a estatística t
será viesada e não seguirá a distribuição t de Student. Portanto, para testar a presença de
raiz unitária, devemos utilizar a estatística τ, que na realidade é calculada da mesma
forma que a estatística t, só que com valores críticos próprios (tabelados por Dickey e
Fuller).
FALSA
(4) O processo pode ser escrito em uma forma alternativa como ∆ y t = δy t −1 + ε t em
que δ = φ1 − 1 e ∆ y t = y t − y t −1 .
Resposta:
Considere o modelo original:
y t = φ1 y t −1 + ε t
Subtraindo e somando yt-1, obtemos:
yt = φ1yt-1 + εt + yt-1 - yt-1
yt - yt-1 = φ1 yt-1 - yt-1 + εt
∆y t = (φ1 - 1) yt-1 + εt
∆y t = δy t −1 + εt
onde δ = (φ1 - 1)
Note que essa "forma alternativa" de escrever o processo é utilizada para o teste de raiz
unitária de Dickey-Fuller, que testa a hipótese nula que δ = 0 (o que equivale a φ1 = 1)
VERDADEIRA
(ANPEC 2001, 11) Um econometrista estimou uma função consumo usando 25

observações anuais da renda pessoal disponível e consumo, a partir do modelo:
Ct = β1 + β 2Yt + ut , em que:
Ct = consumo em t; Yt = renda pessoal disponível em t; ut = erro aleatório
Os resultados indicaram parâmetros significativos a 5%, coeficiente de determinação de
0,94 e d de Durbin-Watson 0,5421. Com base nesses números, o econometrista fez o
teste de Dickey-Fuller aumentado (ADF) para as séries de renda e de consumo, obtendo
estimativas de τ menores que os valores críticos de τ tabelados, a 1%, 5% e 10%.
Conseqüentemente, o econometrista:
(0) Aceitou a hipótese nula do teste ADF, concluindo que as séries de renda e consumo
são não-estacionárias;
Resposta:
O teste ADF (Dickey-Fuller aumentado) testa a hipótese nula de raiz unitária. Portanto,
se os valores obtidos para a estatística τ são menores que os valores tabelados (em
módulo), não se pode rejeitar a hipótese nula de existência de raiz unitária (não-
estacionariedade) nas séries das variáveis.
VERDADEIRA
(1) Concluiu que os testes t e F não são válidos.

Resposta:
Como as variáveis são não estacionárias, a regressão pode ser espúria e, assim, os testes
não seriam válidos. Mas elas podem ser co-integradas e, desta forma, a regressão seria
válida.
FALSA
(2) Concluiu que o teste t não é válido.

Resposta:
Note que, nesse caso, mesmo que as variáveis sejam co-integradas e a regressão tenha
então validade, temos o problema de autocorrelação nos resíduos, já que a estatística de
Durbin-Watson é de 0,5421 (próxima de zero). E, quando temos o problema de
autocorrelação, a estatística t será viesada, invalidando os testes de hipóteses, mesmo
assintoticamente. Mas cabe uma pergunta: se há autocorrelação, o teste F também não
fica invalidado? Aí tem uma sutileza: para alguns tipos de autocorrelação (por exemplo,
se for um processo AR(1)), demonstra-se que a estimação por MQO é (quase) tão
eficiente quanto a estimação corrigida (por mínimos quadrados generalizados). Daí não
se poder concluir que o teste F seja, necessariamente, inválido. (veja Judge et.al., p.281)
VERDADEIRA
(3) Concluiu que a regressão estimada é espúria.

Resposta:
Como já salientamos no item (1), para concluir que a regressão estimada é espúria, o
econometrista deveria verificar se as variáveis são ou não co-integradas, pois se forem,
a regressão não será espúria.
FALSA
(4) Necessita fazer mais outros testes para verificar se a regressão estimada é espúria.
Resposta:
Realmente, como leitor já deve estar se cansando de ler, para verificar se a regressão é
espúria, o econometrista necessita realizar um teste de co-integração.
VERDADEIRA
(ANPEC 2000, 15, ) Considere um processo AR(1)

Yt = φ Yt -1 + εt , εt ~ NID(0, σ2), t = 1,2,...T,
em que, por hipótese, |φ| <1, a não ser que seja dito o contrário. Considere Yo fixo e que
t seja muito distante da origem.
(0) A condição |φ| < 1 é necessária para que o processo apresente média e variância
incondicionais independentes do tempo.
Resposta:
A condição |φ| < 1 é necessária para que o processo seja estacionário, ou seja, tenha
média e variância constantes e covariância dependente apenas da ordem da defasagem e
não do tempo.
Se φ = 1, teremos que:
Yt = Yt-1 + εt
Ou seja, Yt será uma soma de choques aleatórios:
Yt = ∑ε t
Portanto, o valor esperado de Yt será dado por:
E(Yt) = E( ∑ ε t )
E(Yt) = E(ε1 + ε2 + … +εt)

E(Yt) = t E(ε)
Dessa forma, se φ = 1, a média do processo será dependente do tempo (note que nesse
caso particular, E(Yt) = 0).
E a variância será:
n
var(Yt) = var( ∑ ε t )
t =1
var(Yt) = var (ε1 + ε2 + … +εt)

var(Yt) = tσ2
De fato, se φ =1, a variância do processo também será dependente do tempo.
VERDADEIRA
(1) A média incondicional do processo é zero.

Resposta:
No item anterior vimos que:
E(Yt) = t E(ε) = t × 0 = 0
Ou, para quem preferir:

E(Yt) = E(φYt-1 + εt)
Como |φ| < 1 e E(εt) = 0, temos:
E(Yt) = φE(Yt)
E(Yt) - φ(EYt) = 0
E(Yt) = 0
VERDADEIRA
(2) A função de autocorrelação deste processo é diferente de zero para o "lag" 1, e é

igual a zero para todos os outros "lags".
Resposta:
As funções de autocorrelação (FAC) e de autocorrelação parcial (FACP) nos
permitem identificar o modelo a ser estimado. A tabela abaixo resume as características
da FAC e da FACP para os diferentes modelos:
modelo FAC FACP

AR(p) declinante truncada em p
MA(q) truncada em q declinante
ARMA(p, q) declinante declinante
Como temos um AR(1), a função de autocorrelação desse processo será declinante. E a
função de autocorrelação parcial é que será diferente de zero para a 1ª defasagem e
igual a zero para as demais defasagens.
FALSA
(3) A previsão dois-passos à frente é dada por: E(Yt+2| Yt) = (φ +1) + φ2Yt , em que Yt
= { Y1 , Y2 ,..., Yt}.
Resposta:
A previsão dois-passos à frente para Yt é dada por:
E(Yt+2|Yt) = φYt+1
Como Yt+1 = φYt, temos que:
E(Yt+2|Yt) = φ(φYt)
E(Yt+2|Yt) = φ2Yt
FALSA
(4) Se φ =1, o processo será não estacionário.

Resposta:
Se φ = 1, o processo será um caminho aleatório e, portanto, não será estacionário.
VERDADEIRA
(ANPEC 1999, 1) Com relação aos modelos Auto - Regressivo, Média - Móvel e
Misto, pode-se afirmar que :
(0) No modelo AR(1), Zt = φ Zt-1 + at , onde E(at)=0 , E( at2 )= σ a2 e bCov( at , as ) = 0 se

t ≠ s , a variância de Z t é finita qualquer que seja o valor de φ .
Resposta:
A variância de Zt apenas será finita se |φ| < 1, ou seja, se o processo for estacionário.
Sabemos que a variância será dada por:
var(Zt) = var (φZt-1 + at)

var(Zt) = φ2var(Zt-1) + var(at)
var(Zt) = φ2var(Zt) + σ a2
var(Zt) - φ2var(Zt) = σ a2
σ 2
var(Zt) = a
(1 − φ 2 )
Portanto, se |φ| = 1, a variância de Zt será infinita.

FALSA
(1) No modelo MA(1) , Zt = µ + at - θ at-1, onde E(at) = 0 para todo t e
E( at2 ) = σ a2 , então E( Z t ) = µ e Var( Z t ) = (1 + θ 2 )σ a2 .
Resposta:
Calculemos o valor esperado de Zt:
E(Zt) = E(µ + at - θat-1)
E(Zt) = µ + E(at) - θE(at-1)
Como E(at) = 0, temos que:

E(Zt) = µ
E a variância:
var(Zt) = var(µ + at - θat-1)
var(Zt) = var(at) + θ2 var(at)
var(Zt) = (1 + θ2)var(at)
var(Zt) = (1 + θ2) σ a2
VERDADEIRA
(2) O processo ARMA(p,q) (Auto-Regressivo Média-Móvel) pode ser escrito na forma

Φ ( L) Z t = Θ( L)at , onde Φ ( L) = 1 − φ1L − φ 2 L2 − ⋅ ⋅ ⋅ ⋅ −φ p Lp e
Θ( L) = 1 − θ1L − θ 2 L2 − ⋅ ⋅ ⋅ ⋅ −θ q Lq são, respectivamente, os operadores auto-regressivo
e de média-móvel de ordem p e q onde, Ln Z t = Z t − n .
Resposta:
O processo ARMA (p, q) é dado por:
Zt = φ1Zt-1 + φ2Zt-2 + ....+φpZt-p + at - θ1at-1 - θ2at-2 - ... - θqat-q
Fazendo uso do operador defasagem L, podemos escrevê-lo da seguinte forma:
Zt = φ1L Zt + φ2L2Zt + ....+φpLpZt + at - θ1Lat - θ2L2at - ... - θqLqat

Zt - φ1LZt - φ2L2Zt - ....- φpLpZt = at - θ1Lat - θ2L2at - ... - θqLqat
(1 - φ1L - φ2L2 - ... - φpLp)Zt = (1 - θ1L - θ2L2 - ... - θqLq) at
Φ ( L ) Z t = Θ( L ) a t
onde:
Φ (L) =(1 - φ1L - φ2L2 - ... - φpLp)
Θ(L) = (1 - θ1L - θ2L2 - ... - θqLq)
(3) Se o processo gerador de dados pode ser escrito como (1 − L) Z t = µ + at , então a

raiz de sua equação característica será diferente de um.
Resposta:
Sua raiz característica será diferente de 1 apenas se (1-L) ≠ 0. O fato do processo
gerador de dados poder ser escrito da forma mencionada não nos diz nada a respeito do
valor da raiz de sua equação característica.
FALSA
(ANPEC 1999, 2) Uma série temporal mensal de três anos, de janeiro de 1995 a
dezembro de 1997, para o preço do produto agrícola Y, apresentou a seguinte tendência
linear Y = 3 + 0,25.X. Estime o preço do produto Y para o mês de janeiro de 1998,
sabendo que as variações sazonais calculadas com base num modelo aditivo para os três
anos considerados foram:
Mês Jan Fev Mar Abr Maio Jun

Variação sazonal -1,25 -0,52 0,84 1,50 3,00 3,85
Solução:
De janeiro de 1995 a dezembro de 1997, temos 36 observações. Portanto, em janeiro de
1998 estaremos no 37º mês. Então:
Y = 3 + 0,25 × 37
Y = 3 + 9,25 = 12,25
E como a variação sazonal para janeiro é de -1,25, temos que:
12,25-1,25 = 11
O preço do produto Y em janeiro de 1998 é, portanto, 11.
(ANPEC 1998, 15) Com relação aos modelos Auto - Regressivo, Média - Móvel e
Misto, pode - se afirmar que :
(0) No modelo Z t = φ Z t −1 + a t + θa t −1 + θ 0 , onde θo é uma constante e a t um ruído

branco, a média do processo será igual a zero se θo =0 .
Resposta:
Sabemos que a média desse processo será dada por (confira Questão ANPEC 2004, 10,
item (0)):
θ
E(Zt) = 0
1−φ
Portanto, se θ0 = 0, a média do processo será igual a zero.
VERDADEIRA
(1) No modelo Auto-Regressivo de ordem p,

Z t = φ 1 Z t −1 + φ 2 Z t − 2 +....+φ p Z t − p + a t ,
se 1 − φ1 − φ2 −......−φ p = 0 , o modelo não será estacionário.
Resposta:
A condição de estacionariedade é dada por:

φ1 + φ2 + … +φp = 1
Ou, equivalentemente:
1 -φ1 - φ2 - … - φp = 0
Portanto, se 1 -φ1 - φ2 - … - φp = 0, a raiz do polinômio será igual a 1 e o modelo não

será estacionário.
VERDADEIRA
(2) O processo ARMA(p,q) (Auto-Regressivo Média-Móvel) será estacionário e

invertível, se todas as raízes dos operadores Auto - Regressivo e de Média Móvel
caírem dentro do círculo unitário.
Resposta:
Considere um modelo AR(1):
Yt= φYt-1 + εt
Utilizando o operador defasagem (L), podemos escrever:
Yt = φLYt + εt
(1- φL) Yt = εt
E (1-φL) é um polinômio em L, e sua raiz será dada por:
1 - φL = 0
1
L=
φ
E, como sabemos, para que o modelo seja estacionário, deve-se verificar que |φ| <1. Mas
1
se |φ|<1, então > 1. Portanto, para que o modelo seja estacionário, a raiz do
φ
polinônimo do operador auto-regressivo deve ser maior que 1. E, como a condição de
invertibilidade de um modelo MA(q) é a contrapartida da condição de estacionariedade
de um AR(p), temos que para que o modelo ARMA(p,q) seja estacionário e invertível,
as raízes dos operadores auto-regressivo e de média móvel devem ser maiores que 1, ou
seja, devem cair FORA do círculo unitário.
Abaixo apresentamos aos leitores o círculo unitário:
Portanto, dizer que a raiz do polinômio deve ser maior que 1, equivale a dizer que ela
deve cair fora do círculo unitário.
FALSA
(3) Se no modelo Auto-Regressivo de ordem 1, Z t = ρZ t −1 + a t , onde a t é um ruído
branco, o verdadeiro valor de ρ é igual a um, então Z t = a t + a t −1 + a t − 2 +.....+ a1 ,
desde que Z 0 = 0 .
Resposta:
Se ρ = 1 e Z0 = 0, temos que:
Z1 = Z0 + a1 = a1
Z2 = Z1 + a2 = a1 + a2
Z3 = Z2 + a3 = a1 + a2 + a3
Z4 = Z3 + a4 = a1 + a2 + a3 + a4
E assim sucessivamente. Generalizando, temos que:
Zt = at + at-1 + … a1
Portanto, se ρ for igual a 1, o processo poderá ser descrito como uma soma de choques,
já que um choque ocorrido em determinado período t não será dissipado.
VERDADEIRA
Números índice
(ANPEC 2005, 1) A respeito de números-índice, é correto afirmar:
(0) O índice de quantidade de Fisher é a raiz quadrada do produto dos índices de

quantidade de Laspeyres e de Paasche.
Resposta:
O índice de Fisher é a média geométrica dos índices de Laspeyres e de Paasche.

Portanto, o índice de quantidade de Fisher será dado por:
n n
∑ p0i q1i ∑p q i i
1 1
Fq = Lq × Pq = i =1
n
× i =1
n
∑p q ∑p q
i =1
i
0
i
0
i =1
i
1
i
0
VERDADEIRA
(1) O índice de preço de Laspeyres é a média aritmética de relativos de preços

ponderados pela participação do dispêndio com cada bem na época atual.
Resposta:
O índice de preços de Laspeyres realmente pode ser escrito como a média aritmética de
relativos de preços, porém, estes são ponderados pela participação do dispêndio com
cada bem na época base. Vejamos.
Sabemos que o índice de preços de Laspeyres é dado por:
n
∑p q
i =1
i
1
i
0
L= n
∑p q
i =1
i
0
i
0
Desmembrando, temos:
p11 q 10 + p12 q 02 + … + p1n q 0n

L= n
∑p q
i =1
i
0
i
0
p11 q 10 p12 q 02 p1n q 0n

L= n
+ n
+…+ n
∑p q
i =1
i
0
i
0 ∑p q
i =1
i
0
i
0 ∑p q
i =1
i
0
i
0
Multiplicando e dividindo cada termo da equação acima por p 0i :

p11 p 10 q 01 p12 p 02 q 02 p1n p 0n q 0n
L= × + × + … + ×
p 10 n
p2 n
p 0n n
∑ p0i q0i 0 ∑ p0i q0i

i =1 i =1
∑ p0i q0i
i =1
i p 0i q 0i
Fazendo w = 0 n
(que representa a participação do bem i no orçamento no
∑p q
i =1
i
0
i
0
período inicial), podemos escrever:
p11 p12 p1n p 0n q 0n

L= × w1
0
+ × w 0
2 + … + ×
p 10 p02 p 0n n
∑ p0i q0i i =1
i
n
p
L= ∑p
i =1
1
i
× w0i
0
Portanto, o índice de preços de Laspeyres é uma média aritmética de relativos de preços,

ponderada pela participação que cada bem representa no orçamento na época inicial
(base).
FALSA
(2) O índice de preço de Paasche é a média aritmética de relativos de preços

ponderados pelo valor de cada bem na época base.
Resposta:
O índice de Paasche é dado por:

n
∑p q
i =1
i i
1 1
P= n
∑p q
i =1
i i
0 1
Que podemos escrever como:

1
P= n
∑ p0i q1i
i =1
n
∑p q
i =1
i i
1 1
Desmembrando, temos:
1
P= 1 1 2 2
p q p q p 0n q1n
n
0 1
+ n
0 1
+…+ n
∑ p1i q1i
i =1
∑ p1i q1i
i =1
∑p q
i =1
i i
1 1
Multiplicando e dividindo cada termo por p1i , obtemos:

1
P= 1 2
p0 1 1
p1 q1 p0 p12 q12 p 0n p1n q1n
× + × + … +
p11 n
p12 n
p1n n i i
∑ 11
p i i
q
i =1
∑ 11p i i
q
i =1
∑ p1 q1 i =1
p1i q1i
Fazendo w1i = n
(que representa a participação no orçamento do bem i no
∑p q
i =1
i i
1 1
período atual), temos:
1
P= 1 2
p p pn
× w11 +
0
1
× w12 + … + 0n × w1n
0
2
p 1 p p1
1
1
P= n
p 0i
∑
i =1 p1 i
× w1i
Assim, o índice de preços de Paasche é a média harmônica de relativos de preços

ponderados pela participação que cada bem representa no orçamento na época atual.
FALSA
(3) Os índices de Laspeyres e Paasche atendem ao critério de reversão do tempo.

Resposta:
Para atender ao critério de reversão no tempo, deve-se verificar que:
I01 × I10 = 1
Ou seja, se calcularmos o índice do período 1 em relação ao período 0 e encontrarmos

um aumento de preços, teríamos que encontrar uma diminuição dos preços da mesma
magnitude ao calcularmos o índice do período 0 em relação ao período 1.
Vejamos se os índices de Laspeyres e Paasche atendem a esse critério:

n n
∑ p1i q0i ∑p q i i
0 1
L01×L10 = i =1
n
× i =1
n
≠1
∑p q
i =1
i
0
i
0 ∑p q
i =1
i i
1 1
n n
∑ p1i q1i ∑p q i
0
i
0
P01×P10 = i =1
n
× i =1
n
≠1
∑p q ∑p q
i =1
i i
0 1
i =1
i
1
i
0
Dessa forma, os índices de Laspeyres e Paasche não atendem ao critério de reversão no

tempo.
FALSA
(4) A diferença entre os índices de Laspeyres e Paasche está na forma como os

relativos são ponderados.
Resposta:
A diferença entre os índices de Laspeyres e Paasche está na forma como os preços são
ponderados: o índice de Laspeyres utiliza as quantidades iniciais e o índice de Paasche
as quantidades finais.
n n
∑p q
i =1
i
1
i
0 ∑p qi =1
i i
1 1
L= n
P= n
∑p q
i =1
i
0
i
0 ∑p q
i =1
i i
0 1
Como vimos nos itens (1) e (2) dessa questão, esses índices podem ser escritos como
médias ponderadas de relativos de preços: o índice de Laspeyres como uma média
aritmética de relativos ponderados pela participação no orçamento de cada bem na
época base e o de Paasche como uma média harmônica de relativos ponderados pela
participação de cada bem na época atual.
n
p1i 1
L= ∑ p0i
× w0i P= n
p 0i
i =1
∑
i =1 p1i
× w1i
VERDADEIRA
(ANPEC 2004, 01) Dadas as seguintes informações:

Σp1q0 = 32 Σp1q1 = 48
Σp0q0 = 25 Σp0q1 = 41
É correto afirmar que o valor dos índices especificados abaixo, para o período t = 1 (use
duas decimais) é:
(0) Laspeyres de preço: 1,64.

Resposta:
O índice de preços de Laspeyres é dado por:
L=
∑pq 1 0
=
32
= 1,28
∑p q 0 0
25
FALSA
(1) Paasche de preço: 1,17.

Resposta:
O índice de preços de Paasche é dado por:
P=
∑ p 1 q 1 48
= ≅ 1,17
∑ p 0 q 1 41
VERDADEIRA
(2) Laspeyres de quantidade: 1,28.

Resposta:
O índice de quantidade de Laspeyres é dado por:
Lq =
∑ p 0 q 1 = 41 = 1,64
∑ p 0 q 0 25
FALSA
(3) Paasche de quantidade: 1,20.

Resposta:
O índice de Paasche de quantidade é dado por:
Pq =
∑ p 1 q 1 48
= = 1,50
∑ p 1 q 0 32
FALSA
(4) Um índice de valor que satisfaça ao critério de decomposição de causas: 1,50.

Resposta:
Sabemos que o índice de valor é:
V01 =
∑ p1q1
=
48
= 1,92
∑ p q 25
0 0
Para atender ao critério de decomposição das causas (circularidade), deve-se

verificar V01 × V12 = V02. Vejamos se isso vale para o índice de valor:
V01 × V12 =
∑ pq1 1
×
∑pq
2 2
=
∑pq 2 2
= V02
∑p q0 0
∑pq
1 1
∑p q 0 0
Portanto, este índice satisfaz ao critério de decomposição das causas e, como

vimos, é igual a 1,92.
FALSA
(ANPEC 2003, 01) Com relação aos números índice, é correto afirmar que:
(0) o índice de Fisher é uma média harmônica dos índices de Paasche e Laspeyres.
Resposta:
O índice de Fisher é uma média geométrica dos índices de Paasche e
Laspeyres:
F= L× P
FALSA
(1) o índice de preços de Laspeyres é uma média harmônica de relativos de preços

ponderados pelo valor dos bens no período base.
Resposta:
O índice de preços de Laspeyres é uma média aritmética de relativos de preços
ponderados não pelo valor dos bens, mas pela proporção que cada produto representa
no orçamento no período base (w0):
p1
L= ∑p 0
× w0
FALSA
(2) o índice de preços de Paasche é uma média aritmética de relativos de preços

ponderados pelo valor dos bens no período atual;
Resposta:
O índice de Paasche é uma média harmônica de relativos de preços ponderados
pela proporção que cada produto representa no orçamento no período atual (w1), e
não pelo valor dos bens:
1
P=
p0
∑ p1
× w1
FALSA
(3) embora os índices de Laspeyres e de Paasche não satisfaçam ao critério da

decomposição das causas, o produto cruzado de um Laspeyres de preço por um
Paasche de quantidade satisfaz;
Resposta:
O produto cruzado de um índice de preço de Laspeyres por um índice de
quantidade de Paasche é igual ao índice de valor:
Lp × Pq =
∑pq 1 0
×
∑pq 1 1
=
∑pq 1 1
=V
∑p q 0 0
∑pq 1 0
∑p q 0 0
Para atender ao critério de decomposição das causas (circularidade), devemos ter

que V01 × V12 = V02 . Vejamos se isso é válido para o índice de valor:
V01 × V12 =
∑pq 1 1
×
∑p q 2 2
=
∑p q 2 2
= V02
∑p q 0 0
∑pq 1 1
∑p q 0 0
Portanto, o produto cruzado de um Laspeyres de preço por um Paasche de

quantidade (ou seja, um índice de valor) satisfaz ao critério de decomposição das
causas.
VERDADEIRA
(4) o índice de Paasche de preços pode ser calculado pela divisão de um índice de valor
por um índice Laspeyres de quantidade.
Resposta:
Dividindo um índice de valor por um índice de Laspeyres de quantidade,
obtemos o índice de preços de Paasche:
V ÷ Lq =
∑pq
1 1
÷
∑p q 0 1
=
∑pq 1 1
= Pp
∑p q
0 0
∑p q 0 0
∑p q 0 1
VERDADEIRA
(ANPEC 2002, 02) Em relação a índices e deflacionamento de preços é correto

afirmar:
(0) Os índices de preços de Laspeyres e de Paasche geram, em geral, resultados

diferentes quando utilizados para avaliar a variação do nível dos preços de um
conjunto de produtos, mas ambos atendem à condição de reversão no tempo.
Resposta:
Apesar de ser verdade que os índices de preços de Laspeyres e de Paasche
produzem, em geral, resultados diferentes, ambos não atendem ao critério de reversão
no tempo, já que:
L01 × L10 =
∑pq 1 0
×
∑pq 0 1
≠1 P01 × P10 =
∑pq 1 1
×
∑pq 0 0
≠1
∑pq 0 0 ∑pq 1 1 ∑pq 0 1 ∑pq 1 0
FALSA
(1) Se um determinado índice de preços com ano base em 1992 assume os valores I95 =
300 e I96 = 400 em 1995 e 1996, respectivamente, então um produto com preço
corrente de R$ 10,00 em 1996, tem preço de R$ 7,50, em moeda de 1995.
Resposta:
Como queremos saber o preço de um produto que custava R$10,00 em 1996 em
moeda de 1995, basta deflacionarmos (ou seja, multiplicarmos pelo índice de 1995 e
dividirmos pelo índice de 1996) para obtermos:
300
10× = 7,50
400
VERDADEIRA
(2) Multiplicando-se um índice de preços de Laspeyres por um índice de quantidades de

Laspeyres, obtém-se um índice relativo de valor das vendas (I(Vt|V0)).
Resposta:
Multiplicando um índice de Laspeyres de quantidades por um índice de Laspeyres
de preços, obtemos:
Lp × Lq =
∑pq ×∑pq
1 0 0 1
=
∑pq ∑pq
1 0 0 1
,
∑p q ∑p q
0 0 0 0 (∑ p q ) 0 0
2
o que, sem dúvida, não é um índice relativo de valor.

FALSA
(3) Se os preços dos automóveis aumentam em 20% e isso se reflete em um aumento de

0,1% no ICV0-3SM (Índice de Custo de Vida de 0 a 3 salários mínimos) e em um
aumento de 1,2% no ICV10-20SM, então o peso dos automóveis nas despesas dos
famílias típicas com renda entre 10-20 SM é 12 vezes maior do que nas famílias
típicas com renda entre 0 a 3 SM.
Resposta:
Se todos os outros preços permaneceram constantes, então a variação no índice
de custo de vida será dada por (considerando o índice de preços de Laspeyres):
∆ICV = ∆p × w 0
Como houve um aumento de 20% nos preços dos automóveis que significou um
aumento de 0,1% no ICV0-3SM e um aumento de 1,2% no ICV10-20SM, temos que:
∆ICV0-3SM = ∆p× w 00−3 SM
0,001 = 0,20 w 00 -3SM
0,001
w 00-3SM = = 0,005 = 0,5%
0,20
∆ICV10-20SM = ∆p× w 100 − 20 SM

0,012 = 0,20 w 100 -20SM
0,012
w 100 -20SM = = 0,06 = 6%
0,20
Dessa forma, o peso dos automóveis nas despesas das famílias com renda entre
10-20 SM é 12 vezes maior que das famílias com 0 a 3 salários mínimos, já que
12× 0,5% = 6%.
VERDADEIRA
(4) Para calcular o índice de preços de Paasche para uma série de anos requer-se menos
informação do que para calcular o índice de Laspeyres.
Resposta:
Para calcular o índice de preços de Paasche requer-se bem mais informação do
que para calcular o índice de Laspeyres, já que se utiliza as quantidades atuais para o
cálculo em cada ano. Dessa forma, além de informações anuais dos preços dos produtos,
deve-se também pesquisar as quantidades anuais consumidas dos produtos, o que não é
uma tarefa fácil. Já o índice de Laspeyres necessita apenas de informações atualizadas
dos preços, já que utiliza como ponderação as quantidades iniciais.
FALSA
(ANPEC 2001, 02) Em relação a índices de preços, é correto afirmar:

(0)Os índices de Laspeyres e Paasche permitem comparar o custo de aquisição de uma
cesta de mercadorias no período t, com o custo de aquisição dessa mesma cesta de
mercadorias no período base.
Resposta:
É exatamente para isso que são usados os índices de preços: para comparação do
custo de aquisição de cestas de mercadorias em dois períodos, e, tanto o índice de
Laspeyres quanto o de Paasche cumprem essa tarefa, com a diferença que o índice de
Laspeyres utiliza a cesta de mercadorias do período base, enquanto o de Paasche, a do
período atual.
VERDADEIRA
(1) O índice de Laspeyres subestima a variação do preço entre dois momentos
enquanto o índice de Paasche superestima.
Resposta:
Sabemos que, em geral, o índice de preços de Laspeyres é maior que o índice de
preços de Paasche. Portanto, em geral, o índice de preços de Laspeyres superestima a
variação do preço entre dois períodos enquanto o índice de preços de Paasche
subestima.
FALSA
(2) O índice de Fischer é dado pela média harmônica dos índices de Laspeyres e
Paasche e obedece ao critério da decomposição das causas.
Resposta:
O índice de Fisher é dado pela média geométrica dos índices de Laspeyres e
Paasche (F = L × P ) e não obedece ao critério de decomposição das causas
(circularidade), já que:
n n n n
∑ pi1 qi0 ∑ pi1 qi1 ∑ pi2 qi1 ∑p q 2

i
2
i
F01 × F12 = L01 × P01 × L12 × P12 = i =1

n
× i =1
n
× i =1
n
× i =1
n
≠ F02
∑ pi0 qi0
i =1
∑ pi0 qi1
i =1
∑ pi1 qi1
i =1
∑ pi1 qi2
i =1
FALSA
(3) Se o preço de determinado produto teve acréscimo de 16% e provocou

crescimento do índice de custo de vida de 0,4%, então esse produto representa 2,5% das
despesas da família típica objeto da pesquisa de orçamentos familiares.
Resposta:
Mantendo todos os outros preços constantes e considerando o índice de preços
de Laspeyres, temos que a variação no índice de custo de vida será dada por:
∆ICV = ∆p × w 0
Portanto:
0,004 = 0,16w 0
0,004
w0 = = 0,025 = 2,5%
0,16
VERDADEIRA
(4) Tomando o ano zero como base, foram observados os seguintes valores para o
ano 1: índice do PIB nominal = 120; índice de quantidade de Laspeyres = 80. Pode-se
então concluir que a taxa de inflação no período, medida pelo deflator implícito do PIB,
foi de 50%.
Resposta:
Aqui temos que calcular o valor do deflator implícito do PIB. E, para isso, foram
fornecidos os valores do índice do PIB nominal e do índice de quantidade de Laspeyres,
que são dados por:
IPIBn =
∑pq 1 1
= 120
∑p q 0 0
Lq =
∑p q 0 1
= 80
∑p q 0 0
O deflator implícito do PIB é dado pelo quociente entre o PIB nominal e o PIB
real:
D=
PIB nominal
=
∑pq 1 1
PIB real ∑p q 0 1
PIB nominal = quantidades atuais a preços correntes.

PIB real = quantidades atuais a preços do ano-base
Dividindo o numerador e o denominador por ∑p q0 0

, obtemos:
∑pq 1 1
∑p q 0 0
=
índice PIB nominal
=
120
= 1,5
∑p q 0 1
índice de quantidade de Laspeyres 80
∑p q 0 0
Portanto, houve uma variação de 50% nos preços medida pelo deflator implícito do PIB.
VERDADEIRA
(ANPEC 2000, 2) A tabela abaixo apresenta, para os anos de 1994 e 1999, dados
hipotéticos sobre preços e quantidades vendidas de 6 diferentes produtos
comercializados por certa companhia. Calcule a variação percentual dos preços dos
produtos da companhia neste período, utilizando o índice de Paasche.
1994 1999
Tipo de pro Preço Quantidade Preço Quantidade
duto Vendida Vendida
A 5 80 20 100
B 7 100 6 1000
C 2 200 5 200
D 3 600 4 500
E 1 300 2 200
F 2 100 3 200
Solução:
Para calcularmos o índice de preços de Paasche, precisamos primeiro calcular
∑ p 1999 q 1999 e ∑ p 1994 q 1999 , o que é feito na tabela abaixo:
Tipo de produto P1994 × Q1999 P1999 × Q1999
A 500 2.000
B 7.000 6.000
C 400 1.000
D 1.500 2.000
E 200 400
F 400 600
Soma: 10.000 12.000
P=
∑ p 1999 q 1999
=
12.000
= 1,20
∑p q 1994 1999
10.000
Portanto, a variação percentual dos preços do produto dessa companhia nesse

período foi de 20.
(ANPEC 1999, 3) Com base na teoria dos Números Índices, pode-se afirmar que:
(0) Os índices de Laspeyres de preços e de quantidades podem ser obtidos ponderando-

se, respectivamente, os índices simples relativos de preços e de quantidades aos
diferentes bens pelos valores no período base.
Resposta:
O índice simples relativo de preços é dado por (índice agregativo simples):

n
∑p 1
i
I= i =1
n
∑p
i =1
0
i
Ponderando pelo valor da participação relativa de cada bem no período base
( wi ), obteremos o índice de preços de Laspeyres:
0
∑p 1
i
L= i =1
n
× wi0
∑p i =1
0
i
Já o índice simples relativo de quantidades é dado por:

n
∑q 1
i
Iq = i =1
n
∑q
i =1
0
i
Ponderando pelos preços, obteremos o índice de quantidade de Laspeyres:

n
∑q 1
i
Lq = i =1
n
× z i0
∑q
i =1
0
i
VERDADEIRA
(1) Em relação ao índice de Laspeyres e de Paasche, os de Fisher possuem duas

vantagens: observam a propriedade de reversão no tempo, e o índice de preços vezes
o de quantidade é igual ao índice de valor.
Resposta:
Sabemos que o índice de Fisher é dado pela média geométrica dos índices de Laspeyres
e Paasche
F = L×P
O critério de reversibilidade implica a seguinte condição:
F01 × F10 = 1
Para atender a este critério, teríamos que:
L01 × P01 × L10 × P10 = L01 × P01 × L10 × P10 =
=
∑p q 1 0
i i
×
∑p q ×∑p q ×∑p q
1 1
i i
0
i
1
i
0
i
0
i
= 1 =1
∑p q 0
i
0
i ∑p q ∑p q ∑p q
0
i
1
i
1 1
i i
1 0
i i
Portanto, o índice de Fisher atende ao critério de reversibilidade.

Vejamos agora se ele tem a propriedade de que o índice de preços vezes o de quantidade
é igual ao índice de valor:
∑pq ×∑pq ×∑p q ×∑pq

1 0 1 1 0 1 1 1
(∑ p q )
1 1
2
Fp × Fq = L × P × Lq × Pq = =
∑p q ∑p q ∑p q ∑pq
0 0 0 1 0 0 1 0
(∑ p q )
0 0
2
=
∑pq1 1
= índice de valor
∑p q
0 0
Portanto, esta propriedade também é satisfeita pelo índice de Fisher.

VERDADEIRA
(2) O índice de preços de Laspeyres é, em geral, maior do que o índice de preços de

Paasche, pois para o primeiro, a ponderação é fixa na época base e para o segundo é
variável na época atual.
Resposta:
Em geral, o índice de preços de Laspeyres é realmente maior que o de Paasche.
Cabe notar que o índice de preços de Laspeyres será maior que o de Paasche quando o
coeficiente de correlação entre preço e quantidade for negativo, situação que é mais
comum (um aumento no preço provoca uma diminuição na quantidade). Porém, é bem
possível que o coeficiente de correlação entre preço e quantidade seja positivo e, nesse
caso, o índice de preços de Paasche será maior que o de Laspeyres.
VERDADEIRA
(3) Os índices de Fisher, definidos como a média geométrica dos índices de Laspeyres e
de Paasche, são sempre maiores do que estes dois últimos.
Resposta:
O índice de Fisher, sendo uma média geométrica dos índices de Laspeyres e de Paasche,
estará sempre entre estes dois, nunca será maior.
FALSA
(ANPEC 1998, 12) Com base na equação da Renda Nacional (Y = C + I + X - M) e nos

dados a seguir, calcule a Renda Nacional em 1996, a preços constantes de 1990.
RENDA NACIONAL A PREÇOS CORRENTES

(em milhões de unidades monetárias)
COMPONENTES 1990 1996
Consumo ( C ) 15,0 20,0

Investimento ( I ) 5,0 8,4
Exportação ( X ) 2,0 3,0
Importação ( M ) 1,0 1,8
Renda Nacional ( Y ) 21,0 29,6
DEFLATORES
(Base: 1990 = 100)
ÍNDICES 1996
Custo de Vida 125

Investimento 105
Exportações 150
Importações 180
Solução:
Note que o exercício fornece os valores nominais (tanto da renda quanto de cada
um de seus componentes). Portanto, teremos que deflacionar cada um dos componentes
da renda, utilizando seus respectivos deflatores (fornecidos na segunda tabela). O
quadro abaixo mostra o cálculo realizado e os valores deflacionados:
COMPONENTES 1996 a preços de

1990
Consumo ( C ) 20,0 100 16
20 ×
125
Investimento ( I ) 8,4 100 8
8,4 ×
105
Exportação ( X ) 3,0 100 2
3×
150
Importação ( M ) 1,8 100 1
1,8 ×
180
Com esses valores deflacionados, podemos agora facilmente obter o valor da

renda nacional em 1996 a preços de 1990:
Y=C+I+X-M
Y = 16 + 8 + 2 - 1
Y = 25
Miscelâneas

(0) Se X é uma variável aleatória com distribuição normal de média µ e variância σ 2 ,
então Z=
( X − µ)
2
segue uma distribuição χ 2 com 1 grau de liberdade.
σ2
Resposta:
Sabemos que a soma de n variáveis aleatórias normais padronizadas ao quadrado segue
a distribuição χ 2 com n graus de liberdade. E como Z é uma variável normal
padronizada ao quadrado, segue a distribuição χ 2 com 1 grau de liberdade.
VERDADEIRA
(1) Se X1, ..., Xn são variáveis aleatórias identicamente distribuídas com distribuição
n
Bernoulli com parâmetro p, então Z = ∑ X i segue uma distribuição Poisson.
i =1
Resposta:
Como Z é a soma de n variáveis de Bernouilli, seguirá a distribuição binomial. Cabe
lembrar, porém, que quando n é grande e p pequeno, a distribuição binomial pode ser
aproximada pela distribuição de Poisson. Mas esse não é o caso!
FALSA
(2) Se X é uma variável aleatória com distribuição t com n graus de liberdade, então
Z = X 2 segue uma distribuição F com 1 e n graus de liberdade.
Resposta:
Uma variável aleatória com distribuição t de Student e n graus de liberdade, ao

quadrado, segue realmente a distribuição F com 1 e n graus de liberdade. Vejamos.
Sabemos que:
x−µ
σ
n
~ tn
S
σ
Elevando ao quadrado, temos que:

(x − µ)
2
(x − µ)
2
σ2
n = σ2
S2 nS 2
σ2 σ2
Note que o numerador da expressão acima é uma variável normal padronizada ao
quadrado e, portanto, segue a distribuição qui-quadrado com 1 grau de liberdade. E no
denominador, temos também uma variável aleatória que segue a distribuição qui-
quadrado com n graus de liberdade. Dessa forma:
(x − µ)
2
σ2 ~ F(1,n)
nS 2
σ2
VERDADEIRA
(3) Se X é uma variável aleatória Poisson com média λ , então a variância de X é λ2 .

Resposta:
A distribuição de Poisson é o limite da distribuição binomial, quando n (o tamanho da

amostra) tende ao infinito e p (probabilidade de ocorrência de sucesso) tende a zero, de
modo que np permaneça constante. Portanto, a média e a variância de uma variável
aleatória X com distribuição de Poisson serão dadas respectivamente por:
E(X) = np = λ
Var(X) = np(1-p) = np = λ
Dessa forma:
E(X) = var(X) = λ
FALSA
(4) Se a variável X = lnY segue uma distribuição normal, então Y segue uma
distribuição lognormal.
Resposta:
Uma variável aleatória tem distribuição lognormal se seu logaritmo seguir uma
distribuição normal. Dessa forma, se a variável X = lnY é normalmente distribuída,
então Y = e X realmente seguirá a distribuição lognormal. Note que ln(.) é definido
apenas para valores positivos. E como grande parte das variáveis econômicas assume
apenas valores positivos, a distribuição lognormal é muito utilizada em economia.
Sabemos que a f.d.p. da distribuição normal é dada por:

( x − µ )2
1 −
2σ 2
F(x) = e
2πσ 2
Aplicando o teorema 4.5.1 (Sartoris, 2003, p. 104), temos:
f(y) = v' ( y ) f (v( y ))
u(x) = e x
v(y) = lny
1
v’(y) =
y
Assim, a f.d.p. de uma distribuição lognormal é dada por:
(ln y − µ )2
1 −
2σ 2
f(y) = e
y 2πσ 2
VERDADEIRA
(ANPEC 2005, 13) Seja X 1 , X 2 , X 3 , ........, X 64 uma amostra aleatória independente

da variável X, que segue distribuição de probabilidade exponencial, com função
densidade
f ( x) = 2e −2 x , para x > 0 e, zero fora desse intervalo.
Usando o teorema central do limite e a tabela da distribuição normal, anexa, calcule a
probabilidade de que a média amostral X seja maior que ou igual a 0,5.
(Multiplique o resultado por 100).
Solução:
Pelo Teorema do Limite Central, sabemos que a média amostral X segue uma
σ2
distribuição normal com média µ e variância , desde que a amostra seja
n
suficientemente grande. Para podermos consultar a tabela, precisamos padronizar a
variável:
X −µ
~ N(0,1)
σ
n
Para tanto, precisamos encontrar a média e a variância da variável aleatória X. Sabemos

que a média e a variância de uma distribuição exponencial são dadas, respectivamente,
por (veja questão ANPEC 2004, 8, item (0)):
1
E(X) = = 0,5
β
1
var(X) = =4
β2
E o desvio-padrão:
dp(X) = 4=2
0,5 − 0,5
= 0,00
2
64
Portanto, P( X ≥ 0,5) = P(z ≥ 0) = 0,5.
Multiplicando o resultado por 100, como pede o exercício, chegaremos ao valor de 50.
(ANPEC 2000, 03) Dados os seguintes enunciados envolvendo variáveis aleatórias, é

correto afirmar que:
(0) Se Y* = a + bY2 e X* = c + dX2, em que a, b, c, d são constantes reais, (b,d)> 0,

E(X) = E(Y)=0, então correlação (Y*, X*) = correlação (Y,X).
Resposta:
O coeficiente de correlação é uma medida de dependência LINEAR entre as
variáveis. Portanto, não se pode afirmar que o coeficiente de correlação entre (Y,X) será
igual ao de (Y*, X*), que não são funções lineares de Y e X.
Por exemplo, se W = X2, e X é uma variável com distribuição uniforme de média
zero, isto é, E(X) = 0.
A covariância entre W e X será dada por

cov(X,W) = E(WX) – E(X)E(W)
cov(X,W) = E(X3) – E(X)E(X2)
É possível verificar que E(X3) = 0, então:
cov(X,W) = 0 – 0×E(X2) = 0
Portanto, o coeficiente de correlação será zero, ainda que a relação entre W e X seja
exata – porém, não linear.
FALSA
(1) Se (Y,X) possuem uma distribuição Normal bivariada, então, segue-se que
E(Y|X) = a + b Y, em que a e b dependem dos momentos de Y e X.
Resposta:
E(Y|X) é chamada de regressão de Y em X. De fato, é possível mostrar que, se X e
Y têm distribuição normal bivariada E(Y|X) = a + bX, a e b constantes (e não a + bY).
Independente disso, E(Y|X), isto é, a esperança de Y dado X será função de X, nunca de
Y.
FALSA
(2) Se X ~ Normal(0,1) então Y= eX tem distribuição lognormal com E(Y)= e1/2.

Resposta:
Sabemos que se X segue uma distribuição normal e Y = eX (ou seja, lnX = Y), então
Y realmente seguirá uma distribuição log-normal e sua média será dada por:
σ2
µ+
E(Y) = e 2
Como nesse caso, X segue a distribuição normal padronizada, ou seja, com média
zero e variância igual a 1, temos que a média de Y será:
σ2 1 1
µ+ 0+
E(Y) = e 2
=e 2
= e2
VERDADEIRA
(3) Se (X,Y) possuem densidade conjunta f(x,y) = φ2 e-φ y, φ >0, e 0 ≤ x ≤ y, então

E(X)= 1/φ.
Resposta:
Antes de calcularmos a esperança de X, devemos encontrar a f.d.p. marginal de X
(g(x)), o que é feito integrando em Y:
∞
g(x) = ∫ f ( x, y)dy
X
g(x) = ∫ φ 2 e −φy dy
X
+∞
g(x) = φ 2 ∫ e −φy dy
x
+∞
− e −φy
g(x) = φ 2
φ x
e −φx
g(x) = φ 2
φ
g(x) = φ e-φx
Portanto:
∞
E(x) = ∫ xg ( x)dx
0
∫ xφe
−φx
E(x) = dx
0
Para calcular a integral acima, devemos utilizar o método de integração por partes.
Façamos f(x) = x e g'(x) = e-φx. Temos que:
∫ f ( x) g ' ( x)dx = f ( x) g ( x) − ∫ g ( x) f ' ( x)dx
Portanto:
∞
E(x) = φ ∫ f ( x) g ' ( x)dx

0
∞
− e −φx ∞
− e −φx
E(x) = φ x( )−∫ dx
φ 0 φ 0
∞
xe −φx 1 ∞
E(x) = φ − + ∫e dx
−φx
φ φ 0 0
xe −φx 1 − e −φx
E(x) = φ − +
φ φ φ 0
∞
xe −φx e −φx
E(x) = φ − −
φ φ 2
0
1
E(x) = φ
φ 2
1
E(x) =
φ
Nota: obviamente, o mesmo resultado seria obtido se tivéssemos calculado E(x) =
∞ y
∫ ∫ xf ( x, y)dxdy .
0 0
VERDADEIRA
(ANPEC 2000, 13) Dados os seguintes enunciados envolvendo variáveis aleatórias, é

correto afirmar que:
(0) Se X é uma variável aleatória com média µ finita e variância σ2 = 1, então
Pr ( |X - µ | ≤ 2) ≥ 0.75.
Resposta:
Sabemos, pelo Teorema de Tchebichev (ver questão 13 de 2004) que:
σ 2
P(|X - µ| ≤ ∈ ) ≥ 1 -
∈2
Nesse caso, ∈ = 2 e σ2 = 1. Portanto:
1
P(|X - µ| ≤ 2) ≥ 1 -
4
P(|X - µ| ≤ 2) ≥ 1 - 0,25
P(|X - µ| ≤ 2) ≥ 0,75
VERDADEIRA
(1) E( eX) ≤ eµ, em que E(X) = µ.
Resposta:
Suponha que X assuma apenas dois valores:
X1 = 1
X2 = -1
A média de X será dada por:

1 + (−1)
E(X) = µ = =0
2
Nesse caso, eµ será:
eµ = e0 = 1
E E(ex) será:
e 1 + e −1 2,71828 + 0,37
E(ex) = = = 1,54414
2 2
Note que não precisaríamos ter terminado esta conta. Bastaria lembrar que e é um
número maior que 2, e como temos uma soma no numerador de números que não são
negativos, o numerador será maior que o denominador, o que vale dizer, essa divisão
será maior que 1. E como tínhamos encontrado que eµ = 0, temos que, nesse caso, E(ex)
> eµ.
FALSA
(2) {E[(X-E(X))(Y- E(Y))]}2 ≥ E[X-E(X)]2 E[Y-E(Y)]2, desde que todos os momentos

necessários ao cálculo de cada uma destas expressões existam.
Resposta:
O primeiro termo da desigualdade acima é a covariância de X e Y ao quadrado. E o
segundo termo é o produto da variância de X e da variância de Y. Vejamos se essa
desigualdade é realmente válida.
cov(X,Y)2 ≥ var(X) var(Y)
Passando o segundo termo da expressão acima para o primeiro temos que:
cov( X , Y ) 2
≥1
var( X ) var(Y )
Alguma coisa familiar na expressão acima? O primeiro termo dessa desigualdade
nada mais é que o coeficiente de correlação ao quadrado de X e Y:
2
cov( X , Y ) cov( X , Y ) cov( X , Y ) cov( X , Y ) 2

ρ 2
( X ,Y )
= = × =
var( X ) var(Y ) var( X ) var(Y ) var( X ) var(Y ) var( X ) var(Y )
Sabemos que o coeficiente de correlação pode assumir valores entre -1 e 1. Portanto

o coeficiente de correlação ao quadrado jamais será maior que 1 (já que o valor máximo
assumido ao quadrado, 12, é igual a 1). Assim sendo, o correto seria:
{E[(X-E(X))(Y- E(Y))]}2 ≤ E[X-E(X)]2 E[Y-E(Y)]2
FALSA
(3) E(Var(Y|X)) ≤ Var(Y).

Resposta:
A variância de Y pode ser escrita como (RAMANATHAN, 1993, p.89):
var(Y) = E[var(Y|X)] + var[E(Y|X)]
Rearranjando, temos:
E[var(Y|X)] = var(Y) - var[E(Y|X)]
E como a variância é um número sempre positivo, temos que:
E[var(Y|X)] ≤ var(Y)
VERDADEIRA
(4) Se Y e X são variáveis aleatórias independentes, ambas com média e variância

finitas, então a variância da variável Z= Y/X será dada por Var (Z) = Var(Y) /
Var(X).
Resposta:
Suponha que X seja uma constante. Nesse caso, teremos:
Y 1 var(Y)
var(Z) = var = 2 var(Y) ≠
X X var(X)
Um outro exemplo seria o da distribuição t de Student, que é o quociente entre uma

variável normal padronizada e uma variável χ2 dividida pelo seu respectivo grau de
liberdade:
U
t= onde U ~ N(0,1) e V ~ χ k2
V k
k
Sabemos que a variância da distribuição t de Student é dada por . Portanto, temos
k −2
que:
U k var(U ) 1 k
var(t) = var = ≠ = =
V k k − 2 var(V / k ) 2k / k 2
2
FALSA
(ANPEC 1999, 09) Podemos afirmar que:
(0) Pelo Teorema do Limite Central podemos afirmar que se a variável aleatória X tem
uma distribuição qualquer com média µ e variância σ2, então a distribuição de X
(média da amostra) aproxima-se da distribuição normal com os mesmos parâmetros
média µ e variância σ2, quando o tamanho da amostra aumenta.
Resposta:
Pelo Teorema do Limite Central, sabemos que se uma variável aleatória tem uma
distribuição qualquer com média µ e variância σ2, então a sua média amostral terá uma
σ 2
distribuição normal com média µ e variância para amostras suficientemente

n
grandes.
FALSA
(1) Sejam as variáveis aleatórias X i (i= 1, 2, …, 10) independentes e normalmente

distribuídas com média µ = 10 e desvio padrão σ = 2. Então, se
10
Y = ∑ X i podemos afirmar que, a medida que n cresce, Y tende para uma

i =1
distribuição normal com média E(Y) = 1 e V(Y) = 0,2.

Resposta:
10
Note que Y = ∑ X i pode ser escrito como:

i =1
10
∑X i
Y= n i =1
= nX
n
E sabemos que a variável nX seguirá uma distribuição normal com média nµ e
variância dada por nσ2:
E( nX ) = n E( X ) = nµ
2σ
2
2
var( nX ) = n var( X ) = n = nσ2
n
Portanto:
E(Y) = nµ = 10× 10 = 100

var(Y) = nσ2 = 10 × 2 = 20
FALSA
(2) Uma distribuição binomial tende a uma distribuição normal quando o número n de
provas independentes de Bernoulli cresce.
Resposta:
Abaixo temos o histograma da distribuição binomial com p = 0,5 para diferentes valores
de n:
n=2 n=3
n=5 n = 10
Note que à medida que aumentamos o tamanho da amostra (ou seja, à medida que o
número de provas de Bernouilli aumenta), a distribuição binomial se aproxima cada vez
mais da distribuição normal e, dessa forma, a distribuição binomial pode ser aproximada
pela distribuição normal para valores grandes de n.
VERDADEIRA
(3) Se a distribuição de probabilidade de uma variável aleatória X é conhecida, podemos

calcular sua esperança e sua variância, se existirem. Embora a recíproca não seja
verdadeira, poderemos estabelecer um limite superior (ou inferior) muito útil para
as probabilidades da distribuição através do uso da desigualdade de Tchebycheff.
Resposta:
Conhecida a distribuição de probabilidade de uma variável aleatória, podemos

calcular sua esperança e variância. Porém, dadas a esperança e a variância de uma
distribuição, não é possível encontrarmos sua distribuição de probabilidade. A
desigualdade de Tchebichev nos permite estabelecer limites para as probabilidades da
distribuição, dadas apenas a média e a variância.
VERDADEIRA
(4) Para qualquer tamanho de amostra, a distribuição amostral de proporções de uma
amostra de sucessos é mais dispersa quando a proporção populacional é igual ½ e é
menos dispersa quando a proporção populacional é igual a zero ou a um.
Resposta:
Sabemos que a variável em questão possui distribuição binomial. A sua variância será
dada então por:
var(p) = p× (1-p)
1
Quando a proporção populacional for igual a teremos:
2
1 1 1
var(p) = × 1− =
2 2 4
E quando for igual a zero:

var(p) = 0× (1-0) = 0
E para p = 1:
var(p) = 1× (1-1) = 0
Portanto, quando a proporção populacional for igual a zero ou 1, a sua distribuição será
1
menos dispersa que quando for igual a .
2
VERDADEIRA
(ANPEC 1998, 04) Com relação às distribuições de probabilidade conjunta e

marginais, pode-se afirmar que:
(0) Se a função densidade conjunta de (X,Y), f(x,y), pode ser fatorada na forma f(x,y)
= f(x).g(y) , onde f(x) e g(y) são ,respectivamente, as funções densidade de X e Y,
então as variáveis aleatórias X e Y são independentes.
Resposta:
De fato, se f(x,y) = f(x).g(y), então x e y são independentes (e a recíproca é
verdadeira).Isto é mostrado abaixo:
Se as variáveis são independentes, então a probabilidade condicional é igual à
probabilidade não condicional, ou seja:
fx|y = f(x)
fy|x = g(y)
E sabemos que a probabilidade condicional é dada por:
f ( x, y )
fx|y =
g ( y)
Então:
f(x,y) = fx|y × g(y)
Mas, se as variáveis são independentes, fx|y = f(x). Portanto:
f(x,y) = f(x) × g(y)

Sendo assim, se a f.d.p. conjunta de X e Y puder ser fatorada na forma acima, as
variáveis necessariamente são independentes.
VERDADEIRA
(1) Se a variável aleatória bidimensional (X,Y) é uniformemente distribuída, de acordo

com a função densidade conjunta f ( x , y ) = 2 , para 0 < x < y < 1 e, 0 fora deste
intervalo, então E(X)=1/2.
Resposta:
Sabemos que o valor esperado de X será dado por:
1 y
0 0
1 y
E(X) = ∫ ∫ x2dxdy
0 0
1 y
E(X) = ∫ 2 ∫ xdxdy
0 0
y
1
x2
E(X) = ∫ 2 dy
0 2 0
1
y2
E(X) = ∫ 2 dy
0 2
1
E(X) = ∫ y dy
2
1
y3
E(X) =
3 0
1
E(X) =
3
FALSA
(2) Se as variáveis aleatórias X e Y são independentes, então E(X|Y) = E(X) e E(Y|X) =

E(Y).
Resposta:
Se X e Y são independentes, então o valor esperado de X não pode depender de Y, ou
seja, o fato que Y existe não muda em nada a esperança de X, e vice-versa. Sabemos
que:
E(X|Y) = X1×P(X1|Y) + X2×P(X2|Y) +... + Xn×P(Xn|Y)
Se X e Y são independentes, então P(Xi|Y) = P(Xi). Portanto:
E(X|Y) = X1×P(X1) + X2×P(X2) +... + Xn×P(Xn) = E(X)
O mesmo vale para variáveis contínuas, como vemos abaixo:
∞
E(X) = ∫ xf ( x)dx
−∞
E(X|Y) =
−∞
∫ xf x| y
dx ,
onde fx|y é a f.d.p. condicional de x.

Se as variáveis são independentes, então a probabilidade incondicional será igual à
probabilidade condicional e, portanto: fx|y = f(x). Sendo assim, temos:
∞
E(X|Y) =
−∞
∫ xf ( x)dx = E(X)
Isto também vale, analogamente, para Y: E(Y) = E(Y|X). Portanto, se duas variáveis são
independentes, a esperança incondicional será igual à esperança condicional.
VERDADEIRA
(3) Seja f(x) a função de densidade de probabilidade da variável aleatória contínua X,

∞
então P( −∞ < X < ∞) = ∫−∞
f ( x )dx = 1 .
Resposta:
Sabemos que:
b
P (a < X < b) = ∫ f ( x)dx
a
Fazendo -a e b tender ao infinito, temos:

∞
P (−∞ < X < ∞) = ∫ f ( x)dx
−∞
Que, como sabemos, é a soma de todas as probabilidades, e portanto deve ser igual a 1,
∞
ou seja, ∫ −∞
f ( x)dx = 1 .
VERDADEIRA
(4) Seja f(x) a função de densidade de probabilidade da variável aleatória contínua X,

∞
então podemos definir o valor esperado de X como E ( X ) = ∫ x. f ( x ). dx .
−∞
Resposta:
É exatamente esse o valor esperado de X para uma distribuição de probabilidade
contínua, como vimos no item (2) desta questão.
VERDADEIRA
Bibliografia
ENDERS, W. Applied Econometric Time Series. New York: John Wiley & Sons,
1994.
GREENE, W. Econometric Analysis. Upper Saddle River: Prentice Hall, 1997.
JUDGE, G.G.; GRIFFITHS, W.E.; HILL, R.C.; LÜTKEPOHL, H.; LEE, T.C. The
Theory and Practice of Econometrics. Nova York: John Wiley & Sons, 1985.
MEYER, P. Probabilidade: aplicações à estatística. São Paulo: Livros Técnicos e

Científicos, 1983.
PINDYCK, R.; RUBINFELD, D. Econometric Models and Economic Forecasts.

New York: McGraw-Hill, 1998.
RAMANATHAN, R. Introductory Econometrics. Fort Worth: The Dryden Press,

1989.
______. Statistical Methods in Econometrics. San Diego: Academic Press, 1993.
SARTORIS, A. Estatística e Introdução à Econometria. São Paulo: Saraiva, 2003.
WOOLDRIDGE, J. M. Introductory Econometrics: A Modern Approach. United

States: Thomson South-Western, 2003.

ANPEC - 2006 - Caderno Estatistica

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ANPEC - 2006 - Caderno Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

Ordem dos Economistas de São Paulo

Questões resolvidas de Estatística

50% vermelhas (VM)

30% azuis (A)

20% verdes (V)

Dessa forma, em uma amostra de cinco lâmpadas, a probabilidade de duas serem

P(2VM, 2V, 1A) = 30×0,003

P(2VM, 2V, 1A) = 0,09

Multiplicando por 100 como pede o exercício, chegaremos ao valor de 09.

(ANPEC 2003, 12) Três máquinas, A, B e C, produzem respectivamente 50%, 30% e

(ANPEC 2002, 01) Considere o espaço amostral S, os eventos A e B referentes a S e a

(0) Se P(A) = 1 , P(B) = 1 , e A e B são mutuamente exclusivos, então P(A ∩ B)

(1) Se A ⊂ B, então P(A|B) ≤ P(A).

(2) Se P(A) = 1 , P(B) = 1 e P(A ∩ B) = 1 , então P(AC ∩ BC) = 5 , em que AC

Calculemos P(A ou B), ou seja, a região branca do diagrama de Venn acima:

(4) Se P(A|B) = 0 então A e B são independentes.

(ANPEC 2001, 01) Os formandos de determinada faculdade de economia tomaram as

(0) A probabilidade de que as mulheres continuem estudando é aproximadamente

(2) Se a probabilidade de ser aprovado no exame de seleção para mestrado em

(ANPEC 2000, 01) Considere a terna (S,Σ,P), em que S ≠ ∅ é o conjunto Universo, Σ

Considere o diagrama de Venn abaixo (os valores marcados correspondem às

P(A) = 0,1 + 0,15 + 0,1 + 0,05 = 0,4

P(A∩B) = 0,1 + 0,05 = 0,15

Dessa forma, temos que P(A∩B∩C) = P(A)×P(B)×P(C) = 0,1. Mas, tomando os

Ou seja, a probabilidade condicional é diferente da probabilidade incondicional

P(A∪B) = P(A) + P(B)

(2) Seja S um espaço amostral e A e B dois eventos quaisquer associados a S. Então

Já que, como mostra o digrama de Venn abaixo, P(A e B) + P ( A e B) = P(B).

P(voto ser de uma mulher e ser para o candidato A)

0,45 × 0,60 0,27

(0) Se A, B e C são eventos de Γ , então o evento “exatamente um dos eventos ocorre” é

(1) Se A e B são dois eventos quaisquer de Γ, então P(A ∪ B) ≥ P(A) + P(B).

(2) Se A e B são dois eventos quaisquer de Γ, onde P(A)=1/2 , P(B)=1/3 e P(A∪B)

(ANPEC 1998, 03) A tabela de contingência a seguir apresenta os dados de uma

Grupo Retorno sobre o capital próprio Total

Com base nestas informações, verifique as seguintes afirmações:

(0) Se selecionarmos uma empresa ao acaso, a probabilidade da empresa ser do grupo

(1) Se selecionarmos uma empresa ao acaso, a probabilidade da empresa ser do grupo I

(3) Se duas empresas diferentes são escolhidas ao acaso, a probabilidade de sair

(4) O evento “grupo I” independe estatisticamente do evento “retorno sobre o capital

A média do retorno da carteira (Rc) será dada por:

(1) A média do retorno da carteira é: E ( RC ) = a1 + a 2 + a3 .

Como já calculamos no item anterior, a média do retorno da carteira é dada por:

A variância de RC é dada por:

Como RF é uma constante:

var( RC ) =var( a1 R A ) + var( a 2 RB ) + 2cov( a1 R A , a 2 RB )

Utilizando as propriedades da variância e covariância, temos que:

var( RC ) = a12 var( R A ) + a 22 var( RB ) + 2 a1 a 2 cov( R A , RB )

Como var( R A ) = var( RB ) = 1 e cov( R A , RB ) = 0,5:

(4) O coeficiente de correlação entre RA e RB é 0,25.

O coeficiente de correlação entre RA e RB é dado por:

(1)Se a função densidade conjunta de x e y for f ( x, y ) = e − x − y , x > 0, y > 0 e

f(x,y) = e-x × e-y para x> 0 e y> 0

f(x,y) = f(x) × f(y)

O que é característica de variáveis aleatórias independentes. E se as variáveis são

cov(x,y) = E(xy) - E(x)E(y)

Primeiramente então temos que calcular as esperanças acima. Vejamos como.

Agora podemos calcular cov(x,y):

Lembrando que A e B são eventos independentes, temos que:

E se a covariância é igual a zero, o coeficiente de correlação também será igual a zero:

(4) Se o coeficiente de correlação ρ ( x, y ) = 0, a covariância entre x e y também é zero.

(1) Em reais, o desvio-padrão será de R$ 3,00.

(2)Se ao preço original de cada artigo, um intermediário adicionar uma margem de

E(preço + 10) = E(preço) + E(10) = 45 + 10 = 55